跳到主要內容區
 

中央極限定理

最後更新日期 : 2025-12-22

中央極限定理

主要資料來源:《赤裸裸的統計學》,Charies Wheelan()

檳譯,中信出版社,2013

 

中央極限定理(Central Limit Theorem, CLT)在統計學中是一個非常重要、非常有用的觀念。以下是維基百科的說明:

中央極限定理指出,在適當條件下,從任何分佈的母體中隨機抽取足夠大的樣本(通常指 n 30),這些樣本的平均值所形成的抽樣分佈將近似於常態分佈。 此定理的重要性在於它提供了一個基礎,使得即使母體的原始分佈不明或是偏態的,仍然可以利用常態分佈的特性來分析樣本平均數的抽樣分佈,這在數理統計和誤差分析中具有廣泛的應用。 

想像一下,如果你從一個形狀怪異(例如嚴重偏斜)的池塘中撈魚,每次撈30條魚,然後算出這30條魚的平均長度,然後重複這個動作撈很多(組)。 中央極限定理告訴你,這些所有撈魚組的平均長度,會趨近於一個「常態分佈」(鐘形曲線),不管你撈魚的池塘是什麼樣子。

 

中重要的核心觀點如下:

 

  • 母體分佈不重要:

不論原始母群體的機率分佈是什麼形狀,只要抽取足夠大的樣本數,其樣本平均值的抽樣分佈都會趨近於常態分佈。 

 

  • 樣本數是關鍵:

樣本數n越大,樣本平均數的抽樣分佈就越接近常態分佈。 一般認為當n 30時即可視為大樣本。 

 

  • 抽樣分佈的特性:

樣本平均數的抽樣分佈其平均值會等於母體平均數,而標準差(即平均數之標準誤)則等於母體標準差除以樣本數的平方根(σ/√n)。 

 

那麼,中央極限定理要怎麼靈活運用以發揮其價值呢?以下舉出一些應用實例:

  1. 如果我們掌握了某個群體的具體訊息,就能推論出這個群體中正確抽取的隨機樣本情況。例如,教育局到某校隨抽取100位學生進行類似統考的測驗,這100位學生的成績可以作為考核該校學生程度的指標嗎?根據中央極限定理,這100位學生作為一個隨機樣本,他們的平均成績不會與全校學生的平均成績有很大的差異。當然,特別挑選的樣本就不行。

  1. 如果我們掌握了某個隨機取樣的訊息(平均數和標準差),就能對其所代表的群體做出令人驚訝的精確推理,這點剛好與上一點相反。如果教育局對所有轄下的學校都隨機抽取100位學生加以統測,以了解各校學生的程度,這是可行的嗎?中央極限定理告訴我們,這是可行的,因為隨機樣本的結果能夠很好地體現整個群體的情況。請注意,這就是民意調查運行的機制所在。

  1. 如果我們掌握了某個樣本的數據,以及某個母群體的數據,就能推理出該樣本是否就是該母群體的樣本之一。我們能夠計算出某個樣本屬於某個母群體的概率,如果概率極低,就能有信心的認定,這個樣本不該來自該母群體。

  1. 如果我們已知二個樣本的基本特性,就能推理出這二個樣本是否取自同一個母群體。

 

根據中央極限定理,任何一個母群體(即不論其分布如何)的樣本平均數都會圍繞在該母群體的整體平均數周圍,且呈常態分布。因此,以上的推論也不是絕對百分之百,還是會有錯誤的概率,因此,以統計術語來說就是:「我們有99%(或其他百分比)的把握認為****」。

再舉美國所有家庭收入為例,請注意,家庭收入可不是呈常態分布的,因為不可能有負數,最少就是0,而且具有向右偏移的趨勢,因為總是會有少數家庭會高得離譜。如果我們隨機抽取1,000個家庭,詢問他們的家庭年收入,其結果可以代表全美國的狀況嗎?根據中央極限定理,只要正確抽取樣本就可以。如果是正確的隨機取樣,樣本中應該會包含基金經理、無家可歸者、低收入戶、住豪宅的、公務員、打工仔、和各式各樣的其他家庭,這些人出現的比率應該能夠反映他們在美國所有家庭的佔比。那麼,這1,000個樣本家庭的平均值能準確代表全美國的家庭嗎?可以,雖然並不準確,但也不會差得太多!如果我們進行多次類似的抽樣調查,就會發現不同樣本的平均值基本上都會接近全美國的真實平均值,有時多一點、有時少一點,會得到差距比較大的嗎?當然可能,只是概率非常低。如果我們真的抽取了100次包含了1,000個家庭的樣本,那麼這100組樣本的平均數就會呈現一個常態分布。這100組樣本中的每組樣本都有個標準差,這100個樣本的平均數也可算出一個標準差,為了區別我們將其稱為標準誤差,可用來衡量平均數的離散性,也就是樣本平均數在群體平均數周邊的聚集程度。每次取樣的樣本數越大,標準誤差就會越小,而取樣次數越多,平均數的分配就越接近常態!

 

標準誤差(SE)與標準差(σ)之間的關係為:   SE = σ/

n 

( σ表示抽樣母群體的標準差,n表示樣本的大小 )

 

由以上公式可知,如果取自一個高度離散母群體的大規模樣本,其離散程度也會很高;如果是一個高度聚集的母群體,樣本圍繞平均值的聚集程度也會很高。同樣的,如果樣本數量變大,那麼標準誤差就會變小,那是因為大型的樣本抽到極端值的影響就相對比較小。當一群變數呈常態分布時,在平均數和若干標準差範圍內的變數概率均為已知,如下圖。在任何一本統計學的書籍中,均可查到其概率。

 

常態曲線和曲線下的面積

 

此處要再次強調,為了能夠讓中央極限定理能成立,樣本數必須足夠多,通常認為至少要有30個,越多就越好。

 
瀏覽數: