中央極限定理
中央極限定理
主要資料來源:《赤裸裸的統計學》,Charies Wheelan著(美),
曹 檳譯,中信出版社,2013。
中央極限定理(Central Limit Theorem, CLT)在統計學中是一個非常重要、非常有用的觀念。以下是維基百科的說明:
中央極限定理指出,在適當條件下,從任何分佈的母體中隨機抽取足夠大的樣本(通常指 n ≥ 30),這些樣本的平均值所形成的抽樣分佈將近似於常態分佈。 此定理的重要性在於它提供了一個基礎,使得即使母體的原始分佈不明或是偏態的,仍然可以利用常態分佈的特性來分析樣本平均數的抽樣分佈,這在數理統計和誤差分析中具有廣泛的應用。
想像一下,如果你從一個形狀怪異(例如嚴重偏斜)的池塘中撈魚,每次撈30條魚,然後算出這30條魚的平均長度,然後重複這個動作撈很多(組)。 中央極限定理告訴你,這些所有撈魚組的平均長度,會趨近於一個「常態分佈」(鐘形曲線),不管你撈魚的池塘是什麼樣子。
其中重要的核心觀點如下:
- 母體分佈不重要:
不論原始母群體的機率分佈是什麼形狀,只要抽取足夠大的樣本數,其樣本平均值的抽樣分佈都會趨近於常態分佈。
- 樣本數是關鍵:
樣本數n越大,樣本平均數的抽樣分佈就越接近常態分佈。 一般認為當n ≥ 30時即可視為大樣本。
- 抽樣分佈的特性:
樣本平均數的抽樣分佈其平均值會等於母體平均數,而標準差(即平均數之標準誤)則等於母體標準差除以樣本數的平方根(σ/√n)。
那麼,中央極限定理要怎麼靈活運用以發揮其價值呢?以下舉出一些應用實例:
- 如果我們掌握了某個群體的具體訊息,就能推論出這個群體中正確抽取的隨機樣本情況。例如,教育局到某校隨抽取100位學生進行類似統考的測驗,這100位學生的成績可以作為考核該校學生程度的指標嗎?根據中央極限定理,這100位學生作為一個隨機樣本,他們的平均成績不會與全校學生的平均成績有很大的差異。當然,特別挑選的樣本就不行。
- 如果我們掌握了某個隨機取樣的訊息(平均數和標準差),就能對其所代表的群體做出令人驚訝的精確推理,這點剛好與上一點相反。如果教育局對所有轄下的學校都隨機抽取100位學生加以統測,以了解各校學生的程度,這是可行的嗎?中央極限定理告訴我們,這是可行的,因為隨機樣本的結果能夠很好地體現整個群體的情況。請注意,這就是民意調查運行的機制所在。
- 如果我們掌握了某個樣本的數據,以及某個母群體的數據,就能推理出該樣本是否就是該母群體的樣本之一。我們能夠計算出某個樣本屬於某個母群體的概率,如果概率極低,就能有信心的認定,這個樣本不該來自該母群體。
- 如果我們已知二個樣本的基本特性,就能推理出這二個樣本是否取自同一個母群體。
根據中央極限定理,任何一個母群體(即不論其分布如何)的樣本平均數都會圍繞在該母群體的整體平均數周圍,且呈常態分布。因此,以上的推論也不是絕對百分之百,還是會有錯誤的概率,因此,以統計術語來說就是:「我們有99%(或其他百分比)的把握認為****」。
再舉美國所有家庭收入為例,請注意,家庭收入可不是呈常態分布的,因為不可能有負數,最少就是0,而且具有向右偏移的趨勢,因為總是會有少數家庭會高得離譜。如果我們隨機抽取1,000個家庭,詢問他們的家庭年收入,其結果可以代表全美國的狀況嗎?根據中央極限定理,只要正確抽取樣本就可以。如果是正確的隨機取樣,樣本中應該會包含基金經理、無家可歸者、低收入戶、住豪宅的、公務員、打工仔、和各式各樣的其他家庭,這些人出現的比率應該能夠反映他們在美國所有家庭的佔比。那麼,這1,000個樣本家庭的平均值能準確代表全美國的家庭嗎?可以,雖然並不準確,但也不會差得太多!如果我們進行多次類似的抽樣調查,就會發現不同樣本的平均值基本上都會接近全美國的真實平均值,有時多一點、有時少一點,會得到差距比較大的嗎?當然可能,只是概率非常低。如果我們真的抽取了100次包含了1,000個家庭的樣本,那麼這100組樣本的平均數就會呈現一個常態分布。這100組樣本中的每組樣本都有個標準差,這100個樣本的平均數也可算出一個標準差,為了區別我們將其稱為標準誤差,可用來衡量平均數的離散性,也就是樣本平均數在群體平均數周邊的聚集程度。每次取樣的樣本數越大,標準誤差就會越小,而取樣次數越多,平均數的分配就越接近常態!
標準誤差(SE)與標準差(σ)之間的關係為: SE = σ/
( σ表示抽樣母群體的標準差,n表示樣本的大小 )
由以上公式可知,如果取自一個高度離散母群體的大規模樣本,其離散程度也會很高;如果是一個高度聚集的母群體,樣本圍繞平均值的聚集程度也會很高。同樣的,如果樣本數量變大,那麼標準誤差就會變小,那是因為大型的樣本抽到極端值的影響就相對比較小。當一群變數呈常態分布時,在平均數和若干標準差範圍內的變數概率均為已知,如下圖。在任何一本統計學的書籍中,均可查到其概率。
此處要再次強調,為了能夠讓中央極限定理能成立,樣本數必須足夠多,通常認為至少要有30個,越多就越好。
