中央極限定理

最後更新日期 : 2025-12-22

中央極限定理

主要資料來源：《赤裸裸的統計學》，Charies Wheelan著(美)，

曹檳譯，中信出版社，2013。

中央極限定理（Central Limit Theorem, CLT）在統計學中是一個非常重要、非常有用的觀念。以下是維基百科的說明：

中央極限定理指出，在適當條件下，從任何分佈的母體中隨機抽取足夠大的樣本（通常指 n ≥ 30），這些樣本的平均值所形成的抽樣分佈將近似於常態分佈。此定理的重要性在於它提供了一個基礎，使得即使母體的原始分佈不明或是偏態的，仍然可以利用常態分佈的特性來分析樣本平均數的抽樣分佈，這在數理統計和誤差分析中具有廣泛的應用。

想像一下，如果你從一個形狀怪異（例如嚴重偏斜）的池塘中撈魚，每次撈30條魚，然後算出這30條魚的平均長度，然後重複這個動作撈很多(組)。中央極限定理告訴你，這些所有撈魚組的平均長度，會趨近於一個「常態分佈」（鐘形曲線），不管你撈魚的池塘是什麼樣子。

其中重要的核心觀點如下：

母體分佈不重要：

不論原始母群體的機率分佈是什麼形狀，只要抽取足夠大的樣本數，其樣本平均值的抽樣分佈都會趨近於常態分佈。

樣本數是關鍵：

樣本數n越大，樣本平均數的抽樣分佈就越接近常態分佈。一般認為當n ≥ 30時即可視為大樣本。

抽樣分佈的特性：

樣本平均數的抽樣分佈其平均值會等於母體平均數，而標準差（即平均數之標準誤）則等於母體標準差除以樣本數的平方根(σ/√n)。

那麼，中央極限定理要怎麼靈活運用以發揮其價值呢？以下舉出一些應用實例：

如果我們掌握了某個群體的具體訊息，就能推論出這個群體中正確抽取的隨機樣本情況。例如，教育局到某校隨抽取100位學生進行類似統考的測驗，這100位學生的成績可以作為考核該校學生程度的指標嗎？根據中央極限定理，這100位學生作為一個隨機樣本，他們的平均成績不會與全校學生的平均成績有很大的差異。當然，特別挑選的樣本就不行。

如果我們掌握了某個隨機取樣的訊息(平均數和標準差)，就能對其所代表的群體做出令人驚訝的精確推理，這點剛好與上一點相反。如果教育局對所有轄下的學校都隨機抽取100位學生加以統測，以了解各校學生的程度，這是可行的嗎？中央極限定理告訴我們，這是可行的，因為隨機樣本的結果能夠很好地體現整個群體的情況。請注意，這就是民意調查運行的機制所在。

如果我們掌握了某個樣本的數據，以及某個母群體的數據，就能推理出該樣本是否就是該母群體的樣本之一。我們能夠計算出某個樣本屬於某個母群體的概率，如果概率極低，就能有信心的認定，這個樣本不該來自該母群體。

如果我們已知二個樣本的基本特性，就能推理出這二個樣本是否取自同一個母群體。

根據中央極限定理，任何一個母群體(即不論其分布如何)的樣本平均數都會圍繞在該母群體的整體平均數周圍，且呈常態分布。因此，以上的推論也不是絕對百分之百，還是會有錯誤的概率，因此，以統計術語來說就是：「我們有99%(或其他百分比)的把握認為****」。

再舉美國所有家庭收入為例，請注意，家庭收入可不是呈常態分布的，因為不可能有負數，最少就是0，而且具有向右偏移的趨勢，因為總是會有少數家庭會高得離譜。如果我們隨機抽取1,000個家庭，詢問他們的家庭年收入，其結果可以代表全美國的狀況嗎？根據中央極限定理，只要正確抽取樣本就可以。如果是正確的隨機取樣，樣本中應該會包含基金經理、無家可歸者、低收入戶、住豪宅的、公務員、打工仔、和各式各樣的其他家庭，這些人出現的比率應該能夠反映他們在美國所有家庭的佔比。那麼，這1,000個樣本家庭的平均值能準確代表全美國的家庭嗎？可以，雖然並不準確，但也不會差得太多！如果我們進行多次類似的抽樣調查，就會發現不同樣本的平均值基本上都會接近全美國的真實平均值，有時多一點、有時少一點，會得到差距比較大的嗎？當然可能，只是概率非常低。如果我們真的抽取了100次包含了1,000個家庭的樣本，那麼這100組樣本的平均數就會呈現一個常態分布。這100組樣本中的每組樣本都有個標準差，這100個樣本的平均數也可算出一個標準差，為了區別我們將其稱為標準誤差，可用來衡量平均數的離散性，也就是樣本平均數在群體平均數周邊的聚集程度。每次取樣的樣本數越大，標準誤差就會越小，而取樣次數越多，平均數的分配就越接近常態！

標準誤差(SE)與標準差(σ)之間的關係為： SE = σ/

( σ表示抽樣母群體的標準差，n表示樣本的大小 )

由以上公式可知，如果取自一個高度離散母群體的大規模樣本，其離散程度也會很高；如果是一個高度聚集的母群體，樣本圍繞平均值的聚集程度也會很高。同樣的，如果樣本數量變大，那麼標準誤差就會變小，那是因為大型的樣本抽到極端值的影響就相對比較小。當一群變數呈常態分布時，在平均數和若干標準差範圍內的變數概率均為已知，如下圖。在任何一本統計學的書籍中，均可查到其概率。

常態曲線和曲線下的面積

此處要再次強調，為了能夠讓中央極限定理能成立，樣本數必須足夠多，通常認為至少要有30個，越多就越好。

瀏覽數: