名校畢業年所得高？

最後更新日期 : 2026-03-08

名校畢業年所得高？

資料來源：《統計數據會說謊》，【美】達萊爾·哈夫(Darrell Huff)著，

靳琰、武鈺璟譯，中信出版集團，2018

《紐約太陽報》曾報導：耶魯大學1924屆畢業生平均年收入高達25,111美元。要知道，那可是100年前哦，以當時的水平來說，他們實在太厲害了！真令人羨慕！如果你或你的兒子能夠進入耶魯大學，是不是意味著衣食無憂，可以安享晚年了？

可是認真想想，這個報導有二個問題。首先，它精確得令人吃驚，其次，它給人帶來難以置信的好感。

要把那些四處分散畢業生的平均年薪搞清楚，並精確的算到個位數，可能性實在很小。個人的年收入不是全部來自薪水，還包括許多零散的各種投資和其他所得，要算清楚不是這麼容易。因此，可以合理推斷，這個令人羨慕的平均數，是根據耶魯畢業生自己報出的數據計算出來的。當被人問及收入時，他們中的有些人難免會因虛榮或自負而高報、有些人又會隱瞞少報，混得差的為了面子就根本不回報。那麼多報的和少報或不報的會相互抵消嗎？事實上是不可能的，但哪種會占上風我們不得而知。根據常識判斷，這一高達25,111美元的神話數字絕對不真實，事實上，真正的平均年收入，也許僅僅只是接近這個數字一半而已。

取得樣本過程是統計學主要內容的核心，其基礎理論非常簡單。假設我們有一桶紅、綠二色的豆子，我們要準確的知道這二色豆子各有多少，只有一個辦法，那就是一顆顆的數。不過，還有個更為簡便可行的方法：隨便抓一把豆子，然後數出紅色有多少顆、綠色有屬少顆。我們可以假設紅色豆子在這一把豆子中所占的比例，和桶裡紅色豆子在所有豆子中所占比例相同，由此便可大致知道桶裡紅色豆子究竟有多少顆。如果樣本的規模夠大，且選擇得當，那麼它在大多數情況下完全可以代表整體。

理智告訴我們，當時要聯絡到所有1924年畢業且尚在世的耶魯畢業生根本不可能，許多人的連絡地址已經無從得知。而且，就算知道了，他們也未必會答覆調查問卷，尤其這是關係到個人隱私的問題。所以，這一定是來自一個樣本，而且調查問卷的回復率不會很高。一般來說，有個5%或10%的回復率就算很高了。因此，該收入數據必然是來自一個這樣的樣本：既有明確地址又回復了問卷的畢業生成員組成的。請想想，這樣的的樣本會具有代表性嗎？我們可以假定該樣本的成員收入，與那些聯繫不到或沒有回復的成員的收入處於相同水平嗎？

在耶魯畢業生的名單中，誰是那些「地址不詳」的迷途羔羊呢？是華爾街富商、公司董事、製造公司和公共事業部門的高管……等高收入者嗎？當然不是！要想獲得這些富人的地址並不難，方法多的是。但是，那些在耶魯畢業後沒有實現抱負、功不成名不就，他們混得不怎樣，或者收入沒有高到能拿出來炫耀的份上，就很少會參加同學會，或許他們連路費都沒有，這些人占據了一半甚至更多。他們就算是收到了調查問卷，會怎樣？顯然，這樣的樣本遺漏了最有可能拉低年收入平均值的群體。就算25,111美元是一個真實的數據，也只是代表了1924屆畢業生中有明確地址並願意公開自己收入的人的情況。即使如此，前提還得假設這些紳士們說的都是實話！

以前美國曾有人做過一個旨在研究雜誌讀者群的挨家挨戶調查，其中一個問題是詢問他們都看什麼雜誌？結果發現大多數人喜歡Harper^．s，喜歡 True Story雜誌的人並不多。但當時依據出版商的發行量數據，前者只有幾十萬份，後者卻有數百萬份。唯一合理的解釋，就是許多調查對象在回答問卷時並沒有說實話。這告訴我們，如果想知道某些人喜歡看哪種雜誌，直接問他們是沒有用的，登門佯裝收購廢舊雜誌反而比較能反映現實。

當數據被過濾成一個小數點後幾位的平均數時，該結果就會人令人堅信，但是如果對其抽樣過程做進一步分析，也許會打破常理。癌症可以治癒嗎？也許可以。美國康乃迪克州腫瘤研究所的掛號記錄可以追溯到1935年，數據顯示，從1935年到1941年間，癌症術後5年的存活率大幅提高。其實，這些數據記錄是從1941年才開始收集，此前則是追查得到的。許多人已經離開了康州，他們是否尚在人世不得而知，由此導致的偏差足以解釋術後存活率為何會出現大幅提高的原因。一個具備代表性的樣本，必須要排除產生偏差的任何可能，這正是耶魯大學畢業生調查數據不具價值的原因。

一位心理醫生曾在報告中說，其實每個人都是神經質的。原來，這個結論是他觀察自己病人得來的，一個精神正常的人，這位醫生根本就不會見到他！我們還要記得，導致偏差的顯性原因和隱性原因都有可能摧毀樣本的可靠性。所謂的「隨機」樣本，是從「整體」中隨機抽取出來的，而「整體」是指以樣本作為其組成部分的整體。如果我們在某市場上碰見的第20個人進行訪問(卷)調查，要記住，這並不是一個世界人口的樣本，也不是美國或舊金山地區人口的樣本，只是「當時市場上」的一個人口樣本。一個民意調查說是在火車站進行抽樣的，因為「火車站裡什麼樣的人都有」，這就是典型的不正確理解。

正確檢驗隨機樣本的方式是：「在一個總體中，每個成員都有相同被抽到的機率。」只要是隨機樣本，當然就可以充分自信地運用統計學理論進行檢驗。問題是，真正的隨機抽樣難度很高、費用很高、使用範圍很小，單單成本一項就難以負擔，還好有一個更為經濟划算的替代方法就是「分層隨機抽樣法」，在民意測驗和市場調研等領域運用很廣。這個方法就是要將總體分為若干部分，每一部分與其普遍性程度要成比例。其中的困難在於你知道的分組比例未必正確，在樣本中要確保符合這些比例也是相當困難的。我們要如何在分層內獲取隨機樣本？最好是列出所有人的名單，然後從中隨機抽取，這樣成本太高了，如果改成上街做隨機調查，就會遺漏宅男宅女，如果挨戶上門，又遺漏白天上班的，改為晚上去調查，還是會遺漏上夜班和夜貓子。因此，民意調查最終都會演變成一場反對偏差來源的持久戰！但讀者要謹記，這沒有絕對的贏家，如果你看到類似「有67%的人支持(或反對)…」的報導，不要急著下結論，而應該仔細想想，是哪些人中的67%？

調查人員的構成也會以一種微妙的方式影響調查結果。二戰期間，「美國國家民意研究中心」曾派出二組調查員，一組由白人組成，另一組由黑人組成，對美國南方一個城市中的500名黑人進行了三個問題的調查。第一個問題是：「如果日本戰勝美國，黑人在美國的待遇會改善還是更糟？」黑人調查組的結果是9%、白人調查組是2%認為會得到改善；會更糟的是25%對45%。第二個問題是將第一個問題中的「日本」替換成「納粹」，調查結果和第一題相近。第三個問題旨在探討對前二個問題的真實態度。問題是：「打敗軸心國與改進國內的民主制度二者相比，你認為哪個更重要？」黑人調查組得出的結果是有39%的人支持「打敗軸心國」，而白人調查組的結果則是62%。

這就是受未知因素影響而導致的偏差，可能的解釋就是人們普遍都有一種說好話的傾向，他們常會觀察和判斷調查人員喜歡的，或以冠冕堂皇的話來回答，而不是自己內心的真實想法。我們不妨自己判斷一下，有多少民意調查的結論是帶有偏差，但卻沒有什麼有效的辦法能避免的。再舉一個例子，假設你被分派到某個街頭去街訪，你發現了二個符合調查條件的對象，其中一個衣著整潔、文質彬彬，另一個看來凶暴粗魯，你會選擇哪個？不要不好意思，所有的訪問員都會和你的選擇一樣！

在美國，自由人士和左翼團體中有不少人強烈反對民意調查，他們普遍認為這種調查都是人為操控的。之所以會產生這種看法，是因為民意調查的結果往往不符合他們的觀點和意願。事實上完全沒有必要操縱一場民意周查，也不用為了製造一種假象而刻意扭曲調查結果，如果樣本的偏差與期望的結果一致，就自動能達到操縱的效果！

瀏覽數: