跳到主要內容區
 

名校畢業年所得高?

最後更新日期 : 2026-03-08

名校畢業年所得高?

資料來源:《統計數據會說謊》,【美】達萊爾·哈夫(Darrell Huff)著,

靳琰、武鈺璟譯,中信出版集團,2018

 

《紐約太陽報》曾報導:耶魯大學1924屆畢業生平均年收入高達25,111美元。要知道,那可是100年前哦,以當時的水平來說,他們實在太厲害了!真令人羨慕!如果你或你的兒子能夠進入耶魯大學,是不是意味著衣食無憂,可以安享晚年了?

可是認真想想,這個報導有二個問題。首先,它精確得令人吃驚,其次,它給人帶來難以置信的好感。

要把那些四處分散畢業生的平均年薪搞清楚,並精確的算到個位數,可能性實在很小。個人的年收入不是全部來自薪水,還包括許多零散的各種投資和其他所得,要算清楚不是這麼容易。因此,可以合理推斷,這個令人羨慕的平均數,是根據耶魯畢業生自己報出的數據計算出來的。當被人問及收入時,他們中的有些人難免會因虛榮或自負而高報、有些人又會隱瞞少報,混得差的為了面子就根本不回報。那麼多報的和少報或不報的會相互抵消嗎?事實上是不可能的,但哪種會占上風我們不得而知。根據常識判斷,這一高達25,111美元的神話數字絕對不真實,事實上,真正的平均年收入,也許僅僅只是接近這個數字一半而已。

取得樣本過程是統計學主要內容的核心,其基礎理論非常簡單。假設我們有一桶紅、綠二色的豆子,我們要準確的知道這二色豆子各有多少,只有一個辦法,那就是一顆顆的數。不過,還有個更為簡便可行的方法:隨便抓一把豆子,然後數出紅色有多少顆、綠色有屬少顆。我們可以假設紅色豆子在這一把豆子中所占的比例,和桶裡紅色豆子在所有豆子中所占比例相同,由此便可大致知道桶裡紅色豆子究竟有多少顆。如果樣本的規模夠大,且選擇得當,那麼它在大多數情況下完全可以代表整體。

理智告訴我們,當時要聯絡到所有1924年畢業且尚在世的耶魯畢業生根本不可能,許多人的連絡地址已經無從得知。而且,就算知道了,他們也未必會答覆調查問卷,尤其這是關係到個人隱私的問題。所以,這一定是來自一個樣本,而且調查問卷的回復率不會很高。一般來說,有個5%或10%的回復率就算很高了。因此,該收入數據必然是來自一個這樣的樣本:既有明確地址又回復了問卷的畢業生成員組成的。請想想,這樣的的樣本會具有代表性嗎?我們可以假定該樣本的成員收入,與那些聯繫不到或沒有回復的成員的收入處於相同水平嗎?

在耶魯畢業生的名單中,誰是那些「地址不詳」的迷途羔羊呢?是華爾街富商、公司董事、製造公司和公共事業部門的高管……等高收入者嗎?當然不是!要想獲得這些富人的地址並不難,方法多的是。但是,那些在耶魯畢業後沒有實現抱負、功不成名不就,他們混得不怎樣,或者收入沒有高到能拿出來炫耀的份上,就很少會參加同學會,或許他們連路費都沒有,這些人占據了一半甚至更多。他們就算是收到了調查問卷,會怎樣?顯然,這樣的樣本遺漏了最有可能拉低年收入平均值的群體。就算25,111美元是一個真實的數據,也只是代表了1924屆畢業生中有明確地址並願意公開自己收入的人的情況。即使如此,前提還得假設這些紳士們說的都是實話!

以前美國曾有人做過一個旨在研究雜誌讀者群的挨家挨戶調查,其中一個問題是詢問他們都看什麼雜誌?結果發現大多數人喜歡Harpers,喜歡 True Story雜誌的人並不多。但當時依據出版商的發行量數據,前者只有幾十萬份,後者卻有數百萬份。唯一合理的解釋,就是許多調查對象在回答問卷時並沒有說實話。這告訴我們,如果想知道某些人喜歡看哪種雜誌,直接問他們是沒有用的,登門佯裝收購廢舊雜誌反而比較能反映現實。

當數據被過濾成一個小數點後幾位的平均數時,該結果就會人令人堅信,但是如果對其抽樣過程做進一步分析,也許會打破常理。癌症可以治癒嗎?也許可以。美國康乃迪克州腫瘤研究所的掛號記錄可以追溯到1935年,數據顯示,從1935年到1941年間,癌症術後5年的存活率大幅提高。其實,這些數據記錄是從1941年才開始收集,此前則是追查得到的。許多人已經離開了康州,他們是否尚在人世不得而知,由此導致的偏差足以解釋術後存活率為何會出現大幅提高的原因。一個具備代表性的樣本,必須要排除產生偏差的任何可能,這正是耶魯大學畢業生調查數據不具價值的原因。

一位心理醫生曾在報告中說,其實每個人都是神經質的。原來,這個結論是他觀察自己病人得來的,一個精神正常的人,這位醫生根本就不會見到他!我們還要記得,導致偏差的顯性原因和隱性原因都有可能摧毀樣本的可靠性。所謂的「隨機」樣本,是從「整體」中隨機抽取出來的,而「整體」是指以樣本作為其組成部分的整體。如果我們在某市場上碰見的第20個人進行訪問(卷)調查,要記住,這並不是一個世界人口的樣本,也不是美國或舊金山地區人口的樣本,只是「當時市場上」的一個人口樣本。一個民意調查說是在火車站進行抽樣的,因為「火車站裡什麼樣的人都有」,這就是典型的不正確理解。

正確檢驗隨機樣本的方式是:「在一個總體中,每個成員都有相同被抽到的機率。」只要是隨機樣本,當然就可以充分自信地運用統計學理論進行檢驗。問題是,真正的隨機抽樣難度很高、費用很高、使用範圍很小,單單成本一項就難以負擔,還好有一個更為經濟划算的替代方法就是「分層隨機抽樣法」,在民意測驗和市場調研等領域運用很廣。這個方法就是要將總體分為若干部分,每一部分與其普遍性程度要成比例。其中的困難在於你知道的分組比例未必正確,在樣本中要確保符合這些比例也是相當困難的。我們要如何在分層內獲取隨機樣本?最好是列出所有人的名單,然後從中隨機抽取,這樣成本太高了,如果改成上街做隨機調查,就會遺漏宅男宅女,如果挨戶上門,又遺漏白天上班的,改為晚上去調查,還是會遺漏上夜班和夜貓子。因此,民意調查最終都會演變成一場反對偏差來源的持久戰!但讀者要謹記,這沒有絕對的贏家,如果你看到類似「有67%的人支持(或反對)…」的報導,不要急著下結論,而應該仔細想想,是哪些人中的67%?

調查人員的構成也會以一種微妙的方式影響調查結果。二戰期間,「美國國家民意研究中心」曾派出二組調查員,一組由白人組成,另一組由黑人組成,對美國南方一個城市中的500名黑人進行了三個問題的調查。第一個問題是:「如果日本戰勝美國,黑人在美國的待遇會改善還是更糟?」黑人調查組的結果是9%、白人調查組是2%認為會得到改善;會更糟的是25%對45%。第二個問題是將第一個問題中的「日本」替換成「納粹」,調查結果和第一題相近。第三個問題旨在探討對前二個問題的真實態度。問題是:「打敗軸心國與改進國內的民主制度二者相比,你認為哪個更重要?」黑人調查組得出的結果是有39%的人支持「打敗軸心國」,而白人調查組的結果則是62%。

這就是受未知因素影響而導致的偏差,可能的解釋就是人們普遍都有一種說好話的傾向,他們常會觀察和判斷調查人員喜歡的,或以冠冕堂皇的話來回答,而不是自己內心的真實想法。我們不妨自己判斷一下,有多少民意調查的結論是帶有偏差,但卻沒有什麼有效的辦法能避免的。再舉一個例子,假設你被分派到某個街頭去街訪,你發現了二個符合調查條件的對象,其中一個衣著整潔、文質彬彬,另一個看來凶暴粗魯,你會選擇哪個?不要不好意思,所有的訪問員都會和你的選擇一樣!

在美國,自由人士和左翼團體中有不少人強烈反對民意調查,他們普遍認為這種調查都是人為操控的。之所以會產生這種看法,是因為民意調查的結果往往不符合他們的觀點和意願。事實上完全沒有必要操縱一場民意周查,也不用為了製造一種假象而刻意扭曲調查結果,如果樣本的偏差與期望的結果一致,就自動能達到操縱的效果!

 
瀏覽數: