數據與偏見
數據與偏見
主要資料來源:《赤裸裸的統計學》,Charies Wheelan著(美),
曹 檳譯,中信出版社,2013。
統計學書籍中都想當然地以為讀者使用的都是好數據,就像一本烹飪食譜都假設讀者使用的都是好食材,可是面對劣質的食材,再好的食譜也無法「化腐朽為神奇」。統計學也是如此,如果基礎數據有問題,那麼再縝密嚴謹的分析也是徒勞。
當我們在評估一個大數據構成的人口特點時,我們可能會用到一個具有代表性的數據樣本。例如,要調查某候選人的支持率,我們就需要一組能代表所有生活在該選區內選民的樣本。請注意,不是一個能代表所有生活在該區域內選民的樣本,而是代表最有可能去投票選民的樣本。統計學最強大的一點,就在於只要正確抽取的樣本數足夠大,就能夠確準反映出整個選區的狀況,做到和全體普查相同的結果。
收集一個人口構成的代表性樣本,最便捷的方式就是隨機去挑選,關鍵在於母體成員的每一個分子被選中的機率都必須相同。幾乎所有的統計教材中都描述為如同「袋中摸球」,然而要獲得一個好樣本要比想像難多了。那些聳人聽聞的誇張結論,有許多都是因為正確的統計方法被應用在糟糕的樣本上,但如果一開始統計方法就是錯的,那不管樣本質量如何,都不會得到應有的結論。當然,樣本大小很重要,在成本可以承擔的狀況下,樣本數量越大越好,因為樣本越大的話,受到極端值的影響就會越小。必須注意的是,如果從中抽樣的群體組成,本身存在問題,即所謂的「偏見」,那麼無論樣本數有多大,都無法改變這個偏見的存在。一個存在偏見的大樣本,甚至比一個存在偏見的小樣本更具誤導性,因為人們會因為樣本數大而接受其結論。(註:這些招數,即有意的從有偏見群體中抽取大的樣本,正是有心人士用來操控民意調查,或市場分析結果的著力之處。)
在以人為研究對象的實驗過程中,一個反復出現的挑戰就是如何讓控制組和實驗組之間只存在一個(即實驗變數)不同的條件。為此,這類實驗所遵循的一條金科玉律就是隨機取樣,亦即實驗對象被隨機的分配到控制組和實驗組。由於我們無法保證所有的實驗對象都是完全相同的,通過隨機才能使相關的其他特性都能得到均勻的分配,其中不僅包括我們能夠觀察到的特性,還包括了我們無法衡量或沒有觀察到的特性。
有時,我們面對訊息時並沒有一個明確的想法,只是覺得有一天這些數據以後或許可以整理出線索和思路,會派得上用場。當然,有些數據從始至終都沒起作用,但如果我一開始就知道什麼有用、什麼沒用,那也不必大費周章的作調查了。我們要知道,每一項重要的研究成果都離不開優質數據的默默支持,讓分析成為可能;而糟糕研究的背後,數據才是最大的問題。統計分析本身並沒有錯,只是用來分析的數據要麼是偽造的,要麼是不適當的。例如選前對於候選人支持度的民意調查,就常常會有「選擇性偏見」有意的產生誤導。1936年《文學文摘》主辦的民意調查可謂是史上知名度最高的統計錯誤,其根源就是一個存在偏見的樣本,該雜誌從其訂戶以及能夠從公共檔案中查到地址的汽車和電話註冊人中寄發了問卷,樣本數達1000萬,這可是一個天文數字,結果預測候選人蘭登將以57%的支持率擊敗羅斯福。結果呢,羅斯福獲得了60%的選票及48州中的46州選舉人票壓倒性的勝利。原因是《文學文摘》的樣本就是典型的「垃圾」,因為訂閱該雜誌的訂戶都比較富有,加上1936年家中有車和電話的也是比較有錢的,他們更有可能把票投給比較保護富人利益的共和黨候選人 --- 蘭登。
在醫藥領域的研究,如果在對實驗對象劃分實驗組和對照組時,沒能做到隨機分組的話,在比較二組結果時就會遇到相同的基礎性問題。由於病患本身的身體狀況可能影響接受不同療法的選擇,或者樣本當中的個人主動提出要加入實驗組時,實際上這就是選擇性偏見。再如,在研究毒犯出獄後的再犯率時,如果有犯人主動要求加入戒毒組,那麼本身更有意願戒毒的他與其他犯人就是不同的,研究結果當然不能證明戒毒組是否具有存在價值。
有一種偏見,稱為「發表性偏見」。肯定性的研究發現相比否定性的研究發現來說,更有可能被發表,從而影響我們對事實真相的判斷。假設有一項包含10萬個代表性樣本,且根蹤了長達20年的研究,發現每天花數小時玩電玩的人,與不玩的人得直腸癌的概率基本相同,假設在研究方法上不存在任何瑕疵,請問有哪一本有聲望的醫學雜誌,會接受這樣的論文發表?當然沒有!因為首先是否玩電玩與直腸癌在科學上本就沒有強烈的相關性;其次,「某因素不能引發癌症」的事實,其價值並不高。畢竟,有太多因素都不會引發癌症,這樣的結論顯得單調乏味!可是如果這個研究是發現了每天花很多時間玩電玩的人,患直腸癌的概率很低,這樣的結論就有趣多了,它會受到醫學雜誌、大眾媒體、博客以及電子遊戲廠商的多方關注,不是嗎?
對統計學來說,巧合的存在決定了異常事情的發生是很難擺脫的事實。例如在100 項完成的研究中,如有99項研究證實電玩和直腸癌不存在任何關聯,當然,它們得不到發表的機會。而一項聲稱找到二者之間關係的那一篇就很容易引起注意,並得到發表。由此可見,偏見的來源並不是研究本身,而是那些能夠接觸到大眾的訊息載體,結果就是閱讀科學雜誌的人會讀到這篇文章,而在他的眼裡關於這方面的研究就只有一項,而且這個研究證實了玩電玩和直腸癌有關,然而背後確有99%的研究是證明二者間並不存在關係的。
以上的例子,看起來比較牽強?沒錯,但反映的問題是真實的、嚴肅的。《紐約時報》曾發表過一篇關於抗憂鬱藥物藥效的發表性偏見的文章,第一句話就是:「抗憂鬱藥百憂解、帕羅西汀等產品的生產廠商,故意不發表更多的藥物試驗結果,就是為了獲得政府許可上市,誤導醫師和消費者對藥物真實效果的看法。」證明這些藥物對治療憂鬱症有效的研究中有94%都得到了發表,而結論是這些藥物無效的研中只有14%被發表在相關刊物上。如果將所有的研成果進行綜合考慮,其實抗憂鬱藥只比安慰劑略好一些。
還有一種偏見稱作「記憶性偏見」。回憶確實很神奇,可惜並不可靠。我們總是認為有因才有果,現在和過去是有邏輯聯繫的。問題是,當我們試圖解釋當前一些特別好或特別壞的結果時,記憶便開始出現「系統脆弱」的尷尬。1993年,哈佛大學一項關於飲食習慣和乳腺癌關係的研究,收集了乳腺癌組和健康組女性的飲習慣數據比對,發現在年輕時喜歡吃高脂肪食物的人,患有乳腺癌的那組明顯偏多。這可以揭示飲食習慣和癌症之間的關係嗎?不行,這僅僅是告訴我們,癌症是如何影響一個人對早期飲食習慣記憶的。另有一項有關幾年前接受飲食習慣調查的一群人,當時她們還沒有一人被診斷出患了癌症。一個令人震驚的發現是,後來患了乳腺癌的人在回憶她們的飲食構成時,食物中的脂肪含量顯明上升了,比她們實際攝入的要高得多,而沒得乳腺癌的就沒有這一傾向。這正是由於要不斷回憶過去,想要從中找出一個患病原因的影響。原來一張診斷書,不僅可以改變一個人的現在和未來,也可以改變過去。
當樣本中有一些或許多數據的缺失,導致樣本組成發生改變,從而影響分析結果時,稱為「倖存者偏見」。例如一個班級如果成績最差的學生留級或輟學,全班的平均成績就上升了,可是並沒有人的成績真正進步。共同基金經理人最會運用這點來使自己的業績看上去比實際上要好,例如與「標準普爾」指數相比,只要自己基金的漲幅超過或跌幅低於「標準普爾」就自吹自擂。事實上,標準普爾500指數基本上是所有交易中的大型股票的平均值,我們可以預知有一半的共同基金會超過,一半會不如,要一直戰勝標準普爾並不是一件容易的事。對買股票的人來說,只要持有標準普爾500的指數基金就好了,完全不需要投資分析、宏觀預測,還不要付出高額的管理費!
你相信定期服用各種維生素的人,更有可能不受疾病的困擾嗎?其實這是「健康用戶偏見」。如果公共衛生官員發表一個理論,聲稱「定期健檢的人平均壽命較長」,你認為呢?檢查本身當然不會對壽命有什麼作用,真正起作用的是定期乖乖去做健檢和忠於自己健康生活方式的人,與其他人有本質上的區別。你是不是看到一些常吃某種蔬菜湯、吃某些水果、按某些穴道……就會如何如何的報導?這些沒經過隨機分成實驗組和控制組研究的說法,就算是真實的,也都只是一些個別的案例,是不能下結論的。
如果把統計學比作偵探工作,那麼數據就是線索,優質數據就是最好的線索,可是收集到好的數據要比看上去困難得多啊!
