跳到主要內容區
 

錯誤的迴歸

最後更新日期 : 2026-01-20

錯誤的迴歸

主要資料來源:《赤裸裸的統計學》,Charies Wheelan(),曹 檳譯,中信出版社,2013

 

從20世紀90年代起,許多醫學機構支持這個觀點,即:隨著年齡的增長,女性卵巢分泌雌激素的能力下降。因此,為上了年紀的女性補充雌激素有利於她們的的長期利益,可以預防心臟病、 骨質疏鬆以及其他與更年期有關的疾病。科學家和醫生們還專門為這種治療方法取了名字:「雌激素補充療法」。一些研究甚至還建議上了年紀的男性,也應該補充一些雌激素。因為當時哈佛大學醫學院和公共衛生學院,共同主持的一項針對12.2萬名女性的縱向調查(名為「護士健康研究」)結果顯示,雌激素攝入量和心臟病之間存在負相關關係,定期攝入雌激素的女性突發心臟病的概率只有其他女性的1/3。

在數百萬女性聽從了醫生的建議,開始接受荷爾蒙補充療法的同時,雌激素也進入了嚴格的科學檢驗。臨床試驗包含了實驗組(服用雌激素補充片)和對照組(服用安慰劑片),結果顯示,服用雌激素的女性患心臟病、中風、血栓、乳腺癌和其他疾病的風險反而高於對照組。雖然服雌激素確存在一些益處,但跟風險相比根本不值一提。於是,從2002年開始,醫生被建議儘量避免對年長女性開立具雌激素類的藥物。合理估計,已有上萬名女性因服用了雌素受害而過早離世。為什麼會這樣呢?雖然迴歸分析為複雜的問題提供了精確的答案,但這些答案不一定準確,如果錯誤運用,迴歸分析會得出誤導甚至錯誤的結果。聰明的人有時候也會出於某些目的,使用這一非凡的工具,有意明知故犯的淪為「邪惡」的道具。

 

迴歸分析常見的七種錯誤如下:

  • 用迴歸方程式來分析非線性關係

你見過吹風機上貼的警示標語 ---「禁止在浴缸中使用」嗎?這不是廢話嗎?有誰會傻到在浴缸中吹頭髪?相對應的,如果迴歸分析也要貼一個警語,就應該是 --- 「禁止在二個變量間不存在線性關係時使用」。我們要記住,迴歸係數是描述數據「最佳擬合直線」的坡度,當然一定要是一條直線!然,而有些規律是難以用直線來擬合的,如果硬要將數據輸入電腦,也是能得到一個係數,只是這個係數不但無法反映不同變量間的關係,有時誤用還會產生危險。

  • 將相關關係當成因果關係

迴歸分析只能證明二個變量之間存在關係,但是不是因果關係,僅憑數據是無法得知的。如果我們發現美國槍擊案死亡人數的變量與中國經濟成長的變量有顯著的正相關,大家都知道這並不能說明二者之間有任何因果關係。可是某地區癌症發病率就有很多人相信,是因為該地區設有的變電所有因果關係。

  • 因果倒置

假A與B間存在統計學關係,我們不能直接推出A導致B,因為也有可能是B導致A。例如,解釋GDP長時,在迴歸分析中加入「失業率」是不合適的,因為失業率很顯然會受到GDP增長率的影響。如果通過迴歸分析,發現失業率的下降會促進GDP的增長,這樣的結論不是很可笑嗎?

  • 變量遺漏偏差

假如你讀到「常參加晨間運動的人易患關節炎和癌症」這類的報導標題時,千萬不要輕信。要研究影響健康的問題時,都必需正確控制「年齡」變量,因為損人的不是運動,而是衰老。在此例中,「年齡」就是一個被遺漏的重要變量,如果把年齡納入迴歸分析中去,就會得到完不同的結論。

再如我們要評估學校質量,必須要先了解什麼樣的學校才是好學校?該選擇什麼量化指標作為應變量?最有可能的就是學生SAT的考試(升學考試)分數。如果我們要將學校的辦學開銷作為解釋變量,希望能夠量化開銷和分數之間的關係。假設辦學開銷是唯一解釋變量的話,那我們就會在開銷和考試分數之間找到具有顯著統計學意義的相關關係。但是,「分數可以通過大量花錢來推升」的發現,是存在巨大漏洞的。因為,有許多重要的潛在解釋變量在分析中被遺漏了,其中最重要的就是「家長的教育程度」。受過良好教育的家庭可能住在相對富裕的地區、配套的學校設施較好,開銷自然也較大,培養出來的孩子SAT考試表現更有可能比窮人家的孩子出色。此外,SAT的高分能不能被訓練出來?窮人家的孩子沒錢參加考前培訓(補習),還要分攤家裡的工作,就算天資和能力都相同,也不得不在SAT考試中處於劣勢。

假如迴歸方程式中遺漏了某個重要的解釋變量,尤其是當方程式中的其他變量又剛好「覆蓋」了遺漏的解釋變量影響,那麼回歸分析的結果就會變得非常具有誤導性,甚至與真相背道而馳。

  • 高度相關的解釋變量(多元共線性)

在一個回歸方程式中,假如二個或二個以上的解釋變量彼此之間高度相關,那麼回歸分析的結果,將有可能無法分清每一個變量與應變量之間的真實關係。例如,當廻歸分析的目標是單獨隔離父親或母親的受教育程度,那麼將父母雙方的受教育程度都納入考慮範圍反而會引起混淆,讓分析變得模糊。因為丈夫和妻子的受教育程度存在著相當大的相關性,以致我們無法通過回歸分析得出一個有意義的其中某個家長教育程度係數。

  • 脫離數據進行推斷

迴歸分析的目的是發現能夠適用所有人口的規律,但是不要忘了,我們的結論實際上是,僅僅對所分析樣本相似的人口才有效。例如前所提及的研究的結論:「從事缺乏控制力的工作將會增加未來患上冠心病的風險」,其實是僅適用於:受雇於政府部門的男性和女性。

  • 數據礦(變量過多)

假如遺漏重要的解釋變量會帶來諸多麻煩,那是不是就是說在回歸方程式中加入大量解釋變量,而且加入的變量越多越好,就一定可以解決問題呢?並不是,物極必反!因為變量多,尤其是無關變量過多的時候,迴歸分析的結果就會被沖淡或稀釋。

2011年《華爾街日報》刊登了一篇關於醫學的〈一個不可見人的秘密〉文章,指出那些刊登在頂級同行間審閱的學術期刊上的論文,都是無法複製的。原因包括:發表性偏見、小樣本(罕見病)、研究員有意無意的偏見……等,畢竟沒有人會因為證明了某些藥無效而發財或出名,以致有大量發表的研究結果最後被證明是錯誤的。根據希臘流行病學專家艾奧尼蒂斯的觀察,在已經出版的科學論文中,差不多有一半最終會被證明是錯誤的。(當然,他自己這篇論文也有一半機會是錯誤的!)

 

讓我們總結一下,本文可以濃縮為以下二個基本經驗:

  • 優秀的研究人員能夠對變量進行邏輯思考,決定哪些變量可以加入到迴歸方程式中、該從哪裡收集數據、發現還有哪些遺漏的變量,以及正確解讀最後的分析結果。

  • 迴歸始終是以觀察樣本為立足點的。二個變量之間的相關關係就像是犯罪現場的指紋,它能夠為我們指出正確方向,但在大多數時候還不足以定罪。對於任何迴歸分析來說,都要在以下方面得到理論支持:為什麼方程式裡要有這些解釋變量?通過其他學科領域是否也能解釋這個分析結果?

 
瀏覽數: