跳到主要內容區
 

迴歸分析與線性關係

最後更新日期 : 2026-01-20

迴歸分析與線性關係

主要資料來源:《赤裸裸的統計學》,Charies Wheelan()

檳譯,中信出版社,2013

 

工作壓力大會導致人早逝嗎?是的,尤其是心臟病猝死,但這種致命的壓力或許與很多人想像的不同。企業高管幾乎每天都要做出重要的決策,這些決策關係到他們公司的前途和命運,壓力大嗎?當然!但他們承受壓力造成猝死的風險卻要遠小於他們的秘書,這是真的嗎?是的。秘書必須兢兢業業的接收和消化各種方式的訊息,並完成上級交待各式各樣的任務。最危險的工作壓力其實是來自於對自己工作任務的「缺乏控制力」,也就是基本上對幹什麼、怎麼幹沒有話語權的人,猝死率較高。可見,並不是「權力越大、責任也越大」的壓力致人於死地,而是上司交付任務,自己又沒權決定怎麼完成、何時完成的壓力才會把人壓垮!

研究人員是如何得到上述結論的?很顯然,類似上述問題並無法使用隨機實驗,因為我們不可能把人強制分配到各個工作崗位、強迫他們在那工作很多年,然後再看看各有多少人因公殉職。在英國的實際操作中,研究人員只能長期觀察數千名公務人員詳細的縱向數據收集,再經過分析提供有意義的相關關係,如「缺乏控制力」的工作與冠心病發病率之間的關係等等。一個簡單的相關關係,也不足以讓人得出某工作對健康有害的結論。雖然發現了政府系統中低階公務員更容易患心臟病,但還是必需考慮到其他可能的影響,如菸癮、體質、醫療資源……等干擾因素。心臟真的是「低級別工作」導致的嗎?或者只是一些共有的因素導致的?迴歸分析正是可以幫助我們處理這類問題的統計學工具。

迴歸分析能夠輔助在控制其他因素的前提下,對某個具體變量與某個特定結果之間的關係進行量化。如果「處理得當」,迴歸分析能夠排除他因素的影響,「輔助」我們認清某特定因素的影響。也就是說,我們能夠在保持其他變量效果不變的情況下,將某個變量的效果分離出來。所謂的「處理得當」,不是指分析的技術性,因為在電腦強大的功能下,分析技術本身已經完全不是問題,而是指分析的過程中要用到哪些變量,以及如何才能將這些變量的作用發揮到最佳 因為,使用得好必須下一番功夫,使用不當,則會帶來意想不到的危害!當然,我們抽取的樣本必須能夠代表我們所關心的群體,也要知道不同樣本之間本來就會存在差異,所以分析的結果並沒有給我提供「正確」的回答,而是量化了這一關係,這就是「輔助」的意思。

廻歸分析與民意調查類似,在樣本數量大、具有代表性且方法論成立的情況下,樣本數據呈現的相關性基本上與母群體的現實情況差別不大。但是要注意的是,它並不能確切地證明變數之間的因果關係,只是接受或推翻了「虛無假設」。

假設我們認為運動和心血管疾病的發病率很有可能存在關係,那麼「虛無假設」就設定為:運動與心臟病無關。如果研究結果推翻了虛無假設,結論就是:如果運動與心臟病無相關關係,那麼經常運動的人和不運動的人,得心臟病的比例出現如此巨大差異的概率將不到5%(基本門檻),那麼這一發現就具有了統計學的意義。請注意,它並不是告訴病患年輕時應該多做運動,也不是說運動有益於身體健康。因為,這也可能是因果關係的倒置,亦即體弱多病的人,尤其是心臟有缺陷的人本來就不會從事劇烈運動,如果研究分析過於敷衍和簡化,就會說運動有益於身體健康,事實上並不是運動讓身體變得健康,只不過是將健康的人與體質差的人區分開罷了。

廻歸分析基本概念最核心的一點就是,它是在找尋各個變量之間的最佳擬合線性關係。它的強大能力表現在:「將我們所關心的統計關聯隔離出來,同時還不忘考慮其他可能會對這一相關關係產生影響的因素。」(當然,迴歸也會有各式各樣的陷阱,將於另文中再說明。)

無論哪種型式的迴歸分析,都離不開最基本的核心概念,那就是迴歸尋找的是二個變量之間最佳的擬合線性關係。例如身高和體重,如果把它們畫成散佈圖,大致看來二者之間有線性關係,最常用的迴歸分析就是以「最小平方法」找出殘差平方和最小的直線來描述,以迴歸方程式表示如下:  

 y = a + bx

其中y表示體重;a 為截距,即當x = 0時 y 的值;x 為身高。

這條方程式的坡度,就描述了身高和體重之間的「最佳」直線關係。當然,這條迴歸直線不可能把數據中的每一個點都包含進去,但它能找到一條有意義的關聯描述。每一數據都可用一個方程式來表示:

y = a + bx + e ,其中的 e 為殘差,代表不同體重的人的差異

通過這條迴歸直線,我們還可以得出,該組數據中如果根據身高猜測體重,最準的辦法是求出a + bx 的值,,其中的b就是斜率,我們稱為迴歸係數,正負即代表自變量與應變量之間相關關係的方向,b數值的大小代表自變量對應變量有多大的影響,而最小平方指的是,這組人的殘差值之和為0。

我們的迴歸係數所描述的是某組樣本數據中身高和體重的關係,如果在同一群中再隨機抽取另一組大型樣本,就會得出另一個不同的迴歸係數。但是,由中央極限定理可知,一個正確抽取的大型樣本其平均值並不會特別偏離母群體的平均值,同樣的,我們也可以說,不同變量之間的關係不會因為樣本的不同發生特別大的變化。注意,前提是隨機抽取的大型樣本,對於不同的小型樣本(如20人)進行迴歸分析,就不能指望這些迴歸係數呈常態分配了,t分配會更合適些,這是另一個課題。

當有超過一個解釋變量的時候,把多個變量都納入迴歸方程式時,我們常稱為多元迴歸分析或多變量複迴歸分析,它可以為每一個解釋變量配一個係數,代表應變量與每個解釋變量之間的線性關係。以體重和身高為例,體重還會受到諸如年齡、性別、種族、貧困、運動量…等其他因素的影響,我們可以通過迴歸分析將上述解釋因素所造成的影響單獨分解出來進行觀察,當然這也會愈來愈複雜。換句話說,多元迴歸分析的應用範圍是相當廣泛的,尤其在具有社會意義的話題上,是相當有價值的。

總之,迴歸分析大大地充實了科學方法,使人類更好地認識了這個世界、身體更加健康、生活更加安全。

 
瀏覽數: