相關性與相關係數
相關性與相關係數
主要資料來源:《赤裸裸的統計學》,Charies Wheelan著(美),
曹 檳譯,中信出版社,2013。
如果你是Netflix(網飛)公司的用戶,你是否奇怪,為什麼它會知道你喜歡看什類型的影片?只要你打開它的網頁,總是會彈出一些你可能喜歡影片的收看提示。最神奇的是,在那些推荐的影片中,如果是你之前看過的影片,那毫無疑問都是自己非常喜愛的。
相關性表達的是二個現象之間互相關聯的程度。例如,身高與體重就存在相關性。一般來說,個子高的體重會重些,個子矮的體重也會輕些。這種二個變量朝著相同方向的變化,就稱為「正相關」,如果一個變多,另一個反而變少,就存在「負相關」。當然,世事並沒有那麼簡單,也會出現少數與上述違背的現象,例如有些矮胖子就是會比高個子的人重些,但無論怎樣,身高與體重二變數之間,總是存在著有意義的關聯。相關性作為統計工具的魅力就在於將二個變數的關聯精煉成一個描述性數據:相關係數。
相關係數具有二個無與倫比的優勢。第一、它是一個區間從 -1 ~ +1 之間的常數, +1代表完全正相關,一個變量的任何改變都會導致另一個變量朝相同方向發生等量的改變。如為 – 1,代表完全負相關,即朝相反方向發生等量的改變。相關係數越接近 +1 或 – 1,變數間的關聯性就越強。如果相關係數為0 (或者接近零),則意味變量間不存在有意義的關聯,就比如一個人的考試成績與他鞋碼之間的關係。第二、相關係數不受變量單位的限制。我們可以計算身高和體重之間的關聯性,二者的單位不同也沒關係。相關係數可以將大量雜亂無序、單位不同的複雜數據,轉變成一個簡潔、優雅的描述性數據。
美國高中生的SAT考試,目的在檢測學生的學術能力,並預測他們進入大學後的表現。這個標準化考試由3個部分組成:數學、閱讀和寫作。或許我們會問,一場歷時4小時的考試難道比高中時的成績都重要?問題就在於一個選修數理等挑戰性較大課程的學生,可能期末的成績很一般,但學術能力和潛力或許要比選課都較簡單的要更強。而SAT測驗則「讓每位學生在申請大學時都能很到公平的對待」,可是,它究竟是不是一個良好的能力評價標準呢?美國大學委員會公布的報告,SAT的綜合成績與大學第一年的平均成績之間的相關係數為0.56,比美國成年男子身高與體重之間的相關係數約0.4還要高。如果將SAT成績和高中的平均成績綜合起來,就能得到一個相關係數為0.64的預測指數。
有一點必須牢記,那就是相關關係並不等於因果關係。也就是說雖然二個變量之間存在正或負相關,但並不代表其中一個變量的改變是由另一個變量的變化引起的。
話說回來,Netflix(網飛)運用的就是相關性的概念,他們以某用戶在網站上給以前看過的電影評分,與其他用戶的評分比較,從中篩選出相關性最高的用戶群,這意味他們看影片的品味都是相近的,Netflix(網飛)就可以向該用戶群相互推荐他們打高分的影片。當然,這只是簡略的邏輯說明,真正的方法要複雜得多。2006年,Netflix(網飛)公司辦了一場設計影片推荐機制的比賽,至少能夠提高10%準確率的贏家,就可得到100萬美元的獎金。2009年終於宣布了比賽結果,獲勝者是一個由多國統計學家和計算機專家組成的7人團隊。看到統計學的威力了吧!
