跳到主要內容區
 

為什麼要學統計?

最後更新日期 : 2025-12-01

為什麼要學統計?

主要資料來源:《赤裸裸的統計學》,Charies Wheelan(),曹 檳譯,中信出版社,2013

 

學習統計的意義是什麼?統計學能夠幫助我們處理數據,而數據只不過是包裹著華麗外衣的訊息。在很多時候、很多事情上,數據不僅瑣碎而且看起來也不重要(比如比賽數據統計);但有的時候,數據卻能為我們打開一扇洞察本質之窗。數據雖不過是知識的原材料,但統計可以賦予意義。

以體育運動來說,人們早已精通使用數據來總結訊息。例如一位棒球明星的安打率為0.298,對個別棒球迷來說,這是一個極有意義的陳述,是一個非常耀眼的成就,這個數字是一個偉大棒球運動員18個賽季職棒生涯的奮鬥記錄。它雖然只是一個數字,但在總結一個運動員價值時,具有其他指標不可比擬的優勢。

在美國,衡量一個學生的高中和大學學業表現的方法是看他成績的GPA。如果一門課的成績為A,可以獲得4點、B是3點、C是2點。當高中畢業申請大學或大學畢業找工作時,GPA就是評價他們潛力的便捷指標。雖然這個指標並不完美,因為GPA並沒有反映所選課程的難易程度。正因如此也告訴了我們,不能對描述統計過度的依賴,不然就會帶來誤導。

在統計學裡這些就是「描述性數據」,而它存在的意義就是「簡化」。因此,不可避免地會丟失一些內容和細節,任何一個數字工作者對此都要心知肚明。

統計學一個核心功能,就是使用手中已有的數據進行合理的推測,以回答那些我們還未掌握所有訊息的「大」問題。也就是說,我們能夠使用「已知世界」的數據來對「未知世界」進行推斷。例如,大選之前,要知道各候選人的支持率,就可以用抽樣方法得到的樣本數據進行推斷,如果使用得當,同樣可以獲得準確的結果。

從長遠來看,賭場總是能獲利,而且無一例外。但這並不是說賭場每時每刻都在賺錢,每當賭場的鐘鈴聲響起或有人大呼小叫熱鬧非凡時,就代表有人剛剛才贏走了不少錢。博彩事業是建立在機遇遊戲之上的,雖然每一次投骰子和撲克翻牌都是不確定的,但相關事件的潛在概率則是已知的,所以從長遠來看,賭場永遠都是最後的贏家。

保險業也是一個承擔風險的行業,通過收取保費,保險公司為其客戶在遭遇意外事件後提供保障。但它並不是通過消除這些事件來賺錢,因為這些事件幾乎每天都會發生,它收取保費,並用來在客戶遭遇車禍、火災、環境等「意料之中」的風險提供保護,而保險公司在以概率為基礎的風險評估下仍能有盈餘。甚至還可通過宣傳安全駕駛、在游泳池周圍設置圍欄、為室內安裝煙霧偵測器等方式,來減少預期的損失賠償。

概率在有些情況下甚至可以用來判斷考試作弊。在學校或考點舉行的考試,如果有多名考生對同一題的答案出現相同的錯誤,正常情況下這種情況是極少見的,或許概率不到百萬分之一。如果一旦出現,當然是一個很好的線索。當大部分考生對某道考題都給出了正確的答案時,我們不會感到奇怪,因為這是他們應該做的事,當然這些考生也有可能是作弊,但靠自己並沒有作弊的可能性會更大。但是當一群考生答錯題的時候,他們的錯誤就不應該是完全一樣的,如果一樣就有可能因為是相互抄襲,或者通過某些手段分享得到的答案。再者,如果一場考試,有某些考生在較難試題上的正確率,大大高於容易題,這是否意味著他們有可能是提前就知道答案?還有,如果在考場收回的答案卡上塗改的痕跡,「錯改對」的要明顯多於「對改錯」的,是不是意味著有可能是監考人員或閱卷人員提供了什麼幫助,或動了什麼手腳?

當然,由概率來發現問題也有其局限性。一大群考生在某道題目上出現情況相同的錯誤答案,有可能是巧合的,如果參與的學校越多,是巧合的可能也越大。亞特蘭大就有一位超級幸運者在2008年中了100萬美元的彩票,在2011年又中了100萬美元彩票,如果要算概率是只有25萬億分之一,可是的確真的發生了。概率就像武器庫裡的一件武器,需要使用者有較強的判斷能力。

「吸菸會誘發癌症嗎?」如果要用科學方法來求證吸菸會誘發癌症,就必須進行控制實驗,也就是要有「實驗組」和「對照組」(或稱控制組),除了實驗組給予設定的變量(即吸菸)而對照組不給以外,還要排除他可能的影響因素。經過一段很長的時間(通常要幾十年),如果在這二組(肺)癌症發生率有明顯的不同,而且還隨著吸菸量成正比,這樣我們才能確定推斷吸菸能誘發癌症的假設。受試者則是採用隨機的方式分配進入實驗組或對照組,而且原來也都是不吸菸的。因為我們的假設是該變數可能會帶來不良後果,若以真正的人作為受試者,隨機分組顯然是不道德的,當然是違背實驗倫理的。何況還有其他的變數,也會造成健康的損害,例如酗酒、暴飲暴食、生活方式……等等,這些都是在研究中需要面對的難點。

我們不能像對待實驗室裡的小白鼠那樣對待「人」。因此,統計學更像是偵探做的事,要從數據隱藏著線索和模型裡去找到有意義的結論。可是,即使在最理想的情況下,統計析也很少告訴我們「真相」。我們通常所能做的,只是用並不完美的數據來就事論事,評價政策、項目、藥品、醫療程序和其他創新的有效性,揪出那些運用相同統計學手段來幹壞事的敗類!

 

讓我們來看看下面這些彼此不相干的問題:

  • 我們如何確認那些在考試中的作弊行為?
  • Netflix是如何知道你喜歡的電影類型?
  • 既然不能對人體進行癌症誘發試驗,那我們如何才能得知哪些物質或行為會誘發癌症?
  • 祈禱真的能夠讓手術病人的狀況改善嗎?
  • 從頂尖大學畢業是否就意味著更高的經濟收入?
  • 是什麼推升了「自閉症」的發病率?

 

統計學能夠幫助我們回答以上這些問題,至少也會加快我們解決這些問題的步伐。

 
瀏覽數: