統計推論與假設檢定
統計推論與假設檢定
主要資料來源:《赤裸裸的統計學》,Charies Wheelan著(美),
曹 檳譯,中信出版社,2013。
本書作者在大四時選了統計課,原本他對以數學為基礎的學科並不感興趣,在上課時也不認真,期中考勉強過關。後來在他完成一篇心中牽掛的論文後,有了時間回頭複習統計,結果期末考得了A。由於他的期末考比期中考進步非常多,還被老師叫到辦公室,但他一點都感覺不到任何誇獎鼓勵的意思,一直問是怎麼做到的,總覺得老師的話中有話。
這件事情讓他想到「統計推論」,也就是先發現一些規律和結果,然後再利用概率來證明這些結果背後最有可能的原因。假設有一個賭局,莊家丟一個骰子,如果得到6點,他就贏你1,000元,不是6,就輸你500元,看上去是不是對你十分有利?於是你忍不住下場,結果他竟然連續丟了10次6點,贏了你10,000元。一種可能的解釋是,他的運氣實在是太好了;還有一種解釋是,他可能作弊。一個正常的骰子,連續擲出10次6點的概率為六千萬分之一。雖然你無法證明他作弊,但至少應該檢查一下他的骰子!
話說回來,作者統計學教授的懷疑並非沒有道理,因為同一個學生期中考和期末考的成績通常相關性很高,會這樣想是可以理解的。正是因為這種思維方式,才能使調查人員能夠在統考中發現作弊、證交會能抓出不法的內線交易。當然,如果只是概率很低,還是要有其他證據才能定案。
統計推論是一個讓數據說話、讓有價值的結論浮出水面的過程。當然背後的基礎是要正確的抽取樣本,而且樣本數要足夠大,因為這是中央極限定理能夠成立的要件。單憑數據本身並不能證明任何結論,我們是通過推論概念來對可能的解釋予以支持或否定。我們需要先假設一個結論(統計名詞為「虛無假設」),然後通過統計分析對其進行支持或反駁。反駁就是相當於承認了反面結論(統計名詞為「對立假設」)與真實情況更為接近。儘管概率很小的事,實際上還是可能會發生,一般在科學研究中推翻虛無假設最常參考的「門檻」訂在5%,即0.05,統計術語稱為「顯著水準」,也就是提供的數據能支持虛無假設的概率至少要達到5%這個顯著水準,才能保證該虛無假設具有意義,如果達不到,就將其推翻。
當然把顯著水準訂為0.05只是一個學術研究大家共同接受的標準,並不存在一個單一的「標準門檻」,因為將顯著水準訂為0.01或0.10也是合理和常見的。當我們把顯著水準訂為0.01(即小於1%的概率才能推翻)時,其推翻虛無假設的難度明顯大於訂為0.1(即10%)的情況,因此在統計學上的分量自然也會更重。訂定不同的顯著水準自會有其優勢和劣勢,如果門檻比較寬鬆,推翻虛無假設的可能性就越大,於是就會造成把「錯的當成對的」風險,以統計術語來說就是「第I型錯誤」(即假陽性);如果門檻訂得太嚴,又會造成將「對的當成錯的」,稱為「第II型錯誤」(即假陰性),這就需要權衡和妥協,要依情況再來決定。例如:
- 垃圾郵件過濾
我們不希望不是垃圾郵件被摒蔽(假陽性)更甚於是垃圾郵件沒被摒蔽(假陰性),因為漏收一封重要郵件的損失要大於收到一封垃圾郵件,所以顯著水準要訂得低(較嚴)。
- 癌症篩查
按常理說,本來沒有癌症的人檢查後卻顯示得了(假陽性),應該要比有癌症卻沒被檢查出來(假陰性)要好些,但是,癌症篩檢卻總是站在垃圾郵件的對立面,亦即醫師和病人總是願意容忍一定程度的假陽性,而盡力避免得了癌症卻沒篩查到的假陰性。因此,顯著水準訂得很寬,導致了許多因第I型錯誤的窮緊張(心理壓力)和其後的高額複檢費用和副作用。好在,美國衛生政策專家已經開始挑戰這一觀點。
- 打擊恐怖分子
這種情況,第I型錯誤和第II型錯誤本來都是不可容忍的。虛無假設是「某人不是恐怖分子」,我們並不希望犯第I型錯誤將無辜的人關進監獄,但是哪怕是一個恐怖分子逍遙法外(第II型錯誤)都會帶來不可估量的災難。不管你是否贊同,這就是美國政府會在證據不充分的情況下,依然將可疑分子送進關達那摩監獄的原因!
統計推論並非絕對可靠的魔法,但對於認識這個世界來說,它的作用依然是巨大的。統計推論只是將過程予以正式化!
