如何操縱統計
如何操縱統計
資料來源:《統計數據會說謊》,【美】達萊爾·哈夫(Darrell Huff)著,
靳琰、武鈺璟譯,中信出版集團,2018
通過利用統計資料給他人傳遞錯誤訊息,就叫做「統計操縱」。有統計專家認為一般都是由於無知、粗心才造成了誤傳,而非蓄意欺瞞。當然,這麼說也不無道理,也許更不該的是,刻意歪曲統計數據、故意操縱統計數據的人並不是專業的統計學家。這些統計數據一旦到了推銷人員、政治家、記者和廣告文案撰寫人的手中,馬上就被歪曲誇大、過分簡化,或是在層層篩選中變得面目全非。
媒體上的虛假圖表,常常會濃墨重彩地誇大事實,從而造成聳人聽聞的效果,它們很少會將事實輕描淡寫、一筆帶過。只要這些錯誤總是單方向的,我們就很難將之歸咎於粗心或意外導致犯錯。
在利用統計數據誤導人的方法中,最狡猾的手段當屬「地圖」。通過在地圖上畫一堆變量,事實就被掩蓋,事物之間的關係就被扭曲了。其中又以陰影繪圖法最為惡劣,玩弄的手段就是利用各地的密度差異,如果面積極小,就算陰影很深,也不會給人深刻印象。雖然使用的是相同的數據,但製圖者可以給看圖的人感覺出大相逕庭的印象。
美國人口普查局公布1949年美國家庭的平均年收入為3,100美元,但是在The Russell Sage Foundation上,同一年的平均收入確高達5,004美元,為什麼會差這麼多?是樣本不同嗎?原來人口普查局計算時用的是中位數,這是比較合理的,而基金會用的是平均數,可是差別也不該這麼大啊!最後基金會的人解釋說:「我們是將美國國民總收入除以全國總人數,得出每人1,251美元的平均年收入,然後乘以4,就變成了一個4口之家5004美元的平均年收入。」這個奇怪的統計操作,有意的在二方面加以誇大:首先,他們使用平均數,而非數額更小但更貼切的中位數;其次,假設了家庭收入與家庭人數成正比。但事實上,4口之家的財產,絕不可能是2口之家的二倍。平心而論,基金會的統計人員不是要蓄意欺瞞,應該說他們主要是想繪製一張給予而非索取的圖,但這也是一個為什麼不能相信未加說明如何運用平均數的絕佳案例。
為了要給數據製造一個精準的假象,應該考慮多多使用「小數」。例如你去問問一個人昨晚睡了多久?大多數人的給的答案都會與實際情況有15分鐘或更大的誤差,我們也不能確保這些誤差能互相抵消,所以說實際上這些數據,從一開始就是不夠精確的。假設我們調查了100個人,得出了783.1小時的總數,然後說人們平均每晚的睡眠時間為7.83小時,看起來很精確,其實只是一個大概而已,比猜測強不了多少。
百分比也是一片滋生混亂的沃土,就像那個給人深刻印象的小數一樣,可以給不準確的東西鍍上一層精確無比的光環。我們要記得,任何小規模樣本得出的百分比都具有誤導性,還不如直接給出原始數據來得可靠,如果再將這個百分比精確到小數點,就不是愚蠢而是欺騙了。大特價期間價格便宜了100%,是在免費䁬送嗎?當然不是,原來是「買一送一」。股市名嘴說,某支股票股價在崩盤被腰斬的情況下,到今天已上漲了100 %不是太美好了嗎?請大家想想看,在抵消之前被削減的50%,要上漲多少才能回到原點?
將一些不該相加的東西加在一起,就會產生許多愚蠢的錯誤和強詞奪理的狡辯。一年有365天減去122天用來睡覺;再減去45天用來吃飯;剩下198天有90天是寒暑假;21天是國訂假日,剩下來的時間連渡周末都不夠,還上什麼學?千萬不要以為這老套的拙劣把戲,不會出現在別的地方。美國每次罷工時,商會就會宣布罷工會造成每日數百萬美元的損失。怎麼算出來的?他們是將正常工作時的產品價值相加,再加上物流商、批發商、零售商…的損失都加上,總之,就是要把能加上的東西全部都加上!
你是不是常聽到以下的說法?「實在是不得不調價,因為成本增加所致。原料成本漲了10%~12%、關稅增加了20%、海運費漲了10%、物流成本增加15%,還有房租、人工成本的增加,這些加起來至少有50%以上,現在售價只調了15%,其餘的都由公司吸收了。」有道理嗎?請想想,如果一個產品的「每一項」成本都增加了10%,總成本不是也只增加10%嗎,以上的說詞都是瞎扯!
另一個極具欺騙性方法就是將百分比和百分點混淆。如果某國的國防支出從第一年占GDP的3%增加至第二年的5%,那麼,我們可以宣稱只增加了2%,也可以誇張的說成增長高達67%。這樣的說法,大家陌生嗎?
百分位數同樣也會騙人。以大學學測為例,在99百分位數中如果為99,指的是在100人中是最好的,如果是300人的團體,則前三名的百分位數都是99,以此類推。它的神奇之處,就是一個百分位數99的學生只是比百分位數為90的學生優秀一點點,但是我們要知道,百分位數為40和60 的學生水平是差不多的。為什麼呢?那是因為考試分數是呈常態分配的,大多數的考生都會聚集在平均數的周圍附近。請回想一下常態分配的「鐘形曲線」,就更容易理解了!
用二張圖疊加而成的疊加圖也是另一種手法,雖然圖上的數據都是客觀真實的,但是可以給人不同的印象,或選擇自己喜歡的結論。指數也是一個非常重要可以操弄的東西。例如,去年牛奶1公升的價格為2美元,一個麵包的價格為0.5美元,今年同樣的牛奶降為1美元,麵包價格漲到1美元,那麼物價是上漲了?下降了?還是沒變?如果你是以去年為基期,牛奶下跌為去年的50%,麵包翻倍為去年的200%,50%和200%的平均是125%,那麼物價就上漲了。可是如果以今年為基期,去年的牛奶價是今年的200%,麵包價是今年的50%,平均是125%。所以,去年的物價比今年高25%,即物價降低了25%。如果你要的是證明物價水準沒什麼變化,我們就改用幾何平均數來計算,隨便用哪年當作基數都行。計算的結果都是100,物價穩定沒漲也沒跌。使用幾何平均數是絕對合理的,有時還是最管用、最貼切的方法。
統計學不僅是一門科學,也是一門藝術。在允許的範圍內,可進行大量的統計操縱,甚至扭曲事實。統計學家可以在多種方法中挑選一個闡述事實的方法,這就是一個主觀的過程,他們當然不會選擇對自己不利的方法。就連學術界的人在研究時都會帶有一定的偏好(也許是無意識的),特別是在他們有想要證明的觀點或有自己想達到的目的時候。因此,要記得當我們看到各種統計數據和說明時,在接納之前都應用嚴格的標準反復審視才是!
