生活的經歷告訴我們做事情一定要“心中有數”,但心中有數首先要眼里有數,所以我們習慣于“實證方法”,通過調查得出統計數據,再做成表格、箭頭圖、餅圖、柱狀圖、折線圖、曲線圖等,好了,這下,我們踏實了,
可是,由于商業利益的存在,統計數據也會表現出傾向性。或者預先設定了傾向性,所以,讓我們感到踏實的數字未必反映真實狀況,我們依賴的“實證方法”未必就“實”,其過程可能是把一種傾向研究成“事實”或證明成“事實”。
美國著名統計學家達萊爾-哈夫提出,當你面對統計數據時,先要問自己5個問題:誰說的?他是如何知道的?遺漏了什么?是否有人偷換了概念?這個資料有意義么?
我很注意電視、報紙上賣藥的廣告,“中國有百分之××”的人“缺鈣”……這個“百分之××”是多少呢?一般是70%、80%、90%,很奇怪,過去憑票過日子的時候,中國人啥營養成分都不缺,現在怎么什么都缺?如果把廣告所警告的疾病、營養不良的百分比都歸總一下,這個結果是夠嚇人的,
問題的根本在于,這個危言聳聽的統計是誰做的?當然是廠商做的,那么出現如此荒誕的統計也就不足為怪了。
統計的陷阱在哪里呢?首先是統計本身的不真實性,比如統計樣本的選擇偏差,或是樣本空間過小,導致代表性差。
統計分析讓一切假象原形畢露,但遺憾的是,統計未必能夠揭示真實,有時候還可能制造假象。
由于調查者的主觀意向或者客觀失誤的影響,統計樣本的選擇偏差直接影響到紛計的結果,比如,你有一桶豆子,有紅色、有白色。那么紅色的豆子有多少呢?如果按照統計學的辦法,就是抓一把豆子(抽樣),然后算一下紅白豆子的比例就能夠得到近似的結果,但這個前提是,紅白豆子在體積、形狀、重量上的無差異化,如果是大豆子和小豆子呢?按照物理學原理,小豆子會在桶的下面,而大豆子在上面,如果你在上面抓一把樣本,就是大豆子多;在桶底抓一把樣本,就是小豆子多。
樣本的空間要足夠大,才能保證統計的穩定性和可信度,比如說,抽取10個樣本和抽取1000個樣本,顯然是不一樣的,當初美國某大學有一個驚人的統計數據,該校物理系有50%的女生和男教師同居,校方大為震驚,仔細調查,確實如此,該系有兩名女生,其中一人與男教師墜入愛河……
統計的另一個陷阱在于統計之后的分析過程,在分析中,統計者是否遺漏了什么?或者忽視了統計所依賴的條件?
我們經常看到這樣的分析報告。某產品價格為1000元,目前消費群體是10萬,年收入1億元,如果全國有百分之一的人消費該產品,就會有1300萬消費群體,年收入將高達130億元,帶來××億元的稅后利潤。
類似的分析過程我們并不陌生,但統計者忽略了一個事實,那就是從10萬消費群體增加到1300萬的前提是價格的大幅降低,而價格大幅降低之后,收入就不會那么多了。利潤更會有很大的變化,試想,如果現在的手機還是當年大哥大的價格(4萬元左右),能做到如此普及么?
以突發事件代替常態,從小樣本推廣到大樣本,如果忽視了一些重要的因素,分析過程就會產生缺陷,即使是正確的統計數據也未必能得到正確結論。