黎遠
在和平飯店的沃頓商學院校友會上,遇到曾在美國教我應用統計的那位教授。他問我:“什么是概率?”憑我想盡一切課內課外的知識回答,教授總是微笑著搖頭。最后教授揭曉答案:概率就是一個“謊”。任何讓你用概率回答的問題,人們只關注數字,而往往忽視了樣本,而任何一個發起統計的人都會有意無意地左右樣本的選擇。最后,概率就真的成了一個謊言。
當晚,我登錄QQ,蹦出一個窗口,直接鏈接到了在線投票,讓網友投票選出最受關注的“民生十問”,包括水電煤價格、食品安全、堵車、寬帶提速、擴大醫藥報銷范圍、郊區市民的生活便利、三公經費、入托難、教育經費分配、雙軌制養老金、PM2.5、新增地鐵線路、公租房、演唱會票價、大學生就業新舉措等。我發現,除了水電煤價格高居榜首外,寬帶提速力壓養老金、地鐵、醫藥費、入托難等切實問題而高居三甲之列。
會上網瀏覽,特別是使用QQ工具的人,大多是從事腦力活動較多的中青年,且有很多使用網絡的時間,顯然這部分人關心寬帶提速無可厚非。這個群體距開始關心養老金還有些時日,當中的相當一部分是學生朋友,“入托難”也不會是短期內應該考慮的問題。而五六十歲,臨近退休的人群中,又有幾成有QQ號,有多少會上網投票,使得縮小雙軌制養老金差距這樣的現實問題在兩會議題中的排名中稍微靠前一點呢?
網上投票的結果,會以一種怎樣的方式呈現到兩會代表面前,是僅供參考,還是直接提交?提交的時候,報告上是否會說明這是網上投票結果,又是否會善意地提醒代表注意使用QQ工具的人群的平均年紀并附數據說明?因為樣本的原因,統計很難客觀,那當然的做法就是在公布結果的同時公布樣本的選取方法,對結果的使用者進行提醒并提供參考。但很可惜,這樣的做法,很少見到。我們平時看到的GDP、CPI、房價指數等眾多的經濟指標,其實都是建立在所謂的抽樣統計調查之上的結果,而我們從來就不知道這些統計結果背后的樣本選取,有關部門甚至以樣本選取的偏誤作為解釋某些數據差異的原因……拜托,這是原因,但不是借口;由于偏誤導致差異可以理解,但明知偏誤卻從不調整,就讓人氣憤了。
作者郵箱:bigyuanli@hotmail.com