孟曉犁
大數據這兩年一直是熱詞。發展中的大數據確實帶來了很多有用信息,但是所謂大數據,并非越大越有價值。
比如,在美國做一個1000人的抽樣調查,這個調查若是在中國做,要達到同樣的精度,需要抽取多少人?美國的人口是3.2億人,中國的人口是美國的4倍多一點。每次我在大學做講座問到這個問題時,只有10%的人能說出正確答案:仍需抽樣1000人。絕大多數人認為,抽樣數必須大于4000。
為什么呢?最簡單的比喻是:喝湯時,要確定湯的咸淡,大多數人只需要嘗幾口,并不需要把湯全部喝完。這個判斷的準確性取決于這碗湯的均勻度。喝湯前把整碗湯攪拌一下,然后品嘗幾口,這就是我們所說的隨機取樣。無論是一小碗湯還是一大桶湯,只要攪拌均勻,嘗幾小口就夠了。同樣,去醫院驗血時,每個人不論是胖是瘦,小孩還是大人,醫生都只會抽一點血就可以做出判斷。這意味著抽樣調查需要有一定的樣本,但是一旦超過臨界點后,和母體大小的關系是完全可以忽略的。也就是說,大數據再大,只要科學抽樣,哪怕只有百分之零點零零幾的均勻抽樣,效果也可以比95%不均勻的數據好。
所謂大數據,也不能光看絕對量,并非數據越多結果越可靠。以現在最熱的個性化治療為例。如果一種藥對95%的人有效,但對我沒有用,那這95%的數字對我而言便毫無意義。
一個真實的例子是,在20世紀80年代,英國有一本雜志登了兩種治療腎結石的方法。文章摘要宣稱方法A治療腎結石,成功率是78%;用方案B的話,成功率是83%。在沒有其他信息的情況下,任何人都會認為B方案的治療效果更好。但是仔細閱讀那篇文章,你會發現當研究人員把病人分成大結石和小結石兩組時,方案A比方案B在每組里的成功率都要高。
(孫麗摘自《新一代》2015年第12期,全景視覺供圖)