2009年,Google的工程師在《自然》雜志上發表了一篇論文,解釋了Google為什么能夠預測冬季流感的傳播——甚至在疾病控制與預防中心之前發出預警。這并非由于疾控中心效率低下。從人們感染流感到就醫、再到醫生報告、最后數據匯總,加起來至少有兩周時間的滯后,這對一種新的流感病毒來說后果是致命的。Google的方法是通過觀察人們在網上的搜索記錄來預測流感,他們發現45條檢索詞條的組合,用特定數學模型處理后,其結果與美國疾控中心流感歷史紀錄的相關性高達97%,而且判斷非常及時。
接下來的事情就是歷史了——幾個星期后,令人聞之色變的甲型H1N1流感爆發時,與習慣性滯后的官方數據相比,Google成為了一個更及時有效的風向標。
這個故事,不過是大數據時代的前傳。大數據是人類文明史上前所未有的工具:通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見。
人類利用數據已有漫長的歷史,從某種意義上說,在此之前的歷史可稱為“小數據時代”。因為缺乏對完整數據采集、存儲及處理的能力,隨機采樣分析法應運而生。采樣的目的就是用最少的數據得到最多的信息,但當我們獲得海量數據,甚至樣本=總體的時候,采樣分析的固有缺陷就暴露了。這就好比傳統相機只能記錄部分光,Lytro相機可以記錄整個光場里所有的光,具體生成什么樣的照片可以在拍攝后根據需要決定。在大數據的Lytro相機面前,之前的聚焦等攝影技術只是浮云。

大數據時代,人們的思維方式也將發生變革。沃爾瑪蛋撻就是一個例子。沃爾瑪曾對歷史交易數據進行分析,這個數據庫包羅萬象:每個顧客購物時間、清單、消費額,甚至購物當天的天氣。分析發現:每當季節性颶風來臨之前,手電筒和蛋撻的銷量會同時增加。因此,現在每次颶風前,沃爾瑪都會把蛋撻擺在颶風用品的旁邊。為什么是蛋撻,而不是其他食品?這無從得知,也不重要。知道是什么(相關關系)就夠了,沒有必要知道為什么(因果關系)。這就是本書作者提出的一個充滿爭議的觀點:建立在相關關系分析法基礎上的預測是大數據的核心。有人進一步提出,用一系列的因果關系來驗證各種猜想的傳統研究范式已經不實用了,它被無需理論指導的純粹的相關關系研究所取代,大數據時代意味著“理論的終結”。上述觀點如此激進,連本書中文譯者都忍不住表態反對。
說到譯者,《大數據時代》的翻譯可圈可點。中譯本的出版和英文原版完全同步已是難能可貴,更令人驚喜的是,除了翻譯正文外,譯者周濤加入了大量的譯者注,為中文讀者補充了很多參考資料。譯者注遠遠超過作者注,在當今翻譯出版界可謂罕見。
大數據是如此耀眼,有時候會讓人忽略了它的局限。在書中最后一章,作者意味深長地引用了喬布斯的例子。喬布斯推出ipod、iphone和ipad靠的不是數據,而是直覺。當記者問喬布斯,蘋果在推出ipad之前做了多少市場調研時,他那個著名的回答是這樣的:“沒做!消費者沒義務去了解自己想要什么。”即使是在大數據時代,也有不依賴于數據的事物——比如卓越的才華。
(文/王一州 制圖/文耀)