
沃爾瑪的歷史交易記錄是個非常龐大的數據庫,這個數據庫不僅記錄了顧客的購物清單,還包括購物籃中的物品、具體購買時間甚至購買當日的天氣。2004年,沃爾瑪的員工通過對這個數據庫的研究,發現每當季節性颶風來臨之前,手電筒的銷量當然會增加,但居然蛋撻的銷量也大為增加。因此,颶風來臨前,沃爾瑪的員工會把庫存的蛋撻放在靠近颶風用品的位置,方便行色匆匆的顧客取用,從而賣出了無數蛋撻。
那么,接著你肯定要問“為什么颶風期間待在家里的人最想吃蛋撻”了。事實上,你需要改變你的想法—在大數據時代,愛問“為什么”可不是什么好表現。
因為,大數據只能告訴你誰和誰有關,卻不能告訴你為什么。這種建立在相關關系分析法基礎上的預測正是大數據的核心。正如亞馬遜最有效的個性化推薦一樣,機器在梳理了所有數據之后,會向購買了海明威作品的顧客推薦菲茨杰拉德的書,沒有人知道海明威和菲茨杰拉德的受眾為何相對一致,但這并不重要,重要的是銷量。如今,據說亞馬遜銷售額的1/3都來自于它的個性化推薦系統。
當你適應了大數據式的思維方式以后,就能拋棄尋找因果關系的“假設—實驗—因為先有假設,可能會有偏見—證實或者推翻假設”這樣的麻煩過程,直接尋找相關關系,而不再問“為什么”。
維克托·邁爾-舍恩伯格的《大數據時代》還講了另一個沒有“為什么”的故事。紐約每年都有很多沙井蓋會因為內部失火而發生爆炸—重達300磅的沙井蓋沖出幾層樓高,非常危險。但紐約的地下電纜就有15萬公里長,光是曼哈頓就有大約51000個沙井蓋和服務設施,所以,愛迪生電力公司每年只能對沙井蓋進行抽樣檢查和維修。但事實上,每一個沙井蓋都有爆炸的可能,抽樣檢查并不可靠。
負責這個項目的統計學家辛西婭·魯丁抱怨,關于沙井蓋的數據庫非常巨大且雜亂,你要從這海量數據中找出“為什么沙井蓋會內部失火從而爆炸”,這是完全不可能的。
但相比“為什么”,魯丁更關心“是什么”。她不再尋找原因,而是總結出了沙井蓋爆炸的106種預警情況,也就是爆炸的“相關物”—在沙井蓋爆炸之前,會出現什么情況,然后找到了出現這些情況的沙井蓋。這種做法很有效,在統計學家列出的高危沙井蓋中,有將近一半的確發生了嚴重的問題。