◎ 葉麗雅
小樣本挖掘
◎ 葉麗雅
2009年,人類學者Tricia給諾基亞總部寫了一份詳盡的市場報告,說低收入者已經準備好為更昂貴的智能手機買單,建議諾基亞研發面向低收入者的價格適中的智能手機。諾基亞總部本來還挺欣賞Tricia的報告,但看到她的樣本只有100個的時候放棄了,轉而選擇相信更抽象的大數據,后面的事情大家顯然都知道了。
在人人都提大數據乃至迷戀大數據的今天,厚數據的逆向思維是一個新的定義。
厚數據是由已故人類學者Clifford Geertz提出的。大數據是剔除了個性化元素和背景信息的標準化數據,厚數據則通過小樣本分析找出特定人群的需求。前者揭示的是“是什么”,后者展現的是“為什么”。
一位英國的數據挖掘專家通過大數據發現超市里的西班牙食品總是和清潔用品一起被消費,經過實地調查后終于搞明白:當地大量雇傭西班牙女傭,她們在幫主顧家采購清潔用品的時候順道給自己采購食品。超市就此調整貨架安排,銷量果然大漲。
淘寶上最成功的推薦從來不是你買一件衣服它就為你推薦同款或者同風格的其他衣服,而是在你買驗孕棒的時候給你推薦葉酸,買孕婦裝的時候給你推薦新生兒的內衣、玩具、紙尿褲乃至奶粉等一應產品。
大數據的風險在于數據在標準化過程中去掉了所有與人性相關的部分,它的確是事實,但也只是部分事實。因為關注大部分人而放棄小部分人的選擇并不明智,就像交朋友一樣,大部分人不追求有成千上萬的朋友,只需要幾個和自己脾性相投的朋友。
現在越來越多的商家追求特定目標群體的伙伴式營銷,將大數據的廣度與厚數據的深度結合才是數據挖掘的未來之道。
(摘自《IT經理世界》2015年第6期)