孫泠


提起數據挖掘,你馬上會條件反射般想到“啤酒和尿布”?
20年前,沃爾瑪通過對一年多的原始交易數據進行分析,發現啤酒和尿布的銷量具有一定的正相關,原來美國的媽媽們經常囑咐她們的丈夫下班以后為孩子買尿布,而丈夫在買完尿布之后順手買回自己愛喝的啤酒……
別傻了,這是商學院流傳出的教材案例,真假莫辯,更何況沃爾瑪自己從來沒有正式承認過他們通過數據挖掘和分析發現了年輕爸爸們的“順手購”習慣。不過,如今沃爾瑪正在試圖重新“發明”零售業。
太陽冉冉升起。美國本土的4000多家沃爾瑪商店、沃爾瑪購物中心和山姆會員店隨著第一縷陽光從東向西的照射,開始了一天的忙碌。
東部時間9:00,顧客首先涌進了位于美國東岸新澤西州Newark市郊的沃爾瑪購物廣場。
東部時間9:32,東部沃爾瑪營業半小時中收集的暢銷商品信息,被快速傳遞到位于中部的德克薩斯州休斯頓市郊的沃爾瑪購物廣場,此時是中部時間8:32。
中部時間8:39,休斯敦沃爾瑪的工人利用開門前的20分鐘,迅速碼放今天的暢銷商品。
……
太平洋時間8:41,位于加州舊金山市郊的沃爾瑪員工拿到的是綜合了前面三個時區的當天最暢銷商品名單。此時已經是東部時間中午12點了。
利用從東到西的時差,沃爾瑪創造了“一小時”內的數據利用奇跡。在這里,數據并非躺在數據庫里等待靜態分析,而是如潮水一般,跟隨太陽的走向漫過北美大陸。
從上世紀80年代起,沃爾瑪就擁有了自己的商用衛星系統,并建立了世界上最大的民用數據庫之一,這正是支撐沃爾瑪占主導地位的核心優勢之一。在沃爾瑪IT大廈墻上,創始人山姆沃爾頓寫道:沒有不斷的IT投資就不會有沃爾瑪的成長。
沃爾瑪實驗室全球電子商務總監斯蒂芬奧沙利文最近表示,沃爾瑪正著手將全球10個網站整合成一個,同時將前期試點的10節點Hadoop擴展到250個節點,沃爾瑪甚至還計劃開發遷移數據所需的大數據工具并開放其源代碼。這意味著它們的大數據引擎已經完成預熱,準備開足馬力從過去難以利用的大數據中淘到金礦。
事實上,當沃爾瑪投入巨資開發大數據工具并推動其技術發展的時候,我們發現對大數據最熱心的企業不是IT廠商,如IBM、甲骨文等,而是能直接從大數據中獲益的傳統企業,他們已經迫不及待,甚至跑到了工廠廠商的前面。
在此之前,沃爾瑪曾進行了一系列的收購。包括3億美元收購的Kosmix(沃爾瑪實驗室前身)、OneRiot、Small Society、Social Calenda、Set Direction、Grabble等多家中小型創業公司。這些創業公司無一例外的要么精于數據挖掘和各種算法、要么在移動社交領域有其專長,這些都是沃爾瑪全面開展社交媒體和移動應用大數據分析的鋪墊。
沃爾瑪通過Hadoop和其他開源工具分析來自Twitter、Facebook、Foursquare等社交媒體的數據源,同時開發了自己的專有技術Muppet。對基于FourSquare的簽到數據,Muppet能實時分析哪家店在黑色星期五的客流量最大。
通過社交基因庫和數據分析技術,沃爾瑪不但能夠追蹤社交媒體中對地點、用戶和產品的提及信息,從而優化其選貨和備貨的準確性,還能分析產品、用戶、品牌之間的關聯,進行更有針對性的線上和線下店面的產品推薦。
在社交口碑對消費者決策影響力越來越大的今天,對大數據卓越的處理能力被看做是企業在交互時代的必備能力,而通過社交媒體分析深入了解消費行為和消費心理,已經成為企業為消費者提供全新消費體驗的必由之路。
15年前,西方科幻小說的主題以SPIME(SPACE+TIME,時空)為主,而現在的每一個人都是終端、都是數據采集和發布的媒介、都是時空交互的結合體——只要帶著手機,隨時隨地都能找到你。
“Gartner預測,到2013年,會有33%的商業智能數據來自手持設備。我覺得Gartner低估了移動在消費領域的發展潛力,這個數字應該翻一倍……我估計在66%左右。”作為Teradata公司的CTO,寶立明(Stephen Brobst)還是奧巴馬總統委員會的科學技術顧問,在加入Teradata之前,他先后創立了三家與數據庫以及商業智能相關的公司。
10年前,當企業級IT應用的重心轉向集中式巨型架構,中間件平臺成為企業級應用的關鍵,寶立明也曾為數據庫的邊緣化而黯然,當時的企業級IT系統封閉而龐大,追求的目標是生產、交易數據在其中的順暢流轉。
今天,企業的邊界正在消失,各種終端成為采集和發布信息的媒介。過去的數據大多來自企業內部的交易記錄,而現在的企業數據更多的來自防火墻之外。比“66%的商業智能數據來自手持設備”更嚇人的,是“90%的數據是非結構化的,而不是結構化的交易數據”。
在企業內部,數據從原來為少數決策者服務的商業智能,變成能夠直接指導消費者行為的消費智能。目前,直接使用沃爾瑪數據倉庫的人數已經超過沃爾瑪自己的員工數,原因是其數據鏈條向消費者和供應商兩端延伸,使得更多的人直接在沃爾瑪的數據倉庫中尋找自己需要的數據。
如今,采集和發布數據的終端甚至包括一塊電表。2009~2012年間,美國SCE公司為南加州的500萬名用戶安裝了智能電表,這些電表每隔10~60分鐘就會采集一次住宅和商業客戶的能耗數據,并在當天對這些信息進行計費和分析。由于電力價格在峰值和谷底時相差很大,用戶也可以設定提示,到達設定的數額就提示用戶家里能耗過高。
也許你會問:什么樣的科學怪人才會分析自己的能源消費?但是親,在南加州,電力能源的消費很貴,有時候甚至會超過一個家庭養車的成本。
用戶可以像選擇信用卡額度一樣,選擇限制自己能源消費的額度;對電力公司來說,用戶主動選擇深夜開動洗衣機同樣是好事一件,因為電網在波峰時段承受的壓力被降低了。
數據正在成為公司除有形資產、人力資本之外的又一資產,利用數據的水平將區分每個行業的勝者與輸家,是企業的的最大資源之一。