張安琪
(遼寧工程技術大學,遼寧 阜新 123000)
6億注冊買家,600萬家店鋪,10億種商品,一萬多個商品類目,20億元的每日交易額。淘寶網的這組數字,足以見得阿里集團大數據礦山的資源厚度。淘寶商城的創始經理、華平投資合伙人黃若這樣比喻:“如果將淘寶比作一塊肥沃土地,只要拿一根竹竿往地下一插,油就會冒出來。”油是什么?就是大量買賣雙方產生的所有交易數據背后的商業價值。在數據中發現相關性,創造更大的商業價值,是阿里集團數據委員會的數據團隊正在做的事。阿里在網絡平臺上把所有商家、庫存、消費者數據、交易數據全部組織起來,對接到所有的消費者、商家、倉庫,讓商家能夠根據實時交易狀況,把貨事先配送到大區去,這樣可以極大地提升快件配送的效率,從而降低成本。這些數據可以做的事情還有很多。截至2012年底,阿里金融已經為超過二十萬家淘寶商家提供了貸款服務。如此大規模的業務該怎么樣把風險降下來呢?這就要依靠大數據的力量了。前期阿里金融會通過歷史交易記錄、訂單數量和店鋪信用體系等對申請人進行定量分析,甚至引入心理測試系統,評估其性格特征,綜合所有數據信息進行信用評級。在此之后,阿里會繼續實時監控貸款企業的網絡經營狀況,一旦發現不良狀態,系統將及時發出預警,從而確保還款安全。
阿里巴巴淘寶對大數據相關性分析的應用可謂是出神入化,數據就是基礎,數據就是財富。而要分析就要有數據的支撐,提到數據的來源除了阿里自身龐大的數據網,阿里還更積極地獲取更多的數據資源。2013年阿里巴巴以5.86億元收購了新浪微博18%的股份。一方是日訪問量超過9000萬的電商帝國,一方是擁有5億多注冊用戶的社交平臺,此次聯合無疑大大打通了數據平臺。阿里力圖構建一條大數據全產業鏈。試想新浪阿里在用戶賬戶互通后,可能帶來的海量社會化電商交易額,由此產生的強大商業爆發力絕對會在互聯網世界掀起一片喧嘩。
平均每一秒都有200萬用戶在使用谷歌搜索,Facebook用戶每天共享的東西超過40億,twitter 每天處理的推特數量超過3.4億。據相關統計證明,目前世界上百分之九十的數據是在互聯網出現后迅速產生的。舉個例子來說,如今大家都越來越喜歡網絡購物,相信大家只要在淘寶上買過東西就會知道,當你瀏覽淘寶的時候,網頁下面總會有猜你喜歡這一欄。你會驚奇地發現這里面推薦的東西有一些比你特地去搜索的時候還要感覺稱心如意的商品。是淘寶會讀心術嗎?不,它的原理就是大數據的相關性預測。
數據的相關性預測其實沒有那么難以理解。比如說傳染病是很難研究的,因為發病快,病人很快就死了,沒法像癌癥那樣去研究它的病理學是什么。那最后是怎么發現傳染方式的呢?以霍亂為例,實際上就是有兩張地圖,一張是得霍亂病人的分布圖,另外一張是倫敦市水井的分布圖,最后發現兩張圖之間有一些聯系規律,所以覺得跟飲水有關。這只是個在科學不發達時期的例子,通過水井跟霍亂這兩種非相關數據的分布找到了相關性,雖然不知道為什么,也沒辦法解釋,但是卻能夠做出較好的防范。先不要管這個猜想對不對,能有防范的措施就已經很好了。這就是數據相關性分析的特點,不是因果,而是相關。我們不需要去探究為什么,只是知道是什么就夠了。
在商業營銷方面,其實不太需要拼命地挖掘因果。不如說是沒有那么多的因果可以考尋。顧客的想法是沒法猜的,也許他前一秒迫不及待放進購物車里的東西下一秒就會突然不想買了。而對于營銷者而言,你只需要知道他想買過,他曾經大量的搜索過這類商品就可以了。至于他想買和不想買的原因,可以暫時忽略之。然后接下來我們就可以在他打開網頁的時候開始推送同類商品或者相關產品的信息了。顧客會看到更稱心如意的商品,說不定就回心轉意想要購買了。當然這全部都是猜測,但是這個概率即使只有百分之一,這對營銷來說也是不小的成效,這便是大數據相關性預測的效果。
但問題在于,很多人把相關等同于因果,這樣的做法會形成很多有些誤導性的結論。比如說在百萬用戶的搜索習慣中發現,他們特別喜歡某種商品。但這種結果結論是不具有推廣性質的。再分析另外的幾百萬用戶的時候你很難把上述那個結論也放他們身上,因為這里面是沒有因果關系的。要確認因果關系,必須經過一個很復雜的觀察和思考過程,排除很多的“隱性變量”。這不是那么簡單地做一些數據分析就可以的。相關性是因果的前提,但是不等于因果。
于是我們看到了大數據的力量。大數據顧名思義就是大量的數據,多到什么地步呢?就是全部樣本主體。提到樣本就不得不說最早相關性的鼻祖——抽樣調查。抽樣調查的方式很多,我們可以做調查問卷,調查后回收進行統計計算出其中的相關性。然而為了這某一特定的問題抽樣調查需要持續,因為隨著時間的流逝以前的結果會越來越不足以說明問題。所以說抽樣調查的結果是靜態的,它只能說明你做那次抽樣調查時的一些相關性,而且這種相關性還很微弱,因為抽樣的樣本太過稀少。當不斷地增加新的樣本時,一切就又得重新開始了,過去的所有結果也要推翻了。這些還是次要的,抽樣調查最不可避免的問題還有一點:為你填寫調查問卷的人在問卷中所寫的答案并不一定就是他心中所想,或者就算他這么想了他實際上也不會這么做。
然后讓我們回到大數據上來。大數據不是抽樣,它是實打實的擁有所有人心中的“問卷”。最重要的是它獲得的是用戶真實行為。用戶回答他喜歡這個產品和他確實付款購買了這個產品,顯然后者更能說明問題。大數據的分析是動態的,隨著數據每分每秒的更新,它的結論也是在變的。讓我們再來看看淘寶的推薦系統。它的推薦方式是多種多樣的,比如說“猜你喜歡”,它里面的商品都是根據你平時的搜索或購物習慣來的。或者是“瀏覽過此商品的顧客還瀏覽過”,“購買過此商品的用戶還購買過”等等。它會想盡辦法找到各種關聯,然后通過你的選擇再次整合出新的數據,源源不斷地進行推薦系統的完善。
討論了這么久的相關性預測我們知道,我們最希望看到的結果就是大數據主要的匯集成了一個大的預測方向,那些邊角料的數據往往是不會被計較的。不過可不要輕易地忽略它們,這些看似“不和諧的音符”也可以通過繼續進行數據分析預測實現它們的價值。阿里的數據團隊曾經在淘寶上收集了一些小而精美的店鋪,這些店里的商品款型奇特,往往受到一些熟客的追捧。通過追蹤這些購買者,他們發現了一部分挑選商品有獨特眼光的購物達人,再結合這些購物達人搜索的關鍵詞,可以看出在之后的一個月里這些關鍵詞被人搜索的次數會高出20%。就是說這些消費者的行為數據往往在揭示下一階段的流行趨勢。
大數據不做有絕對把握的事,還是那句話,哪怕是只提高了百分之一你購買的概率,大數據的價值都是非常有必要的。也許你會說只有百分之一還是碰巧瞎貓碰死耗子撞上的,有什么用?不過淘寶今年的雙十一銷售額足足比去年雙十一增加了200多億元我想這絕對不能用偶然來下定論吧。
大數據的相關性預測其實已經不是什么新鮮事了,沃爾瑪將蛋撻與颶風用品,啤酒與尿布擺在一起銷售,谷歌網站可以正確預測流行感冒,美國折扣零售商塔吉特能夠正確預測一個女性是否懷孕。這些超前準確的預測讓我們對相關性預測充滿信心。隨著互聯網的飛速發展,越來越多的數據會從以前想象不到的地方提取出來,數據總量的增加也預示著大數據的相關性分析會更加的接近于百分之百。亞馬遜的創始人格雷格·林登說:“在組里有一句玩笑話,說的是如果系統運作良好的話亞馬遜應該只推薦你一本書,而那本書就是你將要買的下一本書。”雖然相關性分析有不確定性眾所周知,也許你根據某些數據得出的結論其實只是一個巧合,而且現在的事實是亞馬遜推薦的書也有很多不一定是你想買的。
必然性的成功太過艱難,我們更應該抓住那可以無限接近成功的可能性。要達到運作良好的狀態需要的條件要很多,需要考慮數據收集的難易度,如何才能迅速積極的隨時調動出已有的數據對自己有價值的部分,數據收集的成本對于各個企業來說也是首要的問題,不過阿里巴巴淘寶的成功更加能給我們信心,相信這些問題會隨著技術的發展而不再成為問題。
[1] 維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)(英).大數據時代[M]. 2013.
[2] 孟曉峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2012(1).
[3] 魏武揮.大數據:利用相關性的營銷[J].
[4] 張耀疆.大數據強調相關性而非因果性[Z].
[5] 付倩倩.阿里巴巴“淘寶”[Z].
[6] 邵曉峰.拆分的基礎設施:云計算與大數據[Z].