陳禹安
自“大數(shù)據(jù)”成為熱門以來(lái),幾乎一夜之間,很多公司都開(kāi)始標(biāo)榜自己“具備強(qiáng)大的數(shù)據(jù)挖掘能力”。但實(shí)際上,大數(shù)據(jù)正值萌芽期,所謂的大數(shù)據(jù)應(yīng)用遠(yuǎn)遠(yuǎn)沒(méi)有到達(dá)“神乎其神”的程度。
4月21日,亞馬遜中國(guó)與新華網(wǎng)聯(lián)合開(kāi)展“2016全民閱讀調(diào)查”,通過(guò)覆蓋全國(guó)500多個(gè)城市、11800多位受訪用戶的數(shù)據(jù)調(diào)查,并結(jié)合多年來(lái)對(duì)中國(guó)市場(chǎng)的深入研究以及讀者在線消費(fèi)行為的分析,發(fā)布了一份調(diào)查報(bào)告。
不過(guò),這份報(bào)告的結(jié)論卻難有說(shuō)服力。比如,70后愛(ài)讀生活和少兒類圖書(shū),80后對(duì)經(jīng)管以及孕產(chǎn)育兒類書(shū)籍情有獨(dú)鐘。
不同年齡段的讀者在題材選擇上確實(shí)會(huì)有所不同,但著重突出70后對(duì)于生活類和少兒類圖書(shū)的熱愛(ài),與身邊的現(xiàn)實(shí)情形相差較大。70后中年紀(jì)最大的已經(jīng)46歲、最小的37歲,這一頭一尾的差別顯然不能用“愛(ài)讀生活和少兒類圖書(shū)”來(lái)統(tǒng)一。
而且,70后確實(shí)可能買少兒類圖書(shū),但未必就是“愛(ài)讀”。
顯然,亞馬遜對(duì)于數(shù)據(jù)的解讀太過(guò)粗疏,也經(jīng)不起推敲。而導(dǎo)致這一結(jié)果的原因可能是調(diào)查樣本偏差,也可能是數(shù)據(jù)在采集時(shí)就已經(jīng)被污染。
前者是調(diào)查方式的問(wèn)題,如是后者,則與“數(shù)據(jù)身份歸屬”密切相關(guān),因?yàn)闊o(wú)論是通過(guò)亞馬遜網(wǎng)站還是kindle采集的信息,都可能無(wú)法精準(zhǔn)認(rèn)證。
在互聯(lián)網(wǎng)技術(shù)支撐下,數(shù)據(jù)采集已經(jīng)不是什么難題,但針對(duì)任何數(shù)據(jù)的分析、評(píng)估、研判乃至具體的應(yīng)用,首先就要明確數(shù)據(jù)的身份歸屬。
也就是說(shuō),某一組數(shù)據(jù)到底是由哪一個(gè)具體的鮮活個(gè)體產(chǎn)生的。
如果數(shù)據(jù)不是由某個(gè)確定的單一個(gè)體產(chǎn)生的,顯然就無(wú)法依據(jù)這種被污染了的數(shù)據(jù)來(lái)做出正確的分析,合理的判斷。
這個(gè)問(wèn)題看似簡(jiǎn)單,但在現(xiàn)實(shí)場(chǎng)景中卻存在著至少兩類數(shù)據(jù)身份歸屬不明的情形。
第一類是數(shù)據(jù)身份錯(cuò)位。
基于互聯(lián)網(wǎng)技術(shù)的商業(yè)應(yīng)用,往往需要用戶在使用之前進(jìn)行注冊(cè)。
比如,使用Uber、滴滴打車等APP,用戶必須將自己的一些身份信息填寫上傳,才能正常使用。而后臺(tái)則根據(jù)這些身份信息,進(jìn)行對(duì)應(yīng)身份的數(shù)據(jù)分析與挖掘。
但是,因?yàn)榛ヂ?lián)網(wǎng)新技術(shù)存在著學(xué)習(xí)門檻,并不是所有有意成為用戶的人都能輕松克服學(xué)習(xí)的阻抗,只能請(qǐng)求他人幫助或代勞。
記得一次使用Uber叫車服務(wù)時(shí),我從手機(jī)端看到的信息是一位年輕的女司機(jī),但隨后的電話溝通卻表明是一位年長(zhǎng)的男性。等上車進(jìn)行交談后,才知道這是女兒為了讓退休在家的父親有事可做而注冊(cè)了Uber司機(jī)賬號(hào),但她是用自己的身份而不是父親的身份注冊(cè)。這就造成了數(shù)據(jù)身份錯(cuò)位。
如果Uber以此賬號(hào)來(lái)認(rèn)證這一數(shù)據(jù)身份的行為,就可能出現(xiàn)偏差。
舉一個(gè)極端的例子,當(dāng)這位女士作為乘客享用Uber服務(wù)的同時(shí),她(實(shí)際上是她的父親,但后臺(tái)系統(tǒng)卻無(wú)法自動(dòng)識(shí)別)又作為司機(jī)在為別的乘客提供Uber服務(wù)。
還有一種情形,施以援手者盡管也是以被幫助者本人的身份信息注冊(cè)的,但還是有可能夾雜了部分自己的信息。
比如,2015年“雙十二”時(shí),支付寶為了增加用戶,與線下3萬(wàn)家超市便利店合作,凡使用支付寶支付的,全線五折,50元封頂。
這一優(yōu)惠力度對(duì)那些高度價(jià)格敏感者(大媽大伯們)的誘惑力不言而喻,但他們大多從來(lái)沒(méi)有使用過(guò)支付寶。
于是,在活動(dòng)現(xiàn)場(chǎng),就出現(xiàn)了超市或便利店的收銀員幫助他們下載、安裝、注冊(cè)支付寶APP而排長(zhǎng)隊(duì)的場(chǎng)景。
為了盡快完成,收銀員們并不會(huì)完全按照大伯大媽的真實(shí)身份信息注冊(cè),而是潦草完成,能略則略,或是直接將某個(gè)默認(rèn)的選擇用之于所有人。這樣的數(shù)據(jù)身份顯然是有瑕疵的。
第二類是數(shù)據(jù)身份共享。
浙江義烏一位經(jīng)商的趙先生,為了方便女兒玩手機(jī),把12歲女兒樂(lè)樂(lè)的指紋也加入了手機(jī)開(kāi)鎖密碼。不料,樂(lè)樂(lè)在父親手機(jī)里的一款社交K歌APP上聽(tīng)歌時(shí),竟然在3天內(nèi)打賞出去16萬(wàn)人民幣。
對(duì)于這款A(yù)PP來(lái)說(shuō),如果開(kāi)展后臺(tái)數(shù)據(jù)統(tǒng)計(jì)分析,一定會(huì)將打賞行為視為趙先生本人所為,卻不知道這是她年幼的女兒共享了趙先生的數(shù)據(jù)身份所致。
再以我的親身經(jīng)歷為例。我的孩子有段時(shí)間在一個(gè)培訓(xùn)機(jī)構(gòu)補(bǔ)課,中午需要自行解決午餐。于是,用我的身份信息資料以及信用卡注冊(cè)的支付寶就成了孩子的支付工具。孩子除了支付中午的外賣之外,也會(huì)用支付寶在淘寶上購(gòu)買一些她所喜歡的小東西。如果將一個(gè)小孩的購(gòu)物行為歸結(jié)到大人身上,豈不是張冠李戴?
中國(guó)人的個(gè)人邊界意識(shí)較之于西方人是十分淡漠的。在各種親密關(guān)系中,這類數(shù)據(jù)身份共享是一種常態(tài)。諸如丈夫請(qǐng)妻子用自己的淘寶賬號(hào)購(gòu)物,員工用自己的私人賬號(hào)為公家采購(gòu)都是符合中國(guó)國(guó)情的。但數(shù)據(jù)身份的共享卻為后續(xù)的大數(shù)據(jù)處理帶來(lái)了極大麻煩。
這又是另一類型的大數(shù)據(jù)污染。
大數(shù)據(jù)的應(yīng)用顯然是向著精準(zhǔn)預(yù)測(cè)的方向演進(jìn)的。據(jù)悉,電商巨頭亞馬遜已經(jīng)申請(qǐng)了預(yù)測(cè)式發(fā)貨的新專利。亞馬遜會(huì)根據(jù)某個(gè)用戶之前的訂單、商品搜索記錄、愿望清單、購(gòu)物車、甚至包括用戶的鼠標(biāo)在某件商品上懸停的時(shí)間等數(shù)據(jù),預(yù)測(cè)用戶的購(gòu)物習(xí)慣,從而在他實(shí)際下單前便將包裹發(fā)出。
顯然,亞馬遜的這一大數(shù)據(jù)應(yīng)用是建立在歷史數(shù)據(jù)的高純凈度的前提之下的。
如果歷史數(shù)據(jù)因?yàn)閿?shù)據(jù)身份錯(cuò)位或共享而被污染,所謂的“用戶畫像”就是失真的,也就不可能成為數(shù)據(jù)分析與預(yù)測(cè)決策的依據(jù)。
從這個(gè)角度來(lái)說(shuō),要想徹底杜絕大數(shù)據(jù)污染,必須把好“數(shù)據(jù)身份認(rèn)證關(guān)”。這才是大數(shù)據(jù)應(yīng)用之基。
做不好這項(xiàng)基礎(chǔ)工作的互聯(lián)網(wǎng)公司,就不要急著奢談“強(qiáng)大的數(shù)據(jù)挖掘能力”。而消費(fèi)者們也要保持清醒,不要輕易相信那些所謂的“大數(shù)據(jù)奇跡”。