編譯/郭旦旦

數(shù)據(jù)分析與“大數(shù)據(jù)”似乎誓要徹底改變市場。如今,大多數(shù)公司都坐擁“成噸”的數(shù)據(jù):財務數(shù)據(jù)、移動數(shù)據(jù)、交易數(shù)據(jù)、客戶研究數(shù)據(jù)、行為數(shù)據(jù)、社交媒體數(shù)據(jù)等。再加上新的分析技術與計算機、即時互聯(lián)網(wǎng)資源,產(chǎn)生了能夠顛覆游戲規(guī)則的強有力工具。然而,分析“大數(shù)據(jù)”所能產(chǎn)生的作用有些被夸大了。事實上,“馴服”大數(shù)據(jù)仍然是一件麻煩而且費力的事情。有些時候,對大數(shù)據(jù)天花亂墜的宣傳導致虛假的預期,以為很容易就能利用大數(shù)據(jù)做這做那,最終反而得不償失。
面對大數(shù)據(jù),我們應該保持清醒的認識,尤其是對以下最常見的謬誤:
1.大數(shù)據(jù)就是數(shù)據(jù)量大。大數(shù)據(jù)不是“大”,而是多元:大量、高頻、實時、來源廣泛。它們往往呈現(xiàn)顆粒狀,可以是個人的交易數(shù)據(jù)——某張信用卡在特定加油站支付了一筆汽油費。大數(shù)據(jù)不是一座山,而是一場沙塵暴,大量細小的沙粒直欲迷人眼。
2.你應該馬上引用大數(shù)據(jù)。不積硅步無以至千里。分析大數(shù)據(jù)亦是如此。一開始,必須把精力集中在某一特定目標上,在囤積數(shù)據(jù)前,想清楚自己想用這些數(shù)據(jù)做什么。
3.數(shù)據(jù)越顆粒狀越好。是不是實時的、顆粒狀的數(shù)據(jù)一定更有用?并不盡然。一場足球賽的第一個四分之一場不足以讓我們預測整場比賽的輸贏。實時數(shù)據(jù)有時候太過接近作出決策、決定的時間,不足以作為判斷的依據(jù)。有時候,我們不得不把思考的時間范疇放遠一些。
事實上,大數(shù)據(jù)往往充斥著大量的噪聲;頻率越高、范圍越小,噪聲越大。譬如,以分鐘計的數(shù)據(jù)就比以周計的數(shù)據(jù)噪聲更大,一個鎮(zhèn)的數(shù)據(jù)噪聲就比一個國家的大。精密度與精確度的概念是不同的。在分析大數(shù)據(jù)時,必須運用有效的方法剔除出噪聲。
4.大數(shù)據(jù)就是“好數(shù)據(jù)”。數(shù)據(jù)也有好壞之分。質(zhì)量差的數(shù)據(jù)會有很多偏差與遺漏,最終導致分析判斷失誤。數(shù)據(jù)信息中存在很多被貼錯標簽的圖片與視頻,也有青少年隨便撰寫的文字,必須有一個智能的模型能夠辨別出大數(shù)據(jù)中質(zhì)量好的數(shù)據(jù)作為分析判斷的依據(jù)。要分析大數(shù)據(jù),首先必須明確分析范疇,在此框架內(nèi)辨別哪些大數(shù)據(jù)在分析中必須用到,而哪些應該丟棄。
歸根究底,大數(shù)據(jù)與電腦、手機一樣,是一種工具,而且還是令人敬畏、可以改變游戲規(guī)則的工具。不過,最重要的是,要給大數(shù)據(jù)套上韁繩,才能駕馭之,并為自己所用。