這個夏天,我幾乎沒有好好看過一場球,卻對每場比賽了如指掌。這是因為我的職業大數據工程師。
像當年的“電商”或者“云計算”一樣,“大數據”概念僅僅用了幾年時間就一躍成為最新的技術熱點。人人都在談大數據,但很少有人把它說清楚。
其實,看看我的工作就能很好地理解它了。我所在的團隊剛剛和一家門戶網站合作報道國際足球賽事,但這并不是傳統意義上的“報道”,而是從海量文本信息中挖掘有意思的話題展示給讀者。
我和許多同事都不是資深足球愛好者。項目剛開始的時候,我們還要把公司里的足球達人們一一拉來當志愿者,給我們講解足球術語,教我們怎么以“專業”球迷的口吻聊足球,比如誰誰踢法太欠火候了,誰誰誰臨門一腳把球“搓”得太過頭了。
短時間內教授這些知識,最多培養出來個偽球迷,但用來訓練計算機里的大數據計算模型,培養出來的就是“懂球帝”了。
以前我們怎么知道哪個球隊更受歡迎呢?在網上搞個支持度投票吧,但這種調查的結果,很容易受球迷的熱情程度影響:可能某個球隊很受歡迎,但是球迷沒那么喜歡投票。現在,我們可以用大數據工具輕松地抓取球迷在社交網絡上的發言,并分析他們的傾向,這樣大家就能隨時看到自己有多少志同道合的小伙伴了。
想要達到這樣的結果,我們每天都要收集至少100萬條球賽相關信息,但這僅僅是開始。因為信息量大不等于大數據,那只是數據大而已。有用的“數據”不只是數字,還有文字、圖像、態度,甚至情感,但它們都隱藏在微博、論壇和視頻的內容里。
我們管這些信息叫“非結構化信息”,想從里面挖出“寶”來,需要專門的技術。比如給那些沒標點或者大段的文字進行斷句,還有分析球迷們都在討論哪些話題,話題間有什么聯系。
媒體可以利用這些熱點和分析結果來撰寫報道。這是大數據帶來的喜聞樂見的改變之一以前體育新聞里報道什么由記者定,而現在,觀眾的注意力說了算。

從數據里面看人可比看球賽有意思多了。項目里最好玩的是“球迷畫像”:你是哪個隊的球迷,你喜歡哪個球星,這些信息用大數據一分析,你是個什么樣的人,我們就能“猜”個八九不離十了。
核心原理和分析賽事熱點差不多,我們把球迷的發言進行有意義的切割,然后根據心理學挑出最典型的人格代表特征。這種性格分析建立在一個基本假設上:即語言是一個人的媒介,你說話的用詞、內容和方式已經向外界透露了你是什么樣的人。
從分析的結果來看,所有的球迷或多或少存在一些共性,比如善于在生活中“找樂子”,容易從周遭事物中感受到正能量,喜歡往人多的地方扎等等。
通過技術手段很容易把他們“海選”出來,之后我們還要把僵尸粉、軟廣告這類“噪音”過濾掉。最重要的一步是分析球迷的情感,看他/她對那個球星的評價是正面還是負面的。
不同球星的球迷也有各自的特點。比方說,都是以看帥哥為己任的女球迷,內馬爾的粉絲一般是那些喊著“好帥啊!”“你長得像何潤東!”的小女生;C羅的球迷則有很多“孩子他媽”,有些還挺著大肚子堅持看球賽。
在這些球迷中,也有比較特殊的,比如意大利隊皮爾洛的粉絲們。他們更喜歡獨處,抽象思維得分很高,想象力豐富、容易感知自己的情緒和內心世界,總之,就是一個高智商雅痞型男的形象。