吳江

2014年9月的最后一周,阿里巴巴在紐約證券交易所(NYSE:BABA)正式上市,這是歷史最大規(guī)模的首次公開募股(IPO),更標志著互聯(lián)網(wǎng)進入了一個新的時代 ,一個屬于中國本土互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)時代。
大數(shù)據(jù)的前世今生
大數(shù)據(jù)或稱海量數(shù)據(jù),指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達到截取、管理、處理,并整理成為人類所能解讀的信息。在總數(shù)據(jù)量相同的情況下,與個別分析獨立的小型數(shù)據(jù)集相比,將各個小型數(shù)據(jù)集合并后進行分析,可得出許多額外的信息和數(shù)據(jù)關系性,可用來察覺商業(yè)趨勢,判定研究質(zhì)量,避免疾病擴散,打擊犯罪或測定實時交通路況等。
大數(shù)據(jù)的定義看起來高高在上,事實上卻已經(jīng)和我們的日常生活息息相關。豆瓣音樂可以通過相似用戶群體的行為推斷出每個用戶最可能喜歡哪首歌,甚至喜歡看什么樣的電影。阿迪達斯可以通過其門店銷售數(shù)據(jù)的整合分析,更準確地了解不同地域文化的消費者對其產(chǎn)品款式的偏好,從而更智能地決定門店的庫存?zhèn)湄洸呗浴D郴閼倬W(wǎng)站更是正在試圖通過引入一款能夠識別相似臉的系統(tǒng),從用戶過往的選擇數(shù)據(jù)中總結歸納用戶喜歡何種臉型,讓用戶看到的異性推薦個個喜歡。淘寶網(wǎng)能夠預測每個用戶可能感興趣的商品是什么,由此可以生成對于每一個用戶的個性化推薦,這也就是大家經(jīng)常能看到的淘寶網(wǎng)側邊欄的商品推薦。通過更精確的分類商品信息的大數(shù)據(jù)分析,淘寶網(wǎng)更是可以回答很多一般人難以回答的有趣問題,比如18歲的群體最喜歡什么顏色的T恤,或者南方人和北方人對于運動飲料的偏好有什么不同?
簡單的用戶行為分析可能并不會產(chǎn)生太多的價值,而在一個極大規(guī)模上的用戶行為分析,往往可以從趨勢上得出非常有價值的預測,在商業(yè)決策上尤其如此。以我們都知道的農(nóng)夫山泉礦泉水做一個例子,農(nóng)夫山泉想要獲得這樣一些市場數(shù)據(jù)幫助決策:超市里怎樣擺放水堆更能促進銷售?什么年齡的消費者在水堆前停留更久?他們一次購買的量有多大?氣溫的變化讓購買行為發(fā)生了哪些改變?競爭對手的新包裝對銷售產(chǎn)生了怎樣的影響?這些問題看似簡單,卻很難做出有說服力的準確回答。
要回答這些問題,需要收集大量的數(shù)據(jù)。來自農(nóng)夫山泉的業(yè)務員每天要來到當?shù)爻信臄z10張照片:水怎么擺放、位置有什么變化、高度如何……一天要跑15個調(diào)研地點,每天上傳150張照片,產(chǎn)生的數(shù)據(jù)量約為10M,這似乎并不是個大數(shù)字。而農(nóng)夫山泉在全國有10000個業(yè)務員,這樣每天的數(shù)據(jù)量就是100G,每月為3TB。雖然大家都清晰地知道,問題實時的答案就在其中,但得出答案并不容易,這就需要大數(shù)據(jù)相關的技術做支持。
大數(shù)據(jù)的數(shù)學方法和技術革新
谷歌公司(Google)曾經(jīng)指出:“真正重要的不是我們可以做什么,而是我們能在什么樣的規(guī)模上做。”
如果你需要每天分析100行數(shù)據(jù),只需要有紙和筆就可以了。如果你需要每天分析100000行數(shù)據(jù),按照現(xiàn)代計算機的處理能力,你也僅僅需要一臺電腦,設計一個程序即可。但當需要處理的數(shù)據(jù)級別到了1000000000這個級別(TB級別),一臺性能強大的服務器工作站恐怕已經(jīng)難以滿足你的需要了,特別是你需要實時或者接近實時的處理速度的時候。這樣的需求引領出了一個計算機與數(shù)值計算領域的熱點——分布式計算(Distributed Computing)。
分布式計算,即使用一個集群的計算機通過網(wǎng)絡連成系統(tǒng),把需要進行大量計算的工程數(shù)據(jù)分區(qū)成小塊,由多臺計算機分別計算,在上傳運算結果后,將結果統(tǒng)一合并得出數(shù)據(jù)結論的科學。如何將問題進行分割?如何均衡每個處理節(jié)點(即單個計算機)的工作負荷?如何高效可靠地把單個節(jié)點的結果整合成最終的結果?為了從計算機硬件和軟件上解決這些問題,多種多樣的計算模型和概念被設計出來。其中最有代表性的包括云計算、MapReduce(Hadoop)、虛擬化等等。而這股浪潮僅僅只能算剛剛開始,如同馬云所說:我們正在從信息科技時代走向數(shù)據(jù)科技時代。
海量數(shù)據(jù)與互聯(lián)網(wǎng)新職業(yè)
玩轉大數(shù)據(jù),第一件重要的事情就是獲得海量的有價值的數(shù)據(jù)。而恰恰在這一點上,中國本土互聯(lián)網(wǎng)企業(yè)有著相當?shù)膬?yōu)勢。中國人口眾多,經(jīng)濟活躍,有大量的互聯(lián)網(wǎng)用戶,用戶資源的豐富直接決定了用戶行為數(shù)據(jù)的豐富。淘寶網(wǎng)有著超過3億的注冊用戶,騰訊的注冊用戶數(shù)量早已超過10億,這些用戶數(shù)據(jù)本身無疑就是一座金礦。
阿里數(shù)據(jù)庫=40000個圖書館?
據(jù)報道,目前在阿里數(shù)據(jù)平臺事業(yè)部的服務器上,攢下了超過100PB已處理過的數(shù)據(jù)——也就是104857600GB。這相當于40000個西雅圖中央圖書館,580億本藏書。
新一代的技術必然帶動了新一代的技術人員需求。在大數(shù)據(jù)時代,“數(shù)據(jù)科學家”和“數(shù)據(jù)工程師”在硅谷已經(jīng)成為最炙手可熱的工作職位之一。相比傳統(tǒng)的軟件工程師,數(shù)據(jù)科學家更像是站在數(shù)學(統(tǒng)計學)和計算機科學之間的群體,他們的日常工作既包括了軟件設計開發(fā),又包括數(shù)據(jù)建模和統(tǒng)計分析,同時還要具備將數(shù)據(jù)處理范式轉化為可行的軟件解決方案的能力。本土互聯(lián)網(wǎng)企業(yè)也十分重視在數(shù)據(jù)科學上的人才儲備,在可預見的將來,數(shù)據(jù)科學的從業(yè)者必將大受追捧。
(責任編輯/冷林蔚)