顯而易見,“大數(shù)據(jù)”(Big data)是時下最火熱詞匯之一。事實亦然,大數(shù)據(jù)正以開放、平等、參與的方式重構(gòu)商業(yè)模式和人的行為方式。隨之而來的數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)商業(yè)價值的利用逐漸成為各行業(yè)人士競逐的商業(yè)藍海。
至于什么是大數(shù)據(jù),世界頂尖數(shù)據(jù)分析機構(gòu)美國Gartner(高德納)咨詢公司給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。其看似枯燥,實則涵蓋了大數(shù)據(jù)的4V特點:Volume(大量性)、Velocity(高速性)、Variety(多樣性)、Veracity(真實性)。
普遍認為,大數(shù)據(jù)是云計算、物聯(lián)網(wǎng)之后IT行業(yè)又一大顛覆性的技術(shù)革命,在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因為近年來互聯(lián)網(wǎng)和信息產(chǎn)業(yè)的發(fā)展而引起人們更為廣泛的關(guān)注。
大數(shù)據(jù)流行,大家就“言必稱大數(shù)據(jù)”,可這并不是理性的態(tài)度,不要碰到大量的數(shù)據(jù),就給它戴上一頂“大數(shù)據(jù)”的帽子。對于任何行業(yè)、企業(yè)來說,數(shù)據(jù)是無處不在的,但若把散亂的、海量的、歷史的數(shù)據(jù)集中在一起就稱其為大數(shù)據(jù),顯然失當(dāng)。其實這樣的數(shù)據(jù)集合僅是傳統(tǒng)數(shù)據(jù)庫,多少年來,多少專家學(xué)者、博士、碩士基于這樣的數(shù)據(jù)庫,找出有效樣本,利用各種數(shù)學(xué)工具編程建模,進行著各種各樣的研究。從這一個角度出發(fā),這樣的“大數(shù)據(jù)”顯然不是一個新事物,仍然屬于“小數(shù)據(jù)”的范疇。
必須要指出的是,大數(shù)據(jù)的真正價值并不在于“大”,而是在于海量數(shù)據(jù)中隱含的規(guī)律。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義也不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有規(guī)律的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”找到規(guī)律,從而實現(xiàn)數(shù)據(jù)的“增值”。以專業(yè)的搜索引擎為例,其后臺能夠檢索萬億量級的網(wǎng)址,每天有幾億、幾十億的用戶查詢,所產(chǎn)生的海量數(shù)據(jù),包含著關(guān)于人類的思想痕跡、喜好和需求,成為計算機“像人類一樣思考”的豐富學(xué)習(xí)素材,谷歌、百度和微軟在其搜索服務(wù)中,均采用這種“機器學(xué)習(xí)”的人工智能成果,使用戶的搜索結(jié)果“少了些機器的痕跡而更像人類大腦”的思考,這就是有價值的規(guī)律。
談來容易,然而要真正做好大數(shù)據(jù),是需要相當(dāng)實力的。坦言之,如果沒有專業(yè)而過硬的數(shù)據(jù)加工能力,最好不要觸碰大數(shù)據(jù)的奶酪,否則會成為負累,徒勞無益。正如百度創(chuàng)始人李彥宏所言,大數(shù)據(jù)并不一定是件好事情,數(shù)據(jù)太多,分析能力跟不上,反而會讓企業(yè)迷失在大數(shù)據(jù)之中。確如此言,如今是一個數(shù)據(jù)爆炸的時代,在過去兩年,人類生產(chǎn)的數(shù)據(jù)是人類文明史上所有數(shù)據(jù)總和的90%。但企業(yè)并不因此變得更聰明:真正想要的數(shù)據(jù)現(xiàn)在沒有,已經(jīng)搜集的數(shù)據(jù)卻沒有價值。
誰最有能力做好大數(shù)據(jù)?李彥宏認為,具備這樣能力的公司必須要完成三大步跨越:一是云計算+大數(shù)據(jù)的積累;二是海量用戶平臺的跨越;三是包括各種資源的生態(tài)圈。
可見,大數(shù)據(jù)這塊奶酪,不是誰都可以去動的。