剛進入2013年,網絡數據分析廠商Splunk將被IBM以40億美元收購的消息就傳得沸沸揚揚。雖然迄今兩家公司都沒有對此消息表態,但是分析人士均認為,IBM布局大數據的手筆不可輕視,被公認為“大數據概念第一股”的Splunk落入IBM囊中絕非臆想。“大數據”猶如一座金礦,正散發著令人難以抗拒的財富氣息。
關于大數據,Gartner給出了這樣的定義:需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。這與維基百科給出的定義不謀而合,即所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理,并整理成為幫助企業經營決策更積極目的的資訊。
當前,大數據的內涵遠遠超過了“大”或者“數據”的定義。數據前所未有地以幾何速度增長,呈現出多樣、復雜的特性,大數據更是以“像貨幣和黃金一樣的新經濟資產”,首次出現在了“達沃斯世界經濟論壇”的報告中。對于篤信者,大數據必將會帶來商業模式的變革;對于陰謀論者,大數據就是一場舊瓶裝新酒的騙局。
大數據是企業變革的機遇還是巨頭營造的騙局?大數據的商業機會在哪里?誰又將會被大數據改變命運?
數據大爆炸
正如美劇《生活大爆炸》歌詞里所唱的那樣:It all started with the big bang(一切從大爆炸開始)。IDC的研究報告表明,目前數字領域存在著1.8萬億GB的數據,企業數據正在以55%的速度逐年增長。全球最大的零售商沃爾瑪現在每天進入交易數據庫的數據總量已經達到2.5PB(1PB=1024TB);截至2012年9月30日,新浪注冊用戶數已經達到4.24億,平均每天在線活躍的微博用戶達到了4230萬;全球總計約有33.7億的電子郵件賬戶,每天人類發送的電子郵件已經達到1450億封。這意味著,過去3500年人類文明發展所產生的數據,僅僅約等于我們現在兩天所產生的數據,數據大爆炸的時代已經來臨。
奧巴馬又一次贏得了總統大選。《時代周刊》認為,他獲勝的一個秘密在于背后的決策團隊,尤其是他們對數據的分析能力。怎樣購買廣告、針對不同人群做出精選策略,如何利用Facebook等社交網絡推動大家投票……可以說,是對大量數據的精準解碼,讓奧巴馬團隊掌握了選民的心理,最終大獲全勝。
2012年3月,奧巴馬宣布美國政府撥款兩億美元啟動“大數據研究和發展計劃”。8個月后,他本人就成為了大數據應用的受益者。“大數據研究和發展計劃”被認為是1993年美國宣布“信息高速公路”計劃后,白宮在推動信息技術產業政策層面的又一次“狂飆猛進”。
幾年前,大部分數據還是結構化數據,如來自銷售交易的財務數據這類字母數字信息,很容易存儲在關系數據庫中,并由商業智能工具來分析。但這一情況在2012年發生了巨大的變化,來自IDC的報告顯示,2012年全球數字信息中90%的數據都是視頻、聲音和圖像文件這樣的非結構化數據,眾多企業都不得不面對四面八方涌來的數據流的沖擊。
然后,就有了“大數據”。
“機器學習”時代
大數據在今天迅猛躥紅、勢不可擋,各大企業紛紛在該領域出手,一場新的戰爭已經打響。
一直被視為IT行業精神領袖的IBM,在大數據領域的投入更是“令人咋舌”。就在最近,2012年美國年度專利申請和審批榜單(USPTO)發布,IBM連續20年蟬聯榜首,2012年以6478項專利穩獲專利冠軍寶座,比第二名三星電子的專利數多出1000多個,因此有評論稱:這張表已經成為每年IBM的“炫耀儀式”。一位IBM發言人說:IBM新專利中有300個涉及到“分析”,它們都來自公司內部研究和收購,目標直指大數據。由此可見,IBM對于大數據的重視。
有媒體統計,自2005年以來,IBM投資160億美元進行了30次與大數據有關的收購,其中很多都是10億美元以上的大手筆,包括在2007年花費20億美元收購商務智能軟件供應商Congnos;2009年斥資12億美元收購集數據整理、分析功能于一身的統計分析軟件SPSS;2010年以17億美元的代價將數據庫分析供應商Netezza收入麾下……同時,IBM也不斷宣講自己的大數據理念,加強話語權。例如在眾所周知的大數據“3V”特點——數量、速度、多樣性之外,IBM又提出一個新的維度——“真實性”。強調3V只是對大數據最基本特征的歸納,實際上大數據向外延伸的涵義很豐富,第四個V——Veracity(真實和準確),其重要性足以與前3個V相提并論,因為只有真實而準確的數據,才能讓管控和治理真正有意義。
IBM CEO羅睿蘭則從公司戰略層面表述了應對大數據時代的態度。首先她強調員工和客戶都要認識到:“這是機器學習的時代。”
她強調,當前世界已進入以認知計算為代表的新時代,將來大數據的分析、處理和利用都將變得更加自動化,機器能夠智能地去處理不同類型的數據,人們需要做好準備;其次,IBM要去面對新的客戶,他們不是傳統的CIO,而是類似CMO的人群,與客戶之間的交流也將不再是傳統的面談或者電話等方式,而是將更加移動和社會化,交互更頻繁;另外,IBM的員工也要做轉型,要能更有效地利用移動和社會化的方式與客戶打交道。而移動和社會化方式在應用的同時就會產生大數據,因此IBM本身也需要具備大數據處理和分析的環境。
目前,IBM已經成立了一個大規模數據分析和建模研究院,目標就是通過讓不同領域的專家和數據科學家在一起工作,共享數據資源和模型、算法,最終研發出相應行業的大數據解決方案。
軟硬兼施
2012年11月23日是美國零售行業一年中最重大的節日——“黑色星期五”。當天,美國網絡零售額達到10.4億美元,較上年的8.16億美元增長了26%,創下新的紀錄。就在美國人民熱情網購的同時,IBM一直在統計人們在線購物的數據,24日凌晨就得出了商品銷量漲幅、使用移動設備網購人數漲幅、使用iPad網購人群的特點、參考社交網絡完成在線網購人群比例等諸多統計及分析結果。他們是如何在這么短的時間里做到這一切的?
事實上,正如IBM軟件集團大中華區業務分析洞察及智慧地球解決方案總經理卜曉軍所說:“不管是在IT層面還是在業務層面,IBM在大數據方面彰顯的優勢都能夠以‘全面’來充分涵蓋,這包括‘全面的戰略理論’、‘全面的解決方案’以及‘全面的落地實踐’。”“黑色星期五”的出色表現,是因為IBM通過旗下Benchmark云端數據分析服務獲取到相關銷售數據,而Benchmark直接從全美500家規模最大的零售商網站搜集數據,以顯示全美電子商務市場的格局。這體現出的正是“智能商務”服務能力,IBM可以幫助零售商及其他行業用戶更好地理解冗雜的數據,展開出色的營銷活動。
卜曉軍表示,IBM通過整合軟件、硬件、咨詢服務、研發等各領域針對大數據的最前沿資產和獨有技術,緊密結合IBM深厚的市場經驗和前瞻的創新理念,能夠為大數據時代的行業客戶帶來最大的價值。
目前,IBM大數據平臺的四大核心能力包括Hadoop系統、流計算、數據倉庫和信息整合與治理。其中,IBM在Hadoop系統領域的代表產品是InfoSphere BigInsights。IBM將其在數據管理上的豐富經驗與Hadoop開源平臺高效整合,使得BigInsights相較于普通的Hadoop開源工具,在可用性、可管理性、安全性上得以大大提高,成為最主要的靜態大數據分析工具和平臺;而流計算領域的代表產品是InfoSphere Streams,這是目前IBM獨有的流數據處理技術;數據倉庫領域的代表產品則是在線交易型數據倉庫InfoSphere Warehouse和分析型數據倉庫Netezza;信息整合與治理同樣是IBM在業界獨有的方法論和技術,其代表產品是Optim和Guardium。此外,Guardium 9也能夠管理除IBM之外的第三方數據平臺,幫助客戶保持在原有的系統的基礎上,最小成本、最大能力地提高信息安全和質量。
顯然,IBM在大數據領域打造的是軟硬兼施的完整能力,基于多年的技術及行業經驗積累,以及前瞻性的行業眼光,IBM駕馭大數據的實力有目共睹。對于其在大數據時代的表現,人們有理由投以更多期待的目光。