工業(yè)和信息化部電信研究院日前發(fā)布了《大數(shù)據(jù)白皮書(2014)》。《大數(shù)據(jù)白皮書(2014)》對大數(shù)據(jù)產業(yè)生態(tài)做了詳細的分析。
隨著大數(shù)據(jù)技術不斷演進和應用持續(xù)深化,以數(shù)據(jù)為核心的大數(shù)據(jù)產業(yè)生態(tài)正在加速構建。從實踐情況看,大數(shù)據(jù)產業(yè)生態(tài)中主要包括大數(shù)據(jù)解決方案提供商、大數(shù)據(jù)處理服務提供商和數(shù)據(jù)資源提供商三個角色,分別向大數(shù)據(jù)的應用者提供大數(shù)據(jù)服務、解決方案和數(shù)據(jù)資源。
當前大數(shù)據(jù)產業(yè)還處于構建的初期,呈現(xiàn)規(guī)模很小、增速快的特點。據(jù)Wikibon公司的報告,2013年全球大數(shù)據(jù)市場總體規(guī)模為181億美元,年度增幅達61%,預計到2017年還將維持30%的年增速。

大數(shù)據(jù)解決方案提供商面向企業(yè)用戶提供大數(shù)據(jù)一站式部署方案,覆蓋數(shù)據(jù)中心和服務器等硬件、數(shù)據(jù)存儲和數(shù)據(jù)庫等基礎軟件、大數(shù)據(jù)分析應用軟件以及技術運維支持等方面內容。其中,大數(shù)據(jù)基礎軟件和應用軟件是大數(shù)據(jù)解決方案中的重點內容。當前,企業(yè)提供的大數(shù)據(jù)解決方案大多基于Hadoop開源項目,例如,IBM基于Hadoop開發(fā)的大數(shù)據(jù)分析產品BigInsights、甲骨文融合了Hadoop開源技術的大數(shù)據(jù)一體機、Cloudera的Hadoop商業(yè)版等。
大數(shù)據(jù)解決方案提供商中,主要包括傳統(tǒng)IT 廠商和新興的大數(shù)據(jù)創(chuàng)業(yè)公司。傳統(tǒng)IT 廠商主要有IBM、HP等解決方案提供商以及甲骨文、Teradata等數(shù)據(jù)分析軟件商。它們大多以原有IT 解決方案為基礎,融合Hadoop,形成融合了結構化和非結構化兩條體系的“雙棧”方案。通過一系列收購來提升大數(shù)據(jù)解決方案服務能力,成為這些IT巨頭的主要策略。
國際上也誕生了一批專門提供非結構化數(shù)據(jù)處理方案的新興創(chuàng)業(yè)公司。這些公司包括Cloudera、Hortonworks、MapR等,它們主要基于Hadoop開源項目,開發(fā)Hadoop商業(yè)版本和基于Hadoop的大數(shù)據(jù)分析工具,單獨或者與傳統(tǒng)IT 廠商合作提供企業(yè)級大數(shù)據(jù)解決方案。這些新興大數(shù)據(jù)企業(yè)成為資本市場的熱點。
國內華為、聯(lián)想、浪潮、曙光等一批IT 廠商也都紛紛推出大數(shù)據(jù)解決方案。但總體上,國內大數(shù)據(jù)解決方案提供商實力較弱,產品一些關鍵行業(yè)還未形成影響力,新興大數(shù)據(jù)解決方案初創(chuàng)企業(yè)也鳳毛麟角。
大數(shù)據(jù)處理服務提供商主要以服務的方式為企業(yè)和個人用戶提供大數(shù)據(jù)海量數(shù)據(jù)分析能力和大數(shù)據(jù)價值挖掘服務。按照服務模式進行劃分,大數(shù)據(jù)處理服務提供商可以分為以下四類。第一類是在線純分析服務提供商。此類服務商主要是互聯(lián)網(wǎng)企業(yè)、大數(shù)據(jù)分析軟件商和新創(chuàng)企業(yè)等,通過SaaS或PaaS云服務形式為用戶提供服務。典型的服務如谷歌提供的大數(shù)據(jù)分析工具Big Query、亞馬遜提供的云數(shù)據(jù)倉庫服務RedShift、微軟的AzureHDInsigh1010data提供的商業(yè)智能服務等。國內一些云服務商也逐步開始提供大數(shù)據(jù)相關云服務,如阿里云的開放數(shù)據(jù)處理服務、百度的大數(shù)據(jù)引擎、騰訊的數(shù)據(jù)云等。
第二類是既提供數(shù)據(jù)又提供分析服務的在線提供商。此類服務商主要是擁有海量用戶數(shù)據(jù)的大型互聯(lián)網(wǎng)企業(yè),主要以SaaS形式為用戶提供大數(shù)據(jù)服務,服務背后以自有大數(shù)據(jù)資源為支撐。典型的服務如如谷歌Facebook的的自助式廣告下單服務系統(tǒng)、Twitter基于實時搜索數(shù)據(jù)的產品滿意度分析等。國內百度推出的大數(shù)據(jù)營銷服務“司南”就屬于此類。
第三類是單純提供離線分析服務的提供商。此類服務商主要為企業(yè)提供專業(yè)、定制化的大數(shù)據(jù)咨詢服務和技術支持,主要集中為大數(shù)據(jù)咨詢公司、軟件商等,例如專注于大數(shù)據(jù)分析的奧浦諾管理咨詢公司(Opera Solutions)、數(shù)據(jù)分析服務提供商美優(yōu)管理顧問公司(MuSigma)等。
第四類是既提供數(shù)據(jù)又提供離線分析服務的提供商。此類服務商主要集中在信息化水平較高、數(shù)據(jù)較為豐富的傳統(tǒng)行業(yè)。例如日本日立集團(Hitachi)于2013年6月初成立的日立創(chuàng)新分析全球中心,其廣泛收集汽車行駛記錄、零售業(yè)購買動向、患者醫(yī)療數(shù)據(jù)、礦山維護數(shù)據(jù)和資源價格動向等龐大數(shù)據(jù)信息,并基于收集的海量信息開展大數(shù)據(jù)分析業(yè)務。又如美國征信機構Equifax基于全球8000億條企業(yè)和消費者行為數(shù)據(jù),提供70余項面向金融的大數(shù)據(jù)分析離線服務。
既然數(shù)據(jù)成為了重要的資源和生產要素,必然會產生供應與流通需求。數(shù)據(jù)資源提供商因此應運而生,它是大數(shù)據(jù)產業(yè)的特有環(huán)節(jié),也是大數(shù)據(jù)資源化的必然產物。數(shù)據(jù)資源提供商,包括數(shù)據(jù)擁有者和數(shù)據(jù)流通平臺兩個主要類型。
數(shù)據(jù)擁有者可以是企業(yè)、公共機構或者個人。數(shù)據(jù)擁有者通常直接以免費或有償?shù)姆绞綖槠渌行枨蟮钠髽I(yè)和用戶提供原數(shù)據(jù)或者處理過的數(shù)據(jù)。例如美國電信運營商Verizon 推出的大數(shù)據(jù)應用精準營銷洞察,將向第三方企業(yè)和機構出售其匿名化和整合處理后的用戶數(shù)據(jù)。國內阿里巴巴公司推出的淘寶量子恒道、數(shù)據(jù)魔方和阿里數(shù)據(jù)超市等屬于此種類型。
數(shù)據(jù)流通平臺是多家數(shù)據(jù)擁有者和數(shù)據(jù)需求方進行數(shù)據(jù)交換流通的場所。按平臺服務目的不同,可分為政府數(shù)據(jù)開放平臺和數(shù)據(jù)交易市場。
政府數(shù)據(jù)開放平臺:主要提供政府和公共機構的非涉密數(shù)據(jù)開放服務,屬于公益性質。目前全球不少國家已經(jīng)加入到開放政府數(shù)據(jù)行動,推出公共數(shù)據(jù)庫開放網(wǎng)站,例如美國數(shù)據(jù)開放網(wǎng)站Data.gov目前已有超過37萬個數(shù)據(jù)集、1209個數(shù)據(jù)工具、309個網(wǎng)頁應用和137個移動應用,數(shù)據(jù)源來自171個機構。國內地方政府數(shù)據(jù)開放平臺開始出現(xiàn),如國家統(tǒng)計局的國家數(shù)據(jù)網(wǎng)站、北京市政府和上海市政府的信息資源平臺等數(shù)據(jù)開放平臺正在建設過程中。
數(shù)據(jù)交易市場:商業(yè)化的數(shù)據(jù)交易活動催生了多方參與的第三方數(shù)據(jù)交易市場。國際上目前比較有影響力的有微軟的AzureData Marketplace、被甲骨文收購的BlueKai、DataMarket、Factual、Infochimps、DataSift等等,主要提供地理空間、營銷數(shù)據(jù)和社交數(shù)據(jù)的交易服務。大數(shù)據(jù)交易市場發(fā)展剛剛起步,在市場機制、交易規(guī)則、定價機制、轉售控制和隱私保護等方面還有很多工作要做。國內,2014年2月,在北京市和中關村管委會指導下,中關村大數(shù)據(jù)交易產業(yè)聯(lián)盟成立,將在國內推動國內大數(shù)據(jù)交易相關規(guī)范化方面開展工作。