中興通訊 | 朱、王瑜
塔吉特是美國第二大超市,它成功使用大數(shù)據(jù)技術實現(xiàn)了精準營銷。為了提升孕婦相關產(chǎn)品的銷售,顧客數(shù)據(jù)分析部建立了一個包含25種典型商品消費數(shù)據(jù)的“懷孕預測指數(shù)”。通過這個指數(shù),塔吉特能夠在很小的誤差范圍內(nèi)將僅有2個妊娠期的女顧客辨識出來,從而可以搶在其他商家之前,推送與孕婦及嬰兒護理相關的產(chǎn)品廣告。通過將這種基于海量數(shù)據(jù)分析的客戶分類技術應用到其他產(chǎn)品上,塔吉特的銷售額從440億美元上升到670億美元。
我們再來觀察一下大數(shù)據(jù)成功案例背后涌動著的不斷滋長的海量數(shù)據(jù)。全球每秒鐘發(fā)送 2.9 百萬封電子郵件,每天會有 2.88 萬個小時的視頻上傳到Y(jié)outube,同時每天亞馬遜上將產(chǎn)生 6.3百萬筆訂單,每個月網(wǎng)民在 Facebook上要花費7 千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達 1.3EB,Google 上每天需要處理 24PB 的數(shù)據(jù)。
如果大數(shù)據(jù)僅僅是停留在大量數(shù)據(jù)匯聚的層面的話,還不足以成氣候。人們最終看重的,還是大數(shù)據(jù)進行分析和處理后所帶來的巨大經(jīng)濟價值。麥肯錫的研究報告指出,僅美國醫(yī)療服務業(yè)、歐洲公共管理部門和全球定位數(shù)據(jù)市場三個領域每年就能產(chǎn)生超過7000億美元的市場價值,而大數(shù)據(jù)是這些領域下一代技術架構(gòu)的基石。
由于大數(shù)據(jù)是一個橫跨多個IT邊界的動態(tài)活動,所以目前并沒有一個針對大數(shù)據(jù)的統(tǒng)一的定義和標準。大家普遍認可的是大數(shù)據(jù)具有4V特征。
(1)海量化(Volume)。全球可統(tǒng)計的數(shù)據(jù)存儲量在2011年約為1.8ZB,2012年達到2.7ZB,2015年將超過8ZB。數(shù)據(jù)容量增長的速度大大超過了硬件技術的發(fā)展速度。

圖1 中興通訊大數(shù)據(jù)解決方案框架
(2)多樣化(Variety)。統(tǒng)計顯示,結(jié)構(gòu)化數(shù)據(jù)增長率大概是32%,而非結(jié)構(gòu)化數(shù)據(jù)增長則是63%,目前全世界非結(jié)構(gòu)化數(shù)據(jù)已占數(shù)據(jù)總量的80%以上。非結(jié)構(gòu)化數(shù)據(jù)的比重越來越大,對傳統(tǒng)的數(shù)據(jù)分析處理算法和軟件提出了挑戰(zhàn)。
(3)快速化(Velocity)。隨著經(jīng)濟全球化趨勢形成,企業(yè)面臨的競爭環(huán)境越來越嚴酷。在此情況下,能夠及時把握市場動態(tài),迅速對產(chǎn)業(yè)、市場、經(jīng)濟、消費者需求等各方面情況做出深入洞察,并能快速制定出合理準確的生產(chǎn)、運營、營銷策略,就成為企業(yè)提高競爭力的關鍵。
(4)價值化(Value)。價值是大數(shù)據(jù)的終極意義所在。對于企業(yè)而言,數(shù)據(jù)正成為企業(yè)的新型資產(chǎn),形成競爭力的重要基礎。與曾經(jīng)廣為提倡的“品牌價值化”一樣,“數(shù)據(jù)價值化”已經(jīng)成為企業(yè)提高競爭力的下一個關鍵點。
在Garter所公布的IT技術成熟度曲線的圖中,云計算(Cloud)已經(jīng)開始走向成熟,而大數(shù)據(jù)還處于高速發(fā)展期,似乎云計算的落地將先大數(shù)據(jù)一步。但一些行業(yè)人士并不這樣認為。因為大數(shù)據(jù)是以企業(yè)應用的角度為出發(fā)點,對數(shù)據(jù)進行處理,其最終目的能夠為企業(yè)用戶帶來價值。而反觀云計算,其是一種服務,但對用戶怎么去實現(xiàn)這種服務,以及實施到何種階段才能帶來價值,企業(yè)并沒有很明顯的感受。而大數(shù)據(jù)則不同,在之前用戶就已經(jīng)積累了一些數(shù)據(jù)處理的經(jīng)驗,例如BI系統(tǒng)、數(shù)據(jù)操控系統(tǒng)等等,這些實際上都是大數(shù)據(jù)處理的前身系統(tǒng),用戶已經(jīng)體會到其直接帶來的價值。所以從結(jié)合度方面而言,相比云計算,大數(shù)據(jù)可能更易于接受,更容易讓用戶去部署大數(shù)據(jù)解決方案。
中興通訊從2005年開始涉足分布式海量數(shù)據(jù)存儲技術。經(jīng)過多年發(fā)展,已形成從底層服務器硬件,到大數(shù)據(jù)中間件平臺,再到上層各類數(shù)據(jù)挖掘分析工具的一套完整的大數(shù)據(jù)解決方案。與此同時,中興通訊還密切跟蹤業(yè)界技術發(fā)展趨勢,在推出全套擁有自主知識產(chǎn)權(quán)的海量數(shù)據(jù)存儲產(chǎn)品的基礎上,將Hadoop等業(yè)界主流大數(shù)據(jù)技術整合到整體框架中,進一步提升為客戶量身定制解決方案的能力。圖1顯示了中興通訊大數(shù)據(jù)解決方案的整體框架。
通過各類適配器、采集工具及ETL工具,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)以及來自其他第三方應用系統(tǒng)的數(shù)據(jù)都可以統(tǒng)一存儲到大數(shù)據(jù)平臺中。對于不需要實時處理的數(shù)據(jù),如網(wǎng)絡訪問日志,用戶操作記錄等,可以存儲到平臺提供的No-SQL數(shù)據(jù)庫及傳統(tǒng)關系型數(shù)據(jù)庫中;對于數(shù)據(jù)處理實時性要求高的應用場景,如電信及金融領域的反欺詐分析,國家安全防御領域的重點人員軌跡跟蹤等,則可以將數(shù)據(jù)存儲在分布式內(nèi)存數(shù)據(jù)庫中以提升存取效率。同時,平臺還提供了用于實時數(shù)據(jù)流處理的復雜事件處理引擎,可實現(xiàn)對海量數(shù)據(jù)流的實時分析與響應。

中興通訊大數(shù)據(jù)平臺主要包括如下核心組件。
● ZXCEP(ZX Complex Event Processing):復雜事件處理引擎。
● ZXDCache:基于Key-Value的分布式緩存組件。
● ZXDFS:分布式文件系統(tǒng)。
● ZXDHSS(ZX Distributed Huge Structure Storage):分布式數(shù)據(jù)倉庫。
● ZXCSS:ZX面向?qū)ο蟮脑拼鎯ο到y(tǒng)。
● ZXeBase:ZX分布式內(nèi)存數(shù)據(jù)庫。
● ZXMR:ZX Hadoop開源組件包。
● ZXDMP: ZX Data Mine Platform,包括搜索引擎,OLAP工具,可視化工具等。
中興通訊大數(shù)據(jù)解決方案推出以來,以其優(yōu)異的性能和精準的市場定位,受到國內(nèi)外客戶及業(yè)內(nèi)同行的廣泛關注與好評。目前中興通訊大數(shù)據(jù)解決方案已成功應用于包括智慧城市、智慧礦山、智慧交通、安全網(wǎng)在內(nèi)的行業(yè)和領域。在國內(nèi)某IPTV視頻節(jié)目存儲解決方案中,基于中興大數(shù)據(jù)技術的分布式No-SQL數(shù)據(jù)庫中存儲的數(shù)據(jù)量超過了3PB。同時,中興通訊為某國運營商實施的大數(shù)據(jù)服務項目中,可支持30萬次/秒的動態(tài)定位信息讀寫,每天可處理的實時數(shù)據(jù)超過40億筆。