劉昭,張海峰,李瑋,韋薇
(中國移動通信集團設計院有限公司,北京 100080)
運營商發展大數據技術及建設模式展望
劉昭,張海峰,李瑋,韋薇
(中國移動通信集團設計院有限公司,北京 100080)
首先分析了互聯網企業和國外運營商發展大數據的情況,接著結合大數據技術發展特性,對運營商大數據平臺的架構和建設模式提出了建設思路,最后對大數據未來進行展望。
大數據;電信運營商;MPP;Hadoop
大數據是指對大量結構化和非結構化的數據進行分析處理,從中獲得新的價值,具有數據量大、數據類型多、處理要求快和價值密度低等特點。隨著云計算和大數據的發展,越來越多的企業和人們意識到大數據的巨大價值,也意識到大數據分析給傳統數據分析和處理技術帶來的挑戰。
大數據應用在各行各業的發展呈現“階梯式”格局:互聯網行業是大數據應用的領跑者,金融、零售、電信、公共管理、醫療衛生等領域積極嘗試大數據。
1.1 互聯網企業
互聯網是大數據應用的發源地,大型互聯網企業是當前大數據應用的領跑者。搜索引擎作為最早的互聯網大數據應用,其不斷的發展推動谷歌在2000年左右提出了MapReduce/BigTable等技術,從此開啟了大數據技術的新篇章。
國外OTT已經率先行動:谷歌、Facebook、亞馬遜、Twitter等都已經實施大數據的戰略;各類App通過免費方式收集用戶的個人信息轉賣給廣告商。如Facebook對用戶基本屬性、行為習慣和興趣等進行語義分析,為廣告商提供基于數據挖掘的自助式廣告下單服務系統。亞馬遜利用大數據技術為用戶提供社會化推薦、廣播式個性化推薦等服務,加快了產品傳播的速度。Twitter對提到產品的文本進行搜集并按規則打分,得到客戶對產品的滿意度評價。國內業界領先者百度、阿里巴巴、騰訊等在大數據方面已經先知先行,都圍繞“數據”戰略進行布局。
1.2 傳統行業
大數據應用起源于互聯網,正在向以數據生產、流通和利用為核心的各個產業滲透。目前金融、零售、電信、公共管理、醫療衛生等領域在積極地探索和布局大數據應用,主要呈現兩種發展方向。
一是積極整合行業和機構內部的各種數據源,通過對整合后的數據進行挖掘分析,從而發展大數據應用。例如,一些新興的大型百貨商場利用大數據平臺整合POS機、企業CRM系統、免費無線網絡、客流監控設備等數據,對用戶進行聚類分析,支撐客戶習慣查詢、客戶群路徑分析等應用,提高商場營銷效率和營業額。基于大數據的智慧城市決策系統也是大數據應用的重要領域,可整合來自經濟、統計、民政、教育、衛生、人力等政府部門內部數據和來自物聯網、移動互聯網等網絡數據,設計經濟社會運行分析模型,支撐智慧人口、智慧醫療、智慧教育、智能物流、智能環保等相關決策應用。
二是積極借助外部數據,主要是互聯網數據,來實現相關應用。例如,金融機構通過收集互聯網用戶的微博數據、社交數據、歷史交易數據來評估用戶的信用等級;證券分析機構通過整合新聞、股票論壇、公司公告、行業研究報告、交易數據、行情數據、報單數據等,試圖分析和挖掘各種事件和因素對股市和股票價格走向的影響;監管機構將社交數據、網絡新聞數據、網頁數據等與監管機構的數據庫對接,通過比對結果進行風險提示,提醒監管機構及時采取行動;零售企業通過互聯網用戶數據分析商品銷售趨勢、用戶偏好等等。
1.3 電信運營商
目前,電信運營商發展大數據主要體現在企業內部數據的整合且用于內部服務,如支持內部的客戶流失分析、營銷分析和網絡優化分析等,對外的應用模式尚未成型,部分電信運營商開始嘗試利用大數據進行數據的增值。
2012年,美國Verizon成立了精準營銷部門,提供3方面的服務:精準營銷洞察,針對商場、球場等特定的公開場所,提供商業數據分析服務;精準營銷,提供廣告投放支撐;移動商務,面向移動支付系統。
西班牙電信Telefonica成立了名為“動態洞察”的大數據業務部門,對某個時段、某個地點人流量的關鍵影響因素進行分析,并將洞察結果面向政企客戶提供。
法國電信France Telecom開展了針對用戶消費數據的分析評估,以幫助法國電信改善服務質量,如對通話中斷產生的原因進行分析以完善網絡布局。此外,還承擔公共服務項目的IT系統建設,如承建了一個法國高速公路數據監測項目,對每天監測到的記錄進行分析,為行駛于高速公路上的車輛提供準確及時的信息,有效提高道路通暢率。
德國電信和Vodafone在利用大數據為自身業務服務之余,已向商業模式跨出了一步。主要嘗試是通過開放API,向數據挖掘公司等合作方提供部分用戶匿名地理位置數據,以掌握人群出行規律。
運營商掌握豐富的用戶身份數據、語音數據、視頻數據、流量數據和位置數據,數據的海量性、多元性和實時性使其具有經營大數據的先天優勢。隨著智能手機和高速網絡的普及,運營商能夠獲得的用戶行為數據還將更為豐富,大數據應用前景更為廣闊。
隨著大數據正成為IT行業全新的制高點,各企業和組織紛紛助推大數據的發展,相關大數據技術在商業領域和開源領域都呈現出百花齊放局面。
大數據激發了數據庫行業技術創新的熱情,主要的驅動力是對處理性能的強烈需求。技術層面,大數據處理技術種類繁多,包括MPP數據庫、Hadoop、NoSql技術等。
2.1 MPP數據庫
從數據庫的演進過程來看,數據庫的架構經歷了傳統單機數據庫、SMP( Symmetrical Multi-Processing,對稱多處理)架構數據庫及MPP(Massive Parallel Processing, 大規模并行處理系統)架構數據庫,如圖1所示。
MPP架構的主要特征是每個節點內的CPU都有自己私有的資源,如總線,內存,硬盤等,節點之間不共享資源。信息交互與節點本身的處理是并行進行的,因此MPP在增加節點時性能基本上可以實現線性擴展。
MPP 數據庫通過Share Nothing的方式實現了大規模的并行處理,通過哈希運算將數據分布到不同的分區上,盡量使得計算在本地完成。MPP 將任務并行的分散到多個服務器和節點上,在每個節點上計算完成后,將各自部分的結果匯總在一起得到最終的結果。MPP數據庫具備以下特性:

圖1 數據庫各類型架構
(1)無共享架構:無共享架構能充分發揮硬件的計算能力及I/O吞吐能力。使得數據分區分布、并行加載、并行處理都實現了高性能。
(2)開放及容錯:基于x86平臺,能降低建設成本,統一系統運維,未來擴容不受限于單一廠商。數據通過副本復制來保證故障頻發情況下的高可用。
(3)標準化:支持標準SQL,減少學習成本,支持業界流行的第三方商業工具,方便系統集成和開放能力。
(4)線性擴展:基于開放的架構,基本能做到性能的線性擴展。
(5)列式存儲:列式存儲能有效提升數據檢索速度,適合OLAP應用;列式存儲還能提高數據壓縮率,在大數據時代尤為重要。
2.2 Hadoop技術
Hadoop是一個開發和運行處理大規模數據的軟件平臺,屬于Apache開源組織,Java語言開發,用于實現在大量計算機組成的集群中對海量數據進行分布式存儲和計算。Hadoop特點是一個能夠對大量數據進行分布式處理的軟件框架,具有可靠性(多副本)、高效性(并行方式工作)、可伸縮性(能夠處理 PB 級數據)的特點。
Hadoop最核心組件是HDFS、MapReduce、Hbase。其中HDFS是一個分布式文件系統,提供了海量數據的存儲;MapReduce是一個編程環境,提供并行處理框架;Hbase是一個基于HDFS的NoSQL數據庫,提供海量數據存儲能力。
2.2.1 HDFS
Hadoop HDFS是新型分布式文件系統的典型代表,提供高可靠、高擴展、高吞吐能力的海量文件數據存儲。其特性包括:
(1)有高容錯性的特點,每塊文件數據在不同機器節點上保存3份;
(2)整個系統部署在低廉的硬件上;
(3)分布式存儲,數據按塊分布在不同節點上;
(4)適合超大數據集的應用程序。
同時,HDFS本身也存在如下缺點:
(1) 無法響應低延遲訪問;
(2) 不適合小文件存儲;
(3) 文件系統接口不同,應用需要重新開發。
2.2.2 MapReduce
MapReduce是Google提出的并行計算架構,用于大規模數據集(TB級以上)的并行運算。此算法的計算能力,隨著計算節點的數量而線性上升。
MapReduce計算處理過程可以簡要分解為兩部分,數據分塊映射處理(Map)和數據結果聚合(Reduce)兩個步驟。
Map過程:
(1) 將輸入分片,每個分片并行處理;
(2) 將處理結果保存到本地文件系統中,供Reduce獲取。
Reduce過程:
(1) 收集Map的結果,并匯總;
(2) 匯總工作可以并行。
2.2.3 Hbase
HBase是Google Bigtable的開源實現版本。數據存儲在HDFS中,繼承了HDFS的高可靠性、可伸縮架構,同時自己實現了高性能、列存儲、實時讀寫的特性。
(1) 支持大數據量PB級數據;
(2) 分布式并發處理效率高,易擴展、動態伸縮;
(3) 利用Hadoop HDFS作為持久化存儲,可在廉價PC 搭建大規模存儲集群 ;
(4) Key-Value存儲,但僅有單一索引,實時性要求一般;
(5) 適合于非結構化數據存儲,無法支持復雜SQL和關聯操作;
(6) 只提供數據最終一致性。
由于依據的理論和采取的技術路線不同,Hadoop和MPP兩種技術有各自的優缺點和適用范圍,兩種技術以及傳統數據倉庫技術的對比如表1所示。

表1 Hadoop、MPP、傳統數據倉庫技術對比
綜合而言,Hadoop和MPP兩種技術的特點和適用場景為:MPP適合多維度數據自助分析、數據集市等;Hadoop 適合海量數據存儲查詢(詳單存儲和查詢)、批量數據ETL、非結構化數據分析(日志分析、文本分析)等。
因此,未來的大數據平臺架構一定不是傳統的一種技術支持多種應用,而是多種技術支持多種應用,以混搭的模式實現大數據平臺的整合。大數據平臺目標架構如圖2所示。

圖2 大數據平臺目標架構
目前,運營商的數據分散在總部和各省公司的B、O、M三域和業務系統中,分析型系統也多采用分域建設,用于滿足各部門業務運營分析、統計報表等生產需求 ,難以進行跨域綜合分析和全網端到端分析。大數據平臺建設思路如下。
(1)模式1:全網集中建設大數據平臺。
總部統一建設全網大數據平臺,統一采集全網數據,統一進行數據標準化預處理,統一保存明細及匯總等各類數據,統一開展應用開發和數據分析服務,結合數據集市為總部及各省提供服務。
(2)模式2:總部及東部省建設大數據平臺。
總部建設全網大數據平臺,統一采集全網數據,統一進行數據標準化預處理,統一保存明細及匯總等各類數據,統一開展應用開發和數據分析服務,結合數據集市為總部及未建設大數據平臺的省提供服務。東部省建設省級大數據平臺,采集層將數據同時送給總部及省級大數據平臺,獨立采集省內個性化數據,省級大數據平臺自行進行數據預處理,長期保存明細及匯總等各類數據,并以此為基礎開展省內應用分析。
(3)模式3:總部、各省均建設大數據平臺,分別支撐總部和各省大數據應用。
方案1集中化程度最高,數據成本(存儲成本、應用開發成本、質量成本、安全成本等)最低,在集中化運營、數據一致性及成本節約方面具有優勢,但需要集團大數據平臺能夠快速形成能力,技術與運營團隊、服務與管理流程能夠盡快建立,滿足總部、省公司各部門需求。方案3與目前運營商組織架構及管理流程最匹配,對現有組織架構、人員配置、服務流程影響較小,可快速滿足省公司生產需求,后續隨著集團大數據平臺技術與服務能力的增強,可逐步向方式一演進。 方案2兼顧協同性,可充分發揮東部發達省公司優勢。
大數據平臺建設將面臨以下挑戰:
(1) 企業數據統一建模、實現開放共享。數據統一建模涉及的數據范圍廣,數據模型復雜,重構難度較大。
(2) 企業數據集中存儲,數據安全性、穩定性要求較高。大量數據源系統的接口對接工作量大,海量數據處理和存儲存在諸多技術難度和風險。
(3) 依托云資源池,建立數據運營及應用開發模式,開發和建設經驗缺乏,運維難度大。
考慮到大數據平臺建設的復雜性,在大數據平臺建設過程中,應采用分階段逐步演進方式:
初期:搭建平臺,按需引入數據,以支持新的分析應用、支撐跨域數據分析為主。大數據平臺向上層應用提供數據由粗到細,即前期以提供明細數據為主,后期逐步提供精確數據(如匯總加工數據),積累大數據平臺建設運維經驗。
中期:逐步整合B、O、M等各域數據,原有分析系統及生產系統中的分析應用逐步遷移至大數據平臺,優先滿足移動互聯網分析需求,積極探索對外提供數據產品和服務。繼續優化大數據系統架構,建設統一ETL平臺,實現對各域數據的清洗、轉換、加載,統一數據建模,各域明細數據及匯總數據統一存儲與處理,增強分布式實時處理能力,完善數據管理,加強數據服務開放能力建設, 構建面向移動互聯網的大數據分析體系。
遠期:實現企業內部數據全覆蓋,按需加大外部數據引入,以全面支撐對內分析應用、實現數據價值最大化為目標,創新業務模式,擴展對外應用。實現數據和應用解耦,統一數據服務開放能力,為應用提供不同級別、詳細程度、封裝程度的數據共享服務,實現異地容災建設,進一步提升數據安全性,以數據全生命周期管理為主線,數據分析為核心,業務支撐為目的,提升大數據對內、對外運營能力。
全球大數據產業日趨活躍,技術演進和應用創新加速發展,各國政府和企業也逐漸認識到大數據在推動經濟發展、改善公共服務,增強企業競爭力等方面的重大意義。因此,運營商需要建立新型大數據中心,將現有的數據資源轉化為發展動力,實現在互聯網時代下業務模式的順利轉型。
Operators to develop big data technologies and construction mode prospect
LIU Zhao, ZHANG Hai-feng , LI Wei, WEI Wei
(China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)
This paper fi rst analyzed the development of internet companies and foreign operators in big data, then combined with the high development of big data technology, put forward the construction ideas of operator’s big data architecture and construction mode. Finally, it prospected on the future of data.
big data; operators; MPP; Hadoop
TN915
A
1008-5599(2015)03-0012-05
2015-02-26