張金剛,王昕,耿輝
(中國移動通信集團設計院有限公司陜西分公司,西安 710077)
電信運營商省級公司大數據平臺建設關鍵問題探討
張金剛,王昕,耿輝
(中國移動通信集團設計院有限公司陜西分公司,西安 710077)
結合某電信運營商省級公司大數據平臺建設方案,對大數據平臺定位、平臺架構、數據源的選擇與接入、數據存儲和計算技術的選擇、數據共享、應用層要求、大數據平臺與經營分析系統融合等關鍵問題進行探討,為大數據平臺建設積累經驗。
電信運營商;大數據平臺;關鍵問題
互聯網產業在電子商務、定向廣告、智能推薦、社交網絡等方面積極應用大數據技術,取得了巨大的商業成功。這啟發全社會開始重新審視“數據”的巨大價值,擁有大量數據的電信運營商也開始嘗試這種新的理念和技術,但一些省公司建設的大數據平臺存在平臺定位不清、系統架構不合理、數據選擇不完整、大數據技術選擇盲目等問題,在此情況下,研究和討論大數據平臺建設的關鍵問題是非常必要和緊迫的。
2.1 大數據平臺的定位
省級公司建設大數據平臺的驅動分為兩種—“被迫”和“主動”。“被迫”是指隨著數據量的增加和應用復雜度的增大,基于傳統架構搭建的經營分析系統存儲、I/ O和計算能力成為瓶頸,不得以在經營分析系統中引入大數據技術(主要是分布式系統)。“主動”是指希望通過充分分析、挖掘自身所掌握的數據,支撐業務運營和尋找新的商機,因現有經營分析系統能力局限,而引入大數據技術。
某電信運營商對大數據的態度是要逐漸從網絡運營發展至網絡運營+數據運營。并提出近期大數據運營的目標是“初步建成‘大數據、超細分、微營銷’體系,通過匹配營銷場景的方式由易到難開展數據聚合和應用,由靜態營銷能力,快速過渡到準實時營銷,逐步再實現實時動態營銷能力”。由此可見,大數據平臺的定位不僅要解決傳統IT系統的瓶頸,更要支撐大數據運營的重任。不新建大數據平臺或不全面的改造經營分析系統,只在經營分析系統數據處理層引入大數據技術,是不能滿足未來大數據運營需求的。
2.2 大數據平臺的架構
IT系統的邏輯架構都是一樣的,都是按照數據的生命周期搭建,一般包括5個部分:數據源、數據采集、數據處理、接口和應用。某省公司大數據平臺的架構如圖1所示。
大數據平臺架構層次雖然與傳統的經營分析系統一致,但每一層都面臨不同程度的挑戰。
2.2.1 數據源
數據源將更加豐富,除了業務支撐域的數據外,還將引入網絡管理域、管理信息域及互聯網數據。數據格式、數據采集點、采集方式和采集技術也呈多樣性。像數據格式可能涉及結構化數據、半結構化數據和非結構化數據;采集技術可能涉及DPI、爬蟲等技術。
2.2.2 數據采集
與以往數據分析相比,大數據不僅數量龐大、格式不一,質量也良莠不齊。這就要求數據采集環節一方面要規范數據格式,便于后續存儲管理,另一方面要在盡可能保留原有語義的情況下去粗取精。
2.2.3 數據存儲
當前中國移動數據量增長非常快,隨著4G業務的發展,數據量的增長速度將不斷加快。大數據存儲系統不僅需要以極低的成本存儲海量數據,還要適應多樣化的非結構化數據管理需求,具備數據格式上的可擴展性。
2.2.4 數據計算
海量數據處理要消耗大量的計算資源,對于傳統單機或并機計算技術來說,速度、可擴展性和成本上都難以適應大數據計算分析的需求。
2.2.5 數據應用

圖1 某省公司大數據平臺架構圖
大數據的價值體現在大數據的應用上,隨著數據增加和豐富,以及大數據技術的引入,為更加多樣性的應用產生提供了可能。
2.3 數據源的選擇與接入
數據的選擇是根據應用及業務的需求而定的。某省公司本期應用和業務需要提取用戶終端所使用的應用(應用的名稱、類型、頻率等信息)、互聯網瀏覽的內容、用戶的終端信息(類型、廠商、型號等信息)、用戶行動軌跡、用戶活動范圍內網絡資源配置及性能。需要獲取的內容以及獲取方式、數據信息、數據源對應關系如圖2所示。
由圖2可見,大數據平臺對應的數據源非常多,圖中所展示的只是某公司本期工程所需要的數據源,后期可能還會涉及財務、供應鏈等管理信息域的數據。目前在網絡中各省Gn口和Gb口數據采集系統至少有5套以上。公司認真分析了近期應用所需要的數據信息及格式,發現本期所需的Gn口和Gb口數據90%以上上網日志留存系統可以提供,因此避免了新建Gn口、Gb口數據采集系統,此作法值得借鑒。另外,有些公司在VGOP系統或經分系統互聯網集市中已經建設了網頁爬蟲系統,大數據平臺獲取互聯網網頁信息時也建議共用爬蟲系統。

圖2 數據對應關系示意圖
2.4 數據存儲和計算技術的選擇
在大數據存儲和計算方面目前最常用的兩種技術是Hadoop分布式系統和MPP數據庫,Hadoop和MPP都部署在x86服務器上,并且存儲系統采用x86服務器自帶硬盤方式。Hadoop內部存儲和計算是由不同系統負責的,數據存儲及管理一般采用HDFS系統和HBase數據庫;計算一般采用MapReduce分布式計算技術。MPP數據庫則同時提供數據的存儲與計算。Hadoop系統和MPP數據庫主要特點比較如表1所示。
基于Hadoop和MPP的特點,一般建議大數據平臺數據存儲和計算部分采用Hadoop和MPP數據庫混搭的模式。即MPP數據庫適合大數據量、多并發的結構化數據關聯匯總,宜進行深度的匯總、關聯,推薦用于數據倉庫主庫;Hadoop分布式文件系統適合進行庫外清單匯總以及歷史數據存儲等庫外處理工作,推薦用于庫外數據處理。做出以上建議還有一個非常重要的原因是,Hadoop作為開源系統對于人員的開發和運維能力要求較高,需求實現高度依賴開發廠家,數據倉庫中有大量的核心信息,在運營商自身沒有掌握技術的情況下,在Hadoop上部署數據庫倉庫,運營商將失去數據倉庫的主導權。
雖然,Hadoop和MPP等分布式系統的數據處理能力比傳統架構有成倍的提高,但由于它們采取的是“先存儲后處理”的模式,數據處理時長不能滿足實時推薦、位置服務等業務需求,為此業界提出了“邊到達邊計算”的實時流計算技術,目前應用案例最多的技術是內存化MapReduce。如果有實時要求極高的業務需求,在大數據平臺數據處理層還需部署流計算系統。同時為了縮短數據處理時長,數據從數據源到流程計算處理系統時間越短越好,所經過的環節越少越好。
2.5 數據共享
經營分析系統由于數據和上層應用緊密耦合,造成系統非常封閉,應用由集成商一家公司開發,這對發揮數據的價值極為不利。因此,建議大數據平臺實現數據和應用分離,使不同廠商開發的應用都能在平臺上部署,實現應用層“百花齊放”。要做到這一點,數據共享層就必須具備數據開放、數據計算模型開放和接口開放。

表1 Hadoop系統和MPP數據主要特點比較
2.6 應用層要求
隨著大數據平臺的發展,以后將會有多個廠商各種各樣的應用在平臺上部署,因此應用層需要具備應用的管理能力,有4個方面:(1)為應用提供部署環境,方便應用快速的開發和部署。(2)對接入平臺的應用軟件提出接口、開發語言類型等明確要求。(3)要具備數據和計算模型的查詢能力,使應用開發商能很容易的知道平臺有哪些資源可用。(4)對應用的功能進行統計、分析,避免重復開發,鼓勵相互協作,產生協同效益。
2.7 大數據平臺與經營分析系統融合
大數據平臺和經營分析系統作為兩個作用十分相似的系統,有許多資源可以共用,在建設大數據平臺時要充分考慮與經營分析系統融合。
2.7.1 數據融合
大數據平臺與經營分析系統融合后可實現傳統數據與互聯網數據的充分融合,并通過關聯計算實現統一數據展現。另一方面,通過模型重構,實現數據模型的融合。最終,通過統一任務調度,實現數據計算和存儲的合理分布,發揮經營分析系統和大數據平臺各自的優勢,形成優勢互補,實現處理融合。
2.7.2 架構融合
大數據平臺數據處理層、經分數據倉庫能夠為上層應用提供基于融合的服務,實現按照數據價值選擇在那個系統中進行存儲和計算。
2.7.3 應用融合
大數據平臺與經營分析系統的應用融合,應充分考慮應用的特點和資源需求情況,對于占用硬件資源較多、分析時間較長而不影響正常生產的應用應由大數據平臺承載,從而降低經營分析系統的數據處理負載,同時提高數據分析的效率。
本文主要論述了電信運營商省級公司大數據平臺的定位、整體架構和各層的主要需求,對于大數據平臺建設的關鍵問題,下一步需要重點研究各層的主要實現方案和技術、以及適合于在平臺上部署的應用,使大數據平臺能真正落地、發揮應有的作用。
[1] 工業和信息化部電信研究院. 大數據白皮書[R]. 2014.
Discussions on some key issues of big data platform construction of telecommunication operator provincial company
ZHANG Jing-gang, WANG Xin, GENG Hui
(China Mobile Group Design Institute Co., Ltd. Shanxi Branch, Xi'an 710077, China)
In this article, combined with the construction plan of operator branch, location and architecture of large data platform location, the choice of the data source and data access, storage and computing technology selection, data sharing, application layer requirements, fusion of large data platform and operating system analysis and other key issues were discussed, and experience for large data platform construction will be accumulated.
telecommunication operator; big data platform; key issue
TN915
A
1008-5599(2015)03-0022-04
2015-02-18