?
一種基于Hadoop的大數據流量經營系統解決方案*
肖露1,2,王晶1,2
(1 北京郵電大學網絡與交換國家重點實驗室,北京 100876;2 東信北郵信息技術有限公司,北京 100191)
摘 要隨著工信部宣布發放4G牌照,各大運營商大力推動3G/4G網絡建設,網絡覆蓋的不斷完善和4G時代的來臨,大大推動了移動互聯網的快速發展和智能終端的普及。在移動端,用戶的流量必將不斷增長。結合當前的大數據模式,提出一個基于Hadoop分布式計算平臺的大數據解決方案,為培養用戶的流量體驗,挖掘和發展適合用戶的互聯網應用,以及推動流量經營提供數據支持。
關鍵詞分布式;大數據;云計算
隨著電信業的重塑及電信運營商的轉型,業務重心幾經變遷,“流量”在不同語境下含義不同,但也有脈絡可循。大致說來,從話音通信業務、寬帶接入業務到移動互聯網業務,流量內涵的演進脈絡一是從同質流量到異質流量,即所謂流量內涵的豐富;一是從底層流量到表層流量,即所謂流量層次的提升。與顯而易見的擴大流量規模相比,豐富流量內涵和提升流量層次是流量經營更為重要卻易被忽視的兩大方向。
當運營商進入全業務運營時代,需要轉變為以用戶為核心的運營模式。從客戶需求出發,一方面評估互聯網業務流量價值,另一方面深入洞察客戶個性化上網需求,通過產品、終端、內容和客戶需求的精確匹配,精準定位客戶,并采取合適的方式推薦業務及流量產品,最終實現業務及流量價值提升。
本系統依托于現有的大量流量,采用ETL工具及數據倉庫hive完成系統建設,做好流量經營分析支撐,助力流量市場運營。
2.1 系統總體架構
系統總體架構如圖1所示,采用分層建設思路,各層功能職責明確,相互獨立,通過內部接口交互信息。各層功能采用模塊化開發,各模塊改變不影響整體結構。該架構在解決當前業務需求和管理的前提下充分考慮未來的業務需求變化,為后續系統升級、擴展以及與其它應用系統的互通接口提供了快速響應和良好的擴展能力。整個體系架構包括如下。
2.1.1 接口層
提供了用戶接入平臺部署業務、外部系統獲取分析結果數據的管理功能,將不同用戶以不同權限采用不同方式使用不同功能的差異化需求封裝起來,向底層功能實現進行屏蔽,不僅有利于系統底層統一建設而且便于靈活調整擴展。接口層具備豐富的規范化接口形式和管理能力,滿足各類數據產品向用戶展現推送與其它系統交互的需要。
2.1.2 應用層
實現了流量經營分析支撐平臺上運行的業務功能和管理功能,應用層是平臺對數據智能化、系統化、流程化、自動化處理的具體體現,各功能模塊在應用上相互獨立,結合訪問層的展現界面和下面能力層、數據管理層、計算支撐層的基礎支撐,能夠滿足系統當前和持續發展的需要。
2.1.3 能力服務層
通過分析需求,在平臺建設和應用中沉淀積累總結的一些基礎的、通用的數據加工(ETL、數據可視化)、分析挖掘(數據挖掘算法、數據分析模型)、應用支撐(分析界面、推薦引擎、營銷引擎、數據開放引擎)等能力工具、組件,為上層數據產品開發和應用提供支撐。
2.1.4 數據管理層
負責平臺統計分析源數據的采集和加工。通過自助開發的ETL工具PDM(Parallel Data Miner)實時和非實時地采集、清洗和轉換原始數據,形成便于統計分析的用戶上網信息等數據。數據層同時還負責數據的存儲和備份,支持按時間備份、按使用冷熱程度備份,定期將過期數據清除。

圖1 系統總體架構
數據服務層通過構建數據集市、數據立方體、知識庫等來支撐上層應用對數據的需求。
(1)主題域:將數據層入庫數據進行主題劃分,如用戶的行為主題、業務發展主題、內容及產品分析主題、營收主題、合作伙伴分析主題等,根據各主題的業務屬性、關鍵分析維度、度量進行分層聚合存儲。
(2)知識庫:將各主題域中的信息進行歸并、整理,將用戶行為、消費、特征等各方面信息集中,形成各種知識庫:如客戶統一視圖、產品統一視圖。
(3)數據集市:根據業務特征和不同用戶需求,關聯不同維表,建立不同的數據集市,包括用戶數據集市、產品數據集市、營收數據集市,并建立報表指標庫,支撐各類指標的數據輸出。
2.1.5 計算支撐層
是一個混合型的數據計算和管理環境,“分布式計算+關系型數據庫+領域相關的NoSQL數據庫”構成的。涵蓋從批處理到交互式,從業務系統到分析系統,從結構化數據到非結構化數據的應用場景支撐。
傳統采用數據庫作為單一存儲和計算的機制已經無法滿足海量數據處理要求了(分析型應用、無法橫向擴容、非結構化數據處理、IT成本),因此當前推崇的是分布式無共享計算方式,比較流行的是MapReduce、流式計算模型,對應具體的產品就是Hadoop、Storm、Hbase。
2.1.6 系統管理層
從系統整體層面上進行基礎設施和運維的管理,為系統平穩運行保駕護航。主要包括如下。
(1)流程調度管理:把系統中的一些應用邏輯看成是可復用組件組成的工作流,提供工作流的并行、串行、依賴調度執行,實現應用邏輯的快速支撐和分布式并行計算能力;并提供可視化的流程設計界面。
(2)元數據管理:將數據倉庫中的數據信息、數據處理規則等采用元數據來描述,建立動態和靜態數據索引,便于平臺維護、分析、消費各種數據,幫助平臺內各數據使用者了解存在哪些數據、數據存儲位置及其含義,形成統一的平臺信息地圖,平臺各層都基于元數據驅動開發。
(3)數據質量管理:分析性平臺賴以生存的是數據,而數據賴以生存的是數據質量,只有保證數據質量,才能提高數據的可用性。數據質量管理提供了文件級、記錄級、表級和業務級等4個級別的質量監控,提供最大力度的異常數據修復能力,并對異常行為進行告警。
(4)系統運維管理:青海移動流量經營分析支撐平臺具備良好的系統配置和運行維護管理能力,通過自主開發的EB-OMS(OperatingManager System),以Web界面形式提供用戶管理、日志管理、安全管理、系統監控功能。
2.2 系統架構特點
應用快速支撐能力:具備豐富的、通用的、開放的數據處理加工、分析挖掘能力池,快速構建上層應用專題;并可以支撐定制化的開發。
可擴展能力:分層模塊化架構,各層職責明確,相互獨立,基于業務規則、基于能力調用、基于數據來相互協作,讓系統提供充分的擴展彈性能力。
大數據處理能力:采用分布式多樣化計算和存儲技術,滿足大數據時代的處理效率。
技術應用優勢:產品架構和技術已經在中國移動手機閱讀基地BI、某省流量經營、彩鈴深度運營系統中應用驗證,積累了大量的可復用經驗。
2.3 系統硬件架構
系統硬件架構如圖2所示,包括數據采集服務器、數據倉庫服務器和數據挖掘服務器等。
數據采集服務器:負責從數據源系統上實時和非實時地采集用戶業務使用行為數據,對這些數據進行清洗轉換和加工,然后加存入到關系數據庫中。
數據倉庫服務器:一部分基于商業數據庫如Oracle RAC來構建,支持用戶的數據查詢、交互式分析需求;另一部分大量復雜的數據處理和綜合分析功能基于分布式計算框架Hadoop構建,具有很高的I/O處理能力,對原始數據進行ETL處理、各維度、層次的統計和運算,構建主題域和集市,為OLAP、數據挖掘提供數據和運算的基礎。
數據挖掘服務器:基于Hadoop部署在多主機分布式集群上,能夠根據數據容量和處理效率要求進行橫向平滑擴展,保證系統的穩定性。
2.4 系統關鍵技術方案
2.4.1 數據可視化技術
系統提供可視化設計組件庫,包括地圖引擎、儀表盤、常用圖表、流程設計引擎等,基于可視化組件庫,用戶可以實現所見即所得的在線設計頁面。數據可視化展現形式:地圖、網絡圖、矩陣圖、折線圖、柱狀圖(如圖3所示)、餅圖(如圖4所示)、數據表等。可視化技術展現示例如圖5所示。
2.4.2 OLAP分析技術
平臺提供OLAP多維分析工具,可以對數據進行不同角度、不同深度的分析,最終形成多維業務報表,并根據報表中數據的客觀規律,發現數據中的趨勢和異常。通過OLAP工具能實現鉆取、旋轉、切片、切塊等多維數據分析功能;可自動分解時間維,支持圖表輸出與操作等。平臺提供的OLAP分析具備如下特點。
Web查詢:支持同時具有客戶端隨機查詢分析前端工具和Web上的隨即查詢前端分析工具。
拖拽查詢:在Web上的隨即查詢分析能夠直接將維度、度量等直接拖放到顯示的數據表格中,表格中則能夠實時刷新數據。
報表操作:在Web上的隨即查詢分析工具,在數據展現區域支持鼠標右鍵快捷菜單,實現過濾、分組、計算等功能。
服務支持:有自主OLAP服務,支持MS OLAP等主流OLAP Server。
3.1 傳統流量經營與大數據流量經營的區別
隨著話音業務趨于飽和,各大運營商都希望通過為用戶提供更多的增值業務來尋找新的業務收入增長點,因此各運營商不斷地開發新的增值業務。2009年,中國3G牌照的發放和3G無線網絡的建成,為用戶提供了一條無線數據業務的“高速公路”,為3G用戶隨時、隨地高速訪問無線數據業務提供了可能。電信運營商都抓住了這個契機,為3G用戶提供了豐富多彩的互聯網數據業務,如手機音樂、手機電視、微博等,數據流量也隨之與日俱增,成為增值業務收入提高的重要來源。如今隨著4G網絡的普及,面對大數據時代的流量挑戰,運營商再采取提供眾多的增值業務,對流量價值提升的效果微弱。

圖2 系統硬件架構圖

圖3 流量結構查詢頁面1
在大數據時代,流量增值業務種類已經可以滿足用戶的多種需求,業務種類不再是流量經營的重點。運營商需要改變傳統的流量經營思維,圍繞用戶展開流量經營策略。用戶面對如此眾多的增值業務,如何快速找到自己感興趣的業務,運營商又如何去對用戶進行分類,根據用戶的興趣愛好有效地向用戶推薦業務,這是一個必須解決的問題。
本系統根據已有的用戶流量數據,采用多維度分析,對用戶的流量提取后進一步分類,了解用戶在什么地方、什么時間、喜歡做什么。要做到這一點,需要知道用戶的生活軌跡、業務使用愛好以及消費行為等用戶基本數據。通過對這些用戶基本數據的分析,對用戶進行有效的分類,并能夠知道用戶業務的喜好后,再通過有針對性的營銷手段,快速將業務信息有效地通知用戶,促使用戶去使用他感興趣的業務,同時避免對用戶的重復打擾,這樣真正實現流量提升的營銷目標。
3.2 業務應用功能
3.2.1 流量發展KPI監控
通過對流量套餐、終端、產品、網絡、互聯網業務等KPI指標、重點指標監控預警,總體監控流量套餐的效益、終端銷售對流量的影響、流量產品的發展、網絡的協同和分流效果、互聯網業務發展情況等,并利用Web、短信、彩信、媒體等通道,向決策層、管理層及時提供關鍵業務指標數據,為其全面掌握流量整體運營情況提供支撐。
3.2.2 流量套餐監控分析和價值評估
從地域、套餐類型等維度,全面分析用戶、流量等指標信息,展現各類套餐用戶消費情況。
(1)套餐使用分析:建立綜合價值評估模型,從不

圖4 流量結構查詢頁面2

圖5 營銷平臺頁面
Design and implementation of a large data solution based on Hadoop distributed computing platform
XIAO Lu1,2, WANG Jing1,2
(1 State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100876, China; 2 EBUPT Information Technology Co., Ltd., Beijing, 100191)
Abstract With the issuance of 4G licenses, the major operators began to vigorously promote the construction of 3G/4G network. The coming of the 4G era, which greatly promoted the spread of mobile Internet and intelligent terminal. In the mobile terminal, user flows will continue to increase. Combined with the large data model at present, this article puts forward a large data solutions based on Hadoop distributed computing platform, which training for the user flow experience, Internet application of mining and development suitable for the user, and to promote the fl ow of business to provide data support.
Keywords distributed; large data; cloud computing同類型流量套餐的使用率、戶均流量、流量單價、套餐等級、套餐補貼相關指標,定期價值評估結果,為業務人員進行流量套餐優化及套餐用戶流量提升提供數據支撐。
(2)套餐遷移分析:通過對套餐遷移用戶的業務使用進行跟蹤監控,掌握用戶在套餐遷移前后收入和業務量的變化情況,為業務人員評估客戶套餐遷移效果提供支撐。分析包括遷移前后流量、ARPU、流量收入、業務偏好等變化對比分析。
(3)套餐效益分析:通過對流量套餐的使用、成本和收益情況進行監控,評估流量套餐的效益,為業務人員進行套餐資費設計提供依據。
3.2.3 終端流量監控及分析
終端流量監控及分析主要通過掌握用戶終端更換帶來的流量變化商機、各種終端數據流量使用情況及差異,服務于終端精確營銷及流量使用引導活動。
(1)終端類型分析:根據終端對流量耗用的情況進行分類,輸出重點明星終端、大眾終端、中等終端、低等終端等。
(2)終端用戶行為分析:終端流量監控及分析主要通過掌握用戶終端更換帶來的流量變化商機、各種終端數據流量使用情況及差異,服務于終端精確營銷及流量使用引導活動,并及時監控終端分析對流量的拉動效應。
(3)換機行為分析:通過分析客戶換機行為的前后消費行為變化,了解換機對業務和流量的影響,為業務人員進行終端選項、業務捆綁設計提供支撐。
(4)智能終端影響分析:對用戶更換TD智能終端前后ARPU、移動數據流量以及相關增值業務的使用情況進行跟蹤分析,為業務人員進行TD智能終端選型、功能優化、業務捆綁設計提供支撐。從時間、地域、品牌、終端型號、銷售價格、操作系統等維度,展現客戶更換智能終端前后的ARPU變化、流量使用變化、訂購業務變化等指標。
* 基金項目:國家973計劃項目(編號:2013CB329102);國家自然科學基金資助項目(No. 61471063, 61471063, 61372120, 61271019, 61101119, 61121001);教育部科學技術研究重點(重大)項目資助(編號:MCM20130310);北京高等學校青年英才計劃項目(編號:YETP0473)。
收稿日期:2015-01-06
文章編號1008-5599(2015)02-0087-06
文獻標識碼A
中圖分類號TN915