陳 娜 ,徐歆壹 ,宋紅兵 ,何 毅
(1.中國電信股份有限公司廣東研究院 廣州 510630;2.中國電信集團公司 北京 100032;3.亞信聯創集團股份有限公司 南京 210013)
基于Hadoop的電信BSS大數據平臺建設研究
陳 娜1,徐歆壹1,宋紅兵2,何 毅3
(1.中國電信股份有限公司廣東研究院 廣州 510630;2.中國電信集團公司 北京 100032;3.亞信聯創集團股份有限公司 南京 210013)
當前電信運營商從傳統的“話音+短信+增值業務”的業務模式轉變為“話音+應用+流量”的業務模式,電信的核心戰略轉向流量經營。在該背景下,大數據是電信IT支撐面臨的首要技術課題。本文主要研究使用Hadoop平臺搭建流量經營大數據管理和大數據服務的一種分布式平臺,同時通過實驗數據,論證該平臺與傳統IT架構對比的優勢。
大數據;平臺;Hadoop;Hbase;高可用
隨著智能手機的普及以及3G+網絡的建設,移動互聯網的出現帶來了電信行業新的革命,電信運營商的角色也發生了轉變。CSP從傳統的電信產業鏈的組織和領導者,轉變為管道和功能更加突出的產業的重要參與者。同時客戶的行為模式也發生了轉變,從傳統的“話音+短信+增值業務”的模式轉變為“話音+應用+流量”的模式。
在以上大背景下,當前的電信運營商系統中存在大量的數據,這些數據總體包括:BSS域的客戶/產品/渠道等基本數據、CDR數據、業務訂購數據、工單數據、計費數據、客服數據、客戶訪問日志;OSS域的信令數據、網元數據;MSS域的ERP數據、內部辦公數據;公共領域的網頁數據、物聯網數據等。其中的很多數據已經在智能分析系統中進行分析,并對當前的運營起到了重要作用。但總體而言,當前電信運營商單一的縱向IT架構已經難以處理近年來體量猛增的非結構化和半結構化數據,如DPI數據等,亟需在大數據領域開辟一條新的道路。
近年來,各行業業務模式的轉變和業務量的增加導致數據的體量和結構發生了質的變化,基于大數據的處理和分析需求也越來越多,越來越苛刻。基于這些復雜而苛刻的大數據需求,目前主流的大數據解決方案主要分為兩大類:一體機解決方案和純軟件解決方案。
一體機解決方案提供完全黑盒的硬件和軟件集成產品,能很好地支撐已定制的業務,在流計算方面也有很好的表現,但面臨高昂的成本和較低的需求響應速度。一體機解決方案的典型產品,如SAP HANA、Oracle Exadata等。
純軟件解決方案提供開放的大數據平臺軟件,軟件可部署于x86等多種硬件環境下,部署模式可根據具體的業務場景進行設計,且用戶可基于大數據的軟件平臺設計自己的上層應用。其擁有較低的成本和較快的需求響應速度,但純軟件平臺將面臨更多的軟件開發工作。基于大數據處理的技術架構近年來涌現出眾多的新技術,當前業界流行的純軟件解決方案典型產品,如Cassandra、IBM BigInsights、Cloudera Hadoop、Intel Hadoop 發 行 版 、EMC Greenplum等[1]。其中,由Apache基金會開發的Hadoop開源架構已被眾多互聯網公司采納,在一定范圍內可以借鑒相關經驗。
移動互聯網的普及導致電信BSS需要處理的數據量大幅增加,然而單位容量的數據所創造的利潤已經遠遠小于2G時代,因而電信BSS大數據平臺必須具備較低的成本;移動互聯時代終端設備、應用和用戶喜好的變化周期大幅縮短,因而電信BSS大數據平臺必須具備快速多變的需求響應速度。基于以上兩點,電信BSS大數據平臺的建設應選擇純軟件的解決方案,設計合適的架構部署于廉價的x86服務器上。本文以海量DPI數據的入庫和查詢場景為依據,提出一種基于Cloudera 4dh Hadoop平臺的分布式大數據平臺,通過模擬大數據的實驗,搭建電信BSS大數據平臺,并論證該平臺與傳統IT架構相比在性能、容災、成本方面的優勢。
在功能架構上,本平臺采用“三層結構”的設計思想,在邏輯上按“數據服務層、業務處理層和接入層”3層結構設計,如圖1所示。將接入層獨立出來,使得平臺的訪問和使用更靈活方便,易于實現個性化和客戶化;將業務處理層和數據服務層分開,可以屏蔽業務數據的存儲、組織和訪問的細節,實現業務數據的充分共享,從而實現橫向組合,具體介紹如下。

圖1 系統功能架構
(1)數據服務層
數據服務層為整個平臺提供分布式的數據服務,包括分布式文件系統(HDFS)、分布式數據庫(Hbase)、分布式協調器(Zookeeper)和業務實例化部分[1]。本層是大數據平臺的底層,主要用于完成Hadoop自服務管理以及相關的Hadoop參數調優、監控、管理等工作。大數據平臺的系統安全、數據安全、容災等功能也在本層實現。
(2)業務處理層
業務處理層構建于數據服務層之上,封裝了整個平臺的核心業務處理邏輯,包括接口服務與查詢管理、數據ETL、索引定制、數據服務、系統管理功能。
接口服務功能主要是響應外圍系統的查詢請求,大數據平臺作為大數據中心,為外圍系統提供數據,需要一個統一、簡單、不斷增加的接口,支持 API、Socket、Web Service、Tuxedo中間件等接口方式。同時對外圍系統的數據導入和查詢請求,有一個優化的均衡負載策略,包括數據在各節點的均衡分布以及查詢請求的均衡負載、動態伸縮和擴展功能,保證大數據平臺面對大數據沖擊時的性能優化和系統安全。
數據ETL一般以文件方式為主,因為大數據平臺的數據源廣泛且復雜,有結構化、半結構化和非結構化數據,必須支持文件、消息、數據庫等接口方式,且具備一定的數據轉換和清洗功能以及合并、分拆、統計、壓縮、解壓等輔助功能。
索引定制和數據服務主要根據不同數據格式的數據特點和業務特性,制定有利于存儲和提取的索引方式,追求存儲和查詢性能的最優化。
系統管理功能需具備一般數據平臺的數據稽核、盤點、安保、生命周期管理等功能,支持數據可查詢和可跟蹤,保證數據平臺的完整性以及相關Hadoop平臺的監控、維護等工作。
(3)接入層
接入層提供本平臺和外部系統的接口,包括輸入接口和輸出接口。如果大數據平臺的外圍系統較多且數據源格式復雜,一般會為大數據平臺建設一個輔助的數據傳輸管理平臺,一點集中和傳輸,完成大數據平臺與外圍系統的數據交換工作。
本平臺采用分布式的部署,在部署設計上需要充分發揮各主機的性能。因而部署設計主要分為Hadoop平臺的部署設計和應用層的部署設計。其中,應用層的部署設計又分為導入應用的部署設計和查詢應用的部署設計。
3.2.1 Hadoop平臺的部署設計
Hadoop平臺層的部署設計架構如圖2所示,具體介紹如下。
(1)主從節點規劃
主機1和主機2作為Hadoop平臺層的主節點,工作模式為主備模式;主機3~主機6作為Hadoop平臺層的從節點,工作模式為負載均衡[2]。
(2)HDFS 部署規劃
主機1和主機2部署HDFS的命名節點,配置主機1上的命名節點為主用,主機2上的命名節點為備用。主機1~主機6上分別部署HDFS的數據節點[3]。
(3)MapReduce部署規劃

圖2 Hadoop平臺層的部署設計架構
主機1和主機2部署MapReduce的Jobtracker,配置主機1上的Jobtracker為主用,主機2上的Jobtracker為備用。主機1~主機6上分別部署MapReduce的tasktracker[4]。
(4)Hbase部署規劃
主機1和主機2部署Hbase的Hmaster,配置主機1上的Hmaster為主用,主機2上的Hmaster為備用。主機1~主機6上分別部署Hbase的RegionServer[5]。
(5)Zookeeper部署規劃
主機1、主機2、主機3上分別部署 Zookeeper。
3.2.2 應用層的部署設計
3.2.2.1 查詢應用的部署設計
查詢應用的部署設計架構如圖3所示,具體介紹如下。

圖3 查詢應用的部署設計架構
(1)主從節點規劃
主機3和主機4作為查詢應用的主節點,工作模式為主備模式;主機1、主機2、主機 5、主機6作為查詢應用的從節點,工作模式為負載均衡[6]。
(2)Tomcat部署規劃
主機1、主機2、主機5、主機6上分別部署Tomcat應用服務器。
(3)Nginx部署規劃
主機3、主機4上分別部署Nginx消息分發器,并分別配置Nginx將前端業務消息負載均衡轉發到主機1、主機2、主機 5、主機 6 的 Tomcat上[7]。
(4)VIP 部署規劃
主機3和主機4上分別部署虛擬IP地址管理軟件,并配置兩主機的共用虛擬IP地址,設置主機3為主節點,主機4為備節點。配置虛擬IP地址切換腳本,當主機3發生硬件故障或查詢應用故障時,將該虛擬IP地址切換到主機4上[8]。
3.2.2.2 入庫應用的部署設計
入庫應用的部署設計如圖4所示。主機1、主機4、主機5、主機6上分別部署入庫程序,其中主機1規劃入庫20億條記錄,主機4、主機5、主機6規劃各入庫10億條記錄。

圖4 入庫應用的部署設計
實驗選擇的驗證數據是流量經營DPI數據,DPI數據是基于DPI技術獲取的TCP/IP應用層數據,基于此能夠對數據內容進行分析,因此DPI數據在電信流量經營業務背景下具有很重要的意義。實驗選擇的硬件環境為基于x86架構的廉價PC服務器。
本實驗選擇的流量經營DPI數據的數據特性見表1。

表1 DPI數據的數據特性
本實驗主要驗證50億條DPI數據的入庫、查詢性能和整個系統的高可用性,具體的驗證方法和評估指標見表 2。

表2 具體的驗證方法和評估指標
本實驗的主機環境為6臺 DL380 Gen8,CPU為E5-2630×1(12 核),內存 16 GB,聯機磁盤各為 300 GB,構建分布式文件系統的存儲容量各為2 TB。實驗網絡帶寬采用吉比特以太網絡。
為體現本平臺和傳統IT架構的功能和性能差別,下文中用于對比測試的傳統IT架構基于2臺HP rx8640,16CPU/128 GB硬件,數據庫為Oracle10g。
入庫50億條數據,本平臺與傳統IT架構(小型機+關系數據庫)的測試結果對比見表3。

表3 入庫性能測試結果對比
查詢50億條數據,本平臺與傳統IT架構(小型機+關系數據庫)的測試結果見表4。

表4 查詢性能測試結果對比
本平臺在高可用性方面的測試結果見表5。

表5 本平臺高可用性測試結果
在傳統IT架構(小型機+關系數據庫)下,數據庫服務器的高可用性測試結果見表6。

表6 傳統架構下的高可用性測試結果
本平臺的初次投資成本設置見表7。

表7 本平臺的初次投資成本設置
傳統IT架構的初次投資成本設置見表8。

表8 傳統IT架構的初次投資成本設置
本文論述了移動互聯網背景下一種適合電信BSS領域的大數據平臺,該平臺在技術上基于x86架構的PC服務器和Hadoop開源框架。同時通過真實數據的測試對比,可以看出該平臺與傳統IT架構相比,可節約80%的成本,且具有更高的入庫、查詢性能和高可用性。
1 Borthakur D.Hadoop distributed file system.http://hadoop.apache.org/,2007
2 White T.Hadoop the Definitive Guide.United States of America:O’Reilly,2009
3 Owen O’Malley.Programming with Hadoop’s Map Reduce.Apache Con EU,2008
4 Apache.Welcome to Hadoop.http://hadoop.apache.org/,2007
5 Borthakur D.The Hadoop distributed file system:architecture and design.http://hadoop.apache.org/common/docs/r0.20.0/hdfs_design.pdf,2011
6 David E Culler,Jaswinder Pal,Singh Anoop等著.李曉明等譯.并行計算機體系結構:硬件/軟件結合的設計與分析(第2版).北京:機械工業出版社,2003
7 曹羽中.用Hadoop進行分布式并行編程 (第1部分).http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html,2008
8 朱珠.基于Hadoop的海量數據處理模型研究和應用.北京郵電大學碩士學位論文,2008

陳娜,女,碩士,中國電信股份有限公司廣東研究院高級工程師,主要從事電信IT支撐系統的相關研究工作。
徐歆壹,男,學士,現就職于中國電信股份有限公司廣東研究院,主要從事BSS領域的研究工作。
宋紅兵,女,碩士,中國電信集團公司工程師,長期從事中國電信業務支撐運營管理和研究工作。
何毅,男,碩士,亞信聯創集團股份有限公司工程師,主要從事電信IT支撐系統的設計和開發工作。
Research on Big Data System of Telecom Based on the Hadoop
Chen Na1,Xu Xinyi1,Song Hongbing2,He Yi3
(1.Guangdong Research Institute of China Telecom Co.,Ltd.,Guangzhou 510630,China;2.China Telecom Corporation,Beijing 100032,China;3.AsiaInfo Linkage Group Limited by Share Ltd.,Nanjing 210013,China)
Telecom operators are transforming their business model from “voice+SMS+VAS” to “voice+application+traffic”,and they are choosing the mobile traffic operation as their key development strategy.In this scenario,big data is becoming the next frontier for the telecom IT support system.A distributed architecture based on Hadoop to provide big data management and services for traffic operation was described,and with the experimental data,demonstration of the outstanding performance of the platform was introduced.
big data,platform,Hadoop,Hbase,high availability
10.3969/j.issn.1000-0801.2013.03.008
book=341,ebook=341
2013-03-05)