谷紅勛,楊珂
(中國電信股份有限公司河南分公司,河南 鄭州 450016)
基于大數據的移動用戶行為分析系統與應用案例
谷紅勛,楊珂
(中國電信股份有限公司河南分公司,河南 鄭州 450016)
本系統基于Hadoop架構采集運營商網絡側產生的大數據,并對數據進行深度加工,挖掘其中相關的用戶行為屬性,構建用戶行為分析模型,并對具體用戶行為應用進行有效探索。針對技術選型、系統實現、數據采集、模型設計與應用案例,完整展示了移動用戶行為分析系統的設計思路與實現。
Hadoop;ETL;數據模型;用戶行為分析
隨著智能終端、云計算、物聯網與4G網絡的普及,電信網絡系統產生了海量數據。與傳統數據相比,電信運營商的數據具有數據量大、數據多樣性、增長快速、價值密度低等特點。傳統數據挖掘工具(如Oracle、SPSS、SAS等)并不具備大數據挖掘能力,所有的數據必須在單一的服務器上處理,硬件能力成為大數據應用的瓶頸。對電信運營商而言,必須尋找新一代的數據處理技術,以實現大數據的分析與挖掘。
同時,以往對大數據的探索主要集中在技術層面,實際應用案例較少,本文針對運營商網絡數據進行深度加工,對原本只用于計費的通話詳單進行深度加工,挖掘其中的用戶行為屬性,構建用戶行為分析模型,并成功應用于養卡用戶監控等具體業務。
目前在大數據應用方面的研究具體介紹如下。
[1]提出從數據挖掘的角度,分析大數據的數據建模與傳統的數據建模之間的差異,并提出基于大數據設計數據模型的具體思路,包含數據來源、數據挖掘和分析、用戶興趣建模與安全隱私等。
· 參考文獻[2]提出電信運營商如何采集、利用移動數據的相關議題。移動數據不只是用來理解用戶的過去和現在,也可以預測用戶未來的行為、活動和狀態。
· 參考文獻[3]針對標準的移動電話記錄,建立一套全新的用戶行為分析指標,能夠精確預測用戶的個性與行為,為移動用戶行為分析模型提供參考依據。
傳統數據挖掘工具(如 Oracle、SPSS、SAS等)并不具備大數據挖掘能力,同時要求所有的數據必須在單一的服務器上處理,硬件能力成為大數據應用的瓶頸。隨著數據量的大量增加,產生了新的數據存儲和處理能力問題,傳統數據倉庫無法支撐線性擴容,造成管理難度加大、成本高、擴容壓力大、效率下降等問題。電信運營商需要探索大數據系統的建設方案,解決上述問題。目前主流的大數據系統建設方案如下。
·傳統數據庫升級解決方案:由高性能的主機與大容量存儲組成,通常為“UNIX服務器+存儲磁盤陣列+數據倉庫軟件”的開放式解決方案。
·一體機解決方案:基于一體機的BI集成化解決方案,一體機包含數據倉庫服務器、數據倉庫存儲、數據倉庫軟件等。
·基于x86開放平臺的海量數據解決方案:在開源Hadoop技術的基礎上開發的海量數據處理軟件,基于x86服務器的大規模并行處理解決方案。
隨著集約化運營管理思路的提出,系統處理的數據量會越來越大,傳統的小機數據庫模式難以支撐海量數據處理的要求,而一體化產品(硬件+數據庫軟件捆綁銷售)投資高、性價比低。總結主要廠商解決方案,幾種技術方案特點比較見表1。
除了成本因素外,本系統需要處理結構化、文件型和非結構化數據,還需要考慮數據結構問題,具體因素如下:
·對于海量的結構化數據處理,如何保障系統的穩定性和高性能;
·對于文件型和非結構化數據處理,先以分布式集群系統平臺進行預處理,形成結構化數據后交由MPP或關系型數據庫進行處理。
綜合考慮技術成熟度、性價比和數據處理需求,采用基于Hadoop的分布式集群系統的平臺架構。該技術架構具備下列優點。
· 高性能:采用分布式存儲、并行計算技術,充分利用設備性能,提升數據處理速度。
· 高可靠性:多任務并行計算、數據冗余存儲,有效避免設備單點故障,提供高可靠服務。
· 高擴展性:x86架構可以通過增加節點,完美支持計算和存儲能力的線性擴容。
· 高性價比:利用低成本的基于x86的主機設備,有效降低一次性投入成本,更能支持小成本的平滑升級與擴容。
Hadoop是對大量數據進行分布式處理的軟件框架。Hadoop系統以可靠、高效、可伸縮的方式進行大數據處理,以并行的方式工作,通過并行處理加快處理速度,具有以下幾個優點。
·高可靠性:假設計算元素和存儲可以出錯,可維護多個工作數據副本,確保能夠針對失敗的節點重新進行分布處理。
·高擴展性:能夠在可用的計算機集簇間分配數據并完成計算任務,這些集簇可以方便地擴展到數以千計的節點中。
·高效性:能夠在節點之間動態地移動數據,并保證各個節點的動態平衡。
·高容錯性:能夠自動保存數據的多個副本,并能夠自動重新分配失敗的任務。

表1 技術方案特點比較
由于本系統面向多個用戶提供多種服務,各類型用戶通過訪問本系統獲取自己的數據,必須保障這些數據不被其他用戶隨意訪問或篡改。因此如何實現多租戶安全,保證多用戶間隔離、數據安全和防止有害代碼的威脅,是本系統必須解決的問題。
本系統采用多租戶管理技術,對數據庫結構進行特殊的設計,在安全和隔離性方面也要有所保障,實現如下功能。
· 資源隔離:控制高資源消耗任務,通過容量/公平調度器,控制資源分配以保證重要工作的資源。
· 數據隔離:用戶數據保存在用戶專有的目錄中,其他未被授權的用戶不能訪問。
· 安全隔離:保證不同用戶和組的安全,保證對集群的所有操作都是經過授權認證的。
為了實現對“多租戶”的支持,需要配套相應的多租戶架構(multi-tenancy architecture),本系統基于硬件共享(shared hardware)架構,為多租戶提供一個應用容器集群環境,應用運行在應用容器中,實現資源與數據的安全隔離。
依據業務需求,必須支持TB級數據采集,主要采集的數據類型如下。
·企業經營數據:BSS中的計費詳單、用戶、客戶、套餐、服務、渠道等數據。
·企業運營數據:OSS中的資源、服務開通等數據。
·企業管理數據:MSS中的人力、財務等數據。
·移動DPI數據:訪問移動互聯網的行為數據,包括用戶手機號、訪問URL、應用、訪問時間等信息。
·移動AAA系統數據:用戶信息及行為信息,包括用戶手機號、IP地址、認證時間、基站位置等信息。
· 固網DPI數據:訪問互聯網的行為數據,包括用戶IP地址、訪問URL、訪問時間、用戶UA、cookie等信息。
·固網AAA系統數據:用戶互聯網訪問的IP地址和AD賬號的對應關系。
·位置信令數據:用戶的地理位置信息。
·業務平臺數據:能力類、產品類、支撐類平臺的用戶增值業務、基地業務、行業應用等數據。
具體數據采集類型與數量見表2。

表2 具體數據采集類型與數量
系統架構分為存儲層、服務層、處理層和管理層,主要功能如圖1所示。
(1)存儲層
支持異構的存儲設備,通過存儲虛擬化技術,將存儲設備統一到資源池中,通過部署分布式文件系統,對上層提供統一的存儲服務。系統同時支持低成本的本地磁盤方案。
(2)服務層
服務層為ETL平臺提供必需的底層服務。其中流程引擎與任務調度服務,以定時或者觸發方式執行預先配置的ETL任務,支持復雜流程的串并聯;元數據與接入平臺服務,提供不同種類、異構數據源的數據抽取能力;map/reduce與類SQL查詢提供并行計算與簡便的分析功能。
(3)處理層
處理層是數據分析平臺的核心功能,分為數據抽取、數據轉換與數據裝載3個過程,常見的ETL動作包括數據清洗、數據校驗、聚合、關聯等,支持自定義的數據處理動作。
(4)管理層
平臺提供可視化、流程化的管理操作界面,便于業務人員使用。管理功能包括元數據管理、營銷活動管理、目標客戶管理管理與系統監控管理等。

圖1 功能架構
由于數據大,本系統對ETL處理能力提出了更高的要求:需要集中支撐大量的數據采集任務調度;需要集中支撐大量的數據處理任務調度。本系統采用分布式ETL調度框架進行任務調度,可以解決如下問題:
· 支持部署多個調度節點,解決調度節點單點故障問題,在任意一個調度節點掛死后都不會影響調度任務的調度與執行;
· 調度節點可擴展,可以根據具體需求動態擴展調度節點數,提高處理性能;
· 調度節點均衡負載,可以在多個調度節點中實現均衡負載,避免資源壓力集中在某個節點上;
· 調度先進先出原則,需要保證工單執行的時序性。
本系統每月采集數據大約為59 TB。系統需要的服務器計算過程見表3,計算結果共需要18臺服務器。
本系統采用吉比特網絡接入Hadoop平臺,各個節點均配置4端口吉比特,分別接入兩臺相互冗余的接入交換機,并采用網卡聚合方式接入,以保障網絡接入的安全穩定性。對于多臺應用服務器的負載均衡訪問,均由DCN接入層部署的負載均衡器提供。系統拓撲結構如圖2所示。
本系統對原本只用于計費使用的通信、上網數據進行深度加工,挖掘其中的用戶行為屬性,如規律性(regularity)、 多 元 性 (diversity)、 空 間 行 為 (spatial behavior)、活動 行為 (active behavior)、使 用 行為 (basic phone use)、關聯性(correlation)6 類,并與這些關鍵指標構建用戶行為模式。
(1)規律性
· 平均通話間隔(average inter-call time):計算用戶通話(包括主被叫)間隔的平均值,單位為s。從上一通電話開始,到下一通電話開始記為一次間隔。
· 平均短信間隔(average inter-text time):計算用戶收發短信間隔的平均值,單位為s,取樣為每兩條短信之間的時間間隔。
· 平均上網間隔(average inter-internet time):計算用戶上網間隔的平均值,單位為s,取樣為每兩次上網之間的時間間隔,上網行為包括通過2G、3G、Wi-Fi上網。

表3 系統需要的服務器計算過程

圖2 系統拓撲結構
· 通話間隔方差(variance of inter-call time):用戶兩次通話之間間隔時間的方差,單位為s2,表示用戶每通電話間隔同平均通話間隔的偏離程度。
· 短信間隔方差(variance of inter-text time):用戶兩次短信之間間隔時間的方差,單位為s2,表示用戶每個短信間隔同平均短信間隔的偏離程度。
· 上網間隔方差(variance of inter-internet time):用戶兩次上網之間間隔時間的方差,單位為s2,表示用戶每個上網間隔同平均上網間隔的偏離程度。
AR系數(AR coefficient)為每個用戶建立AR模型,如時間序列Xt包括用戶周一早上6點到晚上12點,周二早上6點到晚上12點,…的通話數,模型如下:

AR系數φ表示知道前6 h打了多少電話,預測未來6 h的通話次數。
(2)多元性
通話熵(entropy of call):表示用戶同其他用戶通話的信息量,用戶通話聯系人越多,通話熵越大。用戶A同用戶B間通話熵的計算式為:

其中,f1,B為A同B通話的頻率。
短信熵(entropy of text):表示用戶同其他用戶發短信的信息量,用戶短信聯系人越多,通話熵越大。用戶A同B間短信熵的計算式為:

其中,f2,B為A同B發短信的頻率。
上網熵 (entropy of internet):表示用戶上網的信息量,用戶上網次數越多,上網熵越大。用戶A上網熵的計算式為:

其中,f3為A上網的頻率。
聯系人通話比(contact to call ratio):表示用戶聯系人中有多少通過通話聯系。聯系人通話比為聯系人數同通話聯系人之比。
聯系人短信比(contact to text ratio):表示用戶聯系人中有多少通過短信聯系。聯系人短信比為聯系人數同短信聯系人之比。
通話聯系人數(number of call contact):通過通話的聯系人數。
短信聯系人數(number of text contact):通過短信的聯系人數。
(3)空間行為
· 旋回半徑(radius of gyration):包括用戶所有位置的圓的最小半徑,位置為用戶停留大于15 min的基站。
· 旅行距離(distance traveled):為用戶在一段時間內到訪位置的連續距離。
· 地點數(number of place):用戶停留地點總數。
· 地點熵(entropy of place):表示用戶在某地點通話、發短信、上網的信息量,用戶停留的地點越多,地點熵越大。用戶A的地點熵計算式為:

其中,f4,Z為A在Z地使用手機的頻率。
(4)活動行為
· 通話回復率(call response rate):表示用戶回復通話的比率,回復通話為用戶甲同用戶乙通話后1 h內用戶乙回復用戶甲的通話。通話回復率為回復通話次數占通話總次數的百分數。
· 短信回復率(text response rate):表示用戶回復短信的比率,回復短信為用戶甲發給用戶乙短信后1 h內用戶乙回復用戶甲的短信。短信回復率為回復短信次數占總短信的百分數。
· 發起通話率(percent of call initiated):表示某用戶同其他用戶通話時有多少次為該用戶主叫。發起通話率等于用戶主叫通話的次數與通話總次數的比率。
(5)使用行為
· 通話次數(number of call):用戶通話的次數。
· 短信數(number of text):用戶發短信的次數。
· 上網次數(number of internet):用戶上網的次數。
· 上網流量(flow of internet):用戶上網的總流量,包括 Wi-Fi、2G、3G 上網。
· 互動次數(number of interaction):用戶間互動行為的次數。互動行為包括通話和短信,1 h內互動行為的往復記為互動。
(6)關聯性
· 機卡比值(cellphone-card ratio):表示同一手機號對應終端數量的比值,比值越大,說明該號碼曾被多個手機終端使用。計算時使用終端串碼(IMEI)關聯手機號。
· 卡機比值(card-cellphone ratio):表示某一終端使用過手機號的數量,比值越大,說明該終端使用過的手機卡越多。
· 銷售員貝葉斯因子(retailer Bayesian factor):表示銷售員擁有養卡前科的先驗概率。貝葉斯推斷中,在事件1發生的條件下事件2發生的概率,即后驗概率,可由先驗概率與調整因子得到。如銷售員擁有養卡前科,則再產生養卡行為的概率會大。
移動用戶行為分析系統2014年12月開發完成,2015年開始測試使用,已針對養卡用戶監控等開展具體應用。養卡用戶是指渠道商為了獲取號碼卡銷售后得到的酬金,私自激活并偽裝號碼正在使用的狀態,以期獲取運營商酬金。養卡用戶屬于無效用戶,造成電信運營商大量營銷資源與傭金的浪費。
基于用戶行為分析系統針對養卡用戶的行為進行深度挖掘,養卡用戶行為與正常用戶行為比對特征見表4。
(1)模型分析期
指用戶入網行為、通信行為產生時間段,即模型輸入變量的時間窗口(分析期為2014年 11月、2014年12月)。
(2)模型應用期
指異常用戶名單輸出時間,即應用模型異常名單,開展管控工作的時間窗口(管控期為2015年 1-8月)。
(3)用戶行為特征
用戶滿足低活躍度,則認為用戶滿足必備條件。
·低活躍度:月主叫時長小于或等于3 min、月被叫次數小于或等于3次、月短信小于或等于3條、月流量小于或等于3 MB,滿足其中任意3項則認為其低活躍度。
·串碼集中:5個以上號碼使用同一終端注冊 (取最后一次使用終端)。
·用戶信息:10個以上用戶使用相同身份證開戶。
·聯系號碼集中:月(主動+被動)聯系號碼數小于或等于3個,某網點當月發展用戶中10個及以上用戶撥打同一個號碼 (不含10000、11888等客服號碼)超過3次,上述兩項中滿足任意一項即判定符合此條件。
該系統上線后,實現對養卡網用戶的精確判別,同時在市場部門的配合下,開展“養卡專項清理”活動,實時監控入網渠道,建立追溯機制,對發展渠道進行追責。模型應用后,養卡用戶數量得到有效控制,由2015年1月的259 312人,下降到 8月的145 219人,模型效果顯著,如圖3所示。

圖3 模型效果

表4 養卡用戶行為與正常用戶行為比對特征
本系統采用Hadoop架構采集運營商網絡側數據,對大數據技術選型、ETL過程、數據吞吐量、平臺實現方案等進行探索。對原先只用于計費的詳單數據,進行深度加工,分析其中的戶行為屬性,并對養卡用戶監控場景進行有效的實踐。
對于運營商而言,大數據包括3個層面的含義:第一個層面是“大數據”資產,囊括高形態復雜度的超大規模數據;第二個層面是“大數據”平臺,實現全新的、強大的數據處理機制;第三個層面是“大數據”運營,帶來創新的業務機會與商業模式。在成功實現第一、二層面的業務探索與系統建設后,本系統已初步具備第三層面的大數據運營能力,并已成功應用在養卡用戶識別等營銷活動中。未來將結合用戶上網數據、用戶位置數據等,進一步擴大指標體系的范圍與有效性,爭取在4G發展、終端升級、流量經營、存量經營、流失預警等方面,建立大數據驅動的經營新模式,將數據變為生產力。
參考文獻:
[1]WU X D,ZHU X Q,WU G Q,et al.Data mining with big data[J].IEEE Transactions on Knowledge&Data Engineering,2014,26(1):97-102.
[2]MUSOLESI M.Big mobile data mining:good or evil[J].IEEE Internet Computing,2014,18(1):7-10.
[3]MONTJOYE Y A D,QUOIDBACH J,ROBIC F,et al.Social computing,behavioral-culturalmodeling and prediction [M].Berlin:Springer Heidelberg,2013.
[4]MONTJOYE Y A D,HIDALGO C A,VERLEYSEN M,et al.Unique in the crowd:the privacy bounds of human mobility[J].Open Access Publications from UniversitéCatholique De Louvain,2013,3(6):776.
[5]OLIVEIRA R D,KARATZOGLOU A,CONCEJERO C P,et al.Towards a psychographic user model from mobile phone usage[C]//CHI’11 Extended Abstracts on Human Factors in Computing Systems,May 7-12,2011,Vancouver,BC.[S.l.:s.n.],c2011.
[6]李文蓮,夏健明.基于“大數據”的商業模式創新[J].中國工業經濟,2013(5):83-95.LI W L,XIA J M.Business model innovation based on “big data”[J].China Industrial Economy,2013(5):83-95.
[7]趙春雷.“大數據”時代的計算機信息處理技術[J].世界科學,2012(2):30-31.ZHAO C L.Computer information processing technology in the era of big data[J].World Science,2012(2):30-31.
[8]AGRAWAL D,BERNSTEIN P,BERTINO E,et al.Challenges and opportunities with big data[EB/OL].(2011-10-29)[2015-07-28].http://www.docin.com/p-633891531.html.
[9]王秀麗.數據挖掘功能特性及其應用流程分析[J].科技資訊,2005(5):151-152.WANG X L.Functional characteristics and application of data mining [J].Pioneering Withence&Technology Monthly,2005(5):151-152.
[10]王永生.大數據時代的商業模式創新研究[J].南京財經大學學報,2013(6):47-51.WANG Y S.Research on business model innovation in the era of big data [J].Journal of Nanjing University of Finance and Economics,2013(6):47-51.
[11]李璐.實時分析迎戰大數據[J].通信世界,2012(29).LI L.The challenge of the real-time analysis for large data[J].Communications World,2012(29).
[12]陳曉霞,徐國虎.大數據業務的商業模式探討 [J].電子商務,2013(6):16-17.CHEN X X,XU G H.The study of the big dataˊs business model[J].E-commerce,2013(6):16-17.
[13]汪維佳.數量型數據關聯規則挖掘及其在通信行業用戶分析中的應用[J].統計科學與實踐,2005(3):28-30.WANG W J.Association rule of quantitative data and its application for communication industry[J].Statistical Theory and Practice,2005(3):28-30.
[14]徐光憲,劉建輝,黃素芬.電信行業中數據挖掘的應用研究[J]. 現代管理科學,2004(12):8-9.XU G X,LIU J H,HUANG S F.The application of data mining in telecom industry[J].Modern Management Science,2004 (12):8-9.
[15]郭明,鄭惠莉.用數據挖掘法分析電信客戶流失 [J].現代通信,2005(3):7-9.ZHENG H L,GUO M.Analysis of telecom customer churn by data mining[J].Communication Today,2005(3):7-9
Mobile user behavior analysis system and applications based on big data
GU Hongxun,YANG Ke
Henan Branch of China Telecom Co.,Ltd.,Zhengzhou 450016,China
Based on Hadoop’s architecture,this system collects and analyzes the telecom operator network’s data to build up user behavior model for effective exploration of big data applications.The whole process was discussed,including data collection,system design,implementation and application cases.
Hadoop,ETL,data model,user behavior analysis
TN91
A
10.11959/j.issn.1000-0801.2016039
2015-07-28;
2015-12-15

谷紅勛(1972-),男,中國電信股份有限公司河南分公司副總經理、高級工程師,主要從事市場營銷、企業信息化、互聯網增值等工作。

楊珂(1972-),女,中國電信股份有限公司河南分公司移動互聯網業務部主任、高級工程師,主要從事互聯網增值業務工作。