薛 飛
(中國移動通信集團廣東有限公司,廣東 廣州 510623)
用社交網絡分析方法可定量分析網絡結構,研究子群分割,并基于用戶子群開展應用。在移動網絡中,用戶行為具有社交屬性,可以用以進行社交網絡研究。2010年英國牛津、美國諾特丹等大學首次構建移動社交網絡,使之成為該領域的開山之作[1]。西班牙電信Telefonica等電信運營商創新地使用移動社交網絡為用戶提供增值服務[2]。
前期移動社交網絡主要基于話單,模型開銷較大,實際應用效果偏低,主要存在以下問題:
(1)集中使用話單數據,移動信令數據在社交網絡中沒有得到充分應用;
(2)聚焦海量數據的離線分析,周期過長,在實際應用中對用戶變化缺乏及時響應;
(3)分析缺少關聯用戶多種行為特征。
為了解決以上問題,結合Hadoop大數據平臺提出基于用戶行為特征的實時移動社交網絡分析方法。基于移動信令數據,構建移動社交網絡及子群分割,并聯合市場部門可共同實現用戶營銷支撐、重要用戶維系和高價值用戶流失預警。
移動社交網絡分析可以用于尋找網絡中最具影響力的個體以及傳播內容等,從而進行輿情監控;也可以用于網絡子群分割,實現“物以類聚,人以群分”。主要分析內容(如表1所示)和步驟詳見下文。

表1 移動社交網絡主要分析內容
移動社交網絡分析數據來自信令系統、資源系統等,通過采集移動通信網絡A接口、Iu接口和S1-U接口的原始信令碼流數據,匯聚形成移動社交網絡分析的詳單寬表。詳單寬表共有52個字段,其中關鍵字段如表2所示。其中,用戶通話時長=釋放時間-呼叫應答時間,需要通過計算得出。
若用戶存在異常通信行為,可能干擾移動社交網絡分析結論,則構建網絡前必須開展數據清洗。分析2017年4月詳單寬表可知,用戶存在如下異常通信行為:
◆超短通話:25%用戶通話時長小于20.26 s,甚至還有0.18%的用戶通話時長小于3 s。
◆超長通話:最大通話時長達到21 850 s,約6.07小時,遠遠超過75%的用戶通話時長88.42 s。
◆超短通話的呼叫頻次相當高。前35.57%通話(通話時長34.30 s以內)的頻次占了全部通話頻次的80%。
根據用戶行為經驗值,對詳單寬表進行數據清洗,刪除用戶通話時長小于3 s、用戶通話時長大于600 s或主叫用戶號碼頻次大于60次/小時的數據記錄。

表2 詳單寬表關鍵字段
利用移動社交網絡詳單寬表構建移動社交網絡。其中,以主叫用戶號碼、被叫用戶號碼構成社交網絡中節點,如果兩個號碼之間存在通話記錄,則形成網絡中的一條邊。遍歷移動社交網絡的所有節點和邊,計算社交網絡的度、中間度以及直徑等統計性指標。
考慮到算法適用性等因素,使用Walktrap算法進行移動社交網絡子群分割,主要步驟如下:
(1)定義網絡中兩個節點i、j之間的距離。利用網絡兩點到網絡中所有其他點的距離之差來衡量兩點之間的相似性,從而劃分網絡子群[7]。

其中,D是度矩陣,度矩陣對角線上的元素Dii是對應節點i的度,其他非對角線元素為0;d(k)是節點k的度;定義鄰接矩陣A,表示節點之間相鄰關系矩陣。在無向網絡中,如果兩個節點i和j相鄰,則將鄰接矩陣對應元素Aij和Aji設置為1,否則為0。P是網絡對應的鄰接矩陣A按行歸一化后的概率轉移矩陣,其中P=D-1A。表示節點i經過t條邊達到節點k概率,按經驗值t預設為3~5。
(2)定義任意兩點之間的距離后,就可以推廣得到子群C1和C2之間的距離:

(3)選取網絡中沒有納入子群的節點,將其單獨視為一個子群,然后計算該節點與所有相鄰子群之間距離。
(4)取兩個彼此連接且距離最短的子群進行合并。
(5)重復步驟(3)、步驟(4)、步驟(5),直到網絡中所有節點都被劃分到子群中。
對2017年4月詳單寬表進行數據清洗后,構建移動社交網絡。網絡節點數共44.64萬個,邊數共72.84萬條。由于網絡節點數太多,計算復雜度過高,下面隨機抽取10 000、50 000個節點進行分析,如表3所示:

表3 社交網絡分析度量指標結果
利用Walktrap算法進行移動社交網絡子群分割,選取度大于30的節點構建子群,則該移動社交網絡被分割為4個子群。為了便于呈現,利用不同顏色節點代表不同用戶子群,節點大小表示節點的中間度。中間度越大,節點越大。從圖1可以明顯看出,紅色、綠色兩個子群連接的綠色節點的中間度很高,說明這些節點在這兩個子群之間起到了重要橋梁作用。

圖1 移動社交網絡子群劃分圖
分析中間度超高的關鍵節點。從表4看出,在綠色子群中間度超過1 500的節點有3個,說明該群中的節點可作為社交網絡信息交互橋梁,信息交互作用明顯。

表4 移動社交網絡關鍵節點
移動社交網絡分析平臺通過采集信令消息并解碼,同時利用Hadoop資源池進行實時流處理和離線計算,形成詳單寬表,匯總存儲后,通過API接口分發給上層應用服務,然后進行移動社交網絡建模分析。移動社交網絡分析平臺架構圖如圖2所示。
移動社交網絡分析平臺包括采集解碼層、計算共享層和分析應用層3層,各層主要功能如下:
◆采集解碼層:采集移動網絡信令原始碼流,通過分光、匯聚和碼流解碼,形成移動社交網絡詳單寬表。
◆計算共享層:采用開源Hadoop架構,通過Strom數據流處理技術實現實時流處理,通過Map Reduce實現離線批處理,供分析應用層數據建模使用。
◆分析應用層:利用API接口獲取數據,并進行建模計算和UI界面輸出。

圖2 移動社交網絡分析平臺架構圖
◆采集解碼層:采用詳單寬表的字段回填技術,對各種不同接口協議進行實時解碼,根據各個不同接口之間的業務邏輯,把多個接口的數據按照用戶號碼進行關聯,合成回填關鍵字段。
◆計算共享層:基于Kafka數據分發和Storm流計算框架,縮短網絡大數據的數據分發處理時延,實現數據實時計算。實時計算從傳統的FTP文件共享演進到基于Kafka數據消費,大大提升了計算性能和數據可靠性,縮短了數據時延。同時,通過庫外多索引技術架構可實現高并發、低時延,豐富了業務支撐場景,滿足分析需求。
◆分析應用層:采用HTTP Restful技術可實現API接口提取計算共享層數據。同時,在分析應用層利用Python可實現社交網絡分析,用Walktrap算法可完成子群分割。在用戶子群基礎上配置動態基線,可建立用戶營銷推薦模型、用戶關系維系模型以及用戶流失預警模型。
利用移動社交網絡用戶子群,構建用戶營銷推薦、用戶關系維系以及用戶流失預警三大算法模型,可幫助電信運營商掌控用戶發展全生命周期各個場景的情況。
(1)用戶營銷推薦模型
對節點中間度大小進行排序,篩選目標用戶,以此作為關鍵用戶推送給市場部門,市場部門即可據此為關鍵用戶及相鄰節點用戶進行套餐營銷優惠推薦。
◆模型初始條件:按地市構建移動社交網絡,并且完成數據預處理。
◆模型動態基線:網絡直徑h、中間度閾值a、中間度閾值b、度數c。
◆模型應用說明:對于地市中直徑超過h的社交網絡里,網絡中間度在a~b,并且度數超過c的節點,系統將該節點對應的用戶判定為目標用戶,并將信息推送給市場部門以進行套餐營銷推薦,市場部門同時也會給相鄰節點用戶推送套餐優惠信息。
(2)用戶關系維系模型
構建移動社交網絡分析模型,按照節點中間度排序情況篩選目標用戶,將目標用戶作為關鍵用戶推送給市場部門,市場部門則對目標用戶重點開展用戶關系維系工作。
◆模型初始條件:按地市構建移動社交網絡,并且完成數據預處理。
◆模型動態基線:網絡直徑h、中間度閾值a、度數c。
◆模型應用說明:對于地市中直徑超過h的社交網絡里,網絡中間度在a并且度數超過c的節點,系統將該節點對應用戶判定為關鍵用戶,并將信息推送市場部門,市場部門通過套餐優化等手段進行用戶關系維系。
(3)用戶流失預警模型
按照節點中間度篩選出中間度對比上一個分析周期(按照周或者月)降幅過大的用戶,把其作為潛在流失用戶推送給市場部門,市場部門則重點對這些用戶開展用戶挽留工作。
◆模型初始條件:按地市構建移動社交網絡,并且完成數據預處理。
◆模型動態基線:中間度閾值a、度數c、中間度降幅k。
◆模型應用說明:對于地市中直徑超過h的社交網絡里,網絡的度超過c的節點,如果其中間度對比上一個分析周期降幅超過k,則系統將該節點對應用戶判定為潛在流失用戶,并將信息推送市場部門,市場部門即重點開展用戶挽留工作。
基于用戶行為特征的移動社交網絡分析方法主要有3種應用場景:用戶市場拓展、重要用戶維系和高價值用戶流失預警。
用戶市場拓展:在移動社交網絡子群中,中間度體現了網絡對用戶的粘度,是用戶價值高低的度量。在市場拓展階段,市場部門通過甄別中高價值用戶,可有針對性地對其開展套餐營銷,提升網絡使用度,爭取將這些用戶轉化為高價值用戶。對比傳統用戶ARPU、流量費用等,結合社交網絡進行市場拓展的方式考慮了用戶行為特征等多方面因素,有助于市場份額的提升。
重要用戶維系:在移動社交網絡基礎上構建重要用戶網絡。對于高價值用戶,市場部門有針對性地重點監控其行為、消費等的變化情況,在節假日等通過短信/電話營銷等方式進行營銷推薦等,維系用戶市場。
高價值用戶流失預警分為實時與非實時,實時流程主要針對對比上一個周期,高價值用戶的網絡使用變化明顯的情況進行預警,利用網絡變化及時監控不穩定群體,做出用戶流失預警并進行防范。另外,非實時主要是對地市的用戶流失趨勢進行預測,并結合用戶畫像特征和用戶區域位置,加強用戶流失情報收集,提前做好相關預案。
利用大數據技術和社交網絡分析方法可以有效支撐電信運營商的市場發展。通過捕捉移動通信用戶多行為特征,構建并定性度量移動社交網絡,將其應用到用戶營銷、用戶關系維系、用戶流失預警等三大場景,使電信運營商能有效掌控用戶發展全生命周期各個場景的情況。后續可將移動社交網絡分析與用戶計費信息結合,從用戶行為、用戶消費能力等多角度進行融合聯合分析,提升用戶營銷、用戶關系維系、用戶流失預警的有效性。
[1] PUSHP A, G SHOBHA. An efベcient method of building the telecom social network for churn prediction[J]. International Journal of Data Mining & Knowledge Management Process,2012,2(3).
[2] Lá Galindo, T Spain, D Moro, et al. THE SOCIAL NETWORK BEHIND TELECOM NETWORKS[J]. Cis,2009.
[3] Tom White. Hadoop權威指南[M]. 曾大聃,周傲英,譯. 北京: 清華大學出版社, 2010.
[4] Alan Gates. Pig編程指南[M]. 曹坤,譯. 北京: 人民郵電出版社, 2013.
[5] P Pons, M Latapy. Computing communities in large networks using random walks[J]. Journal of Graph Algorithms and Application, 2005,10(2): 284-293.
[6] U N Raghavan, R Albert, S Kumara. Near linear time algorithm to detect community structures in large-scale networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2007,76(2): 036106.
[7] V D Blondel, J L Guillaume, R Lambiotte, et al. Fast Unfolding of Communities in Large Networks[J]. Journal of Statistical Mechanics Theory & Experiment, 2008(10): 155-168.
[9] A Clauset, M E Newman, C Moore. Finding community structure in very large networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2004,70(6 Pt 2):066111.
[10] B W Kernighan, S Lin. An efficient heuristic procedure for partitioning graphs[J]. Bell System Technical Journal,1970,49(2): 291-307.
[11] M E Newman. Fast Algorithm for Detecting Community Structure in Networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2003,69(6 Pt 2): 066133.★