汪悅?高偉?程新洲?王思維?孟范玉

摘要:當前國內移動網絡用戶已經趨于飽和,運營商之間對于用戶的競爭進一步加劇。如何通過人工智能技術提前預測用戶攜號轉出的傾向是運營商目前的一項重要工作。而當前的預測方法大多基于業務人員積累的經驗,無法充分發揮運營商海量多模態數據的優勢,也無法充分挖掘數據間的關系。因此,本文提出一種基于Focal Loss改進的GraphSAGE(Graph Sample Aggregate)模型,用于用戶攜轉預測。該模型在攜轉數據集上實驗,結果驗證了本模型的優異效果。
關鍵詞:攜轉用戶預測;圖神經網絡模型;GraphSAGE
一、引言
隨著移動互聯網時代的到來,在移動通信市場存量用戶十分有限的情況下,我國電信業務面臨著極大的市場競爭壓力。當前國內移動網絡用戶已經趨于飽和,隨著攜號轉網業務的開通,運營商之間對用戶的競爭進一步加劇。各運營商都希望能夠減少用戶轉出的數量,控制用戶流失,如何通過人工智能技術提前預測用戶攜號轉出的傾向,及時制定相應策略進行用戶挽留是運營商目前的一項重要工作。
現有用戶攜號轉網的識別方法大多基于規則進行判斷,或者基于決策樹、隨機森林等傳統機器學習方法[1-3]計算用戶攜號轉網的概率。這些方法所采用的規則或者特征主要是業務人員積累的經驗,無法充分發揮運營商海量多模態數據的優勢,無法充分挖掘數據間的關系,存在識別準確率低的問題,無法為用戶的維系、挽留提供足夠的指導。
因此,一種通過新的技術手段去識別攜號轉網用戶的方法是必要的。在移動通信領域,網絡和人機物交互的拓撲結構具有應用圖神經網絡技術[4-5]的天然優勢。人工智能領域的圖神經網絡算法在多模態數據(文本、語音、圖像等)和復雜網絡場景下均表現出比傳統機器學習方法更優的決策能力。
本文提出一種基于Focal Loss改進的GraphSAGE模型識別攜號轉網用戶。該方法先基于用戶的通話關系,構建用戶關系拓撲結構,收集并處理用戶信息,輸入到基于Focal Loss改進后的GraphSAGE網絡中,預測用戶是否會在未來攜號轉網。本模型在運營商省分公司用戶數據集上測試,對比多種傳統機器學習方法,驗證了本模型的優異效果。
二、方法
對于攜轉用戶預測算法,首先構圖G(V, E)。其中,V代表運營商省份用戶數據,{xv,∈V}表示每一用戶的表示特征,其中包含:用戶性別、用戶年齡、出生日期、套餐號碼、流量使用信息、通話時長和信用等級等20個維度。E代表通話關系,矩陣中數值1代表記錄中兩個用戶有通話,0表示無聯系。
(一)GraphSage
盡管深度學習在計算機視覺和自然語言處理等領域已取得了巨大的成功,但傳統的深度學習方法在處理非歐式空間(圖)數據上的結果仍讓人不滿意。為了解決這一問題,研究人員借鑒了卷積網絡(Convolutional Neural Network,CNN)等傳統深度學習網絡,定義和設計了用于處理圖數據的神經網絡結構,圖卷積網絡(Grpah Convolutional Network, GCN)等圖神經網絡。
GraphSAGE是2017年提出的一種圖神經網絡方法[4],用于解決圖卷積網絡(Grpah Convolutional Network,GCN)[5]的局限性。GCN利用了圖的整個鄰接矩陣和圖卷積操作融合相鄰節點的信息,一般用于直推式學習。而GraphSAGE采用了節點的鄰域信息,不依賴于全局的圖結構。它使用多層聚合函數,每一層聚合函數會將節點及其鄰居的信息聚合在一起得到下一層的特征向量。
GraphSAGE包含采樣和聚合,首先使用節點之間關系連接信息,對鄰居進行采樣,然后通過多層聚合函數不斷地將相鄰節點的信息融合在一起,用融合后的特征表示預測節點標簽。公式表示如下:
(1)
(2)
(3)
其中,l為層數,N(v)為對節點v其一階相連的節點上均勻采樣的結果。聚合aggregate函數采用mean方式,即對鄰域的節點取平均值。W為權值矩陣。σ為激活函數,本文采用reLU函數。最后一步公式(3)為對數據的歸一化處理。
(二)Focal Loss
Focal loss [6]被提出用于圖像領域解決數據不平衡造成的模型性能問題。本任務所采用的運營商省分公司用戶數據集存在著樣本不均衡的問題,故本模型采用Focal Loss作為損失函數。公式表達如下:
(4)
其中,α、γ為權重因子分別控制樣本不均衡和識別難易程度問題,本文采用α=0.2,γ=2。
三、實驗結果與對比
基于Focal Loss改進的GraphSAGE攜轉預測模型在省份用戶數據集上進行實驗驗證。本文共收集了半年大約10萬多條用戶數據,按照8:1:1劃分訓練集、驗證集和測試集。并且在各個數據集中攜轉與不攜轉的比例大約為5:1。
本文與決策樹和隨機森林方法做對比。評價指標采用精準率、召回率、F1分數和AUC(Area Under Curve)。精準率也叫查準率,即正確預測為正的占全部預測為正的比例。召回率為正確預測為正的占全部實際為正的比例。F1分數作為綜合指標,兼顧了精確率與召回率。AUC被定義為ROC(Receiver Operating Characteristic)曲線下的面積。
實驗結果如表1所示。從表中可以看出,基于Focal Loss改進的GraphSAGE模型取得了最優的結果。
四、結束語
本文采用基于Focal Loss改進的GraphSAGE模型,用于預測運營商攜號轉網情況。該模型充分考慮了海量的多模態數據以及挖掘了數據間的關系。實驗結果驗證了本模型的優異效果,為用戶攜轉預測提供了有效的方案。在未來,將收集并分析更多月份數據,用以提高模型準確度。
作者單位:汪悅 高偉 程新洲 中國聯合網絡通信集團有限公司研究院
王思維 孟范玉 中國聯合網絡通信集團有限公司
參? 考? 文? 獻
[1] 胡文玉,李紅霞. 我國實施移動業務攜號轉網政策的研究[J].電信科學, 2010, 26(8A): 133-138.
[2] 盛昭瀚,柳炳祥. 客戶流失危機分析的決策樹方法[J].管理科學學報, 2005, 8(02): 20-25.
[3] 應維云.隨機森林方法及其在客戶流失預測中的應用研究[J].管理評論, 2012, 24(2): 140-145.
[4] Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[J]. Advances in neural information processing systems, 2017, 30.
[5] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
[6] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]. Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.
汪悅(1990.04-),女,漢族,河北,博士學位,工程師,研究方向:深度學習、圖神經網絡技術、通信行業用戶側的場景分析與建模;
高偉(1992.05-),男,漢族,河南確山,碩士研究生,中級工程師,研究方向:機器學習、深度學習、圖神經網絡等人工智能技術在運營商網絡以及業務中的應用研究;
程新洲(1978.08-),男,漢族,河南,教授級高級工程師,研究方向:大數據與網絡智能運營研究;
王思維(1982.03-),女,漢族,北京,本科畢業,研究方向:運營平臺能力建設及大數據模型開發應用;
孟范玉(1981.11-),男,漢族,山東泰安,大學本科,工程師,研究方向:數據挖掘、機器學習、數據分析等。