■ 中國移動通信集團河北有限公司 曹雷雷 李云
編者按:本文提出一種基于決策樹的4G網絡客戶感知預測模型,從而實現了4G網絡客戶滿意度指標體系的構建。

圖1 整體設計思路
對于電信運營商及移動互聯網來說,以客戶為中心,關注客戶體驗,提高客戶網絡感知,提升客戶滿意度是重點工作內容。傳統獲取客戶滿意度的方式包括市場調研、客戶服務,響應周期長、服務客戶范圍局限,傳統的優化方法,僅依靠網絡接通、掉線指標定位質差小區,此類的網絡優化確實有效果,但方法滯后,已很難滿足當前激烈的市場競爭需求和較高的業務時效性要求。因此,建立一套集網絡客戶感知預測、網絡問題定位、分析及應用的基于機器學習的4G網絡客戶感知分析及應用,能夠在用戶投訴之前發現網絡問題,成為4G時代提高4G網絡客戶感知的重要舉措。
基于以上思考,本文提出了一種 “4G網絡感知預測模型”預測網絡問題的方法,“4G網絡客戶感知預測模型”是一種基于C5.0決策樹的客戶網絡感知預測模型。該方法核心思想是根據4G投訴客戶的投訴特征,構建4G網絡指標體系,使用決策樹算法,借用樣本數據開展建模。如圖1所示,通過投訴客戶特征和無線網指標的采集和整理,構建客戶影響力指標體系;C5.0決策樹算法借用樣本和反樣本數據不斷機械訓練構建模型,輸出客戶網絡感知差小區,其后對感知差小區進行分析和優化處理;模型構建是一個長期不斷訓練樣本數據、提高準確率的過程,因此每月將客戶投訴數據進行不斷更新,以便完善模型。
1.決策樹
決 策 樹(Decision Tree),它是用樹的結構來構建分類模型,每個節點代表著一個屬性,根據這個屬性的劃分,進入這個節點的兒子節點,直至葉子節點,每個葉子節點都表征著一定的類別,從而達到分類的目的。其重要的能力是將看似無序、離散、雜亂的已知的實例(例如已知的客戶感知差小區),通過某種技術手段將它們轉化成可以預測未知實例的樹形模型。
常用的決策樹有C4.5,C5.0,CART等。在生成樹的過程中,需要選擇用那個特征進行剖分,選取的原則是,分開后能盡可能地提升純度,可以用信息增益,增益率,以及基尼系數等指標來衡量。如果是一棵樹的話,為了避免過擬合,還要進行剪枝,取消那些可能會導致驗證集誤差上升的節點。

圖2 客戶網絡感知指標體系

圖3 模型構建流程
在此處,使用了C5.0決策樹算法,在面對數據遺漏和輸入字段很多的問題時非常穩??;比一些其他類型的模型易于理解,模型退出的規則有非常直觀的解釋;同時也提供強大技術以提高分類的精度。針對預測未知的客戶網絡感知差的小區,使用C5.0進行分析,通過投訴用戶感知差的小區做樣本數據,提取全網小區做反樣本數據(樣本/反樣本指標是由投訴客戶特征整理與無線網指標的結合構建的指標體系)通過以“樹”的形式盡最大化進行指標分叉,構建決策樹模型,為了避免過擬合,可進行剪枝,取消那些可能會導致驗證集誤差上升的節點。
2.4G網絡感知預測模型構建
(1)構建客戶感知指標體系
構建客戶網絡感知指標體系,要使用聚類算法,對投訴客戶特征進行聚類分析(此處提取了兩個月投訴用戶的投訴特征進行聚類),并結合投訴小區的網絡指標,初步構建有覆蓋類、上網類、通話類三類20個網絡感知指標體系,如圖2所示。隨著模型算法的不斷完善以及投訴用戶樣本的不斷增加和更新,影響力指標體系也會不斷修改、增加和調整。
(2)樣本采集
從兩個月的投訴數據中選取了樣本數據和反樣本數據(投訴樣本1000、反 樣 本5000個),并將樣本數據進行指標化處理。為了使模型訓練更加準確,在模型訓練前對樣本數據進行預處理,包括數據清洗、數據降噪,減少“噪音”數據的污染。
(3)模型構建及訓練
使用SPSS模型構建工具進行模型構建,并進行不斷迭代完善。在SPSS工具中使用C5.0決策樹進行算法機械學習,將樣本及反樣本訓練集導入到工具中,然后通過數據探索、理解,使用決策樹不斷進行機械學習,最終構建模型,在SPSS環境下,使用了CHAID、C5.0決策樹算法進行算法比對,C5.0算法不需要花費很多的訓練次數進行模型構建,在訓練7次后,模型初步形成;用此算法形成模型比一些其他類型的模型易于理解,模型推出的規則有非常直觀的解釋。通過不斷更新樣本數據,模型不斷迭代完善,從而保障數據模型的準確性。如圖3模型構建過程所示。
3.模型檢驗
依據反向驗證方法,選取樣本小區10個,將網絡指標輸入到模型中進行模型準確性驗證。已訓練出的模型算法會根據樣本指標進行分類判斷,定位是否感知差小區。如表1所示,樣本數據展示出的結果,包括10個樣本指標體系和模型判斷的結果。例如樣本1,模型定性為感知差小區,其MR指標較弱,出現網絡覆蓋問題,故投訴用戶較多,造成網絡感知差。
根據模型驗證結果,可了解到驗證的準確率是60%,此結果只是針對于選擇的樣本,并不能代表全市以及全省。目前已經開展此項模型的全網應用。根據大數據模型機械學習的優點,隨著投訴樣本的不斷增加和更新,用戶感知因素不斷完善,指標評估體系進一步擴展,模型將不斷完善,準確率也不斷提高。

表1 模型驗證表

表2 4G投訴情況觀察觀測
在模型訓練好后,提取每個月最后一周網絡指標數據導入模型進行運算,輸出全網各個小區的網絡感知情況(是否是感知差小區),篩選出100個感知差小區不采取整治措施留作觀察測試,剩余其他感知差小區進行整治,即進行網絡規劃和優化,優化措施等。
從三個周期的指標來看,100個觀察測試小區中均有60多產生了投訴見表2,說明該模型在4G投訴預處理過程中的有效性,即通過模型輸出感知差小區并采取優化策略可以在投訴發生前避免投訴的發生。另外經過實際分析發現100個感知差的小區中有80多個小區需要進行優化處理見表2。
通過觀察采取整治措施小區的投訴情況來看,發現投訴小區量有效遞減,且投訴值明顯低于優化前(模型使用前)的投訴量。說明該模型在4G投訴預處理提高客戶感知中的有效性。
另外,發現模型實施后4G質差小區量和4G高負荷小區量都明顯下降,說明該模型在網絡規劃與網絡優化建設中能起到很有效的作用。