李瓊陽,何月華
(許昌學院 數理學院,河南 許昌 461000)
智能手機的廣泛應用,使得移動、聯通和電信在最近的10年里快速發展.但隨著攜號轉網政策的施行,運營商的客戶量增速遲緩,發卡量穩步不前.運營商之間的競爭日益激烈,互相挖取競爭對手客戶的事情時常發生,客戶流失已成為電信行業里亟待解決的主要問題,高質量客戶的轉網往往會給企業帶來非常大的損失.從成本角度來看,爭取一個新客戶的運營成本遠比維護高質量老客戶的成本高.因此,建立一套具有實際意義的預警監察系統,幫助企業在客戶流失前做出預警防范,具有極其重要的作用.
客戶流失預警歸根結底是分類問題,把現存客戶分為兩類:即將流失和非流失,本質是一個二分類問題.對于二分類問題有很多種數據挖掘技術可以利用,如邏輯回歸、神經網絡、決策樹等.國內外許多學者都曾利用這些方法進行相應的研究,楊英英[1]建立了基于組合決策樹模型的手機客戶流失預警系統;林濤[2]利用卡方檢驗和相關系數檢驗等方式選擇特征,基于邏輯回歸構建寬帶用戶流失預警模型;彭佳雯[3]建立了基于SOM神經網絡的客戶價值評估及流失分析體系;楊榮等[4]建立了基于基尼系數的決策樹模型,對存量客戶進行流失預警;崔亞奇[5]基于C5.0算法進行了航空客戶流失分析;戴鳳英[6]先使用Adaboost算法計算變量特征重要度,選擇重要建模特征,后分別使用Logistic回歸、Adaboost算法和XGBoost算法建立客戶流失預測模型;李愛民[7]使用K-means聚類分析和Logistic回歸建立客戶流失預警模型,深刻研究客戶流失原因,分析各種因素對客戶流失的影響程度,從而制定有效的客戶挽留策略.在算法選擇上,用得最多的是邏輯回歸和決策樹,主要是因為模型可解釋強,算法簡便.本文主要基于客戶消費數據,利用統計方法篩選出重要的特征,結合決策樹探索構建運營商客戶流失預警模型.
為構建可靠的客戶流失預警模型,需要選擇對目標變量影響力較強的解釋變量,即選擇建模特征.本文采用信息值作為篩選建模變量的依據,用可解釋性強、計算方法簡單、可輸出分類標簽的決策樹模型作為建模方法.
信息值(informationofvalue)簡記為IV,常用于度量建模特征對目標變量的影響強度,是建模過程中選擇建模特征的一個非常重要的指標,它與信息理論中的熵比較類似,主要用于二分類問題,下面介紹信息值的計算.為表述方便,可將二分類問題中的目標變量用0、1表示,其中流失客戶表示為1,現存客戶表示為0.證據權重記為W,表示建模特征取某一個具體值時對研究問題中的流失比例造成的影響,譬如當建模特征取值為j時對流失比例造成的影響記為Wj,其計算公式為
(1)
這里BT表示總樣本中的流失客戶樣本數,GT表示總樣本中的現存客戶樣本數,Bj表示總樣本中該建模特征取值為j時的流失客戶樣本數,Gj指表示總樣本中建模特征取值為j時的現存客戶樣本數.
信息值主要用來衡量一個建模特征中包含的信息量,假設該建模特征有q個取值,則其對應的信息值計算方法如下:
(2)
從上述公式可知,信息值其實是建模特征每個取值所對應的證據權重的加權和式,信息值的大小決定了建模特征對目標變量影響力的強弱.
根據IV信息值判定一個變量對目標變量影響程度的規則如下:
①若IV<0.02,幾乎無影響,不予考慮;
②若0.02≤IV<0.1,說明該變量對目標變量有微弱的影響力;
③若0.1≤IV<0.3,說明該變量對目標變量影響力一般;
④若IV≥0.3,說明該變量對目標變量有比較強的影響力.
決策樹是一種常見的機器學習分類算法,原理簡單,對連續型變量有很好的處理方法,對缺失數據也不敏感.其具備獨特的樹形結構,因而能夠高效處理高維、大規模的樣本數據.決策樹建模的核心是如何在樹形結構劃分時選擇最優的結點特征.通常,隨著樹形結構的不斷劃分,決策樹結點中的樣本應盡可能是同類的,即決策樹結點的“純度”應不斷增大.
決策樹建模中常用“信息熵”來衡量樣本集合的純度.假設目前樣本集合D中第k類樣本占比為pk(k=1,2,…,m),則D的信息熵記為E,計算公式為
(3)
E(D)的值愈小,則表示樣本集合D愈“純”.
假設某特征a是離散的,有n個可能值{a1,a2,…,an},若用特征a來對集合D進一步劃分,則會產生n個分支結點,而且第i個結點囊括了D中所有在特征a上取值為ai的樣本,記為Di.可利用(3)式算出Di的信息熵.一般說來n個分支結點所含有的樣本數不相同,故賦給每個分支結點一定的權重:|Di|/|D|,其中,|D|是指樣本集合中的樣本數,|Di|指樣本集合中D中所有在特征a上取值為ai的樣本數.由此可算出利用特征a對樣本集合D進一步劃分得到的“信息增益”,記為G,計算公式為
(4)
通常,信息增益越大,表示利用特征a對樣本集合D進行劃分,使得各分支結點的純度越高.因此“信息增益”在決策樹劃分屬性的選擇上有較為廣泛的應用.
數據獲?。航祿悄车剡\營商提供的客戶消費行為數據,共有100 000個樣本,樣本數據集中有當月消費額、套餐金額、每月通話時長、入網時長、流量使用、賬戶余額、是否為流失客戶等共有82個變量.其中有29 060個樣本為已流失的樣本,標記為“1”,有70 940個樣本為現存客戶,標記為“0”,正負樣本比例約為1∶ 2.4.
數據預處理:運營商提供的數據并不能夠直接使用,其中可能存在著缺失值、異常值和重復樣本等問題,數據質量不高,為了保證建模型效率,往往需要對數據進行預處理.
缺失值的處理方法比較多,對于樣本來說,一個樣本中如果有20%以上的變量值是缺失的,這個樣本可以直接刪掉.經過計算,建模數據中沒有樣本的變量缺失值比例達到20%.
對于變量來說,當此變量只有一種取值時,表明此變量包含的信息量太少,無研究的必要,可以直接刪掉.當變量的缺失值很少時,可以將缺失值直接賦值為0或者是填補一個合適的值.根據實際情況,可以用同一個常數、均值、眾數、中位數或用某種預測的方法預測的一個值[8].經過初步探索,共剔除了3個無研究價值的變量,剩余的79個變量中有50個變量存在缺失值,其中2個變量缺失比例超過了70%,故而直接刪除了這兩個變量,30個有缺失值的變量缺失比例不超過5%,18個有缺失值的變量缺失比例不超過10%,缺失比例不高,可將缺失值置為0.是否為流失客戶這個目標變量沒有缺失值.
在處理異常值時要根據情況具體分析,如本月消費金額,顯然該變量是非負的.如果某個樣本在該變量上的值是負數,則一定是有問題的,可考慮用0來代替.本文在處理異常值時,用此變量的均值±3倍標準差來代替.
經過樣本數據主鍵的比較,無重復樣本.
在實證分析中,使用R、Excel編寫代碼和計算.
首先計算每個解釋變量的信息值,選擇信息值大于0.4的變量進入模型.為了保證建模效果,最大限度避免變量之間可能存在的多重共線性,所以繼續計算篩選出來的變量之間的相關系數,對于相關系數較強的變量,不宜全部進入模型,可根據變量獲取的難度、變量觀測數據的質量、對目標變量的影響力等予以刪除.
最終選出9個對目標變量(是否為流失用戶)有重要影響的解釋變量,如表1所示

表1 建模變量的影響力
以是否為流失客戶為被解釋變量,以2.2中篩選出來的9個變量為解釋變量,將100 000個樣本按照7∶ 3的比例隨機分成訓練集和測試集,訓練集和測試集中正負樣本比例大致為1∶ 2.4.訓練集中有70 000個樣本,其中有49 628個現存客戶樣本,20 372個流失客戶樣本;測試集中有30 000個樣本,其中有21 312個現存客戶樣本,8 688個流失客戶樣本.分別構建決策樹和邏輯回歸模型,將二者在訓練集和測試集上的查準率、查全率進行比較,結果如下:

表2 建模效果對比
表中(0,0)表示為正確識別現存用戶的樣本數,記為a;(0,1)表示將現存用戶誤判為流失用戶的樣本數,記為b;(1,0)表示將流失用戶誤判為現存用戶的樣本數,記為c;(1,1)表示正確識別流失的用戶樣本數,記為d;查全率記為r,查準率記為p,計算公式如下:
(5)
(6)
結果表明,經由信息值篩選出來的變量是合理的,是對目標變量影響力較強的變量,不論是邏輯回歸算法還是決策樹算法,都達到了80%以上的準確率.但是,決策樹算法的建模結果無論是查準率還是查全率,都要優于邏輯回歸算法,而且決策樹模型在測試集的建模結果依然穩健,表明首先基于信息值篩選出來重要變量,繼而采用決策樹算法構建客戶流失預警模型是具有一定的實用價值的.
攜號轉網政策的施行,使得三家運營商面臨著客戶流失的困境,精準快速地識別出即將轉網的用戶,對于企業的生存和發展至關重要.決策樹算法是目前在建立客戶流失預警體系中應用最廣泛的分類算法之一,本文基于信息值構建的分類器在識別流失客戶上效果顯著,具有較高的實用價值.可基于上述模型,對現存客戶進行預測,將現存客戶分為即將流失和不會流失兩類,對于即將流失的用戶精準施策,不僅能夠保障運營商的用戶量,還可以為企業的長遠發展提供強有力的支撐.