程昊 樊重俊



摘要:文章以C5.0、Neural Net和Logistic三種算法作為構建預測混合模型的基礎算法。在實證研究過程中,分別采用品牌、地區、網齡和賬單作為客戶細分變量,構建了不同的客戶流失預測混合模型,用命中率和接受者操作特性(ROC)曲線對預測結果比較評估,得到以地區為客戶細分變量的混合模型預測效果最佳,以賬單為客戶細分變量的混合模型預測效果,其次以網齡和品牌為客戶細分變量的混合模型預測效果較差的結論。省級電信公司在構建流失預測系統過程中,以客戶賬單(或客戶消費層次)作為細分變量,對各地區客戶單獨構建流失預測模型;同時,要加強品牌管理,提高各品牌對客戶的區隔效果。
關鍵詞:決策樹;神經網絡;客戶流失
客戶是指與企業建立長期穩定的關系并愿意為企業提供的產品和服務承擔合適價格的購買者。客戶關系管理(customer relationship management)CRM是近年來比較流行的新興管理概念,最早由著名IT項目系統論證與決策權威機構Gartner Group提出,是隨著互聯網與電子商務流入中國的管理理念之一。從科學管理的角度來觀察,客戶關系管理是由市場營銷理論演化而來的,從解決問題的角度來觀察,客戶關系管理是利用高科技信息技術將現代管理理念和營銷手段結合在一起應用到市場中,幫助企業解決難題,它凝聚了市場營銷、銷售管理、客戶關懷、客戶服務等要素在里面。
以品牌為細分變量將訓練集X1分為全球通數據子集、神州行數據子集和動感地帶數據子集,分別占比為7.2%、80.7%和12.1%。在對每個數據子集建模前再將數據分區為訓練集和測試集兩部分,分別占60.0%和40.0%;在訓練模型前進行特征選擇。然后,分別對每個數據子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對該數據子集的建模模型。各品牌數據子集分別采用三種模型的預測結果的AUC如表1所示。
由表1中測試結果可知,對全球通數據子集和神州行數據子集來說,都是Neural Net的預測效果最好;對動感地帶數據子集說C5.0的預測效果最好。因此,得到混合預測模型如圖1所示。
以地區為細分變量將訓練集X1分為地區A數據子集、地區B數據子集和地區C數據子集,分別占比為52.5%、20.3%和27.2%。在對每個數據子集建模前再將數據分區為訓練集和測試集兩部分,分別占60.0%和40.0%;在訓練模型前進行特征選擇。然后,分別對每個數據子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對該數據子集的建模模型。各地區數據子集分別采用三種模型的預測結果的AUC如表2所示。
由表2中測試結果可知,對地區A、地區B和地區C數據子集來說,都是Neural Net的預測效果最好。因此,得到混合預測模型如圖2所示。
以網齡為細分變量將訓練集X1分低網齡數據子集、中網齡數據子集和高網齡數據子集,分別占比為22.7%、44.9%和32.4%。在對每個數據子集建模前再將數據分區為訓練集和測試集兩部分,分別占60.0%和40.0%;在訓練模型前進行特征選擇。然后,分別對每個數據子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對該數據子集的建模模型。各網齡層次數據子集分別采用三種模型的預測結果的AUC如表3所示。
由表3中測試結果可知,對低網齡數據子集和高網齡數據子集來說,都是Neural Net的預測效果最好;對中網齡數據子集來說Logistic的預測效果最好。因此,得到混合預測模型如圖3所示。
以三個月的月均賬單額為細分變量將訓練集X1分為低消費數據子集、中消費數據子集和高消費數據子集,分別占比為54.4%、28.9%和16.7%。在對每個數據子集建模前再將數據分區為訓練集和測試集兩部分,分別占60.0%和40.0%;在訓練模型前進行特征選擇。然后,分別對每個數據子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對該數據子集的建模模型。各消費層次數據子集分別采用三種模型的預測結果的AUC如表4所示。
由表4中測試結果可知,對低消費數據子集來說,C5.0的預測效果最好;對中消費數據子集說Logistic的預測效果最好;對于高消費數據子集來說,Neural Net的預測效果最好。因此,得到混合預測模型如圖4所示。
(一)命中率比較
各種細分標準的混合模型對測試集X2預測的命中率結果如表5所示。
比較表5中的數據可知,以地區為細分變量構建混合模型對測試集X2預測的命中率最高,達到86.1%;以賬單額為細分變量構建混合模型對數據集X2預測的命中率次之,為85.9%;以品牌和網齡為細分變量構建混合模型對測試集X2預測的命中率較低,分別為81.2%和76.2%。
(二)ROC曲線比較
用SPSS15.0對各混合模型在對測試集X2上的預測結果構建ROC曲線,如圖5所示。
由各混合模型ROC曲線計算曲線下方的面積(AUC)如表6所示。
比較表6中的數據可知,以地區和賬單為細分標準構建的混合模型,對測試集X2的預測效果較好,AUC分別為0.888和0.855;以網齡和品牌為細分標準構建混合模型,對測試集X2的預測效果相對較差,其AUC分別為0.845和0.828。
本文分別以品牌、地區、網齡和賬單為細分變量細分客戶,以SPSS Clementine12.0中C5.0、Logistic、Neural Net三種分類算法模型作為基礎模型,構建客戶流失預測混合模型,分別采用命中率和ROC曲線對各模型預測結果進行評估,得到一致的結論:當以地區為標準細分時的預測效果最好,以賬單為細分標準的預測效果其次,以網齡和品牌為細分標準的預測效果相對較差。因此,在今后的流失預測實踐中,建議省級電信公司以客戶消費賬單作為細分變量,對各地區客戶單獨構建流失預測混合模型;同時,要加強品牌管理,提高各品牌對客戶的區隔效果。
參考文獻:
[1]武小軍,孟蘇芳.基于客戶細分和AdaBoost的電子商務客戶流失預測研究[J].工業工程,2017(02).
[2]葉志龍,黃章樹.線上會員客戶流失的建模與預測研究[J].管理現代化,2016(03).
[3]邵帥鋒.基于BP神經網絡對保險公司客戶流失進行分析和預測研究[D].蘭州大學,2016.
[4]高潔.基于灰色模型和神經網絡的客戶流失量預測[J].內蒙古師范大學學報(自然科學漢文版),2015(06).
[5]單其帥.基于粗糙集-BP神經網絡的電信企業客戶失風險預警研究[D].河北工程大學,2014.
(作者單位:上海理工大學)