徐子偉,王傳啟,王 鵬,黃 海
(中國科學技術(shù)大學 信息科學技術(shù)學院,安徽 合肥 230027)
?
基于分步特征提取和組合分類器的電信客戶流失預測模型
徐子偉,王傳啟,王鵬,黃海
(中國科學技術(shù)大學 信息科學技術(shù)學院,安徽 合肥 230027)
摘要:針對電信客戶流失數(shù)據(jù)集存在的數(shù)據(jù)維度過高及單一分類器預測效果較弱的問題,結(jié)合過濾式和封裝式特征選擇方法的優(yōu)點及組合分類器的較高預測能力,提出了一種基于Fisher比率與預測風險準則的分步特征選擇方法結(jié)合組合分類器的電信客戶流失預測模型。首先,基于Fisher比率從原始特征集合中提取具有較高判別能力的特征;其次,采用預測風險準則進一步選取對分類模型預測效果影響較大的特征;最后,構(gòu)建基于平均概率輸出和加權(quán)概率輸出的組合分類器,以進一步提高客戶流失預測效果。實驗結(jié)果表明,相對于單步特征提取和單分類器模型,該方法能夠提高對客戶流失預測的效果。
關(guān)鍵詞:電信客戶流失預測;分步特征提取;組合分類器
引用格式:徐子偉,王傳啟,王鵬,等. 基于分步特征提取和組合分類器的電信客戶流失預測模型[J].微型機與應(yīng)用,2016,35(13):51-54.
0引言
隨著科學技術(shù)的快速革新,國內(nèi)電信市場日趨飽和,競爭日益加劇。吸引新的客戶和挽留已有客戶成為電信行業(yè)客戶關(guān)系管理的兩個重要主題。據(jù)統(tǒng)計,吸引一個新客戶的成本是挽留一個已有客戶的5~6倍[1]。進行潛在流失客戶的預測分析并制定有針對性的挽留策略,能夠減少企業(yè)客戶流失率和利潤損失。因此,構(gòu)建一個高效、準確的電信客戶流失預測模型具有重大意義。
針對電信客戶流失預測問題,國內(nèi)外學者進行了廣泛的研究,取得了豐富的研究成果。本文根據(jù)流失預測模型的構(gòu)建策略,將這些文獻粗略地分為基于單分類器和組合分類器的流失預測模型。例如,國內(nèi)外學者分別構(gòu)建了基于支持向量機(Support Vector Machine, SVM)[2]、決策樹(Decision Tree, DT)[3-4]、邏輯斯蒂回歸(Logistic Regression, LR)[3-4]、神經(jīng)網(wǎng)絡(luò)[5]、隨機森林(Random Forest, RF)[6]、提升樹[7]和樸素貝葉斯(Naive Bayes, NB)[8]分類算法的流失預測模型。相對于單分類器,組合分類器具有更好的預測性能。參考文獻[9]針對移動和無線服務(wù)提供商中的流失預測問題,提出了一個基于RF、LR和DT的組合分類器。參考文獻[10]提出了一個基于RF、旋轉(zhuǎn)森林(Rotation Forest)和K-近鄰的組合分類器進行潛在客戶的流失預測分析,驗證了組合分類器比單一分類器具有較好的預測性能。
然而,針對客戶流失預測分析問題,很多學者重點關(guān)注于分類器的選擇與調(diào)整,往往忽視了流失數(shù)據(jù)集中的維度過高問題。特征選擇方法是一個解決高維度問題的有效方法,它能夠從原始特征集合中選取重要特征,減少無用和噪聲特征,提高分類器的預測準確性,減少計算資源的開銷。在客戶流失預測領(lǐng)域,基于專家經(jīng)驗知識和基本統(tǒng)計信息的特征選擇是兩種典型的特征選擇方法。參考文獻[6]采用最大相關(guān)和最小冗余算法選取與目標列具有較強相關(guān)性的特征集合,同時減少特征之間的冗余性。參考文獻[11]提出一個基于專家經(jīng)驗知識和馬爾科夫覆蓋發(fā)現(xiàn)技術(shù)(Markov Blanket Discovery technique, MBD)的兩步特征提取方法。
基于專家經(jīng)驗知識的特征選擇方法往往具有主觀性和片面性的缺點。基于統(tǒng)計信息的特征選擇方法,即過濾式特征選擇方法,采用特征列與目標列之間的統(tǒng)計信息構(gòu)造相應(yīng)指標以選取與目標列具有較強相關(guān)性的特征。該方法復雜度低,通用性強,可以快速去除不相關(guān)或相關(guān)度低的特征。然而,該方法的特征評估指標獨立于分類算法,忽視了不同特征對分類器預測效果具有不同影響的問題。封裝式特征選擇方法根據(jù)分類器的評估指標對特征進行排序,如準確率、召回率或AUC等,能夠詳細評估每個特征對分類器預測效果的影響程度。
針對電信客戶流失領(lǐng)域特征選擇方法存在的上述問題和單分類器預測能力較弱的問題,本文結(jié)合過濾式和封裝式特征選擇方法的優(yōu)點以及組合分類器較強的預測性能,提出了一種基于Fisher比率和預測風險(Prediction Risk, PR)準則的兩步特征提取方法(本文命名為FP-PR算法),并結(jié)合組合分類器的電信客戶流失預測模型。該模型首先采用Fisher比率從原始特征集合中選取具有較強判別能力的特征;在此基礎(chǔ)上,結(jié)合預測風險準則,進一步提取對分類器預測效果影響較大的特征。然后,結(jié)合Spark大數(shù)據(jù)處理框架,采用NB、線性支持向量機(Linear Support Vector Machine, LSVM)、LR、DT和RF構(gòu)建單分類器預測模型。最后,按照“優(yōu)勝劣汰”原則,選取預測性能較好的3個分類器構(gòu)建組合分類器,以提高流失預測準確率。
1前述方法描述
參考數(shù)據(jù)挖掘的一般流程,本文提出的電信客戶流失預測模型的構(gòu)建過程如圖1所示。

圖1 客戶流失預測模型構(gòu)建流程
該過程包括基本數(shù)據(jù)預處理、兩步特征提取和組合分類器構(gòu)建3個關(guān)鍵環(huán)節(jié)。其中,基本數(shù)據(jù)預處理包括缺失值填充、標準化、離散化和類別不均衡問題處理。
1.1基本數(shù)據(jù)預處理
本文采用KDD競賽Orange電信數(shù)據(jù)集進行實驗分析與方法驗證。該份數(shù)據(jù)集數(shù)據(jù)質(zhì)量非常差,需要進行大量的數(shù)據(jù)預處理工作。數(shù)據(jù)預處理的目的是對原始數(shù)據(jù)集進行轉(zhuǎn)換處理,以滿足數(shù)據(jù)挖掘工具與算法的要求。本實驗基本數(shù)據(jù)預處理包含缺失值填充、標準化、離散化和均衡化處理。此外,傳統(tǒng)的分類算法包含類別樣本近似均衡的假設(shè)條件。然而,電信客戶流失數(shù)據(jù)集是一個典型的不均衡數(shù)據(jù)集,正負樣本比例為1 ∶12.62。傳統(tǒng)的數(shù)據(jù)不均衡問題處理方法主要有采樣和調(diào)整分類算法參數(shù)估計方法。本實驗為了避免隨機抽樣過程中隨機因素導致的結(jié)果不穩(wěn)定問題,采用過采樣策略構(gòu)建均衡樣本數(shù)據(jù)集。
1.2兩步特征提取方法
本文針對流失數(shù)據(jù)集中的維度較高以及該領(lǐng)域特征選擇方法存在的上述問題,結(jié)合過濾式和嵌入式特征選擇方法的優(yōu)點,提出了基于Fisher比率和預測風險準則的兩步特征提取方法,算法描述如下:
算法1:FR-PR算法
輸入:訓練數(shù)據(jù)集T={(x,y)},F(xiàn)isher比率所選特征數(shù)為f1,預測風險所選特征數(shù)為f2,分類器C
輸出:優(yōu)化特征子集F_Optimal
(1)開始;
(2)根據(jù)Fisher比率公式計算特征i對應(yīng)的Fisher比率Fi;
(3)根據(jù)Fi值降序排列所有特征,并選取前f1個特征作為一步特征提取的優(yōu)化特征子集;
(4)根據(jù)步驟(3)選擇的f1個特征,重新構(gòu)建數(shù)據(jù)集T-temp;
(5)基于T-temp數(shù)據(jù)集和所有f1個特征,計算分類器C對應(yīng)的AUC指標;
(6)將特征j對應(yīng)的所有樣本以特征j的樣本均值替代,根據(jù)預測風險公式計算AUC(j)和R(j);
(7)根據(jù)R(j)值重新降序排列Fisher比率得到的f1個特征,并選擇前f2個特征作為優(yōu)化特征子集F_Optimal
(8)結(jié)束。
基于Fisher比率的特征選擇是一種過濾式特征選擇方法。結(jié)合每個類別對應(yīng)樣本的均值和方差,F(xiàn)isher比例能夠篩選出具有較強判別能力的特征。Fisher比率的公式如下:
(1)
其中,ui、σi是每個類別對應(yīng)特征i樣本的均值與方差。Fisher′s Ratio(i)代表特征i對應(yīng)的Fisher比率,該值越大,說明特征i對目標列的判別能力越強。
預測風險準則是一種嵌入式特征選擇方法,該方法通過將特征i的所有樣本以該特征的均值代替,結(jié)合分類模型評估指標(本文取AUC)來判別特征i對分類器的影響程度。特征i對應(yīng)的預測風險如下:
Ri=AUC-AUC(i)
(2)
其中,AUC指Fisher比率所選特征對應(yīng)分類模型的評估指標,AUC(i)指將特征i所有樣本以均值替代后的特征集合對應(yīng)的分類模型評估指標。Ri為兩者之差,代表特征i的預測風險。Ri大于0的程度越大,說明特征i對分類模型預測效果的影響越大。
1.3組合分類器構(gòu)建
本實驗結(jié)合大數(shù)據(jù)處理框架Spark,分別構(gòu)建了基于NB、LSVM、LR、DT和RF分類算法的流失預測模型,并采用AUC評估指標來判別分類器預測性能的好壞。在此基礎(chǔ)上,從5種分類模型中選取3個預測性能較好的分類器構(gòu)建組合分類器。本文的組合分類器構(gòu)建方法如下:
算法2:組合分類器構(gòu)建方法
輸入:分類器Ci,i=1,2,…,n
輸出:組合分類器C及其預測概率輸出
(1)開始;
(2)根據(jù)兩步特征提取的優(yōu)化特征子集訓練n個分類器C1,C2,…,Cn,計算相應(yīng)的分類評估指標AUC(i);
(3)根據(jù)各個分類器對應(yīng)的AUC值,選取前m個預測性能較好的分類器Cj,j=1,2,…,m,對應(yīng)預測概率輸出為pj;
(4)依據(jù)如下策略構(gòu)建組合分類器C,并計算組合分類器對應(yīng)的預測概率輸出p:
①組合分類器C的概率輸出p取值為m個分類器的平均概率輸出:

②組合分類器C的概率輸出p取值為m個分類器的加權(quán)平均概率輸出:
p=∑wj·pj,其中wj=AUC(j)/∑AUC(k),k=1,2,…,m
(5)結(jié)束。
組合分類器構(gòu)建的兩種主要方法是多數(shù)投票和組合概率輸出。本文采用組合概率輸出的方式構(gòu)建組合分類器模型,并結(jié)合平均概率輸出和加權(quán)平均概率輸出的方式確定組合分類器的概率輸出。平均概率輸出組合分類器模型對各個分類器模型的概率輸出進行平均化處理,而加權(quán)平均概率輸出組合分類器模型對各個分類器模型的概率輸出進行加權(quán)求和。其中,加權(quán)概率輸出模型的權(quán)重由各個分類器的AUC指標進行單位化處理求得。
2實驗結(jié)果及其分析
2.1數(shù)據(jù)集描述
Orange數(shù)據(jù)集包含230個特征(190個數(shù)值特征和40個類別特征)和50 000個樣本(3 672個正類樣本和4 6328個負類樣本)。本實驗將該數(shù)據(jù)集以7 ∶3的比例分割為訓練集和測試集。訓練集由前2 570個正類樣本和前32 430個負類樣本構(gòu)成,測試集由其余樣本構(gòu)成。
2.2實驗結(jié)果與分析
如前所述,本文客戶流失預測模型構(gòu)建過程包括基本數(shù)據(jù)預處理、兩步特征提取(以O(shè)ne和Two表示)和組合分類器構(gòu)建3個主要步驟。其中,基本數(shù)據(jù)預處理包含空值填充、離散化、標準化和均衡化(以Fill、Disc、Stan和Bal表示)。組合分類器的構(gòu)建采用平均概率輸出和加權(quán)概率輸出兩種策略(以Ens1和Ens2表示)。本文對每一步數(shù)據(jù)處理產(chǎn)生的實驗結(jié)果進行展示和分析,如表1所示。

表1 基本數(shù)據(jù)預處理實驗結(jié)果
如表1所示,離散化和標準化處理能夠明顯提升NB和LSVM的預測效果。然而,不合理的離散化方式降低了LR、DT和RF的預測效果。此外,均衡化數(shù)據(jù)處理能夠提高各分類器的預測效果,這是由于傳統(tǒng)的分類算法往往包含類別樣本近似均衡的假設(shè)條件。分步特征提取對預測結(jié)果的影響如表2所示。

表2 一步和兩步特征提取實驗結(jié)果
如表2所示,特征提取能夠提高分類器的預測效果。相比一步特征提取,本文提出的兩步特征提取方法能夠進一步提高分類器的預測性能。然而,由于基于基尼指數(shù)的特征選擇方法所選的特征類似于兩步特征選擇方法提取的特征,決策樹的預測效果變化不大,這也間接說明了決策樹算法較強的魯棒性。由表2得知,LR、DT和RF具有較強的預測性能,本文選取這三種分類算法構(gòu)建組合分類器。其中,LR采用均值填充、均衡化處理和兩步特征提取到的60個特征進行模型的構(gòu)建;DT采用離散化、均衡化處理和兩步特征提取到的90個特征進行模型的訓練;而RF采用均值填充、均衡化處理和兩步特征提取的70個特征進行模型的訓練。如前所述,本文采用平均概率輸出和加權(quán)概率輸出的方式構(gòu)建組合分類器。實驗結(jié)果如表3所示。
如表3所示,基于組合分類器的客戶流失預測模型預測效果優(yōu)于單個分類器。基于加權(quán)平均概率輸出的組合分類器預測效果優(yōu)于基于平均概率輸出的組合分類器,因為加權(quán)概率輸出的策略提升了預測效果較好的單一分類器在組合分類器中的權(quán)重。本文提出的基于兩步特征提取和加權(quán)組合分類器的電信客戶流失預測模型取得了最優(yōu)預測效果0.7201AUC。

表3 3個最優(yōu)分類器和
3結(jié)論
本文針對電信客戶流失數(shù)據(jù)集中的維度較高和單一分類器預測效果較弱的問題,提出了基于兩步特征提取和組合分類器的客戶流失預測模型構(gòu)建方法。結(jié)合過濾式特征選擇和封裝式特征選擇方法的優(yōu)點,構(gòu)建了基于Fisher比例和預測風險的兩步特征提取方法。該方法提取的優(yōu)化特征子集具有較強的判別能力,同時對分類器的預測效果影響較大。此外,為了進一步提高分類器的預測效果,本文基于“優(yōu)勝劣汰”的思想構(gòu)建了組合分類器。實驗結(jié)果表明,本文提出的兩步特征提取和組合分類器的電信客戶流失預測模型取得了較好的預測效果。然而,本文構(gòu)建的兩步特征選擇方法僅采用了一種過濾式特征選擇方法和一種嵌入式特征選擇方法。在下一步研究中,將嘗試更多的特征提取方法以尋求最優(yōu)方法組合,同時探索更優(yōu)的類別不均衡問題處理方法,以優(yōu)化客戶流失預測模型預測效果。
參考文獻
[1] KOTLER P. Marketing management: analysis, planning, implementation, and control[J]. The Prentice-Hall Series in Marketing, 1988, 67(11):297-320.
[2] COUSSEMENT K, VAN DEN POEL D. Churn prediction in subscription services: an application of support vector machines while comparing two parameter-selection techniques[J]. Expert Systems with Applications, 2008, 34(1): 313-327.
[3] HUANG B Q, KECHADI M-T, BUCKLEY B. Customer churn prediction for broadband Internet services[C]. Data Warehousing and Knowledge Discovery, 11th International Conference, DaWaK 2009, Linz, Austria, 2009: 229-243.
[4] NIE G, ROWE W, ZHANG L, et al. Credit card churn forecasting by logistic regression and decision tree[J]. Expert Systems with Applications, 2011, 38(12): 15273-15285.
[5] TSAUI C F, LU Y H. Customer churn prediction by hybrid neural networks[J]. Expert Systems with Applications, 2009, 36(10): 12547-12553.
[6] IDRIS A, RIZWAN M, KHAN A. Churn prediction in telecom using Random Forest and PSO based data balancing in combination with various feature selection strategies[J]. Computers & Electrical Engineering, 2012, 38(6): 1808-1819.
[7] IDRIS A, KHAN A, LEE Y S. Genetic programming and adaboosting based churn prediction for telecom[C]. Systems Man and Cybernetics (SMC), 2012 IEEE International Conference on. IEEE, 2012: 1328-1332.
[8] HADDEN J, TIWARI A, ROY R, et al. Computer assisted customer churn management: State-of-the-art and future trends[J]. Computers & Operations Research, 2007, 34(10): 2902-2917.
[9] YABAS U, CANKAYA H C. Churn prediction in subscriber management for mobile and wireless communications servi-ces[C]. Globecom Workshops (GC Wkshps), 2013 IEEE. IEEE, 2013: 991-995.
[10] IDRIS A, KHAN A. Ensemble based efficient churn prediction model for telecom[C]. Frontiers of Information Technology (FIT), 2014 12th International Conference on. IEEE, 2014: 238-244.
[11] HONG, X, ZHANG Z G, ZHANG Y S. Churn prediction in telecom using a hybrid two-phase feature selection me-thod[C].Intelligent Information Technology Application, 2009. IITA 2009. Third International Symposium on. IEEE, 2009, 3: 576-579.
中圖分類號:TP181
文獻標識碼:A
DOI:10.19358/j.issn.1674- 7720.2016.13.017
(收稿日期:2016-04-01)
作者簡介:
徐子偉(1989-),男,碩士,主要研究方向:數(shù)據(jù)挖掘。
王傳啟(1993-),男,碩士,主要研究方向:數(shù)據(jù)挖掘。
王鵬(1988-),男,博士,博士后,主要研究方向:移動機器人導航與定位,數(shù)據(jù)挖掘。
A telecom customer churn prediction model based on two-stage feature selection method and ensemble classifier
Xu Ziwei,Wang Chuanqi,Wang Peng,Huang Hai
( School of Information Science and Technology, University of Science and Technology of China, Hefei 230027, China )
Abstract:To solve the high dimensionality problem in telecom dataset and the weak forecasting ability of single classifiers, this paper proposes a telecom churn prediction model based on two-stage feature selection method and ensemble classifier, taking advantages of filter and wrapper selection method and ensemble classifiers with better forecasting performance. The two-stage feature selection method is based on Fisher′s ratio and prediction risk. Firstly, features with high discriminative ability are selected by Fisher′s ratio. Then we use prediction risk to further select features that have great impacts on classifiers. Lastly, two ensemble classifiers based on the average probability and weighted average probability are constructed to further improve the forecasting performance. Experimental results verify that the proposed method can improve the forecasting performance compared to the model based on one-step feature selection method or single classifier.
Key words:telecom churn prediction; two-stage feature selection; ensemble classifier