摘 要:目前大多數客戶流失預測研究常采用單一預測模型。因此,本文將動態分類器組合與自組織數據挖掘理論(SODM)相結合,提出了基于SODM的動態分類器集成方法。以國內、國外電信公司客戶流失預測數據為例,并與單一的預測模型以及已有的動態分類器組合方法進行了詳細對比,發現該方法能在很大程度上提高客戶流失預測的準確率、命中率以及提升系數,是進行客戶流失預測的有效工具。
關鍵詞:客戶流失預測;動態分類器集成;自組織數據挖掘;多分類器組合;電信行業
中圖分類號:TP18;F270 文獻標識碼:A 文章編號:1003-5192(2010)05-0057-06
Model of Customer Churn Prediction Based on Dynamic Classifier Ensemble
XIAO Jin, HE Chang-zheng
(Business School, Sichuan University, Chengdu 610064, China)
Abstract:At present, single model is adopted usually for customer churn prediction. Thereby, the dynamic classifier combination is combined with self-organize data mining(SODM), and a dynamic classifier ensemble method based on SODM is presented. This method was compared with some single forecasting models and the existing dynamic classifier combination method regarding customer churn prediction for home and foreign telecommunication carriers. The results show that this method can improve the accuracy rate, hit rate and lift coefficient to a large extent, and is an effective tool for customer churn prediction.
Key words:customer churn prediction; dynamic classifier ensemble; self-organize data mining; multiple classifiers combination; telecommunication industry
1 引言
客戶流失和客戶挽留是許多行業關注的一個重要問題。據統計,電信行業每年的平均流失率在25%~30%。而對美國9個行業的調查數據顯示,客戶流失率每降低5%,行業平均利潤將增加25%~85%[1]。同時,獲取一個新客戶的成本往往是保持現有客戶4~6倍[2]。因此,預測客戶流失傾向,及時進行客戶挽留已經成為客戶關系管理的重中之重。
為了有效地預測未來潛在的流失客戶,國內外學者提出了多種方法,如決策樹[3]、人工神經網絡[4]、Logistic回歸[5]、貝葉斯分類器[6]和支持向量機[7,8]等,取得了一定的應用效果。上述方法各有優劣,均是通過構建單一的分類模型來進行客戶流失預測。然而,現實的客戶流失預測往往是薄靶的、類別不平衡的預測問題[9],同時由于數據缺失等原因使得其數據中常包含較多噪聲,從而大大增加了分類的難度。因此,單一的分類器(分類模型)很難實現在整個樣本空間上的準確分類,而如果能夠將多個分類器組合起來[10],讓每一個分類模型都在其優勢空間區域發揮作用,將有望提高客戶流失預測的準確性。
過去10年中,多分類器組合廣泛地應用于手寫字符識別、文本分類、語音識別和股市預測等[11,12]。在多分類器組合中,通常有兩種組合策略:靜態分類器組合和動態分類器組合[13]。與靜態分類器組合相比,動態分類器組合是一個更加靈活的方法,它是一種基于各分類器的訓練性能以及實際待分類樣本的相關參數而進行的一種實時的選擇。在文獻[14]中,Woods等人提出了基于局部分類精度分析的動態分類器選擇方法DCS_LA (Dynamic Classifier Selection with Local Accuracy)。然而,DCS_LA仍有其不足之處。對于每一個待分類樣本x*,DCS_LA總是從分類器集合中找到一個具有最大“局部分類能力”的單一分類器來對x*進行分類。事實上,若能夠從分類器集合中選擇一個合適的子集進行集成,往往能夠得到比最好的單一分類器更好的分類性能[11]。因此,如何為每一個待分類樣本選擇一個最恰當的分類器子集進行動態集成,成為能否進一步提高分類性能的關鍵。而要解決這一問題,自組織數據挖掘理論(Self-Organize Data Mining, SODM)無疑是一種很好的工具。
SODM是由烏克蘭科學院院士Ivakhnenko提出的多變量分析的復雜系統建模與識別方法[15]。SODM包括了一系列建模方法,其中,最具代表性的是多層網絡算法。該算法的基本思想是構造一個多層前饋神經元網絡結構,從參考函數出發,通過遺傳,進化,變異,選擇和拒絕等一系列操作,來決定系統模型的輸入變量,結構以及參數,最后通過終止法則來選擇最優復雜度模型[16]。近年來,SODM方法在經濟、工程等廣泛領域得到了成功的應用[17~19]。
本文將SODM多層神經元網絡與動態分類器組合的思想相結合,提出了基于SODM的動態分類器集成方法SDCE(Dynamic Classifier Ensemble based on SODM),并將其應用于客戶流失預測。實證分析表明,與常用的單一客戶流失預測模型以及動態分類器選擇方法DCS_LA相比,SDCE具有更好的預測性能。
2 理論介紹
2.1 動態分類器組合的原理及算法
動態分類器組合的基本思想是采用不同的分類器組合方案來為不同的待分類樣本進行分類[20]。其中,DCS_LA是動態分類器組合的典型代表[14]。該算法數學描述如下:
設有N個基分類器C1,…,CN,每一個基分類器都事先為同一個M-類分類問題進行了分類。對于每一個測試樣本x*,定義R(x*)是由x*的K個近鄰組成的局部區域,而LAj,K(x*)是分類器Cj在該局部區域的精度估計。則DCS_LA算法定義如下[14]:
(1)如果所有的基分類器將x*歸為同一類,那么就將其分為該類;否則,
(2)計算LAj,K(x*), j=1,2,…,N;
(3)找到具有最大局部分類能力的分類器Ci|LAj,K(x*)=maxj(LAj,K(x*)),并利用它為x*分類。
DCS_LA算法的關鍵在于步驟2中的LAj,K(x*)的計算,Woods等人提出了兩種計算方法[14]:“先驗”局部精度(Overall Local Accuracy, OLA)和“后驗”局部精度(Local Class Accuracy, LCA),并指出在大多數情況下,LCA比OLA具有更好的分類性能。
2.2 自組織數據挖掘理論
自組織數據挖掘(Self-Organize Data Mining, SODM)的核心技術是數據分組處理方法(Group Method of Data Handing, GMDH),它是一種進化計算技術。在SODM中,組合算法和多層神經元網絡算法是兩種最重要的算法,而后者的應用最為廣泛。
SODM多層神經元網絡以參考函數的形式建立輸入輸出變量之間的一般關系。一般取Volterra函數級數或Kolmogorov-Gabor多項式的離散形式作為參考函數[16]
(1)式也叫K-G多項式,其中y為模型輸出,(x1,x2,…,xn)為輸入向量,a是權值向量。特別地,包含n個變量(神經元)的一階(線性)K-G多項式如下
f(x1,x2,…,xn)=a0+a1x1+a2x2+…+anxn(2)
如果參考函數選擇如(2)式所示的線性參考函數,則在使用SODM多層神經元網絡建模時,首先取(2)式中所有的子項作為網絡的n+1個初始輸入模型:v1=a0,v2=a1x1,…,vn+1=anxn。其具體的建模過程如下:
根據傳遞函數y=f(vi,vj)= a1+a2vi+a3vj將這些初始模型兩兩組成一個單元,則在第一層共有
n1=C2n0(n0=n+1)個局部函數產生
上述過程不斷進行下去,直到通過終止法則找到最優復雜度模型yopt。
SODM將訓練樣本集W等分為兩部分:模型訓練集A和模型選擇集B。 在A上利用LS進行參數的估計,而在B上利用外準則進行中間候選模型的評價和選擇。算法的終止法則是由最優復雜度原理給出的[16]:當模型的復雜度逐漸增加時,具有外補充性質的稱之為外準則的準則值會呈現先減小后增大的變化趨勢,外準則全局極小值對應了最優復雜度模型。
3 基于SODM的動態分類器集成
3.1 外準則的選擇
在實際建模中,往往會根據建模的目的或者對系統先驗知識的認識而提出不同的要求。在SODM方法中,外準則就是這些特定要求的數學描述,它們組成了一個外準則體系。根據所選的外準則,我們能夠從候選模型中選出“最優的”模型[16]。在動態分類器集成中,集成的優劣最直接的測度指標就是其集成后的分類誤差。因此,本文從SODM外準則中選取與之相適應的對稱的正則化準則(Symmetric Regularity Criterion, SRC)作為SDCE算法的外準則,其形式如下[17]
3.2 SDCE 算法描述
算法的基本思想是:對于每一個待分類樣本x*,首先從訓練集中選擇x*的K個近鄰構成一個局部區域,然后在這個區域中利用SODM多層神經元網絡進行分類器集成的選擇,從而對樣本x*進行分類。設分類問題的訓練集
D1包含m個樣本,測試集D2包含n個樣本。同時,基分類器池中共有N個基本分類器C1,…,CN,則SDCE算法的偽代碼可表示如下:
SDCE(K)
For待分類樣本x*i∈D2, i=1,2,…,n
(1)從D1中找到x*i的K個近鄰構成x*i的一個局部區域,設為DK={x1,x2,…,xK};
(2)利用N個基分類器對DK及x*i分類,設結果分別為R=(R1,R2,…,RN)和r=(r1,r2,…,rN);
(3)將R沿水平方向等分為模型訓練集A和模型選擇集B兩部分;
(4)取一階K-G多項式建立DK的類別向量Y和R1,R2,…,RN之間的一般關系作為參考函數f(R1,R2,…,RN)=a1R1+a2R2+…+aNRN , 并以它的所有子項作為SODM多層神經元網絡的N個初始模型:v1=a1R1,v2=a2R2,…,vN=aNRN;
(5)將初始模型兩兩組合,產生C2N個第一層中間候選模型wt=vi+vj=aiRi+ajRj, i,j=1,2,…,N,i≠j;t=1,2,…,C2N,在數據集A上利用LS估計各中間模型的參數;
(6)根據(5)式計算全部候選模型的SRC值,將最小的準則值作為該層的外準則值,同時選出準則值最小的若干中間模型作為下一層的輸入;
(7)重復5、6兩步,可依次產生第二、第三…層中間候選模型,直到根據最優復雜度原理,找到具有最優復雜度的分類器集成模型;
(8)將基分類器C1,…,CN對x*i的分類結果r=(r1,r2,…,rN)代入最優復雜度的集成模型中得到x*i的最終分類結果。
圖1是使用SDCE算法進行動態分類器集成選擇的一個簡單實例。圖1(a)表示了尋找最優分類器集成方案的過程。對于某一個待分類樣本x*i∈D2,i=1,2,…,n,首先利用所有的基分類器(假設有4個)對其進行分類,得到各自的分類結果(R1,R2,…,R4),它們對應了圖1(a)中的4個初始模型v1=a1R1,v2=a2R2,…,v4=a4R4。在第一層,通過將輸入層的變量兩兩組合,得到更加復雜的模型,wt=vi+vj=aiRi+ajRj,i,j=1,2,…,4,i≠j;t=1,2,…,6。在模型訓練集A上估計各個模型的參數,同時在模型選擇集B上按照(5)式計算每一個模型的SRC值。將最小的SRC值作為該層的外準則,同時選擇4個較優的中間模型w1,w2,w4,w6進入網絡的第二層。重復這樣一個進化、評價、選擇的過程,直到第3層,根據最優復雜度原理找到具有最優復雜度的分類器集成方案yopt=y1。圖1(b)則說明了在找到yopt以后,如何確定模型中的組成。我們只需要從SODM多層神經元網絡的最后一層逐層向前遞推,直到初始輸入層。由圖1(b)可知,在最優的集成方案中,選擇了初始輸入模型v1,v2,v3,也即基分類器C1,C2,C3,而基分類器C4在SDCE算法自適應選擇過程中被淘汰掉了。
4 基于動態分類器集成的客戶流失預測實證研究
在這一節中,我們在兩個客戶流失預測數據集上比較SDCE和一些單一預測模型K-近鄰(K-Nearest Neighbours, K-NN)、人工神經網絡(ANN)、C4.5算法、樸素貝葉斯(Nave Bayes, NB)、支持向量機(SVM)以及DCS_LA的預測性能。
4.1 數據預處理
(1) 數據集1
Churn數據集來源于UCI數據庫[22]。該數據以無線手機客戶不享受某電信公司的所有服務為對其客戶流失的定義,共有18個屬性,3333個客戶樣本,其中2850個非流失客戶,483個流失客戶,兩類樣本之比約為6。首先隨機地將整個數據集分成3等份,1/3的樣本用于測試(其中非流失客戶965個,流失客戶146個),余下2/3的樣本構成初始訓練集。同時,為了提高預測精度,本研究采用重抽樣技術來平衡類別分布,從初始訓練集中隨機無放回地抽取1294個非流失客戶,隨機有放回地抽取928個流失客戶,它們一起構成最終的訓練集。
(2) 數據集2
此數據來源于四川省某電信分公司2005年1~6月的客戶數據??紤]到指標的可得性,我們選取了下列流失變量:客戶級別、區內費、區間費、月租費、國內傳統長途費、國際傳統長途費、月總費用、3個月內平均停機次數、3個月內平均消費額、欠費情況等10個屬性。對于客戶類別變量,定義離網用戶為本月有話費記錄,下個月沒有話費記錄的用戶。
經過簡單的數據清理,最后獲得3350個樣本,其中非流失樣本2926個,流失樣本424個,兩類樣本之比高達6.9。首先隨機地選取其中的2550個樣本構成測試集(2220個為非流失樣本,330個為流失樣本),其余的800個樣本構成初始訓練集。最后,仍然采用重抽樣技術來平衡類別分布,從初始訓練集中隨機無放回地抽取473個非流失客戶,隨機有放回地抽取327個流失客戶,它們一起構成最終的訓練集。
4.2 試驗設置
最常用的構建基本分類器的方法有Bagging和Boosting。Opitz[11]研究指出,雖然Boosting的分類精度有時比Bagging要高,但是它可能會過度擬合噪聲數據集。因此,本文采用Bagging方法來構建基本分類器。首先采用隨機重復抽樣的方法從訓練集中選擇20個子集,每個訓練子集的樣本數都為原訓練集的7/10,然后利用基本分類方法如ANN在每個訓練子集上訓練得到一個基本分類器,從而構建一個容量為20的基分類器池。同時,由3.2節可知,SDCE方法也有一個重要參數K,這里取K=5。全部實驗都是反復運行10次,最后取10次實驗的平均值。
4.3 實證結果分析
評價客戶流失預測模型性能的常用指標有總的準確率、在網類準確率、離網類準確率、命中率、提升系數等。根據表1定義的客戶流失評價矩陣,上述評價指標可以表示為:總的準確率=(A+D)/(A+B+C+D)×100%;在網類準確率=A/(A+B)×100%;離網類準確率=D/(C+D)×100%;預測命中率=D/(B+D)×100%;提升系數=命中率/測試數據中的客戶流失率。
首先利用K-NN、ANN、C4.5、NB和SVM 這5種基本分類算法在兩個數據集上進行流失預測。結果表明,在兩個數據集上,5種方法的總的準確率都在80%到90%之間。同時,在網類準確率和離網類準確率相差較大,如在數據集1上,5種方法的在網類準確率分別為93.26%,93.89%,92.54%,93.99%,88.08%,離網類準確率分別為39.04%,45.21%,46.58%,53.42%,52.74%。這主要是由于數據集的類別不平衡引起的。SVM和NB具有較高的離網類準確率,表明二者具有較強的處理類別不平衡數據的能力。最后,5種基本分類算法在兩個數據集上的提升系數均在3.0到4.5之間,如在數據集1上的提升系數分別為3.56,4.02,3.70,4.36,3.05。模型具有較高的離網類準確率、命中率和提升系數,說明在不同的客戶流失率的市場環境下,利用該模型能以較小的成本來挽留較多的潛在流失客戶。
判斷一個流失預測模型是否可接受,通??梢愿鶕渲饕男阅苤笜巳缑新?、離網類準確率來衡量。當然,不同的行業可能有不同的評價標準,以電信業為例,通常要求離網類準確率達到75%以上,預測命中率在65%以上
[23]。然而,上述5種算法在數據集1上的命中率分別為46.72%,52.80%,48.57%,57.35%,40.10%,都還遠遠低于這一水平,在數據集2上的命中率也都還低于65%,它們的預測性能并不是十分的理想。
為了彌補單一方法的不足,分別以上述5種算法為基礎構建基分類器池,利用DCS_LA進行動態分類器組合。結果顯示,與單一分類器相比,DCS_LA的預測性能有了顯著提高。在兩個數據集上的總的準確率、命中率、離網類準確率以及提升系數都有了大幅提高。如在數據集2上,在5種方法中,以SVM以及K-NN為基礎的DCS_LA算法的離網類準確率分別為86.67%和82.73%,命中率分別為68.26%和69.86%,它們都是可以接受的。然而在數據集1上,以5種基本分類算法為基礎的DCS_LA方法的離網類準確率分別為62.33%,66.44%,63.01%,73.29%,69.86%,各個模型的性能仍然沒有達到能被接受的水平。
進一步地,利用SDCE算法進行客戶流失預測。結果表明,與單一預測模型以及DCS_LA相比,SDCE方法具有更好的客戶流失預測性能。在兩個數據集中,以5種基本分類算法為基礎的SDCE方法的命中率都在70%以上,離網類準確率都在85%以上,如在數據集1上的離網類準確率分別為91.10%,90.41%,85.62%,93.84%,90.41%,其預測結果都是可以接受的。同時,SDCE方法的提升系數也較單一預測模型以及DCS_LA有了大幅提升,在數據集1上以5種基本算法為基礎的SDES方法的提升系數分別為6.10,5.84,5.63,6.06,5.61,在數據集2上的提升系數分別為7.21,6.93,6.64,7.55,6.82. 此外,SDCE方法的離網類準確率已非常接近在網類準確率,如在數據集1上它們的在網類準確率為96.58%,95.85%,95.44%,96.37%,95.13%,這也表明,SDCE方法能夠更好地處理客戶流失預測中的類別不平衡問題。
5 結論
本文將動態分類器組合與SODM相結合,提出了基于SODM的動態分類器集成方法SDCE。將該方法應用于客戶流失預測的實證分析表明,與常用的單一客戶流失預測模型以及DCS_LA方法相比,SDCE能夠在很大程度上提高客戶流失預測的準確率、命中率以及提升系數等。
在市場不斷變化的今天,分類技術在CRM的客戶分析中得到了廣泛應用,如客戶細分、客戶忠誠度分析、客戶流失預測和客戶信用欺詐檢測等。因此,將本文提出的SDCE動態分類器集成方法應用于客戶分析的各個領域,將有望提高企業客戶關系管理的水平。同時,多分類器組合方法應用于客戶關系管理的研究才剛剛起步,下一步將研究SDCE方法應用于不同客戶分類問題時的參數優化選擇問題,期待進一步提高預測的準確性。
參 考 文 獻:
[1]Reichheld F F. The loyalty effect: the hidden force behind growth, profits and lasting value[M]. Harvard Business School Press, 1996.
[2]Bhattacharya C B. When customers are members: customer retention in paid membership contexts[J]. Journal of the Academy of Marketing Science, 1998, 26(1): 31-44.
[3]盛昭瀚,柳炳祥.客戶流失危機分析的決策樹方法[J].管理科學學報,2005,8(4):20-25.
[4]姚敏,沈斌,李明芳.基于多準則神經網絡與分類回歸樹的電信行業異動客戶識別系統[J].系統工程理論與實踐,2004,24(5):78-83.
[5]Kim H S, Yoon C H. Determinants of subscriber churn and customer loyalty in the Korean mobile telephony market[J]. Telecommunications Policy, 2004, 28(9): 751-765.
[6]Nath S V. Data warehousing and mining: customer churn analysis in the wireless industry[D]. Boca Raton, Florida: Florida Atlantic University, 2003.
[7]Au W, Chen K C C, Yao X. A novel evolutionary data mining algorithm with applications to churn prediction [J]. IEEE Transactions on Evolutionary Computation, 2003, 7(6): 532-545.
[8]夏國恩,金煒東.基于支持向量機的客戶流失預測模型[J].系統工程理論與實踐,2008,28(1):71-77.
[9]Neslin S, Gupta S, Kamakura W, et al.. Detection defection: measuring and understanding the predictive accuracy of customer churn models[J]. Journal of Marketing Research, 2006, 43(2): 204-211.
[10]Kim E, Kim W, Lee Y. Combination of multiple classifiers for the customer’s purchase behavior prediction [J]. Decision Support Systems, 2000, 34: 167-175.
[11]Opitz D, Maclin R. Popular ensemble methods: an empirical study[J]. Journal of Artificial Intelligence Research, 1999, 11: 169-198.
[12]Kim M J, Min S H, Han I. An evolutionary approach to the combination of multiple classifiers to predict a stock price index[J]. Expert Systems with Applications, 2006, 31: 241-247.
[13]Kuncheva L I. Switching between selection and fusion in combining classifiers: an experiment[J]. IEEE Transactions on Systems, Man and Cybernetics-Part B: Cybernetics, 2002, 32(2): 146-156.
[14]Woods K, Kegelmeyer W P, Bowyer K. Combination of multiple classifiers using local accuracy estimates[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19: 405-410.
[15]Ivakhnenko A G. Heuristic self-organization in problems of engineering cybernetics[J]. Automatica, 1970, 6(2): 207-219.
[16]Muller J A, Lemke F. Self-organizing data mining: an intelligent approach to extract knowledge from data[M]. Hamburg: Libri, 2000.
[17]賀昌政.自組織數據挖掘與經濟預測[M].北京:科學出版社,2005.
[18]Mehrara M, Moeini A, Ahrari M, et al.. Investigating the efficiency in oil futures market based on GMDH approach[J]. Expert Systems with Applications, 2009, 36(4): 7479-7483.
[19]Xiao J, He C Z, Jiang X Y. Structure identification of Bayesian classifiers based on GMDH[J]. Knowledge-Based Systems, 2009, 22(6): 461-470.
[20]Didaci L, Giacinto G, Roli F, et al.. A study on the performances of dynamic classifier selection based on local accuracy estimation[J]. Pattern Recognition, 2005, 38(11): 2188-2191.
[21]Sarychev A P. An averaged regularity criterion for the group method of data handling in the problem of searching for the best regression[J]. Soviet Journal of Automation and Information Sciences c/c of Avtomatika, 1990, 23(5): 24-29.
[22]Merz C, Murphy P. UCI repository of machine learning databases[DB/OL].http://www.ics.uci.edu/~mlearn/MLRepository.html, 1995-12-04.
[23]田玲,邱會中,鄭莉華.基于神經網絡的電信客戶流失預測主題建模及實現[J].計算機應用,2007,27(9):
2294-2297.