李偉 孫新杰 陳偉
摘要:客戶流失是企業(yè)要面臨的重要問題之一,為了能夠有效幫助企業(yè)預防客戶流失,提出基于企業(yè)的交易數據庫,通過數據挖掘方式來分析客戶的消費行為,構建客戶流失特征,采用CART算法構造決策樹模型,編程實現程序來處理流失特征數據,以來對客戶流失行為進行預測。實驗運行結果表明,該方法對客戶流失預測效果較好。
關鍵詞:數據挖掘;客戶流失;決策樹;CART算法
中文分類號:TP391.3 文獻標識碼:A
文章編號:1009-3044(2019)10-0007-02
開放科學(資源服務)標識碼(OSID):
Research on Customer Churn Prediction Based on Data Mining
LI Wei, SUN Xin-jie, CHEN Wei
(College of mathematics and information engineering, Liupanshui Normal University, Liupanshui 553004, China)
Abstract: Customer churn is the enterprise will face one of the important problems, in order to be able to effectively help enterprises to prevent customer defections, based on enterprise's transaction database, through the data mining methods to analyze customer's consumption behavior, building customer churn characteristics, by using the CART algorithm to construct the decision tree model, programming implementation program to process the data description, since to predict customer churn behavior. The experimental results show that the method has a good prediction effect on customer churn.
Key words: Data Mining; Customer Churn; Decision Tree; CART Algorithm
在當今市場競爭環(huán)境下,客戶有了更多的消費選擇和渠道,客戶異動變得十分普遍,企業(yè)要保持好已經擁有的客戶資源才能更好地盈利,因此如何提高客戶的忠誠度來防止客戶流程已經成為企業(yè)急需解決的問題。夏國恩等[1]研究了引入網絡客戶價值特征和情感特征,來構建基于客戶行為特征分析的網絡客戶流失預測模型結構。于小兵等[2] 建立了客戶流失預測模型,提出了改進粒子群優(yōu)化算法,對電子商務客戶樣本進行實證研究。但是對于企業(yè)而言,在實踐上還存在一些問題。
本文通過數據挖掘方式來分析客戶的消費行為,選取客戶流失的特征,采用CART算法構造決策樹模型,來對客戶進行流失預測,為企業(yè)管理客戶流失提供決策依據。
1 相關技術
決策樹[3]在ID3算法被提出了之后,在機器學習和數據分析領域更得到快速發(fā)展。決策樹是一種樹狀結構,每個葉子節(jié)點代表一個分類,非葉子節(jié)點是在某個特征上的劃分,根據樣本數據在該特征上的不同取值劃分成多個子集。當進行分類時,學習構造決策樹是一個自上而下的過程。決策樹是一種監(jiān)督學習,構造它的關鍵問題是在每一步如何選擇適合的特征來拆分樣本。
CART決策樹是一種高效的非參數分類和回歸方法,已經廣泛應用在統(tǒng)計領域和數據挖掘技術中。由CART 模型構建的預測樹在很多情況下比常用的統(tǒng)計方法構建的代數學預測準則更加準確,當數據越復雜且變量越多,算法的優(yōu)越性就越明顯。CART決策樹從訓練樣本數據中學習決策樹,通過構建樹、修剪樹和評估樹來構建二叉樹。如果終節(jié)點為分類變量,那么該樹為分類樹,CART采用GINI值衡量節(jié)點純度,GINI值的計算公式為:
[GINI=1-i∈Ip2i]
當GINI值越大時,代表節(jié)點越不純,節(jié)點分類或者預測的效果就越差。如果終節(jié)點為連續(xù)變量,則該樹為回歸樹,采用樣本方差衡量節(jié)點純度,回歸方差計算公式為:
[σ=i∈Ixi-μ2=i∈Ix2i-nμ2]
當方差的值越大時,代表該節(jié)點的數據越分散,預測的效果就越差。
2 構建客戶流失特征
客戶流失是指客戶與企業(yè)不再有交易的關系,客戶流失的原因主要有產品因素、服務因素、競爭者因素和客戶自身因素等。企業(yè)客戶流失的特征主要體現在如下三個方面:消費次數越來越少、平均消費金額越來越低和很長時間沒有消費記錄,因此可構造的三個客戶流失特征[4]有總消費次數(frequency)、平均消費金額(average)以及最近一次消費時間距離當前的天數(recently)。選取交易數據庫中客戶信息表和訂單表,并對這兩個表進行連接操作,通過分組聚合的方式進行查詢得到每個客戶的總消費次數、平均消費金額和最近一次的消費時間,以來構建預測客戶流失的特征。添加一個表示客戶流失類型字段type后,得到的新表模式為(UID,frequency,average,recently,type),并基于該表的數據進行客戶流失預測。
3 設計實現
將構建客戶流失特征后的數據分為訓練集和測試集兩部分,采用CART算法構造決策樹模型,對準流失的客戶進行預測。算法的程序流程如圖1所示,當選擇分裂屬性進行分裂時,要遍歷三個客戶流失特征屬性,并且選擇每個屬性的最優(yōu)分裂方法,對比每個屬性的分裂效果,最后選擇該節(jié)點最優(yōu)的分裂屬性。比較最優(yōu)的分裂屬性需要計算每個分裂屬性分裂后的GINI值或樣本方差,前面已經給出它們的計算公式。構造完成決策樹后,再采用代價復雜度(CCP)的方法,選擇表面誤差率增益值最小的非葉子節(jié)點進行剪枝[5]。
4 實驗分析
執(zhí)行編寫的CART決策樹算法程序,對構建客戶流失特征表數據進行處理分析,得到表中每個客戶的流失類型值。實驗預測結果如表1所示,流失類型有三個值是非流失、已流失和準流失,非流失客戶為還將有消費的正常客戶,已流失客戶為很長時間沒有消費記錄的客戶,準流失客戶為預測將要流失的客戶。企業(yè)應對準流失客戶引起高度重視,采取必要措施挽留客戶,例如保證產品質量、提高服務水平和推薦新的產品等,以來更好地實現盈利目標。
5 結語
本文提出對客戶的消費行為進行數據挖掘,構建客戶流失特征,采用CART決策樹算法進行編程,分析處理客戶流失特征數據,對客戶流失進行預測,為企業(yè)下一步的決策提供參考。未來工作中研究的重點是采用大數據技術對處理算法進行并行化改進,以來加快程序的處理速度。
參考文獻:
[1] 夏國恩, 馬文斌, 唐嬋娟, 張顯全. 融入客戶價值特征和情感特征的網絡客戶流失預測研究[J]. 管理學報, 2018, 15 (3):442-449.
[2] 于小兵, 盧逸群. 電子商務客戶流失預警與預測[J]. 系統(tǒng)工程, 2016, 34(9):37-43.
[3] Jiawei Han, MIcheline Kamber, Jian Pei.數據挖掘:概念與技術[M]. 北京: 機械工業(yè)出版社, 2012.
[4] 李偉, 秦鵬, 胡廣勤, 張毓福. 基于商業(yè)大數據的客戶分類方案[J].六盤水師范學院學報, 2017, 29(6):38-41.
[5] 李國和, 王峰, 鄭陽, 吳衛(wèi)江, 洪云峰, 周曉明. 基于決策樹生成及剪枝的數據集優(yōu)化及其應用[J]. 計算機工程與設計, 2018, 39(1): 205-211.
【通聯編輯:王力】