XGBoost融合模型在銀行客戶流失預測中的應用研究

2023-06-25 23:37:59陳光鎂孫雪蓮

電腦知識與技術 2023年13期

陳光鎂孫雪蓮

摘要：針對銀行行業的客戶流失問題，構建基于地域、收入、信用卡、銀行存款等屬性的銀行客戶指標體系，研究中采用K-Means對數據進行聚類分析，細分客戶類型，將細分結果作為XGBoost、ANN預測模型的輸入，從而融合XGBoost與K-Means模型，經過分析發現單一模型acc（準確率）在85%左右，融合模型的acc在87%以上，根據K-Means-XGBoost融合模型與K-Means-ANN融合模型的預測結果，利用流失概率公式構建XGBoost-ANN組合模型，通過調節兩個模型占比來確定最優模型，根據組合模型計算acc。實驗顯示，組合模型的acc、F1-Score等均高于單一算法模型與融合模型。

關鍵詞：客戶流失；XGBoost；ANN神經網絡；聚類算法；融合模型；組合模型

中圖分類號：TP301? ? ? ? 文獻標識碼：A

文章編號：1009-3044（2023）13-0055-03

開放科學（資源服務）標識碼（OSID）

0 引言

目前銀行在客戶競爭方面面臨著嚴峻挑戰，面對激烈的市場競爭，如何盡可能留住老客戶，減少客戶流失是目前銀行應重點關注的問題[1]。研究表明，對銀行業而言，客戶流失會給利潤帶來巨大的影響[2]，當客戶流失率減少5%，企業的利潤增長是30%到85%，發展新客戶的成本是挽留老客戶成本的5～7倍[3]。所以銀行必須在深入發現客戶需求的基礎上，對客戶賦予優質的、非同質化的服務[4]，從而滿足不同客戶的要求，從而提升客戶對銀行項目和服務的滿意程度，提高客戶對銀行的忠誠度，這樣才能實現銀行盈利的持續增加。

客戶希望銀行可以根據他們的需求和資產情況推出需要的投資理財相關的產品或服務，而這就要求銀行要積極建立完整的客戶需求體系、主動維護良好的客戶關系，并及時關注客戶意向的轉變，定制并提供具有個性化的產品及服務[5]。因此，有效預測客戶流失可能性，制定相應的挽回措施，防止客戶的流失，是銀行提升核心競爭力的關鍵?；阢y行客戶數據建立RFM模型同時使用K-Means進行聚類分析，將客戶類型進行細分。對XGBoost模型和ANN神經網絡模型實驗得到兩個的預測值和準確度，將兩者的流失概率組合成新模型，通過新模型不斷地調整兩個模型的比重，直到模型的準確度和擬合度最高[5]。

1 預測模型

1.1 K-Means融合模型

選擇預測效果、輪廓系數均最優的類簇進行聚類[6]，將K-Means聚類結果（3類）進行處理，生成三個新的數據集，將三個數據集作為XGBoost、ANN預測模型的輸入（每個數據集單獨預測），構建K-Means與XGBoost、ANN的融合模型，進行融合模型的訓練測試，得出結果，搭建步驟如下：

1）使用K-Means進行兩次聚類，選擇預測效果和SH系數均佳簇個數（[k1=2]、[k2=2]），將客戶類型細分為3類得到3組數據，在手肘法的基礎之上進行輪廓系數的比較[6]，最終使用SH系數進行評價。

2）對K-Means細分客戶[6]的三個數據集進行處理，數據沒有缺失、異常等問題，將K-Means輸出分別存儲到不同的文件中，為模型融合做準備。

3）將細分客戶類型分別代入ANN、XGBoost模型中進行訓練，訓練完畢后，兩個模型在測試集上進行測試，得出準確率。

4） K-Means[7]與ANN、XGBoost融合得出預測結果，最終得到準確率、精確率等。

1.2 組合模型

對于XGBoost模型和ANN神經網絡模型[8]，兩者都能在客戶流失管理中對潛在的流失客戶進行預測，通過實驗可以分別得到兩個模型的預測值和準確率[8]。本文將兩者組合起來建立組合建模，并進行分析。設XGBoost流失預測模型的預測結果為[X]，預測準確率為[α]；ANN神經網絡流失預測模型的預測結果為[Y]，預測準確率為[β]。其中，[X]和[Y]的取值為0或者1，0-未流失，1-流失。[α]和[β]的取值范圍為[0，1]。設[Tw]為組合模型的流失概率，則[Tw]的計算如公式（1）所示。

[Tw=k1αX+k2βY]? ? ? （1）

初始時設置[k1]，[k2]為0.1、0.9，然后不斷調整兩個模型的占比，直至找出最佳的[Tw]值。對于組合模型來說，若XGBoost模型和ANN神經網絡模型都預測為未流失[9]，即[X]， [Y]都取值為0，則[Tw]也為0，組合模型預測結果為流失；若兩個模型都預測為未流失，即[X]，[Y]都取值為1，若[Tw]大于等于70%，則組合模型預測結果為流失，反之組合模型預測結果為未流失;若兩個模型中，一個模型預測為流失，一個為未流失，則依據組合模型的流失概率來判斷，則[Tw]大于35%，表明組合模型預測結果為流失，反之組合模型預測結果為未流失。后續不斷地調整XGBoost模型和ANN神經網絡模型的占比[9]，調整時從兩個模型分別占比10%、90%，一直調整到兩個模型分別占比90%、10%。直至模型的準確度和擬合度最高[9]。

2 客戶類型分析結果

2.1 特征重要性排序

文中選用隨機森林進行特征重要性的排序，選取前十行為[x]的取值，最后一列為[y]的取值，算法實現后特征重要性排序如圖1所示。當[n_estimators=10000]時，Geography特征的重要性系數為0.166 258（最高），其次是IsActiveMember、Age分別為0.163 906、0.153 392，最低的是Tenure，重要性系數僅為0.039 8，估計收入情況、使用信用卡支付次數、性別、信用分數等重要程度在0.126 007到0.057 710之間。

2.2 K-Means客戶類型細分

第一次聚類k=2時輪廓系數為0.467 4，類型0數據占總數據的超60%，而類型1的數據大約占總數據的38%，類型0單獨進行預測準確率偏低，單獨將類型0再進行一次聚類分析。第二次聚類k=2時輪廓系數為0.495 8，且類型0（第二次）占據占比50%，類型1（第二次）占據了接近50%。

文中定義了3種客戶類型，利用RFM的分類原理，結合隨機森林特征重要性排序，選Salary、Balance、CreditScore三種屬性作為指標，兩次K-means得到的聚類特征分布情況如圖2所示。據分析，第一簇人群：3 799人，客戶Balance、EstimatedSalary、CreditScore三個指標數據均值高，將類型0定義為低流失風險客戶；第二簇人群：3 135人，類型1客戶EstimatedSalary偏高，Balance、CreditScore都是偏低的，將其定義為高流失風險客戶；第三簇人群：3 057人，類型2的三個指標均值較高，定義為中流失風險客戶。

3 實證研究

3.1 融合模型預測

低流失風險客戶實驗中test_size=0.1，XGBoost的max_depth=2，ANN中訓練1 500次alpha=0.000 1結果對比圖如圖3所示，從圖中可知對于該類型客戶而言，XGBoost融合模型的準確率提高了0.017 2，ANN融合模型的準確率提高了0.032 0。高流失風險客戶實驗中test_size=0.1，XGBoost的max_depth=2，ANN中訓練1 000次alpha=0.000 1結果對比圖如圖3所示，XGBoost融合模型的預測準確率提高了0.060 7，ANN融合模型預測準確率提高了0.055 1。中流失風險客戶實驗中test_size=0.1，XGBoost的max_depth=2，ANN中訓練1 500次alpha=0.000 1結果對比圖如圖3所示，XGBoost融合模型的準確率提高了0.023 3，ANN融合模型的準確率提高了0.021 9。

3.2 ANN-XGBoost組合模型預測

低流失風險客戶組合模型為[Tw2=0.5αX+0.5βY]時模型最優，組合模型準確率比融合模型提高了0.0424，比單一模型分別提高了0.069 6、0.064 6；高流失風險客戶組合模型為[Tw2=0.6αX+0.4βY]時預測效果最好（最優模型），組合模型準確率比融合模型準確率平均提高了0.05，比最初的單一模型分別提高了0.105 4、0.110 4；中流失風險客戶組合模型為[Tw2=0.4αX+0.6βY]時模型最優，中流失風險客戶K-Means-XGBoos融合模型的準確率提高了0.023 3，K-Means-ANN的準確率提高了0.021 9，XGBoost-ANN組合模型比融合模型準確率平均提高了0.0287，比單一模型平均提高了0.051 3，各評價指標對比圖如圖4所示。相較于前兩個階段而言，組合模型很大程度上提高了預測的準確率，在K-Means聚類的基礎上XGBoost與ANN組合對預測模型的改進是有效的。

4 結束語

通過對多種機器學習算法的應用，進行特征的重要程度排序，進一步確定流失預測所需要的重要指標，避免了特征的浪費也避免的特征過度帶來的麻煩，結合特征工程、RFM模型理論等手段，建立K-Means聚類模型實現更為科學化的客戶細分體系，分析影響客戶類型的各項指標，更為準確地進行客戶的類型。將K-Means與XGBoost、ANN融合對客戶流失進行預測，再將融合后的XGBoost與ANN結合，更好的反映客戶所處在的狀態以及在當前狀態下結合該客戶的類型能夠提出更貼合實際的策略。但是對于銀行客戶的價值體系，需要不斷完善和更改，適當的收緊評估體系，同時在對客戶進行聚類分析的時候采用的是單一K-Means算法，應考慮更新且改進后的算法，如KNN或者加權值的K-Means算法。

參考文獻：

[1] 張蕓.基于復合CatBoost的銀行客戶流失預測模型[D].蘭州：蘭州大學，2021.

[2] 陳靜，余建波，李艷冰.基于隨機森林的用戶流失預警研究[J].精密制造與自動化，2021（2）：21-24，51.

[3] Becker J U，Spann M，Schulze T.Implications of minimum contract durations on customer retention[J].Marketing Letters，2015，26（4）：579-592.

[4] 李波，謝玖祚.生成對抗網絡的銀行不平衡客戶流失預測研究[J].重慶理工大學學報（自然科學版），2021，35（8）：136-143.

[5] 程勇，梁吉祥.基于數據挖掘的掌銀客戶流失預測建模方法研究[J].中國金融電腦，2019（8）：10.

[6] 閆春，張馨予.基于改進的K-means和BP-Adaboost的壽險客戶流失預測算法研究[J].山東科技大學學報（自然科學版），2022，41（1）：54-65.

[7] 劉玥.基于改進的K-means算法的銀行客戶聚類研究[D].長春：吉林大學，2016.

[8] 張安琳，張啟坤，黃道穎，等.基于CNN與BiGRU融合神經網絡的入侵檢測模型[J].鄭州大學學報（工學版），2022，43（3）：37-43.

[9] 劉海航.基于XGBoost和BP神經網絡的會員流失預測及內容推薦方法的研究[D].呼和浩特：內蒙古大學， 2019.

【通聯編輯：王力】

電腦知識與技術2023年13期

電腦知識與技術的其它文章: 惡意代碼檢測技術研究綜述; 基于大數據技術的鐵路工務檢測數據平臺方案研究; 基于K-means算法的RFM模型的客戶細分研究; 基于LDA主題模型對電子商務專業崗位特征的挖掘; SPSS統計分析軟件在統計學中的應用探析; 基于Quartz.NET的任務調度系統在醫院信息化中的應用研究