基于AP聚類與隨機森林的客戶流失預測研究

2021-03-08 01:06:10胡永培

計算機技術與發展 2021年2期

胡永培，張琛

(1.徽商銀行大數據部，安徽合肥 230601；2.合肥學院人工智能與大數據學院，安徽合肥 230601)

0 引言

隨著大數據、人工智能、區塊鏈技術的快速發展，利率市場化進程不斷推進，銀行利差在逐漸收窄，傳統的經營模式已不能滿足日益變化的市場需要，各家銀行紛紛開展數字化轉型[1-2]，銀行零售業務板塊表現的尤為迫切。

各家銀行零售客戶一直以來都表現出明顯的“二八定律”，更有甚者可能出現“一九定律”，即銀行20%的零售客戶貢獻了80%的零售利潤[3]，20%的客戶一般為各家銀行的優質客戶，是各家銀行重點維護的對象，所以各家銀行在努力拓展新的優質客戶的同時，有效防止存量客戶資產下降同樣重要。有相關研究表明，客戶流失率下降5%，能給銀行多帶來25%～85%的零售利潤[4]。挽回一個老客戶所花費的成本遠遠低于拓展一個新客戶，因此如何找出影響客戶流失的關鍵因素，精準預測客戶流失的可能性，是各家銀行挽回客戶的核心。

近年來，隨著客戶流失預警越來越被關注，國內外相關學者也對此進行了很多的研究，不斷提高模型預測的準確性。張宇[5]使用C5.0分析了企業客戶流失預測模型。Prasad 和Madhavi[6]分別用CART和C5.0兩種方法分析了銀行業客戶流失情況。丁君美[7]使用隨機森林分析了電信業客戶流失問題。楊力[8]采用極限學習機分析了電子商務客戶流失量預測模型。為了克服客戶流失數據集的不平衡性，Lemmens和Croux[9]引入了集成學習；Nikulin和Mclachlan[10]提出用平衡的隨機數據集為不平衡的客戶流失數據進行分類；Karthik[11]將屬性選擇引入了客戶流失模型中。

為了提高預測的準確率，一般需要進行屬性選擇，屬性約簡可以減少樣本空間維數，剔除無關的、影響較小的屬性，提高預測的準確率。而聚類是屬性選擇的一種方式，通過聚類將相似的一類屬性聚在一起，然后在每一類中選擇代表屬性，構成屬性子集，使用屬性子集進行預測。該文擬計算屬性區分能力，將其作為相似性度量依據，然后使用Affinity Propagation Clustering(AP)[12-13]聚類方法進行聚類。達到屬性選擇的目的。

從現有研究來看，各項研究主要集中在針對模型預測準確性的提高，缺乏根據銀行實際營銷過程中關注的重點客群進行流失研究，因此針對銀行實際關注的客群進行流失模型的建立，對流失客戶的挽回有著更加重要的意義。

綜上，針對銀行實際關注的客群進行流失挽回，對各家銀行具有重要意義。該文與以往研究稍有不同，以某商業銀行為例，根據銀行實際營銷現狀，重新對客戶流失進行定義，重點關注銀行優質客戶，并利用隨機森林方法建立客戶流失預警模型，預測零售優質客戶未來3個月流失的可能性。

1 相關算法

1.1 AP聚類

AP聚類算法是由Freya等人在2007年提出的一種快速、有效的聚類方法，該方法通過消息傳遞實現聚類，無需事先指定聚類數目。實際上對于很多的實際問題，是無法事先知道聚類個數的。

AP算法用歐氏距離衡量相似性，任意兩點xi與xk之間的相似度為：

(1)

AP算法引入兩類信息：吸引信息r(i,k),是從xi指向候選代表點xk，反映了xk適合作為xi的類代表點所積累的證據；歸屬信息a(i,k)，是從候選代表點xk指向xi，反映了xi選擇xk作為其代表點的合適程度所聚類的證據。迭代中，這兩個信息交替更新：

r(i,k)←

(2)

a(i,k')←

(3)

在AP算法中引入阻尼因子λ(λ∈[0,1])，阻尼因子能夠提高收斂性，克服迭代中的震蕩現象，每一次的迭代更新均由上次迭代結果和本次更新得到。

r(τ+1)(i,k)←

(1-λ)r(τ+1)(i,k)+λr(τ)(i,k)

(4)

a(τ+1)(i,k)←

(1-λ)a(τ+1)(i,k)+λa(τ)(i,k)

(5)

其中，τ為當前迭代時刻，通過a(i,k)和r(i,k)的交替更新，所確定的最優類代表點為：

(6)

1.2 基于AP聚類的屬性選擇方法

屬性選擇采用屬性的區分能力來度量屬性相似性，利用聚類方法將屬性區分能力相似的屬性聚為同一類簇，然后選取各類簇的聚類中心屬性作為代表屬性，那么，所有類簇的代表屬性集合即為屬性集合的約簡結果[14]。具體步驟如下：

(1)數據離散化；

(2)計算條件屬性對決策屬性的重要度作為屬性的區分能力；

(3)采用AP算法將相似性屬性聚為一類；

(4)將聚類后的類簇聚類中心作為代表屬性；

(5)所有類簇的代表屬性集合即為屬性約簡集合。

1.3 隨機森林

隨機森林RF(random forest)是一種基于集成學習的算法[15]，是一個包含多個決策樹的分類器，將多棵決策樹集成起來，得到最終的分類結果。隨機森林從N個樣本中采用可放回抽樣方法重復抽取N個樣本，每個決策樹的節點從所有屬性m中隨機選擇p(p?m)個屬性，使用Gini指數生成非剪枝的CART決策樹。采用上述方法構造多棵決策樹，將這些決策樹集合起來構成隨機森林。隨機森林先采用隨機抽樣方法抽取樣本，然后隨機選擇分類屬性，因此，隨機森林不會產生過擬合現象。

隨機森林的算法如下所述：

(1)假設存在數據集D={xi1,xi2,…,xim,yi}(i∈[1,N])，采用Bootstraping方法從N個訓練樣本中有放回地抽取N個訓練樣本，共進行k輪，得到k個訓練集。

(2)在每個訓練集上，從m個屬性中隨機選擇p個屬性，每個抽樣訓練集為dj={xi1,xi2,…,xip,yi}(i∈[1,N]),j∈[1,k]，共訓練生成k棵CART決策樹hj(x),j∈[1,k]。

(3)采用多數投票法，對k個決策樹的分類結果進行集成，得到最終的分類結果，H(x)=φ(hj(x)),j∈[1,k]，其中φ(x)是多數投票法。

具體流程見圖1[16]。

圖1 隨機森林模型構造流程

2 基于隨機森林的銀行優質客戶流失預測方法研究

2.1 隨機森林在UCI數據集上的驗證

為了驗證隨機森林方法優于一般的分類算法，該文在UCI標準數據集上進行驗證。

數據集如表1所示。

表1 實驗所用數據集情況

分別使用CART算法和隨機森林(RF)在上述數據集上進行驗證，結果如表2所示。

表2 CART與隨機森林在UCI數據集上的實驗結果

從表2可以看出，采用隨機森林方法在準確率、精確率、召回率和F值上均優于單個分類算法CART，因此該文采用隨機森林方法來搭建銀行客戶流失模型。

2.2 基于隨機森林的銀行優質客戶流失預測方法研究

該文將AP聚類算法和隨機森林用于某商業銀行的零售優質客戶流失預警，預測未來3個月客戶流失的可能性，并與CART決策樹方法進行對比分析。其中優質客戶指月日均資產大于等于5萬元以上的客戶。

2.2.1 構造數據集

本次研究以某商業銀行零售客戶流失預警數據進行實證研究，數據時間窗口為2018年7月到2019年3月。2018年7～12月設定為觀察期，2019年1～3月設定為表現期。流失客戶的定義：客戶T月月日均資產達到5萬及以上，后三個月(T+1，T+2，T+3)月日均資產均較T月下降30%以上。

為保證模型數據的有效性，該文從某商業銀行所有樣本中隨機挑選了10萬條樣本數據，并保證樣本的正負樣本與商業銀行總體樣本分布一致。由于流失客戶數據集是不平衡數據集，而不平衡數據集對模型預測效果是有影響的，為了消除不平衡數據集對模型的影響，采用隨機向上(過)采樣技術(random over sampling，ROS)平衡訓練樣本集中不同類別的樣本數量。

2.2.2 模型指標構建

從業務的角度出發，根據影響零售客戶流失的因素，結合指標的數據質量，從客戶基本信息、交易信息、資產負債信息、簽約信息、偏好信息、渠道信息以及其他關聯信息等角度選取了181個影響指標，作為本次模型構建的初始指標。

在使用隨機森林建模之前，需要先對數據進行預處理，首先對缺失值和異常值進行預處理，例如產品類指標，針對理財余額、定期存款余額存在缺失值的情況取0處理，年齡超過100歲的按100處理，因客戶群體本身為優質客戶，數據質量相對較好，缺失值處理較少。其次將字符型變量轉化為數值型標量，并采用Z-score方法對數據進行標準化處理。

在標準化處理以后，采用基于AP聚類的屬性約簡方法進行屬性選擇，通過對原始的181個指標進行篩選后，最終得到16個指標用于構建隨機森林模型，具體見表3。