胡永培,張 琛
(1.徽商銀行 大數據部,安徽 合肥 230601;2.合肥學院 人工智能與大數據學院,安徽 合肥 230601)
隨著大數據、人工智能、區塊鏈技術的快速發展,利率市場化進程不斷推進,銀行利差在逐漸收窄,傳統的經營模式已不能滿足日益變化的市場需要,各家銀行紛紛開展數字化轉型[1-2],銀行零售業務板塊表現的尤為迫切。
各家銀行零售客戶一直以來都表現出明顯的“二八定律”,更有甚者可能出現“一九定律”,即銀行20%的零售客戶貢獻了80%的零售利潤[3],20%的客戶一般為各家銀行的優質客戶,是各家銀行重點維護的對象,所以各家銀行在努力拓展新的優質客戶的同時,有效防止存量客戶資產下降同樣重要。有相關研究表明,客戶流失率下降5%,能給銀行多帶來25%~85%的零售利潤[4]。挽回一個老客戶所花費的成本遠遠低于拓展一個新客戶,因此如何找出影響客戶流失的關鍵因素,精準預測客戶流失的可能性,是各家銀行挽回客戶的核心。
近年來,隨著客戶流失預警越來越被關注,國內外相關學者也對此進行了很多的研究,不斷提高模型預測的準確性。張宇[5]使用C5.0分析了企業客戶流失預測模型。Prasad 和Madhavi[6]分別用CART和C5.0兩種方法分析了銀行業客戶流失情況。丁君美[7]使用隨機森林分析了電信業客戶流失問題。楊力[8]采用極限學習機分析了電子商務客戶流失量預測模型。為了克服客戶流失數據集的不平衡性,Lemmens和Croux[9]引入了集成學習;Nikulin和Mclachlan[10]提出用平衡的隨機數據集為不平衡的客戶流失數據進行分類;Karthik[11]將屬性選擇引入了客戶流失模型中。
為了提高預測的準確率,一般需要進行屬性選擇,屬性約簡可以減少樣本空間維數,剔除無關的、影響較小的屬性,提高預測的準確率。而聚類是屬性選擇的一種方式,通過聚類將相似的一類屬性聚在一起,然后在每一類中選擇代表屬性,構成屬性子集,使用屬性子集進行預測。該文擬計算屬性區分能力,將其作為相似性度量依據,然后使用Affinity Propagation Clustering(AP)[12-13]聚類方法進行聚類。達到屬性選擇的目的。
從現有研究來看,各項研究主要集中在針對模型預測準確性的提高,缺乏根據銀行實際營銷過程中關注的重點客群進行流失研究,因此針對銀行實際關注的客群進行流失模型的建立,對流失客戶的挽回有著更加重要的意義。
綜上,針對銀行實際關注的客群進行流失挽回,對各家銀行具有重要意義。該文與以往研究稍有不同,以某商業銀行為例,根據銀行實際營銷現狀,重新對客戶流失進行定義,重點關注銀行優質客戶,并利用隨機森林方法建立客戶流失預警模型,預測零售優質客戶未來3個月流失的可能性。
AP聚類算法是由Freya等人在2007年提出的一種快速、有效的聚類方法,該方法通過消息傳遞實現聚類,無需事先指定聚類數目。實際上對于很多的實際問題,是無法事先知道聚類個數的。
AP算法用歐氏距離衡量相似性,任意兩點xi與xk之間的相似度為:

(1)
AP算法引入兩類信息:吸引信息r(i,k),是從xi指向候選代表點xk,反映了xk適合作為xi的類代表點所積累的證據;歸屬信息a(i,k),是從候選代表點xk指向xi,反映了xi選擇xk作為其代表點的合適程度所聚類的證據。迭代中,這兩個信息交替更新:
r(i,k)←

(2)
a(i,k')←

(3)
在AP算法中引入阻尼因子λ(λ∈[0,1]),阻尼因子能夠提高收斂性,克服迭代中的震蕩現象,每一次的迭代更新均由上次迭代結果和本次更新得到。
r(τ+1)(i,k)←
(1-λ)r(τ+1)(i,k)+λr(τ)(i,k)
(4)
a(τ+1)(i,k)←
(1-λ)a(τ+1)(i,k)+λa(τ)(i,k)
(5)
其中,τ為當前迭代時刻,通過a(i,k)和r(i,k)的交替更新,所確定的最優類代表點為:

(6)
屬性選擇采用屬性的區分能力來度量屬性相似性,利用聚類方法將屬性區分能力相似的屬性聚為同一類簇,然后選取各類簇的聚類中心屬性作為代表屬性,那么,所有類簇的代表屬性集合即為屬性集合的約簡結果[14]。具體步驟如下:
(1)數據離散化;
(2)計算條件屬性對決策屬性的重要度作為屬性的區分能力;
(3)采用AP算法將相似性屬性聚為一類;
(4)將聚類后的類簇聚類中心作為代表屬性;
(5)所有類簇的代表屬性集合即為屬性約簡集合。
隨機森林RF(random forest)是一種基于集成學習的算法[15],是一個包含多個決策樹的分類器,將多棵決策樹集成起來,得到最終的分類結果。隨機森林從N個樣本中采用可放回抽樣方法重復抽取N個樣本,每個決策樹的節點從所有屬性m中隨機選擇p(p?m)個屬性,使用Gini指數生成非剪枝的CART決策樹。采用上述方法構造多棵決策樹,將這些決策樹集合起來構成隨機森林。隨機森林先采用隨機抽樣方法抽取樣本,然后隨機選擇分類屬性,因此,隨機森林不會產生過擬合現象。
隨機森林的算法如下所述:
(1)假設存在數據集D={xi1,xi2,…,xim,yi}(i∈[1,N]),采用Bootstraping方法從N個訓練樣本中有放回地抽取N個訓練樣本,共進行k輪,得到k個訓練集。
(2)在每個訓練集上,從m個屬性中隨機選擇p個屬性,每個抽樣訓練集為dj={xi1,xi2,…,xip,yi}(i∈[1,N]),j∈[1,k],共訓練生成k棵CART決策樹hj(x),j∈[1,k]。
(3)采用多數投票法,對k個決策樹的分類結果進行集成,得到最終的分類結果,H(x)=φ(hj(x)),j∈[1,k],其中φ(x)是多數投票法。
具體流程見圖1[16]。

圖1 隨機森林模型構造流程
為了驗證隨機森林方法優于一般的分類算法,該文在UCI標準數據集上進行驗證。
數據集如表1所示。

表1 實驗所用數據集情況
分別使用CART算法和隨機森林(RF)在上述數據集上進行驗證,結果如表2所示。

表2 CART與隨機森林在UCI數據集上的實驗結果
從表2可以看出,采用隨機森林方法在準確率、精確率、召回率和F值上均優于單個分類算法CART,因此該文采用隨機森林方法來搭建銀行客戶流失模型。
該文將AP聚類算法和隨機森林用于某商業銀行的零售優質客戶流失預警,預測未來3個月客戶流失的可能性,并與CART決策樹方法進行對比分析。其中優質客戶指月日均資產大于等于5萬元以上的客戶。
2.2.1 構造數據集
本次研究以某商業銀行零售客戶流失預警數據進行實證研究,數據時間窗口為2018年7月到2019年3月。2018年7~12月設定為觀察期,2019年1~3月設定為表現期。流失客戶的定義:客戶T月月日均資產達到5萬及以上,后三個月(T+1,T+2,T+3)月日均資產均較T月下降30%以上。
為保證模型數據的有效性,該文從某商業銀行所有樣本中隨機挑選了10萬條樣本數據,并保證樣本的正負樣本與商業銀行總體樣本分布一致。由于流失客戶數據集是不平衡數據集,而不平衡數據集對模型預測效果是有影響的,為了消除不平衡數據集對模型的影響,采用隨機向上(過)采樣技術(random over sampling,ROS)平衡訓練樣本集中不同類別的樣本數量。
2.2.2 模型指標構建
從業務的角度出發,根據影響零售客戶流失的因素,結合指標的數據質量,從客戶基本信息、交易信息、資產負債信息、簽約信息、偏好信息、渠道信息以及其他關聯信息等角度選取了181個影響指標,作為本次模型構建的初始指標。
在使用隨機森林建模之前,需要先對數據進行預處理,首先對缺失值和異常值進行預處理,例如產品類指標,針對理財余額、定期存款余額存在缺失值的情況取0處理,年齡超過100歲的按100處理,因客戶群體本身為優質客戶,數據質量相對較好,缺失值處理較少。其次將字符型變量轉化為數值型標量,并采用Z-score方法對數據進行標準化處理。
在標準化處理以后,采用基于AP聚類的屬性約簡方法進行屬性選擇,通過對原始的181個指標進行篩選后,最終得到16個指標用于構建隨機森林模型,具體見表3。

表3 影響客戶流失的相關指標
2.2.3 模型評價指標
為了驗證隨機森林模型的實際效果,采用常用的準確率(accuracy)、精確率(precision)、召回率(recall)、F值(F-measure)作為客戶流失模型的評價標準。
設預測為流失的客戶中,tt為實際流失客戶數,tf為實際未流失客戶數;預測為未流失的客戶中,ft為實際流失客戶數,ff為實際未流失客戶數。
準確率為預測正確的客戶數占全部樣本的比例:

(7)
精確率為預測正確的流失客戶占預測為流失客戶比例:

(8)
召回率為預測正確的流失客戶占實際流失客戶的比例:
(9)
F統計值為:

(10)
該文采用5-fold交叉驗證來評估構造的模型。總共進行5次5-fold交叉驗證,驗證結果取平均值作為5次5-fold交叉驗證的結果,具體見表4。

表4 5次5-fold交叉驗證結果 %
同時運用傳統的CART決策樹算法對數據進行預測,與隨機森林進行對比,具體評價指標見表5。從表5中可以看出,隨機森林算法具有較高的準確率,以及較好的精確率、召回率和F值,遠好于CART算法,說明隨機森林模型更加可靠,預測性更好。

表5 隨機森林方法與CART決策樹的對比結果 %
針對銀行實際關注的零售優質客戶群體,重新定義零售流失客戶,并構建了基于AP聚類算法和隨機森林算法的零售客戶流失模型,在銀行零售流失預警的評估結果中表現出較好的效果,在銀行實際運用中具有更加重要的意義。