999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于AP聚類與隨機森林的客戶流失預測研究

2021-03-08 01:06:10胡永培
計算機技術與發展 2021年2期
關鍵詞:銀行模型

胡永培,張 琛

(1.徽商銀行 大數據部,安徽 合肥 230601;2.合肥學院 人工智能與大數據學院,安徽 合肥 230601)

0 引 言

隨著大數據、人工智能、區塊鏈技術的快速發展,利率市場化進程不斷推進,銀行利差在逐漸收窄,傳統的經營模式已不能滿足日益變化的市場需要,各家銀行紛紛開展數字化轉型[1-2],銀行零售業務板塊表現的尤為迫切。

各家銀行零售客戶一直以來都表現出明顯的“二八定律”,更有甚者可能出現“一九定律”,即銀行20%的零售客戶貢獻了80%的零售利潤[3],20%的客戶一般為各家銀行的優質客戶,是各家銀行重點維護的對象,所以各家銀行在努力拓展新的優質客戶的同時,有效防止存量客戶資產下降同樣重要。有相關研究表明,客戶流失率下降5%,能給銀行多帶來25%~85%的零售利潤[4]。挽回一個老客戶所花費的成本遠遠低于拓展一個新客戶,因此如何找出影響客戶流失的關鍵因素,精準預測客戶流失的可能性,是各家銀行挽回客戶的核心。

近年來,隨著客戶流失預警越來越被關注,國內外相關學者也對此進行了很多的研究,不斷提高模型預測的準確性。張宇[5]使用C5.0分析了企業客戶流失預測模型。Prasad 和Madhavi[6]分別用CART和C5.0兩種方法分析了銀行業客戶流失情況。丁君美[7]使用隨機森林分析了電信業客戶流失問題。楊力[8]采用極限學習機分析了電子商務客戶流失量預測模型。為了克服客戶流失數據集的不平衡性,Lemmens和Croux[9]引入了集成學習;Nikulin和Mclachlan[10]提出用平衡的隨機數據集為不平衡的客戶流失數據進行分類;Karthik[11]將屬性選擇引入了客戶流失模型中。

為了提高預測的準確率,一般需要進行屬性選擇,屬性約簡可以減少樣本空間維數,剔除無關的、影響較小的屬性,提高預測的準確率。而聚類是屬性選擇的一種方式,通過聚類將相似的一類屬性聚在一起,然后在每一類中選擇代表屬性,構成屬性子集,使用屬性子集進行預測。該文擬計算屬性區分能力,將其作為相似性度量依據,然后使用Affinity Propagation Clustering(AP)[12-13]聚類方法進行聚類。達到屬性選擇的目的。

從現有研究來看,各項研究主要集中在針對模型預測準確性的提高,缺乏根據銀行實際營銷過程中關注的重點客群進行流失研究,因此針對銀行實際關注的客群進行流失模型的建立,對流失客戶的挽回有著更加重要的意義。

綜上,針對銀行實際關注的客群進行流失挽回,對各家銀行具有重要意義。該文與以往研究稍有不同,以某商業銀行為例,根據銀行實際營銷現狀,重新對客戶流失進行定義,重點關注銀行優質客戶,并利用隨機森林方法建立客戶流失預警模型,預測零售優質客戶未來3個月流失的可能性。

1 相關算法

1.1 AP聚類

AP聚類算法是由Freya等人在2007年提出的一種快速、有效的聚類方法,該方法通過消息傳遞實現聚類,無需事先指定聚類數目。實際上對于很多的實際問題,是無法事先知道聚類個數的。

AP算法用歐氏距離衡量相似性,任意兩點xi與xk之間的相似度為:

(1)

AP算法引入兩類信息:吸引信息r(i,k),是從xi指向候選代表點xk,反映了xk適合作為xi的類代表點所積累的證據;歸屬信息a(i,k),是從候選代表點xk指向xi,反映了xi選擇xk作為其代表點的合適程度所聚類的證據。迭代中,這兩個信息交替更新:

r(i,k)←

(2)

a(i,k')←

(3)

在AP算法中引入阻尼因子λ(λ∈[0,1]),阻尼因子能夠提高收斂性,克服迭代中的震蕩現象,每一次的迭代更新均由上次迭代結果和本次更新得到。

r(τ+1)(i,k)←

(1-λ)r(τ+1)(i,k)+λr(τ)(i,k)

(4)

a(τ+1)(i,k)←

(1-λ)a(τ+1)(i,k)+λa(τ)(i,k)

(5)

其中,τ為當前迭代時刻,通過a(i,k)和r(i,k)的交替更新,所確定的最優類代表點為:

(6)

1.2 基于AP聚類的屬性選擇方法

屬性選擇采用屬性的區分能力來度量屬性相似性,利用聚類方法將屬性區分能力相似的屬性聚為同一類簇,然后選取各類簇的聚類中心屬性作為代表屬性,那么,所有類簇的代表屬性集合即為屬性集合的約簡結果[14]。具體步驟如下:

(1)數據離散化;

(2)計算條件屬性對決策屬性的重要度作為屬性的區分能力;

(3)采用AP算法將相似性屬性聚為一類;

(4)將聚類后的類簇聚類中心作為代表屬性;

(5)所有類簇的代表屬性集合即為屬性約簡集合。

1.3 隨機森林

隨機森林RF(random forest)是一種基于集成學習的算法[15],是一個包含多個決策樹的分類器,將多棵決策樹集成起來,得到最終的分類結果。隨機森林從N個樣本中采用可放回抽樣方法重復抽取N個樣本,每個決策樹的節點從所有屬性m中隨機選擇p(p?m)個屬性,使用Gini指數生成非剪枝的CART決策樹。采用上述方法構造多棵決策樹,將這些決策樹集合起來構成隨機森林。隨機森林先采用隨機抽樣方法抽取樣本,然后隨機選擇分類屬性,因此,隨機森林不會產生過擬合現象。

隨機森林的算法如下所述:

(1)假設存在數據集D={xi1,xi2,…,xim,yi}(i∈[1,N]),采用Bootstraping方法從N個訓練樣本中有放回地抽取N個訓練樣本,共進行k輪,得到k個訓練集。

(2)在每個訓練集上,從m個屬性中隨機選擇p個屬性,每個抽樣訓練集為dj={xi1,xi2,…,xip,yi}(i∈[1,N]),j∈[1,k],共訓練生成k棵CART決策樹hj(x),j∈[1,k]。

(3)采用多數投票法,對k個決策樹的分類結果進行集成,得到最終的分類結果,H(x)=φ(hj(x)),j∈[1,k],其中φ(x)是多數投票法。

具體流程見圖1[16]。

圖1 隨機森林模型構造流程

2 基于隨機森林的銀行優質客戶流失預測方法研究

2.1 隨機森林在UCI數據集上的驗證

為了驗證隨機森林方法優于一般的分類算法,該文在UCI標準數據集上進行驗證。

數據集如表1所示。

表1 實驗所用數據集情況

分別使用CART算法和隨機森林(RF)在上述數據集上進行驗證,結果如表2所示。

表2 CART與隨機森林在UCI數據集上的實驗結果

從表2可以看出,采用隨機森林方法在準確率、精確率、召回率和F值上均優于單個分類算法CART,因此該文采用隨機森林方法來搭建銀行客戶流失模型。

2.2 基于隨機森林的銀行優質客戶流失預測方法研究

該文將AP聚類算法和隨機森林用于某商業銀行的零售優質客戶流失預警,預測未來3個月客戶流失的可能性,并與CART決策樹方法進行對比分析。其中優質客戶指月日均資產大于等于5萬元以上的客戶。

2.2.1 構造數據集

本次研究以某商業銀行零售客戶流失預警數據進行實證研究,數據時間窗口為2018年7月到2019年3月。2018年7~12月設定為觀察期,2019年1~3月設定為表現期。流失客戶的定義:客戶T月月日均資產達到5萬及以上,后三個月(T+1,T+2,T+3)月日均資產均較T月下降30%以上。

為保證模型數據的有效性,該文從某商業銀行所有樣本中隨機挑選了10萬條樣本數據,并保證樣本的正負樣本與商業銀行總體樣本分布一致。由于流失客戶數據集是不平衡數據集,而不平衡數據集對模型預測效果是有影響的,為了消除不平衡數據集對模型的影響,采用隨機向上(過)采樣技術(random over sampling,ROS)平衡訓練樣本集中不同類別的樣本數量。

2.2.2 模型指標構建

從業務的角度出發,根據影響零售客戶流失的因素,結合指標的數據質量,從客戶基本信息、交易信息、資產負債信息、簽約信息、偏好信息、渠道信息以及其他關聯信息等角度選取了181個影響指標,作為本次模型構建的初始指標。

在使用隨機森林建模之前,需要先對數據進行預處理,首先對缺失值和異常值進行預處理,例如產品類指標,針對理財余額、定期存款余額存在缺失值的情況取0處理,年齡超過100歲的按100處理,因客戶群體本身為優質客戶,數據質量相對較好,缺失值處理較少。其次將字符型變量轉化為數值型標量,并采用Z-score方法對數據進行標準化處理。

在標準化處理以后,采用基于AP聚類的屬性約簡方法進行屬性選擇,通過對原始的181個指標進行篩選后,最終得到16個指標用于構建隨機森林模型,具體見表3。

表3 影響客戶流失的相關指標

2.2.3 模型評價指標

為了驗證隨機森林模型的實際效果,采用常用的準確率(accuracy)、精確率(precision)、召回率(recall)、F值(F-measure)作為客戶流失模型的評價標準。

設預測為流失的客戶中,tt為實際流失客戶數,tf為實際未流失客戶數;預測為未流失的客戶中,ft為實際流失客戶數,ff為實際未流失客戶數。

準確率為預測正確的客戶數占全部樣本的比例:

(7)

精確率為預測正確的流失客戶占預測為流失客戶比例:

(8)

召回率為預測正確的流失客戶占實際流失客戶的比例:

(9)

F統計值為:

(10)

2.3 實驗結果

該文采用5-fold交叉驗證來評估構造的模型。總共進行5次5-fold交叉驗證,驗證結果取平均值作為5次5-fold交叉驗證的結果,具體見表4。

表4 5次5-fold交叉驗證結果 %

同時運用傳統的CART決策樹算法對數據進行預測,與隨機森林進行對比,具體評價指標見表5。從表5中可以看出,隨機森林算法具有較高的準確率,以及較好的精確率、召回率和F值,遠好于CART算法,說明隨機森林模型更加可靠,預測性更好。

表5 隨機森林方法與CART決策樹的對比結果 %

3 結束語

針對銀行實際關注的零售優質客戶群體,重新定義零售流失客戶,并構建了基于AP聚類算法和隨機森林算法的零售客戶流失模型,在銀行零售流失預警的評估結果中表現出較好的效果,在銀行實際運用中具有更加重要的意義。

猜你喜歡
銀行模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
10Gb/s transmit equalizer using duobinary signaling over FR4 backplane①
中關村銀行、蘇寧銀行獲批籌建 三湘銀行將開業
銀行家(2017年1期)2017-02-15 20:27:53
保康接地氣的“土銀行”
3D打印中的模型分割與打包
“存夢銀行”破產記
銀行激進求變
上海國資(2015年8期)2015-12-23 01:47:31
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 九九热在线视频| 丰满的少妇人妻无码区| 欧美午夜视频| 久久国产热| 国产精品yjizz视频网一二区| 色香蕉网站| 亚洲一区二区三区国产精华液| 丁香婷婷激情综合激情| 国产a v无码专区亚洲av| 午夜国产在线观看| 97国产精品视频人人做人人爱| 国产精品久久精品| 成人福利在线看| 在线毛片网站| 亚洲欧美日韩精品专区| 四虎影视8848永久精品| 97se亚洲综合| 成人自拍视频在线观看| 国产99久久亚洲综合精品西瓜tv| 久久国语对白| 欧美亚洲一区二区三区导航| 久久国产精品电影| 日韩欧美成人高清在线观看| 久久黄色免费电影| 天天色综网| 国产精品99在线观看| 99视频在线免费| 国产日韩欧美中文| 亚洲免费毛片| 久久综合伊人77777| 欧美日韩中文国产| 亚洲成在人线av品善网好看| 国产激情影院| 成人一级免费视频| 亚洲天堂2014| 曰AV在线无码| 欧美精品伊人久久| 国产黑丝视频在线观看| 亚洲天堂网2014| 婷婷中文在线| 国产乱子精品一区二区在线观看| 干中文字幕| 欧美日韩中文字幕在线| 国产特一级毛片| 色综合热无码热国产| 免费精品一区二区h| 无码国产伊人| 久久人人97超碰人人澡爱香蕉| 亚洲一级毛片免费看| 波多野结衣中文字幕一区二区| 伊人久久大线影院首页| 日本a级免费| 国产青榴视频| 亚洲色图欧美在线| 欧美a在线视频| 亚洲欧美国产视频| 日韩免费成人| 国产亚卅精品无码| 国产精品护士| 亚洲天堂伊人| 免费全部高H视频无码无遮掩| 精品乱码久久久久久久| 伊人久综合| 中文字幕一区二区人妻电影| 青青草国产一区二区三区| 亚洲人成网站色7777| 在线看免费无码av天堂的| 91免费国产在线观看尤物| 99视频国产精品| 成人在线综合| 高h视频在线| 成人毛片在线播放| 国产小视频a在线观看| 国产精品亚洲专区一区| 毛片在线区| 日韩毛片免费| 四虎永久免费地址在线网站 | 精品自窥自偷在线看| 国产精品自在自线免费观看| 永久免费av网站可以直接看的| 夜精品a一区二区三区| 色综合久久无码网|