基于決策樹的銀行目標(biāo)客戶預(yù)測算法

2022-09-21 07:55:26夏安林杜董生盛遠(yuǎn)杰劉貝

電腦知識與技術(shù) 2022年24期

夏安林，杜董生，盛遠(yuǎn)杰，劉貝

(淮陰工學(xué)院，江蘇淮安 223003)

1 引言

互聯(lián)網(wǎng)金融的興起，使人們在日常消費(fèi)中的支付更加便捷，為人們的儲蓄和借貸服務(wù)帶來了極大的方便和高效。在互聯(lián)網(wǎng)金融的沖擊與推動下，傳統(tǒng)銀行既要面對困難，也要面對機(jī)會。為了在日趨激烈的競爭中取得有利地位，傳統(tǒng)銀行應(yīng)從根本上適應(yīng)時代發(fā)展的潮流和需要[1]。由于網(wǎng)絡(luò)金融產(chǎn)品在利率、費(fèi)用、時間等方面相對于傳統(tǒng)銀行理財產(chǎn)品具有明顯的優(yōu)越性，因此，人們更愿意選擇將存款資金投資到網(wǎng)絡(luò)理財產(chǎn)品中，從而導(dǎo)致了銀行客戶資源的大量流失。而銀行是傳統(tǒng)的金融業(yè)，雖然有著龐大的用戶基數(shù)，卻不能完全利用這些數(shù)據(jù)，因此，大量的數(shù)據(jù)并沒有給銀行提供更多的信息，更沒有發(fā)現(xiàn)海量的有用資料。

大數(shù)據(jù)時代，以互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能為代表的信息技術(shù)與各行各業(yè)的結(jié)合越來越緊密，隨著大數(shù)據(jù)對傳統(tǒng)金融行業(yè)的革新，我國傳統(tǒng)銀行面臨著新的機(jī)遇和挑戰(zhàn)[2]。傳統(tǒng)銀行系統(tǒng)具有豐富的數(shù)據(jù)量，但是獲得的信息卻很匱乏，銀行許多重要決策依舊是通過經(jīng)驗(yàn)做出的，而不是根據(jù)通過分析數(shù)據(jù)的結(jié)果科學(xué)決策，因此利用機(jī)器學(xué)習(xí)的方法對數(shù)據(jù)進(jìn)行分析，做出科學(xué)的決策才能使銀行巨大的數(shù)據(jù)庫發(fā)揮真正的作用[3]。

決策樹是一種廣泛應(yīng)用于數(shù)據(jù)挖掘的分類技術(shù)，通過對顧客進(jìn)行歸類、對顧客進(jìn)行顧客關(guān)系的處理，并采用不同的市場策略，理解顧客的需要，降低顧客的損失，并提升企業(yè)的使用效率，降低費(fèi)用，增加效益。

2 決策樹相關(guān)理論

決策樹是一種實(shí)現(xiàn)分治策略的層次數(shù)據(jù)結(jié)構(gòu)[4]。該算法是一種能夠進(jìn)行分類與回歸的高效非參數(shù)學(xué)習(xí)算法。該算法可以從一組具有特點(diǎn)和標(biāo)記的資料中歸納出一套判別準(zhǔn)則，并利用樹型的形式將其表示出來，從而求解出一種歸類與回歸問題，決策樹算法的本質(zhì)是一種圖結(jié)構(gòu)。

決策樹的產(chǎn)生是一個遞推的過程，在三種情況下都會產(chǎn)生回歸。一是目前結(jié)點(diǎn)所含的所有樣品都是一個類，不需要進(jìn)行分類；二是當(dāng)前的屬性集合為空白，或者在全部的數(shù)據(jù)中都具有同樣的屬性值，則將目前的數(shù)據(jù)作為一個葉子的節(jié)點(diǎn)，并且設(shè)置它為數(shù)據(jù)樣本最大的一個分類；三是目前節(jié)點(diǎn)所含的樣本集為空白，無法進(jìn)行分割，因此，將目前節(jié)點(diǎn)作為“葉節(jié)點(diǎn)”，設(shè)置該節(jié)點(diǎn)的類型為其父結(jié)點(diǎn)中數(shù)據(jù)樣本最大的一個類。

2.1 CART決策樹

CART 決策樹的生成包含分裂，剪枝和樹選擇三個步驟。分裂：分裂過程是一個二叉樹劃分過程，其特征可以是連續(xù)型或離散型的，CART沒有停止準(zhǔn)則，會一直生長下去；剪枝：利用成本復(fù)雜性進(jìn)行修剪，首先從最大的一棵樹中選取子樹，然后對其修剪，直至僅有一棵根結(jié)點(diǎn)為止，最終生成一棵最優(yōu)的決策樹；樹選擇：每個剪樹枝的預(yù)測效果分別采用一組試驗(yàn)集合進(jìn)行評價(也可以用交叉驗(yàn)證)。

CART 決策樹使用“基尼指數(shù)”(Gini index) 來選擇劃分屬性[5]。可以通過基尼值來衡量數(shù)據(jù)集X的純度。假定當(dāng)前樣本集合X中第k類樣本所占的比例為pk(k=1,2,3,…,y)，則基尼值為公式1所示。

Gini(X) 表明了在兩個不同類型標(biāo)簽之間的不一致性的隨機(jī)抽樣的可能性。基尼不純度是指該樣品被選擇的概率乘上錯誤的概率。Gini(X)越小，則數(shù)據(jù)集X的純度越高。當(dāng)一個結(jié)點(diǎn)中所有的樣本都是一個類時，基尼不純度為0。

屬性a的基尼指數(shù)定義為

基尼指數(shù)Gini(X,A)表示經(jīng)過A=a分割后集合X的不確定性。基尼指數(shù)越大，樣本的不確定性就越大。在候選集合A中，選取劃分后基尼指數(shù)最小的特征作為最佳分割屬性，即：

2.2 剪枝

在決策樹學(xué)習(xí)中，剪枝是處理“過擬合”問題的重要方法，為使訓(xùn)練樣本得到最準(zhǔn)確的歸類，需要反復(fù)進(jìn)行分割，導(dǎo)致決策樹中出現(xiàn)大量的分支；在這種情況下，由于學(xué)習(xí)的樣本學(xué)習(xí)太好，以至于將某些特征視為所有的資料都具有的普遍特性，從而造成了過度擬合。決策樹剪枝的基本策略有“前剪枝”和“后剪枝”[6]。

前修剪算法是將決策樹的結(jié)構(gòu)預(yù)先終止而進(jìn)行修剪，因?yàn)樗荒茴A(yù)先得到停止的臨界點(diǎn)，因此不經(jīng)常采用。后修剪技術(shù)是在決策樹發(fā)育成熟后，將一些結(jié)點(diǎn)上的分叉修剪，從而實(shí)現(xiàn)了對大型決策樹的裁剪。最有代表性的后修剪方法是成本復(fù)雜度修剪。其基本思想是：對每個內(nèi)部的結(jié)點(diǎn)進(jìn)行運(yùn)算，假設(shè)結(jié)點(diǎn)的子樹經(jīng)過修剪后，可以得到預(yù)期的錯誤率。在修剪后，如果期望錯誤率增加，就會保持這個子樹，否則就修剪這個子樹。該算法生成了一套修剪過的樹，然后利用一套單獨(dú)的試驗(yàn)系統(tǒng)對樹進(jìn)行評價，最后正確率最高的樹被保留為結(jié)果。

3 基于決策樹算法的銀行客戶預(yù)測

通過對數(shù)據(jù)集的預(yù)處理，采用決策樹模型對數(shù)據(jù)進(jìn)行歸類，并對其進(jìn)行評估、分析，并將其與原始模型進(jìn)行對比，然后利用該模型對數(shù)據(jù)進(jìn)行了預(yù)測。測試流程包括：數(shù)據(jù)預(yù)處理，決策樹分類訓(xùn)練集，用訓(xùn)練后決策樹模型進(jìn)行預(yù)測，并將其輸出。

3.1 數(shù)據(jù)預(yù)處理

該文以銀行機(jī)構(gòu)直接營銷的海量真實(shí)數(shù)據(jù)，分析各類屬性預(yù)測客戶是(1類)否(0類)會購買定期存款(y)，所有決策屬性中還有客服人員與客戶聯(lián)系的信息以及其他屬性。

本數(shù)據(jù)集共有25317行，18列。前幾行示例如表1所示。

表1 數(shù)據(jù)集示例

數(shù)據(jù)說明如表2所示。

表2 數(shù)據(jù)說明

其中，客戶唯一標(biāo)識(ID)和預(yù)測客戶是否會訂購定期存款業(yè)務(wù)(y)不作為分類屬性，則選擇的分類屬性共有16種，選擇預(yù)測屬性一種(y)。在選定了這些屬性之后，每個屬性都會被檢查規(guī)范性和合理性，并且篩選出合格的屬性。

首先區(qū)分出連續(xù)型和離散型屬性，其中連續(xù)型屬性有{age,balance,day,duration,campaign,pdays,previous}，離散型屬性有{job,marital,education,default,housing,loan,contact,month,poutcome}。

對每個連續(xù)屬性繪制箱線圖查看離群點(diǎn)的分布。可以提供數(shù)值型變量的最小值、最大值、四分位數(shù)、中位數(shù)和的值。將n 個數(shù)從小到大排序，四分位數(shù)是四分位置對應(yīng)的數(shù)，以此類推：

下四分位：Q1=(n+1)/4

中分位：Q2=(n+1)/2

上四分位：Q3=3(n+1)/4

四分位距：IQR=Q3-Q1

上界：Q3+1.5IQR

下界：Q1-1.5IQR

通過圖1所示的箱線圖檢查連續(xù)型屬性是否存在離群點(diǎn)。

圖1 決策樹生成流程圖

圖1 連續(xù)型屬性箱線圖

由箱線圖可知：

1)age屬性刪除大于70的記錄。

2)balance刪除大于3763和小于-1965的記錄。

3)duration屬性刪除交流時長大于639秒的記錄。

4)campaign刪除聯(lián)系數(shù)量大于6的記錄。

5)day屬性沒有離群點(diǎn)不做刪除。

6)pdays屬性為客戶最近一次與之前活動聯(lián)系后經(jīng)過的天數(shù)，pdays屬性中有20000 條左右值為-1，剩余越5000 條是不為-1，處于1～854 之間的一些值。這列數(shù)據(jù)的中位數(shù)，上四分位數(shù)，下四分位數(shù)均為-1，如果刪除離群點(diǎn)，這個屬性全為相同值，就沒有意義了，所以不做刪除。

7)previous此活動開始前與客戶的聯(lián)系數(shù)量，previous屬性中有20000 條左右值為0，剩余約5000 條是不為0，處于1～275之間的值，此列屬性的上四分位數(shù)，下四分位數(shù)和中位數(shù)都是0，所以也不做刪除。

對于離散型的變量，存在一些值為unknown的值，首先是進(jìn)行頻率的統(tǒng)計，將少量的數(shù)據(jù)進(jìn)行剔除，大量的刪除會對分類的結(jié)果造成一定的干擾。

離散型的變量中存在值為unknown的有以下屬性:

1)job工作類型，unknown值較少，進(jìn)行刪除。

2)education教育水平，unknown值較少，進(jìn)行刪除。

3)contact聯(lián)系人通信類型，unknown值有7000 多條，為了避免影響結(jié)果，所以不做刪除。

4)poutcome以前的營銷活動的結(jié)果，unknown值有20000多條，為了避免影響結(jié)果，所以不做刪除

不存在unknown值的離散型變量有以下屬性：

1)marital婚姻狀況,三個取值，無異常值。

2)default，二元變量，無異常值。

3)housing是否有住房貸款，二元變量，無異常值。

4)loan是否有個人貸款，二元變量，無異常值。

5)month每年的最后一個聯(lián)系月份，十二個月份，無異常值。

3.2 建模過程

決策樹分類方法適合銀行數(shù)據(jù)量大、數(shù)據(jù)屬性多等特性[7]。以3/4 的數(shù)據(jù)集為訓(xùn)練集合，1/4 的數(shù)據(jù)集作為測試集合，利用混淆矩陣中的各個度量指標(biāo)和ROC 曲線來觀測模型的錯誤率，并對測試集合進(jìn)行預(yù)測。

該文采用CART決策樹，剪枝后決策樹可視化如圖2所示。除了葉節(jié)點(diǎn)之外的所有節(jié)點(diǎn)都由五個部分組成。基于一個特征的值的有關(guān)數(shù)據(jù)的問題。每個問題的答案要么是True，要么就是False，根據(jù)問題答案數(shù)據(jù)點(diǎn)會在該決策樹中移動；gini：基尼不純度；samples：節(jié)點(diǎn)中的數(shù)量；value：每一類別中的數(shù)量；class：節(jié)點(diǎn)中大多數(shù)點(diǎn)的類別。

圖2 決策樹可視化圖

通常使用混淆矩陣來描述決策樹的性能，建模結(jié)果如表3所示。

表3 混淆矩陣

根據(jù)上表混淆矩陣可得以下指標(biāo)：

表4 模型準(zhǔn)確率

其中，精確率為分類正確的數(shù)目與分類器判定為該類的數(shù)目所構(gòu)成的比率，召回率為分類正確的數(shù)目與該類實(shí)際樣品數(shù)量的比率，F(xiàn)1-score是精確率與召回率的協(xié)調(diào)平均。

結(jié)果表明：該模型具有92%的準(zhǔn)確率，但1類樣品中只有30.1%的數(shù)據(jù)被正確分類，從圖3的ROC曲線可以得出ACU 為0.89。因此，所建立的模型不夠完善，需要對其進(jìn)行優(yōu)化，以克服數(shù)據(jù)不平衡的問題[8]。

圖3 ROC曲線

3.3 模型優(yōu)化

采用決策樹對不平衡的數(shù)據(jù)進(jìn)行分類預(yù)測，總體準(zhǔn)確率雖然高，但1 類預(yù)測準(zhǔn)確率偏低；就銀行來說，對1 類數(shù)據(jù)錯誤的判斷會產(chǎn)生很大的影響，在這個案例中，1 類顧客很有可能會訂購銀行的定期存款，但是，模型認(rèn)為顧客不太可能訂購。這種數(shù)據(jù)不均衡的情況下，通常可以用采樣技術(shù)解決。

首先，對數(shù)據(jù)進(jìn)行過采樣、欠采樣、人工合成法進(jìn)行數(shù)據(jù)處理，得到的數(shù)據(jù)如表5所示。

表5 采樣數(shù)據(jù)分布

從表中可以看出，在采樣技術(shù)的作用下，兩種類型的數(shù)據(jù)均得到了平衡，建立決策樹模型，結(jié)果如表6所示。

表6 采樣后模型1類準(zhǔn)確率

由表6可知，模型的總體準(zhǔn)確率相比之前有所降低，但1類樣本召回率有了極大的上升，1類樣本的預(yù)測正確率大幅提高，為了在最小的代價下獲得最優(yōu)的準(zhǔn)確度，一方面考慮1類正確率帶來的客戶效益，另一方面考慮0類正確率帶來的成本效益，因此采用人工合成法處理得到的數(shù)據(jù)集訓(xùn)練模型，由圖4優(yōu)化后ROC曲線可得ACU值提高到0.98，模型測試結(jié)果較為滿意。

圖4 優(yōu)化后ROC曲線

最終得到的決策樹如圖5所示。

圖5 優(yōu)化后決策樹可視化圖

4 結(jié)束語

互聯(lián)網(wǎng)金融的產(chǎn)生與發(fā)展對于銀行業(yè)存款業(yè)務(wù)產(chǎn)生了巨大的沖擊，如何有效地控制成本的同時增加其自身競爭力尤為重要[9]。銀行具有巨大的數(shù)據(jù)庫，對客戶信息挖掘有著極大的優(yōu)勢，對于客戶信息的提取與挖掘?qū)τ阢y行制定差異化策略具有很大的參考意義，在對客戶存款營銷時，如何能夠在成本最小化，利潤最大化的情況下拉到更多存款對于銀行來說有著重要意義。

該文介紹了CART決策樹算法，同時提出了在數(shù)據(jù)預(yù)處理過程中對數(shù)據(jù)缺失值、不一致值、噪聲數(shù)據(jù)的處理及對于不均衡數(shù)據(jù)的處理方法。首先將數(shù)據(jù)進(jìn)行預(yù)處理，剔除了噪聲數(shù)據(jù)以及不一致數(shù)據(jù)，同時運(yùn)用采樣方法解決了不均衡問題，最后運(yùn)用的是CART 算法建立決策樹并最終得到了預(yù)測結(jié)果較好的模型。