999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹的銀行目標(biāo)客戶預(yù)測算法

2022-09-21 07:55:26夏安林杜董生盛遠(yuǎn)杰劉貝
電腦知識與技術(shù) 2022年24期
關(guān)鍵詞:分類銀行模型

夏安林,杜董生,盛遠(yuǎn)杰,劉貝

(淮陰工學(xué)院,江蘇淮安 223003)

1 引言

互聯(lián)網(wǎng)金融的興起,使人們在日常消費(fèi)中的支付更加便捷,為人們的儲蓄和借貸服務(wù)帶來了極大的方便和高效。在互聯(lián)網(wǎng)金融的沖擊與推動下,傳統(tǒng)銀行既要面對困難,也要面對機(jī)會。為了在日趨激烈的競爭中取得有利地位,傳統(tǒng)銀行應(yīng)從根本上適應(yīng)時代發(fā)展的潮流和需要[1]。由于網(wǎng)絡(luò)金融產(chǎn)品在利率、費(fèi)用、時間等方面相對于傳統(tǒng)銀行理財產(chǎn)品具有明顯的優(yōu)越性,因此,人們更愿意選擇將存款資金投資到網(wǎng)絡(luò)理財產(chǎn)品中,從而導(dǎo)致了銀行客戶資源的大量流失。而銀行是傳統(tǒng)的金融業(yè),雖然有著龐大的用戶基數(shù),卻不能完全利用這些數(shù)據(jù),因此,大量的數(shù)據(jù)并沒有給銀行提供更多的信息,更沒有發(fā)現(xiàn)海量的有用資料。

大數(shù)據(jù)時代,以互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能為代表的信息技術(shù)與各行各業(yè)的結(jié)合越來越緊密,隨著大數(shù)據(jù)對傳統(tǒng)金融行業(yè)的革新,我國傳統(tǒng)銀行面臨著新的機(jī)遇和挑戰(zhàn)[2]。傳統(tǒng)銀行系統(tǒng)具有豐富的數(shù)據(jù)量,但是獲得的信息卻很匱乏,銀行許多重要決策依舊是通過經(jīng)驗(yàn)做出的,而不是根據(jù)通過分析數(shù)據(jù)的結(jié)果科學(xué)決策,因此利用機(jī)器學(xué)習(xí)的方法對數(shù)據(jù)進(jìn)行分析,做出科學(xué)的決策才能使銀行巨大的數(shù)據(jù)庫發(fā)揮真正的作用[3]。

決策樹是一種廣泛應(yīng)用于數(shù)據(jù)挖掘的分類技術(shù),通過對顧客進(jìn)行歸類、對顧客進(jìn)行顧客關(guān)系的處理,并采用不同的市場策略,理解顧客的需要,降低顧客的損失,并提升企業(yè)的使用效率,降低費(fèi)用,增加效益。

2 決策樹相關(guān)理論

決策樹是一種實(shí)現(xiàn)分治策略的層次數(shù)據(jù)結(jié)構(gòu)[4]。該算法是一種能夠進(jìn)行分類與回歸的高效非參數(shù)學(xué)習(xí)算法。該算法可以從一組具有特點(diǎn)和標(biāo)記的資料中歸納出一套判別準(zhǔn)則,并利用樹型的形式將其表示出來,從而求解出一種歸類與回歸問題,決策樹算法的本質(zhì)是一種圖結(jié)構(gòu)。

決策樹的產(chǎn)生是一個遞推的過程,在三種情況下都會產(chǎn)生回歸。一是目前結(jié)點(diǎn)所含的所有樣品都是一個類,不需要進(jìn)行分類;二是當(dāng)前的屬性集合為空白,或者在全部的數(shù)據(jù)中都具有同樣的屬性值,則將目前的數(shù)據(jù)作為一個葉子的節(jié)點(diǎn),并且設(shè)置它為數(shù)據(jù)樣本最大的一個分類;三是目前節(jié)點(diǎn)所含的樣本集為空白,無法進(jìn)行分割,因此,將目前節(jié)點(diǎn)作為“葉節(jié)點(diǎn)”,設(shè)置該節(jié)點(diǎn)的類型為其父結(jié)點(diǎn)中數(shù)據(jù)樣本最大的一個類。

2.1 CART決策樹

CART 決策樹的生成包含分裂,剪枝和樹選擇三個步驟。分裂:分裂過程是一個二叉樹劃分過程,其特征可以是連續(xù)型或離散型的,CART沒有停止準(zhǔn)則,會一直生長下去;剪枝:利用成本復(fù)雜性進(jìn)行修剪,首先從最大的一棵樹中選取子樹,然后對其修剪,直至僅有一棵根結(jié)點(diǎn)為止,最終生成一棵最優(yōu)的決策樹;樹選擇:每個剪樹枝的預(yù)測效果分別采用一組試驗(yàn)集合進(jìn)行評價(也可以用交叉驗(yàn)證)。

CART 決策樹使用“基尼指數(shù)”(Gini index) 來選擇劃分屬性[5]。可以通過基尼值來衡量數(shù)據(jù)集X的純度。假定當(dāng)前樣本集合X中第k類樣本所占的比例為pk(k=1,2,3,…,y),則基尼值為公式1所示。

Gini(X) 表明了在兩個不同類型標(biāo)簽之間的不一致性的隨機(jī)抽樣的可能性。基尼不純度是指該樣品被選擇的概率乘上錯誤的概率。Gini(X)越小,則數(shù)據(jù)集X的純度越高。當(dāng)一個結(jié)點(diǎn)中所有的樣本都是一個類時,基尼不純度為0。

屬性a的基尼指數(shù)定義為

基尼指數(shù)Gini(X,A)表示經(jīng)過A=a分割后集合X的不確定性。基尼指數(shù)越大,樣本的不確定性就越大。在候選集合A中,選取劃分后基尼指數(shù)最小的特征作為最佳分割屬性,即:

2.2 剪枝

在決策樹學(xué)習(xí)中,剪枝是處理“過擬合”問題的重要方法,為使訓(xùn)練樣本得到最準(zhǔn)確的歸類,需要反復(fù)進(jìn)行分割,導(dǎo)致決策樹中出現(xiàn)大量的分支;在這種情況下,由于學(xué)習(xí)的樣本學(xué)習(xí)太好,以至于將某些特征視為所有的資料都具有的普遍特性,從而造成了過度擬合。決策樹剪枝的基本策略有“前剪枝”和“后剪枝”[6]。

前修剪算法是將決策樹的結(jié)構(gòu)預(yù)先終止而進(jìn)行修剪,因?yàn)樗荒茴A(yù)先得到停止的臨界點(diǎn),因此不經(jīng)常采用。后修剪技術(shù)是在決策樹發(fā)育成熟后,將一些結(jié)點(diǎn)上的分叉修剪,從而實(shí)現(xiàn)了對大型決策樹的裁剪。最有代表性的后修剪方法是成本復(fù)雜度修剪。其基本思想是:對每個內(nèi)部的結(jié)點(diǎn)進(jìn)行運(yùn)算,假設(shè)結(jié)點(diǎn)的子樹經(jīng)過修剪后,可以得到預(yù)期的錯誤率。在修剪后,如果期望錯誤率增加,就會保持這個子樹,否則就修剪這個子樹。該算法生成了一套修剪過的樹,然后利用一套單獨(dú)的試驗(yàn)系統(tǒng)對樹進(jìn)行評價,最后正確率最高的樹被保留為結(jié)果。

3 基于決策樹算法的銀行客戶預(yù)測

通過對數(shù)據(jù)集的預(yù)處理,采用決策樹模型對數(shù)據(jù)進(jìn)行歸類,并對其進(jìn)行評估、分析,并將其與原始模型進(jìn)行對比,然后利用該模型對數(shù)據(jù)進(jìn)行了預(yù)測。測試流程包括:數(shù)據(jù)預(yù)處理,決策樹分類訓(xùn)練集,用訓(xùn)練后決策樹模型進(jìn)行預(yù)測,并將其輸出。

3.1 數(shù)據(jù)預(yù)處理

該文以銀行機(jī)構(gòu)直接營銷的海量真實(shí)數(shù)據(jù),分析各類屬性預(yù)測客戶是(1類)否(0類)會購買定期存款(y),所有決策屬性中還有客服人員與客戶聯(lián)系的信息以及其他屬性。

本數(shù)據(jù)集共有25317行,18列。前幾行示例如表1所示。

表1 數(shù)據(jù)集示例

數(shù)據(jù)說明如表2所示。

表2 數(shù)據(jù)說明

其中,客戶唯一標(biāo)識(ID)和預(yù)測客戶是否會訂購定期存款業(yè)務(wù)(y)不作為分類屬性,則選擇的分類屬性共有16種,選擇預(yù)測屬性一種(y)。在選定了這些屬性之后,每個屬性都會被檢查規(guī)范性和合理性,并且篩選出合格的屬性。

首先區(qū)分出連續(xù)型和離散型屬性,其中連續(xù)型屬性有{age,balance,day,duration,campaign,pdays,previous},離散型屬性有{job,marital,education,default,housing,loan,contact,month,poutcome}。

對每個連續(xù)屬性繪制箱線圖查看離群點(diǎn)的分布。可以提供數(shù)值型變量的最小值、最大值、四分位數(shù)、中位數(shù)和的值。將n 個數(shù)從小到大排序,四分位數(shù)是四分位置對應(yīng)的數(shù),以此類推:

下四分位:Q1=(n+1)/4

中分位:Q2=(n+1)/2

上四分位:Q3=3(n+1)/4

四分位距:IQR=Q3-Q1

上界:Q3+1.5IQR

下界:Q1-1.5IQR

通過圖1所示的箱線圖檢查連續(xù)型屬性是否存在離群點(diǎn)。

圖1 決策樹生成流程圖

圖1 連續(xù)型屬性箱線圖

由箱線圖可知:

1)age屬性刪除大于70的記錄。

2)balance刪除大于3763和小于-1965的記錄。

3)duration屬性刪除交流時長大于639秒的記錄。

4)campaign刪除聯(lián)系數(shù)量大于6的記錄。

5)day屬性沒有離群點(diǎn)不做刪除。

6)pdays屬性為客戶最近一次與之前活動聯(lián)系后經(jīng)過的天數(shù),pdays屬性中有20000 條左右值為-1,剩余越5000 條是不為-1,處于1~854 之間的一些值。這列數(shù)據(jù)的中位數(shù),上四分位數(shù),下四分位數(shù)均為-1,如果刪除離群點(diǎn),這個屬性全為相同值,就沒有意義了,所以不做刪除。

7)previous此活動開始前與客戶的聯(lián)系數(shù)量,previous屬性中有20000 條左右值為0,剩余約5000 條是不為0,處于1~275之間的值,此列屬性的上四分位數(shù),下四分位數(shù)和中位數(shù)都是0,所以也不做刪除。

對于離散型的變量,存在一些值為unknown的值,首先是進(jìn)行頻率的統(tǒng)計,將少量的數(shù)據(jù)進(jìn)行剔除,大量的刪除會對分類的結(jié)果造成一定的干擾。

離散型的變量中存在值為unknown的有以下屬性:

1)job工作類型,unknown值較少,進(jìn)行刪除。

2)education教育水平,unknown值較少,進(jìn)行刪除。

3)contact聯(lián)系人通信類型,unknown值有7000 多條,為了避免影響結(jié)果,所以不做刪除。

4)poutcome以前的營銷活動的結(jié)果,unknown值有20000多條,為了避免影響結(jié)果,所以不做刪除

不存在unknown值的離散型變量有以下屬性:

1)marital婚姻狀況,三個取值,無異常值。

2)default,二元變量,無異常值。

3)housing是否有住房貸款,二元變量,無異常值。

4)loan是否有個人貸款,二元變量,無異常值。

5)month每年的最后一個聯(lián)系月份,十二個月份,無異常值。

3.2 建模過程

決策樹分類方法適合銀行數(shù)據(jù)量大、數(shù)據(jù)屬性多等特性[7]。以3/4 的數(shù)據(jù)集為訓(xùn)練集合,1/4 的數(shù)據(jù)集作為測試集合,利用混淆矩陣中的各個度量指標(biāo)和ROC 曲線來觀測模型的錯誤率,并對測試集合進(jìn)行預(yù)測。

該文采用CART決策樹,剪枝后決策樹可視化如圖2所示。除了葉節(jié)點(diǎn)之外的所有節(jié)點(diǎn)都由五個部分組成。基于一個特征的值的有關(guān)數(shù)據(jù)的問題。每個問題的答案要么是True,要么就是False,根據(jù)問題答案數(shù)據(jù)點(diǎn)會在該決策樹中移動;gini:基尼不純度;samples:節(jié)點(diǎn)中的數(shù)量;value:每一類別中的數(shù)量;class:節(jié)點(diǎn)中大多數(shù)點(diǎn)的類別。

圖2 決策樹可視化圖

通常使用混淆矩陣來描述決策樹的性能,建模結(jié)果如表3所示。

表3 混淆矩陣

根據(jù)上表混淆矩陣可得以下指標(biāo):

表4 模型準(zhǔn)確率

其中,精確率為分類正確的數(shù)目與分類器判定為該類的數(shù)目所構(gòu)成的比率,召回率為分類正確的數(shù)目與該類實(shí)際樣品數(shù)量的比率,F(xiàn)1-score是精確率與召回率的協(xié)調(diào)平均。

結(jié)果表明:該模型具有92%的準(zhǔn)確率,但1類樣品中只有30.1%的數(shù)據(jù)被正確分類,從圖3的ROC曲線可以得出ACU 為0.89。因此,所建立的模型不夠完善,需要對其進(jìn)行優(yōu)化,以克服數(shù)據(jù)不平衡的問題[8]。

圖3 ROC曲線

3.3 模型優(yōu)化

采用決策樹對不平衡的數(shù)據(jù)進(jìn)行分類預(yù)測,總體準(zhǔn)確率雖然高,但1 類預(yù)測準(zhǔn)確率偏低;就銀行來說,對1 類數(shù)據(jù)錯誤的判斷會產(chǎn)生很大的影響,在這個案例中,1 類顧客很有可能會訂購銀行的定期存款,但是,模型認(rèn)為顧客不太可能訂購。這種數(shù)據(jù)不均衡的情況下,通常可以用采樣技術(shù)解決。

首先,對數(shù)據(jù)進(jìn)行過采樣、欠采樣、人工合成法進(jìn)行數(shù)據(jù)處理,得到的數(shù)據(jù)如表5所示。

表5 采樣數(shù)據(jù)分布

從表中可以看出,在采樣技術(shù)的作用下,兩種類型的數(shù)據(jù)均得到了平衡,建立決策樹模型,結(jié)果如表6所示。

表6 采樣后模型1類準(zhǔn)確率

由表6可知,模型的總體準(zhǔn)確率相比之前有所降低,但1類樣本召回率有了極大的上升,1類樣本的預(yù)測正確率大幅提高,為了在最小的代價下獲得最優(yōu)的準(zhǔn)確度,一方面考慮1類正確率帶來的客戶效益,另一方面考慮0類正確率帶來的成本效益,因此采用人工合成法處理得到的數(shù)據(jù)集訓(xùn)練模型,由圖4優(yōu)化后ROC曲線可得ACU值提高到0.98,模型測試結(jié)果較為滿意。

圖4 優(yōu)化后ROC曲線

最終得到的決策樹如圖5所示。

圖5 優(yōu)化后決策樹可視化圖

4 結(jié)束語

互聯(lián)網(wǎng)金融的產(chǎn)生與發(fā)展對于銀行業(yè)存款業(yè)務(wù)產(chǎn)生了巨大的沖擊,如何有效地控制成本的同時增加其自身競爭力尤為重要[9]。銀行具有巨大的數(shù)據(jù)庫,對客戶信息挖掘有著極大的優(yōu)勢,對于客戶信息的提取與挖掘?qū)τ阢y行制定差異化策略具有很大的參考意義,在對客戶存款營銷時,如何能夠在成本最小化,利潤最大化的情況下拉到更多存款對于銀行來說有著重要意義。

該文介紹了CART決策樹算法,同時提出了在數(shù)據(jù)預(yù)處理過程中對數(shù)據(jù)缺失值、不一致值、噪聲數(shù)據(jù)的處理及對于不均衡數(shù)據(jù)的處理方法。首先將數(shù)據(jù)進(jìn)行預(yù)處理,剔除了噪聲數(shù)據(jù)以及不一致數(shù)據(jù),同時運(yùn)用采樣方法解決了不均衡問題,最后運(yùn)用的是CART 算法建立決策樹并最終得到了預(yù)測結(jié)果較好的模型。

猜你喜歡
分類銀行模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
10Gb/s transmit equalizer using duobinary signaling over FR4 backplane①
保康接地氣的“土銀行”
3D打印中的模型分割與打包
主站蜘蛛池模板: 99视频精品在线观看| 在线免费无码视频| 亚洲一区二区三区在线视频| 亚洲综合天堂网| 国产精品污视频| 国产亚洲欧美在线中文bt天堂 | 国产玖玖玖精品视频| 国产精品久久久久久影院| 亚洲欧州色色免费AV| 国产肉感大码AV无码| 九九热视频精品在线| 无码精品福利一区二区三区| 婷婷久久综合九色综合88| 亚洲综合婷婷激情| 欧美日韩精品在线播放| 久久人搡人人玩人妻精品一| 久久99精品久久久久纯品| 久久人妻xunleige无码| 亚洲视频二| 免费毛片视频| 青青青国产视频手机| 精品国产成人高清在线| 亚洲国产天堂久久综合226114| 成人亚洲国产| 免费精品一区二区h| 伊人色在线视频| 欧美天堂在线| 国产97视频在线观看| 欧美全免费aaaaaa特黄在线| 精品国产美女福到在线不卡f| 一本二本三本不卡无码| 午夜爽爽视频| 9cao视频精品| 特级精品毛片免费观看| 欧美亚洲一区二区三区在线| 国产精品青青| 日韩精品一区二区三区免费在线观看| 试看120秒男女啪啪免费| 九九热精品视频在线| 欧美成人免费一区在线播放| 亚洲美女久久| 香蕉eeww99国产精选播放| 国产美女无遮挡免费视频网站 | 日本亚洲欧美在线| 国产成人精品2021欧美日韩| 久久久久中文字幕精品视频| 国内精品自在自线视频香蕉| 精品国产乱码久久久久久一区二区| 毛片免费试看| 久久亚洲天堂| 亚洲国产系列| 中文字幕久久亚洲一区| 久久人体视频| 日韩在线成年视频人网站观看| 欧美午夜网| 亚洲日韩AV无码一区二区三区人 | 免费aa毛片| 亚洲三级网站| 免费无码AV片在线观看中文| 久久久噜噜噜| 亚洲成人手机在线| 國產尤物AV尤物在線觀看| 亚洲男人天堂2018| 欧美日韩中文国产va另类| 亚洲中文在线看视频一区| 欧美a在线视频| 99热这里只有精品5| 鲁鲁鲁爽爽爽在线视频观看| 亚洲一区二区三区国产精品| 四虎影视永久在线精品| 啪啪国产视频| 久久久波多野结衣av一区二区| 成人福利在线观看| 在线永久免费观看的毛片| 亚洲午夜福利精品无码| 亚洲大学生视频在线播放| 国产小视频免费观看| 国产在线精品99一区不卡| 成人91在线| 国产日本欧美在线观看| 日韩国产精品无码一区二区三区| 天堂久久久久久中文字幕|