999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹算法的銀行信用評(píng)分

2012-10-13 13:46:32石振華
關(guān)鍵詞:數(shù)據(jù)挖掘信息

石振華

(貴州大學(xué) 人民武裝學(xué)院,貴州 貴陽 550025)

基于決策樹算法的銀行信用評(píng)分

石振華

(貴州大學(xué) 人民武裝學(xué)院,貴州 貴陽 550025)

銀行卡在給銀行創(chuàng)造了高額利潤的同時(shí),也帶來了很大的信用風(fēng)險(xiǎn).對于銀行來說,嚴(yán)格把控信用申請者,對其進(jìn)行有效的信用評(píng)分和預(yù)測十分關(guān)鍵.采用數(shù)據(jù)挖掘技術(shù)中的決策樹算法能有效屏蔽銀行信用評(píng)估中的主觀因素,通過海量數(shù)據(jù)預(yù)處理、決策樹生成等步驟,最后通過相關(guān)算法實(shí)現(xiàn)能客觀地形成預(yù)測值,從而準(zhǔn)確地進(jìn)行信用評(píng)分.

信用評(píng)分;決策樹;算法

1 引言

在個(gè)人消費(fèi)信貸已經(jīng)成為人們慣常消費(fèi)方式的今天,信用卡業(yè)務(wù)越發(fā)體現(xiàn)了其高額利潤和巨大的市場空間,中國的各大商業(yè)銀行也都在加快速度增加在銀行卡業(yè)務(wù)上的投入.但是這樣廣泛的開發(fā)信用卡市場最大的問題就在于高利潤必然伴隨著高風(fēng)險(xiǎn),對信用卡的風(fēng)險(xiǎn)控制逐漸成為一個(gè)關(guān)注重點(diǎn).

伴隨著計(jì)算機(jī)及網(wǎng)絡(luò)的迅速發(fā)展,信用評(píng)分廣泛應(yīng)用于銀行卡發(fā)放,但信用評(píng)分只能主觀地對信用卡申請者進(jìn)行評(píng)估,缺乏合理依據(jù).采用數(shù)據(jù)挖掘技術(shù)進(jìn)行信用評(píng)分能客觀地從海量數(shù)據(jù)中構(gòu)建出評(píng)分模型,評(píng)分結(jié)果更為準(zhǔn)確、有效,有助于信用卡的發(fā)放及管理.

2 基于數(shù)據(jù)挖掘技術(shù)的信用評(píng)分

使用數(shù)據(jù)挖掘方法中的決策樹算法[1]實(shí)現(xiàn)信用卡申請者的信用評(píng)分.下面就該算法的生成過程、構(gòu)造算法、以及具體實(shí)現(xiàn)算法進(jìn)行詳細(xì)介紹,重點(diǎn)敘述該算法運(yùn)用于信用評(píng)分的過程.

2.1 客戶數(shù)據(jù)的預(yù)處理

從銀行的客戶信息數(shù)據(jù)庫中提取相應(yīng)記錄.在客戶信息表中,有很多屬性雜亂無章或者特征不顯著,在數(shù)據(jù)預(yù)處理時(shí)要經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)集成及轉(zhuǎn)換、數(shù)據(jù)消減等步驟,將所有特征屬性進(jìn)行概化,為下一步生成合理、準(zhǔn)確的決策樹做準(zhǔn)備.

2.1.1 數(shù)據(jù)清洗

在客戶信息記錄中,有大量數(shù)據(jù)取值離散并且無共性特征,還有一些數(shù)據(jù)可以用另外一些屬性值來概括,那么就可以刪除掉這些無用數(shù)據(jù).得到屬性如下表1所示.

表1 個(gè)人信用數(shù)據(jù)表

在個(gè)人信用評(píng)估的輸入要素中,有“年齡”、“年收入”2個(gè)屬性的屬性值為連續(xù)型數(shù)據(jù).

2.1.2 數(shù)據(jù)集成及轉(zhuǎn)換

將屬性逐一進(jìn)行概化,例如:文化程度分為4類;職業(yè)類別按工作性質(zhì)來分,共分9類.另外,決策樹技術(shù)進(jìn)行信用評(píng)分主要是針對離散型數(shù)據(jù)進(jìn)行分析處理,所以需要將連續(xù)型數(shù)據(jù)離散化,故而進(jìn)行以下調(diào)整:將年收入分為7組離散型數(shù)據(jù);對年齡可分為五組連續(xù)性數(shù)據(jù).

2.1.3 數(shù)據(jù)消減

對大規(guī)模數(shù)據(jù)庫內(nèi)容進(jìn)行復(fù)雜的數(shù)據(jù)分析通常需要耗費(fèi)大量的時(shí)間,這就常常使得這樣的分析變得不現(xiàn)實(shí)和不可行,尤其是需要交互式數(shù)據(jù)挖掘時(shí).數(shù)據(jù)消減能從原有龐大數(shù)據(jù)集中獲得一個(gè)精簡的數(shù)據(jù)集合,并保持原有數(shù)據(jù)集的完整性.通過檢測和消除無關(guān)、弱相關(guān)或冗余的屬性達(dá)到消減的目的.

2.1.4 客戶劃分

擬選客戶管理特征作為建模的目標(biāo)變量.客戶的管理特征分為優(yōu)良客戶、一般客戶、限制客戶和淘汰客戶.本文的建模目標(biāo)只是劃分為三類:H1:好客戶;H2:一般客戶;H3:淘汰客戶.

2.2 決策樹生成[2]

在數(shù)據(jù)預(yù)處理后,進(jìn)行歸納決策樹.用信息增益率來選擇屬性,它克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足,在樹構(gòu)造過程中或者構(gòu)造完成之后,進(jìn)行剪枝,完成對連續(xù)屬性的離散化處理并對于不完整數(shù)據(jù)進(jìn)行處理,采用的知識(shí)表示形式為決策樹,并最終可以形成產(chǎn)生式規(guī)則.決策樹算法的主要處理過程如下:

2.2.1 類別信息值

設(shè) T 為數(shù)據(jù)集,類別集合為 Ci(i=1,2,……,m),Ti為類別集合Ci中的樣本數(shù),計(jì)算公式為:

其中Pi是類別Ci的發(fā)生概率,可以用Ti/T來估計(jì).本例中,客戶分為“好客戶”、“一般客戶”和“淘汰客戶”3類:m=3.

2.2.2 類別條件值

設(shè)屬性T具有v個(gè)值(X1,X2……Xv),它將T分成v個(gè)子集(S1,S2……Sv),其中Tj包含T中這樣的一些樣本,它們在屬性X上具有值Xj(j=1,2,……v),以屬性 X為分類所需的期望值(條件值)是:

2.2.3 信息增益和信息增益率

屬性X的信息增益函數(shù)為:

信息增益率可以彌補(bǔ)信息增益函數(shù)輸出分枝多,預(yù)測不準(zhǔn)確這個(gè)缺陷.信息增益率能夠去除多分枝屬性的影響.信息增益率在考慮每一次劃分所產(chǎn)生的子結(jié)點(diǎn)的個(gè)數(shù)的同時(shí)也限制了每個(gè)子結(jié)點(diǎn)的大小(包含的數(shù)據(jù)實(shí)例的個(gè)數(shù)),而不再考慮分類所蘊(yùn)涵的信息量,屬性X的信息增益率為:

其中V為該節(jié)點(diǎn)的分枝數(shù),且為第1個(gè)分枝下的記錄個(gè)數(shù).

2.2.4 決策樹規(guī)則

根據(jù)以上決策樹算法,計(jì)算出每個(gè)屬性的信息增益I(C,V)以及信息增益率Gaingate(X),在決策樹生成規(guī)則時(shí),應(yīng)該選取信息增益率為最大值的屬性,但信息增益的最小值不低于所有屬性平均值的屬性作為測試點(diǎn),以該屬性作為根結(jié)點(diǎn),根據(jù)屬性的分布逐一畫出分枝,據(jù)此劃分?jǐn)?shù)據(jù).樹葉是所有樣本都在同一個(gè)類的結(jié)點(diǎn),需進(jìn)行標(biāo)注,可用客戶類別進(jìn)行標(biāo)注.按照該原則逐步分析,當(dāng)分析到在主屬性上子集中的數(shù)據(jù)記錄取值完全相同,或者屬性已經(jīng)劃分完畢,則形成決策樹對應(yīng)規(guī)則.

2.3 算法設(shè)計(jì)

采用面向?qū)ο蟮姆椒ㄟM(jìn)行算法程序的設(shè)計(jì),決策樹部分代碼如下:

從該評(píng)分模型的決策樹算法的剖析中,可以看出決策樹的第一個(gè)選擇屬性是年收入,說明年收入是第一個(gè)主要的影響因素,這與平常經(jīng)驗(yàn)統(tǒng)計(jì)判斷所得結(jié)果相吻合.而對于高收入群體主要取決于受教育的情況,受教育程度高則信用情況相對較好,根據(jù)大量數(shù)據(jù)得到準(zhǔn)確結(jié)論.

3 結(jié)論

數(shù)據(jù)挖掘技術(shù)正在被越來越多的銀行大力投入應(yīng)用,數(shù)據(jù)挖掘技術(shù)的正確使用能幫助銀行改善包括銀行卡業(yè)務(wù)在內(nèi)的各種類型的業(yè)務(wù),并且能增強(qiáng)銀行風(fēng)險(xiǎn)管理、增進(jìn)銀行與客戶的關(guān)系,提高競爭力.運(yùn)用建立的決策樹模型對銀行卡用戶進(jìn)行信用評(píng)分,分值高于或等于臨界分值(C1=76)的用戶將獲得通過,并給予較高的信用額度;信用分值低于臨界分值(C0=59)的用戶將被直接拒絕.而信用分值低于臨界分值(C1=76),但高于或等于臨界分值(C0=59)的用戶也將獲得通過,但只給予較低的信用額度,在今后的使用中銀行會(huì)根據(jù)實(shí)際用卡情況進(jìn)行實(shí)時(shí)的數(shù)據(jù)挖掘采取相關(guān)的營銷策略,這樣銀行可以實(shí)現(xiàn)“低風(fēng)險(xiǎn)、高回報(bào)”.最終最大限度的規(guī)避銀行卡發(fā)放的風(fēng)險(xiǎn),有效地為銀行卡業(yè)務(wù)保駕護(hù)航!

〔1〕朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2008.

〔2〕陳文偉.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002.

F830.589

A

1673-260X(2012)01-0075-02

猜你喜歡
數(shù)據(jù)挖掘信息
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
展會(huì)信息
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲国产精品VA在线看黑人| 成人日韩视频| 99热这里只有精品在线观看| 性欧美精品xxxx| 欧美成人手机在线视频| 欧美伦理一区| 日韩欧美综合在线制服| 中文字幕va| 二级毛片免费观看全程| 日韩免费毛片视频| 日韩精品欧美国产在线| 日本高清有码人妻| 最新午夜男女福利片视频| 国产日韩丝袜一二三区| 国产资源免费观看| 久久99国产综合精品女同| 日韩在线网址| 欧美成人看片一区二区三区 | 欧美日韩成人在线观看| 在线欧美国产| 热99re99首页精品亚洲五月天| 青草视频免费在线观看| 成人精品视频一区二区在线| 亚洲欧美日韩色图| 在线视频精品一区| 一本色道久久88亚洲综合| 视频一本大道香蕉久在线播放| 国产成人高精品免费视频| 亚洲国产91人成在线| 毛片网站观看| 一区二区三区四区精品视频 | 精品视频一区二区三区在线播| 国产在线自乱拍播放| 人妻一区二区三区无码精品一区| 国产成人喷潮在线观看| 无码区日韩专区免费系列| 久久亚洲美女精品国产精品| 国产99精品视频| 国产精品永久久久久| 日韩中文无码av超清| 亚洲无码高清免费视频亚洲| 国产理论一区| 72种姿势欧美久久久大黄蕉| 青青青视频蜜桃一区二区| 最新国语自产精品视频在| 国产精品免费入口视频| 91视频日本| 好吊日免费视频| 精品国产福利在线| 91热爆在线| 欧美性爱精品一区二区三区| 国产菊爆视频在线观看| 精品久久香蕉国产线看观看gif | 国产99视频精品免费观看9e| 色综合狠狠操| 免费在线视频a| 亚洲成人免费在线| 国产精品高清国产三级囯产AV| 一本久道久综合久久鬼色 | 在线色国产| 亚洲an第二区国产精品| 久久精品中文字幕免费| 亚洲国产无码有码| 国产chinese男男gay视频网| 日本高清在线看免费观看| 波多野结衣一区二区三视频| 2020最新国产精品视频| 国产乱肥老妇精品视频| 免费看久久精品99| 色老二精品视频在线观看| 国产女人在线| 国产成人精品第一区二区| 国产亚洲精品无码专| 日韩精品欧美国产在线| 四虎影视库国产精品一区| 精品国产亚洲人成在线| 国产综合另类小说色区色噜噜| 亚洲妓女综合网995久久| 精品亚洲欧美中文字幕在线看| 日韩在线1| 国产福利免费视频| 国产粉嫩粉嫩的18在线播放91|