999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于C5.0算法的信用卡違約預測

2017-09-06 09:16:49吳培莎
科學與財富 2017年24期
關鍵詞:模型

吳培莎

摘 要: 本文使用UCI上的信用卡違約數據集,使用C5.0算法對其建模,預測客戶是否會發生違約行為,并進一步比較了刪除冗余變量,引入損失矩陣,以及使用boosting組合模型建模的模型效果。最后發現在C5.0算法的基礎上使用boosting組合模型效果是最佳的。

關鍵詞: C5.0;損失矩陣;boosting

引言

預測信用卡用戶是否會發生違約行為對于信用卡公司來說是一件是非重要的事情,本文使用C5.0模型,綜合考慮了模型復雜度,模型精確度,模型誤判比率等各個方面對信用卡違約數據集進行建模,預測用戶是否會發生違約行為,模型效果表現良好。

一、數據描述

數據來源于UCI,是一份對臺灣消費者信用卡違約情況的采樣。數據集中總共有24個變量,除了變量是否違約是預測目標,其他變量總共可以分為兩類。

第一類是個人的基本信息,包括性別;學歷水平;婚姻狀況;年齡。

第二類是個人的財務狀況信息,包括貸款額度;過去消費歷史,2005年4月到9月的消費付款情況;2005年4月到9月的賬單總額;2005年4月到9月的前期支付總額。

二、模型介紹[1]

C5.0是決策樹算法中的一種,屬于有指導的學習,它的生長過程本質是對訓練樣本的反復不斷分組過程。

1.C5.0的生長算法

C5.0以信息增益率為標準確定最佳分組變量和分割點,同時考慮了信息增益的大小程度和為獲得信息所付出的“代價”。變量的信息增益率越高,使用其作為分組變量越佳。

2.C5.0的剪枝算法

C5.0采用后剪枝方法從葉節點向上逐層剪枝,比較葉節點的加權誤差和父節點的誤差,如果葉節點大于父節點的誤差則可以減掉分支。

三、模型建立

1.不平衡數據處理

統計了一下發生違約的樣本有6636個,占總樣本的1/4不到。由于信用卡違約預測的重心在于找出容易違約的客戶,為了使預測的結果更加精確,本文對原本沒有違約的客戶進行欠抽樣,只抽取50%的樣本,對違約的客戶進行過抽樣,有放回地重復抽取200%的樣本。

2.樣本集分割

將樣本集分割,由于原始樣本的數據比較多,故將70%的樣本做訓練集,30%的樣本做測試集。C5.0算法僅是利用統計學置信區間的估計方法在訓練集上估計誤差,此處分割樣本集是為了在測試集上評價模型的精確性。

3. 模型運用

在SPSS Modeler中對訓練樣本進行訓練得到一顆深度為28的樹,這棵樹非常龐大,模型比較復雜。究其原因,可能是樣本集中的變量太多,過多冗余變量導致了樹的枝葉龐大。變量重要性排前10的變量分別有:9月/8月/7月/4月的付還情況,9月份的支付總額,5月的付還情況,4月/7月的支付總額,6月份的付還情況,貸款總額。9月份的付還情況最重要,是模型根節點的最佳分組變量,這說明最近一個月的付還情況在信用卡違約預測中是最重要的。性別、教育程度、婚姻狀態、年齡這些基本信息都不是重要變量,說明是否違約在這些變量的不同取值上沒有顯著區別。

從表1中第二列可以看到,原始模型在訓練集上的正確率為74.31%,在測試集上的正確率為74.16%,測試集的正確率沒有下降;訓練集和測試集的召回度和精度的調和均值F1-score也沒有差別很大,這說明原始模型的預測效果還是可以的。

由于模型太過復雜不利于解讀,進一步的,考慮過濾掉除排前10的重要變量以外的變量進行建模。訓練得到了一顆深度為16層的樹,相較于未刪減變量的樹,模型的復雜度大大降低。從表1中第三列可以看到刪減變量之后的模型相較于原始模型各評價指標都略微有所降低,訓練集的正確率由74.31%降低到72.26%,而測試集的正確率比訓練集低了0.38%,如果追求模型的簡潔,刪除掉冗余變量的模型表現效果還是不錯的。

前面已經講過,預測的更為重要的目的是在挖掘那些違約的情況。所以違約但是誤判為不違約的狀況比不違約誤判為違約的損失要大得多。為了改善這種情況,在刪除掉冗余變量的模型中引入損失矩陣,定義損失誤判為不損失2單位懲罰,不損失誤判為損失1單位懲罰,其他情況都為0。模型的樹狀圖深度為19,相較于第二個模型多了3層,模型復雜度加大。從表1中的第四列可以看到,模型在訓練集和測試集上的正確率都大大降低,但是相較于第二個模型,訓練集和測試集的F1-score都有所提升。說明在減少誤判違約為不違約這塊,引入損失矩陣確實得到了改進。

4.組合模型

由于第一個模型在各種指標的評價上都比其他兩個模型表現效果要好,所以考慮在第一個模型的基礎上引入boosting組合模型。訓練的結果和原始模型一樣,得到了一顆深度28的樹。見表1的第五列,組合模型在訓練集及測試集上的正確率分別為79.08%和79.12%,相較于表現最好的原始模型,已經得到了非常高的提升,而且測試集上和訓練集上的F1-score都為0.8050,相較于F1-score雙高的原始模型,也得到了較大的改進,說明模型的召回率和精度都有所提升。

四、結語

本文在信用卡違約數據集上比較了單獨使用C5.0模型、刪除冗余變量、引入損失矩陣以及使用boosting組合模型后建模的模型效果。單獨考慮模型的正確率和F1-score,組合模型的效果是最佳的,但是模型的復雜度太高,不利于解讀;如果綜合考慮模型的精簡和正確率,那么刪除掉冗余變量后的模型更易解讀,而且在訓練集和測試集上的正確率還是比較可觀的;如果即考慮模型的精簡又考慮F1-core,那么刪除冗余變量之后再引入損失矩陣后的模型效果較佳,但是有一個缺點就是它的正確率不太理想。綜合考慮各種因素,在C5.0的基礎上,使用boosting組合模型進行建模效果是最佳的?!?/p>

參考文獻

[1]薛薇,陳歡歌.SPSS Modeler數據挖掘方法及應用[M].電子工業出版社,2014,104—153.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 制服丝袜 91视频| 欧美不卡视频一区发布| 亚洲大学生视频在线播放| 深夜福利视频一区二区| 成人午夜网址| 三级国产在线观看| 狠狠做深爱婷婷久久一区| 波多野结衣久久高清免费| 美女黄网十八禁免费看| 伊人久久大线影院首页| 很黄的网站在线观看| 91免费片| 热re99久久精品国99热| 国产精品嫩草影院av| 亚洲天堂网在线播放| 欧美一级特黄aaaaaa在线看片| 亚洲精品天堂自在久久77| 国产在线观看高清不卡| 国产精品成人AⅤ在线一二三四| 国产成人精品视频一区视频二区| 国产性猛交XXXX免费看| 在线看国产精品| 伊人色在线视频| 四虎国产精品永久一区| 99999久久久久久亚洲| 免费国产黄线在线观看| 亚洲午夜福利精品无码不卡| 亚洲av片在线免费观看| 热99精品视频| 欧美a在线看| 国产精品丝袜视频| 欧美视频在线播放观看免费福利资源| 91久久青青草原精品国产| 免费国产不卡午夜福在线观看| 久久久久久午夜精品| 99er精品视频| 啪啪免费视频一区二区| 国产亚洲视频播放9000| 野花国产精品入口| 91精品久久久无码中文字幕vr| 毛片网站在线看| 国产精品视频3p| 亚洲乱强伦| 国产成人做受免费视频| 成人免费一区二区三区| 国产第三区| 91精品免费高清在线| 国产清纯在线一区二区WWW| 99er这里只有精品| 亚洲精品午夜天堂网页| 美臀人妻中出中文字幕在线| 丁香五月婷婷激情基地| 亚洲AV无码久久精品色欲 | 国产swag在线观看| 国产成人一区二区| 538精品在线观看| 欧美国产中文| 久久国产乱子| 日韩免费成人| 91麻豆国产精品91久久久| 一本大道视频精品人妻| 久久免费精品琪琪| 色婷婷在线影院| 香蕉伊思人视频| 国产香蕉一区二区在线网站| 免费A级毛片无码免费视频| 久久这里只有精品免费| 欧美一级高清片欧美国产欧美| 啪啪国产视频| 三区在线视频| 亚洲欧洲天堂色AV| 日韩国产亚洲一区二区在线观看| 一级一毛片a级毛片| 国产喷水视频| 精品久久香蕉国产线看观看gif| 第一区免费在线观看| 亚洲最猛黑人xxxx黑人猛交| 夜夜操国产| 青草视频免费在线观看| 久久久久青草大香线综合精品 | 影音先锋丝袜制服| 精品无码一区二区三区在线视频|