999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹的用戶信用評分模型的構建

2019-07-08 03:32:55吳錦華王志生劉重陽胡龍彪
無線互聯科技 2019年8期

吳錦華 王志生 劉重陽 胡龍彪

摘 ? 要:信用評分系統在信用風險管理中發揮比較重要的作用,通過大數據分析技術構建評估分析模型來解決信用風險預測問題。文章在scikit-learn機器學習工具的基礎上,通過利用特征選擇方法生成有效特征集并結合決策樹方法來構建信用評分模型,并在實際數據集得出評分結果,同時所得結果為評估人員提供信用決策建議。

關鍵詞:信用評分;scikit-learn;特征選擇;決策樹

1 ? ?信用簡介

“信用”是長時間積累的信任和誠信度,如“信用風險”是銀行主要信用卡審批過程中常見的風險,是銀行授信的最主要風險。過去對申請信用卡的申請人主要是依據于信貸員的評估,或者信貸決策委員會對申請人進行綜合評價,而這種評估結果往往受其主觀因素的影響。最近幾年來,信用市場不斷擴大,人工信用評估具有較大的局限性和不全面性。目前階段的信貸問題較為嚴重,各行各業都面臨著信用問題,欺詐時有發生,導致信用危機的發生。為了防范風險,最大限度地降低風險,減少壞賬,提前預警不守信用的個人或企業,從而拒絕給其提供金融服務,如貸款、辦理信用卡等業務[1]。在這種巨大的信用風險考驗下,建立全面有效的信用評分系統是目前各大金融機構亟需解決的問題。

信用評分是評分技術在信用風險管理方面的應用,通過建立方法模型進行預測。以申請信用評分為例,利用海量的數據,借助機器學習相關方法模型給申請客戶進行信用打分[2-3],并依據不同的分值劃分客戶信用等級,從而預測客戶信用風險。

本文通過對Kaggle上的Give Me Some Credit數據的挖掘分析,結合信用評分卡的建立原理,對數據集進行預處理、特征選擇以及利用scikit-learn平臺中的決策樹模型分別進行預測以及其結果相應對比分析,為個人信用評估工作人員提供參考。

2 ? ?數據分析與模型建立

2.1 ?數據預處理

對數據集中的數據進行分析,初步觀察發現,Monthly Incom和Number of Dependents存在缺失值,另外部分age值為0,因此年齡值低于0均視為異常值。另外,對數據集的缺失率進行計算,得到Monthly Income和Number of Dependents數據存在缺失,monthlyIncome 缺失數據最多,缺失率最高。Number of Dependents變量缺失值比較少,直接刪除,對總體模型不會造成太大影響,另外,對缺失值處理完之后,刪除重復項。

因此,在本文中,對age異常值進行處理,認為>90歲或者≤0歲的為異常值,在此數據集中,使用單變量離群值檢測判斷異常值,異常的樣本不多,則直接刪除。

經過上面的數據預處理之后,就認為現在的數據均為正常數據,而不是臟數據。所以接下來就可以對數據進行一些各個變量之間的相關性分析來篩選一些重要的特征。首先,通過Python里面的seaborn包,調用heatmap()繪圖函數進行繪制各個變量之間的相關性的熱力,如圖1所示。

從圖1中可看出,各個特征之間的相關性還是比較小的,并不存在多重共線性問題,因此,不需要進行降維處理或剔除相關變量,為后面模型的穩定性提供了好的基礎。

2.2 ?特征選擇

本文采用決策樹來構建分類模型時,經常需要對自變量進行篩選。比如有40個特征量時,通常情況不直接把40個變量直接放到模型中進行訓練,而是通過特征選擇方法從40個自變量中挑選一些出來。挑選過程比較復雜,需要考慮的因素很多,比如變量的預測能力、變量之間相關性、變量的簡單性、強壯性、變量的可解釋性等。但是,最主要和最直接的衡量標準是變量的預測能力。通過將用戶的信用卡數據進行證據權重(Weight of Evidence,WOE)分箱后,再計算數據中的10個自變量生成預測能力如圖2所示。

2.3 ?特征變量的預測能力

從圖2中可以看出,數據集中的“月收入”“逾期30~59天筆數”“信貸數量”“家屬數量”和“固定資產貸款量”預測能力值均小于0.2,因此在信息價值(Information Value,IV)篩選的時候,IV值為0.1以上被認為具有一般預測能力,0.2以上算比較有預測能力。所以在接下來的模型建立的過程中將篩掉這些預測能力差的特征。

2.4 ?模型預測分析

經過數據預處理以及特征選擇之后,選擇決策樹對數據進行分類,在機器學習中,決策樹是一個預測模型,它代表對象屬性與對象值之間的一種映射關系[1]。本文通過使用scikit-learn平臺中的決策樹工具構建方法模型。另外,為了評估方法模型的有效性,采用交叉驗證法來評價分類器性能,另外選擇受試者工作特征(Receiver Operating Characteristic curve,ROC)曲線下的坐標軸圍成的面積(Area Under Curve,AUC)值作為評分標準,對應AUC更大的分類器效果更好。繪制出的AUC曲線如圖3所示。另外,訓練模型以及調節相應參數,計算出方法模型的準確率、精確率、召回率、f1-score,具體如表1所示。

由表1看出,經過調參優化后的決策樹方法模型,在測試集上召回率達到0.990 2,稍低于訓練集,但結果所表現的性能比較優秀,能夠較好地對用戶的信用進行評分和預測。

3 ? ?結語

本文基于scikit-learn平臺構建特征選擇方法模型,并在真實數據集進行預測分析,最終調優出來的方法模型在預測數據的準確度、精確度等性能指標上表現良好,在實際場景中具有一定的研究意義。

[參考文獻]

[1]王芝珺,吳純志.P2P網絡借貸平臺的個人信用評估模型研究—基于決策樹和Logistic回歸[C].杭州:第十屆海峽兩岸統計與概率研討會,2016.

[2]陳安.基于機器學習的信用卡風險評估研究[D].南昌:江西財經大學,2018.

[3]袁海瑛.大數據背景下的互聯網融資信用評價體系構建[J].上海經濟研究,2017(12):66-72.

主站蜘蛛池模板: 狠狠做深爱婷婷久久一区| 18禁黄无遮挡网站| 国产精品99久久久| 国产精品极品美女自在线| 欧美日韩综合网| 国产一区二区精品高清在线观看| 天天色天天综合| www.狠狠| 欧美a在线看| 亚洲人在线| 成年片色大黄全免费网站久久| 国产亚洲欧美在线专区| 亚洲国产无码有码| 国产精品污污在线观看网站| 日韩福利视频导航| 91精品国产91久无码网站| 亚洲精品在线观看91| 日韩欧美亚洲国产成人综合| 99热国产这里只有精品9九| 欧美日韩另类国产| 国产成人亚洲毛片| 国产美女主播一级成人毛片| 国产精品白浆在线播放| 久久熟女AV| 日韩无码黄色| 亚洲va在线∨a天堂va欧美va| 亚洲精品国产综合99久久夜夜嗨| 国产欧美专区在线观看| 久久人妻系列无码一区| 国产一区在线视频观看| 四虎综合网| 动漫精品中文字幕无码| 国产在线第二页| 成年人国产视频| 日韩毛片免费| 99精品免费欧美成人小视频| 久久精品免费看一| 欧美激情视频二区| 国产黄网永久免费| 伊人蕉久影院| 无码专区在线观看| 99久久亚洲精品影院| 永久天堂网Av| 精品国产aⅴ一区二区三区| 免费一级成人毛片| 干中文字幕| 日韩黄色在线| 国产午夜福利在线小视频| 少妇露出福利视频| 免费无码又爽又黄又刺激网站| 精品99在线观看| 日韩福利在线视频| 国产精品自拍合集| 粉嫩国产白浆在线观看| 色婷婷天天综合在线| 国产69精品久久久久妇女| 亚洲成人一区二区三区| 欧美成人精品高清在线下载| 久久久91人妻无码精品蜜桃HD| 亚洲福利视频一区二区| 国产一区二区精品福利| 欧美日一级片| 欧美亚洲一区二区三区导航 | 久久国产精品无码hdav| 四虎国产永久在线观看| 亚洲va在线∨a天堂va欧美va| 自拍亚洲欧美精品| 欧美日韩高清在线| 国产成人精品18| 狠狠干欧美| 国产成人精品亚洲日本对白优播| 成人毛片在线播放| 亚洲欧洲综合| 999福利激情视频| 啦啦啦网站在线观看a毛片 | 国产精品一区二区不卡的视频| 久久久久九九精品影院| 国产91麻豆免费观看| 日韩在线网址| 国产JIZzJIzz视频全部免费| 欧美精品在线观看视频| 婷婷午夜影院|