999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost算法模型的金融客戶信用評估研究

2019-06-09 10:36:01陸健健江開忠
軟件導刊 2019年4期

陸健健 江開忠

摘 要:針對銀行客戶信用評估模型不健全不完善等問題,在對比隨機森林(RF)、GBDT和XGBoost三種集成算法基礎(chǔ)上,提出基于XGBoost算法的金融客戶信用評估模型。從知名的UCI數(shù)據(jù)庫中選取德國某銀行客戶信用數(shù)據(jù)集,在對數(shù)據(jù)進行缺失值、標準化等預處理后,分別對隨機森林(RF)、GBDT算法和XGBoost三種集成算法建立個人信用評估模型,然后依據(jù)計算得到的相關(guān)多元評價指標對個人信用評估進行對比研究。實證結(jié)果表明,建立在XGBoost集成算法上的個人信用評估模型性能最優(yōu),在準確率指標上比隨機森林(RF)高出6%,比GBDT算法高0.8%。

關(guān)鍵詞:信用評估;XGBoost算法;隨機森林(RF);GBDT算法;ROC曲線

DOI:10. 11907/rjdk. 182067

中圖分類號:TP319文獻標識碼:A文章編號:1672-7800(2019)004-0133-04

0 引言

隨著市場經(jīng)濟體制在全球的逐步確立,投資交易、經(jīng)濟融資、證券交易等業(yè)務在世界快速拓展。然而,由于市場經(jīng)濟的固有缺陷以及參與主體的紛繁復雜,使得諸多經(jīng)濟業(yè)務難以暢通有效運行,擁有交易秩序“潤滑劑”作用的信用評級應運而生。經(jīng)過150年的發(fā)展,信用評級體系已經(jīng)從資本市場、商業(yè)市場以及消費者個人3個層次對所有市場經(jīng)濟活動進行了覆蓋,標普、穆迪等國際性信用評級公司為世人所熟知。

伴隨著互聯(lián)網(wǎng)技術(shù)的廣泛應用,金融機構(gòu)面向個人推廣的服務在業(yè)務模式和運行機制上也愈發(fā)多樣。然而,在個人消費信貸業(yè)務活躍度顯著提升的同時,其所帶來的個人信用風險也呈現(xiàn)分散化、普遍化、非系統(tǒng)化等特點,給金融機構(gòu)帶來莫大的困擾。因此,無論是國家還是金融機構(gòu),對精準、有效的個人信用評估模型需求都越來越大。

我國的信用評分研究起步較晚[1]。經(jīng)過幾十年的發(fā)展,中國人民銀行征信中心是我國目前為止唯一一家負責個人征信系統(tǒng)建設、運行和管理的權(quán)威信用評級機構(gòu)。中國人民銀行征信中心所采納的系統(tǒng)依據(jù)個人信用信息基礎(chǔ)數(shù)據(jù)庫中采集的個人基本信息、信貸信息,為有信貸記錄的消費者建立一個通用風險評分模型,針對消費者在將來一段時期內(nèi)的違約概率進行預測。

個人信用評價研究[2]主要涉及個人信用評價指標選取和個人信用評價模型這兩個研究領(lǐng)域,本文主要研究個人信用評價模型建立。個人信用評估模型方法可分為線性判別分析法、回歸分析法、非參數(shù)法及基于樹的分類判別法、支持向量機、遺傳算法、神經(jīng)網(wǎng)絡等。

傳統(tǒng)的個人信用評價模型較多采用單一方法進行信用評價,如徐少峰等[3]利用fisher判別分析,建立判別函數(shù)對個人進行信用評估。張成虎[4]則運用多元線性判別模型對個人信用評分體系進行分析。劉峙廷[5]運用AHP層次分析法建立P2P網(wǎng)絡信貸債務人風險評價體系。周軒[6]運用模糊層次分析法確定個人信用評分指標體系中各指標權(quán)重。肖江[7]建立了一個改進的基于BP神經(jīng)網(wǎng)絡的評價模型。羅方科[8]對個人小額貸款信用評估建立Logistic回歸模型。其它諸如線性回歸、邏輯斯遆克回歸等回歸分析法、決策樹、K近鄰判別(KNN)、聚類算法等方法也有較多學者使用。另外,神經(jīng)網(wǎng)絡法擁有強大的非線性處理能力[9],對信用評價過程具有原始數(shù)據(jù)篩選、預警精度增加、預測速度提高等作用,使其在近年來的單一評分方法中有較多頻次使用。

面對眾多評估方法,模型選擇及優(yōu)化一度成為限制評級模型研究的瓶頸。然而近些年,多方法之間的集成綜合互補似乎成為提升模型評價質(zhì)量的突破口。姜明輝等[10]通過把PSO算法引入神經(jīng)網(wǎng)絡個人信用評級模型中,有效提高了檢測樣本分類中的預測精度。而后姜明輝又以CBR(案例推理)方法結(jié)合BP神經(jīng)網(wǎng)絡對個人信用評分模型的精確性與錯分率進行優(yōu)化研究。孫亞男[11]通過卡方交叉檢測與決策樹結(jié)合的方法,將誤差成本引入個人信用評級過程,進而增加信用壞型客戶的判別正確率。向暉[12]則把多元判別分析、logistic回歸、神經(jīng)網(wǎng)路、支持向量機等多種方法融入個人信用評價模型構(gòu)建,發(fā)現(xiàn)新模型顯著增加了信用預測的精度與穩(wěn)健性。肖進等[13]針對銀行客戶信用建立動態(tài)分類器集成選擇模型,在進行模型融合的同時也為建模前處理原始數(shù)據(jù)提供了一種新的思路。陳力等[14]在銀行個人信用卡評級應用中建立Adaboost-Logistic集成算法融合模型。白鵬飛等[15]在研究互聯(lián)網(wǎng)信貸個人信用評估方法時試圖在SVM、隨機森林、XGBoost等集成模型之上再用投票思想對其進行集成融合,集成后的結(jié)果得到了一定優(yōu)化。楚天玥[16]引入新方法,將GCNN模型與LeNet-5模型相結(jié)合,對層結(jié)構(gòu)特征進行優(yōu)化,加上個人信用風險特點,構(gòu)造出新的個人信用評估模型。

本文應用隨機森林、GBDT算法和XGBoost三種集成算法分別建立個人信用評估模型,依據(jù)模型評價指標對其進行對比研究[17],從而給信用評估研究者、相關(guān)企事業(yè)單位選擇模型提供參考。

1 相關(guān)理論

1.1 集成分類模型

集成分類模型指基于多個單一的分類模型所集合而成的模型,而多個單分類器集成在一起的方法很多,最通用的有兩種[18]:①袋裝法(Bagging),利用相同訓練數(shù)據(jù)同時搭建多個獨立模型,通過投票的方式以少數(shù)服從多數(shù)原則作出最終分類決策,其中最具有代表性的模型是隨機森林分類器(Random Forest Classifier);②提升法(Boosting),其思想是按照一定的次序搭建多個分類器,這些分類器之間彼此存在依賴關(guān)系,每一個后續(xù)分類器的加入都對現(xiàn)有集成模型性能有所貢獻,進而不斷提升更新后的集成模型性能,其中較有代表性的是梯度提升決策樹(Gradient Tree Boosting)。

1.2 XGBoost模型

XGBoost全稱為Extreme Gradient Boosting,它可看作是GBDT的優(yōu)化。GBDT在生成每一棵樹時采用梯度下降思想,以所有單棵決策樹為基礎(chǔ),以損失函數(shù)最小化為目標多走一步。與GBDT模型不同的是,XGBoost模型能自動利用CPU進行多線程并行計算,并且對損失函數(shù)進行泰勒公式二階展開,在損失函數(shù)后面增加正則項,用于約束損失函數(shù)的下降和模型整體的復雜度。

XGBoost整體目標函數(shù)為:

2 實證分析

2.1 數(shù)據(jù)來源與描述

本文數(shù)據(jù)來源于加州大學UCI數(shù)據(jù)庫中著名的信用數(shù)據(jù)集German數(shù)據(jù)集,它是關(guān)于德國某銀行信用卡個人用戶業(yè)務的數(shù)據(jù)。該數(shù)據(jù)集共有1000個樣本,其中信用好的用戶有700個,信用差的用戶有300,數(shù)據(jù)集中包含20個屬性列和1個標簽列,20個屬性中有7個數(shù)值型屬性和13個類別型屬性,標簽列有兩個值0或1,其中0代表信用好,1代表信用差,見表1。

2.2 數(shù)據(jù)預處理

在對原始數(shù)據(jù)進行建模分析之前,需要對數(shù)據(jù)進行預處理即特征工程。首先,對數(shù)據(jù)表中嚴重缺失數(shù)據(jù)的樣本記錄剔除,對少許缺失值樣本采用眾數(shù)(分類型變量)和均值填充。然后,對所有分類型數(shù)據(jù)進行編碼,本文采用的是獨熱0-1編碼。最后,對所有數(shù)值型數(shù)據(jù)進行標準化處理,本文采用極差標準化:

2.3 模型評價指標

在給出模型評價指標之前,先給出分類模型評價準則中最常用的混淆矩陣,如表2所示。

其中:①正類代表信用差,負類代表信用好;②TP表示實際為正類預測也為正類的樣本個數(shù),F(xiàn)N表示實際為正類預測為負類的樣本個數(shù),F(xiàn)P表示實際為負類預測為正類的樣本個數(shù),TN表示實際為負類預測也為負類的樣本個數(shù)。

(1)準確率(Accuracy)。在傳統(tǒng)分類模型評價指標體系中,準確率(Accuracy)是一個很重要的評價指標,它代表所有正負類中有多少被正確預測出來,其數(shù)學表達如下:

(2)精確率(Precision)、召回率(Recall)和F1指標。在實際問題中并不關(guān)心總的預測正確率,而是更加關(guān)注模型對某一特定類別的預測能力。對于銀行來說,它更在意的是信用差的人被判為信用好的情況,也就是說假負類的比率越低越好。所以引入精確率(Precision)、召回率(Recall)和F1這3個指標。

(3)ROC曲線及AUC值。ROC曲線又稱真正率偽正率圖,其中橫坐標表示偽正率,縱坐標表示真正率。

由于直接用ROC曲線去定量評價不同的分類模型不是很直觀,因此人們通常采用ROC曲線下方的面積,即AUC值作為評價指標,AUC值越大越好。

2.4 結(jié)果對比與分析

本文模型的構(gòu)建均采用python的sklean程序包實現(xiàn),此外,除了構(gòu)建XGBoost算法模型,還建立了隨機森林模型和GBDT算法模型,在使用相同數(shù)據(jù)集的情況下,對比使用這3種模型。

針對這3種算法模型,本文給出它們的ROC曲線,為直觀對比把ROC曲線放在了同一個圖中,如圖1所示。

表3給出3種算法模型在相同數(shù)據(jù)集上的準確率、精準率、召回率、F1得分和AUC值,表中標粗的數(shù)字表示每列的最大值。從表中可以看出,XGBoost算法模型在準確率、召回率、F1得分和AUC值上都具有明顯優(yōu)勢,而隨機森林精準率較高,顯然XGBoost算法模型具有較好性能。

3 結(jié)語

建立合理有效而又科學的個人信用評估模型,能為銀行等金融機構(gòu)提供更加可靠而科學的決策支持,減少不必要的損失,意義非常重大。本文在對比多個集成算法模型基礎(chǔ)上,建立基于目前最流行及性能較好的XGBoost集成算法的信用評估模型,并在相同的國際開源數(shù)據(jù)集上,對隨機森林、GBDT算法和XGBoost算法進行比較與對比研究。實證結(jié)果表明,在機器學習等領(lǐng)域具有顯著優(yōu)勢的XGBoost算法對個人信用評估的研究性能較優(yōu)。

參考文獻:

[1] 張釗. 基于支持向量機的個人信用評估模型與算法的研究[D]. 北京:首都師范大學,2008.

[2] 郄彥平. 信用環(huán)境評價與“自然履約率”[J]. 金融教學與研究,2013(5):6-10,17.

[3] 徐少鋒. FISHER判別分析在個人信用評估中的應用[J]. 統(tǒng)計與決策,2006(2):133-135.

[4] 張成虎,李育林,吳鳴. 基于判別分析的個人信用評分模型研究與實證分析[J]. 大連理工大學學報:社會科學版,2009,30(1):6-10.

[5] 劉峙廷. 我國P2P網(wǎng)絡信貸風險評估研究[D]. 南寧:廣西大學,2013.

[6] 周軒. 基于數(shù)據(jù)挖掘技術(shù)的商業(yè)銀行個人信用評分模型研究[D].長沙:湖南大學,2014.

[7] 肖江,陳璐瑜. 改進的P2P信貸借款人信用風險的研究[J]. 信息技術(shù),2016(11):212-214,220.

[8] 羅方科,陳曉紅. 基于Logistic回歸模型的個人小額貸款信用風險評估及應用[J]. 財經(jīng)理論與實踐,2017,38(1):30-35.

[9] 王穎林,賴芨宇,郭豐敏. 建設需求量預測分析中的人工神經(jīng)網(wǎng)絡和多元回歸方法[J]. 武漢工程大學學報,2013,35(11):77-80,86.

[10] 殷爽,姜明輝. 基于PSO的個人信用評估組合預測模型[J]. 經(jīng)濟研究導刊,2008(14):83-86.

[11] 朱毅峰,孫亞南. 精煉決策樹模型在個人信用評估中的應用[J]. 統(tǒng)計教育,2008(1):5-7.

[12] 向暉,楊勝剛. 個人信用評分關(guān)鍵技術(shù)研究的新進展[J]. 財經(jīng)理論與實踐,2011,32(4):20-24.

[13] 肖進,劉敦虎,顧新,等. 銀行客戶信用評估動態(tài)分類器集成選擇模型[J]. 管理科學學報,2015,18(3):114-126.

[14] 陳力,黃艷瑩,游德創(chuàng). 一種基于Boosting的集成學習算法在銀行個人信用評級中的應用[J]. 價值工程,2017,36(18):170-172.

[15] 白鵬飛,安琪,NICOLAAS FRANSDE ROOIJ,等. 基于多模型融合的互聯(lián)網(wǎng)信貸個人信用評估方法[J]. 華南師范大學學報:自然科學版,2017,49(6):119-123.

[16] 楚天玥.? 基于LeNet-5模型和門卷積神經(jīng)網(wǎng)絡的信用評分模型實證研究[D]. 深圳:深圳大學,2017.

[17] 張滄生,崔麗娟,楊剛,等. 集成學習算法的比較研究[J]. 河北大學學報:自然科學版,2007(5):551-554.

[18] 周峰. 集成分類器模型的研究[D]. 上海:上海交通大學,2007.

[19] 王飛.? 集成分類器及其在個人信用評估的應用[D]. 長沙:中南大學,2012.

[20] 邵笑笑.? 個人信用評估集成模型研究[D]. 南京:南京信息工程大學,2016.

[21] 房曉南.? 基于半監(jiān)督和集成學習的不平衡數(shù)據(jù)特征選擇和分類[D]. 濟南:山東師范大學,2016.

(責任編輯:杜能鋼)

主站蜘蛛池模板: 91人人妻人人做人人爽男同| 欧美第一页在线| 国产亚洲精品yxsp| 国产精品手机视频| 久久精品这里只有精99品| 国产一区免费在线观看| 日本伊人色综合网| 97精品久久久大香线焦| 国产成人综合网| 特级做a爰片毛片免费69| 成人精品在线观看| 精品欧美日韩国产日漫一区不卡| av一区二区无码在线| 婷婷久久综合九色综合88| 大陆精大陆国产国语精品1024| 丰满人妻被猛烈进入无码| 欧美有码在线| 国产美女视频黄a视频全免费网站| 二级毛片免费观看全程| 国产一区二区三区视频| 中文字幕在线不卡视频| 成年人国产网站| 五月天丁香婷婷综合久久| 91精品国产麻豆国产自产在线| 亚洲天堂日韩av电影| 麻豆精品在线视频| 99久久亚洲精品影院| 久久婷婷五月综合97色| 国产在线第二页| 国产高潮视频在线观看| 韩国v欧美v亚洲v日本v| 亚洲欧美另类视频| 欧美日韩精品综合在线一区| 无码一区18禁| 五月丁香伊人啪啪手机免费观看| 亚洲第一黄片大全| a毛片基地免费大全| 欧美黑人欧美精品刺激| 国产自在线拍| 亚洲色偷偷偷鲁综合| 免费 国产 无码久久久| 国产v欧美v日韩v综合精品| 国产69精品久久久久妇女| 亚洲色图欧美| 免费看av在线网站网址| 日本一本正道综合久久dvd | 91丝袜乱伦| 欧美午夜性视频| 在线不卡免费视频| 国产精品亚洲天堂| 成人亚洲天堂| 十八禁美女裸体网站| 国产一级小视频| 久久综合干| 国产日韩欧美中文| 国产丝袜一区二区三区视频免下载| 青青草国产免费国产| 亚洲视频无码| 91丨九色丨首页在线播放| 找国产毛片看| h视频在线观看网站| 久久公开视频| 91午夜福利在线观看| 亚洲AV无码乱码在线观看裸奔 | 中文字幕第1页在线播| 亚洲综合色区在线播放2019| 91网在线| 真实国产乱子伦高清| 免费国产黄线在线观看| 中文字幕免费在线视频| 色婷婷视频在线| 欧美天堂久久| 亚洲一区色| 黄色网站在线观看无码| 91久久国产热精品免费| 丁香亚洲综合五月天婷婷| 久久黄色免费电影| 欧洲日本亚洲中文字幕| 亚洲第一成网站| 日韩高清一区 | 被公侵犯人妻少妇一区二区三区| 久久久久国产精品熟女影院|