999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于迭代自適應(yīng)隨機決策樹的個人信用評估模型研究

2018-10-11 04:33:30蘭軍嚴廣樂
經(jīng)濟數(shù)學 2018年3期

蘭軍 嚴廣樂

摘要信用評估是商業(yè)銀行控制和防范信貸風險的關(guān)鍵途徑.決策樹模型較好的直觀解釋性使其成為當前個人信用評估中的常用模型,但決策樹模型存在容易導致過擬合且預(yù)測精度有限的問題.通過在決策樹模型算法中引入類隨機森林隨機有放回的抽樣模式,運用機器自動循環(huán)迭代尋求最優(yōu)樹的建模思想,建立了自適應(yīng)最優(yōu)C5.0決策樹個人信用評估模型.該模型具有快速收斂特征變量、較好的泛化能力和高預(yù)測精度的特點,在實證分析中對商業(yè)銀行個人信用評估模型質(zhì)量提升帶來比較明顯的改進效果.

關(guān)鍵詞數(shù)量經(jīng)濟學;個人信用評估;決策樹;隨機森林;迭代

中圖分類號N945文獻標識碼A

Research and Empirical Analysis on Personal

Credit Evaluation Model Based on Iterative Adaptive

Random Decision Tree Algorithm

Jun Lan,Guangle Yan

(Management School University of Shanghai for Science and Technology, Shanghai200093 China)

AbstractCredit evaluation is a crucial approach to control and reduce credit risk. The direct expression feature of decision tree model has made it a commonly used model in individual credit evaluation. However, this model has the disadvantages of over fitting and limited accuracy. By utilizing random forest sampling with replacement in decision tree model, with autoiteration for optimal result, an autofitting optimal C50 decision tree for individual credit evaluation model is established. The model has features such as rapidly converging character variables, good generalization ability and high predicting accuracy, and is shown to have phenomenal improvement on quality of individual credit evaluation in real practical analysis.

Key wordsmathematical economics; personal credit assessment; decision tree; random forest; iteration

1引言

近年來,隨著中國經(jīng)濟的飛速發(fā)展,個人的信用狀況越來越受到重視,貸款購房、貸款購車、申領(lǐng)信用卡等各種個人消費貸款都需要了解個人的信用信息.個人信用制度是國家信用體系的一部分,科學合理有效的個人信用評估體系是個人信用體系的核心問題之一.對個人信用狀況進行科學評估,是發(fā)展個人消費信貸的基礎(chǔ),也是中國市場經(jīng)濟發(fā)展的有益補充和完善.中國已經(jīng)加入世界貿(mào)易組織(WTO)多年,逐步開放的信用市場,對建立個人信用評估體系提出了嚴峻挑戰(zhàn).當前中國個人信用制度不完善,個人信用信息欠完備,個人信用難以評估,已經(jīng)比較嚴重地影響了經(jīng)濟增長.如何建立一個統(tǒng)一、科學的個人信用評估體系已經(jīng)成為一個亟待解決的重要課題.目前,中國個人信用評估體系尚不夠健全和完善,評估的指標和權(quán)重帶有較大的主觀性,需要引入科學方法來確定評估指標,采用科學的評估方法來評估個人信用.

個人信用評級是預(yù)測貸款申請人或現(xiàn)有借款人違約可能性的一種定量分析方法,這種方法量化分析現(xiàn)有的客戶資料,找出客戶信用行為的影響因子,以現(xiàn)有的客戶資料為樣本建立數(shù)學模型,然后再使用該模型預(yù)測新客戶進行違約風險.國外的經(jīng)驗表明,個人信用具有快速處理客戶貸款申請、處理客戶申請的成本較低、對客戶申請的處理標準具有一致性和客觀性以及能夠定量地評估客戶的信用風險等優(yōu)點.自從上世紀80年代起,在美國等社會信用體系較為發(fā)達的國家已經(jīng)將信用方法引入到消費信貸管理領(lǐng)域.Makowski(1985) [1]第一次把分類樹方法應(yīng)用于個人信用評估.美聯(lián)儲曾在《平等貸款機會法案》中稱這種方法是在信用系統(tǒng)中經(jīng)過實證檢驗并且在統(tǒng)計意義上完美的辦法,Coffman對分類樹和線性判別分析在個人信用評估方面的應(yīng)用進行了比較,并認為當指標之間存在相互作用時前者優(yōu)于后者,而當指標之間相互聯(lián)系時后者優(yōu)于前者.經(jīng)過數(shù)十年的發(fā)展,個人信用評估方法已經(jīng)取得了長足的發(fā)展,不僅被廣泛地應(yīng)用于信用卡等消費信貸、住房按揭貸款等領(lǐng)域,也被成功地應(yīng)用于中小企業(yè)貸款申請評估、信用卡欺詐預(yù)防、基于風險的利率定價、相應(yīng)評分及資產(chǎn)證券化等領(lǐng)域.

與國外商業(yè)銀行廣泛將信用作為有效的信用風險管理技術(shù)相比,符合中國國情的個人信用評分模型在中國金融實業(yè)界使用剛剛開始起步.學術(shù)界對于個人信用評分模型的研究主要集中在個人信用評分模型數(shù)據(jù)挖掘技術(shù)的探討、基于各種技術(shù)建立個人信用評分模型的實證比較以及個人信用評分模型的應(yīng)用領(lǐng)域探討等幾個方面.姜明輝、王歡、王雅林(2003) [2]在闡述分類樹基本原理的基礎(chǔ)上,結(jié)合國內(nèi)外學者的研究成果將分類樹與其他方法進行比較研究,分析了其對個人信用評估的適用性.通過建立符合中國實際情況的指標體系,選取樣本數(shù)據(jù)進行應(yīng)用分析,證實了分類樹在變量選擇和分類準確度上明顯優(yōu)于其他方法.徐少鋒、王延臣(2003) [3]利用美國花旗銀行某分支機構(gòu)部分客戶的貸款數(shù)據(jù),用回歸模型進行實證分析,指出通過對以信貸申請書為基礎(chǔ)的風險程度進行定量分析,使信貸決策合理化,從而降低個人信用風險.詹原瑞、田宏偉(2003)[4]就中國商業(yè)銀行在個人消費信貸中如何使用分類樹設(shè)計個人信用評分模型作了介紹,設(shè)計出了個人信用評分模型并作了實證檢驗.樓際通,樓文高,余秀榮(2013) [5]年在商業(yè)銀行個人信用風險評價的投影尋蹤建模及其實證研究中運用于商業(yè)銀行個人信用分類問題,可以提升風險識別正確率,還有利于銀行降低采集數(shù)據(jù)的成本和節(jié)約時間.王穎,聶廣禮,石勇(2012) [6]在基于信用評分模型的中國商業(yè)銀行客戶違約概率研究中通過對歷史數(shù)據(jù)構(gòu)建模型測算客戶的違約概率,發(fā)現(xiàn)債務(wù)人或交易對手無力履行合同所規(guī)定的義務(wù)或信用質(zhì)量發(fā)生變化,影響金融產(chǎn)品價值,從而給債權(quán)人或金融產(chǎn)品持有人造成經(jīng)濟損失.龔尚花(2013)[7]年在互聯(lián)網(wǎng)環(huán)境下消費信貸行為研究中運用從而建立了消費信貸行為影響因素的概念模型.

2個人信用評估模型

提升模型對用戶信用風險的識別和預(yù)測準確率,目前正式投入使用的主要建模算法為邏輯回歸和決策樹兩大類.邏輯回歸建模方法通過分析消費者還款能力與意愿與違約概率之間的作用路徑關(guān)系.相比較邏輯回歸,決策樹因為較好的直觀解釋能力和預(yù)測精度,被廣泛地應(yīng)用于銀行信用風險領(lǐng)域中.決策樹模型,通過對訓練樣本的學習,建立并依據(jù)分類規(guī)則,實現(xiàn)對新樣本的分類,屬于有監(jiān)督式的機器學習,有兩類變量:目標變量(輸出變量)和特征變量(輸入變量).C5.0是經(jīng)典的決策樹模型算法之一,JRQuinlan(1979) [8]年提出了ID3算法,主要針對離散型屬性數(shù)據(jù),其后又不斷的改進,形成C4.5,它在ID3基礎(chǔ)上增加了對連續(xù)屬性的離散化,采用增益率來加以改進方法,選取有最大增益率的分割變量作為準則,避免ID3算法過度適配的問題.C5.0是C4.5應(yīng)用于大數(shù)據(jù)集上的分類算法,采用最大信息增益來計算屬性差異,同時采用Boosting方式提高模型準確率,在軟件上計算速度比較快,占用的內(nèi)存資源較少,在執(zhí)行效率和內(nèi)存使用方面都得到了提升.

C5.0決策樹屬于單一分類器,容易導致過擬合且預(yù)測精度有限的問題.通過對C5.0算法進行優(yōu)化改進,改善C5.0在信用評估模型建立過程中存在的過度擬合的缺點,提高模型的有效性和泛化能力,具體表現(xiàn)為在保持訓練集預(yù)測精度不大幅降低的情況下提高測試集的預(yù)測精度,同時保證模型的直觀解釋性.

2.1基于自適應(yīng)隨機決策樹的個人信用評估模型

對于單一分類器C5.0決策樹存在的缺點,Yangchang(2013) [9]提出了組合分類器的改進方式,隨機森林就是利用多棵樹對樣本進行訓練并預(yù)測的一種分類器.簡單來說,隨機森林就是由多棵CART(Classification And Regression Tree)構(gòu)成的.對于每棵樹,它們使用的訓練集是從總的訓練集中有放回采樣出來的,這意味著,總的訓練集中的有些樣本可能多次出現(xiàn)在一棵樹的訓練集中,也可能從未出現(xiàn)在一棵樹的訓練集中.在訓練每棵樹的節(jié)點時,使用的屬性是從所有屬性中按照一定比例隨機地無放回的抽取的,最終形成一組CART.Jafa (2013) [10]對于分類問題,發(fā)現(xiàn)預(yù)測結(jié)果為所有樹中預(yù)測概率總和最大的那一個分類.隨機森林雖然提高了預(yù)測的精度,但是與決策樹不同,需要費工夫才能使得模型符合數(shù)據(jù),而且該模型不容易理解,無法生成可解釋性的模型,在個人信用評估模型應(yīng)用中,風險模型更多是決策的參考,風險專家根據(jù)業(yè)務(wù)特點和發(fā)展人為的調(diào)整模型以適應(yīng)于信用評估,模型的可解釋性非常重要.

在模型訓練中,導致模型存在過度擬合和有偏的問題,往往是由于關(guān)鍵變量沒有進入模型或者引入了噪音變量(即非重要變量),能否在給定數(shù)據(jù)樣本中提取出關(guān)鍵變量是提高模型預(yù)測精度的關(guān)鍵.考慮到C5.0決策樹在根據(jù)大量水平的屬性進行劃分時往往是有偏的和存在過度擬合的問題,以及隨機森林預(yù)測結(jié)果的不可解釋性,嘗試提出了一種基于機器迭代自適應(yīng)隨機決策樹改進算法的個人信用評估模型,通過借鑒隨機森林訓練子樹的方式,對樣本集和特征集進行有條件的隨機抽樣,同時引入變量淘汰機制,通過機器自動循環(huán)迭代不斷生成多顆C5.0決策樹,比較每顆決策樹預(yù)測精度,選擇出性能最優(yōu)的C5.0決策樹,這樣模型既防止了在訓練集上過度擬合的情況,又可以提高在測試集上的預(yù)測精度,并保證模型樹形結(jié)構(gòu)良好的可解釋性.

基于機器迭代自適應(yīng)隨機決策樹算法充分利用計算機計算資源,先剔除噪音變量,優(yōu)先剔除噪音變量對模型產(chǎn)生的副作用影響,防止有偏的問題,能夠在大范圍的屬性變量中快速收斂得到特征變量,利用機器自動化循環(huán)迭代能力建立模型,不斷自動重復(fù)抽取建模的樣本和入模屬性,生成決策樹,每次抽樣建模完畢,得到本次基于測試集T的預(yù)測精度,迭代模型在迭代次數(shù)足夠多的情況下,能找到最優(yōu)的模型,在訓練集和測試集上表現(xiàn)都好,從而達到高的泛化能力,解決模型的過度擬合問題.自動化迭代建模結(jié)束后,比較所有循環(huán)建模中預(yù)測精度最優(yōu)的C5.0決策樹提供給因為最終模型結(jié)果.因為模型結(jié)果依然為層次狀樹形結(jié)構(gòu),可解釋性強,通俗易懂,能夠較好幫助風險管理人員作為信用評估決策參考.

3算法步驟

通過上述描述,基于機器迭代自適應(yīng)隨機決策樹模型的具體建模過程如圖1所示.模型算法流程圖如圖2所示.

1)給定訓練集S和測試集T,屬性維數(shù)F.在訓練集上首先對全部屬性做一次C5.0決策樹建模,得到模型C,同時在測試集T上預(yù)測得到預(yù)測精度A,根據(jù)建模結(jié)果,剔除重要性5%以下的屬性維數(shù),得到屬性維數(shù)M;

設(shè)定迭代次數(shù)t,對于i=1-t:

2)對訓練集S隨機抽取n個樣本(n

3)不斷重復(fù)2),直到達到迭代次數(shù)t或者其他預(yù)設(shè)條件(如執(zhí)行時間或預(yù)測精度等);

4)輸出最后的模型Ci;

4案例分析

4.1數(shù)據(jù)說明和處理

利用基于機器迭代自適應(yīng)隨機決策樹算法,在某商業(yè)銀行個人信用評估模型建立過程中進行實證研究.數(shù)據(jù)采用某商業(yè)銀行個人貸款違約數(shù)據(jù)樣本進行建模比對,抽取了2013至2017年的已結(jié)束的業(yè)務(wù)數(shù)據(jù),共計41518條樣本數(shù),經(jīng)過前期的數(shù)據(jù)處理(缺失值替換、變量刪除和變量衍生),選擇22個屬性變量進行建模,數(shù)據(jù)和建模均采用R進行處理.數(shù)據(jù)包含了41518個觀察值和22個屬性(變量),22個屬性中包含1個因子屬性、1個整數(shù)數(shù)據(jù)類型屬性和2個數(shù)值類型屬性;數(shù)據(jù)主要包含了個人的基本信息和貸款的信息,從個人和業(yè)務(wù)的角度出發(fā)去評估該客戶的信用,其中breachIndex變量為本次建模的目標變量,取值yes表示客戶違約,no值則相反,其他變量含義如表1所示.

圖4展示了各個屬性變量與目標變量的相關(guān)圖,由于屬性存在離散和連續(xù)兩類變量,而目標變量本身為離散變量,故圖中表現(xiàn)出兩類圖,箱圖為目標變量與連續(xù)變量的關(guān)系圖,塊圖表現(xiàn)為目標變量與離散變量之間的關(guān)系圖.

從業(yè)務(wù)類型可以看出,違約中個人類業(yè)務(wù)占比要超過小微企業(yè)類業(yè)務(wù);而非行員的違約情況要大大超過行員;違約的人群,合同平均金額較高;還有違約客戶群中,擔保方式大都為保證類型,而非違約客戶國有公司擔保占大部分;而客戶群中,平均年齡為40;男性違約占比略高于女性,等等.

由于目標變量“是否違約”為二分變量,現(xiàn)計算所有特征變量與目標變量的IV值,能得到各特征變量對于目標變量的信息量,有助于進一步的模型構(gòu)建,結(jié)果如圖5所示.

根據(jù)Yue He(2016) [11]的對信用模型入模變量選擇的研究,一般選擇IV值大于0.02的變量進入模型,通過IV值可篩選有效變量,剔除噪音變量.從圖5可以看出,合同業(yè)務(wù)品種、合同擔保方式、合同金額和貸款期限IV較高,對目標變量影響較大(后面的實證研究也證實了這幾個變量屬于模型的重要變量,影響決策樹的決策分支).

將數(shù)據(jù)按照7:3的比例隨機拆分訓練集和測試集,分別為trainData和testData,訓練集和測試集分別包含29062和12456個觀察值和22個屬性(變量).以下模型均基于訓練集做建模,評估標準均采用在同一測試集上的預(yù)測精度和在各自訓練集上的表現(xiàn).

4.2模型結(jié)果

設(shè)置自適應(yīng)的隨機決策樹的迭代次數(shù)為5000次,屬性重要度為5%以上,抽取樣本比例為70%,抽取特征集個數(shù)為2Sqrt(屬性總個數(shù)平方根的兩倍),并返回最優(yōu)的模型,結(jié)果如圖6所示.

決策樹的節(jié)點數(shù)為32.經(jīng)計算,個人信用評估模型在訓練集和測試集上的預(yù)測精度分別為91.201%和91.3392%,在訓練精度降低了0.46%之后,測試精度同步上升了0.43%,模型用到的特征變量進一步確定,最終鎖定到了contractBusinessType、contractAmount、contractGuaranteeType、position、career、marital、businessType和contractTerm這8個變量,最后決策樹經(jīng)過翻譯和整合,得到如圖7所示的個人信用評估模型.

基于最優(yōu)決策樹的個人信用評估模型的AUC值達到0.87,KS值為0.59,模型ROC曲線和KS曲線如圖8所示.

4.3模型對比結(jié)果

分別運用單一C5.0決策樹、隨機森林、迭代自適應(yīng)隨機決策樹三種算法,在同一訓練集上建模,并計算基于同一測試集的預(yù)測精度,比較模型的有效性和泛化能力.模型對比結(jié)果如表2所示.

第一,單一C5.0決策樹在全屬性建模下訓練集精度較高,但可能存在過度擬合的問題,而通過迭代自適應(yīng)隨機決策樹算法,雖然訓練集精度比單一C5.0決策樹低,但在測試集精度卻更高,說明通過抽樣屬性的方式有效的解決了過度擬合的問題,同時也提高了模型的泛化能力.

第二,由于組合分類器,隨機森林在三種算法中訓練集的精度最高,測試集精度也高于單一C5.0,但稍低于迭代自適應(yīng)隨機決策樹算法,穩(wěn)定度也略低.

第三,迭代自適應(yīng)隨機決策樹算法選擇的最優(yōu)C5.0決策樹,不但提高了測試集的精度,同時模型的K值也得到提升,說明既提高了泛化能力,同時也提高了模型的穩(wěn)定性.

5結(jié)論

商業(yè)銀行在個人信用風險管理領(lǐng)域越來越多地運用數(shù)據(jù)和模型技術(shù),以提升自身風險管理能力和水平.提出了一種可應(yīng)用在商業(yè)銀行個人信用評估實證分析中的基于機器迭代自適應(yīng)隨機決策樹算法,與單一C5.0決策樹和隨機森林模型進行對比分析,結(jié)果顯示基于機器迭代的自適應(yīng)隨機決策樹模型,能夠?qū)崿F(xiàn)特征變量在大規(guī)模屬性變量中的快速收斂,自動迭代生成的最優(yōu)樹具有更好的泛化能力和穩(wěn)定性,以直觀的層次狀樹形結(jié)構(gòu)解釋在個人信用評估模型中,貸款業(yè)務(wù)品種、合同金額、合同擔保方式、職務(wù)、職業(yè)、婚姻狀況、業(yè)務(wù)類型和貸款期限對信用風險預(yù)測準確率有顯著的影響.為風險管理人員的科學決策提供有力的數(shù)據(jù)支持.

從實證改進的效果來看,機器迭代自適應(yīng)決策樹算法的預(yù)測精度的提升幅度沒有泛化能力的提升明顯,后續(xù)研究可以考慮將以有方向的方式抽取樣本和特征集,保證精度按梯度提升作為進一步優(yōu)化的方向.

參考文獻

[1]張美靈,歐志偉 信用評估理論與實務(wù)[M].上海:復(fù)旦大學出版社,2004.

[2]姜明輝,姜磊,王雅林,線性判別式分析在個人信用評估中的應(yīng)用[J].管理科學, 2003,16(8):78-87.

[3]徐少鋒,土延臣,個人信用評估中的模型[J].天津輕業(yè)學院學報, 2003,18(9):78-87.

[4]詹原瑞,宏偉,信用評分模型的設(shè)計與決策分析[J].中國管理科學, 2003,6(4):78-87.

[5]樓際通,樓文高,余秀榮.商業(yè)銀行個人信用風險評價的投影尋蹤建模及其實證研究[J]. 經(jīng)濟數(shù)學.2013, 30(4):27-33.

[6]王穎,聶廣禮,石勇.基于信用評分模型的我國商業(yè)銀行客戶違約概率研究[J].管理評論,2012,12(2):78-87.

[7]龔尚花 互聯(lián)網(wǎng)環(huán)境下消費信貸行為研究[J]. 經(jīng)濟數(shù)學2013, 30(4):71-78.

[8]SATHYADEVAN S, REMYA R. Nair.Comparative analysis of decision tree algorithms: ID3, C4.5 and Random Forest[J].Springer,2014,12(3):549-562.

[9]ZHAO Y.Decision trees and random forest[J].Elsevier,2013(10):27-40.

[10]TANHA J. Semisupervised selftraining for decision tree classifiers[J].International Journal of Machine Learning and Cybernetics, 2017,8(1):355-370.

[11]HE Y. An approach to group decision making with hesitant information and its application in credit risk evaluation of enterprises[J].Elsevier B.V.,2016,6(2):02-10.

主站蜘蛛池模板: 黄色成年视频| 亚洲性影院| 亚洲欧美精品日韩欧美| 凹凸国产分类在线观看| 日本午夜影院| 精品伊人久久久大香线蕉欧美| 国产精品青青| 97狠狠操| 欧美在线一二区| 亚洲国产精品无码AV| 亚洲成人一区二区三区| 91在线无码精品秘九色APP| 国产精品极品美女自在线网站| 国产无码精品在线播放| 日韩AV手机在线观看蜜芽| 午夜福利在线观看入口| 午夜性爽视频男人的天堂| 亚洲首页在线观看| 婷婷开心中文字幕| 久久婷婷六月| 亚洲爱婷婷色69堂| 国产一级视频在线观看网站| 99无码中文字幕视频| 亚洲乱码精品久久久久..| 国产小视频免费观看| 看国产毛片| 国产91av在线| 欧美日韩国产成人在线观看| 国产精品亚欧美一区二区| 免费在线看黄网址| 亚洲六月丁香六月婷婷蜜芽| 久久综合结合久久狠狠狠97色| 国产大全韩国亚洲一区二区三区| 制服丝袜亚洲| 成·人免费午夜无码视频在线观看| 四虎影视国产精品| 日韩东京热无码人妻| 日韩久草视频| 亚洲最黄视频| 国产国产人免费视频成18| 国产青青草视频| 国产av剧情无码精品色午夜| 久久综合激情网| 欧美日本在线| 久久天天躁狠狠躁夜夜躁| 亚洲成人一区在线| 日本午夜精品一本在线观看| 国产成人综合在线观看| 久久午夜夜伦鲁鲁片不卡| 青青草a国产免费观看| 亚洲精品天堂自在久久77| 国产成人喷潮在线观看| 成年免费在线观看| 亚洲人妖在线| 黄色福利在线| 国产精品美女在线| 原味小视频在线www国产| a级毛片一区二区免费视频| 国产麻豆永久视频| 欧美一区中文字幕| 久久综合伊人77777| 亚洲欧洲国产成人综合不卡| 日韩精品成人在线| 人妻21p大胆| 久久久久九九精品影院| 久久伊人操| 一级不卡毛片| 99热最新网址| 国产交换配偶在线视频| 久久情精品国产品免费| 欧美日韩一区二区三区在线视频| 国产99视频精品免费观看9e| 伊人久久大香线蕉影院| 国产麻豆精品在线观看| 又大又硬又爽免费视频| 91久久天天躁狠狠躁夜夜| 成年女人a毛片免费视频| 热久久这里是精品6免费观看| 亚洲成a人片在线观看88| 国产女同自拍视频| 丝袜无码一区二区三区| 亚洲成人黄色在线|