999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于群決策的P2P借貸信用風險評估①

2019-07-26 03:17:10姜雪瑩
計算機系統應用 2019年5期
關鍵詞:模型

姜雪瑩,秦 進

(中國科學技術大學 管理學院,合肥 230026)

1 引言

P2P借貸是指個人用戶之間借助專業的互聯網借貸平臺進行的小額借貸交易.近年來,P2P借貸行業在中國發展迅猛,網貸之家的數據顯示,2017年國內P2P借貸交易額達2.8 萬億元,較2016年增長超過40%,活躍投資人數達440 萬人.為維持行業健康發展,需進行有效的風險控制.

借款人信用風險是指借款人未在約定期限內還本付息的風險,即違約風險,由于P2P借貸不經由傳統金融機構,個體投資者在面臨信息不對稱問題的同時缺乏規避風險的專業能力,因此,如何合理評估借款人信用風險是一個重要的研究問題[1].信用風險評估問題旨在預測借款項目的違約概率.對于已到達還款期限的項目,稱未按時還本付息的項目為違約項目,違約概率記為1,按時還本付息的項目為不違約項目,違約概率記為0.將項目違約概率作為被解釋變量,從到達還款期限的項目數據中訓練得到回歸模型,可預測新發布的借款項目的違約概率,從而為平臺管理與投資者投資提供參考.

為解決P2P借貸的信用風險評估問題,諸多機器學習算法被用于預測借款項目的違約概率,研究表明隨機森林(Random Forest)[2],神經網絡(Neural Network)[3]、梯度提升樹(GBDT)[4]等算法具有較高的預測準確度.由于P2P借貸信用風險評估問題涉及的借款項目特征復雜,且呈非線性關系,在不同的數據環境下,運用單一算法會受到不同數據特征的干擾[5].而多種算法之間分析數據特征的角度存在差異,通過將多種算法進行集成,能夠達成互補,使集成效果優于單一算法[6].Xia 等提出,將優質算法引入集成模型中,有助于提升模型預測的準確度[5].因此,考慮對多種優質信用風險評估模型進行集成.群決策是使群體中個體觀點達成一致的決策過程[7],在諸多領域中得到廣泛應用[8,9].本文基于群決策思想,選取在P2P借貸信用風險評估問題中表現優異的隨機森林、神經網絡、梯度提升樹算法,分別構建信用風險評估模型,并運用群決策方法對以上三個模型進行集成,通過各模型間的優勢互補,為P2P借貸信用風險評估提供更為準確的方法.為驗證模型效果,選取人人貸、拍拍貸數據進行實證研究.

2 基于群決策的P2P借貸信用風險評估算法及模型構建

一個群體中,每個個體對于特定事件均有自己的主觀觀點,使群體中個體觀點達成一致的決策過程,稱為群決策.在群決策過程中,每個個體在其他個體觀點的基礎上對自身觀點進行修正,在一系列迭代修正后,群體中所有個體觀點趨于一致且不再變動,從而形成群體的觀點.運用群決策方法構建P2P借貸信用風險評估模型,具有以下特性:第一,交互性,群體中所有個體間通過觀點的交互影響,實現優勢互補;第二,動態性,群決策過程針對不同樣本獨立進行,從而對不同情況形成更有針對性的結論;第三,異質性,運用群決策方法,能夠實現不同種類算法間的集成.

2.1 基于群決策的P2P借貸信用風險評估集成算法

在群決策過程中,個體的主觀觀點會受到其他個體的影響而發生改變,從而令群體中所有個體的觀點達成一致[10].假設現有N個信用風險評估模型M1,M2,···,MN,分別運用不同的機器學習算法從訓練數據中產生,稱為個體學習器.第i個個體學習器Mi對測試集中借款項目違約概率的預測值為Pi.構建基于群決策的集成模型,關鍵在于衡量個體學習器Mi的預測值Pi受到其余個體學習器預測值的影響.

其中,wi j表示個體學習器Mj對個體學習器Mi的影響權重,.設W為N?N大小的矩陣,矩陣中的元素為wij(i=1,···,N,j=1,···,N),P?=(,···,)′,P=(P1,···,PN)′,則:

為使所有個體學習器的修正預測值達成一致,需迭代進行式(2)所示修正過程,直至所有個體學習器的修正預測值保持一致且不再變動.由于W是N?N的轉移矩陣,可將其視為馬爾科夫鏈的一步轉移概率矩陣.因此,所有個體學習器的修正預測值達成一致,當且僅當存在向量π=(π1,···,πN),滿足:

解出向量π的值,最終得到所有個體學習器的集成結果R:

集成結果R即為集成模型對借款項目違約概率的預測值.

上述過程中,一個重要的問題是如何獲取個體學習器Mj對個體學習器Mi的影響權重wij.參考Basir 等[11]的研究,設置個體學習器的不確定度,將不確定度分為兩種類型:局部不確定度和全局不確定度.其中,局部不確定度衡量的是個體學習器自身決策不確定的程度,全局不確定度衡量的是個體學習器在受到另一個個體學習器的影響時決策的不確定程度.

個體學習器Mi的違約概率預測值為Pi,則不違約概率預測值為1-Pi.記個體學習器Mi的局部不確定度為Ui|i,Ui|i滿足:

當Pi趨向0 或1時,個體學習器Mi對借款項目違約與否的判定清晰,此時不確定度Ui|i趨向于0.當Pi趨向0.5時,個體學習器Mi對借款項目違約與否的判定近似隨機,此時不確定度Ui|i趨向于1.因此,局部不確定度Ui|i能夠反映個體學習器自身決策不確定的程度.

記已知個體學習器Mj的違約概率預測值的情況下,個體學習器Mi的違約概率預測值為Pi|j,則不違約概率預測值為1-Pi|j.記個體學習器Mi的全局不確定度為Ui|j,Ui|j滿足:

與局部不確定度類似,全局不確定度Ui|j能夠反映個體學習器在受到另一個個體學習器的影響時決策的不確定程度.

Pi|j表示的是個體學習器Mi在個體學習器Mj影響下的違約概率預測值,取Pi|j為Pi與Pj的線性組合,即:

取Ii|j為sigmoid 函數,即:

其中,Acci為個體學習器Mi的預測準確率.

求得局部不確定度與全局不確定度后,希望給不確定度低的個體學習器分配較高的權重,給不確定度高的個體學習器分配較低的權重.因此,設置規劃問題,

其中,wi j是個體學習器Mj對個體學習器Mi的影響權重.采用拉格朗日乘子法,令:

求Li對wi j的偏導并令結果等于0,結合,得到wi j的 表達式:

由此獲取個體學習器Mj對個體學習器Mi的影響權重wi j,隨后根據式(3)、(4),即可得到所有個體學習器的集成結果R.

2.2 基于群決策的P2P借貸信用風險評估模型構建過程

假設現有N種機器學習算法,基于群決策的P2P借貸信用風險評估模型的構建過程,描述如下:

(1)分別運用N種機器學習算法,在訓練數據中訓練出個體學習器M1,M2,···,MN,并得到個體學習器的預測準確率Acc1,···,AccN.

(2)應用個體學習器M1,M2,···,MN,對測試集中借款項目的違約概率進行預測,預測值為P1,…,PN.

(3)運用式(5)求得個體學習器的局部不確定度,運用式(6)-(8)求得個體學習器的全局不確定度.

(4)運用式(11)求得權重wi j(i=1,···,N,j=1,···,N).

(5)將wi j代入式(3),解得向量π的值.

(6)運用式(4),最終得到所有個體學習器的集成結果R.

集成結果R表示集成模型對借款項目違約概率的預測,若R>0.5,預測借款項目違約,若R≤0.5,預測借款項目不違約.

2.3 個體學習器描述

選取隨機森林(Random Forest)、神經網絡(Neural Network)、梯度提升樹(GBDT)三種機器學習算法,分別構建回歸模型,作為群決策集成模型的個體學習器.在P2P借貸信用風險評估問題中,以P2P借貸借款項目數據集作為個體學習器的訓練數據集,選取借款項目及借款人的信息作為回歸模型的解釋變量,借款項目違約概率作為回歸模型的被解釋變量,由此構建的回歸模型,能夠用于新發布的借款項目的違約概率預測.以下是對隨機森林、神經網絡、梯度提升樹三種算法的簡要介紹.

2.3.1 隨機森林

隨機森林(Random Forest)是解決回歸問題常用的算法,它以一系列未剪枝的決策樹作為基學習器,在構建bagging 集成的基礎上,于決策樹的訓練過程中引入變量的隨機選擇思想[12].決策樹的訓練過程是特征空間的遞歸分區過程,在每個非葉節點,決策樹從當前節點的變量集合中選取最優變量對數據集進行劃分.而在隨機森林中,決策樹每個節點的最優變量是從變量集合的一個隨機子集中選取的.隨機森林中的決策樹,建立在用bootstrap 采樣法從訓練集中選取的樣本集合上.在基于不同采樣集構建一系列決策樹后,隨機森林采用平均法對決策樹輸出的結果進行整合.隨機森林能夠快速并行地處理高維度的數據,在P2P借貸信用風險評估中,借款項目及借款人的特征數量較多,運用隨機森林能夠減輕特征選擇的負擔,對特征進行綜合分析.同時,隨機森林對于缺失數據具有較強的抗干擾能力,在P2P借貸中,存在借款人信息不全的情況,而隨機森林能夠在數據缺失的環境下得出較為準確的結果.

2.3.2 神經網絡

神經網絡(Neural Network)是模擬生物神經網絡構建的并行交互系統,它具有多種學習算法,其中使用誤差逆傳播算法訓練的單隱層前饋神經網絡(簡稱BP神經網絡),是最具有代表性的神經網絡算法之一.BP神經網絡分為三層:輸入層、隱層、輸出層,每一層由若干神經元構成,且每層神經元與下一層所有神經元相互連接.輸入層神經元接收外界輸入,并將信號傳遞至隱層.隱層神經元接收到上層神經元輸出值的加權平均,將其與閾值相比較,并通過激活函數產生神經元輸出,傳遞至輸出層.輸出層同樣進行信號加工,并生成最終的輸出值.神經網絡訓練的過程,就是確定神經元間連接權重以及神經元閾值的過程.根據神經網絡輸出值的誤差,基于梯度下降策略,可以對參數進行調整,并重新進行加權平均,如此進行迭代學習,直至誤差處于允許范圍之內,即可得到最終的神經網絡模型[13].神經網絡具有較強的非線性映射能力,能夠擬合P2P借貸中借款項目及借款人的信息與借款項目違約概率間的非線性關系.同時,神經網絡具有自學習與自適應的能力,在P2P借貸借款項目信息多樣化的情況下,神經網絡對新產生的借款項目具有較好的解釋能力.

2.3.3 梯度提升樹

梯度提升樹(GBDT)是一種重要的boosting 算法,以分類回歸樹(CART)作為弱學習器,通過迭代將若干弱學習器集成為一個強學習器.GBDT 采用了前向分布算法,其核心思想是,每一輪迭代中構建的弱學習器,建立在前一輪迭代集成的強學習器的損失函數的梯度下降方向.構建GBDT模型,首先要根據初始訓練集訓練一個基學習器f1(x),隨后進行以下迭代過程.假設前一輪迭代得到的強學習器為ft-1(x),損失函數為L(y,ft-1(x)),本輪迭代的目標是尋找弱學習器ht(x),使得 本輪迭代得到的強學習器ft(x)=ft-1(x)+ht(x)滿足損失函數L(y,ft(x))最小化.由于損失函數的負梯度可作為損失的近似值,因此通過構造決策樹對損失函數的負梯度進行擬合即可得到弱學習器ht(x).GBDT 可以靈活處理多種類型的數據,對于異常值的魯棒性較強,在P2P借貸較為復雜的數據環境下,GBDT 具有較高的預測準確率.

3 實驗分析

3.1 實驗數據及變量描述

選取中國具有代表性的兩家P2P 平臺人人貸與拍拍貸的數據,對基于群決策的P2P借貸信用風險評估模型的效果進行實驗驗證.其中,從人人貸選取2012年1月至2015年12月間發布的借款項目15 912個,從拍拍貸選取2015年1月到2017年1月間發布的借款項目50 167個.將借款項目的違約概率作為被解釋變量,兩個平臺借款項目的違約狀況分布如表1所示.

表1 人人貸、拍拍貸借款項目違約狀況分布

從平臺提供的信息中選取解釋變量,解釋變量分為三類:借款項目信息、借款人身份信息、借款人歷史借款信息.表2 展示了從人人貸與拍拍貸提供的信息中篩選出的解釋變量.

表2 人人貸、拍拍貸解釋變量匯總

3.2 實驗結果

構建群決策集成模型,首先需要運用隨機森林、神經網絡及梯度提升樹算法,分別構建三個信用風險評估個體學習器.在個體學習器構建過程中,一些重要參數的設置對于個體學習器的預測準確性存在一定影響,需要設置的參數包括隨機森林模型中決策樹的數量n,隨機森林中決策樹節點隨機選擇特征的數量m,神經網絡隱層中神經元的數量s,神經網絡的最大迭代次數d,梯度提升樹中決策樹的數量t.通過實驗,對比設置參數值不同的情況下模型的預測準確性,可確定參數值.根據實驗結果,取n=500,m=4,s=8,d=200,t=5000.

在構建個體學習器后,依據2.2 節中基于群決策的P2P借貸信用風險評估模型構建過程,可以對個體學習器進行集成.將三種個體學習器的結果與集成結果進行比較,同時運用信用風險評估的傳統方法邏輯回歸算法構建模型作為比較的基準,驗證基于群決策的P2P借貸信用風險評估模型的效果.

為評判信用風險評估模型的預測效果,若模型預測的借款項目違約概率大于0.5,預測借款項目為違約項目,若模型預測的借款項目違約概率小于等于0.5,預測借款項目為不違約項目.選取五個指標評判模型的預測效果:準確率、AUC、召回率、精確率、F1 值.準確率指模型正確預測的樣本數占總樣本數的比例.AUC 指隨機挑選一個違約項目和一個不違約項目,違約項目預測值高于不違約項目預測值的概率.召回率指實際不違約的項目中被正確預測為不違約的比例.精確率指被預測為不違約的項目中預測正確的比例.F1 值是召回率和精確率的調和平均值,用于綜合召回率和精確率對模型進行評價.

表3 采用人人貸數據構建信用風險評估模型結果

由于拍拍貸平臺的數據存在嚴重的類別不平衡問題,即不違約項目的數據量遠大于違約項目的數據量.運用類別不平衡數據構建模型對項目違約狀況進行預測,會導致大部分違約項目被錯誤預測為不違約項目,且模型評判指標虛高.因此,在采用拍拍貸數據構建信用風險評估模型前,運用隨機欠采樣方法,使得訓練集中違約項目與不違約項目的比例為1:1,據此可驗證模型在類別平衡數據下的效果.表4 展示了采用拍拍貸數據構建信用風險評估模型的結果.根據表4 數據,群決策集成模型的準確率、AUC、召回率均高于其余模型,精確率在相比較的模型中也處于較高位置.且綜合精確率與召回率,群決策集成模型的F1 值較其他模型更高.

表4 采用拍拍貸數據構建信用風險評估模型結果

4 結語

基于群決策方法,對隨機森林、神經網絡、梯度提升樹三種算法進行集成,用于評估P2P借貸中借款項目的信用風險.運用群決策方法進行集成,能夠通過不同算法評估結果間的相互影響,實現算法間的優勢互補,從而提升評估效果.選取人人貸、拍拍貸平臺的數據進行實驗驗證.考慮到拍拍貸的數據存在嚴重的類別不平衡問題,對拍拍貸數據的訓練集進行隨機欠采樣,使得訓練集達到類別平衡.數據研究結果顯示,集成算法的信用風險評估效果相比于單一算法有所提升,且優于傳統的邏輯回歸算法.因此,基于群決策的P2P借貸信用風險評估算法,有助于平臺及投資者更好的識別風險項目,以便進一步提升風險控制能力.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲永久色| 久一在线视频| 国产免费人成视频网| 欧美亚洲一区二区三区在线| 国产a在视频线精品视频下载| v天堂中文在线| 蜜桃视频一区二区三区| 久久毛片网| 国产精品林美惠子在线观看| 免费国产不卡午夜福在线观看| 亚洲乱码视频| 一区二区在线视频免费观看| 国产成人亚洲无吗淙合青草| 欧美国产菊爆免费观看 | 国模私拍一区二区 | 国产性猛交XXXX免费看| 久久久久久久蜜桃| 99激情网| 日本一区二区三区精品国产| 日韩国产亚洲一区二区在线观看 | 91麻豆久久久| 成人免费网站在线观看| 毛片国产精品完整版| 国产高清在线精品一区二区三区| 日本道综合一本久久久88| 国产第一页亚洲| 欧美亚洲激情| 最新国产高清在线| 丁香亚洲综合五月天婷婷| 玖玖免费视频在线观看| 亚欧成人无码AV在线播放| 国产流白浆视频| 国产亚洲精品自在久久不卡| 欧美日韩亚洲国产主播第一区| 国产欧美精品专区一区二区| 亚洲国产欧美目韩成人综合| 精品国产Av电影无码久久久| 久久久久国色AV免费观看性色| 国产成人精品一区二区三在线观看| 中文精品久久久久国产网址| 国产区网址| 青青青国产视频| 99久久国产精品无码| 国模在线视频一区二区三区| 另类专区亚洲| 久久精品国产在热久久2019 | 婷婷丁香在线观看| 区国产精品搜索视频| 另类欧美日韩| 国产jizz| 国产一区三区二区中文在线| 久久黄色一级视频| 国内熟女少妇一线天| 天天综合网色中文字幕| 四虎成人在线视频| 少妇精品在线| 久久网欧美| 精品精品国产高清A毛片| 亚洲国产精品久久久久秋霞影院| 欧美一区精品| 在线a网站| 精品视频一区在线观看| 久久影院一区二区h| 色综合天天综合| 综合久久五月天| 亚洲精品黄| 在线看片国产| 亚洲欧美成人在线视频| 精品视频在线观看你懂的一区| 亚洲伊人久久精品影院| 国产乱子伦手机在线| 午夜一级做a爰片久久毛片| 婷婷色丁香综合激情| 色哟哟国产精品| 婷婷激情五月网| 国产拍在线| 成人伊人色一区二区三区| 亚洲天堂高清| 国产日韩精品欧美一区喷| 亚洲中文精品人人永久免费| 亚洲A∨无码精品午夜在线观看| 91精品国产综合久久香蕉922|