999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于寬深學(xué)習(xí)的P2P借款人違約風(fēng)險(xiǎn)預(yù)測(cè)

2023-07-07 03:10:06張?zhí)覍?/span>梁雪春
關(guān)鍵詞:特征模型

張?zhí)覍?梁雪春

(南京工業(yè)大學(xué)電氣工程與控制科學(xué)學(xué)院 江蘇 南京 211816)

0 引 言

P2P借貸市場(chǎng)是基于互聯(lián)網(wǎng)的交易平臺(tái)。相較于傳統(tǒng)金融交易平臺(tái),其交易成本更低、貸款更便利[1-2]。隨著我國(guó)對(duì)P2P的監(jiān)管力度不斷加深,P2P產(chǎn)業(yè)告別了野蠻式發(fā)展,平臺(tái)逐漸朝著健康發(fā)展的道路轉(zhuǎn)型[3]。然而,平臺(tái)與投資者之間仍然存在信息不對(duì)稱的問題,投資者易投資遭受損失,平臺(tái)也會(huì)因過多的不良貸款而逐漸失去投資人的信任[4]。從長(zhǎng)遠(yuǎn)來看,提高不良貸款的識(shí)別率、降低投資風(fēng)險(xiǎn),對(duì)平臺(tái)方和投資者來說都非常必要。

章雷等[5]認(rèn)為增大數(shù)據(jù)量可以減輕信息不對(duì)稱所帶來的影響,更大的數(shù)據(jù)量能更好地評(píng)估借款人資質(zhì)。不平衡數(shù)據(jù)少數(shù)類存在分類精度較低的問題,增大數(shù)據(jù)量可以避免因欠采樣而導(dǎo)致模型過擬合[6]。通過獲取大量的借款人信息數(shù)據(jù),挖掘借款人信息與貸款違約的關(guān)聯(lián)性可以使投資者制定更加合理的投資策略,降低投資風(fēng)險(xiǎn)。在國(guó)內(nèi)P2P風(fēng)險(xiǎn)預(yù)測(cè)研究中,譚中明等[7]使用人人貸數(shù)據(jù),采集了約900個(gè)樣本,12個(gè)特征。張衛(wèi)國(guó)等[8]也采用人人貸數(shù)據(jù),共采集了1 500個(gè)樣本,有17個(gè)特征。謝雪梅等[9]從人人貸和拍拍貸上選取了共約65 000個(gè)樣本進(jìn)行預(yù)測(cè)。可以看到,由于國(guó)內(nèi)大多數(shù)平臺(tái)不會(huì)公布其歷史借款人信息,研究者收集到的數(shù)據(jù)集的數(shù)據(jù)量較少,且格式不統(tǒng)一,不利于模型的比較分析。本文選用目前全球最大的P2P平臺(tái)Lending Club官方公開的借款人信息數(shù)據(jù)集,具有時(shí)間跨度大、數(shù)據(jù)量大和數(shù)據(jù)特征豐富的優(yōu)勢(shì),也是近年來在P2P借貸違約預(yù)測(cè)和風(fēng)險(xiǎn)評(píng)估領(lǐng)域內(nèi)研究者們較為青睞的數(shù)據(jù)集,具有一定的基準(zhǔn)性[10-12]。

國(guó)內(nèi)外學(xué)者對(duì)借款人違約風(fēng)險(xiǎn)預(yù)測(cè)模型進(jìn)行了許多研究,Teply等[13]基于Lending Club數(shù)據(jù)集,對(duì)比了10種主流分類算法的性能,其中邏輯回歸、神經(jīng)網(wǎng)絡(luò)和線性判別分析在分類任務(wù)中性能較好。Wang等[14]對(duì)P2P網(wǎng)貸數(shù)據(jù)進(jìn)行了特征的相關(guān)分析,研究表明,在特征數(shù)量(158個(gè))較大的情況下,邏輯回歸分類準(zhǔn)確率最高。吳艇帆[15]對(duì)邏輯回歸分類器進(jìn)行了改進(jìn),使用基于L1正則化的邏輯回歸模型進(jìn)行P2P借款人風(fēng)險(xiǎn)測(cè)度,提升了預(yù)測(cè)的準(zhǔn)確性。Guo[16]使用BP神經(jīng)網(wǎng)絡(luò)作為貸款的風(fēng)險(xiǎn)評(píng)估算法,通過比較后得出,基于BP神經(jīng)網(wǎng)絡(luò)的算法優(yōu)于傳統(tǒng)的Logistic回歸算法。上述研究表明,邏輯回歸和神經(jīng)網(wǎng)絡(luò)在借款人違約預(yù)測(cè)的應(yīng)用中都能取得較好的結(jié)果。谷歌公司Cheng等[17]提出了應(yīng)用于推薦系統(tǒng)的寬深度學(xué)習(xí)模型,該模型結(jié)合了寬模型(即邏輯回歸模型)記憶性強(qiáng)和深模型泛化能力強(qiáng)的優(yōu)點(diǎn)。本文采用寬深度學(xué)習(xí)模型對(duì)P2P借款人違約概率進(jìn)行預(yù)測(cè),但由于推薦系統(tǒng)數(shù)據(jù)集與借款人信用數(shù)據(jù)集有明顯區(qū)別,借款人信用數(shù)據(jù)集的類別型特征維數(shù)較低且原始模型沒有加入數(shù)值型特征。因此需要改善模型嵌入層的輸入并加入數(shù)值型特征。最后在數(shù)據(jù)量大、特征數(shù)多的真實(shí)借款人信息數(shù)據(jù)集上驗(yàn)證該模型的預(yù)測(cè)性能。

1 模型介紹

1.1 寬模型

寬模型部分選用的是廣義線性模型,即大規(guī)模分類問題中常見的邏輯回歸模型[14]。寬模型能夠更好地捕捉特征之間的相關(guān)信息,具有良好的記憶性。設(shè)模型的輸出為y,y是一個(gè)0到1之間的概率值,表示借款人的違約概率,y越接近1表示違約概率越大。計(jì)算借款人違約概率的公式為:

y=σ(z)

(1)

(2)

式中:zwide表示寬模型的輸出;σ(·)為Sigmoid函數(shù);借款人違約風(fēng)險(xiǎn)預(yù)測(cè)問題是一個(gè)二分類問題,標(biāo)簽為1的樣本為違約樣本,標(biāo)簽為0的樣本為非違約樣本,故采用二分類任務(wù)中常用的Sigmoid函數(shù)將模型的輸出轉(zhuǎn)換為0到1之間的概率值,最后將違約概率大于0.5的樣本預(yù)測(cè)為違約樣本。寬模型預(yù)測(cè)的借款人違約概率為y=σ(zwide),zwide計(jì)算方法如下:

(3)

式中:x=[x1,x2,…,xn]為特征向量;wwide=[w1,w2,…,wn]為模型權(quán)重;bwide為偏置。

組合特征不僅能獲取類別型特征之間的交互信息,而且能用線性模型學(xué)習(xí)非線性信息,提高模型的泛化性。寬模型的輸入除了原始類別型特征之外還需增加組合特征。對(duì)于借款人數(shù)據(jù)集,特征向量x包括數(shù)值型特征和類別型特征,即x=[xnum,xcat]。為豐富寬度模型的輸入,可以利用類別型特征xcat構(gòu)造組合特征φ(xcat),組合特征定義如下:

(4)

式中:xcat表示所有原始的類別型特征,xi為單個(gè)類別型特征,xi∈xcat;d是組合特征的個(gè)數(shù);cki是一個(gè)布爾型的變量,cki=1表示第i個(gè)原始特征xi參與了第k個(gè)組合特征φk的特征交叉。如特征“性別”={男,女}與特征“職業(yè)”={老師,學(xué)生}可以交叉組合成“新特征”={(男,老師),(女,老師),(男,學(xué)生),(女,學(xué)生)}。加入組合特征φ(xcat)后,式(2)改寫為:

(5)

式中:φ(xcat)=[φ1(xcat),φ2(xcat),…,φd(xcat)]為新增的d個(gè)組合特征。寬模型的結(jié)構(gòu)如圖1所示。

圖1 寬模型結(jié)構(gòu)

1.2 深模型

深模型部分是前饋神經(jīng)網(wǎng)絡(luò)[16]。深模型的輸入包括數(shù)值型特征xnum、類別型特征xcat與組合特征φ(xcat)。其中,對(duì)于原始類別型特征和組合特征這類稀疏特征,需要將其映射為稠密實(shí)值向量。用embed(x,k)表示將類別型特征x映射為k維的嵌入向量,則深模型的嵌入向量為:

xemb=[embed(xcat,k1),embed(φ(xcat),k2)]

(6)

式中:k1、k2表示映射后的維度。原始類別型特征因其本身的維度較低,映射后的嵌入向量要比組合特征的嵌入向量維數(shù)更低,即k1

數(shù)值型特征xnum與映射后的嵌入向量xemb拼接后作為神經(jīng)網(wǎng)絡(luò)的輸入接入第一層隱藏層,則第一層隱藏層的輸出z(1)為:

z(1)=f(W(1)[xnum,xemb]+b(1))

(7)

其余各層隱藏層的輸出如下:

z(l+1)=f(W(l)z(l)+b(l))

(8)

式中:l為當(dāng)前隱藏層層數(shù);z(l)、b(l)與W(l)是第l層的輸出、偏置及權(quán)重;f為激活函數(shù),此處為線性整流函數(shù)(Rectified Linear Units, ReLU)。ReLU激活函數(shù)公式如下:

f(x)=max(0,x)

(9)

設(shè)深模型共有L層隱藏層,則最后一層隱藏層的輸出為z(L),利用式(1)計(jì)算違約概率。對(duì)于深模型,式(1)中的z=zdeep。

(10)

式中:wwide與bwide為深模型輸出層的權(quán)重和偏置。深模型結(jié)構(gòu)如圖2所示。

圖2 深模型結(jié)構(gòu)

1.3 寬深模型

寬深模型由寬模型和深模型共同組成[17],采用邏輯回歸損失函數(shù)來進(jìn)行聯(lián)合訓(xùn)練。此處寬度部分和深度部分的模型是聯(lián)合訓(xùn)練,而非組合模型訓(xùn)練。組合模型在訓(xùn)練過程中,兩模型獨(dú)立訓(xùn)練,分別優(yōu)化其參數(shù),損失函數(shù)也獨(dú)立。而在聯(lián)合訓(xùn)練中,寬深度部分共享一個(gè)損失函數(shù),在訓(xùn)練過程中同時(shí)優(yōu)化兩模型的參數(shù)。對(duì)于預(yù)測(cè)借款人違約概率的二分類問題,將寬模型和深模型的輸出之和輸入至式(1)計(jì)算得到違約概率:

y=σ(zwide+zdeep)

(11)

式中:zwide和zdeep分別由式(5)和式(10)給出;σ(·)為Sigmoid函數(shù),由式(2)給出。

為了避免過擬合,增強(qiáng)模型的魯棒性,本文在寬模型和深模型的輸出層加入dropout隨機(jī)失活層[18],設(shè)定一個(gè)概率p,對(duì)輸出層的每個(gè)輸出都以概率p來判定是否保留該輸出,將式(5)改進(jìn)為:

(12)

式中:⊙表示兩向量對(duì)應(yīng)元素相乘;r=[r1,r2,…,rn],n的大小與[x,φ(xcat)]的維度一致;ri∈{0,1}通過以概率為p的伯努利分布隨機(jī)生成。

同理,將式(10)改進(jìn)為:

(13)

同時(shí),為了提高精度并加快訓(xùn)練速度,避免模型過于關(guān)注取值較大的特征,在特征輸入隱藏層之前需要對(duì)數(shù)值型特征進(jìn)行標(biāo)準(zhǔn)化,本文采用Z-Score標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化公式如下:

(14)

式中:μ和σ為數(shù)值型特征的均值和標(biāo)準(zhǔn)差。

本文提出的寬深模型針對(duì)借款人數(shù)據(jù)的特點(diǎn)加入了數(shù)值型特征,更充分地利用嵌入層對(duì)數(shù)據(jù)進(jìn)行壓縮和降維,豐富了模型的輸入的同時(shí),擴(kuò)展了模型的適用性。寬深模型結(jié)構(gòu)如圖3所示。

圖3 寬深模型結(jié)構(gòu)

2 數(shù)據(jù)預(yù)處理

2.1 數(shù)據(jù)集

實(shí)驗(yàn)選用目前全球最大的P2P平臺(tái)LendingClub的借款人信息數(shù)據(jù)集。選用的數(shù)據(jù)時(shí)間范圍跨度從2016年至2019年,共約190萬個(gè)樣本。原始借款人數(shù)據(jù)集共有144個(gè)特征,其中以“l(fā)oan-status”(貸款狀態(tài))項(xiàng)作為判斷借款人是否違約的目標(biāo)標(biāo)簽,由于還款時(shí)限和貸款策略的不同,存在貸款狀態(tài)未完結(jié)的樣本,需要剔除掉這部分無效樣本。可以看到,年份越近,有效樣本數(shù)越少,剔除掉無效樣本后,剩下約90萬條有效樣本,違約率表示違約樣本數(shù)占有效樣本數(shù)的比例,數(shù)據(jù)集相關(guān)信息如表1所示。

表1 Lending Club數(shù)據(jù)集信息

2.2 缺失值處理

由于原始數(shù)據(jù)集的缺失值較多,且存在部分取值為字符串型的類別型特征,無法直接應(yīng)用到模型訓(xùn)練中。因此需要對(duì)數(shù)據(jù)集進(jìn)行基本的數(shù)據(jù)預(yù)處理工作。

首先刪除缺失值占比超過15%的特征,由于缺失值數(shù)目過多,這些特征對(duì)模型訓(xùn)練幫助有限。其次對(duì)于缺失值占比小于5%的特征,刪除掉有缺失值的樣本。剩下缺失值占比為5%~15%的特征中,對(duì)于特征取值分布符合正態(tài)分布的數(shù)值型特征用均值填補(bǔ)缺失值,其余特征用0值填充。對(duì)于類別型特征,缺失值用出現(xiàn)頻率最高的特征值填充。

2.3 剔除冗余特征

刪除相關(guān)度高的特征,如“funded_amnt” (申請(qǐng)貸款金額)和“funded_amnt_inv” (實(shí)發(fā)貸款金額)特征。該數(shù)據(jù)集中借款人的貸款申請(qǐng)都得到了通過,因此這兩項(xiàng)特征的取值高度一致。

刪除特征取值頻率高于98%的特征,例如對(duì)于“policy_code”(是否公開信息)特征,取值為“1”的樣本占比高達(dá)99%。

2.4 特征工程

數(shù)據(jù)預(yù)處理完成后,將特征分為類別型特征和數(shù)值型特征分別進(jìn)行簡(jiǎn)單的特征工程。對(duì)于類別型特征,對(duì)其進(jìn)行獨(dú)熱向量編碼,將一維類別型變量映射成多維的取值為0或1的特征。對(duì)于數(shù)值型特征,對(duì)其進(jìn)行標(biāo)準(zhǔn)化。

最后將預(yù)處理完畢后的特征匯總成新的數(shù)據(jù)集。數(shù)據(jù)預(yù)處理部分的流程如圖4所示。

圖4 數(shù)據(jù)預(yù)處理流程

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境和模型參數(shù)

實(shí)驗(yàn)環(huán)境為Chromium OS 9.0, Intel(R) Xeon(R) CPU @ 2.30 GHz, 8 GB內(nèi)存, Tesla K80 12 GB GPU顯存, Python3.7, TensorFlow 2.2.0。在完成數(shù)據(jù)預(yù)處理后搭建訓(xùn)練模型。實(shí)驗(yàn)使用TensorFlow深度學(xué)習(xí)框架搭建模型。深度部分由兩層隱藏層組成,結(jié)點(diǎn)數(shù)分別為64和32。使用Adam優(yōu)化器優(yōu)化交叉熵?fù)p失函數(shù),學(xué)習(xí)率為10-4,迭代輪次為10,每批數(shù)據(jù)有2 048個(gè)樣本。

3.2 評(píng)價(jià)指標(biāo)

本文采用召回率、精確率和準(zhǔn)確率等指標(biāo)衡量模型性能。正例表示違約樣本,負(fù)例表示非違約樣本。TP表示實(shí)際是正例,預(yù)測(cè)為正例的樣本數(shù);FP表示實(shí)際為負(fù)例,預(yù)測(cè)為正例的樣本數(shù);TN表示實(shí)際為負(fù)例,預(yù)測(cè)為負(fù)例的樣本數(shù);FN表示實(shí)際為正例,預(yù)測(cè)為負(fù)例的樣本數(shù)。

召回率為模型找到的違約樣本數(shù)與實(shí)際違約樣本數(shù)的比例,其定義如下:

(15)

精確率為模型找到的違約樣本數(shù)與預(yù)測(cè)違約樣本數(shù)的比例,其定義如下:

(16)

準(zhǔn)確率的定義如下:

(17)

F1-score的定義如下:

(18)

3.3 結(jié)果分析

由于數(shù)據(jù)集特征數(shù)量較大,表2僅給出前文提到的和少數(shù)新增的包含部分特征的樣本樣例表。

表2 包含部分特征的樣本樣例表

表3 不同訓(xùn)練集下3個(gè)模型的性能對(duì)比

為了驗(yàn)證數(shù)據(jù)集大小及時(shí)間對(duì)模型性能的影響,本文采用按年份對(duì)數(shù)據(jù)集進(jìn)行的劃分方式對(duì)模型性能進(jìn)行驗(yàn)證。實(shí)驗(yàn)使用2016年至2018年的樣本作為訓(xùn)練集,2019年的數(shù)據(jù)作為測(cè)試集,模擬投資者根據(jù)過去的信息對(duì)未來進(jìn)行決策的過程。將預(yù)處理完畢后的訓(xùn)練集數(shù)據(jù)以一年為單位,對(duì)數(shù)據(jù)集進(jìn)行組合劃分,然后分別對(duì)寬模型、深模型、寬深模型進(jìn)行訓(xùn)練。

可以看出,以2018年作為訓(xùn)練集得到的模型性能最佳,模型的召回率、準(zhǔn)確率、F1-score分別為71.02%、93.27%、81.76%。此外可以看出,以2016年、2017年,2018年的樣本作為訓(xùn)練集時(shí),年份越接近2019年,模型的F1-Score、召回率、準(zhǔn)確率越高,精確率有小幅下降。這說明由于經(jīng)濟(jì)時(shí)空背景的差異,年份越久遠(yuǎn)的樣本對(duì)預(yù)測(cè)違約概率的貢獻(xiàn)程度越低,使得模型在利用過去的樣本進(jìn)行訓(xùn)練時(shí),得到的模型較為保守,找出違約借款人樣本的能力較差,雖然精確率較高,但投資者更為重視的召回率偏低。

同時(shí)可以看出,以2018年、2017年至2018年、2016年至2018年的樣本作為訓(xùn)練集時(shí),隨著數(shù)據(jù)集樣本數(shù)的增加,模型的F1-Score、召回率、準(zhǔn)確率也在下降。說明盲目增加數(shù)據(jù)量并不一定能提升模型性能,反而可能會(huì)因降低了樣本質(zhì)量而導(dǎo)致模型性能下降。

圖5展示了以2018年作為訓(xùn)練集訓(xùn)練得到的三個(gè)模型在訓(xùn)練過程中性能指標(biāo)的迭代曲線,可以看出,寬深模型在準(zhǔn)確率和F1-score指標(biāo)上的性能均優(yōu)于單一的寬模型或深模型。其中,寬模型的性能最差且上升慢,需要更多的訓(xùn)練迭代輪次來提升寬模型的性能,而寬深模型各項(xiàng)指標(biāo)隨迭代次數(shù)的上升明顯快于深模型和寬模型。寬深模型準(zhǔn)確率和F1-score分別比深模型高5.38百分點(diǎn)和20.5百分點(diǎn),該實(shí)驗(yàn)結(jié)果表明了寬深模型應(yīng)用于借款人違約預(yù)測(cè)的可行性與優(yōu)越性。

4 結(jié) 語

為提高不良貸款的識(shí)別率、降低投資風(fēng)險(xiǎn)。本文針對(duì)大數(shù)據(jù)時(shí)代下的借款人信息數(shù)據(jù)集數(shù)據(jù)量大和特征豐富的特點(diǎn),提出一種基于寬深學(xué)習(xí)的借款人違約風(fēng)險(xiǎn)預(yù)測(cè)模型。該模型結(jié)合了寬模型的記憶性和深模型泛化性,并采用引入隨機(jī)失活層對(duì)其進(jìn)行優(yōu)化。在進(jìn)行數(shù)據(jù)預(yù)處理后,將數(shù)據(jù)集以年份為單位劃分并訓(xùn)練模型。實(shí)驗(yàn)結(jié)果表明,選用最新的數(shù)據(jù)進(jìn)行投資決策分析和模型訓(xùn)練對(duì)投資者而言十分重要;寬深模型具有更強(qiáng)的識(shí)別違約樣本的能力和更好的預(yù)測(cè)性能。本文僅采用了單平臺(tái)的借款人信息數(shù)據(jù)集,后續(xù)研究可以結(jié)合多家平臺(tái)的借款人信息數(shù)據(jù)集訓(xùn)練模型,提高模型的泛化能力并進(jìn)一步拓展寬深模型的應(yīng)用范圍。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 美女无遮挡免费视频网站| 国产精品手机在线观看你懂的| 亚洲精品在线91| 高清无码不卡视频| 97se亚洲综合| 99热这里只有精品久久免费| 美女被躁出白浆视频播放| 亚洲欧美一区二区三区蜜芽| 高清无码不卡视频| 国产在线观看91精品| 久久久精品久久久久三级| 亚洲人成网线在线播放va| 国模视频一区二区| 国产亚洲日韩av在线| 亚洲日产2021三区在线| 凹凸精品免费精品视频| 日本国产精品| 成人va亚洲va欧美天堂| 欧美午夜在线播放| 国产极品美女在线| 亚洲中文字幕av无码区| 国产精品网曝门免费视频| 好吊妞欧美视频免费| 91成人在线免费视频| 精品黑人一区二区三区| 国产成人乱码一区二区三区在线| 超碰精品无码一区二区| 女人18毛片久久| 夜夜拍夜夜爽| 任我操在线视频| 成人国产精品视频频| 国产乱子精品一区二区在线观看| 国产欧美日韩免费| 这里只有精品在线播放| 国产毛片网站| 欧洲一区二区三区无码| 国产高清免费午夜在线视频| 国产精品久久久久无码网站| 午夜爽爽视频| 亚洲午夜久久久精品电影院| 色老头综合网| av在线无码浏览| 国产午夜一级淫片| 婷婷亚洲天堂| 久久一日本道色综合久久| 九九久久精品国产av片囯产区| 人人妻人人澡人人爽欧美一区| 久久精品这里只有精99品| 亚洲第一区精品日韩在线播放| 色婷婷综合在线| 国产亚洲精品在天天在线麻豆| 国产精品亚洲欧美日韩久久| 久久精品国产亚洲麻豆| 欧美一区二区福利视频| 久久久精品国产亚洲AV日韩| 国产AV无码专区亚洲A∨毛片| 国产系列在线| 国产毛片不卡| 亚洲国产欧美目韩成人综合| 亚洲乱码精品久久久久..| 五月综合色婷婷| 日本成人福利视频| 欧美人与动牲交a欧美精品| 蜜臀AVWWW国产天堂| 午夜啪啪网| 狠狠久久综合伊人不卡| 国产精品女熟高潮视频| 九色最新网址| 国产白丝av| 色综合热无码热国产| 欧美日韩国产一级| 很黄的网站在线观看| 99热国产在线精品99| 伊人色综合久久天天| 国产00高中生在线播放| 首页亚洲国产丝袜长腿综合| 婷婷综合色| 一级黄色欧美| 国产成人精品在线| a级毛片免费播放| 久精品色妇丰满人妻| 国产欧美亚洲精品第3页在线|