999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Class Balanced Loss修正交叉熵的非均衡樣本信用風險評價模型

2022-04-07 01:24:06石寶峰董軼哲
系統(tǒng)管理學報 2022年2期
關鍵詞:評價模型

楊 蓮 ,石寶峰 ,董軼哲

(1.西北農林科技大學 經(jīng)濟管理學院,陜西 楊凌 712100;2.西北農林科技大學 信用大數(shù)據(jù)應用研究中心,陜西 楊凌 712100;3.愛丁堡大學商學院,英國 愛丁堡EH8 9JS)

信用評價是金融機構劃分客戶信用等級、貸款決策和風險管理的重要依據(jù)。對貸款客戶信用風險的準確度量,不僅可以最大限度降低金融機構的違約風險和貸款損失,還可有效緩解客戶“貸款難”的現(xiàn)狀[1-3]。評價模型作為風險測度的一種有效工具,對金融機構識別信用風險,避免因信息不對稱導致的信用風險誤判、信貸資金錯貸意義重大[4]。為此,已有學者利用數(shù)理統(tǒng)計[5-8]、機器學習模型[9-11]對客戶信用風險識別問題展開研究。但在實踐中,由于信貸數(shù)據(jù)大部分非違約、少部分違約的不均衡分布特性,致使傳統(tǒng)以分類準確率為優(yōu)化目標的信用評價模型,存在對“多類”非違約樣本識別過度、“少類”違約樣本識別不足的現(xiàn)狀。

為緩解這一問題,學者們試圖從非均衡數(shù)據(jù)采樣和非均衡分類算法兩方面進行優(yōu)化處理。在數(shù)據(jù)采樣方面,現(xiàn)有文獻主要通過欠采樣[12-13]和過采樣[14-15]兩種方法實現(xiàn)。金旭等[16]將有監(jiān)督學習和無監(jiān)督學習相結合,提出了一種基于質心的ICIKMDS欠采樣方法,用于解決數(shù)據(jù)不均衡問題,實證表明,ICIKMDS 有效提升了分類器在測試集中的分類準確率。肖連杰等[13]利用模糊C-均值算法對多類樣本進行聚類欠采樣,將所有聚類中心樣本與少類樣本結合、形成均衡數(shù)據(jù)集,然后利用集成學習算法對均衡數(shù)據(jù)集進行分類,取得了較好的分類效果。欠采樣通過去除一些“多類”非違約樣本,使剩余的“多類”非違約和“少類”違約樣本數(shù)目達到均衡,但容易丟失原始樣本中的有價值信息[16]。為彌補這一缺陷,有學者提出利用過采樣方法來解決這一問題。衣柏衡等[17]通過對傳統(tǒng)的SMOTE 算法進行改進,使SMOTE 聚焦于被評價模型錯分的樣本、利用錯分樣本合成新違約樣本,實證結果表明,與傳統(tǒng)SMOTE 算法相比,改進的SMOTE 算法降低了樣本不均衡對評價模型分類性能的影響。張忠良等[18]采用基于高斯過程的SMOTE 過采樣技術來增加訓練樣本的多樣性,提高分類器的分類性能。上述基于數(shù)據(jù)采樣的樣本均衡方法雖然提高了數(shù)據(jù)集的均衡性,但在一定程度上改變了原始數(shù)據(jù)的分布特征[19]。因此,一些學者試圖在不改變原始數(shù)據(jù)分布特征的前提下,采用非均衡分類算法來解決信用評價中的數(shù)據(jù)不均衡問題。

在非均衡分類算法方面,現(xiàn)有文獻主要通過成本敏感學習[20-22]和集成學習[23-25]兩類方法實現(xiàn)。張衛(wèi)國等[26]將雙邊誤差測量方法引入模糊近似支持向量機,通過對正負兩類樣本的訓練誤差賦予不同權重,以此減緩因數(shù)據(jù)不均衡造成的分類誤差,實證表明了所提出的模型比Logit回歸、BP神經(jīng)網(wǎng)絡和支持向量機有更好的分類效果,能有效提高違約樣本分類的準確率。Zhang等[27]將變量離散化和成本敏感Logit模型相結合,以降低評價模型在不均衡數(shù)據(jù)集中的偏差,實證結果表明,相比傳統(tǒng)Logit模型,成本敏感Logit模型在提升信用評價準確度、降低第二類錯誤方面都有所改善。與單一分類模型相比,多個分類模型的組合可以產(chǎn)生更好的分類效果,因此,有學者通過集成模型來解決非均衡數(shù)據(jù)中的樣本分類問題[28]。夏利宇等[29]利用迭代欠采樣方法提升模型對違約客戶的關注度,并采用集成方法將弱分類模型轉變?yōu)閺姺诸惸P?以降低樣本不均衡對評價結果的影響。此外,也有學者將成本敏感學習與集成學習相結合,以提升對非均衡數(shù)據(jù)的預測精度。Xiao等[30]通過將集成學習與成本敏感學習進行結合,提出了一種非均衡數(shù)據(jù)的動態(tài)分類器集成方法(DCEID)。對于每個測試客戶,DCEID 可以自適應地從動態(tài)分類選擇方法(DCS)和動態(tài)集成選擇方法(DES)中選擇更合適的方法,實證結果表明,DCEID 的分類性能不僅優(yōu)于加權隨機森林和改進的平衡隨機森林等靜態(tài)集成方法,而且優(yōu)于現(xiàn)有的DCS和DES策略。上述基于傳統(tǒng)機器學習的分類模型,通常由冗余指標剔除、顯著性指標篩選、分類模型建立等多個模塊組成,每個模塊都是一個獨立的任務,其結果的好壞會直接影響下一模塊,進而影響整個分類模型的預測效果。與傳統(tǒng)機器學習不同,深度學習模型通過將冗余指標剔除、顯著性指標篩選、分類模型建立等模塊進行統(tǒng)一,構建端到端的學習算法,有效緩解了傳統(tǒng)機器學習模型因模塊之間相互獨立而對最終分類結果造成的不利影響[31]。因此,基于深度學習模型的上述優(yōu)勢,一些學者將深度學習用于信用評價模型的構建。趙雪峰等[32]通過將自然語言處理技術與卷積神經(jīng)網(wǎng)絡(CNN)相結合,構建了個人貸款信用評價WVCNN 深度學習模型,實證結果表明,相比較傳統(tǒng)的BP神經(jīng)網(wǎng)絡和SVM,WV-CNN 的預測精度更高、魯棒性更好。

上述解決信用評價樣本非均衡問題方法的不足主要體現(xiàn)在兩個方面:一方面,現(xiàn)實中由于違約(或非違約)樣本之間的內在相似性,使得評價模型從這些樣本中學到的信息重復,而重復學習對評價模型違約預測性能的提升有限。由于不均衡數(shù)據(jù)中“多類”非違約樣本在數(shù)量上的絕對優(yōu)勢,樣本相似問題在非違約樣本中發(fā)生的概率更大,因而提升模型對不均衡樣本預測性能的關鍵是利用違約、非違約樣本中的有效樣本對模型進行訓練[33]。然而,現(xiàn)有基于深度學習的信用評價模型并未充分考慮到這一點。另一方面,現(xiàn)有深度學習信用評價模型的目標函數(shù)通常為交叉熵,而交叉熵沒有將違約、非違約樣本對目標損失的貢獻度進行區(qū)分。在實踐中,由于非違約客戶在樣本總數(shù)上占有絕對優(yōu)勢,如果不對兩類樣本損失的貢獻度進行區(qū)分,會導致非違約樣本造成的損失在目標損失中占比過高、主導模型優(yōu)化方向,從而不利于違約樣本有效識別的問題出現(xiàn)。

針對上述問題,本文將圖像識別領域中的類平衡損失Class Balanced Loss函數(shù)引入信用風險評價,通過測算違約、非違約樣本的有效樣本數(shù),進而在交叉熵函數(shù)中引入與有效樣本數(shù)成反比的權重項來調整違約、非違約樣本損失對目標損失的貢獻度,構建Class Balanced Loss修正交叉熵的非均衡樣本信用風險評價模型。利用中國某微型金融機構1 534個農戶小額貸款數(shù)據(jù)和UCI公開的1 000個德國信貸數(shù)據(jù)進行實證,結果表明,本文所建模型具有良好的違約預測性能。

1 信用風險評價建模原理

1.1 信用風險評價相關概念界定

全樣本空間。設X違約={xi|yi=1,i=1,2,…,n}(或X非違約={xi|yi=0,i=1,2,…,m})表示由貸款數(shù)據(jù)中所有違約(或非違約)客戶構成的集合,則稱X違約(或X非違約)為違約(或非違約)樣本的全樣本空間。

本文假定任意違約(或非違約)樣本都與其全樣本空間中某個鄰域相關聯(lián),而不是以點的形式孤立存在于全樣本空間中;每個違約(或非違約)樣本是其全樣本空間的一個子集,每個違約(或非違約)樣本體積為1,并且可能與其他違約(或非違約)樣本重疊。需要說明的是,本文關注的是同類樣本的重疊,未考慮違約樣本和非違約樣本之間的重疊。

違約客戶有效樣本數(shù)量。由于違約客戶之間的內在相似性,任何一個違約樣本都有可能與其他違約樣本重疊,故對所有違約樣本進行不放回采樣,以對違約樣本的全樣本空間X違約實現(xiàn)無重疊覆蓋,采樣結果記為S違約,則S違約中樣本的期望體積即為違約客戶的有效樣本數(shù)量。

非違約客戶有效樣本數(shù)量。由于非違約客戶之間的內在相似性,任何一個非違約樣本都有可能與其他非違約樣本重疊,故對所有非違約樣本進行不放回采樣,以對非違約樣本的全樣本空間X非違約實現(xiàn)無重疊覆蓋,采樣結果記為S非違約,則S非違約中樣本的期望體積即為非違約客戶的有效樣本數(shù)量。

1.2 科學問題的難點

難點1貸款數(shù)據(jù)中違約樣本遠少于非違約樣本,致使非違約樣本主導模型優(yōu)化方向、評價模型難以識別違約樣本,然而,對違約樣本的準確判別才是商業(yè)銀行風險管控的焦點。如何在不改變樣本原有數(shù)據(jù)結構的情形下,降低不均衡樣本對評價模型性能的影響,提升模型對違約樣本的識別力是本文需要解決的第1個難點。

難點2貸款數(shù)據(jù)違約、非違約樣本中的有效樣本對評價模型構建及模型預測性能起著關鍵作用,如何測度違約、非違約樣本的有效樣本數(shù),并在此基礎上構建信用評價模型,提升評價模型對違約樣本的學習能力,是本文面臨的第2個難點。

1.3 突破難點的思路

(1)通過在交叉熵函數(shù)中引入平衡因子ω,對違約、非違約樣本造成的損失進行重新加權,增大違約樣本損失在目標損失中的權重、減小非違約樣本損失在目標損失中的權重,使評價模型側重于對違約樣本的學習,提升模型對違約樣本的識別能力,緩解評價模型因非違約樣本在數(shù)量上的占比優(yōu)勢而主導模型優(yōu)化方向、不利于違約樣本識別的問題。解決難點1。

(2)受隨機覆蓋思想[34]啟發(fā),對所有違約(或非違約)樣本進行不放回采樣,利用采樣樣本對違約(或非違約)樣本的全樣本空間X違約(或X非違約)進行無重疊覆蓋,則采樣結果中樣本的期望體積即為違約(或非違約)貸款客戶的有效樣本數(shù)。解決難點2。下面以違約客戶為例,說明其有效樣本的測算過程。

設貸款數(shù)據(jù)中違約樣本集為A,先前采樣的違約樣本集為PA。為簡化問題,假設新采樣的違約樣本xi以兩種方式與PA進行交互:一是出現(xiàn)在PA中,二是出現(xiàn)在PA外部,不考慮部分重疊的情況。

首先,任取集合A中未經(jīng)采樣的違約樣本xi。其次,判斷xi是否與先前采樣的違約樣本集PA中已有樣本重疊。若未重疊,則將xi添加到樣本集PA中,并更新PA的期望體積為:E(PA)=E(PA)+1;若重疊,則PA與E(PA)保持不變。最后,對違約樣本集A中其余未經(jīng)采樣的樣本重復上述步驟。此時,更新后的樣本集PA的期望體積E(PA),即為貸款數(shù)據(jù)違約樣本集A的有效樣本數(shù)。違約客戶有效樣本測算原理如圖1所示。

2 信用風險評價模型構建

2.1 指標數(shù)據(jù)標準化處理

由于不同類型信用評價指標單位量綱的差異,為避免人為打分的主觀誤差影響,需要對原始指標數(shù)據(jù)進行標準化處理[35]。常見的定量指標有正向指標、負向指標和區(qū)間指標3類。

(1)正向指標數(shù)據(jù)標準化。正向指標數(shù)值越大,表明樣本的信用狀況越好,如“總資產(chǎn)、月可支配收入”等指標。設為第i個客戶第j個指標標準化后的值是第i個客戶第j個指標的原始數(shù)據(jù),則

(2)負向指標數(shù)據(jù)標準化。負向指標數(shù)值越小,表明樣本的信用狀況越好,如“總負債、資產(chǎn)負債率”等指標,則

(3)區(qū)間指標標準化。區(qū)間指標是取值在某一個特定區(qū)間內,信用情況是最佳的指標。例如,客戶信用風險評價“年齡”的最佳區(qū)間為[31,45],它表示年齡位于該區(qū)間的借貸客戶還款能力和還款意愿最強。設q1為最佳區(qū)間的左端點,q2為最佳區(qū)間的右端點,則

式(3)中其余字母含義同式(1)。

2.2 基于BPNN-Class Balanced Cross Entropy的非均衡樣本信用風險評價模型構建

與傳統(tǒng)機器學習算法不同,深度學習是一種將冗余指標剔除、顯著性指標篩選和分類預測等模塊進行統(tǒng)一的端到端的學習算法,因此具有更優(yōu)異的指標提取能力[31]。深度學習采用的模型主要是神經(jīng)網(wǎng)絡,該方法通過使用誤差反向傳播算法,較好地解決了評價指標的貢獻度分配問題,在復雜系統(tǒng)評價和金融風險預測中得到了廣泛應用[36-38]。本文將反向傳播神經(jīng)網(wǎng)絡(Back Propagation Neural Network,BPNN)應用于信用風險評價,通過在BPNN 交叉熵函數(shù)中引入平衡因子ω,利用平衡因子ω客觀調節(jié)正負樣本損失在目標損失中的權重,實現(xiàn)BPNN 模型對不均衡樣本中違約樣本的深度學習,提升模型對違約樣本的預測能力,緩解傳統(tǒng)評價模型對不均衡樣本適用性不強的缺陷。

基于BPNN 的信用風險評價模型構建可以分為兩個階段,第1階段為信用風險評價信息的正向傳播,貸款數(shù)據(jù)由輸入層進入到BPNN,經(jīng)隱藏層激活函數(shù)逐層處理之后,再由輸出層對貸款客戶的違約狀態(tài)進行預測。第2階段為違約判別誤差信息的反向傳播,通過計算違約狀態(tài)預測值與真實值之間的差距,判斷該差距是否在模型的預設精度以內。若不在,則將誤差反向逐層向前傳遞,利用梯度下降法調整各網(wǎng)絡層權重與偏置以減小誤差,直至模型輸出的違約預測誤差滿足模型的精度要求。BPNN信用風險評價示意如圖2所示。

2.2.1 信用風險評價信息的正向傳播 以圖2中3層BPNN 為例,說明信用風險評價信息正向傳播過程。設S1為第1層隱藏層的輸出,S2為第2層隱藏層的輸出,f1為第1層隱藏層的激活函數(shù),f2為第2層隱藏層的激活函數(shù),W1為輸入層至第1層隱藏層的權重矩陣,W2為第1層至第2層隱藏層的權重矩陣,xi=為客戶i評價指標向量,θ1為輸入層至第1層隱藏層的偏置,θ2為第1層至第2層隱藏層的偏置,W1xi+θ1為第1層隱藏層的輸入,W2S1+θ2為第2層隱藏層的輸入,則第i個貸款客戶的信用評價信息正向傳播過程可由第1、2層隱藏層神經(jīng)元的輸入輸出關系表示:

設為客戶i的違約狀態(tài)預測值∈[0,1],h為輸出層違約狀態(tài)判別函數(shù),W3為第2層隱藏層至輸出層的權重矩陣,θ3為第2層隱藏層至輸出層的偏置,則違約狀態(tài)預測值為

式(6)的經(jīng)濟學含義:式(6)刻畫了3層BPNN對貸款客戶i的違約預測結果。預測值表示評價模型預測客戶i屬于違約樣本的概率,取違約判別閾值為0.5[38],若違約狀態(tài)預測值<0.5,則將客戶i判別為非違約客戶;反之,則判別為違約客戶。

2.2.2 違約預測誤差反向傳播測算 利用式(6)求得的客戶違約狀態(tài)預測值與違約狀態(tài)真實值yi,求解模型預測誤差值G(yi)。若G(yi)>模型預設精度,則進入反向傳播過程。誤差反向傳播的核心是對各層網(wǎng)絡權重和偏置進行不斷修正,若修正后的權重和偏置可以使模型的違約預測誤差值G(yi,)≤模型預設精度,則修正完成。不失一般性,本文以第l層隱藏層為例,說明誤差反向傳播修正權重和偏置的過程。

設dl=Wl Sl-1+θl為第l層隱藏層的輸入,(dl)為第l層隱藏層輸入對該層輸出的影響程度,Wl為第l-1層至第l層隱藏層的權重矩陣,則G(yi,)對第l層隱藏層權重Wl與偏置θl的偏導數(shù)為:

式中,tl=(dl)·((Wl+1)Ttl+1)為第l層隱藏層輸入dl對誤差值G(yi,)的影響程度,也反映了G(yi,)對第l層隱藏層輸入dl的敏感程度。

式(7)~(8)的統(tǒng)計學含義:兩式分別為預測誤差G(yi,)對網(wǎng)絡權重Wl和偏置θl的一階偏導,用于表示權重矩陣Wl和偏置θl對誤差值G(yi,)的影響程度,也反映了G(yi,)對權重矩陣Wl和偏置θl變化的敏感性。?G(yi,)/?Wl越大,說明G(yi,)對Wl的變化越敏感,Wl的微小變動即可引起誤差值G(yi,)的較大波動,此時的Wl不利于客戶i違約狀態(tài)判別;反之,則Wl有利于客戶i違約狀態(tài)判別。因此,可以通過調整Wl來降低Wl對G(yi,)影響,從而使得評價模型的違約預測誤差G(yi,)滿足預設精度要求。式(8)同理,不再贅述。

式(7)~(8)的經(jīng)濟學意義:利用梯度下降調節(jié)隱藏層神經(jīng)元的網(wǎng)絡權重Wl和偏置θl,降低貸款客戶i的違約預測誤差G(yi,),實現(xiàn)對BPNN 信用評級信息正向傳播違約預測性能的反向調優(yōu)。

2.2.3 Class Balanced Loss修正交叉熵的非均衡樣本信用風險評價模型構建 由于實際中的信貸數(shù)據(jù)存在大部分非違約、少部分違約的數(shù)據(jù)不均衡現(xiàn)象,致使傳統(tǒng)以交叉熵為目標損失函數(shù)G(yi,)的BPNN 模型在面對不均衡樣本時,極易出現(xiàn)對“多類”非違約樣本識別過度、對“少類”違約樣本識別不足的問題。為此,本文將交叉熵替換為引入平衡因子ω的類平衡交叉熵(Class Balanced Cross Entropy,CBCE)函數(shù),以提升BPNN 模型對不均衡樣本中違約樣本的識別力、改善BPNN 模型對不均衡樣本的適用性。

(1)交叉熵函數(shù)。設yi為真實違約狀態(tài)為其預測值,交叉熵函數(shù)為[39]

式(9)的經(jīng)濟學意義:該式表示評價模型對貸款客戶i違約預測的損失值(也稱為誤差值)。評價模型會根據(jù)樣本的預測損失值進行參數(shù)反向調優(yōu),以提升模型違約預測性能。以一個違約客戶和一個非違約客戶為例:①當客戶為違約客戶(yi=1)時,不妨取0.2。由于預測值0.2小于閾值0.5,模型將違約客戶判別為非違約客戶、判別錯誤,此時Cross Entropy=-log0.2=0.699,即評價模型對違約客戶i進行預測產(chǎn)生的損失為0.699。②當客戶為非違約客戶(yi=0)時,不妨取0.8。由于0.8大于閾值0.5,模型將非違約客戶i誤判為違約客戶、判別錯誤,此時Cross Entropy=-log(1-0.8)=0.699,即評價模型對非違約客戶i進行預測產(chǎn)生的損失為0.699。進一步,可求得上述兩個樣本(1個違約樣本、1個非違約樣本)的交叉熵權重(違約樣本權重=×100=50%,非違約樣本權重=×100=50%),如表1第2、3行最后1列所示。

表1 交叉熵(CE)與Class Balanced交叉熵(CBCE)對違約客戶識別對比

需要說明的是:①對評價模型優(yōu)化起主導作用的是預測錯誤的樣本,故本文主要以誤判樣本為例解釋公式的經(jīng)濟學意義。②對于預測錯誤的違約、非違約樣本,評價模型會重點學習在目標損失中占比較大的一類樣本,為此,本文通過計算樣本損失權重來反映這一點。

不難發(fā)現(xiàn),利用式(9)計算出的2個樣本的損失占總目標損失的比例是一致的(50%=50%),即式(9)所示的交叉熵函數(shù)并沒有將違約、非違約樣本對目標損失交叉熵函數(shù)的貢獻度進行區(qū)分。實踐中由于非違約客戶在樣本總數(shù)上占有絕對優(yōu)勢,如果不對兩類樣本損失的貢獻度進行區(qū)分,會導致非違約樣本造成的損失在目標損失中占比過高,從而主導BPNN 模型優(yōu)化方向、不利于違約樣本有效判別的問題出現(xiàn)。為此,下文將探討如何修正交叉熵函數(shù),提升模型對違約樣本的識別力。

(2)引入平衡因子ω的CBCE函數(shù)。為了彌補上述不足,本文引入含有平衡因子項ω的CBCE 函數(shù)。與交叉熵相比,CBCE函數(shù)通過測算違約、非違約樣本有效樣本數(shù)En和Em,構造平衡因子項ωn和ωm,進而利用ωn和ωm對違約、非違約樣本損失進行重新加權,增大違約樣本損失在目標損失中的權重、減少非違約樣本損失在目標損失中的權重,使評價模型側重于對違約樣本的學習。改善BPNN 模型因樣本不均衡導致的對非違約樣本學習過度、對違約樣本學習不足的現(xiàn)狀。為方便理解,首先介紹違約、非違約客戶有效樣本數(shù)En和Em的測算原理,然后介紹違約、非違約客戶平衡因子ωn和ωm的構造過程,最后給出CBCE的實現(xiàn)原理。

①測算違約、非違約客戶有效樣本數(shù)En和Em。以違約客戶為例,通過命題形式給出違約客戶有效樣本數(shù)En的測算及證明過程。

命題1設n為貸款數(shù)據(jù)中違約客戶總數(shù),En為n個違約客戶對應的有效樣本的期望體積,N為違約樣本全樣本空間X違約的期望體積(N為En的上限),β=(N-1)/N∈[0,1)為超參數(shù),用于刻畫樣本的重疊程度(β越趨向于0,表示樣本之間重疊程度越大,其中,β=0表示所有樣本全部重疊;反之,β越趨向于1,表示樣本之間重疊程度越小),則n個違約客戶的有效樣本數(shù)為

證明通過數(shù)學歸納法對命題1進行證明。

(i)當n=1時,表示貸款數(shù)據(jù)中只有一個違約樣本,此時1個客戶的有效樣本數(shù)為1,故E1=(1-β1)/(1-β)=1成立。

(ii)假設當n=n-1時,

成立。式(11)表示已經(jīng)采樣了n-1個違約樣本,且n-1個樣本的有效樣本數(shù)為

(iii)當n=n時,求解n個違約客戶的有效樣本數(shù)En。對第n個違約樣本xn進行采樣,為簡化問題,假設新采樣的數(shù)據(jù)xn以兩種方式與前n-1個樣本進行交互:一是以概率p出現(xiàn)在前n-1個樣本中,此時n個違約樣本的期望體積En=En-1;二是以概率1-p出現(xiàn)在前n-1個樣本外部,此時n個違約樣本的期望體積En=En-1+1,不考慮部分重疊的情況[33]。由假設條件N為En的上限可知p=En-1/N,因此,n個違約客戶的有效樣本數(shù)為

進一步,將式(11)代入式(12),可得

由命題1不難看出,可以通過調整參數(shù)β的取值來調整違約(或非違約)貸款客戶之間的重疊程度,進而實現(xiàn)對不同重疊程度下貸款客戶有效樣本數(shù)的測算。具體地:(a)違約客戶有效樣本數(shù)En隨著β的增大而增大,即β越大、違約樣本之間重疊程度越小、有效樣本數(shù)En越大。例如,當β=0.99,0.999[33],n=40時,由式(10)計算可得:

比較可知E40(β=0.999)-E40(β=0.99)=5.9>0,故En隨著參數(shù)β的增大而增大。(b)隨著違約客戶數(shù)量n的增加,β越大、有效樣本數(shù)En增長越快。例如,當n=40,50,β=0.999時,

當n=40,50,β=0.99時,

比較可知

從而β越大,隨著違約客戶數(shù)量n的增加,En增長越快。

需要說明的是:(a)實踐中,貸款數(shù)據(jù)通常呈現(xiàn)高維特性,致使無法事先確定其重疊程度。本文利用參數(shù)β對現(xiàn)實中貸款客戶之間的重疊程度進行刻畫,通過改變參數(shù)β的取值來調整樣本的重疊程度、找到適合貸款數(shù)據(jù)的最佳β,進而實現(xiàn)在最佳參數(shù)β下有效樣本數(shù)的測算。(b)本文與Cui等[33]的區(qū)別在于,Cui等的研究對象為圖像數(shù)據(jù),而本文的研究對象為客戶貸款數(shù)據(jù)。雖然Cui等較好地解決了圖像識別中的樣本不均衡問題,但是貸款數(shù)據(jù)與圖像數(shù)據(jù)具有本質上的區(qū)別(例如,圖像數(shù)據(jù)是三維而貸款數(shù)據(jù)是二維),無法直接將其應用于不均衡貸款客戶的信用風險預測中。從而研究如何將適用于非均衡圖像數(shù)據(jù)分類模型的使用邊界進行拓展,可為解決不均衡信用風險評價客戶分類提供新的思路。

②構造違約、非違約客戶平衡因子ωn、ωm。利用①中測算出的違約、非違約客戶有效樣本數(shù)En和Em,構造違約、非違約樣本平衡因子分別為:

式(14)~(15)的統(tǒng)計學含義:式(14)中平衡因子ωn用于調整違約樣本造成的損失對目標損失的貢獻度。由于β∈[0,1),式(14)中ωn與違約客戶數(shù)n成反比,即違約客戶數(shù)n越少、違約樣本平衡因子ωn越大,從而違約樣本對目標損失的貢獻度越大。式(15)同理,不再贅述。

式(14)~(15)的經(jīng)濟學含義:違約樣本數(shù)n遠小于非違約樣本數(shù)m,因此,違約樣本平衡因子ωn要遠大于非違約樣本平衡因子ωm,從而可以分別通過ωn、ωm來增大違約樣本損失占目標損失的權重、減小非違約樣本損失占目標損失的權重,以提升評價模型對違約樣本的學習力度與識別能力。

③CBCE函數(shù)。利用②中得到的違約、非違約客戶平衡因子ωn和ωm,構造CBCE函數(shù):

式(16)的經(jīng)濟學意義:該式表示評價模型對貸款客戶i違約預測的損失值,利用平衡因子ωn和ωm修正后的CBCE 可以提升評價模型對違約樣本學習力度與識別能力。以一個違約客戶和一個非違約客戶為例:(i)對于違約客戶i(yi=1),不妨取違約客戶數(shù)n=30,β=0.99=0.2。由于0.2小于閾值0.5,模型將客戶i誤判為非違約客戶,此時,

即將違約客戶i誤判所造成的損失為0.027。(ii)對于非違約客戶i(yi=0),不妨取非違約客戶數(shù)m=300,β=0.99=0.8。由于0.8大于閾值0.5,模型將非違約客戶i誤判為違約客戶,此時,

即將非違約客戶i誤判所造成的損失為0.007。進一步,可得上述兩個樣本的CBCE 權重(違約樣本權重=×100=80%,非違約樣本權重=×100=20%),見表1第5、6行最后1列所示。

不難發(fā)現(xiàn),對于示例兩個樣本中的非違約樣本,而對于違約樣本,

由此可見,引入平衡因子后的CBCE 函數(shù),可以通過增大違約樣本損失占目標損失的權重(80%>50%)來提升模型對違約樣本的關注度、學習力度與識別能力。

2.3 信用風險評價模型實現(xiàn)流程

2.3.1 建模步驟

步驟1原始數(shù)據(jù)預處理。

依據(jù)2.1節(jié)指標數(shù)據(jù)標準化處理方法對原始數(shù)據(jù)進行指標標準化處理,以避免不同指標的量綱差異對評價模型違約判別性能造成影響。

步驟2標準化數(shù)據(jù)訓練集和測試集的劃分。

將標準化數(shù)據(jù)按9∶1比例分為訓練集和測試集,訓練集用于評價模型的構建,測試集用于評價模型違約預測性能的檢驗。

步驟3模型參數(shù)預設。

參考相關文獻[33,40-41],結合商業(yè)銀行信用風險實務專家建議,從增強模型學習能力、避免過擬合等方面,選取模型的預設參數(shù)。參數(shù)定義、作用及取值范圍如表2所示。

表2 預設參數(shù)設置

步驟4構建評價模型。

利用訓練樣本對BPNN-CBCE模型的網(wǎng)絡參數(shù)進行學習,得到使模型結構化風險最小的網(wǎng)絡參數(shù),在此基礎上構建BPNN-CBCE信用風險評價模型。

步驟5計算評價指標。

將測試樣本代入步驟4 構建的BPNN-CBCE信用風險評價模型,可得測試集客戶的違約狀態(tài)預測結果。將違約狀態(tài)預測結果同客戶真實違約狀態(tài)進行對比,得到模型的預測精度。BPNN-CBCE 信用風險評價建模流程如圖3所示。

2.3.2 模型評價標準 對模型判別精度的評價是為了檢驗模型的有效性,基于貸款數(shù)據(jù)的非均衡特點,使用準確率Accuracy、AUC 和違約召回率Default recall等3個標準進行綜合判定。

設TP為客戶的真實狀態(tài)為非違約,且被判別為非違約;FN為客戶的真實狀態(tài)為非違約,且被判別為違約;TN為客戶的真實狀態(tài)為違約,且被判別為違約;FP為客戶的真實狀態(tài)為違約,且被判別為非違約。則

當樣本不均衡時,評價模型通過將大多數(shù)樣本劃分為非違約樣本,提升模型判別的準確率,但這會導致模型無法有效識別違約客戶。因此,當樣本不均衡時,準確率對模型預測性能的判別可能失效[1]。與準確率不同的是,AUC 同時考慮了模型對于違約客戶和非違約客戶的判別能力,避免了樣本不均衡帶來的模型評價準則失效的問題。AUC被定義為ROC 曲線下的面積,因此,可以通過制作模型的ROC曲線圖得到AUC值。首先,計算模型的TPR(True Positive Rate)和FPR(False Positive Rate),分別為:

其次,以TPR為橫坐標、FPR為縱坐標,繪制模型的ROC曲線圖,AUC就是曲線下的面積。AUC值越大,模型違約判別能力越強[42],即

式(20)的經(jīng)濟學含義:式(20)可用于衡量評價模型對違約樣本的識別力。等式右邊分子TN表示違約客戶被正確判別為違約的個數(shù),分母TN+FP表示樣本中包含的違約客戶總數(shù)。因此,違約召回率Default recall是指將違約客戶正確判別為違約的比例,該值越大,說明模型對違約客戶的判別精度越高。

3 實證分析

3.1 信用評價指標的海選

以農戶小額貸款信用風險評價為例,說明海選指標集的構建過程。通過參考標普、穆迪、惠譽、中國農業(yè)銀行[43]、中國郵政儲蓄銀行[44]、中和農信[45]等國內外典型機構信用評價指標體系,結合國內外經(jīng)典文獻,以及通過調研訪談等方式,建立了貸款人基本情況、貸款人家庭特征、貸款人財務信息和外部宏觀條件4個農戶信用評價準則層,如表3第(b)列所示。海選出教育程度、貸款目的、勞動力占比和人均地區(qū)生產(chǎn)總值等33個農戶信用風險評價指標,如表3第(c)列所示。

3.2 樣本選取和數(shù)據(jù)來源

本文研究數(shù)據(jù)源自中國某微型金融機構農戶小額貸款數(shù)據(jù)[44],該金融機構是一家專注服務農村小微客戶的助農機構,致力于打通普惠金融最后100 m、將服務送達末端用戶。截至到2020 年底,該金融機構已在全國設立了370 余家分支機構,覆蓋了10萬多個村莊。選取農戶貸款數(shù)據(jù)進行實證分析的原因是:農戶貸款具有業(yè)務量大、額度小、風險分散、財務數(shù)據(jù)不健全以及樣本非均衡等特點與難點,使得商業(yè)銀行等金融機構對農戶的信用風險評估更具難度與挑戰(zhàn)性。合理評價農戶的信用風險,不僅有利于改善農戶融資難、貸款難的現(xiàn)狀,還可以促進農村金融發(fā)展和增加就業(yè)。因此,選取農戶貸款數(shù)據(jù)進行實證研究具有較強實際意義。

數(shù)據(jù)集包含1 416個非違約農戶和118個違約農戶,樣本不均衡比為12∶1。指標原始數(shù)據(jù)如表3第(1)~(1 534)列前33行所示,農戶違約狀態(tài)標識如表3第34行所示,其中0表示非違約,1表示違約。表4第(1)~(1 534)列前33行是指標的標準化數(shù)據(jù),標準化過程見3.3節(jié)。

表3 農戶信用評價指標及原始數(shù)據(jù)

表4 農戶信用評價標準化數(shù)據(jù)

3.3 指標數(shù)據(jù)標準化

3.3.1 定量指標標準化

(1)正向指標數(shù)據(jù)標準化。根據(jù)2.1節(jié)正向指標數(shù)據(jù)標準化原理,計算表3正向指標每一行原始數(shù)據(jù)的最大值、最小值,并將原始數(shù)據(jù)、最大值及最小值代入式(1),得到正向指標的標準化值,結果列入表4第(1)~(1 534)列對應行。

(2)負向指標數(shù)據(jù)標準化。根據(jù)2.1節(jié)負向指標數(shù)據(jù)標準化原理,計算表3負向指標每一行原始數(shù)據(jù)的最大值、最小值,并將原始數(shù)據(jù)、最大值及最小值代入式(2),得到負向指標的標準化值,結果列入表4第(1)~(1 534)列對應行。

(3)區(qū)間指標數(shù)據(jù)標準化。本文共涉及“客戶貸款時年齡”和“居民消費價格指數(shù)”兩個區(qū)間指標。“客戶貸款時年齡”的最佳區(qū)間為[31,45],“居民消費價格指數(shù)”的最佳區(qū)間為[101,105][46]。根據(jù)2.1節(jié)區(qū)間指標數(shù)據(jù)標準化原理,計算“客戶貸款時年齡”指標原始數(shù)據(jù)的最大值、最小值,并將原始數(shù)據(jù),q1=31,q2=45,最大值及最小值代入式(3),得到“客戶貸款時年齡”指標的標準化值,結果列入表4第(1)~(1 534)列對應行。

同理,計算“居民消費價格指數(shù)”指標原始數(shù)據(jù)的最大值、最小值,并將原始數(shù)據(jù),q1=101,q2=105,最大值及最小值代入式(3),得到“居民消費價格指數(shù)”指標的標準化值,結果列入表4第(1)~(1 534)列對應行。

3.3.2 定性指標標準化 通過對中國某全國性大型商業(yè)銀行信貸業(yè)務的總行副行長、風險管理部總經(jīng)理、授信審批部總經(jīng)理、信貸部總經(jīng)理等銀行實務專家以及業(yè)務骨干進行訪談調研,結合大連理工大學、西北農林科技大學、西南財經(jīng)大學以及東北財經(jīng)大學11名專家學者,并參考某商業(yè)銀行農戶非財務數(shù)據(jù)信貸字典,制定出適合農戶信用評價的定性指標打分標準,如表5所示。根據(jù)表3第(d)列,找到定性指標所在行的農戶數(shù)據(jù),按照表5打分標準對這些定性指標進行打分,結果列入表4 第(1)~(1 534)列對應行。

表5 農戶定性指標打分標準

3.4 模型參數(shù)設置及信用評價結果求解

通過實驗調參,選出BPNN-CBCE 的參數(shù)設置結果,如表6所示。其中,神經(jīng)網(wǎng)絡層數(shù)L=5,第l層隱藏層神經(jīng)元個數(shù)Ml=256,隱藏層激活函數(shù)為relu,輸出層分類函數(shù)為softmax,第l層隱藏層dropoutl為0.2,迭代次數(shù)epoch=500,CBCE參數(shù)β=0.999。將訓練集農戶標準化數(shù)據(jù)、違約狀態(tài)yi以及表6所示參數(shù)代入2.2節(jié)BPNN-CBCE模型構建過程,對神經(jīng)網(wǎng)絡各層權重Wl和偏置θl進行估計,可得到基于BPNN-CBCE 的信用評價模型。為驗證模型的有效性,需要用測試集樣本進行檢驗。將測試集農戶標準化數(shù)據(jù)、違約狀態(tài)yi代入構建好的BPNN-CBCE 模型,得到測試集樣本的違約概率。以概率值0.5為臨界點,當概率值大于0.5時,判定為違約;否則,判定為非違約,如此可以得到測試集樣本的違約狀態(tài)預測值。根據(jù)違約狀態(tài)預測值和違約狀態(tài)真實值,最終可以得到測試集樣本的Accuracy、AUC 和違約召回率Default recall,結果分別列入表7第1行第(4)~(6)列。實驗在Windows 10下進行,采用Python 3.7.0進行編程,利用Pytorch 1.5.1深度學習框架搭建模型,使用Intel(R)Core(TM)i5-5200U CPU 運行模型。

表6 BPNN-CBCE模型參數(shù)設置結果

表7 BPNN-CBCE與BPNN-CE、SVM、DT、RF、KNN 方法預測性能對比

3.5 評價結果分析與模型穩(wěn)健性檢驗

為評價信用風險測度模型BPNN-CBCE 的判別性能,從如下3個方面進行分析:①利用表4中不均衡比為12∶1的1 534個農戶貸款數(shù)據(jù),將所建模型與交叉熵神經(jīng)網(wǎng)絡(BPNN-Cross Entropy,BPNN-CE)、支持向量機(Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、隨機森林(Random Forest,RF)和K最近鄰(K-Nearest Neighbor,KNN)5種分類模型進行對比,測算模型的判別性能;②利用簡單隨機抽樣法,從農戶數(shù)據(jù)隨機抽取一定數(shù)量的非違約客戶,分別與118個違約客戶組成不均衡比例為10∶1和8∶1的農戶數(shù)據(jù)集,驗證BPNN-CBCE對不同不均衡比例數(shù)據(jù)集的適用性;③將農戶數(shù)據(jù)替換為UCI公開的德國信貸數(shù)據(jù)集,比較上述6種方法在公開數(shù)據(jù)集中的分類表現(xiàn),進一步驗證模型的穩(wěn)健性。德國信貸數(shù)據(jù)集來自美國加州大學歐文分校(University of California Irvine)提出的用于機器學習的UCI數(shù)據(jù)庫,該數(shù)據(jù)庫所提供的數(shù)據(jù)均可免費下載與使用。近年來,該數(shù)據(jù)集被廣泛應用于信用風險領域中評價模型的穩(wěn)健性檢驗[1,47-48]。選取德國信貸數(shù)據(jù)集進行穩(wěn)健性檢驗,既可方便與現(xiàn)有文獻進行對比,同時也可驗證本文構建模型對其他非均衡樣本的適用性。另外,本文還給出了當CBCE 核心參數(shù)β取集合{0.99,0.999,0.999 9}中不同值時,上述數(shù)據(jù)集對應的BPNN-CBCE 分類結果。用于比較不同β取值對評價模型分類性能的影響,從而找出適合每個數(shù)據(jù)集的參數(shù)β最佳取值。

(1)基于6種方法的1 534個農戶貸款數(shù)據(jù)信用風險評價結果對比。利用訓練集農戶標準化數(shù)據(jù)、違約狀態(tài)yi分別對BPNN-CE、SVM、DT、RF和KNN 等5種分類模型進行訓練,并將測試集和yi代入訓練好的5種模型,從而得到5種分類模型的Accuracy、AUC 與Default recall,結果列入表7第(2)~(6)行、第(4)~(6)列。

①BPNN-CBCE 模型對農戶不均衡數(shù)據(jù)具有更好的判別能力。由表7第(1)~(6)行及第(4)列可見,BPNN-CE、SVM、DT、RF 和KNN 這5種模型的準確率Accuracy 均高于BPNN-CBCE 模型,進一步分析發(fā)現(xiàn),5種模型通過將大多數(shù)樣本劃分為非違約樣本,提升了模型判別的準確率Accuracy;但這5 類模型無法有效識別違約客戶。因此,當樣本不均衡時,準確率Accuracy對模型的判別失效。與準確率不同的是,AUC同時考慮了模型對于違約客戶和非違約客戶的判別能力,避免了樣本不均衡帶來的模型評價準則失效的問題。由表7第(1)~(6)行及第(5)列可見,本文所建立的BPNN-CBCE模型的AUC 值0.656位居6種模型第1,并且相比較其余5種模型中AUC最高的提升了15.6個百分點。因此,BPNN-CBCE對農戶數(shù)據(jù)具有更好的判別能力。

②BPNN-CBCE 模型對農戶不均衡數(shù)據(jù)中違約樣本具有更好的識別能力。由式(20)違約召回率Default recall定義可知,分子TN為違約客戶被正確判別為違約的個數(shù),分母TN +FP為樣本中包含的違約客戶總數(shù),違約召回率Default recall是將違約客戶正確判別為違約的比例。因此,Default recall值越大,說明模型對違約客戶的判別精度越高。由表7第(1)~(6)行及第(6)列Default recall結果可見,BPNN-CBCE 的Default recall 0.413 為6種模型中最高,并且相較于其他5種模型提升了41.3%,從而BPNN-CBCE對農戶不均衡數(shù)據(jù)中違約樣本識別更有效。進一步,以BPNN-CE 為例說明其余模型違約召回率Default recall值為0的原因。BPNN-CE評價模型主要是通過對模型參數(shù)進行不斷修正以減小模型預測誤差來達到對模型進行優(yōu)化的目的,因此,評價模型為了快速達到優(yōu)化目標,往往會優(yōu)先對造成誤差較大的樣本進行學習。由于非違約樣本數(shù)量在總樣本中占有絕對優(yōu)勢,會使非違約樣本的誤差占據(jù)總誤差中大部分,從而評價模型會優(yōu)先對非違約樣本進行學習。而對數(shù)量較多的非違約樣本的充分學習會使評價模型的準確率得到快速提升,提前實現(xiàn)優(yōu)化目標。這會導致評價模型幾乎沒有從違約樣本中學到有價值的信息。由于學到的有用信息少,也就不難解釋評價模型違約召回率Default recall值為0的原因。

需要說明的是,針對傳統(tǒng)信用風險預測模型存在對非違約樣本識別過度、對違約樣本識別不足的問題,CBCE函數(shù)通過對違約、非違約樣本損失對總損失貢獻度進行調整,提升了對違約樣本的召回率Default recall。但同時也會因非違約樣本損失占總損失權重的降低而使評價模型從非違約樣本中學到的信息沒有原來那么多,從而對非違約樣本的識別造成一定的影響。然而,對于金融機構而言,將違約樣本誤判為非違約樣本要遠比將非違約樣本誤判為違約樣本造成的損失大,所以金融機構更加關注對違約樣本的準確識別[49]。因此,相對于BPNNCBCE 在非違約樣本識別力的輕微降低,其對違約樣本的識別力的提升對于金融機構而言更有價值。

(2)基于不同不均衡比例數(shù)據(jù)(10∶1,8∶1)的模型穩(wěn)健性檢驗。表8展示了10∶1,8∶1農戶數(shù)據(jù)集的基本信息,其中10∶1數(shù)據(jù)集1 298個貸款農戶中包含1 180個非違約客戶、118個違約客戶;8∶1數(shù)據(jù)集1 062個貸款農戶中包含944個非違約客戶、118個違約客戶。分別將1 298和1 062個農戶標準化數(shù)據(jù)按9∶1比例分為訓練集和測試集,并參考3.4、3.5 節(jié)(1)部分得到兩個數(shù)據(jù)集對應的BPNNCBCE、BPNN-CE、SVM、DT、RF和KNN 等6種分類模型的Accuracy、AUC 與Default recall,結果列入表7第(7)~(18)行以及第(4)~(6)列。

對于10∶1農戶數(shù)據(jù)集:①BPNN-CBCE模型的AUC值為0.648,均高于BPNN-CE、SVM、DT、RF和KNN 模型對應的AUC 值;②BPNN-CBCE 的違約召回率Default recall為0.530,均高于其余5種模型,并且相較于其他5種模型中違約召回率最高的DT 提升了20%。對于8∶1農戶數(shù)據(jù)集:①BPNN-CBCE 模型的AUC 值為0.767,相比較其余5 種模型中AUC 最高的DT 提升了21%;②BPNN-CBCE的Default recall為0.780,相比較其他5 種模型中違約召回率最高的DT 提升了53%。綜上所述,對于不同不均衡比例農戶數(shù)據(jù)集,BPNN-CBCE模型的違約判別性能均優(yōu)于其余5種對比模型。

(3)基于UCI德國公開數(shù)據(jù)的模型穩(wěn)健性檢驗。表8最后一行為UCI德國數(shù)據(jù)集的基本信息,1 000個貸款客戶包含700個非違約、300個違約客戶,樣本不均衡比為2.3∶1。將德國信貸數(shù)據(jù)按9∶1比例分為訓練集和測試集,利用訓練集分別對BPNN-CBCE、BPNN-CE、SVM、DT、RF 和KNN等6種分類模型進行訓練,并將測試集代入訓練好的6種模型,從而得到6種模型的Accuracy、AUC與Default recall,結果列入表7第(19)~(24)行以及第(4)~(6)列。不難看出,BPNN-CBCE 模型的AUC 值(0.817)和違約召回率Default recall(0.810)均優(yōu)于其余5 種方法。為進一步驗證BPNN-CBCE模型的穩(wěn)健性,將表7德國數(shù)據(jù)集對應的BPNN-CBCE 實證結果同現(xiàn)有文獻進行了比較,發(fā)現(xiàn):①與Kuppili等[47]德國數(shù)據(jù)集的評價結果相比,本文所提出的模型在Accuracy(0.820>0.759)上得到了提升;②與Sen等[48]德國數(shù)據(jù)集的評價結果相比,本文所提出的模型在Accuracy(0.820>0.807)方面得到了改進。

表8 數(shù)據(jù)基本信息

(4)參數(shù)β不同取值下的模型分類結果分析。為驗證參數(shù)β的不同取值對BPNN-CBCE評價模型性能的影響,從而選取每個數(shù)據(jù)集適用的參數(shù)β取值,將表6 中的參數(shù)β替換為集合{0.99,0.999,0.999 9}中的值,分別進行實證分析。參考3.4、3.5節(jié)(1)部分,得到不同參數(shù)β取值下4個數(shù)據(jù)集對應的6 種分類模型的Accuracy、AUC 與Default recall,結果列入表9 第(1)~(12)行以及第(4)~(6)列。

表9 參數(shù)β 不同取值下BPNN-CBCE模型的敏感性分析

由表9可以看出:不同數(shù)據(jù)集對應的最優(yōu)參數(shù)β取值不同。對于12∶1農戶數(shù)據(jù),當β=0.999時,BPNN-CBCE 對應的AUC、違約召回率Default recall(0.656、0.413)分別為3種β取值對應結果中最高;對于10∶1農戶數(shù)據(jù),當β=0.999 9時,模型判別效果最佳;對于8∶1農戶數(shù)據(jù),當β=0.999時,判別效果最優(yōu);對于德國數(shù)據(jù)集,當β=0.99 時,BPNN-CBCE 對應的 Accuracy、AUC (0.843、0.825)分別為3種β取值下最高。因此,數(shù)據(jù)集不同,參數(shù)β的最佳取值也不同。實證中需根據(jù)不同數(shù)據(jù)集特點,選取適用的參數(shù)取值。

4 結論

由于將違約客戶誤判為非違約客戶給金融機構造成的損失要遠大于將非違約客戶誤判為違約客戶造成的損失,故對違約客戶的準確識別一直是金融機構風險管控的焦點。然而,在實踐中,由于信用評價違約客戶少、非違約客戶多的非均衡樣本特征,使得金融機構信用評估中極易出現(xiàn)對非違約客戶識別過度、對違約客戶識別不足的情況。通過測算信貸數(shù)據(jù)中違約、非違約客戶的有效樣本數(shù)En和Em,構造能調節(jié)違約、非違約樣本損失在目標損失中權重的平衡因子ωn和ωm,構建BPNN-CBCE 信用風險評價模型。利用中國某金融機構1 534筆農戶小額貸款數(shù)據(jù)和UCI公開的德國信貸數(shù)據(jù),實證表明:

(1)BPNN-CBCE對不均衡數(shù)據(jù)中違約樣本具有更好的識別力。對于農戶數(shù)據(jù),BPNN-CBCE 模型在AUC、違約召回率Default recall方面普遍優(yōu)于BPNN-CE、SVM、DT、RF 和KNN 等5 種對比模型,其中BPNN-CBCE的Default recall相比較其余5種模型提升了41.3個百分點、AUC 相比較其余5種對比模型提升了15.6個百分點。因此,引入平衡因子ω后的BPNN-CBCE 通過增大違約樣本在目標損失中的權重、降低非違約樣本在目標損失中的權重,實現(xiàn)了對違約樣本的充分學習、提升了對違約樣本的識別能力,從而降低了金融機構將違約客戶誤判造成的損失。

(2)BPNN-CBCE評價模型表現(xiàn)出較好的穩(wěn)健性。對于不同不均衡比例的農戶數(shù)據(jù)(10∶1、8∶1),BPNN-CBCE評價模型的AUC 值(0.648,0.767)、違約召回率Default recall(0.530,0.780)均高于其余5 種對比模型;對于UCI公開的德國數(shù)據(jù)集,BPNN-CBCE模型的AUC 值(0.817)、違約召回率Default recall(0.810)也均優(yōu)于其余5種對比模型。因此,對于不同不均衡比例的信貸數(shù)據(jù),BPNNCBCE 模型均表現(xiàn)出了較好的穩(wěn)健性,可在金融機構信用風險測評中實踐應用。

本文主要創(chuàng)新與特色:①利用平衡因子ω,增大違約樣本在目標損失中的權重、降低非違約樣本在目標損失中的權重,客觀調節(jié)違約、非違約樣本損失在目標損失中權重,克服了由樣本不均衡帶來的評價模型對非違約樣本識別過度、對違約樣本的識別不足,彌補了現(xiàn)有評價模型在挖掘貸款客戶尤其是違約貸款客戶信用評價指標與違約狀態(tài)之間規(guī)律性聯(lián)系方面的不足,完善了現(xiàn)有信用評價理論體系。②通過考慮數(shù)據(jù)重疊,利用隨機覆蓋方法,分別對貸款數(shù)據(jù)中違約、非違約樣本進行不放回采樣,以對全樣本空間X違約、X非違約進行不重疊覆蓋,計算兩類貸款客戶的有效樣本數(shù)量。既反映了由于真實數(shù)據(jù)之間的內在相似性,隨著樣本數(shù)量的增加,新添加的樣本很可能是現(xiàn)有樣本近似重復的客觀事實,也保證了基于有效樣本對兩類樣本損失進行重新加權的客觀性。③將圖像識別領域中的Class Balanced Loss函數(shù)引入信用評價領域,既拓展了Class Balanced Loss的使用邊界,也為解決不均衡樣本的信用風險評價提供了新的研究思路。

猜你喜歡
評價模型
一半模型
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統(tǒng)評價再評價
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
保加利亞轉軌20年評價
主站蜘蛛池模板: 亚洲国产成人久久77| 高清无码不卡视频| 亚洲人视频在线观看| 国产超薄肉色丝袜网站| 人妻丝袜无码视频| 午夜日韩久久影院| 男人的天堂久久精品激情| 久爱午夜精品免费视频| 青青草国产精品久久久久| 91小视频在线播放| 999在线免费视频| 国产国语一级毛片| 婷婷综合色| 欧美综合区自拍亚洲综合绿色| 97免费在线观看视频| 亚洲精品欧美日本中文字幕| 国产亚洲精品97AA片在线播放| 亚洲高清中文字幕| 美女被躁出白浆视频播放| 毛片在线看网站| 欧美亚洲国产精品久久蜜芽| 亚洲国产精品无码AV| 97青青青国产在线播放| 久久精品国产999大香线焦| 四虎影视永久在线精品| 日韩经典精品无码一区二区| 午夜无码一区二区三区在线app| 国产精品一区二区久久精品无码| 最新国语自产精品视频在| 一级高清毛片免费a级高清毛片| 一级成人a做片免费| 日本手机在线视频| 久久久久久尹人网香蕉| 午夜精品影院| 国产91av在线| 九九热在线视频| 欧美啪啪一区| 亚洲福利一区二区三区| 亚洲AⅤ无码日韩AV无码网站| 国产在线第二页| 热这里只有精品国产热门精品| 亚洲Av激情网五月天| 国产毛片片精品天天看视频| 一区二区三区国产| 不卡的在线视频免费观看| 国内精品久久人妻无码大片高| 一本大道在线一本久道| 美女无遮挡免费视频网站| 日韩午夜伦| 久久久亚洲色| 国产白浆在线| 欧类av怡春院| 国产迷奸在线看| a级毛片免费播放| 亚洲第一视频网站| 成人免费视频一区二区三区| 996免费视频国产在线播放| 91破解版在线亚洲| 性欧美精品xxxx| 国产成人综合在线观看| 亚洲毛片网站| 亚洲国产日韩一区| 欧美啪啪视频免码| 五月天综合网亚洲综合天堂网| 欧美国产日韩一区二区三区精品影视| 免费亚洲成人| 国产产在线精品亚洲aavv| 国产性爱网站| 欧美无遮挡国产欧美另类| 91成人在线观看| 亚洲AⅤ波多系列中文字幕| 国产综合网站| 激情午夜婷婷| 9966国产精品视频| 超碰色了色| 国产香蕉在线| 亚洲国产天堂在线观看| 国产成人艳妇AA视频在线| 国产丰满大乳无码免费播放| 日韩毛片基地| 在线va视频| 91偷拍一区|