999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LightGBM與SHAP的信貸違約預(yù)測方法研究

2024-04-29 05:24:11戴崢琪,雷億輝,彭晨,夏廣萍

戴崢琪,雷億輝,彭晨,夏廣萍

摘要:機器學(xué)習(xí)方法在信貸領(lǐng)域取得了較好的成果,但由于缺乏可解釋性,應(yīng)用受到限制,為增加其可信度和透明度,克服“黑盒”模型缺乏可解釋性的缺陷,基于LightGBM算法建立信貸違約預(yù)測模型,并設(shè)計SHAP算法對模型的結(jié)果進(jìn)行解釋。結(jié)果表明,模型性能更好,預(yù)測精度更高,其精度高達(dá)88.61%;SHAP算法解釋結(jié)果表明“信用組合的分類”“要支付的剩余債務(wù)”“每月EMI付款”等因素對信貸決策有著重要影響。

關(guān)鍵詞:信貸風(fēng)險;LightGBM算法;SHAP算法;可解釋性

中圖分類號:F832.4? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A

Research on credit default prediction method based on LightGBM and SHAP

DAI Zhengqi1, LEI Yihui1, PENG Chen2, XIA Guangping1

(1. School of Mathematics and Statistics, Jishou University, Jishou 416000, China2. School of Computer Science and Engineering, Jishou University, Jishou 416000, China)

Abstract: Machine learning methods have shown promising results in the credit domain; however, their application is constrained by a lack of interpretability. To enhance credibility and transparency, and overcome the opacity inherent in “black box” models, a credit default prediction model based on the LightGBM algorithm is established. Additionally, the SHAP algorithm is employed to elucidate the models outcomes. The findings indicate superior performance of the proposed model, achieving an impressive prediction accuracy of 88.61%. Furthermore, SHAP algorithm interpretations reveal the significance of factors, such as “Credit-Mix” “Outstanding_Debt” and “Total_EMI_per_month” in influencing credit decisions.

Key words: credit risk; LightGBM algorithm; SHAP algorithm; explainability

信貸是現(xiàn)代經(jīng)濟(jì)的重要組成部分,它為個人和企業(yè)提供了從銀行等金融機構(gòu)獲取資金的途徑。然而,借款人向金融機構(gòu)申請貸款時,往往存在信息不對稱、逆向選擇等問題,信貸違約概率的預(yù)測存在較大不確定性[1],這對從事貸款業(yè)務(wù)的金融機構(gòu)來說是極其不利的。因此,使用有效的信貸違約預(yù)測模型,合理地評估借款人的信用違約風(fēng)險,做出正確的信貸決策,是保障金融機構(gòu)資金安全、維護(hù)金融市場穩(wěn)定的重要手段。

傳統(tǒng)的信貸決策主要依賴于人工信用評分,該類方法通過對借款人的收入、資產(chǎn)、負(fù)債以及歷史信用等信息進(jìn)行評分,根據(jù)評分結(jié)果判斷是否為借款人提供貸款。由于此方法容易出現(xiàn)主觀偏差和誤判,增加信貸風(fēng)險,許多學(xué)者提出基于統(tǒng)計學(xué)方法的信貸風(fēng)險預(yù)測模型。基于統(tǒng)計學(xué)方法建立的模型具有穩(wěn)健性和透明性等優(yōu)點,被廣泛應(yīng)用于信貸違約預(yù)測[2-3]。然而,這些模型結(jié)構(gòu)簡單,不能有效地提取非線性信息,預(yù)測精度相對較低。針對此問題,DUMITRESCU等[4]在決策樹算法的基礎(chǔ)上,改進(jìn)Logistic回歸模型的框架,有效解決了Logistic回歸模型無法擬合非線性關(guān)系的問題,顯著提高了預(yù)測精度;MUNKHDALAI等[5]提出了一個由線性和非線性部分組成的部分可解釋的自適應(yīng)softmax回歸模型,該模型解決了信貸決策中的不平衡二分類問題,同時提高了預(yù)測精度。

隨著大數(shù)據(jù)時代的到來,機器學(xué)習(xí)算法因其高預(yù)測精度等優(yōu)點被廣泛應(yīng)用于信貸領(lǐng)域。BAHNSEN等[6]基于Logistic回歸算法和機器學(xué)習(xí)算法建立個人信貸評分模型,通過對比可知,機器學(xué)習(xí)算法的預(yù)測精度更高;吳瑞琪[7]基于機器學(xué)習(xí)算法中的感知機算法建立信用評分模型,進(jìn)一步提高模型預(yù)測精度。然而,當(dāng)處理大規(guī)模信用數(shù)據(jù)集時,簡單的基于機器學(xué)習(xí)的基礎(chǔ)分類器難以捕捉復(fù)雜的非線性關(guān)系,因此,WANG等[8]提出兩種對偶策略集成樹,以減少噪聲數(shù)據(jù)和數(shù)據(jù)冗余屬性的影響,獲得相對較高的分類精度;LIU等[9]提出了兩個基于樹的增強梯度提升決策樹模型,進(jìn)一步提高了模型性能。但上述模型均使用橫截面數(shù)據(jù),不能有效解決時變問題,因此,XIAN等[10]在生存分析和梯度提升決策樹模型的基礎(chǔ)上提出了SurvXGBoost模型,該模型不僅性能較好,并且能夠達(dá)到動態(tài)預(yù)測的效果。與傳統(tǒng)的機器學(xué)習(xí)算法相比,上述集成學(xué)習(xí)模型預(yù)測精度更高,但缺乏可解釋性。而在信貸決策過程中,相關(guān)人員需要了解模型的決策依據(jù),以提高決策的合理性和可靠性,故在信貸決策等高風(fēng)險領(lǐng)域中模型的可解釋性至關(guān)重要。

為解決模型缺乏可解釋性問題,將LightGBM集成學(xué)習(xí)算法應(yīng)用于信貸風(fēng)險預(yù)測,在保證其預(yù)測精度的基礎(chǔ)上,采用SHAP算法對模型結(jié)果進(jìn)行解釋,增強模型的可解釋性。主要貢獻(xiàn)如下:1)建立基于LightGBM算法的信貸風(fēng)險預(yù)測模型,該模型性能優(yōu)于Logistic回歸、決策樹、隨機森林和支持向量機等信貸風(fēng)險預(yù)測模型;2)通過貝葉斯優(yōu)化算法對模型的超參數(shù)進(jìn)行優(yōu)化,進(jìn)一步提高模型的性能;3)利用SHAP算法對影響信貸決策的重要因素進(jìn)行分析,提高模型的可解釋性,為信貸人員進(jìn)行信貸決策提供參考依據(jù)。

1模型與算法

1.1信貸風(fēng)險預(yù)測模型建模流程

采用基于LightGBM算法的信貸預(yù)測模型,并結(jié)合SHAP算法對模型結(jié)果進(jìn)行解釋,以增加模型的可解釋性。具體的實現(xiàn)過程見圖1。

1.2LightGBM算法介紹

LightGBM算法是一種高效的梯度提升決策樹框架,其高效性主要源于兩方面:第一,采用基于直方圖的決策樹算法,通過構(gòu)建特征直方圖并將其劃分為離散的箱,減少了需要考慮的特征值數(shù)量,加速了計算速度并降低了內(nèi)存占用;第二,采用梯度單邊采樣技術(shù),通過識別具有大梯度的實例,然后基于閾值對具有小梯度的實例進(jìn)行采樣,減少了每次迭代中需要考慮的實例數(shù)量,加快了收斂速度并避免了過擬合問題。

LightGBM算法是由k個基模型所組成的求和函數(shù),如式(1)所示:

y^i=∑kt=1ftxi(1)

式中:xi代表第i個樣本的輸入特征;ft代表第t個基模型;y^i代表第i個樣本的預(yù)測值。損失函數(shù)可由預(yù)測值與真實值進(jìn)行表示,如式(2)所示:

L=∑ni=1lyi,y^i(2)

式中:n代表樣本容量;l代表第i個樣本的損失函數(shù);yi代表第i個樣本的真實值。在此基礎(chǔ)上建立目標(biāo)函數(shù),如式(3)所示:

Obj(θ)=∑ni=1lyi,y^i+∑kt=1Ωft(3)

式中:Ω代表正則化項;θ為模型參數(shù)。通過Softmax函數(shù)能夠得到每個類別的概率。具體地,設(shè)模型一共訓(xùn)練了k棵樹,第m棵樹的輸出結(jié)果為fm(x),則樣本點x屬于類別c的概率為

pc(x)=∑km=1wm·Ifm(x)=c∑km=1wm(4)

式中:wm為第m棵樹的權(quán)重;I為指示函數(shù)。通過Softmax函數(shù)能夠了解各類別的概率分布,能夠?qū)杩羁蛻暨M(jìn)行分類,通過不斷優(yōu)化目標(biāo)函數(shù),在一定程度上可以提高LightGBM算法的分類精度。

1.3SHAP特征重要性評估指標(biāo)

SHAP算法是一種解釋機器學(xué)習(xí)模型預(yù)測結(jié)果的方法。通過為每個特征提供一個重要性分?jǐn)?shù),即Shapley值,可量化每個特征對模型預(yù)測結(jié)果的貢獻(xiàn)程度,幫助研究人員理解每個特征對模型的影響程度。因此,SHAP算法在金融、醫(yī)療、自然語言處理等領(lǐng)域得到廣泛應(yīng)用。

在SHAP算法中所有特征都被視為“貢獻(xiàn)者”,通過計算每個“貢獻(xiàn)者”的Shapley值來衡量其對最終輸出值的影響,公式如下:

yi=ybase +fxi,1+fxi,2+…+fxi,k(5)

式中:xi,k代表第i個樣本的第k個特征;f(xi,k)代表xi,k的Shapley值;ybase代表整個模型的基線;yi代表第i個樣本的預(yù)測值。直觀上,當(dāng)f(xi,k)>0,說明該特征對預(yù)測結(jié)果有正向作用;反之,當(dāng)f(xi,k)<0時,說明該特征對預(yù)測結(jié)果有反向作用。

2數(shù)據(jù)預(yù)處理與特征提取

2.1數(shù)據(jù)集介紹

使用的數(shù)據(jù)集“Credit score classification”來源于Kaggle平臺。該數(shù)據(jù)集提供了經(jīng)過脫敏處理后的借款客戶個人信用的相關(guān)信息,例如職業(yè)、月基本工資、年收入等。數(shù)據(jù)集包含27個特征和1個標(biāo)簽,共100 000條數(shù)據(jù),每行數(shù)據(jù)代表一個樣本。

2.2數(shù)據(jù)預(yù)處理

2.2.1缺失值處理

對數(shù)據(jù)集中特征的缺失情況進(jìn)行了可視化處理,可視化結(jié)果見圖2。由圖2可知,“月基本工資”和“貸款類型”等特征的缺失值較多,高達(dá)10%以上,本文使用該客戶其他樣本中對應(yīng)特征的眾數(shù)進(jìn)行填充。以“月基本工資”為例,當(dāng)某客戶某月的“月基本工資”缺失時,將以該客戶其他月份“月基本工資”的眾數(shù)進(jìn)行填充。

2.2.2異常值處理

為確保信貸風(fēng)險預(yù)測模型的準(zhǔn)確性,需進(jìn)行異常值處理。針對數(shù)值型數(shù)據(jù),本文將箱線圖的最大值作為異常值的判定標(biāo)準(zhǔn),超出最大值的數(shù)據(jù)視為異常值。以“月基本工資”為例,根據(jù)圖3可知,“月基本工資”的最大值為13 500,而部分?jǐn)?shù)據(jù)卻超出了最大值,因此,將這部分?jǐn)?shù)據(jù)視為異常值并刪除對應(yīng)的樣本,確保異常值對預(yù)測模型的影響最小化。

2.2.3標(biāo)準(zhǔn)化處理

在實際應(yīng)用中,不同特征的單位和量級不同,會對模型的訓(xùn)練和預(yù)測產(chǎn)生較大的影響。為了消除數(shù)據(jù)特征之間單位和量級的差異,本文對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化的計算公式為

x*=(x-μ)σ(6)

式中:x代表輸入特征;μ代表輸入特征的均值;σ代表輸入特征的標(biāo)準(zhǔn)差。

3實驗

按照4∶1的比例劃分訓(xùn)練集和測試集,構(gòu)建基于LightGBM、Logistic回歸(LR)、隨機森林(RF)、支持向量機(SVM)、決策樹(DT)算法的信用評分預(yù)測模型,并使用貝葉斯優(yōu)化算法進(jìn)行超參數(shù)優(yōu)化,提高模型的分類預(yù)測精度。

3.1超參數(shù)優(yōu)化

采用貝葉斯優(yōu)化算法在訓(xùn)練集上對5個模型(表1)進(jìn)行超參數(shù)優(yōu)化。貝葉斯優(yōu)化算法通過構(gòu)建函數(shù)的后驗分布描述需要優(yōu)化的函數(shù),隨著觀察次數(shù)增加,后驗分布會逐漸改善。該算法會平衡探索和開發(fā)的需要,在每個步驟中,高斯過程被擬合到已知樣本,后驗分布與探索策略相結(jié)合,用于確定下一個應(yīng)該探索的點。

3.2模型評價

為評估模型的性能,本文采用多種評價指標(biāo),包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值和AUC值。其中,準(zhǔn)確率代表正確分類的樣本占全部樣本的比例;精確率代表預(yù)測為正例的樣本中,真正為正例的樣本所占的比例;召回率代表所有真正為正例的樣本中,預(yù)測為正例的樣本所占的比例;F1綜合精確率和召回率,用于綜合評價模型的性能;AUC值是用于評估分類模型性能的指標(biāo),公式如下:

Aaccuracy=TP+TNTP+TN+FP+FN(7)

Pprecision =TPTP+FP(8)

Rrecall=TPTP+FN(9)

F1=2·Pprecision ·RrecallPprecision+Rrecall(10)

式中:TP代表正類被預(yù)測為正類的樣本數(shù)量;FN代表正類被預(yù)測為負(fù)類的樣本數(shù)量;FP代表負(fù)類被預(yù)測為正類的樣本數(shù)量;TN代表負(fù)類被預(yù)測為負(fù)類的樣本數(shù)量。當(dāng)涉及到多分類問題時,上述評價指標(biāo)不能直接使用。多分類問題可視為多個二分類問題,通過計算各類別的評價指標(biāo)并采用加權(quán)平均,考慮不同類別的重要性,可以得出最終的評價指標(biāo)。其計算公式如式(11):

waverage=1n∑ni=1wi×si(11)

式中:n表示類別數(shù);wi表示第i個類別的權(quán)重;si表示第i個類別的評價指標(biāo)得分,如準(zhǔn)確率、精確率等。

3.3實驗結(jié)果

為評估本文所建立模型的性能,采用了LR、RF、SVM、DT作為對比模型,具體實驗結(jié)果見表1。

根據(jù)對比實驗結(jié)果可知,基于LightGBM算法的模型在準(zhǔn)確率等評價指標(biāo)上都優(yōu)于LR、RF、SVM和DT模型,因此,后續(xù)進(jìn)一步對基于LightGBM算法建立的信貸預(yù)測模型的結(jié)果進(jìn)行解釋,增強模型的可解釋性和透明度。

4基于SHAP算法的模型解釋分析

基于LightGBM算法的信貸風(fēng)險預(yù)測有較高的預(yù)測精度,但由于其是“黑盒”模型,使得信貸決策人員難以像線性回歸一樣了解對決策結(jié)果起關(guān)鍵作用的特征。針對此問題,引入了SHAP算法對模型結(jié)果進(jìn)行解釋,在提供特征重要性排序的同時,著重解釋了不同特征值對預(yù)測結(jié)果產(chǎn)生的具體影響。此外,考慮到該解釋方法應(yīng)用于個人信貸風(fēng)險評估領(lǐng)域,本文在解釋預(yù)測結(jié)果時不僅注重宏觀層面,還針對每個客戶進(jìn)行了微觀層面的解釋。通過綜合的解釋方式,幫助決策者全面理解模型的決策過程,并為每位客戶的信用風(fēng)險評估結(jié)果提供個性化的解釋。

4.1宏觀層面的預(yù)測結(jié)果解釋

4.1.1特征重要性解釋

圖4展示了特征重要性排序及其對違約傾向的影響,由圖4(a)可知,“要支付的剩余債務(wù)”“持有的信用卡數(shù)量”“信用卡利率”“信用組合的分類”“付款日期算起的平均延遲天數(shù)”等因素對模型預(yù)測結(jié)果有顯著影響。圖4(b)為SHAP摘要圖,其中每個點都代表一個樣本,顏色代表特征的數(shù)值,從藍(lán)到紅表示數(shù)值由小到大,結(jié)合圖4(b)可知,“要支付的剩余債務(wù)”“持有的信用卡數(shù)量”“信用卡利率”“付款日期算起的平均延遲天數(shù)”的Shapley值隨著特征數(shù)值增加而增加,表明其與違約概率呈正相關(guān)關(guān)系,當(dāng)特征值較大時,客戶違約的可能性也較大;而“信用組合的分類” 的Shapley值隨著特征數(shù)值增加而減少,表明其與違約概率呈負(fù)相關(guān)關(guān)系,當(dāng)特征值較大時,客戶違約的可能性較小。

4.1.2變量相關(guān)解釋

圖5展示了上述4個對違約概率有正向影響的特征依賴圖,由圖5可知,Shapley值的增長趨勢隨著上述特征數(shù)值的增加而呈上升趨勢,這意味著隨著這些特征值的增加,客戶違約概率也隨之增加。

綜上,從宏觀角度來看,基于SHAP算法研究特征重要性排序、探索特征之間的相互作用,能夠從全局上掌握各項特征對信貸違約的影響機理,有利于制定更有效的信貸風(fēng)險管理策略和決策。

4.2微觀層面的預(yù)測結(jié)果解釋

不同客戶受相同指標(biāo)影響作用各不相同,僅從宏觀角度分析信用貸款的影響過于籠統(tǒng),不能清晰明了地分析影響機制。因此,綜合考慮客戶相關(guān)的信用信息,提供個性化解釋更為重要。圖6為某一被拒絕借款客戶的信貸預(yù)測結(jié)果解釋圖,圖中不同長度、不同方向的箭頭表示相關(guān)特征對信用違約概率的影響。箭頭向右表示對應(yīng)特征對違約概率有正向作用,箭頭向左表示對應(yīng)特征對違約概率有反向作用,箭頭的長度代表對應(yīng)特征對違約概率影響的程度。結(jié)合圖6可知,“信用組合的分類”“要支付的剩余債務(wù)”等特征變量會增加違約概率,而“每月EMI付款”會降低違約概率。

通過個性化解釋,信貸機構(gòu)能夠更加全面深入地了解客戶,減小信貸風(fēng)險及損失;對于客戶來說,他們能夠了解影響其貸款申請被拒絕的重要因素,從而理解并接受信貸決策人員的決策結(jié)果,或者通過制定合理的解決方案,提高成功獲得貸款的概率。

5結(jié)論

基于LightGBM算法建立信貸風(fēng)險預(yù)測模型,并采用SHAP算法對模型的結(jié)果進(jìn)行解釋,彌補了模型在可解釋性方面的缺陷。實驗結(jié)果表明,LightGBM算法在預(yù)測精度等方面性能更好,同時,SHAP算法提供的解釋有助于相關(guān)人員全面理解影響信貸決策的重要因素,從而準(zhǔn)確地評估借款人的信用風(fēng)險,降低錯誤決策的潛在風(fēng)險,提高信貸決策的準(zhǔn)確性和可靠性。

參考文獻(xiàn):

[1]鮑星, 李巍, 李泉. 金融科技運用與銀行信貸風(fēng)險: 基于信息不對稱和內(nèi)部控制的視角[J]. 金融論壇, 2022, 27(1): 9-18.

[2]SHEN F, WANG R, SHEN Y. A cost-sensitive logistic regression credit scoring model based on multi-objective optimization approach[J]. Technological and Economic Development of Economy, 2020, 26(2): 405-429.

[3]D'AMATO A, MASTROLIA E. Linear discriminant analysis and logistic regression for default probability prediction: the case of an Italian local bank[J]. International Journal of Managerial and Financial Accounting, 2022, 14(4): 323-343.

[4]DUMITRESCU E, HUE S, HURLIN C, et al. Machine learning for credit scoring: Improving logistic regression with non-linear decision-tree effects[J]. European Journal of Operational Research, 2022, 297(3): 1178-1192.

[5]MUNKHDALAI L, RYU K H, NAMSRAI O E, et al. A partially interpretable adaptive softmax regression for credit scoring[J]. Applied Sciences, 2021, 11(7): 3227.

[6]BAHNSEN A C, AOUADA D, STOJANOVIC A, et al. Feature engineering strategies for credit card fraud detection[J]. Expert Systems with Applications, 2016, 51: 134-142.

[7]吳瑞琪. 基于感知機算法的個人信用貸款評估模型研究[J]. 通訊世界, 2019, 26(2): 233-235.

[8]WANG G, MA J, HUANG L, et al. Two credit scoring models based on dual strategy ensemble trees[J]. Knowledge-Based Systems, 2012, 26: 61-68.

[9]LIU W, FAN H, XIA M. Credit scoring based on tree-enhanced gradient boosting decision trees[J]. Expert Systems with Applications, 2022, 189: 116034.

[10]XIAN Y, HE L, LI Y, et al. A dynamic credit scoring model based on survival gradient boosting decision tree approach[J]. Technological and Economic Development of Economy, 2021, 27(1): 96-119.

主站蜘蛛池模板: 四虎在线观看视频高清无码| 色网在线视频| 欧美精品亚洲日韩a| 国产aⅴ无码专区亚洲av综合网| 91午夜福利在线观看| 九九九国产| 国产性生交xxxxx免费| 欧美第一页在线| 制服丝袜国产精品| 国产精品浪潮Av| 欧美成人第一页| 青青草综合网| 久久精品人人做人人爽电影蜜月| 日韩美毛片| 国内老司机精品视频在线播出| 中文字幕乱码中文乱码51精品| 亚洲国产欧洲精品路线久久| 91麻豆国产精品91久久久| 97视频在线精品国自产拍| 18禁色诱爆乳网站| 色欲色欲久久综合网| 99热这里只有免费国产精品 | 国产色爱av资源综合区| 综合久久五月天| 1769国产精品免费视频| 中文字幕久久波多野结衣| 成人福利在线视频免费观看| 亚洲福利片无码最新在线播放| 这里只有精品在线播放| 亚洲码一区二区三区| 日韩中文字幕免费在线观看| 久久久亚洲色| 九九久久99精品| 成人在线欧美| 久热中文字幕在线观看| 国产一区二区网站| 国产精品白浆无码流出在线看| 一级毛片在线播放免费| 欧美性天天| 欧美精品不卡| 97国产精品视频自在拍| 青青草国产一区二区三区| 久久精品免费国产大片| 国产欧美日韩在线一区| 成年人国产网站| 精品国产乱码久久久久久一区二区| 色爽网免费视频| 国产欧美日韩免费| 日韩在线视频网站| 青草视频久久| 亚卅精品无码久久毛片乌克兰 | 亚洲第一成人在线| 黄色成年视频| 玖玖精品在线| 操美女免费网站| 91亚洲免费| av在线手机播放| 永久免费AⅤ无码网站在线观看| 亚洲AV免费一区二区三区| 亚洲成人福利网站| 欧美一级特黄aaaaaa在线看片| 一级做a爰片久久免费| 无码AV日韩一二三区| 国产黄网站在线观看| 欧美精品黑人粗大| 国产精品亚洲片在线va| 伊伊人成亚洲综合人网7777| 在线看片中文字幕| 伊伊人成亚洲综合人网7777| 欧美一级黄色影院| 欧美一级色视频| 亚洲欧美日韩久久精品| 亚洲欧美成aⅴ人在线观看 | 好吊色妇女免费视频免费| 国产在线观看精品| www.91中文字幕| 日韩欧美国产成人| 精品国产自在现线看久久| a毛片免费看| 亚洲男人天堂2020| 另类欧美日韩| 国产成人亚洲综合A∨在线播放 |