[摘 要]在大數(shù)據(jù)時代,數(shù)據(jù)量的爆發(fā)式增長使得傳統(tǒng)風控方法難以滿足銀行業(yè)信貸業(yè)務的發(fā)展需求。文章提出了基于機器學習的個人信用風險預測方法,利用UCI德國信用數(shù)據(jù)集和Kaggle的lending club數(shù)據(jù)集,通過構(gòu)建邏輯回歸、隨機森林、K近鄰和極限梯度提升模型,驗證了機器學習技術在信用風險評估中的有效性。實驗結(jié)果表明,極限梯度提升模型在兩個數(shù)據(jù)集上均表現(xiàn)最佳,顯示了機器學習在信用風險評估中的應用前景。
[關鍵詞]個人信用風險;機器學習;XGboost
中圖分類號:F275;TP39 文獻標識碼:A 文章編號:1674-1722(2024)16-0019-03
《巴塞爾新資本協(xié)議》將信用風險定義為商業(yè)銀行面臨的八大風險之一。近年來,隨著我國經(jīng)濟下行壓力的增加,商業(yè)銀行面臨的信用風險不斷擴大。截至2 0 2 3年年末,國內(nèi)銀行業(yè)的不良貸款總額已經(jīng)攀升至3.8萬億元,不良貸款比率達到1.86%。隨著數(shù)據(jù)量的爆發(fā)式增長,傳統(tǒng)的風控方法已無法滿足當下銀行業(yè)信貸業(yè)務的發(fā)展需要。在大數(shù)據(jù)風控體系下,如何借鑒已有成熟的信息技術,依托商業(yè)銀行現(xiàn)有的海量客戶數(shù)據(jù),實現(xiàn)風險預測,成為值得進一步深入研究的問題。因此,基于機器學習的個人信用風險預測研究應運而生。
機器學習方法能夠從大規(guī)模、復雜的征信數(shù)據(jù)中提取有價值的信息,通過算法識別數(shù)據(jù)與信用風險之間的潛在聯(lián)系。利用訓練數(shù)據(jù)驅(qū)動的模型,機器學習可以精準刻畫借貸對象的信用風險行為,從而綜合評定其信用水平。常用的機器學習算法包括邏輯回歸、決策樹[ 1 ]、隨機森林等。通過選擇和組合不同的機器學習算法,金融機構(gòu)可以構(gòu)建強大的信用風險評估模型,提高風險管理能力。在大數(shù)據(jù)時代,這些基于機器學習的方法將幫助金融機構(gòu)更準確地評估和管理信用風險,提高金融服務的效率和安全性。
機器學習算法在個人信用風險預測的應用上取得了顯著的進展和豐富的成果。顧洲一、胡麗娟利用國內(nèi)商業(yè)銀行的客戶信貸記錄,采用非平衡數(shù)據(jù)集處理技術與機器學習分類模型,識別出影響客戶違約的關鍵因素,構(gòu)建了Logistic回歸模型以預測客戶的違約可能性[ 2 ]。邱澤國、賀百艷提出了基于Lasso和隨機森林的兩階段特征選擇方法,有效提高了分類模型的準確率[ 3 ]。嚴晴、徐海燕結(jié)合Borderline-SMOTE和隨機森林,評估小額貸款中的個人信用風險,提高了對高違約風險客戶的識別準確率[ 4 ]。張俊麗等基于邏輯回歸構(gòu)建了個人信用評分卡模型,幫助決策者制定科學的授信和定價策略[ 5 ]。陳鞏等提出了一種結(jié)合多尺度卷積和注意力機制的深度特征融合提取器,運用XGBoost分類器進行信用風險評估,取得了較好的預測結(jié)果[ 6 ]。
K近鄰算法基于“相似的樣本具有相似的輸出”的假設,通過計算樣本之間的距離進行預測。對于一個待預測的樣本,KNN算法會在訓練數(shù)據(jù)集中找到距離其最近的K個樣本,根據(jù)這些鄰居的類別或值,決定該樣本的類別或預測值。具體而言,對給定的測試樣本,計算它與訓練數(shù)據(jù)集中每個樣本的距離,再根據(jù)距離從小到大排序,選擇距離最近的K個鄰居。對K個鄰居所屬的類別進行投票,票數(shù)最多的類別即為測試樣本的預測類別。
隨機森林是一種集成學習方法,核心原理是“集思廣益”,即通過組合多個弱預測模型(決策樹)的預測結(jié)果,提高整體模型的準確性和魯棒性。在隨機森林中,每棵決策樹的訓練過程都涉及兩個關鍵的隨機性因素。一是自助采樣(Bootstrap Sampling),對于每棵決策樹,隨機森林從原始訓練集中有放回地隨機抽取數(shù)據(jù)點,形成多個不同的訓練子集。二是特征隨機選擇,對于每棵樹的每個分裂節(jié)點,隨機森林從所有特征中隨機選擇一個子集,然后從這個子集中選擇最佳分裂特征。自助采樣和隨機選擇特征的方式增加了模型的多樣性,有助于降低過擬合的風險。在最終輸出中,對于分類任務,隨機森林通過多數(shù)投票機制來確定最終的預測類別。

hBkKRcPxheackhqcSlCBer/3saTaRzFsBb3QyJnETDM=極端梯度提升(XGBoost)是基于梯度提升框架的算法,其核心思想是通過迭代地構(gòu)建新的決策樹,糾正先前模型的偏差。每棵樹都是為了最小化損失函數(shù)構(gòu)建的。在每次迭代中,XGBoost利用當前模型的梯度信息構(gòu)建新的樹,然后將新樹的預測結(jié)果與之前模型的預測結(jié)果相加,以逐步減小預測誤差,提升模型的預測性能。這種迭代的過程使得XGBoost能夠有效處理復雜的數(shù)據(jù)關系,在許多數(shù)據(jù)科學問題中取得了優(yōu)異的成績。它主要優(yōu)化以下目標函數(shù),該目標函數(shù)包含了損失函數(shù)和用于防止過擬合的正則化項:

(一)數(shù)據(jù)來源
文章使用來自UCI的德國信用數(shù)據(jù)集和來自Kaggle的lending club數(shù)據(jù)集。UCI德國數(shù)據(jù)集包含1000條記錄,即700條未違約記錄和300條違約記錄。每條記錄有20個特征,用于描述個人的銀行貸款信息和申請客戶的信用情況,這些屬性包括賬戶狀態(tài)、信用歷史、貸款目的等。Lending club數(shù)據(jù)集包含396030條記錄,318357條未違約記錄和77673條違約記錄。該數(shù)據(jù)集有26個特征,描述了貸款人的基本信息、財務狀況、信用記錄、房產(chǎn)情況等。
(二)相關性分析
計算數(shù)值型特征之間的皮爾森相關系數(shù),進行相關性分析,如圖1所示。相關性過高的特征可能會導致模型復雜度不必要地增加,去除相關性過高的特征有助于減少計算量,提高模型的運行速度。相關系數(shù)的絕對值一般在0.8以上,認為變量之間有強的相關性。在德國信用數(shù)據(jù)集中,不存在具有強相關性的變量;在lending club數(shù)據(jù)集中,每月還款金額(installment)和貸款金額(loan_amt)的相關性為0.95,意味著這兩個變量提供的信息高度重疊,刪除其中一個變量。
(三)評估指標
準確率是衡量模型正確預測的樣本數(shù)占總樣本數(shù)的比例,它反映了模型在整體數(shù)據(jù)集上的表現(xiàn),其計算公式如下:

其中,TP(真正例)是正確預測為正類的樣本數(shù),TN(真負例)是正確預測為負類的樣本數(shù),F(xiàn)P(假正例)是錯誤預測為正類的樣本數(shù),F(xiàn)N(假負例)是錯誤預測為負類的樣本數(shù)。
精確度是衡量模型預測為正類、實際為正類的比例,即預測為正類的樣本中有多少是正確的,高精確度意味著模型的假正例較少,公式為:
41d6fc4f64411132cc3f040515ef694826161aeb97ee6f9aa7b6739923190873
召回率衡量的是所有實際為正類的樣本中有多少被模型正確預測,高召回率意味著模型能夠捕捉到更多的正類樣本,但可能會增加假正例,其計算公式為:

F 1分數(shù)是精確度和召回率的調(diào)和平均值,它在兩者之間取得平衡,特別適用于類別不平衡的情況。

(四)結(jié)果分析
對兩個數(shù)據(jù)集劃分訓練集和測試集,對于德國信用數(shù)據(jù)集,75%作為訓練集,25%作為測試集,lending club數(shù)據(jù)集按照7∶3的比例劃分訓練集和測試集。將訓練集輸入到四個模型中進行訓練,在測試集上預測,結(jié)果如表1、表2所示。

對于德國信用數(shù)據(jù)集,極限梯度提升在準確率上表現(xiàn)最佳,表明它在整體上能夠正確分類更多的樣本。邏輯回歸的準確率略低于極限梯度提升,但仍然表現(xiàn)出較高的整體正確性。隨機森林和K近鄰的準確率相同,相對較低。在精確率上,極限梯度提升同樣表現(xiàn)最佳,表明該模型在預測違約樣本時更為準確。在召回率上,極限梯度提升得分最高,說明它能更好地識別出違約樣本。 K近鄰和隨機森林的分數(shù)則較低,模型在識別違約樣本方面存在不足。就F 1而言,極限梯度提升表現(xiàn)最佳,說明它在精確率和召回率之間取得了最佳的平衡。綜上所述,極限梯度提升模型在所有四個指標上均表現(xiàn)出色,是整體性能最優(yōu)的模型。
在lending club數(shù)據(jù)集上,邏輯回歸、隨機森林和極限梯度提升的準確率相同,K近鄰的準確率稍低,但仍表現(xiàn)出較高的準確率。隨機森林的精確度最高,為0.9419402c0b1cbf92f366b2a7431f9bf9f6b2bc1150388864806a03126dfa0dad757,意味著當模型預測樣本為正類時,有95.7%的概率這些預測是正確的。在精確率上,邏輯回歸得分略低于隨機森林,但仍然顯示出較高的精確度。極限梯度提升為0.911,雖然低于前兩者,但仍然顯示出很高的精確度。K近鄰則比較低,表明在預測為正類的樣本中,其正確預測的比例較低。在召回率上,極限梯度提升是所有模型中最高的,在識別實際違約樣本方面表現(xiàn)最佳。邏輯回歸和隨機森林相對較低,意味著模型錯過了較多的違約樣本。對于F 1分數(shù),極限梯度提升同樣取得了最高的分數(shù),模型既減少了違約樣本的誤報,又提高了對違約樣本的識別率。同樣地,極限梯度提升在lending club上取得了最好的效果。
文章針對商業(yè)銀行在信用風險管理中面臨的挑戰(zhàn),探索了基于機器學習的方法進行個人信用風險預測的有效途徑。通過應用UCI德國信用數(shù)據(jù)集和Kaggle的lending club數(shù)據(jù)集,文章構(gòu)建并評估了邏輯回歸、隨機森林、K近鄰和極限梯度提升四種機器學習模型。實驗結(jié)果顯示,極限梯度提升模型在準確率、精確度、召回率和F 1分數(shù)這些關鍵評估指標上均表現(xiàn)卓越,證明了其在信用風險預測中的高效性和準確性。機器學習方法為商業(yè)銀行提供了一個高效的信用風險評估工具,有助于金融機構(gòu)優(yōu)化信貸政策,提升風險管理能力,為金融科技領域的進一步研究和應用奠定了堅實的基礎。
[1]何姿嬌,歐陽浩,劉智琦,等.基于決策樹的個人信用風險評估模型[J].信息技術與信息化,2021(07):122-124.
[2]顧洲一,胡麗娟.機器學習視角下商業(yè)銀行客戶信用風險評估研究[J].金融發(fā)展研究,2022(01):79-84.
[3]邱澤國,賀百艷.機器學習算法下信用風險評估體系構(gòu)建研究——基于中國銀聯(lián)數(shù)據(jù)的個人信用風險評價分析[J].價格理論與實踐,2021(10):89-92+194.
[4]嚴晴,徐海燕.基于混合式SMOTE和RF模型的小額貸款公司客戶信用風險研究[J].運籌與管理,2024(01):191-197.
[5]張俊麗,郭雙顏,任翠萍,等.基于邏輯回歸的個人信用評分卡模型研究[J].現(xiàn)代信息科技,2024(05):12-16.
[6]陳鞏,李占利,朱莉.多尺度深度特征融合的個人信用風險預測[J].計算機工程與科學,2023(12):2265-2273.