【摘要】本文選用隨機森林模型研究個人信貸風險,該模型較傳統風險評估模型具有抗噪聲能力強、防止過擬合、運算快速等特點。本文選取Lending Club平臺2020年Q1耀Q3的5551條樣本數據構建基礎數據集以訓練模型,建立個人信用體系和評估模型。本文在預處理數據并篩選特征變量后,基于隨機森林算法建立了個人信用風險評估模型,并對比Logistic回歸模型,得到隨機森林模型的個人信用風險評估能力明顯優于Logistic回歸模型的結果,進一步證實隨機森林模型高度適用于個人信用風險評估并具備較強有效性。
【關鍵詞】個人信貸風險;風險評估;機器學習;隨機森林
一、研究背景和意義
二十世紀后,個人信貸逐漸融入生活并蓬勃發展,成為我國經濟體系內不可或缺的組成部分,它因巨大潛在市場價值和吸引力在當今金融市場極受關注,在此基礎上,推動個人信貸業務增長優化被視為金融機構長期發展的戰略環節。隨經濟發展與金融市場深化,個人借貸需求持續上升,個人信貸業務規模穩步擴大,但貸款拖欠及壞賬現象也屢見不鮮,金融機構面臨越來越高的貸款風險,個人信貸管理亟需高效化,需對金融機構進行業務優化升級,提升信貸業務穩健性,建立準確的個人信貸風險評估模型。
隨著國內金融機構日益完善,一些機構已初步搭建較成熟的操作系統和信息管理平臺,儲存與處理的的數據量爆發式增長。為順應大數據時代需求,機器學習技術高速發展,幫助我們探究各類型數據和個人信貸風險間的聯系。個人信貸風險評估涉及分類和預測,需將借款人據其特征劃分到合適類別,預測個體未來信用表現,并深入研究對違約風險影響較大的因素,構建更有效的風險量化指標。而隨機森林作為成熟的機器學習算法,在解決分類和預測任務方面表現出色,可挖掘大量數據,適于建立個人信用評估模型。
然而,國內網貸平臺信息披露不充分,而國外平臺交易數據更易獲取,所以本文計劃采用美國在線借貸平臺Lending Club開放的借貸數據集,通過隨機森林算法建立信用風險評估模型。模型目的是精準識別潛在高風險違約客戶,提取關鍵數據,量化借款人信用狀況,以有效降低風險、盡可能規避損失,在此前提下追求更大投資回報。
二、國內外研究現狀
現階段,國內外信用風險評估研究都已經歷一段時間發展,眾多學者應用各種機器學習方法于該領域,大大提升信用風險評估效率。
Martin采用Logistic回歸模型構建用于銀行風險評估與預警的系統。Crook J.等應用SVM技術,結合大規模信用卡數據評估客戶信用。Stjepan等結合遺傳算法和神經網絡技術,基于克羅地亞信用數據分析風險。Tong等開發了利用Spark分布式計算框架構建的優化版C4.5決策樹混合模型,應用價值顯著。隨機森林模型理論提出以來已成為機器學習領域內最經典的算法之一,被廣泛應用于各領域。Aksakalli、Malekipirbazari協助借貸平臺建立用于借方客戶信用打分的隨機森林模型,證實它在高信用借款人辨識上表現出色。
我國在該領域起步較晚,但新世紀以來國內學者在基于機器學習方法對信用風險的研究上也取得了一定進展。王春峰等以判別分析為基礎融合統計學與神經網絡綜合預測風險并展開實證分析。馬威采用決策樹CHAID和C5.0算法構建模型分析小額貸款公司信用風險,認為CHAID算法更適合預測個人客戶,C5.0算法更適合公司客戶。閆靜用SMOTE算法解決數據集不平衡問題,并用卷積神經網絡模型評估信用風險,證明其準確性高于Logistic回歸模型。何姿嬌等用C5.0決策樹和XGBoost模型分別分析UCI德國信用數據集和金融詐騙數據,構建個人信用評估模型和風險控制模型。
隨機森林隨技術發展逐漸也被應用到我國信用風險研究中。徐婷婷運用加權隨機森林算法構建P2P網絡借貸平臺借款公司風險模型,成效顯著。梁佩用隨機森林方法分析銀行信貸數據,得到模型預測精度高、泛化能力強。何靜建立了基于SMOTE均衡化改進數據集的隨機森林模型,并對比得出其分類性能優于Logistic回歸模型和SVM模型。
綜上,國內外對個人信貸風險評估均已進行大量研究,評估方法多樣且仍不斷發展。作為一種優秀的機器學習方法,隨機森林算法已被廣泛應用且成效顯著。然而個人信用評估領域使用隨機森林算法的學者仍較少,因此本文借鑒相關文獻及研究成果,基于Lending Club平臺公開數據,采用隨機森林算法評估個人信貸風險,旨在建立全面的個人信用風險評估指標體系并建立模型。
三、基本理論概述
1.個人信用風險概述
個人信用是構成社會信用體系的核心要素。市場參與者本質是個體的集合,所有市場交易和經濟活動都與個人信用狀況聯系密切。若個人行為缺乏必要約束導致失信,不僅影響個人聲譽,還可能觸發集體信用危機。
信用風險成因多種多樣,最常見的是交易對手履約能力或履約意愿存在問題。度量個人信用風險時往往依據這兩種成因。其中,對前者的度量一般有充足數據支撐,而履約意愿的評估更為困難,通常只能依賴違約次數等過往交易記錄。量化相關數據并從經驗概率角度評估,是信用風險評估的重難點。因此,除基礎信息外,借款人歷史違約記錄等也與個人信貸風險評估密切相關。同時,貸款用途和真實性、市場狀況、政策變化等也應納入分析考量。
2.隨機森林基本理論
隨機森林模型由Leo Breiman(2001)提出,屬于集成學習,由多個獨立并行的決策樹模型組合而成。這些決策樹為隨機森林基分類器,它利用Bagging生成一系列相異的訓練數據集,本質是對標準決策樹的優化,通過集成眾多決策樹增強整體預測力。
隨機森林模型中每棵決策樹的構建都遵循最小基尼指數標準,通過遞歸的從根節點向下分裂的方法實現。具體流程包括:(1)通過Bootstrap重抽樣,從原始訓練集中有放回地隨機抽取n個樣本,同一樣本可多次選中;(2)隨機選取k個特征變量,基于這些特征對①中樣本構建單棵決策樹模型;(3)M次迭代上述兩步驟,構建M棵獨立決策樹并集合建立完整的隨機森林模型;(4)每棵樹給出樣本分類結果,最終分類基于所有預測結果投票得出。這種評估方式綜合多個決策樹決策結果,大大增強模型穩定性和準確性。

其中[p(j | t)]為在節點t上時類別j的概率。若節點t上的樣本均屬同一類別,概率[p(j | t)]取值為1,基尼指數為最小值0;若節點t上樣本類別均勻分布,概率[p(j | t)]降至最小,此時基尼指數最大。
個人信用風險評估實質是一項二分類任務,它將客戶依償還貸款可能性分為履約者和違約者。評估時需分析的特征變量同時包括連續型和離散型,所用數據集往往規模龐大,包含大量噪聲。隨機森林作為一種先進的二分類技術展現出強大的數據處理能力,能有效適應不同數據特性處理復雜數據集,并具有出色的抗噪聲性能,在處理大規模數據集時特別有效,分類精度高,且具備高自動化水平和快速計算能力,在理論和實際中都顯示出對個人信貸風險評估的高適用性,能幫助金融機構做出更適宜的信貸決策。
四、數據準備與個人信用風險評估指標體系構建
本文數據來自Lending Club官網公開的經過脫敏的數據,數據集包括2020年Q1~Q3的貸款數據(因2020年底Lending Club關閉其個人對個人信貸平臺,無后續更新的數據),已完成數據共5551條,進行中的貸款記錄不予考慮。
首先通過數據清洗將冗余變量、低信息量變量及高比例數據缺失變量清除,并經數據轉換將用文本分類的特征變量的類別屬性轉化為數值。據此對個人信用風險評估的特征變量初步篩選得出24個變量,其中變量loan_status表示當前貸款狀況,為本文目標變量。
經初步選取后涉及變量仍較多,若所有變量納入分析,可能引入大量無關噪聲,造成誤差。本文采用Spearman相關性檢驗初步評估解釋變量與目標變量間的相關性,選擇與目標變量顯著相關的變量進行后續分析。根據結果剔除不相關變量后仍剩余19個特征變量。但直接將這19個變量用于模型構建仍會導致過擬合,因此需進一步篩選特征。

參照皮爾遜相關性熱力圖,除去相關系數絕對值高、相關性極強的部分特征,修正解釋變量間的高相關性。最終選出變量如下表:

五、實證分析
本文基于Lending Club平臺2020年Q1~Q3借款人數據中已完成貸款記錄5551條,其中違約記錄1323條,履約記錄4228條,均用于訓練樣本。用上述篩選出的特征變量訓練模型,通過IBM SPSS Modeler 18.0可視化建模,實現隨機森林算法預測。
1.隨機森林模型實證分析
在IBM SPSS Modeler中,隨機森林構建每棵決策樹使用的算法是C&RT。在SPSS Modeler創建數據流文件,導入預處理后的信貸數據集,基于此建立隨機森林模型以對目標變量貸款狀況分類,并輸出建模結果與分析。
生成結果后可得到各解釋變量的重要性排序,其中“delinq_2yrs”“home_ownership_rent”“term”重要性程度最低,與生活常識基本相符。刪去這三個特征變量,最終選擇“loan_amnt”“int_rate”“purpose_debt”“emp_length”“annual_inc”“verification_status”“dti”“total_acc”“revol_util”“revol_bal”這10個解釋變量,通過SPSSModeler建立隨機森林模型,得出模型訓練結果。
2.Logistic回歸模型實證分析

在SPSS Modeler中創建數據流文件,導入信貸數據,選用表1中的13個解釋變量,基于數據集建立Logistic回歸模型,對客戶貸款狀況采用向前步進法進行二元分類,輸出得到分類預測結果與分析。
3.實證結果

根據隨機森林模型預測結果,其總體準確率達80.89%,其中違約樣本分類準確率約80.65%,未違約樣本分類準確率約80.96%,均達較高水平。其召回率約57.00%,F-mean值約0.67,G-mean值約0.68,AUC值約0.89,可見該模型分類性能較強,穩健性也較高。
在使用Logistic回歸模型時,個案中一旦存在缺失值,將輸出為“$null$”,無法得出預測結果。其總體準確率為71.27%,對未違約樣本分類準確率高達98.43%,對違約樣本分類準確率卻僅有約6.00%。其召回率約53.38%,F-mean值約0.11,G-mean值約0.18,AUC值約0.67,均低于隨機森林模型,據此認為該模型分類性能較弱。
對比顯示,隨機森林模型整體分類效果更佳,且它在預測正負類樣本時無明顯偏差,分類精度相近。雖然Logistic回歸模型總的以及正類樣本的預測準確率較高,但負類樣本準確率低至6%,這種結果是數據不平衡導致的預測誤差,可見Logistic回歸模型受不平衡數據影響大。對信貸機構來說,對違約借款人的預測不夠準確將導致難以通過收取利息盈利甚至難以收回本金,會增加壞賬率和相關成本,使信貸機構承擔巨大損失。因此,無論從準確率還是對抗不平衡數據與缺失值的能力上來看,隨機森林模型預測個人信貸風險的表現都更勝一籌。
六、政策建議
1.建立科學全面的個人信用風險評估指標體系
當前,我國尚未建立統一標準的個人信貸評估指標體系。各金融機構依各自需求和數據庫信息,用機構內部標準評價借款者信用風險狀態。構建完善、規范的個人信貸風險評估指標體系尤為緊迫。構建統一指標體系時,應確保涵蓋的領域廣泛且科學,便于公共數據庫信息存儲和使用,包括財務狀況、歷史記錄、流動性狀況等。同時,可通過隨機森林算法建立模型,篩選顯著影響分類結果的關鍵指標整合納入模型。
2.搭建完整的個人信用風險管理數據庫
我國個人信貸市場信息存在高度不對稱,妨礙了我國個人信用風險研究進展,帶來重大挑戰。創建標準化、集中化的個人信用信息數據系統將是解決該問題的有效方案。系統可收集、整理和儲存個人信用信息,向大眾開放,協助大眾掌握個人信用情況。我國商業銀行雖然會搜集部分客戶個人數據,但往往不愿公開共享以維護數據價值與自身利益。因此,建立國家級銀行間信用數據庫以實現信息共享能有效削弱信息不對稱。各信用機構也需建立個人信用數據庫,并確保其能接入互聯網,以方便用戶查詢信息。另外,還應制定相應制度并完善相關條例,要求相關機構部門定期供給數據,以構建健全的個人信用風險管理數據庫,逐步消除信息不對稱。
3.建立健全信用風險管理體系
信息技術在信用領域中應用愈加廣泛,為保信用風險管理體系健康運行,行業規則的制定至關重要。在個人信貸行業中,信息共享有著迫切需求。其實現能大幅減少借款人審核成本,各機構應定期報告,促進機構間信息互通。機構內部需制定相應規范、加強規章制度建設、加大行業自律監管力度,以處理潛在風險,促進個人信貸業務健康發展,共同構建個人信貸安全環境。
政府對行業的外部監管是管理架構的基石。目前我國針對個人借貸的法律法規尚未成熟,全面性和監管強度仍有不足,政府應增強監管力度。首要任務包括完善法律法規,清晰界定監管機構和責任主體,并注意保持平衡,確保既能有效防范風險,又不過度制約發展。另外,個人信用評估不止屬于社會經濟活動,它觸及人權和個人隱私等敏感領域。因此,這一過程應嚴格遵循法律法規,需要明確的法律條文區分涉及個人隱私的與合法的數據信息,尊重個人合法權益。
4.進一步挖掘更適用的模型
本文通過比較隨機森林、Logistic回歸兩個模型,得出隨機森林模型分類性能更優越。在個人信用評估時,選擇不同模型會使預測準確度和穩定性不同,我們評估個人信貸風險時,挑選合適的模型是關鍵一環。在未來個人信用風險評估研究中,應努力探索更多適用性較高的模型,例如采用組合模型等。相信,機器學習技術及其在個人信貸風險管理中的應用也必將成為該領域深入挖掘和進一步發展的重要未來。
········參考文獻·····················
[1]Martin Daniel.Early warning of bank failure:A log it regressionapproach[J].Journal of Banking &Finance,1977,1(3):249-276.
[2]Tong Z,Chen X.P2P net loan default risk based on Sparkandcomplexnetworkanalysisbasedonwireless network element data environment[J].EURASIP Journal on Wireless Communications and Networking,2019(1):1-7.
[3]王春峰,萬海暉,張維.基于神經網絡技術的商業銀行信用風險評估[J].系統工程理論與實踐,1999(9):24-32.
(作者單位:東北大學秦皇島分校)