基于機器學習的小微商鋪不良貸款預測

2022-02-20 00:59:38刁亞靜彭維才

全國流通經濟 2022年36期

刁亞靜彭維才

（巢湖學院數學與統計學院，安徽巢湖 238024）

隨著雙循環經濟政策的推動，小商品市場越來越發達，微型/小型商鋪眾多，這些商鋪經常會對短期資金有需求，并且這些貸款業務的回報率相對較高。然而，這些商鋪存在風險防御能力較差、本身實力并不雄厚、易于受到宏觀經濟政策以及市場環境影響等缺點，因而這部分貸款存在較大違約風險，所以針對這部分的貸款申請需要進行風險評估和控制，降低不良貸款比率。近年來，針對小微貸款風控的研究逐漸增多，崔丹、（2018）針對小微企業信用貸款風險控制問題展開論述；黃瓊、（2018）對銀行小微企業信用貸款風險控制進行了探討；常太星（2019）基于我國小微企業信用評估場景，結合學術界信用評估方法的研究成果，為我國小微企業融資機構發展提供了有益建議與合理啟發。趙楊（2020）對我國商業銀行小微企業貸款以及風險管理現狀進行了闡述，并對小微企業貸款風險管理中存在的問題進行了分析，提出防范商業銀行小微企業貸款風險的對策。

隨著社會發展、科技進步，大數據相關的數據挖掘、機器學習及人工智能等技術得到了快速發展，尤其是在金融行業，應用相當廣泛；近年來，在信貸相關領域的研究已經不僅僅局限于傳統的規則評估及邏輯回歸評估，更為復雜的機器學習模型逐漸被應用到信用評估、信用風險分析、違約風險、風險預測、反欺詐、反洗錢等場景中。此外，本文利用隨機森林方法給出了各個特征變量的重要性。趙天傲等（2018）運用XGBoost算法建立信用風險分析模型，運用網格搜索等方法調優XGBoost參數來提高模型效果；并基于AUC、準確率、ROC曲線等評價指標，對XGBoost、決策樹、GBDT、支持向量機等模型進行對比分析，結果表明，XGBoost模型效果更優，性能更好。吳鵬飛（2019）基于德國信用違約風險的數據，通過使用XGBoost算法來建立信用違約風險判別模型，并利用網格搜索對模型的參數進行調優，并將AUC值與隨機森林、GBDT、SVM模型進行了比較，結果表明，XGBoost模型能有效提供模型預測的精度，具有良好的應用價值。李汛等（2019）借助機器學習的方法，以“人人貸”數據作為樣本，建立CART決策樹模型、SVM模型和KNN模型進行預測并對三種算法進行比較，證實了這三種模型都能夠有效預測違約，經比較發現，KNN與CART決策樹算法優于SVM算法。劉斌等（2020）就線上貸款數據構造了邏輯回歸、隨機森林及XGBoost 模型，研究表明，XGBoost 算法在線上貸款風險預測模型中具有更好的效果。阮亮亮（2020）以銀行的信貸數據為研究的樣本集，在數據預處理和特征工程的基礎上，分別運用XGBoost模型和邏輯回歸模型預測客戶借款違約概率，并用 AUC 作為評價指標；實證結果表明，XGBoost模型的預測結果AUC值為0.83，能夠較好地預測信用風險。姚玲潔（2020）針對貸款欺詐問題，該文使用隨機森林對真實信用卡貸款數據進行特征排序，采用邏輯斯特回歸構建信用卡反欺詐預測模型，訓練獲得的模型正確率較高，可應用于貸款欺詐預測系統中。聶紀予（2020）利用數據挖掘技術，通過對貸款人的各類數據進行分析，利用現有的數據對多個模型進行比較，得出了相對準確性較高的建模方法。小微商鋪相關的風控研究相對較少，本文建立的模型可以幫助識別小微商鋪貸款申請的風險（程暉等，2018），從而避免資產損失。

一、數據來源及關鍵變量說明

本文收集了《深入解析SAS：數據處理、分析優化與商業應用》（夏坤莊等，2015）書中附錄的小微商鋪信貸數據，其中有部分指標存在缺失情況，得到6000條借款人的16個指標信息，并從中抽取600條數據作為預留驗證集，其余數據用于訓練和驗證集；通過數據挖掘與機器學習技術，如邏輯回歸、lightGBM、XGBOOST、隨機森林、GBDT、Voting及“GBDT+LR”等算法進行對比分析，通過預留驗證集來驗證各個模型的效果（變量如表1所示）。

表1 信用風險度量指標量化處理

其中，X12是信用等級，“B-”是最差的，“A+”是最好的。

二、關鍵技術介紹

本項目主要涉及的建模流程中核心技術主要分為兩方面，分別是變量降維中的變量聚類方法以及在建模過程中使用的Voting算法。變量聚類能快速有效地進行變量挑選，選出最直接有效的變量，以此來提高運行效率和整體性能，該方式適用于多變量多觀測的情況下的變量降維；另外一個關鍵技術是Voting算法，提高模型的準確率及穩定性。

1.變量聚類

變量聚類是變量降維過程中一種重要方法，雖然該方法名稱叫做變量聚類，但卻并不是聚類分析，而是一種基于主成分分析的方法，變量聚類也叫斜交主成分分析。建模變量數量不同，建模過程的耗時也會不同。在實際構建模型時，變量數量可能上千個，當變量數據足夠龐大時，這個時候采用變量聚類則可以快速實現變量的降維，然后再基于降維后的變量進行建模。此時，模型的運行效率會大大提升。

變量聚類方法是依據變量間相關性的強弱程度，將相關性強的變量歸為一類，然后在每類中選擇一個較典型的變量去代表這一類變量，這樣，變量的數量便可以大大降低。同時，由于分類是依據變量間的關系，所以最終選出的變量間的、類間的相關性都弱化了許多。

那么，如何在變量聚類過程中從每一類選取出能夠代表該類的那一個變量，可以使用的做法有如下3種方式。

其一，考慮讓業務經驗豐富的人去挑選。

其二，如果不基于業務，從技術角度，需依據聚類代表性指標“1-R2”進行篩選，聚類代表性指標。1-R2=（1-Rown2）/（1-Rnext2）。其中Rown2表示這個變量與自己的類分量的相關性，值越大越好；Rnext2表示這個變量與相鄰類分量的相關性，值越小越好。故選擇聚類代表性指標“1-R2”較小的變量去代表一類。

其三，基于技術角度方式，是通過每個類中變量與Y變量的相關性來挑選（卡方值、IV值或者隨機森林重要性值等）。

2.Voting模型

機器學習的算法有很多，對于每一種機器學習算法，考慮問題的方式都略微有所不同，所以對于同一個問題，不同的算法可能會給出不同的結果，那么在這種情況下，選擇哪個算法的結果作為最終結果呢？此時，完全可以把多種算法集中起來，讓不同算法對同一種問題都進行預測，最終少數服從多數，這就是集成學習的思路。Voting Classifier（投票）就是集成學習的一種。

三、算法應用

1.變量降維

傳統的變量降維方式較為單一，例如僅僅使用相關性分析，或者IV值或者隨機森林重要性等方式，結果相對粗糙并且難以消除變量共線性。

本文采用“變量聚類+變量重要性”方式進行變量降維。

（1）變量聚類

表2 變量聚類表

從上述結果表可以看出，對自變量進行變量聚類，可以把自變量分成9類，每個類可以挑選一個變量來代表該類，以此來達到快速降維的作用。

（2）變量重要性

變量重要性主要有卡方值、隨機森林或GBDT重要性和IV值等三種方式，本文主要采用如下兩種變量重要性方式。

表3 變量重要性結果表

從上表中可以看出，使用了兩種重要性衡量指標，分別是隨機森林重要性和IV值，二者重要性排序結果基本接近，小微商鋪經營時間、小微商鋪月租金、小微商鋪年營業額等自變量對因變量Y影響較大，申請人學歷、申請人是否為本地戶籍、貸款原因等影響較小；最后一列相關性是通過變量探索得到，輔助進行變量分析。

（3）變量聚類結合變量重要性

首先，對涉及的自變量進行變量聚類，劃分出一定類別，每個類中變量數目為一個或多個；其次，計算每個變量對Y變量的影響程度（隨機森林重要性），在每個類中挑選出影響程度最高的變量，作為該類的代表變量。通過該技術，從15個自變量中挑選出9個自變量入模；變量聚類情況如表4所示。

表4 變量聚類情況

通過表4可知，小微商鋪年營業額和小微商鋪月租金為一類，從變量重要性大小方面考慮，挑選小微商鋪月租金入模，表4中陰影部分為最終入模變量。

2.模型及模型比較

本文構建了邏輯回歸、決策樹、超隨機樹、隨機森林、GBDT、XGBOOST、lightGBM、Voting以及“GBDT+LR”等模型，通過對比模型的準確率、覆蓋率及ROC（曲線下面積介于0～1之間）和KS選出最佳模型。一般情況下，準確率、覆蓋率、ROC及KS，取值越大越好。從各個指標上看，GBDT和Voting模型表現最好，考慮模型的穩定性，本文選取了Voting作為最終的小微商鋪不良貸款預測模型。表5和表6是選取5400個樣本作為訓練集和驗證集（樣本分區比為7∶3），600個樣本作為預測集（預留驗證集）下各個模型的平均驗證效果（對比預測結果與實際結果的差距）。

表5 未采樣下的模型比較

表6 正負樣本1∶1欠采樣下的模型比較

本文建立了各種機器學習模型，模型經過多次隨機迭代，通過模型驗證的精確率、召回率、ROC、KS等指標，發現GBDT及Voting模型在這幾個指標上的表現最好，結合模型的穩定性，最終選定Voting模型作為小微商鋪不良貸款預測模型。

3.結論

本文選取了6000條借款人的16個指標信息，使用python進行全流程建模，通過數據探索及數據分析，了解指標與因變量Y的關系，通過指標與因變量Y的關系發現，金融機構針對小微商鋪貸款申請時，應著重考慮小微商鋪借貸人的資產收益率X1、信用記錄中拖欠次數X3、小微商鋪資產負債率比率X4、小微商鋪經營時間X6、申請人年齡X10、小微商鋪月租金X11、小微商鋪面積X13等7個指標，根據對Y的相關性及對Y的影響性最終陰影部分7個變量為我們挑選的變量。一般來說，信用記錄中拖欠次數越高，不良貸款比率越高，越容易發展為不良貸款；資產收益率越高、小微商鋪經營時間越長、小微商鋪年營業額越高、申請人年齡越大、小微商鋪月租金越高、小微商鋪面積越大，不良貸款比率越低，越不容易發展為不良貸款。

四、總結

本文主要基于Python軟件進行了全流程建模，包括變量探索、變量降維、各種機器學習模型構建、模型驗證、模型比較等流程，最終選取了Voting模型作為小微商鋪不良貸款預測模型，此時模型的精確率為0.8485，召回率為0.7407，ROC值為0.9595，模型效果表現優異。通過小微商鋪不良貸款預測模型，從而使金融機構可以及早發現申請商鋪的風險并對高風險貸款申請予以否決，避免資產損失。