基于機器學習的信貸風險量化與決策分析

2021-12-08 19:54:03王沼翔葛琳

軟件工程 2021年12期

王沼翔葛琳

摘 ?要：中小微企業在發展過程中需要信貸融資，然而部分企業的不良貸款會對金融穩定構成威脅。針對此問題，可以通過對企業相關財務數據進行分析，從源頭上防范和降低信貸風險。本文采用熵權法、數據統計分析法、K均值聚類和BP神經網絡等機器學習算法來給出相應的信貸策略，規避信貸風險。實驗基于2020 年全國大學生數學建模競賽賽題發布的公開數據集，利用MATLAB R2018a和Python 3.9等工具進行代碼編寫。測試結果表明，本文方法可以有效地對中小微企業的信貸風險進行評估并制定相應的信貸策略。

關鍵詞：風險評級模型;機器學習;熵權法;BP神經網絡;K均值聚類

中圖分類號：TP391 ? ? 文獻標識碼：A

Abstract： Medium， small and micro enterprises need credit financing in the development process， but non-performing loans of some enterprises pose a threat to financial stability. Aiming at this problem， an analysis of relevant financial data of the enterprise prevents and reduces credit risks from the source. This paper proposes corresponding credit strategies to avoid credit risks by using machine learning algorithms such as entropy weight method， data statistical analysis method， K-means clustering and BP neural network. The experiment is based on the public data set released by the 2020 National College Students Mathematical Modeling Contest， using MATLAB R2018a， Python 3.9 and other tools for code writing. Test results show that the proposed strategies can effectively evaluate the credit risk of medium， small and micro enterprises and formulate corresponding credit strategies.

Keywords： risk rating model; machine learning; entropy weight method; BP neural network; K-means clustering

1 ? 引言（Introduction）

在市場經濟運行中，中小微企業的經營特點決定了其在融資過程中存在一定的風險，銀行在向中小微企業提供貸款時，要充分考慮多方面因素并制定合適的信貸策略。面對海量的信貸數據，如何提高模型與算法對信貸企業風險評估的精確性，已經逐漸成為銀行業亟待解決的關鍵問題。傳統信貸風險管理模式主要依賴人工運用統計方法對企業借貸違約可能性的預測，以被評估者相關指標的歷史數據為依據，對被評估者的還貸能力和違約行為進行預測和分析。隨著互聯網金融的興起，傳統的評估模型與預測算法已不能滿足評估信貸風險的實際需要[1-4]。在大數據技術的作用下，銀行可以運用綜合分析有效防控信貸風險和信息不對稱問題。借助機器學習和深度學習，銀行可以分析大量的企業數據，預測信貸風險，提高風險識別能力[5]。

本文采用熵權法、數據統計分析法和BP神經網絡，利用MATLAB R2018a和Python 3.9等工具對有信貸和無信貸記錄企業的相關數據集進行分析，給出相應的信貸策略，規避信貸風險[6-8]。對于有信貸記錄企業，本文運用數據統計法分析中小微企業的信貸影響因素，采用熵權法計算每個影響因素的權值，并得出各企業綜合信貸風險值，最后通過聚類分析，將各企業劃分類別，通過與信譽評級的組合來確定合適的信貸策略方案;對于無信貸記錄企業，本文使用有監督學習的神經網絡對信貸策略進行預測和分析，得到各個信譽等級數據。實驗結果表明，本文所建立的模型可以有效地對中小微企業的信貸風險進行評估并制定有效的信貸策略。

2 ? 數據預處理（Data preprocessing）

本文以2020 年全國大學生數學建模競賽賽題發布的公開數據集為例進行分析，該數據集包含123 家有信貸記錄企業的21萬條進項發票信息、16萬條銷項發票信息，302 家無信貸記錄企業的39萬條進項發票信息、33萬條銷項發票信息以及銀行貸款年利率與客戶流失率關系統計數據。基于Python編程完成對數據集中數據的預處理，分別實現有信貸記錄企業和無信貸記錄企業的銷項、進項發票中的數據計算，通過對每個企業有效發票的金額、稅額、價稅的累加，得到各企業全部有效發票的總金額、總稅額和總價稅合計等數據信息。

3 ?有信貸記錄企業信貸分析與決策（Credit analysis and decision-making for companies with credit records）

對于有信貸記錄企業，根據企業交易票據中的數據，通過建立數學模型給出合適的信貸策略。首先，構建人脈占有率、市場流通率、市場穩定率、企業盈利率四個影響信貸風險因素的評估因子;其次，基于K均值聚類算法、熵權法建立風險評級模型，以風險級別確定貸款額度;第三，分析客戶流失率、貸款利率以及企業評級的關系，以信譽評級確定貸款利率[2];最后，按照三類風險評級、三類信譽評級組合成的九種企業定位確定不同額度、不同利率的信貸策略。整體流程圖如圖1所示，模型分析中所用的數學符號如表1所示。

3.1 ? 影響因子

對有信貸記錄企業的數據根據進項、銷項、有效發票和發票總數進行分析，綜合考慮企業和銀行各方面的因素，在企業實力、供求穩定性等方面設置下列影響因子：

將企業聚合為三個類別，對三個類別進行綜合評分（LFD），其評分計算如公式（12）所示。將該三類企業重新進行分類并編號，類別由強到弱編為S1、S2、S3，根據聚類分析得出三個類別分別對應的部分企業如表3所示。

利率和企業的信譽之間存在潛在關系，在A、B、C三種信譽等級的企業流失率與貸款利率呈正相關且在同等貸款利率水平下，A、B、C三種信譽評級的企業流失率依次降低。本文將年利率和貸款額度分別分為三組，如表4所示。

銀行根據企業的信貸風險類別和其對應的信譽評級將企業分為九級定位，對于不同信貸風險級別的企業，確定不同貸款額度;對于不同信譽級別的企業，確定不同貸款利率[4]。信貸策略各級對應表如表5所示。

本文所分析的數據集涉及302 家企業信息中無信譽評級等數據，然而信譽評級在銀行信貸策略中具有重要的意義。首先，采用有監督學習的神經網絡，對所分析的數據集中123 家有信譽評級的企業信息提取的影響因子進行訓練;其次，利用訓練得到的BP神經網絡對無信譽評級的企業進行信譽評級和分析;最后，驗證模型是否合理[6]。

4.1 ? BP神經網絡模型

無信貸記錄企業的數據集中無信譽等級數據，故而使用有監督學習的神經網絡對信貸策略進行預測和分析，并得到各個信譽等級數據。BP神經網絡模型中各符號的含義如下：

網絡輸入向量;網絡目標向量;中間層單元輸入向量、輸出向量;輸出層單元輸入向量、

輸出向量;輸出層到中間層的鏈接權值;中間層到輸出層的鏈接權值;中間層每一個神經單元的輸出閾值（即偏置向量）;輸出層每一個神經單元的輸出閾值（即偏置向量）;參數。

BP神經網絡模型計算輸入輸出信息結果是否產生相互影響的權重，并進行綜合分析。構建過程如下：

（1）初始化。對每一個神經元的權值和、閾值和設置區間在（-1，1）內的隨機數。

（2）在有信貸記錄企業數據集的123 家企業中選取一組學習樣本和目標樣本。

（3）計算中間層單元的輸出。

（9）隨機選取下個樣本代入神經網絡進行訓練，執行步驟（3），直到網絡的訓練全局誤差達到網絡收斂值，學習結束[7]。本文獲得的影響企業實力的因子為四個，輸入層神經節點數目為4，而本文神經網絡最終輸出的只有一個企業實力數據，則輸出層節點個數為1。隱含層節點數目的取值如公式（22）所示。式中，為輸入層節點的數目，l為輸出層節點的數目，為隱含層節點的數目。由公式（22）可得隱含層節點數目為2。

4.2 ? 模型訓練

采用獨立測試方法，將實驗數據分成兩部分，其一是訓練數據。本文將有信貸記錄企業數據集中的123 家企業的樣本數據按照信譽評價分類，隨機抽取100 組數據作為實驗培訓數據，剩下的23 組樣本數據作為測試數據，用于檢測BP神經網絡。利用MATLAB將訓練樣本數據代入程序，并對該神經網絡進行訓練，得到的訓練結果如圖2和圖3所示。

通過上述訓練，可以得到初步的訓練結果，為了驗證BP神經網絡，將測試數據代入已經訓練好的網絡模型當中進行測試。為得出模型測試準確度，我們構建以下度量模型，測試結果好壞的誤差計算如公式（23）所示。式中，為模型誤差，為真實值，為評價值，為測試數據集個數。通過上述誤差公式計算得出BP神經網絡的測試誤差為0.112。通過構建并優化BP神經網絡模型，計算出無信貸記錄企業的四個指標因素值。

圖4中值為3對應信譽等級為A，數量為76 個;值為2對應信譽等級為B，數量為92 個;值為1對應信譽等級為C，數量為86 個;值為0對應信譽等級為D，數量為48 個。因為銀行對信譽評級為D的企業原則上不予放貸，故將BP神經網絡的信譽等級匹配到無信貸記錄企業數據集的各個企業中，將信譽評價為D級的企業剔除。對無信貸記錄企業數據集處理后的各項數據利用公式（1）—（4）進行量化分析，計算出各個指標的值，并且利用熵權法求出四個影響因子的權重，則企業風險評級模型如公式（24）所示：

4.3 ? 實驗與測試

根據無信貸記錄企業的數據計算出各個影響因子的權重，分析四個影響因子的數據，進行聚類分析，將企業聚合為三個類別，則得出分級評分如表6所示。

由分級數據以及客戶流失率可得，當年利率大于0.0745時，各個信譽等級企業的客戶流失率為0.5，潛在客戶大量流失，其收益也將大幅度下降，所以將客戶流失率控制在0.5之內，有利于銀行收益的可持續發展[8]。本文將客戶流失率小于0.5的年利率分為三組，S4、S5、S6部分對應的企業信貸額度也分為三組。

根據前文數據分析，按照企業的風險評級和實力類別制定九種信貸策略，從而確定不同企業的貸款額度、利率，如表7所示。

按照信貸策略分配金額，得出全體企業的貸款金額總額區間（萬元），銀行的收益總額區間（萬元）。

由于假設中規定是1 億元定額分配貸款金額，9，050 萬元按照表7的信貸策略對企業進行放貸。剩下950 萬元有兩種選擇策略：一是銀行利益最大化，將剩余額度優先分配給貸款利率較高的信譽C級企業;二是銀行發展持久化，將剩余額度優先分配給信譽A級企業，來降低此類高信譽級別企業的客戶流失率，為銀行積累固定客戶。

5 ? 結論（Conclusion）

大數據時代給各行各業提供了更多利用數據的機會，在信貸業務中存在諸多不確定因素，銀行應及時綜合多方面因素，根據形勢調整信貸策略。本文針對銀行向中小微企業發放貸款問題，依據熵權法、K均值聚類和BP神經網絡對信貸策略問題進行模型求解，以123 家有信貸記錄企業和302 家無信貸記錄企業的財務數據為樣本進行實證檢驗，從人脈占有率、市場流通率、市場穩定率、企業盈利率四個影響因素對有信貸記錄企業和無信貸記錄企業的相關數據集進行分析，最終給出合適的信貸策略選擇方案。

信貸數據是信貸業務中的重要部分，為了實現精準分析數據的目標，在分析信貸風險時，銀行需要對數據進行深入統計和挖掘，可通過對多種算法模型進行組合，綜合分析企業實力、供求關系等方面信息，建立信貸授權額度模型，優化信貸資源整體配置效率，加強信貸風控系統的控制和管理。模型中分析問題、解決問題的一些綜合性的方法，以及信貸風險量化分析的一些思想，對于其他的數學問題仍可以使用，可推廣到各行業的實力評價與決策等應用中。

參考文獻（References）

[1] 李美玲.H商業銀行信貸業務全面風險管理體系研究[D].長春：吉林大學，2019.

[2] 唐恬.商業銀行中小企業信貸風險策略研究[J].經營與管理，2021（04）：154-158.

[3] 李越洋.基于熵權-TOPSIS的PPP項目融資風險評價[J].價值工程，2019，38（05）：69-72.

[4] 朱文雅.熵權法在銀行經營績效評價中的應用[J].中國鄉鎮企業會計，2019（02）：150-151.

[5] OOSTERLEE C W， GRZELAK L A. Mathematical modeling and computation in finance with exercises and Python and MATLAB computer codes[M]. Singapore： World Scientific Publishing Company， 2019：3-15.

[6] 李鈺博，裴宇恒，高曉亮.中小微企業的信貸決策問題研究[J].營銷界，2020（29）：163-165.

[7] 楊君岐，任瑞，闞立娜，等.基于BP神經網絡模型的商業銀行風險評估研究[J].會計之友，2021（05）：113-119.

[8] XU M L， XIONG D P， YANG M Y. Risk recognition and risk classification diagnosis of bank outlets based on information entropy and BP neural network[J]. Journal of Intelligent and Fuzzy Systems， 2020， 38（2）：1531-1538.

作者簡介：

王沼翔（1999-），男，本科生.研究領域：大數據分析.

葛 ?琳（1978-），女，博士，講師.研究領域：網絡信息安全，大數據分析，區塊鏈.