陳為民,趙艷秋
(湖南科技大學商學院,湖南 湘潭 411100)
機器學習常被應用于評估P2P領域內的借款人信用風險,信用風險評估(也稱貸款違約預測)是利用不同的特征解釋和預測借款人未按要求償還貸款的過程,最終目的是為了幫助投資人做出決策以及借款人的信用得到合理的評估。通過閱讀P2P信用風險評估領域的文獻,我們可以發現,越來越多的研究使用信用風險評估模型來評估違約風險,并不斷提出精確度更為優秀的評估模型,從傳統的統計模型,發展到如火如荼的機器學習模型,以及近年來備受推崇的組合模型,但可以發現除模型準確度之外,可解釋性也應被人們所重視。
雖然現有研究者們提出了一個又一個準確度極高的評估模型,但不排除最后得到的結果只是一堆“看上去”毫無意義的模型參數和高的準確度。而我們需要得到的不僅僅是準確的結果,我們也需要了解我們從數據或特征中學到了哪些知識,從而導致我們產生了最終的決策,這也是為什么在機器學習構建的模型準確率很高的情況下,統計模型依舊備受推崇的原因之一。如果一個模型完全不可解釋,那么在很多領域的應用就會因為沒辦法給出更多可靠的信息而受到限制。
本文的可能貢獻在于,基于真實的人人貸數據,在保證信用評估準確性的同時,利用LIME算法對借款人信用風險評估結果進行解釋,希望可以為P2P領域內的信貸決策助力。具體來說,人人貸數據常被用于P2P領域的信用風險研究,但是以往文獻的研究重點并非在可解釋性的研究;機器學習中的樹模型和邏輯回歸被用于信用風險的評估;而在模型的結果解釋方面,選用了LIME算法,該算法從局部解釋的角度出發,對某個特定觀測值的類別分類結果進行解釋,并說明某個變量對于預測結果的貢獻程度。
本文剩余部分結構為:第二部分是信用風險評估領域可解釋性相關的研究。通過對相關研究的梳理,為研究方法和模型的選擇提供了依據;第三部分是實證,包括對借款人信用風險的評估以及基于LIME算法的評估結果解釋;第五部分是結論。
現有的P2P信用風險評估多用特征重要性評分或者模型系數大小對評估結果進行解釋,比如邏輯回歸模型的系數大小;決策樹模型、XGBoost以及性能更加優化的LightGBM模型,但這并滿足可解釋性的目標。
指出模型的可解釋性可以從三方面來體現:全局和局部可解釋性、時間限制以及不同受眾的專業知識差異。具體到P2P信用風險評估領域,全局可解釋性是指解釋“黑箱”模型背后的整個邏輯,而局部可解釋性是指解釋預測結果的原因,即只需要解釋特定選擇的原因;在時間限制方面,和短的決策時間相比,決策者更需要復雜和詳盡的解釋;關于不同受眾的專業知識差異,對于信貸領域的研究者來講,他們會更加傾向于復雜的模型,而對于相關背景知識和經驗較少的投資者而言,透明度高的模型會更具有可解釋性。
Interpretable Model-agnostic Explanations(LIME)是通過一個可解釋的模型g在被解釋分類的數據點x處近似擬合模型進而解釋分類器f的預測一種算法,具體來說,為了做到與模型無關,LIME不會深入模型內部;為了搞清楚哪一部分輸入對預測結果產生貢獻,在被解釋數據點x周圍進行隨機擾動,觀察模型的預測行為,然后根據這些擾動的數據點z距離被解釋分類點x的距離分配權重,基于上述學習得到一個可解釋的模型和預測結果。
人人貸是目前我國P2P網貸行業影響力較大的網貸平臺之一,其在合法合規以及運營等方面都是P2P行業的典范,同時平臺也積累了大量真實有效的交易數據,因此,本文選取人人貸平臺的實際交易數據作為研究樣本。
我們通過邏輯回歸模型以及以樹模型為代表的機器學習模型(決策樹以及LightGBM)對樣本進行建模,由表1可知集成樹模型LightGBM的表現要優于其余兩個模型。

表1 各模型精度比較Tab.1 Comparison of accuracy of each model
由表1可知集成模型LightGBM在四種評價指標中的表現都是最優的,故接下來我們將針對LightGBM模型的結果進行進一步解釋。
3.3.1 LightGBM的特征重要性
一般情況下LightGBM結果的可解釋性體現在該模型自帶的特征重要性,結果如下:

表2 LightGBM特征重要性結果Tab.2 Lightgbm feature importance results
3.3.2 基于LIME算法的結果討論
LIME在測試數據集中選擇特定樣本,以獲得每個類的概率值并對分配概率的原因進行說明。

圖1 Lime結果Fig.1 Lime results
圖1是樣本的預測結果,可以看出哪些特征決定樣本被分類到類別0(藍色),哪些特征決定樣本被分類到類別1(橙色),且具體列出樣本在這些特征的數值大小,具體來說,LightGBM中ProjectStatus和SuccessfulNum是影響借款人違約的重要因素。
為了增加信用評估的可解釋性,本文首先選擇在建模前對相關變量進行數據探索性分析,找到可能會對借款人是否違約產生關鍵性作用的變量;接著選擇具備特征重要性評分的樹模型(決策樹和LightGBM)以及以模型系數指代特征重要性的邏輯回歸模型對數據進行建模,發現LightGBM的綜合表現最優;最后基于LIME算法對LightGBM模型的結果進行說明,得出結論:在結構化的因素中,除財務因素外,借款人之前的借款成功次數也會對借款人是否會違約產生關鍵性影響。