鄒明芮
(廣東外語外貿大學 金融學院,廣州510000)
伴隨著P2P行業的快速發展,借款人的信用風險度量是P2P網貸平臺亟待解決的問題之一。國內外學者對P2P網絡借貸信用風險的度量做了諸多研究。但是,目前我國還存在以下兩方面問題:一是P2P網貸平臺還沿用傳統的信用評價方法,方法過于簡單,不能準確反映個人的信用風險;二是影響信用風險的因素眾多,如何選取影響因素對信用風險進行度量至關重要。本文在Logistic模型的基礎上,引入Lasso算法來建立P2P網貸的信用風險度量模型,從眾多的影響因素中科學地選出度量指標,以期更為準確地度量出借款人的信用風險,為P2P網貸平臺信用風險防范提供參考。
孫英雋、蘇顏芹主要研究了P2P借貸過程中的信息不對稱和逆向選擇問題,認為在此平臺上虛假信息是不可避免的,這是由網貸平臺信息認證方式的不確定性和不可靠性造成的[1]。陳霄、丁曉裕、王貝芬采用Logitic模型并利用網貸平臺借貸數據進行實證分析,研究影響信用風險的各因素[2]。宋麗平、張利坤、徐瑋采用BP神經網絡模型,利用“人人貸”的借貸數據對借款人的信用風險進行評估,為出借人的投資提供一定的參考[3]。于曉虹、樓文高利用隨機森林的方法,從有效樣本中抽樣得到不同的樣本集,并分別利用決策樹模型對P2P借款人的違約風險進行度量,發現借款金額、期限、違約次數、年收入對違約有很大影響,為投資者進行投資決策提供參考[4]。孫同陽、謝朝陽通過抓取P2P網貸平臺的借貸數據,建立決策樹模型,以信用等級作為其輸出變量,得到了很好的預測效果[5]。方匡南、章貴軍、張惠穎在Logistic模型的基礎上引入Lasso算法,利用銀行數據對影響個人信用風險的因素進行了實證研究,發現模型能夠抓住主要的影響因素且預測的準確性更高[6]。
從文獻整理來看,國內學者大多利用網貸平臺上公布的借款信息篩選指標對信用風險進行度量。但是, 大多數學者沒有考慮過多變量之間可能存在共線性,以及無關變量對模型準確性的干擾。因此,本文將在Logistic模型的基礎上引入Lasso算法,實現對變量的篩選,使所建立的信用風險度量模型更簡潔,預測更準確。
投資人根據網站公布的借款信息進行判斷投資,從網貸平臺上可獲得的信息主要分為4類:借款標的信息、借款人基本信息、借款人收入及資產負債信息、借款人歷史表現及信用信息。
(1)借款標的信息包括借款的金額、借款利率、借款期限。一般借款金額越大,借款人的還款壓力越大,違約風險越大;借款的利率越高,表明還款所支付的成本越高,還款壓力越大,違約的風險越大;借款的期限越長,還款期間的不確定性越大,可能造成還款違約的風險越大。
(2)借款人基本信息包括借款人的年齡、性別、受教育程度、婚姻狀況、所在地、工作類型、工作年限。年齡和性別一般會影響借款人的風險偏好或是道德觀念;受教育程度可能影響借款人的還款能力和道德觀念,一般來說學歷高的人,工作待遇較好,還款能力強,且法律觀念強,對自己的信用更在乎;婚姻狀況可能影響借款人的責任感和還款能力;工作類型和工作年限也會影響到借款人的還款能力、風險偏好和責任感。上述因素都會影響到借款人的信用風險。
(3)借款人收入及資產負債信息包括借款人的收入、月還本息收入比、是否擁有房產和車產、是否擔負房貸和車貸。這些信息都能反映借款人的還款能力,進而影響借款人的信用風險。一般擁有較高收入的人還款能力強,違約可能性較低。但是,如果高收入者對自己有較高的還款預期,而大量借款且投資高風險項目,一旦投資失敗且還款金額較大,也很可能發生違約的情況。
(4)信款人歷史表現及信用信息包括借款人的逾期次數、申請借款次數、成功借款次數、信用等級。雖然網貸平臺會對借款人進行信用評估,給出相應的信用等級,但這一信用等級是根據借款人提供的認證信息的多少以及以往的交易記錄而得出的,不能完全反映借款人的信用風險。其他的歷史表現能夠反映出借款人的借貸習慣,對借款人的信用風險有一定的預測能力。
Lasso估計是由Tibshirani提出的一種壓縮估計方法,通過構造一個懲罰函數,使得系數被壓縮,是一種處理多重共線性的有偏估計。Lasso的基本思想是在回歸系數的絕對值之和小于一個常數的約束條件下,使殘差平方和最小,從而能夠產生某些嚴格等于零的回歸系數,得到可以解釋的模型。
假設有獨立同分布的觀測值(X,yi),自變量為X=xij為n×p的矩陣,因變量yi為二元離散變量,即yi∈{0,1},則Logistic線性模型可寫為:
(1)

(2)
其中l(β)為對數似然函數,則式(2)中的l(β)可寫成如下形式:
(3)


(4)
通過對調和參數λ的控制,可以實現對變量的篩選。
本文數據均來自于“人人貸”平臺。在“人人貸”網站上,每一筆借款都有一個頁面來公布借款標的及借款人的詳細信息。筆者通過設計爬蟲軟件來獲取貸款數據。所抓取的借款信息存在5種狀態,分別是“已還清”“已流標”“還款中”“逾期中”“已墊付”。為確保分析的有效性,將未成功借款的“已流標”以及信息不全的貸款剔除掉。由于“還款中”和“逾期中”的借款在未來還款期間存在不確定性,也將其剔除。再在剩余貸款中,將重復用戶的貸款剔除掉,最后剩余32260組用戶數據。將借款狀態顯示“已墊付”的用戶定義為“違約用戶”,“已還清”用戶定義為“正常用戶”。其中,違約用戶數據1465組,正常用戶數據30795組。違約率約為4.5%。“人人貸”上的借款總共分成3種類型,分別是實地認證標、機構擔保標和信用認證標。實地認證標是相對信用認證標增添了友信或友信合作機構的認證審核的借款標;機構擔保標是指“人人貸”的合作伙伴為相應的借款承擔連帶保證責任的借款標;信用認證標是對借款用戶的個人信用資質進行全面審核后,推薦并代理用戶在平臺發布的借款標。通過觀察所收集到的借款標數據發現,實地認證標和機構擔保標不存在違約的情況。由于本文是針對建立信用風險度量模型,所以主要對信用認證標進行探究,剔除其余兩種標后,剩余6146組數據,其中違約用戶1465組,正常用戶4681組。同時,本文從這6146組數據中隨機抽取600組數據作為測試組,其中違約用戶128組,正常用戶472組,
剩余的5546組數據為實驗組用于建模。
影響個人信用風險的變量如表1所示。

表1 信用風險變量介紹
本文利用Lasso-Logistic模型回歸。
首先,畫出Lasso系數解的路徑圖(見圖1),橫坐標為Lambda的對數,縱坐標為系數值,最上面的數字為不同Lambda所對應的篩選出的變量的個數。隨著Lambda的增大,越來越多的變量的系數趨向于0,對Lambda的選擇可實現對變量的篩選。
其次,利用交叉檢驗的方法,得到最優的協調參數λ的值(見圖2),CV誤差曲線圖表示的是不同的Lambda的值所對應的模型誤差,橫軸是Lambda值的對數,縱軸對應的是模型誤差,最上面的數字表示不同Lambda所篩選出的變量個數。

圖1 系數解路徑圖

圖2 CV誤差曲線圖
由圖2可以看出,隨著Lambda取值的逐漸增大,壓縮程度增大,所選入模型的變量個數越少。左邊的虛線表示Lambda.min取值的位置,右側的虛線是Lambda.lse取值的位置,對應著一倍標準誤差內更簡潔的模型。Tibshirani認為,模型變動偏差在兩虛線之間變動較小,Lambda應在此區間內取值,一般建議選取Lambda.lse,使模型相對簡潔。所以,本文選取Lambda.1se進行變量篩選。基于Lambda的取值,可以得到篩選出的變量參數估計值如表2所示。
表2中的9個變量分別為:信用等級、年齡、受教育程度、逾期次數、月平均收入、房貸、車產、工作年限以及成功借款筆數。從回歸結果可以看出,信用等級越低的人越容易違約,而信用等級高低主要根據出借人提供的信息認證的多少以及以往的交易記錄的綜合情況來確定。一般來說,信息認證提供得越多,則信息的真實性越強,交易情況好的出借人違約率較低。身負房貸和擁有車產的借款人違約率較低。身負房貸說明借款者能夠從銀行貸到款,通過了國家征信體系認證,具有較好的信用。擁有車產說明家庭的經濟基礎較好,具有較強的還債能力。工作年限對違約率有正向的影響,可能工作時間比較短的借款人越注重自己的信用。

表2 參數估計
基于前文的實證分析,風險度量模型已經確定。為了檢驗模型預測的準確性,本文利用模型對測試組進行預測,并將預測的結果與實際發生的結果進行對比。詳情如表3所示。從表3可以算出,測試組的預測準確率為90.33%。

表3 測試組的預測分類表
ROC(Receiver Operating Characteristic)曲線常被用來判斷一個二值分類器的優劣,可以直觀地通過構圖來顯示模型的準確性。測試組的ROC曲線如圖3所示。

圖3 測試組的ROC曲線
利用該曲線與45度線的偏離程度來判斷模型的擬合程度,同時與ROC曲線一起判斷的還有一個指標AUC(Area Under Curve),即ROC曲線下面的面積。AUC的取值一般在0.5~1之間,越接近1說明模型判斷越準確。AUC值位于0.7~0.8時,認為該模型有一定的區分能力;AUC值位于0.8~0.9時,模型區分能力良好;AUC值大于0.9時,區分能力非常好。根據圖3所示的測試組的ROC曲線,AUC值為0.946,說明所建立的風險度量模型對信用風險具有非常好的判斷能力。
第一,健全平臺信用征信體系,完善信息認證模式。信息的不對稱極易造成道德風險,對個人的信用違約有極大的影響。P2P網貸平臺應加大對個人信息的審核力度,擴充新的信息認證方式,如可通過信用卡認證、水電煤氣賬單認證、微信認證等方式來確認借款人的真實信息和信用狀況。
第二,建立科學全面的信用風險評估體系,提高平臺內部工作人員的專業水平。對借款人事先進行專業的評估,控制信用風險的發生。針對不同信用風險的借款人,平臺應制定不同的個性化的借款合同來控制風險的發生。
第三,設立統一的評分標準,實現網貸平臺間的信息共享。由于各P2P平臺的信息不共享,使得一些借款人在一個平臺上違約了,又跑到另一個平臺上繼續借款。實現平臺間的信息共享,能夠有效地減少個人的多平臺借款違約行為,而且通過借助其他平臺上借款人的信息,可以更加全面準確地度量出借款人的信用風險情況。
第四,增加違約成本,提高對違約行為的懲罰力度,如增加違約罰金等。將借款人在網貸平臺上的信用記錄與其生活相聯系,使其信用記錄像銀行貸款違約一樣,影響今后的買房、買車貸款,迫使借款人及時還款,降低信用風險。
第五,健全相關法律法規,完善監管機制。政府及相關部門應該加強對網貸平臺的監管,制定統一的規章制度及平臺準入機制,全面披露行業的有關數據,明確監管部門、網貸平臺、借款人和出借人各方的權利和義務。
參考文獻:
[1] 孫英雋,蘇顏芹. 微金融的發展趨勢:網絡借貸[J]. 科技與管理,2012(1): 92-95.
[2] 陳霄,丁曉裕,王貝芬. 民間借貸逾期行為的研究:基于P2P網絡借貸的實證分析[J]. 金融論壇,2013(11): 65-72.
[3] 宋麗平,張利坤,徐瑋. P2P網絡借貸個人信用風險評估[J]. 財會月刊,2015(12): 94-96.
[4] 于曉虹,樓文高. 基于隨機森林的P2P網貸信用風險評價、預警與實證研究[J]. 金融理論與實踐,2016(2): 53-58.
[5] 孫同陽,謝朝陽. 基于決策樹的P2P網貸信用風險評價[J]. 商業經濟研究,2015(2): 81-82.
[6] 方匡南,張貴軍,張惠穎. 基于Lasso-Logistic模型的個人信用風險預警方法[J]. 數量經濟技術經濟研究,2014(2): 125-136.