李淑錦,詹子涵
(杭州電子科技大學 經濟學院,浙江 杭州 310018)
隨著金融創新的不斷深化,互聯網金融在我國開始迅速發展,P2P網貸發展尤其迅猛。根據網貸之家的數據顯示,2016年 P2P網貸平臺的全年累計交易量20 636.26億元,而到2017年,全年歷史累計成交量迅速上升到28 048.49億元,增幅35.92%。與此同時,各種問題及風險也相繼而來,如融資成本偏高、借款者跑路、非法集資、各種違約現象等。據網貸之家數據顯示,截止2017年12月,P2P網貸平臺累計數量5 970個,其中累積問題平臺數量高達4 039個,占67.65%。借款者違約是造成平臺經營出現困難主要原因之一,因此完善P2P網貸平臺上個人借款者的信用風險評估問題已成為當務之急。
國內外學者對借款者的信用風險的研究成果豐富,特別是引入了大量的信用風險評估模型。Ohlson(1980)[1]首次利用 Logistic回歸來搭建信用分類模型,分類效果明顯。Dinh和Kleimeier(2007)[2]的研究結果表明,Logistic模型是傳統信用風險研究中預測精度最高的模型,具備很強的穩健性。國內,鄭昱(2009)[3]應用 Probit模型對傳統借貸中的個人信用風險進行評估。廖理等(2014)[4]利用Probit模型實證研究,指出非完全市場化利率部分地反映了借款人的違約風險,但是仍有相當高比例的違約風險并未能夠被反應在利率中。周光偉(2009)[5],利用5C分析法評價個人信貸風險,指出評判結果會受到外界的因素和個人情感因素的影響而出現較大偏差。楊秀云等(2016)[6]使用KMV模型來評估上市企業的信用風險,會出現違約概率不符合實際,說明KMV模型識別其信用狀況的能力一般。劉小麗(2011)[7]指出Credit Risk+適用于銀行對零售客戶的信用風險的度量,只需違約概率、違約損失率和風險暴露等風險因子,適合目前我國數據缺乏的現狀。也有學者將信用風險評估模型應用于P2P網貸平臺借款者的信用風險評估中,如李淑錦、呂靖強(2016)[8]采用 BP神經網絡模型進行P2P網貸信用風險評估,提升了數字化技術在這方面的運用。
關于P2P網貨平臺借款者的信用風險問題,學者們集中于研究借款者違約概率及借款成功率的影響因素,如 Herzenstein等(2008)[9]研究美國P2P網貸平臺prosper 2016年數據得出借款者特征會直接影響借款成功概率,且這些指標不同于傳統金融機構評價指標。Lin(2013)[10]在研究社會網絡對借款成功率的影響時發現,經專業認證、朋友較多并存在活躍的社交會對借款起到促進作用。Gonzalez等(2014)[11]通過學術實驗得出年輕人的違約概率較高,且可獲得的金額也相對較少。Emekter(2015)[12]指出在評估 P2P網貸違約風險中,信用等級的高低與違約概率的高低是成負相關的,等級越高的人發生違約的概率越低。此外還存在一些非認證信息,Herzenstein等(2011)[13]研究發現借款說明越為詳細的借款者實際上違約概率會越高。郭弈(2011)提出了成功獲得貸款的影響因素和與貸款成功率相關的一系列指標。張鈺敏(2014)[14]使用拍拍貸數據進行實證研究,發現個人信息、擔保信息、借款標的信息,對借款的成功率和借款利率均有顯著性影響。
根據以上分析,結合微貸網的數據的特點,本文選擇logistic回歸模型對平臺的個人借款者信用風險進行評估。首先建立適用于該平臺的個人借款者的信用風險評估指標并對其量化,然后利用Logistic信用風險評估模型預測借款者的違約概率,從而準確評估借款者的信用風險。本文的創新點主要體現在信用風險的指標選擇上,這不同于傳統的個人借款者的信用風險評估指標,結合微貸網平臺的特點,將傳統借款人信息與平臺特色有機結合,個性鮮明,指標獨特。同時利用logistic回歸模型來評估微貸網上個人借款者的信貸風險,更為合理地確定違約閾值,提升模型評估信用風險的準確率。
傳統商業銀行在企業的信用風險評估指標的建立方面做了許多研究,部分學者也研究了個人信用風險評估指標,比較統一的結論為性別、學歷、年齡、收入、職業、屬地等指標對個人小額貸款還款能力的影響顯著。廖理和張偉強(2017)[15]針對 P2P平臺借款人信息價值的實證研究表明,凡是信息都是有價值的,無論借款人的個人特征、財務狀況,還是社會關系都有助于評估借款人的信用。但微貸網這一P2P網貸平臺特色明顯,是中國首家專注于汽車抵押借貸服務的互聯網金融P2P網貸平臺,網站有自己的門店來審核借款者提供抵押的汽車信息。如果刻板套用傳統信用風險指標,勢必會引起對借款人還款能力的誤斷。
因此本文參考商業銀行的指標體系,并結合網站特色初步選擇5個個人信息指標(性別、年齡、婚姻狀況、籍貫、身份證件)、5個抵押物信息指標(車輛型號、購買價格、抵押估價、行駛公里、車牌號)、5個安全審核指標(駕駛證、行駛證、汽車抵押合同、車輛保單、車輛登記證書)、3個平臺借貸信息指標(歷史還清期數、待還期數、歷史逾期次數),共計18個具體指標作為微貸網個人借款者的信用風險評估指標體系。
指標初選平臺可提取且符合一般性風險評估架構的指標,但存在一些冗余指標,還需要逐步篩選。身份證件是所有借款者都提供的,因此舍棄身份證件指標;籍貫指標半數以上借款者未寫明,同樣舍棄。對于抵押物信息,車輛型號與購買價格都是展現借款者的購買力,筆者從中選擇了購買價格作為評估指標;車牌與信用風險相關性不強,舍去。對于安全審核指標,網站顯示均已審核通過,且該列信息對于所有借款者幾乎是相同的,故舍棄。最終保留8個信用風險評估指標,分別為3個個人信息指標(性別、年齡、婚姻狀況)、2個抵押物信息指標(購買價格、行駛公里)、3個平臺借貸信息指標(歷史還清期數、待還期數、歷史逾期次數)。
下面進行指標賦值。對于借款人的特征,趙旭等(2016)實證研究發現,男性逾期可能性高于女性,而且男性借款通過率為女性的60%,因此本文將男性賦值1,女性賦值0。年齡在20歲以下的借款人,一般是無收入或低收入人群;21~29歲的群體,處于事業發展期,收入相對低且發展較不穩定;55歲以上人群面臨退休,退休補貼雖穩定但金額低;其余30~55歲人群經濟狀況最為優異,因此將 18~20 歲賦值為 2,21~29 歲、55 歲以上均為1,30~55歲為0。婚姻狀況為已婚和未婚兩種,已婚借款者具備收入雙來源,將未婚人群賦值為1,已婚人群賦值為0。對于微貸網抵押物特征,車輛價格根據車輛定位不同而存在差異,家庭代步車市場定價為15萬元以下,商務人士中高檔用車定價約在15萬~40萬元左右,40萬元以上屬高檔轎車行列,車輛購買價格越高違約概率越小,故依次分別賦值為2,1,0。車輛行駛公里數也能反映抵押物價值,公里數越大使用價值越低,非專用車輛一年的行程數是1.5萬公里左右,因此筆者將4.5萬公里以內車輛借款人賦值為2,4.5萬公里~9萬公里賦值為1,9萬公里以上賦值為0。對于歷史還清次數和待還清借款數若僅考慮次數顯然不合理,會出現如借款三次守約兩次的借款人信用度等于借款五十次守約僅兩次的借款人的情況,故筆者將根據指標占借款總次數的百分比進行賦值。對于歷史還清次數,根據在借款總次數中的占比進行賦值,還清概率在80%以上的賦值為0,60%~80%賦值為1,60%以下的賦值為2。對于待還清數做同樣的處理,待還清率在20%以下的賦值為0,20%~40%的賦值為1,40%以上的賦值為0。歷史逾期數則有所不同,次數比比率更能說明誠信度,從未違約說明信用度最高且意義不同,因此從未違約的借款人賦值為0,違約5次以下的賦值為1,5次及以上的賦值為2。
專家評分法和特征分析法等傳統信用風險分析法,方法雖簡單易操作,但易受專家個人因素影響且運行成本也較高,不適用P2P網貸平臺。判別分析法有較多的局限,需要滿足比較嚴苛的條件;神經網絡模型則實現的步驟較為復雜,Probit模型需滿足正態分布條件。因此本文選用Logistic回歸模型對微貸網的個人借款者的信用風險進行評估。
Logistic回歸與多重線性回歸同屬于廣義線性模型,但是兩者的區別在于因變量不同:使用多重線性回歸模型時,其因變量是連續的;使用Logistic回歸模型時,它的因變量卻是二分類的。

Logistic回歸方程:

若式(1)中的 f(xi1,xi2,…,xip)為多元線性函數,則上述模型可寫成:

在進行參數估計時,先做變換:

對于Logistic回歸,取對數得到:

采用極大似然法來估計Logistic回歸系數,利用式(3)計算 πi。
Logistic回歸模型有很多優點,首先模型對于預測變量沒有特定的要求,自變量不管是連續還是離散,亦或是虛擬變量,都不需要假設正態分布。其次是模型的線性形式,保證概率值在有意義的區間內取值。最后一點最為關鍵,因變量是一個二分類變量,這個變量只能選取0或1兩個值,分別代表某個事件沒有發生或是發生,適合于判別借款人是否違約。
本文通過爬蟲程序從微貸網網站上獲取已完成的借款散標數據共19 346筆,其中逾期的共有1 017筆,無數據缺失。由于原始數據中違約借款筆數遠少于未違約筆數,樣本間存在的高度數據不對稱現象會影響預測精度。Weiss等(2003)[16]已研究證實模型時并不一定需要自然分布的數據,因此筆者選用“減少多數法”對樣本數據進行平衡處理,最終抓取了2 570個有效樣本,其中有1 017個逾期樣本。關于樣本的描述性統計分析如表1所示。
從表1看出,微貸網平臺的借款者絕大多數為已婚男性,年齡跨度大,以35歲左右的成熟青年男性居多。在抵押車輛方面,車輛大多為家用代步車型,中位數為17萬元,但受極端值影響平均數偏高,說明車輛價格跨度大。從平臺借貸者的借貸歷史信息反應出平臺借款人都具有多次借款經歷,僅少數為P2P網貸“新手”,說明了P2P借款方式在我國十分受借款者青睞。

表1 樣本數據描述
本文將2 570個有效樣本隨機抽樣分為訓練樣本和測試樣本,其中訓練樣本包括2 318個樣本,其中917逾期樣本;252個樣本作為測試樣本來驗證模型的訓練效果,其中逾期樣本是100個。使用Logistic模型進行信用風險評估,先進行主成分分析法對數據降維,數據預處理完成后利用訓練樣本進行Logistic回歸,估計出模型中的β系數構建模型,然后將待檢驗的測試樣本代入模型中計算違約概率,分析模型的準確率。
首先對數據進行預處理,此次實證的指標數據大且數據之間存在一定相關性,因子分析法能夠更加高效便捷的分析問題,在保留數據絕大多數信息的情況下,消除數據間的相關性,使結果解釋性更強。將性別(X1)、年齡(X2)、婚姻狀況(X3)、購買金額(X4)、行駛公里(X5)、歷史還清次數(X6)、待還次數(X7)、歷史逾期期數(X8)作為輸入變量,通過因子分析進行降維。運用SPSS軟件進行KMO和Barlett檢驗,結果如表2所示。

表2 樣本的KMO和Barlett檢驗
表2的結果表明,KMO度量為0.469,因經濟學領域KMO度量標準低于其他科學領域,且檢驗P值在0.05的檢驗標準之下,可以進行主成分分析降維。
然后進行因子分析。提取特征值大于1的主成分,累計方差為70.01%,解釋效果較好。分析得到以下4個主成分如表3所示。

表3 成分矩陣
由表3所示,主成分Y1中歷史還清期數、待還次數系數較高,命名為信貸因子;Y2中婚姻狀況、年齡權重、行駛公里數較高,因此命名為個人因子;Y3中性別、車輛購買價格,命名為社會因子,Y4中歷史違約次數系數最為顯著,命名為誠信因子。
最后,本文選取以上四個主成分因子Y1、Y2、Y3和Y4作為解釋變量,借款者違約概率P作為被解釋變量構建Logistic回歸模型。P是虛擬的二分類變量,逾期違約的記為1,無違約的記為0。通過訓練集的數據建立的Logistic回歸模型如表4所示。

表4 Logistic回歸模型
根據所得的數據可知,這四個主成分的P值都是在5%的置信水平下顯著的,因此將以上主要成分代入Logistic回歸模型得到的評估模型為:

Y1、Y3、Y4符號為正,Y2為負,其中 Y1為信貸因子,所反映的變量為歷史還清期數、待還次數,說明借款者的歷史借款情況正向影響著借款者本次借款是否會逾期,歷史還清次數占比大、待還清次數占比小,違約率低。Y3為社會因子,反映的變量是性別和車輛購買價格,這兩個指標與借款者本次是否違約同向變動,與之前的預期相符,車輛購置價格越高,違約率較低,同時女性的違約率低于男性。Y4為誠信因子,在八個自變量中歷史違約次數的相關性特別顯著,因此Y4基本就反應了借款者的歷史違約情況,同時,Y4在四個變量中的系數也最大,也就說明歷史違約次數在本次模型中是反映借款者是否違約的最強影響因素。Y2為社會因子,所反映的變量為年齡、婚姻狀況、歷史里程數,之所以取名為社會因子,是因為年齡和婚姻狀況等能夠反應借款人正處在何種人生階段,說明其社會性質。其中歷史里程數對Y2是反向影響,歷史里程數越大,車輛的使用價值和變現價值越低,更有甚者所持有車輛里程數太高已經不存在實際的使用價值,存在利用車輛套現的可能,由此借款人的違約率也就越大。而年齡和婚姻狀況對Y2的影響是正向的,與既定預期相反。已婚借款人違約率高于未婚借款者,成熟中青年的違約率高于青年和老年人。我們往往認為成年人和已婚人士有工作薪酬和家庭作為保障,同時他們也正處于人生中各方面壓力較大的階段,因此資金需求也更大,可能導致資金周轉困難而產生違約行為,但與此同時也不排除借款者偽造信息的情況。
用剩余的230組測試樣本對建立的模型(6)進行測試,部分結果未高度二分化。圖1為預測樣本預測值分布圖,預測值為0的更加集中,1則較為散亂,說明正確識別出違約者更為困難。

圖1 預測樣本預測值分布圖
筆者還注意到,數據回歸所使用的SPSS 22在對訓練樣本進行Logistic回歸時,軟件默認閾值為0.5,即將回歸結果小于0.5判斷為不違約,大于0.5的判斷為違約,這一閾值往往用于心理學、工科等議題研究判斷,對于經濟學問題顯然是不適用的,且P2P網貸的信用風險判斷也不同于傳統金融,閾值還需進一步確定。
根據回歸系數對訓練樣本進行計算,閾值在0.5時訓練樣本的回歸結果與其實際情況相比較,判別準確率為85.98%;閾值為0.3時,86.41%。結果顯示當閾值設定為0.375時,利用模型計算得出的結果與實際違約情況最為接近,因此選定0.375為測試樣本的閾值。這也說明了P2P網貸的風險是遠高于傳統金融借貸的,對于平臺和貸款人而言,減少第二類錯誤才能使得其投資者不受損失。故閾值低于0.5合理,并且能較好規避實際違約但模型判斷錯誤的情況。

表5 實證的預測結果
基于以上分析,文章將測試樣本的閾值設為0.375,得出的預測精度為90.43%,第二類錯誤僅為0.43%,結果十分令人滿意。其中第二類型的錯誤表示有違約風險的不良借款人被識別為沒有違約風險的優良借款人,顯然對于平臺和投資者而言,第二類錯誤發生產生的后果所帶來的損害會遠大于第一類錯誤,因此對第二類錯誤的準確率要求應更高,才能具備優質的違約風險識別能力。
綜上所述,Logistic模型在微貸網平臺個人借款者的信用風險評估中,評估結果令人滿意,并且該模型回歸得出的經濟意義,與文獻中相關文獻所提及的結論一致,進一步的證明了本文選取的評估指標的合理。微貸網上的借款者信息中,性別、年齡、婚姻狀況、購買價格、行駛公里、歷史還清期數和待還期這8個指標成為了構建Logistic模型的重要指標,同時Logistic模型回歸結果為微貸網平臺的借款者信用風險評估提供了參考,減小了投資者的投資風險。
本文在閱讀大量個人借款者信用風險評估的文獻以及對相關理論進行分析后,確定使用Logistic模型對微貸網的個人借款者信用風險進行評估,建立合適的評估指標,預測其違約概率。
從平臺數據來看,P2P網貸市場存在十分嚴重的逆向選擇現象。第四部分的數據不難發現,網貸平臺借款者多數為已婚男性,且在2 570個樣本中,逾期違約一次及以上的借款者占比約為20%,這也使得P2P網貸成為“高風險”的代名詞。還有一個問題不難發現,自變量間的累積方差較小,這說明之間的關聯性不強,也就是借款人違約的因素很多,獨立性高,平臺和投資者有一定的風險評估難度。追本溯源,是平臺信息披露缺乏完整性,一方面市場沒有強制的披露機制,另一方面,網站平臺為了吸引投資者也將信息進行美化處理。
本文得到的結果顯示,男性的違約率大于女性,車輛購置價格越高、車輛歷史里程數小、歷史還清次數占比大、待還次數占比小、歷史違約次數少,對應的違約概率低,符合既定認知。而年齡、婚姻狀況回歸結果雖與認知相反,但都得到了合理的解釋。從評估模型來看,Logistic模型在P2P網貸借款者信用風險評估中預測準確率高且操作方便,十分值得實務界運用。同時P2P網貸平臺的風險高于傳統金融借貸機構,使用Logistic模型判斷時更要注意閾值的設定,規避由此引發的模型判斷失誤而導致的資金損失。