(湖南工商大學大數據與互聯網創新研究院 湖南 長沙 410006)
大數據環境下的網絡借貸業務繁榮發展,微額借貸以其較低的借貸利率、靈活的借貸周期、便捷的借貸流程,受到了大部分中低收入群體和微型企業的追捧,同時互聯網微額借貸成為了無抵押條件下小額借貸模式與互聯網技術有機結合的新型金融服務模式。但是借貸機構以較低的門檻開展微額借貸業務,雖可大幅提高機構借貸效率,但也更大程度上增加了貸款無法及時回籠的風險,因此產生的信用違約問題也日益突出,對借貸機構造成了嚴重的不良影響。為避免客戶信用違約,借貸機構需要提高預測客戶信用水平的能力,因此本文將特征提取與支持向量機結合起來,在優化原始樣本的前提下,采用信用評估領域表現較優的支持向量機方法進行微額借貸客戶的信用評估,并進行評估方法的對比研究。
本文研究的主題是微額借貸客戶的信用評估,因此對原始樣本進行優化是提高信用評估方法預測準確率的重要途徑。特征提取是通過降低原始數據的維度或者將原始數據的特征進行重組再進行評估分析,因此成為了優化原始樣本的重要途徑。常用的特征提取方法包括:主成分分析法、逐步回歸法、線性判別分析等。支持向量機是最常用的二分類機器學習方法,其進行二分類的核心思想是在核函數的約束下,找到特征空間的最佳分離超平面,使得樣本之間的間隔最大。是解決小樣本、非線性、高維度數據的最佳方法。因此本文采用支持向量機對微額貸客戶的信用狀況進行評估。
本文研究的對象是微額借貸客戶,因此選取某信息服務公司提供的微額借貸客戶的真實信用數據,包含:樣本數據15000條,其中守約樣本13458條,違約樣本1542條;樣本指標1138個,其中數值型指標1045個,類別型指標93個。
通過對原始數據進行描述性分析發現,數據存在較多缺失值和少量異常值,因此需要進行數據的預處理。但是由于指標量綱不同,直接對原始數據進行信用評估會造成評估結果不準確,因此采用標準差標準化的方法進行指標標準化處理,得到統一量綱的標準化數據。針對“守約”客戶遠多于“違約”客戶的不平衡樣本,進行了樣本均衡處理。使用主成分分析法進行特征提取,最終得到28個對個人信用評估具有顯著影響作用的指標。
將經過特征提取的標準化數據進行評估方法執行,為了驗證支持向量機方法的評估性能,采用隨機森林、BP神經網絡、Logistic回歸方法進行了對比研究。利用數據挖掘軟件進行評估方法的執行,通過評估預測正確率和AUC值對評估結果進行分析。
得到的評估結果如表1所示:從預測正確率來看,支持向量機的預測正確率超過了90%,而隨機森林、BP神經網絡、Logistic回歸方法的預測正確率均低于90%,說明支持向量機的預測效果較優。在機器學習領域,AUC值是用來評價二分類模型優劣的常用指標,值越高表明模型的效果越好,因此可以看出支持向量機的評估效果較好。

表1 評估方法預測性能對比
綜上,采用支持向量機對微額貸客戶進行信用評估具有較高的預測準確率,并且擬合度、區分度較好,具有良好的應用效果。
本文針對微額借貸客戶進行了基于特征提取與支持向量機的信用評估,采用主成分分析方法提取了能夠反映客戶信用水平的重要特征,一方面減少了進入信用評估模型的指標、簡化了信用評估的擬合過程、另一方面提高了信用評估的效率,提高了信用評估方法的預測準確率。根據實證分析結果可知,基于特征提取與支持向量機的信用評估方法適用于微額借貸客戶,相比于隨機森林方法、BP神經網絡方法以及Logistic回歸方法具有較好的評估優勢,能夠應用于現實微額借貸場景中,為實際中微額借貸客戶的信用評估提供了較好的評估依據。