蒲崢屹 李云飛/文
隨著經濟快速發展,各種信用消費浮出水面,銀行及各種小額貸平臺認識到信用評分的作用及重要性,越來越多的統計學方法運用到信用評分領域。1941年Durand最早將判別分析用于信用評分系統,William Fair and Earl Isaacs在1958年運用判別分析法建立了信用評分系統,Myers and Forgy在1963年運用判別分析和回歸分析對消費者零售信用申請表的數據進行信用風險預測,判別分析法在金融界和學術界都得到了廣泛的運用。1970年Orgler將線性回歸分析用于信用評分系統,但是線性回歸應用于信用評分系統存在明顯缺陷,而Logistic回歸模型克服了線性回歸模型的缺陷,Logistic回歸模型成為信用評分系統常用模型。1994年Rosenberg and Geit在防范信用欺詐及公司信用決策等領域運用神經網絡進行討論,Davis對神經網絡及其他方法進行比較,認為神經網絡訓練樣本時間較長,錯判比例較高。2012年杜婷采用粗糙集的方法對影響信用評分的指標進行變量選擇,20個指標約簡了三分之二以上,再運用支持向量機建立模型,提升了建模精度,縮減了建模時間。2014年Oreski運用神經網絡與混合遺傳算法相結合,提高了建模精度,2015年Koutanaei將屬性選擇算法與集成算法相結合,混合模型得以廣泛運用。
本文為了提高模型預測能力,引入網格式搜索法(GS)優化模型建立過程中的兩個重要參數,同時采用5倍交叉驗證法以訓練集最小均方根誤差為適應度函數來進行參數尋優,從而提高模型預測能力,進而通過優化后的支持向量機構建個人信用評分模型。
支持向量機(Support Vector Machine,SVM)是基于結構風險最小原理和統計學VC理論(Vapnik-Chervonenkis Theory)的一種學習方法。它的主要思想是建立一個分類決策面。SVM利用核函數將數據映射到高維空間,使其盡可能地線性可分。常用的核函數包括線性核函數、多項式核、徑向基核(RBF)、傅立葉核、樣條核和Sigmoid核函數等。由于RBF核函數無論樣本數據特點是高維還是低維,數據量大還是小,都展現了很好的分類性能,因此,選擇RBF作為SVM的分類核函數。
SVM數據處理過程如下:
設感官特征數據為N維,共L組數據,即(x1,y1),L,(xl,yl)∈Rn。
決策面可表示為

(x)—非線性映射函數
b—閾值
為了最小化結構風險,最優分類超平面應滿足以下條件

引入非負松弛變量ξi,這樣分類誤差就在一個規定的范圍內。因此,優化問題就被轉變為

式中c—懲罰因子,控制模型的復雜程度和泛化能力
引入拉格朗日算法,優化問題被轉換為對偶形式

其中

式中g—核函數參數,控制輸入空間的范圍
上述優化問題轉變為

可以看出,優化問題取決于兩個重要參數c和g,這兩個參數會影響SVM的預測性能。
網絡搜索法(Grid Search,GS)也稱為“窮舉法”,沒有特定的函數公式與之對應,其基本原理是通過設定參數的取值范圍,將參數的可行區間按照一定步長劃分成網格,對每個網格進行搜索,使參數在一定范圍內取值。目標函數值在交叉點處,按某種規則搜索全部的交叉點,找出代表最優目標函數的各個交叉點,該交叉點代表的各個參數即為最佳參數。SVM預測問題取決于平衡參數c和核函數參數g,這兩個參數對SVM的預測能力和學習效率起決定性作用。為了提高模型的預測性能,引入網格式搜索法(GS)優化模型建立過程中的兩個重要參數。同時避免模型過學習和欠學習的現象發生,采用5倍交叉驗證法以訓練集最小均方根誤差為適應度函數來進行參數尋優。當達到最小均方根誤差時,所得到的c和g為最佳參數。GS中,以0.5為間隔進行全局搜索,c和g的范圍均是(2-10,210)
改進的網格搜索算法,即采用大步長粗搜,小步長精搜的思路尋找所有可能的參數組合,確定最優化的SVM參數,模型建立流程圖(見圖1)。
傳統的商業銀行要求借款人提供有效個人資料、當地戶口或有效身份證明材料、借款人貸款償還能力的證明材料、收入證明、借款人納稅單、保險單、信用卡透支及付款情況等,評估指標繁多。而網絡貸款,提供的資料相對簡單,一般包括個人身份信息、個人資產狀況、年齡、學歷等基本情況,在確定基本情況后,核對相符,貸款平臺進行放款。本文針對各較大網貸平臺進行一定的研究,根據網貸平臺的特點和構建指標體系的規則,選取年齡、婚姻狀況、文化學歷、工作年限、工作單位性質、收入情況、住房狀況、歷史信用等級8個具有代表性的指標構建評估指標體系。

圖1 個人信用等級評分的GS-SVM流程圖
由于選取的指標分為定性和定量兩種,為了防止各個指標在輸入評估模型時具有不必要的差異,需要對所選擇的指標進行量化使其具有可比性,因此本文選取的指標及量化標準均參考招商銀行的信用評估指標體系并結合了國內的實際情況對個人信用評估進行了標準設計(見表1)。
本文從人人貸、拍拍貸等四家國內具有代表性的網貸平臺所產生的交易數據中抽取了104組借款人交易數據作為本文樣本,然后抽取24組交易數據作為參照組,用來對該模型最終的結果進行對驗證。

表1 P2P網貸借款人信用指標量化
采用網格搜索方法確定SVM的參數c和g,c和g的范圍均是(2-10,210),參數尋優結果如圖2所示。

圖2 SVM參數選擇結果圖
最終確定參數最優值為c=4,g=0.047366。
利用建立的個人信用等級評分GM-SVM模型對24個學習樣本進行回歸檢驗(見圖3),可以看出,回歸曲線與實際曲線基本吻合。
訓練和擬合完成后,對經過訓練生成的SVM模型進行預測結果的驗證,預測人員信息如表2所示。

圖3 SVM預測輸出圖
從GM-SVM模型對24位借款者的信用等級預測可以得出,僅有第 83、85、86、94、103 五位測試者有極小偏差,其余均滿足我們預測準則,該模型的預測輸出和實際結果基本一致。通過前80組信用信息進行模擬學習,選擇RBF作為SVM的分類核函數,引入網格式搜索法確定最優參數,使SVM模型具備了對網貸借款人信用等級的測評能力。從測試結果可以看出:81、82、83、84、85、86、87、88、89、90、91、93、94、97、98、99、100、102、103這19名客戶信用評分高,可直接通過貸款;92、95這2名客戶信用評分中等,可考慮給其貸款;96、101、104這3名客戶信用評分低,可不通過貸款。

表2 測試結果
本文通過網格搜索(GS)對個人信用評分SVM回歸分析模型進行參數優化選擇,提高了模型預測性能,同時采用5倍交叉驗證法以訓練集最小均方根誤差為適應度函數來進行參數尋優,構建一種可行的個人信用評分模型,可以實現對個人信用評分的預測,降低客戶違約風險,具有實際運用價值。