基于模糊二范數(shù)二次曲面支持向量機的信用評分研究

2018-04-08 11:23:20何楊李洪心

統(tǒng)計與決策 2018年5期

關鍵詞：模型

何楊，李洪心

（東北財經(jīng)大學管理科學與工程學院，遼寧大連116025）

0　引言

由于全球經(jīng)濟增速放緩，大宗商品價格繼續(xù)下降，全球物價水平增速下行，部分經(jīng)濟體面臨通縮壓力。金融市場波動劇烈，關聯(lián)性明顯。全球總債務水平處于歷史高位，其不可持續(xù)性提升了風險等級。在這種經(jīng)濟形勢下，許多債務人到期不還貸導致許多金融機構損失慘重。然而，借貸機構不能僅僅通過拒絕貸款申請來規(guī)避信用風險。因而，有效的信用風險評估已經(jīng)成為了增進信用競爭市場的一個關鍵因素。當下，金融機構已非常廣泛地使用信用評分模型來做授信決策。

在過去的幾十年里，為了使信用分類的準確性最大化，大量的理論研究與量化方法用于發(fā)展信用評分模型，其中，有些統(tǒng)計模型也非常普遍地應用在了信用評分上[1-5]。為了提高信用評分分類的準確性，研究者們不斷嘗試新方法，并發(fā)現(xiàn)用支持向量機模型來做信用評分有很好的效果[6-12]。本文將先利用一些常用的支持向量機（SVM）模型做信用評分，通過更進一步的研究，建立模糊二范數(shù)二次曲面支持向量機（Fuzzy 2-norm QSSVM）模型應用于信用評分，最后用兩組真實數(shù)據(jù)來檢驗模糊二范數(shù)QSSVM模型的分類準確性和效率。

1　用于信用評分的模型

1．1　支持向量機

支持向量機是由Vapnik等人利用結構風險最小化的原則根據(jù)統(tǒng)計學習理論（SLT）提出來的。簡單的說，它是一種分類模型，用于解決凸二次規(guī)劃問題的求解。支持向量機是數(shù)據(jù)挖掘的一種重要方法，其建立在統(tǒng)計學理論上，可以研究非線性、小樣本的分類計數(shù)。通過映射將給出的數(shù)據(jù)進行提升維度，引入核函數(shù)，可將線性問題推廣到非線性分類問題。支持向量機，其“機”代表的是機器，是機器學習的核心方法，可以對數(shù)據(jù)進行分析、對模式作以識別，用于分類與回歸分析。

SVM的基本思想是通過一個非線性映射Φ（x）將輸入空間的樣本映射到高維空間，并在這個高維空間中利用結構風險最小化原理和分類間隔最大化思想確定最優(yōu)分類超平面，f(x)=wTΦ(x)+b，其中w和b分別表示這個超平面的權值和闕值。在給定訓練點線性SVM問題可以表示為以下約束二次規(guī)劃問題：

其中，εi為松弛變量，C＞0是罰參數(shù)，用來控制對錯分樣本的懲罰程度。

在支持向量機中核函數(shù)是一個關鍵因素，核函數(shù)能夠有效的解決數(shù)據(jù)空間到非線性空間的轉換，對內(nèi)積函數(shù)的替代也能夠有效解決維數(shù)問題。核函數(shù)的引入，作為支持向量機重要的組成部分，能夠完美的實現(xiàn)空間轉換，并通過空間中不同的非線性決策面得到各種不同的支持向量機算法。

1．2　二次曲面支持向量機

下面簡單地介紹二次曲面支持向量機（QSSVM）模型。

通過最大化所有訓練點關于g(x)=0的相對幾何邊緣之和，并且對所有訓練點的錯分誤差最小化，得到以下QSSVM模型：

其中，松弛變量εi被用來度量xi錯分的邊緣值，ct＞0是罰參數(shù)。

QSSVM模型可以按如下進一步簡化，首先，設向量w由矩陣W上三角部

接著，本文可以按照如下步驟針對訓練點xi∈Rm構建一個維矩陣M，i=1,2,...,l；在M的第j

ii行（j=1,2,…,m）中，如果w的第p個要素是wjk或者wkj(k=1,2,...,m)，那么把Mi的第j行第p個要素定義為，否則定義為0。然后，定義：

問題（1）可以再變換為：

其中，矩陣G為半正定矩陣，那么，問題（2）便是一個擁有線性約束的凸二次規(guī)劃問題。

1．3　加權二范數(shù)支持向量機

其中，Φ(x)：Rm→Rn是一個核函數(shù)分別為被標記為+1和-1的訓練點的數(shù)目，（也就是n1+n2=n），和分別為被標記+1和-1的訓練點的罰常數(shù)。通過德國和澳大利亞的信用數(shù)據(jù)的實證研究發(fā)現(xiàn)，此模型的特征加權策略采取T檢驗過程能達到最有效的結果[13]。

2　模糊二范數(shù)二次曲面支持向量機模型

為了提出模糊二范數(shù)二次曲面支持向量機模型，下面首先設計新的模糊隸屬度函數(shù)來計算每個訓練點的相對重要性。不同的模糊隸屬度函數(shù)將很大程度地影響分類器的分類效果，因此設計一個合適的隸屬函數(shù)是非常重要的。在這里，為了建立一個基于每個訓練點與其所在類別的二次中心曲面之間的二次邊際距離[11]的新的模糊隸屬度函數(shù)，本文首先求解模型（2）得到一個有效二次曲面分類機的參數(shù)向量(ˉ,ˉ)。然后，關于這個二次曲面，分別計算所有在類別1和2訓練點的平均函數(shù)邊際（即functional margin）為：

除此之外，本文將設計新的模糊隸屬度函數(shù)來考慮到訓練點間的相似度，從而將奇異點和噪點從有效的訓練中分離出來。因此，對于每個訓練點以及d()，下面的隸屬度函數(shù)被設計出來計算模糊隸屬度：

為了建立模糊二范數(shù)QSSVM模型來做信用評分，本文首先通過公式（4）來計算T檢驗特征權重(,j=1,2,...,n)，然后通過隸屬度函數(shù)（6）并將替換，計算出所有訓練點的模糊隸屬度(，i=1,2,...,n)。基于QSSVM模型（1），用松弛變量向量ε=(ε1,ε2,...,εn)的二范數(shù)的平方替代松弛變量向量ε，加入相同樣本類內(nèi)離散度S（W,b,c）和T檢驗特征權重(j=1,2...,n)后得到如下模型：

其中：

3　實證

3．1　用德國和澳大利亞的數(shù)據(jù)進行計算試驗

信用評分方法除要求達到一定的準確性之外，其可解釋性、簡潔性、效率等性能也非常重要[17]。因此，在這一部分，本文用德國和澳大利亞的信用數(shù)據(jù)（來自于UCI機器學習知識庫[18）]來檢驗模糊二范數(shù)二次曲面支持向量機模型在信用評分上的準確性和效率。同時，在這兩組數(shù)據(jù)上也測試含有高斯核的支持向量機模型（SVM）、含有高斯核的加權二范數(shù)支持向量機模型、含有二次核函數(shù)的加權二范數(shù)支持向量機模型、二次曲面支持向量機模型（QSS-VM）。兩組信用數(shù)據(jù)的基本信息見表1所示。

表1　德國和澳大利亞信用數(shù)據(jù)

這兩組數(shù)據(jù)包含20個變量,包括客戶基本信息(性別、年齡、學歷、職業(yè)、婚姻等)，經(jīng)濟狀況(個人月收入、個人月開銷、住房情況等)，信用卡消費狀況(信用卡張數(shù)、信用額度、使用頻率、月刷卡金額等)；信用記錄(逾期記錄)。各變量名稱及類型的具體信息見表2所示。

表2　數(shù)據(jù)各變量及類型

兩個信用數(shù)據(jù)集合當中，所有名義變量都轉換成了整數(shù)變量，同時序數(shù)和連續(xù)變量保持不變。然后，對于被轉換后的訓練點有的輸入屬性都線性擴展到[0,1]，這樣做是為了規(guī)避大數(shù)值變量相對于小數(shù)值變量的屬性優(yōu)勢。因而定義為：

在對德國和澳大利亞信用數(shù)據(jù)進行以上預處理之后，本文用10折交叉驗證方法來檢驗所有模型的性能。首先對德國的數(shù)據(jù)進行檢驗，在模型檢驗當中，采用交叉驗證是為了克服過擬合問題，習慣于使一個數(shù)據(jù)集（也就是測試數(shù)據(jù)集）在訓練階段進行模型測試。而用10折交叉檢驗方法對德國信用數(shù)據(jù)進行檢驗，所有數(shù)據(jù)集隨機劃分為10個大小相等的樣本。在這10個樣本當中，保留一個樣本作為測試數(shù)據(jù)集的檢驗模型，其他9個樣本作為訓練數(shù)據(jù)集。按照這種方法，交叉檢驗會重復10次，10個樣本中的每一個樣本都會作為一次測試數(shù)據(jù)集。因而，10折交叉檢驗過程的錯分率就等于10次交叉檢驗中被錯分的點的總數(shù)量除以德國數(shù)據(jù)集點的總數(shù)量。這種方法的優(yōu)點在于，所有的觀察值都會作為培訓和測試的點，并且每一個觀察值當且僅當被測試一次。對于德國的信貸數(shù)據(jù)集，為了使得實驗的結果更具有統(tǒng)計意義，本文通過100次隨機劃分這個數(shù)據(jù)集來重復100次10折交叉驗證過程。對所有的模型，都計算100次10折交叉驗證過程所得到錯分率的平均值、標準差、最小值和最大值，并且得到每次實驗所用的平均CPU時間，見表3所示。在這里，模糊二范數(shù)QSSVM模型的CPU運行時間包括計算所有訓練點模糊隸屬度的時間。

表3　德國信用數(shù)據(jù)檢驗

此外，用同樣的方法來對澳大利亞的信用數(shù)據(jù)來進行測試，6種模型也都做一遍檢驗，得到的錯分率和CPU運行時間見表4所示。

表4　澳大利亞信用數(shù)據(jù)檢驗

3．2　模型結果

（1）從表3和表4可以看出，模糊二范數(shù)二次曲面支持向量機（F2N-QSSVM）模型所得錯分率的均值、標準差、最小值、最大值分別為11.69、0.39、11.06、12.98，最大值和W2NSVM的最小值差不多，可以明顯的看出來，F(xiàn)2N-QSSVM所得錯分率的均值、標準差、最小值、最大值要比其他模型所得錯分率的均值、標準差、最小值、最大值都要小。從而說明F2N-QSSVM在一定程度上提高了準確率、查準率和全查率。

（2）模糊二范數(shù)二次曲面支持向量機（F2N-QSSVM）模型的計算時間要比其他模型的計算時間都要長，主要是因為本文提出的這個模型花費了時間去計算所有訓練點的模糊隸屬度，而其他模型并沒有這項，計算訓練點的模糊隸屬度也是提高了模型的精準性。

（3）由于這個模型是一個線性約束凸二次規(guī)劃問題，通過著內(nèi)點算法和信任區(qū)域反射算法來快速得到該模型的全局最優(yōu)解，這使它有較好的推廣能力，并能提高分類性能。通過兩個真實數(shù)據(jù)的測試（德國和澳大利亞的信用數(shù)據(jù)）可以看出，模糊二范數(shù)二次曲面支持向量機（F2N-QSSVM）模型比其他模型達到更好的分類效果。如果奇異點所占訓練點的比例越高，F(xiàn)2N-QSSVM在分類效果上的優(yōu)越性越明顯。

4　結論

在大數(shù)據(jù)時代背景下，可以充分利用客戶基本信息和歷史信息，并利用信用評分模型來對客戶進行評估分析，本文首次構建基于模糊二范數(shù)二次曲面支持向量機模型，通過對UCI機器學習庫的數(shù)據(jù)研究表明，相對于其他經(jīng)典的支持向量機模型，該模型最大的特點是通過引入T檢驗特征加權設計了新的隸屬度函數(shù)來計算訓練點的模糊隸屬度，通過內(nèi)點算法和信任區(qū)域反射算法來快速得到全局最優(yōu)解，在信用評分領域的應用能達到更精準的分類效果。因此，此模型應該被廣泛應用于信用機構來進行授信決策，這樣不僅能為機構規(guī)避風險，減少銀行違約損失，提高銀行自身優(yōu)勢和競爭力，也能提高信用卡用戶的申請效率。在未來的研究中，有興趣針對大規(guī)模數(shù)據(jù)開發(fā)更有效率的信用評分模型。

參考文獻：

[1]Fisher R A.The Use of Multiple Measurements in Taxonomic Problems[J].Annals of Human Genetics,1936,(7).

[2]Martin D.Early Warning of Bank Failure:A Logistic Regression Approach[J].Journal of Banking and Finance,1977,(1).

[3]Wiginton J C.A Note on the Comparison of Logic and Discriminant Models of Customer Credit Behavior[J].Journal of Financial and Quantitative Analysis,1980,(15).

[4]Twala B.Multiple Classifier Application to Credit Risk Assessment[J].Expert Systems With Applications,2010,(37).

[5]Han J,Kamber M.Data Mining:Concepts and Techniques(2nd)[M].San Francisco,CA:Morgan KauFmann,2006.

[6]Gestel T V,Baesens B,Garcia J.A Support Vector Machine Approach to Credit Scoring[J].Journal of Bank and Finance,2003,(2).

[7]Yu L A,Huang W,Lai K K,et al.A Reliability-based RBF Network Ensemble Model for Foreign Exchange Rates Predication[J].Neural Information Processing,2006,(4234).

[8]Huang C L,Chen M C,Wang C J.Credit Scoring With a Data Mining Approach Based on Support Vector Machines[J].Expert Systems With Applications,2007,(33).

[9]Zhou L,Lai K K,Yen J.Credit Scoring Models With AUC Maximization Based on Weighted SVM[J].International Journal of Information Technology and Decision Making,2009,(4).

[10]Vapnik V N.The Nature of Statistical Learning Theory[M].New York:Springer-Verlag New York,1995.

[11]Luo J,Fang S C,Deng Z B,et al.Soft Quadratic Surface Support Vector Machine[J].Asia-Paci fi c Journal of Operational Research,2015.

[12]Yan X,Bai Y,Fang S C,et al.A Kernel-free Quadratic Surface Support Vector Machine for Semi-supervised Learning[J].Journal of the Operational Research Society,2015.

[13]Guyon I,Gunn S,Nikravesh M,et al.Feature Extraction:Foundations and Applications.New York,NY:Springer,2006.

[14]Deng N Y,Tian Y J,Zhang C H.Support Vector Machines-Optimiaztion Based Theory,Algorithms and Extensions[M].Boca Raton:CRC Press,2012.

[15]Wchter A,Biegler L T.On the Implementation of an Interior-point Filter Line-search Algorithm for Large-scale Nonlinear Programming[J].Mathematical Gramming,Series A,2006,(106).

[16]Coleman T,Branch M A,Grace A.Optimization Toolbox User's Guide,Version 3.1.Natick[M].MA:The MathWorks,Inc,2006.

[17]陸愛國,王玨,劉紅衛(wèi).基于改進的SVM學習算法及其在信用評分中的應用[J].系統(tǒng)工程理論與實踐,2012,32(3).

[18]Bache K,Lichman M.UCI Machine Learning Repository[EB/OL].http://archive.ics.uci.edu/ml.

基于模糊二范數(shù)二次曲面支持向量機的信用評分研究

0 引言

1 用于信用評分的模型

1．1 支持向量機

1．2 二次曲面支持向量機

1．3 加權二范數(shù)支持向量機

2 模糊二范數(shù)二次曲面支持向量機模型

3 實證

3．1 用德國和澳大利亞的數(shù)據(jù)進行計算試驗

3．2 模型結果

4 結論