基于鄰域粗糙集和距離判別的信用風險評級

2013-08-01 11:38:30郭春花

重慶理工大學學報(自然科學) 2013年2期

郭春花

(重慶大學數學與統計學院，重慶 401331)

信用風險評級是金融管理領域的熱門話題。一些傳統和非傳統的方法如多元統計分析、人工神經網絡［1］、支持向量機［2－6］、數據挖掘［7］等已被廣泛應用到該領域，并取得了大量的研究成果。隨著技術的進一步發展，一些綜合的方法［8－9］也被廣泛應用于信用風險評級中。我國的信用分析和評估技術仍處于傳統的比率分析階段，信用風險的分析仍然是以單一投資項目、貸款和證券為主，對衍生工具、表外資產的信用風險以及信用集中風險的評估尚屬空白。信用數據多具有高維性特點，且既有數值型屬性也有類別型屬性，與單一的數值型屬性相比，在處理上更為復雜。鄰域粗糙集方法與其他降維方法相比是一種軟計算方法，無需提供樣本數據之外的任何先驗知識或附加信息，對不確定性的描述有具體的數學公式，減少了算法的隨意性，近年來在數據降維［10－11］和分類問題［9，12］中得到了廣泛應用。同時信用數據的數值型屬性在量綱上的差異較大，所以在信用評級中考慮量綱的差異具有重要意義。基于上述問題，本文提出了一種基于鄰域粗糙集和距離判別的信用風險評級方法。用鄰域粗糙集對訓練樣本數據作降維處理，去掉冗余的數據，簡化計算過程。距離判別中采用馬氏距離消除了數據在量綱上的差異對分類的影響。最后通過實驗對該方法的有效性進行了驗證。

1 基于鄰域粗糙集特征選擇的距離判別

1.1 特征選擇的鄰域粗糙集方法

設分類樣本含有p個變量，它們構成p維隨機向量X=(X1，X2…Xp)T。為了避免遺漏重要信息，往往要考慮盡可能多的與分類有關的屬性，此時會產生2個問題:①隨著屬性個數p增大，計算量顯著增加，問題分析的復雜性明顯提高;②各屬性之間存在著一定的相關性，使得觀測樣本反映的信息在一定程度上有重疊。

為了解決上述2個問題，本文采用鄰域粗糙集方法對樣本變量進行選擇。

粗糙集［13－14］理論最早是由Pawlak提出來的，它可以挖掘屬性之間的相關性，選擇相關屬性，去掉無關屬性，實現數據降維。本文的鄰域粗糙集特征選擇對屬性集中的數值型屬性和類別型屬性分別作了討論。對類別型屬性考慮的是它們的等價關系，對數值型屬性考慮的是它們的鄰域關系。鄰域定義如下:?xi∈U，xi的鄰域關系為

Δ 是距離函數，通常 Δp(xi，xj)=上、下近似分別定義為:

鄰域粗糙集屬性選擇采取前向貪心搜索策略，通過測試加入新的候選屬性后度量指標的變化來生成新的屬性集，以粗糙集屬性依賴度作為度量指標。屬性依賴度的具體描述如下:

設a∈A －BSIG(a，B，D)=γB∪a(D)－ γB(D)=POSR(B∪a)－POSR(B)，其中R是U上的等價關系，POSR(B∪a)和POSR(B)分別表示B∪a，B的正域。SIG(a，B，D)反映了屬性 a的增加對信息量的影響，顯然 SIG(a，B，D)∈［0，1］。如果 SIG(a，B，D)=0，說明屬性a的增加沒有增加任何的信息，因此a是完全多余的，可以將其刪除，從而降低特征的維數，減少計算量。

鄰域粗糙集特征選擇的具體步驟:

根據給定的信用數據集合，構造并輸入決策表(U，Ac∪An∪D)以及 β、d，其中:Ac、An分別代表類別型屬性集和數字型屬性集;β是一個計算變量精度近似的閾值;d是鄰域半徑，記輸出結果為Red。然后按如下步驟進行:

第1步 ?a∈Ac計算等價關系Ra，?a∈An，計算鄰域關系Na。

第2步令Red=φ，其中Red為已選擇的特征構成的集合。?ai∈A － Red，計算 γRed∪a(D)=γRed(D)，這里定義

第3步選擇滿足 SIG(ak，Red，D)=SIG(ai，Red，D))的特征 ak。

第4步如果 SIG(ak，Red，D)＞ε(其中 ε 是用來控制收斂性的一個正數)，則令Red=Red∪ak，回到第2步，直到所有的ai∈A－Red都被進行上述選擇為止。

第5步給出最終被選擇特征的集合Red。

設M={x1，x2…xn}是某一個類S的訓練集，訓練集中的每個樣本包括p個屬性X1，X2…Xp，經過鄰域粗糙集方法進行特征選擇后p個屬性變為m個屬性，分別記為X'1，X'2…X'm。用經過鄰域粗糙集特征選擇后的樣本集合代替原始樣本進行下面的距離判別。

1.2 兩分類問題的距離判別

傳統的距離判別使用的距離多為歐氏距離［15－16］，但歐氏距離中每個坐標對其的貢獻是同等的，當坐標軸表示測量值時，往往帶有大小不等的隨機波動，合理的方法是對坐標加權。同時，歐氏距離的另一個缺點就是當個分量為不同性質的量時，“距離”的大小往往與指標的單位有關系。基于上述缺點，本文為了消除各指標量綱之間的差別對分類的影響，采用馬氏距離作為分類依據。

設x'1，x'2…x'n的均值向量為μ，協方差矩陣為∑。給定待判樣本x，記dm(x，S)為x與類S之間的馬氏距離，并以此距離來度量x與類S之間的相似性，為了方便直接計算d2(x，S)，

對于兩分類問題，設S1、S2是2個類，分別從2類中選擇n個樣本，每個樣本有p個指標，記為S1={x1，x2…xn}。用鄰域粗糙集進行特征選擇后上述訓練集變為 M1={x'1，x'2…x'm}，M2={y'1，y'2…y'l}(m，l＜n)。設 M1、M2的均值向量分別為μ1、μ2，協方差矩陣分別為 Σ1、Σ2，待測樣本 x 與 S1、S2之間的馬氏距離分別記為 dm(x，S1)和dm(x，S2)。分以下情況討論:

1) 當 Σ1= Σ2= Σ 時，考察)與(x，S2)的差，則有

2) 當 Σ1≠Σ2時，可用

進行判別，判別準則同式(3)。

實際中參數μ1、μ2和Σ都是未知的，通常通過樣本數據取其無偏估計。將上述估計值代入式(2)、(4)計算即可。

基于鄰域粗糙集的距離判別算法的步驟如下:

1)對于每類的訓練集樣本，用鄰域粗糙集的方法進行特征選擇，具體做法如本文1.1節所述。

2)將每類的訓練集樣本數據用選出的特征表示，計算出各類訓練集的均值向量和方差。

3)對于給定的待判樣本x，根據式(2)或(4)計算x與各類訓練集的馬氏距離之差。

4)根據式(3)判斷x的歸屬。

2 實驗分析

信用風險評級是借貸機構根據客戶提供的信息，構造某種分類器對其進行分類，以便做出正確的借貸決策，確保損失達到最小的過程。對一組德國的信用數據［15］用本文的方法進行分類實驗。該數據包括1 000個樣本，其中700個樣本屬于“信用好”型，另外的300個樣本屬于“信用差”型。每個樣本含有包括借貸目的、借貸金額、工作性質，以及個人信息在內的24項衡量指標。為了說明該法的分類有效性，同時對此數據用 Linear SVM，RBF-kernel SVM等方法進行分類，并將結果進行比較。實驗結果包括2類各自的分類準確率和總體分類準確率。為了方便設定為“信用好”型和“信用差”型，總體的分類準確率分別記為a1、a2、a，測試集中被正確分為“信用好”“信用差”，被正確分類的樣本書分別記為b1、b2、b，測試集為“信用好”“信用差”，測試集總的樣本數分別記為c1、c2、c，則:

將24項衡量指標分別記為 x1，x2…x24，經過鄰域粗糙集特征選擇后被選出的特征為x1，x2，x3，x4，x6，x7，x8，x9，x11，x12，x13，x14。實驗中每類分別隨機選取40、60、80、100、120、140、160、180 個樣本作為訓練集，剩余樣本作為測試集，每種情況重復實驗20次，最后取平均值作為該情況下的結果。實驗結果如表1～3所示。

表1 “信用差”型分類準確率比較

表2 “信用好”型分類準確率比較

表3 總體分類準確率比較

從表1可以看出當訓練集樣本數為80、100、120、140、180時，本文提出的方法對“信用差”型樣本的分類效果要優于其他2種方法。由于將一個本屬于“信用差”的樣本誤判帶來的損失要遠遠大于將一個本屬于“信用好”的樣本誤判帶來的損失，所以提高“信用差”型樣本的分類準確率是信用風險評級的一個最為重要的目標。從表1看到:當訓練集樣本數量大于等于60時該法對“信用差”型樣本的分類準確率均超過了70%。這也說明了該方法的有效性。

從表2可以看到當訓練集樣本為40、60、80、140時本文提出的方法對于“信用好”這類的分類準確率要高于其他2種方法。同時，本文提出的方法對于“信用好”這類的分類準確率大都在70%以上。

從表3可以看到當訓練集樣本數量為40、80、100、120、140、180時本文提出的分類方法的總體準確率超過了其他2種方法，而當訓練集樣本數為60、160時RBF SVM方法效果較好。

根據上述實驗結果認為，基于鄰域粗糙集和距離判別信用風險評級方法是一種更為有效的評級方法。

3 結束語

本文提出了一種基于鄰域粗糙集和距離判別的信用風險評級方法。通過鄰域粗糙集特征選擇去掉了樣本中的冗余信息，快速降低了樣本屬性的維數，簡化了計算過程。距離判別中采用馬氏距離，消除了各屬性量綱差異對分類帶來的不良影響。應用該法對現實數據進行實驗。結果表明，基于鄰域粗糙集和距離判別的信用風險評級方法是一種更為有效的分類方法。

［1］Angelini E，Tollo G，Roli A.A neural network approach for credit risk evaluation［J］.The Quarterly Review of E-conomics and Finance，2008，48(4):733 －755.

［2］Bellotti T，Crook J.Support Vector machines for credit scoring and significant features.［J］.Expert systems with Applications，2009，36(2):3302 －3308.

［3］Danenas P，Garsva G，Saulius Gudas.Credit Risk Evaluation Model Development Using Support Vector Based Classifiers［J］.Procedia Computer Science，2011(4):1699－1707.

［4］余珺，鄭先斌，張小海.基于多核優選的裝備費用支持向量機預測法［J］.四川兵工學報，2011(6):118－119.

［5］萬輝.一種基于最小二乘支持向量機的圖像增強算法［J］.重慶理工大學學報:自然科學版，2011(6):53－57.

［6］鄔嘯，魏延，吳瑕.基于混合核函數的支持向量機［J］.重慶理工大學學報:自然科學版，2011(10):66－70.

［7］Bee Wah Yap，Seng Huat.Nor Huselina Mohamed Husain Mohamed Husain.Using data mining to improve assessment of credit worthiness via credit scoring models［J］.Expert Systems withApplication，2011，38(10):13274－13283.

［8］Lean Y，Yao X，Wang S Y.Credit risk evaluation using a weighted least squares SVM classifier with design of experiment for parameter selection［J］.Expert systems with Application，2011，38(12):15392 －15399.

［9］Yao P，Lu Y H.Neighborhood rough set and SVM based hybrid credit scoring classifier［J］.Expert systems with Application，2011，38(9):11300 －11304.

［10］Hu Q H，Daren Yu，Liu J F.Neighborhood rough set based heterogeneous feature subset selection［J］.Information Sciences，2008，178:3577 －3594.

［11］Meng Z Q，Shi Z Z.Extended rough set-based attribute reduction in inconsistent incomplete decision systems.［J］.Information Sciences，2012，204:44 －69.

［12］Zhang S W，Huan D S，Wang S L.A method of tumor classification based on wavelet packet transforms and neighborhood rough set［J］.Computers in Biology and Medicine，2010，40:430 －437.

［13］Pawlak Z.Rough sets［J］.International Journal of Computer and Information Science，1982，11:341 －356.

［14］王磊，王金山，沈浮.一種基于灰色絕對關聯度的變精度粗糙集模型［J］.重慶理工大學學報:自然科學版，2012(5):123－126.

［15］Zhou X F，Jiang W H，Shi Y.Credit risk evaluation by using nearest subspace method［J］.Procedia Computer Science，2010(1):2449 －2455.

［16］Zhou X F，Jiang W H，Shi Y.Credit risk evaluation with kernel-based affine subspace nearest points learning method［J］.Expert systems with Application，2011，38(4):4272－4279.