999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于鄰域粗糙集和距離判別的信用風險評級

2013-08-01 11:38:30郭春花
關鍵詞:分類方法

郭春花

(重慶大學數學與統計學院,重慶 401331)

信用風險評級是金融管理領域的熱門話題。一些傳統和非傳統的方法如多元統計分析、人工神經網絡[1]、支持向量機[2-6]、數據挖掘[7]等已被廣泛應用到該領域,并取得了大量的研究成果。隨著技術的進一步發展,一些綜合的方法[8-9]也被廣泛應用于信用風險評級中。我國的信用分析和評估技術仍處于傳統的比率分析階段,信用風險的分析仍然是以單一投資項目、貸款和證券為主,對衍生工具、表外資產的信用風險以及信用集中風險的評估尚屬空白。信用數據多具有高維性特點,且既有數值型屬性也有類別型屬性,與單一的數值型屬性相比,在處理上更為復雜。鄰域粗糙集方法與其他降維方法相比是一種軟計算方法,無需提供樣本數據之外的任何先驗知識或附加信息,對不確定性的描述有具體的數學公式,減少了算法的隨意性,近年來在數據降維[10-11]和分類問題[9,12]中得到了廣泛應用。同時信用數據的數值型屬性在量綱上的差異較大,所以在信用評級中考慮量綱的差異具有重要意義。基于上述問題,本文提出了一種基于鄰域粗糙集和距離判別的信用風險評級方法。用鄰域粗糙集對訓練樣本數據作降維處理,去掉冗余的數據,簡化計算過程。距離判別中采用馬氏距離消除了數據在量綱上的差異對分類的影響。最后通過實驗對該方法的有效性進行了驗證。

1 基于鄰域粗糙集特征選擇的距離判別

1.1 特征選擇的鄰域粗糙集方法

設分類樣本含有p個變量,它們構成p維隨機向量X=(X1,X2…Xp)T。為了避免遺漏重要信息,往往要考慮盡可能多的與分類有關的屬性,此時會產生2個問題:①隨著屬性個數p增大,計算量顯著增加,問題分析的復雜性明顯提高;②各屬性之間存在著一定的相關性,使得觀測樣本反映的信息在一定程度上有重疊。

為了解決上述2個問題,本文采用鄰域粗糙集方法對樣本變量進行選擇。

粗糙集[13-14]理論最早是由Pawlak提出來的,它可以挖掘屬性之間的相關性,選擇相關屬性,去掉無關屬性,實現數據降維。本文的鄰域粗糙集特征選擇對屬性集中的數值型屬性和類別型屬性分別作了討論。對類別型屬性考慮的是它們的等價關系,對數值型屬性考慮的是它們的鄰域關系。鄰域定義如下:?xi∈U,xi的鄰域關系為

Δ 是 距 離 函 數, 通 常 Δp(xi,xj)=上、下近似分別定義為:

鄰域粗糙集屬性選擇采取前向貪心搜索策略,通過測試加入新的候選屬性后度量指標的變化來生成新的屬性集,以粗糙集屬性依賴度作為度量指標。屬性依賴度的具體描述如下:

設a∈A -BSIG(a,B,D)=γB∪a(D)- γB(D)=POSR(B∪a)-POSR(B),其中R是U上的等價關系,POSR(B∪a)和POSR(B)分別表示B∪a,B的正域。SIG(a,B,D)反映了屬性 a的增加對信息量的影響,顯然 SIG(a,B,D)∈[0,1]。如果 SIG(a,B,D)=0,說明屬性a的增加沒有增加任何的信息,因此a是完全多余的,可以將其刪除,從而降低特征的維數,減少計算量。

鄰域粗糙集特征選擇的具體步驟:

根據給定的信用數據集合,構造并輸入決策表(U,Ac∪An∪D)以及 β、d,其中:Ac、An分別代表類別型屬性集和數字型屬性集;β是一個計算變量精度近似的閾值;d是鄰域半徑,記輸出結果為Red。然后按如下步驟進行:

第1步 ?a∈Ac計算等價關系Ra,?a∈An,計算鄰域關系Na。

第2步 令Red=φ,其中Red為已選擇的特征構成的集合。?ai∈A - Red,計算 γRed∪a(D)=γRed(D),這里定義

第3步 選擇滿足 SIG(ak,Red,D)=SIG(ai,Red,D))的特征 ak。

第4步 如果 SIG(ak,Red,D)>ε(其中 ε 是用來控制收斂性的一個正數),則令Red=Red∪ak,回到第2步,直到所有的ai∈A-Red都被進行上述選擇為止。

第5步 給出最終被選擇特征的集合Red。

設M={x1,x2…xn}是某一個類S的訓練集,訓練集中的每個樣本包括p個屬性X1,X2…Xp,經過鄰域粗糙集方法進行特征選擇后p個屬性變為m個屬性,分別記為X'1,X'2…X'm。用經過鄰域粗糙集特征選擇后的樣本集合代替原始樣本進行下面的距離判別。

1.2 兩分類問題的距離判別

傳統的距離判別使用的距離多為歐氏距離[15-16],但歐氏距離中每個坐標對其的貢獻是同等的,當坐標軸表示測量值時,往往帶有大小不等的隨機波動,合理的方法是對坐標加權。同時,歐氏距離的另一個缺點就是當個分量為不同性質的量時,“距離”的大小往往與指標的單位有關系。基于上述缺點,本文為了消除各指標量綱之間的差別對分類的影響,采用馬氏距離作為分類依據。

設x'1,x'2…x'n的均值向量為μ,協方差矩陣為∑。給定待判樣本x,記dm(x,S)為x與類S之間的馬氏距離,并以此距離來度量x與類S之間的相似性,為了方便直接計算d2(x,S),

對于兩分類問題,設S1、S2是2個類,分別從2類中選擇n個樣本,每個樣本有p個指標,記為S1={x1,x2…xn}。用鄰域粗糙集進行特征選擇后上述訓練集變為 M1={x'1,x'2…x'm},M2={y'1,y'2…y'l}(m,l<n)。設 M1、M2的均值向量分別為μ1、μ2,協方差矩陣分別為 Σ1、Σ2,待測樣本 x 與 S1、S2之間的馬氏距離分別記為 dm(x,S1)和dm(x,S2)。分以下情況討論:

1) 當 Σ1= Σ2= Σ 時,考 察)與(x,S2)的差,則有

2) 當 Σ1≠Σ2時,可用

進行判別,判別準則同式(3)。

實際中參數μ1、μ2和Σ都是未知的,通常通過樣本數據取其無偏估計。將上述估計值代入式(2)、(4)計算即可。

基于鄰域粗糙集的距離判別算法的步驟如下:

1)對于每類的訓練集樣本,用鄰域粗糙集的方法進行特征選擇,具體做法如本文1.1節所述。

2)將每類的訓練集樣本數據用選出的特征表示,計算出各類訓練集的均值向量和方差。

3)對于給定的待判樣本x,根據式(2)或(4)計算x與各類訓練集的馬氏距離之差。

4)根據式(3)判斷x的歸屬。

2 實驗分析

信用風險評級是借貸機構根據客戶提供的信息,構造某種分類器對其進行分類,以便做出正確的借貸決策,確保損失達到最小的過程。對一組德國的信用數據[15]用本文的方法進行分類實驗。該數據包括1 000個樣本,其中700個樣本屬于“信用好”型,另外的300個樣本屬于“信用差”型。每個樣本含有包括借貸目的、借貸金額、工作性質,以及個人信息在內的24項衡量指標。為了說明該法的分類有效性,同時對此數據用 Linear SVM,RBF-kernel SVM等方法進行分類,并將結果進行比較。實驗結果包括2類各自的分類準確率和總體分類準確率。為了方便設定為“信用好”型和“信用差”型,總體的分類準確率分別記為a1、a2、a,測試集中被正確分為“信用好”“信用差”,被正確分類的樣本書分別記為b1、b2、b,測試集為“信用好”“信用差”,測試集總的樣本數分別記為c1、c2、c,則:

將24項衡量指標分別記為 x1,x2…x24,經過鄰域粗糙集特征選擇后被選出的特征為x1,x2,x3,x4,x6,x7,x8,x9,x11,x12,x13,x14。實驗中每類分別隨機選取40、60、80、100、120、140、160、180 個樣本作為訓練集,剩余樣本作為測試集,每種情況重復實驗20次,最后取平均值作為該情況下的結果。實驗結果如表1~3所示。

表1 “信用差”型分類準確率比較

表2 “信用好”型分類準確率比較

表3 總體分類準確率比較

從表1可以看出當訓練集樣本數為80、100、120、140、180時,本文提出的方法對“信用差”型樣本的分類效果要優于其他2種方法。由于將一個本屬于“信用差”的樣本誤判帶來的損失要遠遠大于將一個本屬于“信用好”的樣本誤判帶來的損失,所以提高“信用差”型樣本的分類準確率是信用風險評級的一個最為重要的目標。從表1看到:當訓練集樣本數量大于等于60時該法對“信用差”型樣本的分類準確率均超過了70%。這也說明了該方法的有效性。

從表2可以看到當訓練集樣本為40、60、80、140時本文提出的方法對于“信用好”這類的分類準確率要高于其他2種方法。同時,本文提出的方法對于“信用好”這類的分類準確率大都在70%以上。

從表3可以看到當訓練集樣本數量為40、80、100、120、140、180時本文提出的分類方法的總體準確率超過了其他2種方法,而當訓練集樣本數為60、160時RBF SVM方法效果較好。

根據上述實驗結果認為,基于鄰域粗糙集和距離判別信用風險評級方法是一種更為有效的評級方法。

3 結束語

本文提出了一種基于鄰域粗糙集和距離判別的信用風險評級方法。通過鄰域粗糙集特征選擇去掉了樣本中的冗余信息,快速降低了樣本屬性的維數,簡化了計算過程。距離判別中采用馬氏距離,消除了各屬性量綱差異對分類帶來的不良影響。應用該法對現實數據進行實驗。結果表明,基于鄰域粗糙集和距離判別的信用風險評級方法是一種更為有效的分類方法。

[1]Angelini E,Tollo G,Roli A.A neural network approach for credit risk evaluation[J].The Quarterly Review of E-conomics and Finance,2008,48(4):733 -755.

[2]Bellotti T,Crook J.Support Vector machines for credit scoring and significant features.[J].Expert systems with Applications,2009,36(2):3302 -3308.

[3]Danenas P,Garsva G,Saulius Gudas.Credit Risk Evaluation Model Development Using Support Vector Based Classifiers[J].Procedia Computer Science,2011(4):1699-1707.

[4]余珺,鄭先斌,張小海.基于多核優選的裝備費用支持向量機預測法[J].四川兵工學報,2011(6):118-119.

[5]萬輝.一種基于最小二乘支持向量機的圖像增強算法[J].重慶理工大學學報:自然科學版,2011(6):53-57.

[6]鄔嘯,魏延,吳瑕.基于混合核函數的支持向量機[J].重慶理工大學學報:自然科學版,2011(10):66-70.

[7]Bee Wah Yap,Seng Huat.Nor Huselina Mohamed Husain Mohamed Husain.Using data mining to improve assessment of credit worthiness via credit scoring models[J].Expert Systems withApplication,2011,38(10):13274-13283.

[8]Lean Y,Yao X,Wang S Y.Credit risk evaluation using a weighted least squares SVM classifier with design of experiment for parameter selection[J].Expert systems with Application,2011,38(12):15392 -15399.

[9]Yao P,Lu Y H.Neighborhood rough set and SVM based hybrid credit scoring classifier[J].Expert systems with Application,2011,38(9):11300 -11304.

[10]Hu Q H,Daren Yu,Liu J F.Neighborhood rough set based heterogeneous feature subset selection[J].Information Sciences,2008,178:3577 -3594.

[11]Meng Z Q,Shi Z Z.Extended rough set-based attribute reduction in inconsistent incomplete decision systems.[J].Information Sciences,2012,204:44 -69.

[12]Zhang S W,Huan D S,Wang S L.A method of tumor classification based on wavelet packet transforms and neighborhood rough set[J].Computers in Biology and Medicine,2010,40:430 -437.

[13]Pawlak Z.Rough sets[J].International Journal of Computer and Information Science,1982,11:341 -356.

[14]王磊,王金山,沈浮.一種基于灰色絕對關聯度的變精度粗糙集模型[J].重慶理工大學學報:自然科學版,2012(5):123-126.

[15]Zhou X F,Jiang W H,Shi Y.Credit risk evaluation by using nearest subspace method[J].Procedia Computer Science,2010(1):2449 -2455.

[16]Zhou X F,Jiang W H,Shi Y.Credit risk evaluation with kernel-based affine subspace nearest points learning method[J].Expert systems with Application,2011,38(4):4272-4279.

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 亚洲人成高清| 97一区二区在线播放| JIZZ亚洲国产| 最新加勒比隔壁人妻| 色哟哟国产精品一区二区| 伊人久久青草青青综合| 久久久久青草大香线综合精品| 国产欧美日韩va另类在线播放| 亚洲精品波多野结衣| 午夜视频免费一区二区在线看| 97影院午夜在线观看视频| 国内精品久久人妻无码大片高| 国产成人亚洲无码淙合青草| 国产免费黄| 男人天堂亚洲天堂| 日韩欧美中文字幕在线精品| 日韩精品免费一线在线观看 | 在线观看视频99| 精品无码一区二区三区在线视频| 色天天综合| 在线欧美a| 91麻豆精品国产91久久久久| 国产精品免费电影| 久草热视频在线| 精品国产美女福到在线直播| 亚洲综合久久一本伊一区| 在线精品亚洲国产| 成人字幕网视频在线观看| 久久国产毛片| 青青青视频免费一区二区| 在线播放真实国产乱子伦| 成年午夜精品久久精品| 91热爆在线| 福利国产微拍广场一区视频在线| 亚洲成年人片| 久热中文字幕在线| 一级毛片在线免费视频| 欧美日韩专区| 中文字幕免费播放| 欧美成人午夜影院| 无码国产伊人| 黄色免费在线网址| 亚洲第一成人在线| 中文字幕首页系列人妻| 伊人久久综在合线亚洲2019| av午夜福利一片免费看| 57pao国产成视频免费播放| 一级毛片免费观看不卡视频| 亚洲国产精品美女| 人人妻人人澡人人爽欧美一区| 国产 在线视频无码| 手机在线看片不卡中文字幕| 日韩色图区| 在线欧美日韩国产| 精品人妻无码中字系列| 亚洲无线一二三四区男男| 国模视频一区二区| 色九九视频| 伊人天堂网| 国产97视频在线| 青青草原国产精品啪啪视频| 亚洲精品无码高潮喷水A| 91在线播放免费不卡无毒| 色综合久久综合网| 午夜无码一区二区三区在线app| 91www在线观看| 午夜影院a级片| 亚洲欧美一区二区三区图片 | 2024av在线无码中文最新| 国产午夜看片| 欧美激情视频二区| 日韩第一页在线| 久久人搡人人玩人妻精品| 99精品久久精品| 99久久亚洲精品影院| av尤物免费在线观看| 午夜爽爽视频| 五月婷婷综合在线视频| 亚洲欧美成人在线视频| 成人精品区| 性激烈欧美三级在线播放| 日韩无码视频播放|