[摘要] 本文提出模糊支持矢量機的模糊規則提取方法,針對當前SVM的常見模型參數選擇的方法的不足,引入遺傳算法的自動模型選擇優化方法;考慮到信用評級數據的非線性特征,提出了新的信用評級核主成分(KPCA)的特征提取方法,減少指標間的相關性,提高模型的預測精度;使用上市公司數據進行了實證分析,實驗結果證明了該信用評級方法優于神經網絡的方法,證明了該方法適用性。
[關鍵詞] 信用評級 模糊支持矢量機 核主成分 神經網絡
一、引言
近年來,隨著全球日益劇烈的經濟波動和金融創新的發展,國際銀行業面臨的風險日益復雜,而信用風險是導致銀行資產質量下降、出現流動性危機的主要根源,也是導致區域性及至全球性金融危機的根本原因之一。《新巴塞爾資本協議》要求各國銀行采取內部評級法(Internal Ratings-Based Approach IRB)對客戶的信用狀況進行評估,并將結果轉換為對未來潛在損失量的估計值,以此構成確定最低資本要求的基礎。我國作為巴塞爾委員會的成員國,只有運用先進信用評級方法和技術,才能建立與國際接軌的信用評級體系,增強市場競爭力,持續、健康、穩定地發展。
特征提取是數據降維技術,目的是在保留盡可能多的信息的前提下,通過特征組合生成新的特征,盡可能的減少信息損失、減少冗余以降低特征集的維度。常用的特征提取方法包括主成分分析(PCA,Principal Component Analysis),Karhunen-Loeve變換、因子分析和粗糙集等,本文提出新的核主成分特征提取。
二、核函數主成分分析
對樣本集{x1,…,xn}主成分方向是矩陣的特征向量。對x進行非線性變換φ(x),且滿足則新樣本協方差為其特征向量v就是原樣本集的非線性主成分方向,滿足λv=Cv,將每個樣本與該式內積,得
,特征向量。定義矩陣
可以得到:,其中a=[a1,a2,…,an]T設特征值大于0的特征向量為a1,a2,…,ap,將vr歸一化(r=1,…,p),向量x在變換空間中的主成分是φ(x)在vr上的投影;作為樣本的提取特征。實際中不一定滿足K用
代替,其中In是系數為的n維單位矩陣。滿足選擇P個最大特征值對應的特征向量構成P維特征子空間。KPCA特征提取算法的步驟可歸結為:(1)初始化輸入樣本x,計算核矩陣。(2)在特征空間計算其特征值并標準化特征值;(3)找出最大的特征值和對應的特征向量;(4)對樣本特征指標參數進行綜合,提取樣本的分類特征,實現樣本特征提取。
三、基于遺傳算法的支持矢量機
1.支持矢量機原理
支持向量機是從線性可分最優分類面發展的,最優分類線要求分類線能將兩類樣本正確分開,使分類間隔最大,分類線為w·x+b=0,對它進行歸一化,使得對線性可分的樣本集(xi,yi),i=1,…,n,xi∈Rd滿足yi[(w·xi)+b]≥1,…,i=1,…,n,此時分類間隔等于使間隔最大等價于使最小,解上述問題后得到的最優分類函數是:。
通過核函數的映射可以將SVM推廣為非線性模型,SVM中模型核函數和參數的選擇是SVM中模型泛化性能好壞的關鍵,常用的是交叉驗證法,其中較為有效的是“留一法”(leave-one-out,簡稱LOO),計算量非常龐大;Chapelle等應用梯度下降算法,Keerthi采用擬牛頓法,此類基于梯度的數值方法可能會陷于局部最優解。遺傳算法(genetic algorithm,簡稱GA)是一類借鑒生物界自然選擇和自然遺傳機制的隨機搜索算法,較以往傳統的搜索算法具有使用方便、魯棒性強、便于并行處理等特點。由于遺傳算法善于全局搜索,且能以較大的概率找到全局最優解,本文引入GA選擇優化模型參數。
2.實值遺傳SVM算法
實值遺傳SVM算法步驟:
(1)編碼:采用實值編碼策略,確定高斯核函數和模型的結構參數C,對模型參數θ=(C,a)的進行編碼,C范圍為[1 10000], a范圍為(0,2);
(2)初始化種群:隨機產生n個參數值矩陣構成初始種群,每個矩陣行向量代表一組待訓練的SVM模型參數;
(3)評價:對每個SVM學習訓練,計算評價函數值,并保留最優個體;
(4)遺傳操作:依次進行選擇、交換、變異、SVM學習訓練,保留最優個體,并計算評價函數值。若誤差達到指定的精度,則轉(5),否則,轉(4);
(5)根據C,a,建立SVM模型,求解二次規劃問題,解得Lagrange系數,計算出b。
(6)從SVM決策函數中抽取模糊規則,得到決策規則
(7)用決策函數進行預測。
遺傳操作算子適應度函數:n是樣本個數,yi是樣本目標值,oi是預測值,Chapelle等提出:其中R為包含樣本的半徑。
四、SVM模型在信用評級中的應用
采用上市公司的財務報表數據進行信用評級(數據來源于中誠信國www.ccxi.com.cn),選用12個指標來衡量企業的財務狀況:主營業務毛利率;所有者權益收益率;EBITDA/主營業務收入;速動比率;經營活動凈現金/總債務;經營活動凈現金/短期債務;經營活動凈現金/利息支出;EBITDA利息倍數;總債務/ EBITDA;資產負債率;總債務/總資本;長期資本化比率。企業樣本數據被分為了兩類,第一類22個樣本代表受評對象償還債務的能力較強,違約風險較低;第二類23個樣本代表受評對象違約風險較高。隨機選取26個樣本作為訓練樣本,其他19個作為模型測試測試樣本。對原始特征進行KPCA特征提取,根據樣本的取值范圍設置核參數為10的高斯核函數,指標壓縮為10個特征組合,新特征集累計解釋了原始特征集95.29%的方差,因此特征提取后基本保留了所有信息。訓練支持矢量機模型,遺傳算法取變異概率為0.1,交叉率為0.6,訓練SVM模型的測試準確率可達到89.47%。
五、結論
為了說明SVM模型處理企業信用數據的能力,本文將SVM模型的處理結果與神經網絡的處理結果進行對比。將GA用于多層前向神經網絡的權值和閾值的優化,隱層節點數5,訓練10000次得到神經網絡對測試樣本準確率僅為78.95%。基于小樣本RGA-SVM模型比神經網絡模型具有更好的預測精度,在我國信用評級數據缺乏的背景下,驗證了模型在信用評級達到了較好的效果,對我國商業銀行信用評級體系的建立,具有實際應用和指導意義。
參考文獻:
[1]宋余慶羅永剛:應用主分量分析與粗糙集處理的特征提取[J].計算機上程與應用,2004(22):48~50
[2]宣國榮鄭俊翔:巴氏距離和K-L變換結合的特征選擇[J].計算機上程與應用,2004(36):90~92
[3]范金城梅長林:數據分析[M].科學出版社,2002
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。