摘 要:由于支持向量機(SVM)在處理小樣本、高維數及泛化性能強等方面的優勢,提出了一種基于投影尋蹤(PP)和支持向量機的模式分類方法。利用PP方法把高維數據轉換到低維子空間,同時用加速遺傳算法獲得最佳投影方向和投影值,揭示了高維數據的結構特征,然后在低維空間中用SVM對特征向量進行分類識別,并將其應用到銀行信貸風險評估中。選用2005年度80家貸款申請企業的數據樣本,對該模型進行驗證,通過與神經網絡模型的比較,證實了該方法用于模式識別的有效性及優越性。
關鍵詞:支持向量機; 投影尋蹤; 信貸風險評估
中圖法分類號:TP391.4文獻標識碼:A
文章編號:1001—3695(2007)02—0086—03
投影尋蹤(Projection Pursuit,PP)[1]是國際統計界于20世紀70年代中期發展起來的一種新的、有價值的高新技術,是統計學、應用數學和計算機技術的交叉學科。它是用來分析和處理高維觀測數據,尤其是非正態、非線性高維數據的一種新興統計方法。其基本思想是將高維數據投影到1—3維子空間上,尋找能夠反映高維數據的結構或特征的投影,以達到研究分析高維數據的目的。目前,它已在多元統計分析中得到廣泛應用。
支持向量機(Support Vector Machine,SVM)是一種新型的統計學習方法,是借助最優化方法解決機器學習問題的新工具,其理論基礎是統計學習理論。它最初于20世紀90年代由Vapnik[2]提出,由于其出色的學習性能,該技術已成為機器學習界的研究熱點,并且在很多領域都得到了成功的應用,如文本分類、銀行信貸風險評估、圖像識別等。將投影尋蹤方法與支持向量機有機結合,可望有效地解決模式識別問題。
1 基于PP特征提取和SVM的模式分類方法
1.1 投影尋蹤算法理論[3]
PP是模式識別中一種有效的特征提取方法,其目的是用較少數量的特征對樣本進行描述,以降低特征空間的維數,同時又能保留所需要的識別信息,達到研究和分析高維數據的目的。
根據{Z(i)}的一維散布圖進行分類。為了在多維指標中找到數據的結構組合特征,在綜合投影指標值時,要求投影值Z(i)的散布特征應滿足局部投影點盡可能密集,最好凝聚成若干個點團,而在整體上投影點團之間盡可能散開。因此,投影指標函數可以表達成
(3)優化投影指標函數,確定最佳投影方向。不同的投影方向反映不同的數據結構特征,最佳投影方向就是盡最大可能反映高維數據某類特征結構的投影方向。因此可以通過求解投影指標函數最大化問題來估計最佳投影方向,即
1.2 支持向量機原理[6]
SVM是一種基于結構風險最小化原理的機器學習方法。它用于模式分類的基本思想是,通過求解凸二次規劃問題,尋找一個最優超平面,使得它能夠盡可能多地將兩類數據點正確地分開,同時使分開的兩類數據點距離分類面最遠。
其中使式(2)等號成立的輸入向量稱為支持向量,ξ為松弛變量,C為懲罰參數。
利用Lagrange優化方法可以將上述最優化問題轉換為其對偶問題:
1.3 模式分類實現過程
首先應用PP將指標體系(高維數據)投影到一維子空間上,然后應用SVM方法建立模式分類模型,求出最優超平面,最后利用最優超平面分析數據集。
2 基于PP和SVM的商業銀行信貸風險實證研究
近年來,隨著金融的全球化趨勢及金融市場的波動性加劇,商業銀行的風險管理一直是國際、國內金融界關注的焦點[7]。作為我國銀行業主體的國有銀行不僅其不良貸款額約占我國銀行總不良貸款額的80%,而且其不良貸款率也很高,面臨的不良貸款問題非常嚴峻,已成為我國金融體系穩定運行的主要隱患。如何化解和防范信貸風險,繼而避免由此引發的銀行呆賬、壞賬及信用危機,已是擺在中國金融業面前的迫切課題。因此,建立貸款企業的準確審核模型,對提高銀行信貸資產的安全性并減少不良資產的產生有著極其重要的意義。
下面我們將根據科學的指標體系,采用PP進行特征提取,然后再利用SVM對特征向量進行分類識別,對被評級單位履行經濟責任的能力以及可信任程度進行客觀公正的評價,并確定其信用等級[8]。
2.1 指標與數據
選取我國某國有銀行2005年度80家貸款申請企業的數據樣本,按照他們的財務狀況、經營狀況以及過往的信用記錄分為信用好和信用差兩個小組,其中信用好的小組是由那些如期還本付息的貸款企業構成;信用差的小組是由那些有可能拒絕還貸的企業構成。訓練集是由每個小組中的30個樣本構成,因此訓練集含有60(75%)個樣本,余下的20(2.5%)個樣本(信用好的有9個,信用差的有11個)構成測試集。
我們將考慮能反映貸款企業的還款能力、贏利能力、經營效率、經營周轉率和資金結構等七個財務比率,它們分別是:
負債比率x1=負債總額資產總額;主營業務凈利潤率x2=凈利潤主營業務收入;
凈資產收益率x3=銷售收入凈額凈資產;流動比率x4=流動資產流動負債;
速動比率x5=速動資產流動負債;存貨周轉率x6=產品銷貨成本平均存貨;
應收賬款周轉率x7=銷售凈額應收賬款總額
實際檢測中,可以根據具體要求,通過一定的方法從中進行選擇,確定最后應用于檢測的指標。
2.2 基于SVM和PP的檢測
如圖2和圖3所示,兩幅圖中的“*”和“o”分別表示測試樣本集中信用好的企業和信用差的企業。圖2表示20個測試點的真實值,圖3表示20個測試點的預測值。可以看出,20個測試點中絕大部分點被正確劃分,只有極少點劃分錯誤。
2.3 結果分析
表1列出了SVM與PP模型的結果,同時與神經網絡(NN)所建模型的結果進行了比較。神經網絡使用的是BP算法,由于神經網絡方法并不是一種穩定的方法,故表1中神經網絡的結果是15次的平均結果。表1中第一類錯誤是指將信用好的企業評判為信用差的企業,第二類錯誤是指將信用差的企業評判為信用好的企業。可以看出,SVM與PP在測試樣本集中的預測準確率達到了90%,明顯好于NN模型的83.17%;我們還發現,SVM與PP的第一類錯誤率和第二類錯誤率均小于NN的第一類錯誤率和第二類錯誤率;從識別速度,也就是指將原始數據輸入計算機得到最后結果的時間上看,SVM與PP也有很大提高。
3 結論
一個基本的模式識別系統主要是由數據獲取、預處理、特征提取和選擇以及分類決策所組成。本文主要對其后兩部分進行了討論,提出了一種基于投影尋蹤與支持向量機的模式分類方法。該方法首先利用投影尋蹤對傳統的指標進行特征提取,把多維評價指標綜合成一維投影指標,然后通過支持向量機構造廣義最優超平面。實驗表明,這一方法大大降低了特征空間的維數,并有很好的分類正確率。
本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。