滕樹軍 楊馥臨 劉柏森



上市公司是市場經濟的重要組成部分,其信用評價研究逐漸受到人們的重視。本文就高維數據下上市公司的風險評價問題提出了一種新的方法,首先運用主成分分析方法對影響上市公司信用風險的眾多因素進行降維,提取出若干個主成分變量;然后基于這些主成分變量,再運用支持向量機方法對上市公司的信用風險進行綜合測評。實證結果表明,與基于主成分分析和logistic回歸分析的方法,以及傳統的支持向量機方法相比較,基于主成分分析+支持向量機的方法的預測更加準確。
隨著市場經濟的不斷發展,信用問題日益深刻地影響著市場經濟的發展,如何對企業進行客觀準確的評價逐漸成為人們研究的重點。信用風險又稱違約風險,是指借款人、證券發行人或交易對方因種種原因,不愿或無力履行合同條件而構成違約,致使銀行、投資者或交易對方遭受損失的可能性。信用在整個社會經濟運行中起著非常重要的作用,在資本市場上,信用風險也是投資者最為關注的主要風險之一,上市公司的信用風險大小直接影響著股票、債券等有價值證券的價值。
近幾年我國有一大批研究學者投入到對信用風險的研究中,并且取得了一定成果,所采用的方法主要有神經網絡、判別分析、因子分析和logistic回歸分析等。韓靜(2005)運用概率神經網絡的方法對企業信用進行了評定。張玲(2000)采用判別模型對我國上市公司的財務預警進行了分析。油永華(2006)首先運用主成分分析,提取出若干個主成分,然后基于主成分建立logistic回歸模型,對100家公司的8個財務指標進行了分析。張愛民,祝春山,許丹健(2010)運用主成分分析方法,提取主成分,最終得到主成分預測函數。謝春巖(2014)利用逐步回歸法在單變量logistic模型中剔除掉不顯著的變量,以及存在高度線性相關性的自變量后,對剩下的變量做多變量logistic回歸,最終得出信用風險評價模型。葛美玲,張為(2015)進行Mann-Whitney(M-W)檢驗以得到對信用良好的公司以及信用不好公司有顯著影響的指標,并建立logistic回歸模型。
本文的創新點在于:當財務指標個數較多且存在嚴重的多重共線性時,首先對原始數據進行主成分分析,提取出若干個互不相關的主成分,然后基于這些主成分,再借助于支持向量機在解決小樣本、非線性及高維度模式識別中所表現出的眾多優勢.來對上市公司的信用風險進行預測。實證結果表明:本文提出的主成分分析+支持向量機(PCA-SVM)的方法,其預測效果要高于傳統的主成分分析+logistic回歸方法(PCA-logistic),以及傳統的支持向量機方法( SVM)。
主成分分析及支持向量機方法
主成分分析方法。在回歸分析中,當解釋變量個數較多且存在多重共線性時,傳統的回歸方法的擬合優度會比較低。一種常用的方法是主成分分析(PCA),將多個原始變量進行旋轉壓縮,提取出幾個彼此不相關的主成分作為新變量,從而起到降維的作用,并能充分利用數據的信息。
支持向量機方法。支持向量機(SVM)是一種專門解決小樣本統計學習規律的方法,它的核心是引入核映射的思想與結構風險的概念,其基本模型是定義在特征空間上的間隔最大的線性分類器。支持向量機的學習策略就是間隔最大化,其學習方法包含建構由簡至繁的模型:線性可分支持向量機,線性支持向量機及非線性支持向量機。目前,該方法已經廣泛應用于經濟、金融、物理、工程等領域。
實證分析
數據的采集
本文選擇上市公司財務指標來研究企業信用風險,并用被特殊處理(ST)的公司作為信用不良的公司,未被特殊處理(非ST)的公司作為信用良好的公司。本文搜集到的數據來自國泰安數據庫,為2016年1月至12月我國滬市和深市中所有上市公司的財務比率數據,經處理缺失值、刪除無記錄公司等處理之后的數據集有2664家信用良好的公司,有113家信用不好的公司,為了保證數據的平衡性,本文按照1:1的比例隨機抽選信用良好和信用不好的上市公司,共選擇226家公司,其中,隨機選取了80家信用良好的公司與80家信用不好的公司作為訓練集,用以建立模型;剩下的33個ST公司及33個非ST公司作為測試集,用來檢驗模型效果。
本文從上市公司的眾多財務指標中,從七個方面共選取了31個財務指標進行研究,從而對上市公司的信用評定進行預測。這31個財務指標分別為:償債能力(流動比率、速動比率、現金比率、利息保障倍數、資產負債率、長期資本負債率),比率結構(流動資產比率、固定資產比率、流動負債比率、金融負債比率),公司的盈利能力(資產報酬率、投資收益率、總資產凈利潤率、投入資本回報率、長期資本收益率、營業毛利率),經營能力(應收賬款周轉率、存貨周轉率、流動資產周轉率、固定資產周轉率),現金流量(營業收入現金比率、現金適合比率、營運指數),公司發展能力(可持續增長率、資本積累率、固定資產增長率、利潤總額增長率、總資產增長率),相對價值(市盈率、市銷率、市現率)。
基于主成分分析+支持向量機(PCA-SVM)的信用評定
(1)主成分分析
首先,利用R軟件的cor()函數查看原始數據的相關系數矩陣(見表1)。從表1中可以看出,有些變量之間存在很強的相關關系,因此,我們需要通過主成分分析對原始數據做線性組合,提取主成分,可以在盡量損失較少原始數據信息的情況下,有效地對原始數據進行降維,且所得各個主成分之間互不相關。
對訓練集數據運用主成分分析法提取主成分,首先對數據做標準化處理,剔除量綱對方差計算的影響,然后通過主成分旋轉使得成分載荷矩陣變得容易解釋,同時也達到對成分去噪的效果。本文選擇最通用的方差極大旋轉方法,該方法可以對載荷矩陣的列進行去噪,使得每個成分只是由一組有限的變量來解釋。
圖1中展示了基于觀測特征值的碎石檢驗(由線段和x符號組成),根據100個隨機數據矩陣推導出來的特征值均值(虛線),以及大于1的特征值準則(y=l的水平線)。我們提取特征值大于1的主成分,最終選擇提取16個主成分,其累積解釋程度達到90.74%,可以很好的代表原始數據。
(2)支持向量機模型的建立
本文借助于R軟件的e1071程序包中的svm()函數,來建立支持向量機模型,并使用predict()函數及fitted()函數來依據所建立的支持向量機模型對數據進行分類。在支持向量機模型中,核函數的選擇和分類方式直接影響著支持向量機的回歸性能的好壞,本文采用C-classification分類方式和徑向基核函數,因為使用C-classification分類方式和徑向基核函數的支持向量機,其性能優于基于其它分類方式和其它核函數的支持向量機。
本文通過tune.svm()函數來擬合訓練集數據,對模型參數進行自動尋優,找出模型中的最優gamma和cost參數:bestgamma=0.25,best cost=4,并建立SVM模型。為檢驗所提出的方法的有效性,我們利用所建立的模型對測試集數據進行預測和判別,并將預測結果和真實結果相比較(見表2)。
為衡量不同的方法對上市公司信用評定的判別效果和預測效果,我們采用下述評價準則:
由此可以算出,PCA-SVM方法的預測精度為0.7879。
基于原始數據的支持向量機(SVM)的信用評定
作為對比,我們基于原始數據建立傳統的支持向量機模型,選用C-classification分類方式和徑向基核函數,采用tune.svm()函數來對模型參數進行自動尋優,得到模型中的最優gamma和cost參數為:bestgamma=0.5,best cost=4。利用所建立的模型對測試集數據進行預測和判別,并將判別結果亦列于表2,同時可算得SVM方法的預測精度為0.6667。
基于主成分分析+logistic( PCA-logistic)的信用評定
作為對比,我們還建立了基于主成分分析與logistic回歸分析的模型來對上市公司的信用評價進行了判別和預測,其結果亦列于表2中,并計算出該方法的預測精度為0.6212.
從表2可以看出:(1)基于原始數據的支持向量機方法,與基于主成分分析的支持向量機方法相比,后者的判別效果更好,預測精度更高。這是由于影響上市公司信用的31個財務指標存在多重共線性和高度相關,我們先采用主成分分析,可以有效地減少多重共線性對分析結果的影響;(2)采用主成分分析后.支持向量機模型的判別效果比logistic回歸模型的判別效果好,這說明在上市公司的信用風險評價問題上,使用主成分分析進行降維后,再利用支持向量機的方法進行預測有一定的優勢,能夠提高預測精度,擁有更好的預測性能。
由于影響上市公司信用評價的財務指標較多,且存在嚴重的多重共線性,我們利用主成分分析方法,對原始數據進行降維處理,選取了16個主成分,其對原數據累積方差解釋性達到90.74%。作為對比,我們分別采用了三種方法對上市公司的信用風險進行預測:基于主成分的支持向量機方法、基于主成分的logistic回歸分析方法、基于原始數據的支持向量機方法。實證結果表明:以上三種方法中,PCA-SVM的方法更具備有效性和優越性,其預測精度要明顯高于SVM和PCA-logistic方法。由此可以預期:PCA-SVM方法在諸如上市公司、企業、個人、銀行等對象的信用風險測評方面會有良好的應用前景。