南京信息工程大學經濟管理學院張夢男
基于支持向量機的上市公司信用評價研究
南京信息工程大學經濟管理學院張夢男
上市公司作為市場經濟重要組成部分,其信用評價研究逐漸受到人們重視,本文利用數據挖掘中支持向量機算法提出上市公司信用綜合評價方法,并利用此方法結合上海證券交易所上市公司數據進行實證分析,結果表明:該方法能夠很好地量化企業信用,通過實證分析發現上市公司信用狀況不僅與公司規模、公司性質(國有或者民營)、所屬行業有關,同時與產品及服務領域有著密切的關系。
支持向量機 信用評價 上市公司
隨著市場經濟的不斷發展,信用問題日益深刻的影響市場經濟的各個部分,因此如何對企業進行客觀準確的評價逐漸成為人們研究的重點。而上市公司因其數據的可獲得性一直是研究的熱點。劉淑蓮等(2008)將因子分析的方法運用到信用評級當中,采用十五個上市公司財務指標,同時結合聚類分析法建立了一套上市公司信用評價模型,這套模型在實證當中能夠很好地對上市公司的信用水平進行分類。以上方法基本思路都是通過建立指標體系,利用綜合評價方法對目標企業進行評價,雖然評價結果可以用定量的方式表示,具有一定的可信度,但仍然不能夠擺脫個人主觀判斷對評價的影響。因此讓數據自己說話的技術及數據挖掘方法被引入這一領域。李菁苗(2012)等利用層次分析法建立了一套包含四大類十五項評價指標的電子商務企業的信用評價體系,這些指標概括了電子商務企業經營能力、盈利能力、清償能力、發展能力、網絡營銷能力、網絡客服能力和網絡管理能力七個方面,較為全面的給出了能夠反映電子商務企業信用水平的指標。黃章樹(2011)運用數據挖掘方法中的支持向量機、BP神經網絡和C4.5決策樹算法結合機械制造業企業上市公司數據對機械制造業企業上市公司信用進行了研究,對比了三種方法的分類精度。閆海峰(2009)、遲晨(2010)等利用KMV模型結合上市公司財務數據建立了上市公司風險判別模型,指出該方法可以提前一到兩年預測上市公司違約風險。辛金國(2012)利用數據挖掘方法中的伸進網絡模型和C4.5決策樹模型分別構建了上市公司的績效評價體系并進行了實證分析,并利用變量重要性對影響上市公司績效的因素進行了分析。以上四種方法均采用的是ST(special treat)企業和非ST企業作為訓練樣和測試樣本。Petr Hájek(2011)利用神經網絡算法,穆迪信用評級結果作為輸出,選取經濟發展水平、負債水平、財務能力和管理水平四個方面的指標構建城市信用評價模型。Ching-Chiang Yeh(2011)等利用混合KMV模型、隨機森林和粗糙及理論建立了一套信用評價體系,發現利用市場信息能夠對企業信用做出更準確的評價。Yao Ping等(2011)利用粗糙集和支持向量機的方法構建了一套新的信用評價方法,在一定程度上提高了評價的精確度You-Shyang Chen(2013)利用基于粗糙集分類器的混合模型建立了一套銀行業信用評價模型,該模型主要解決了目前信用評價模型解釋力不足,過于依賴統計分析的限制性假設和大量指標三個方面的不足。Dimitrios Niklis (2014)采用支持向量機的方法,基于希臘證券交易所上市公司的數據建立信用評價模型,并分別利用了線性和非線性支持向量機,兩種方法均得到了較高的分類精度,說明支持向量機算法能夠對企業信用進行準確的分類,SilviaAngilella(2015)利用創新型中小企業的信息建立了一套信用評價模型,這一模型中分別利用了線性和非線性支持向量機,兩種方法均得到了較高的分類精度,說明支持向量機算法能夠對企業信用進行準確的分類。數據挖掘方法的使用解決了評價中過多主觀因素,但由于以上方法都通過分類方式來獲得評價結果,又帶來了評價結果無法量化的問題,因此本文引入數據挖掘中變量重要性,使得評價結果既能避免主觀因素,又能夠使評價結果得到量化。
本文將采用數據挖掘算法當中目前使用較多的支持向量機算法,該算法在進行分類時可根據指標在分類中對分類結果影響的重要程度確定指標變量重要性,也就是指標重要性。得到變量重要性后既可作為權重參與綜合評價。
(一)利用支持向量機算法分類支持向量機(Support Vector Machine,SVM)是在統計學理論VC維和結構風險最小化的基礎上發展而來的分類技術,主要用于模式識別領域。最小二乘支持向量機是對標準支持向量機的拓展。最小二乘支持向量機的優化問題為:

最小二乘支持向量機優化問題轉化為求解顯形方程,最終的分類函數為:

其中K(xi,x)即為核函數,核函數的作用是將低維空間非線性的問題映射到高維空間使其轉變為線性問題,目前使用的核函數類型主要包括以下四類:
(1)現行核函數:

此條件下得到的SVM是樣本空間中的超平面。
(2)多項式核函數:

得到的是q階多項式分類器。
(3)高斯核函數:
所得分類器與傳統RBF方法的主要區別在于:每個奇函數中心對應一個支持向量,輸出權值由算法自動確定。
(4)Sigmoid核函數:

此時,SVM是包含一個隱層的多層感知器,隱層節點數由算法自動確定。
不同的數據運用不同的核函數可以得到不同的分類精度,核函數的選擇直接決定了建立模型的分類結果。
(二)計算變量重要性變量重要性是指在利用神經網絡,支持向量機和C5.0等自學習分類算法中每個變量對分類結果影響的影響程度,對分類結果影響較大的則變量重要性較高,反之亦然,各變量重要性是一組和為1的數據。與關聯權重類似,既可以反映研究問題的客觀性,又能反映問題的主觀性。變量重要性說明了所研究系統中的主要問題,可以對系統更加全面和深入的了解。
變量重要性的值是在分類結果出來以后計算所得,因此是一種逆推計算的方式,與特征選擇類似,都是根據分類結果計算各指標與結果的相關程度進而得到變量重要性或特征變量,但變量重要性與特征選擇結果的不同點在于變量重要性的計算中對具有相關性的變量只取其一,而特征選擇中則不會對具有相關性的變量采取措施,選擇特征后不考慮變量之間的相關性。
(三)計算綜合評價值通過以上數據挖掘算法得到變量重要性,指標權重即為各指標的變量重要性,根據公式:

可求得第i個公司的信用綜合評價值。其中Zi為第i個公司的綜合評價值,xij為第i個公司第j個指標的具體值,wj第j個指標的權重,也就是第j個指標的變量重要性。
本文建模數據選取我國A股滬市上市公司的財務數據進行分析,共獲取1000家上市公司2014年財務數據,其中ST(特殊處理企業)30家非ST企業970家,ST主要針對財務或者其他方面出現問題的上市企業,表明該企業存在投資風險,因此可以作為衡量信用風險的一個方面。股票價格反映了公司現狀和股民對于公司業績的預期,同時,公司的財務數據處在不斷的更新當中,能夠反映公司的實際情況,完全適用于對公司信用狀況的分析,結合企業財務數據的模型在對提高其他混合模型的精度方面也有幫助。因此本文最終選取了上市公司股票和財務數據加以分析。在指標選取方面,一方面剔除數據大量缺失的指標后,剩下的指標中通過Clementine軟件計算變量重要性,剔除變量重要性比較小的指標,這一過程類似于特征選擇,學者Petr Hajek也曾在企業信用評價當中用到類似方法,目的在于減少數據維度,從而方便運算。最終獲得貨幣資金x1、流動資產合計x2、可供出售金融資產凈額x3、長期股權投資凈額x4、固定資產凈額x5、無形資產凈額x6、資產總計x7、應付賬款x8、應付利息x9、負債合計x10、實收資本(或股本)x11、資本公積x12、盈余公積x13、歸屬于母公司所有者權益合計x14、所有者權益合計x15、負債與所有者權益總計x16、銷售商品、提供勞務收到的現金x17、現金及現金等價物凈增加額x18、營業總收入x19、投資收益x20、營業利潤x21、營業外收入x22、利潤總額x23、凈利潤x24、歸屬于母公司所有者的凈利潤x25、基本每股收益x26共26個指標。
由于原始數據在單位以及數量及上的差異,因此在建模之前需要對數據進行標準化處理,本文使用的標準化方法為離差標準化,標準化后的數據介于0到1之間,包含0和1。根據支持向量機分類要求,本文將70%樣本用作訓練樣本,30%樣本用作測試樣本,樣本的選擇有軟件自動完成,參數設置均為默認。

表1 支持向量機分類結果分析表
表1的數據可以看出訓練樣本和總體樣本分類正確率均達到97%以上,可見其算法具有很強的適用性和較高的分類精度。
圖1給出了模型建立中各指標對分類結果影響的重要程度,即變量重要性。由圖1可知,這21個變量中基本每股收益的重要性最大,實際上上市公司最主要的衡量指標也就是基本每股收益,這預示經濟情況是相符合的,其他重要性較高的指標也都反映了企業資產情況以及盈利能力。變量重要性反映了各指標在建立模型過程中的重要程度,因此在建立綜合評價指標時可以將變量重要性作為權重參與計算。

圖1 各指標變量重要性
再利用信用綜合評價值公式(7)即可算得所有滬市上市公司的信用評價值,2014年度的數據顯示滬市上市公司信用評價均值為0.0545,民營企業信用評價均值為0.0486,非民營企業(主要包含公有制企業)評價值為0.0583,與民營企業相比高出20%,這一結果反映了公有制企業無論是在盈利能力還是在信用水平方面都有著堅實的基礎,這也是改革開放以來我國堅持公有制為基礎的必然結果。反觀民營企業,由于起步相對較晚,以及其所有制形式,其在信用水平方面遠落后于公有制企業。在最高評價值方面,公有制企業最高分高達0.4936,民營企業得分最高得分僅為0.1301,相差接近四倍,可見民營企業的信用整體水平與公有制企業相比還存在一些差距。
接下來,本文隨機選取三家民營企業和公有制企業進行分析,通過2007~2014年的信用評價值分析其信用水平的發展趨勢。表2為2007~2014年六家上市企業信用評價結果表。

表2 2007~2014年六家上市企業信用評價結果表
表2中前三家企業為民營企業,后三家企業為公有制企業,顯然公有制企業的信用水平較民營企業高,與前面的分析已知,下文通過圖2的六家企業2007~2014年信用評價值的變化分析其信用水平變化情況。圖2顯示了2007~2014年間六家企業信用狀況變化趨勢,2008~2010年間六家企業均經歷了一輪較大下跌,這是由金融危機引起的2007~2008年底結束的一輪股市下跌導致的信用水平的普遍下降,由于股票下跌對信用水平影響的滯后性,因此在2009年信用水平達到一個高點以后急速下降,這說明股市對上市公司的整體信用水平有著很大的影響,這一影響機制實際通過影響上市公司財務狀況從而影響信用水平的。2010年后其信用水平逐漸穩定,公有制的三家企業雖然總體水平較高,但呈現出略微下降的趨勢,而民營企業雖然信用水平相對較低,但與公有制企業相反的,他們則呈現出略微上升的趨勢,可見民營企業雖然財務狀況方面與公有制企業存在較大差距,但就發展潛力而言比公有制企業要高,這也充分說明了民營企業頑強的生命力和巨大的發展潛力。從圖2可以看出高信用和低信用水平公司的在信用水平變化幅度上也有差別,為了比較這種差別接下來隨機選取企業作圖加以比較。
圖3中五條曲線趨勢總體平穩,沒有出現太大的波動,即使在2008~2010年間受到國際金融危機和股票大跌的影響,其變化率最大的也僅為15.7%,但圖4顯示的信用水平較低企業的變化則幅度要大得多,2008~2010年間最大降幅達到90.9%,最低降幅也為77.16%,可見該類企業對風險的抵御能力有限,同時劇烈變動的曲線也顯示了其在信用水平方面的不穩定性。但2011年后低信用水平企業的信用水平呈現震蕩上行的趨勢,可見其總體信用水平是在上升的。
通過以上的分析不難看出公司規模、企業所有制形式對企業的信用水平都有影響,這與學者Petr Hajek(2013)對美國企業的研究有相似性,他指出影響美國企業的最主要的因素正是企業規模,除了國外研究,國內學者張澤京等(2007)的研究也有相似的結論,他的研究指出資產規模對信用風險有顯著影響,總資產小于3億元的小公司抗風險能力最差。國有企業特別是中央所屬企業無論在財務水平還是政策支持方面都有著明顯的優越性,因此在信用水平最高的十家企業當中均為國有企業,民營企業排名最高的企業在總排名中僅僅處在第22位,相反在排名最低的企業中民營企業和國有企業的最低值幾乎沒有差別,這說明所有制形式對高信用企業的信用水平影響較大,對地信用水平企業幾乎沒有影響。同時在抗干擾性方面,低信用水平企業的抗干擾能力普遍較弱,高信用水平企業看干擾能力較強,與所有制形式沒有關系。

圖4 低信用評級企業信用變化圖
以上分析主要是從企業規模以及企業性質方面入手。接下來本文將從不同行業入手對不同行業的整體信用水平進行分析,以發現不同行業間的信用水平差異。按照證監會對上市企業的行業分類可將上市企業分為金融保險業、制造業、批發和零售貿易、信息技術業、電力煤氣及水的生產和供應、房地產業、社會服務業、建筑業、交通運輸倉儲業、采掘業、傳播與文化產業、農林牧漁業和其他行業。本文隨機選取前十二個行業中各五家企業利用2007~2014年的數據作為代表對行業整體信用水平進行分析。表3給出了各行業選區企業的信用評價結果。
表3中數據顯示各行業的信用評價值存在顯著差異,信用水平較高的行業依次為交通運輸業,房地產業和農林牧漁業。社會服務業,電力、煤氣及水的生產和供應以及信息技術產業的信用水平則相對較低。為了對各行業信用水平變化趨勢有一個更深入的了解,本文將作圖加以分析。圖5為十二個行業2007~2014年信用狀況變化圖。
圖5顯示所有行業信用水平都呈上升趨勢,且都比較穩定,穩定發展的同時差異也非常的明顯,信用水平最高的行業為交通運輸、倉儲業,最低的為社會服務業,前者2014年信用評價值是后者的2.3倍,前者2007年的信用評價值也接近后者2014年信用評價值的1.5倍,可見差距是非常明顯的。交通運輸、倉儲業作為經濟發展的重要組成部分,聯系著經濟發展的各個部門,因此有著很重要的地位,通過評價值也可以看出這一行業的上市企業財務能力較高,發展前景也非常樂觀。反觀社會服務業,作為第三產業主題的社會服務業在我國起步較晚,目前還較為落后,因此通過財務狀況反映的信用水平比較低,這也反映了社會服務業在我國目前的現狀,但是其穩定的增長勢頭表明以社會服務業為主的第三產業將會得到更好的發展。

表3 分行業信用評價結果

圖5 各行業2007~2014年信用變化圖
除了交通運輸、倉儲業排名較高外,農林牧漁業信用評價值也相對較高,這體現了我國作為農業大國農業生產及農業深加工行業在我國的重要地位,在第一產業占比逐漸下降的情況下,農林牧漁業上市公司信用狀況不僅非常樂觀,而且信用水平呈現總體上升趨勢,這主要是由于今年各級政府對農業及相關產業大力扶持的結果,可見政策引導對產業發展的推動作用之大。房地產業信用狀況與農林牧漁業非常接近,也有著較高的信用評價值,這與近十年房地產業的發展有著密切的聯系,房地產業的蓬勃發展給房地產業帶來了巨大的收益,而人們對房地產企業發展有著較好的預期,也是房地產企業信用評價值較高的原因之一。
信用評價值較低的除了社會服務業還有電力、煤氣及水的生產和供應以及制造業。電力、煤氣其水的生產和供應行業評價值較低反映了這一行業發展的疲軟,一方面可能與行業帶有的公益性性質有關,這一行業的產品直接為經濟發展提供動力,過多強調盈利勢必會對經濟發展造成影響;另一方面在政府大力推動電力體制改革沒有取得成效的情況下,電力部門無法形成一套完整的電力生產及供應的體系,因此短時間內無法扭轉盈利較低甚至虧損的情況,因此無論是財務狀況還是信用情況都不太樂觀。與這一行業相似的還有石化行業,與之相反,石化行業已經形成了一套完整的體系,從石油開采,進口,煉制到銷售有一套完整的體系,在這套完整體系下盈利水平自然高于未形成體系的電力部門,因此兩類行業信用水平存在顯著差異。制造業作為滬市上市企業數量做多的行業,其信用水平卻表現平平,究其原因很大程度上是由于近年來國內制造業發展勢頭減緩導致的,人口紅利的減少,越南、老撾、印度等國制造業的崛起對我國的沖擊非常大,同時由于我國制造業水平偏低,多為勞動密集型也極大地制約了制造業企業在財務表現及信用水平方面的發展,隨著中國制造2025計劃的提出,相信中國在制造業發展方面會有一個新的突破。
以上分析表明企業信用水平與企業性質、企業規模和行業有關,除了以上因素,行業內部不同企業信用評價值又存在怎樣的差異?接下來本文從行業內部分析入手,分析在不同行業內部不同企業信用評價值差異的原因。在對十二個行業分別選取企業加以分析,結果顯示除了制造業和社會服務業企業,其他行業企業信用評價值仍與企業性質和企業規模有關,下文將就制造業和社會服務業兩行業加以分析。表4給出了本文選取的制造業企業的信用評價值。

表4 部分制造業企業信用評價值
表4中數據顯示了不同類型制造業企業的信用綜合評價值有著很大的差異同方股份和安彩高科的評價值明顯高于其他四家公司,同方股份的主要業務涉及計算機系統、數字城市、安防系統、物聯網應用、微電子與核心元器件、多媒體、知識網絡、軍工、數字電視系統、建筑節能和半導體與照明十一個產業,安彩高科主要業務涉及光伏玻璃、浮法玻璃及其深加工產品,以上兩家企業屬于高技術制造業,而其他四家公司則分別設計化工、紡織、供電、供熱的傳統制造業,可見制造業公司生產產品的屬性與制造業企業的信用評價值有一定關系。傳統制造業(主要包括紡織、食品制造、機械制造行業,化工行業,冶金行業,礦產行業)的整體信用水平偏低。與制造業相似的還有服務業,本文隨機抽取的七家社會服務業上市公司中主要涉及醫療、交通、餐飲和汽車服務。

表5 社會服務業部分企業信用評價值
表5中數據顯示華域汽車、國機汽車和申華控股三家公司的信用評價值明顯高于其他四家,這三家企業有一個共同特點就是主要業務為汽車服務及其相關產業,而另外四家上市公司信用評價值則相對較低。圖6和圖7分別給出了七家企業的信用評價值折線圖和2007~2014年間汽車產銷量折線圖。

圖6 社會服務業部分企業信用評價值折線圖

圖7 2007~2014汽車產銷量變化折線圖
從圖6中可以看出汽車服務業整體信用水平明顯高于其他企業,同時結合圖7分析不難發現圖6中兩家公司信用水平的變化趨勢與圖7中汽車產銷量的變化趨勢非常相似,利用灰色相對關聯度方法計算得到汽車產量與兩家企業信用評價值的關聯度均達到0.71以上,說明隨著汽車銷量近幾年的不斷攀升,與之相關的汽車服務業也隨之發展,好的發展態勢帶給汽車服務業的則是較高的信用評價值。
本文利用數據挖掘中支持向量機算法建立了一套基于上市公司財務數據的信用評價方法,并利用上交所上市公司的數據進行了實證分析。實證分析結果顯示該方法能夠利用上市公司經濟數據對上市公司信用水平做出較為準確評價。分析表明企業規模和所有制形式對上市公司信用評價均有顯著影響。分析結果顯示國有企業信用水平普遍較高,說明了國有企業,特別是中央所屬大型企業在信用水平方面的絕對優勢,排名前十的企業均為央企,這與其在國民經濟中的重要地位是密切相關的,而排名較后的國企則基本上是地方管理的企業,可見地方政府對企業的管理水平還有待提高。相對國有企業信用水平較高的現實,民營上市企業整體信用水平明顯偏低,作為民營企業中佼佼者的民營上市企業都現實出較低的信用水平,可見我國民營企業整體信用水平仍有待提高,因此在大力發展國有企業的同時也要采取相應的政策措施促進民營企業發展,由于民營企業特別是中小企業融資難問題很大程度上與其信用水平相關,采取措施促進民營企業發展,進而提高其信用水平是增強我國經濟活力的重要手段。
此外,還要努力促進不同行業以及行業內部的協調發展,前面分析指出同一個行業內部不同部門間的信用水平也存在差異,差異的存在可以促進信用水平較低的企業通過技術改進等方式提高企業競爭力,但諸如制造業中的鋼鐵制造等傳統制造業則需要通過調控手段提高其信用水平,讓其在新興制造業發展的大潮中仍然能夠繼續得以發展。
[1]劉淑蓮、王真、趙建衛:《基于因子分析的上市公司信用評級應用研究》,《財經問題研究》2008年第7期。
[2]閆海峰、華雯君:《基于KMV模型的中國上市公司信用風險研究》,《產業經濟研究》2009年第3期。
[3]遲晨:《KMV模型對我國上市公司信用風險度量的實證研究》,《海南金融》2010年第2期。
[4]辛金國、關建清:《基于數據挖掘民營上市公司績效評價研究探索》,《中國管理科學》2012年第1期。
[5]張澤京、陳曉紅、王傅強:《基于KMV模型的我國中小上市公司信用風險研究》,《財經研究》2007年第11期。
[6]Petr,Hájek.Municipal credit rating modelling by neural networks[J].Decision Support Systems,2011,(51): 108-118.
(編輯杜昌)