王文勝,沈超
(杭州電子科技大學經濟學院,杭州 310018)
風險預警方式主要分為統計分析法和機器學習法,前者包括線性判別分析、概率模型等,后者包括支持向量機、隨機森林等。這些模型在國內風險預警領域得到廣泛運用,但存在共同缺陷,即模型的特征變量均以定量財務指標為基礎,而忽視非財務指標的作用[1-3]。
風險預警領域往往存在數據嚴重不平衡,一般采用配對樣本,但配對樣本會忽略部分多數類樣本信息,此外預測結果本身是相對于配對樣本而言的,類似條件期望,缺乏普遍適應性。聶瑞華等利用SMOTE采樣結合貝葉斯網絡進行風險預警,證明SMOTE 抽樣能提升模型的預測效果[4]。
本文研究貢獻主要有兩方面:一是將管理層討論與分析反映的凈語調納入企業信用風險研究;二是以SMOTE 抽樣取代配對樣本,有效利用多數類樣本信息,提高模型預測效力。
1.1.1 Logistic 回歸
信用風險預警領域,Logistic 回歸模型較為常用,其對變量分布無具體要求,可解決非線性分類問題。其表達式如下:

其中P表示企業面臨信用風險的概率,S表示Logit 回歸值,α表示常數項,β表示參數估計系數,x表示影響信用風險發生的特征。P值越接近1,則表示企業面臨信用風險越大;反之,信用風險越小。本文設定違約概率閾值為P=0.5。
1.1.2 支持向量機
支持向量機SVM 適用于二分類問題,其原理是尋找出一個區分類別的超平面,求解的最優化問題原問題表達如下:

對偶問題表示如下:

式中w表示法向量,決定超平面方向;b表示位移量,決定超平面與原點的距離;yi表示所屬類別,φ(x) 表示輸入空間到高維特征空間的非線性轉換。當特征空間為高維時,φ(xi)Tφ(xj)內積計算較為復雜,需引入核技巧:

式中k(xi,xj)表示核函數,本文采用RBF 徑向基核函數。
1.1.3 隨機森林
隨機森林以決策樹為基分類器,通過bagging 集成算法,克服單一決策樹偶然性大、復雜和易陷入局部最優等缺陷。通過bootstrap 重抽樣技術,構建N棵決策樹構成隨機森林,最終通過投票法,對各決策樹分類結果匯總歸票。決策樹由節點和有向邊構成,遍歷所有節點,以基尼指數選擇最優劃分屬性,劃分后對子集再進行劃分屬性的選擇,直至劃分前后集合純度不變或者命中相應停止條件。基尼指數表示在樣本集合中一個隨機選中的樣本被分錯的概率,Gini 指數越小表示集合中被選中的樣本被分錯的概率越小,集合的純度越高,反之,集合越不純。樣本的基尼指數如下:

其中k表示樣本集合中類種類數,ck表示k類別個數,D表示樣本集合總數。
本文從償債能力、成長能力、盈利能力、營運能力、資本結構五個方面選取18 個財務指標,具體包括凈資產收益率、總資產報酬率、總資產凈利率、每股收益增長率、營業收入增長率、營業成本增長率、毛利增長率、凈資產增長率、資產負債率、權益系數、流動比率、速動比率、現金流量利息保障倍數、現金比率、存貨周轉率、應收賬款周轉率、應付賬款周轉率、總資產周轉率。
針對金融大數據文本語調分析,采用詞袋模型法來度量管理層凈語調。管理層討論與分析(MD&A)分詞采用Python 結巴分詞模塊,正面詞匯、負面詞匯字典以Tim Loughran and Bill McDonald(2011)為基礎,再結合中文語境擴充、完善所得。文本分詞完成后,統計其正面詞匯詞頻(POS)和負面詞匯詞頻(NEG),利用簡單加權平均,計算管理層凈語調Tone。

針對信用風險領域的不平衡性,一般做法為配對樣本,然而配對樣本會丟失部分多數類樣本的信息,因此,本文探究多種不平衡度下SMOTE 樣本及配對樣本的表現。SMOTE 算法如下:
a.根據不平衡狀況確定需過采樣的少數類樣本數num。
b.針對每一個少數類樣本,利用歐式距離計算出其k 個近鄰點。
c.按式(9)合成新的少數類樣本。

本文參照石曉軍[5]的做法,以ST 作為風險標志,利用上市公司t-2 年財務數據和MD&A 文本數據預測其是否會在t年出現信用風險。數據選擇方面,從CSMAR①CSMAR 網址:https://cn.gtadata.com/(原國泰安金融數據庫)中選取2016—2018年期間上市制造業企業ST 樣本95 條,相應的上市制造業企業非ST 樣本3 792 條。
本文采用Wilcoxon-Mann-Whitney 檢驗ST 企業和非ST 企業之間差異顯著性。財務指標方面,除應收賬款周轉率以外,其余17 個財務比率均可顯著區分ST 企業和非ST 企業;凈語調方面,非ST 企業的凈語調均值為0.386,ST 企業凈語調均值0.257,檢驗Z 值為-9.064,非ST 企業凈語調顯著高于ST 的企業,表明企業年報傳遞的管理層凈語調與企業信用風險發生概率存在聯系。
為明確管理層凈語調在上市企業風險預警方面的作用,采用邏輯斯蒂回歸、支持向量機、隨機森林建模,并根據AUC、準確率、查準率、召回率、Fscore 五個指標判斷。為防止多重共線性,將方差膨脹因子閾值設置為10,從原始變量中剔除總資產收益率、總資產凈利率、速動比率和現金比率。為對比各不平衡度下SMOTE 樣本和配對樣本的效果,按照1∶1、1∶2、1∶5、1∶10、1∶20的比例選取樣本,每組樣本中ST 企業數均為95。除配對樣本外,其余不平衡數據樣本均采用SMOTE 過采樣至1 ∶1。為簡化表示,將樣本表示為10 類,即Group 1~Group 10。Group 1、Group 6 分別表示未加語調和加入語調的配對樣本;Group 2~Group 5、Group 7~Group 10 分別表示未加凈語調和加入凈語調的不平衡度為2、5、10、20但已SMOTE 過采樣處理的樣本?;诮7€定性,各不平衡度SMOTE 處理重復50 次,每組樣本進行建模時采用10 折交叉驗證法,超參數選取利用貝葉斯優化[6]取代傳統網格搜索。
通過Logistic 回歸構建的上市企業風險預警模型預測結果及分析如下。首先,Group 6~Group 10 的AUC、準確率均優于Group 1~Group 5,組平均AUC從89.35%提升至91.03%,組平均準確率從82.13%提升至84.01%,說明管理層凈語調對模型效力有所提升。其次,Group 1~Group 5 的AUC、準確率、召回率、F-score 逐步提升。原因可能在于不平衡度越高,在ST 樣本數固定為95 條件下,納入的多數類樣本即非ST 樣本數更多,多數類樣本中包含了風險預警的部分信息,使得模型對于少數樣本的識別率提升。再次,Group 6~Group 10 的AUC 不斷提升,但準確率呈現先上升后下降情況,原因可能是高不平衡度下模型分類閾值需要重新調整,也有可能是在引入非財務指標凈語調之后,高不平衡度增加SMOTE 產生噪點的概率,從而影響模型準確率。最后,不論是否添加凈語調指標,隨著不平衡度升高,納入的多數類樣本增多,各項指標均有提升,但提升效果逐漸減弱。Group 1~Group 5 中,AUC 最高提升2.27%,最低提升0.28%;Group 6~Group 10 中AUC 最高提升2.49%,最低提升0.12%。
為進一步厘清凈語調對于上市企業風險預警的關系,本文將被ST 公司即風險公司記為1,非ST 公司記為0,構建Logit 回歸模型:

其中STi,t為企業信用風險指標;自變量為凈語調Tonei,t;控制變量為入選的財務變量;本文采取上市公司樣本均為制造業,但年份不一致,為控制年份影響,添加年份虛擬變量Yeari,t。結果顯示,β參數估計值為-0.019,在1%顯著性水平下為負,表明凈語調數值越大,公司發生信用風險的概率就越?。环粗?,發生信用風險的概率越大。
通過支持向量機構建的上市企業風險預警模型預測結果及分析如下。首先,Group 1、Group 6 均為配對樣本,Group 6 加入凈語調之后模型指標顯著差于Group 1;剔除Group 1、Group 6,未加語調組平均AUC 為92.27%,添加語調組平均AUC 為92.98%;未加語調組平均準確率為87.15%,添加語調組平均準確率為87.10%。添加凈語調指標對于模型效力的提升不明顯。其次,SMOTE 樣本組指標均優于配對樣本組,同時Group 2~Group 5、Group 7~Group 10,隨著不平衡度升高,其AUC、準確率指標有所提升。原因可能是納入多數類樣本量增多,提升了模型的預測能力。值得注意的是,Group 7、Group 9 的準確率低于Group 2 和Group 4,原因可能是新納入的凈語調會使得SMOTE 產生噪點概率提高。最后,不論是否添加凈語調指標,隨著不平衡度升高,納入的多數類樣本增多,AUC 均有提升,但提升效果逐漸減弱。Group 1~Group 5 中,AUC 最高提升1.10%,最低提升0.45%;Group 6~Group 10 中AUC 最高提升3.58%,最低提升0.53%。
通過隨機森林構建的上市企業風險預警模型預測結果及分析如下。首先,配對樣本中,Group 1的AUC 略高于Group 6,但其他四項指標均低于Group 6;Group 7~Group 10 的各項指標優于Group 2~Group 5。未加語調組平均AUC 為94.15%,添加語調組平均AUC 為94.45%;未加語調組平均準確率為88.32%,添加語調組平均準確率為88.67%。表明凈語調對于模型的預測能力有所提升。其次,Group 1~Group 5、Group 6~Group 10 的AUC、準確率不斷提升,表明納入更多多數類樣本量可提升模型預測能力,且SMOTE 樣本效果普遍優于配對樣本。最后,不論是否添加凈語調指標,隨著不平衡度升高,納入的多數類樣本增多,AUC 均有提升,但提升效果逐漸減弱。Group 1~Group 5 中,AUC 最高提升2.38%,最低提升0.13%;Group 6~Group 10 中AUC 最高提升2.88%,最低提升0.24%。
通過隨機森林得出特征重要性,為進一步風險預警的指標選擇提供參考。以Group 4、Group 9 為樣本所得重要性排序圖為例,前者未加凈語調,后者添加凈語調。兩者頭部特征高度相似,重疊特征為凈資產收益率、基本每股收益增長率、現金流量利息保障倍數、權益系數和總資產周轉率,并且Group 9 中顯示凈語調重要性高于總資產周轉率。
管理層討論與分析(MD&A)是上市公司年報的重要內容,其中包含一些定量財務數據無法反映的增量信息,通過對管理層討論與分析的文本挖掘,能更好的預測公司信用風險。首先,本文將公司年報管理層討論與分析的凈語調和財務比率相結合,采用邏輯斯蒂回歸、支持向量機和隨機森林構建風險預警模型,并采用貝葉斯優化超參數,對模型加入凈語調的預測能力進行實證檢驗。其次,針對信用風險樣本的不平衡情況,使用SMOTE 過采樣處理,對比配對樣本及不同平衡度SMOTE 抽樣的訓練效果,主要結論如下。
第一,添加MD&A 的凈語調后風險預警模型的預測能力有所提升,不論配對樣本還是SMOTE 樣本都成立,表明企業年報中MD&A 存在信用風險預警的增量信息,且Logit 回歸分析得出,凈語調越大,企業發生風險概率越低。
第二,考慮配對樣本挑選存在主觀性、會丟失部分的多數類信息等缺陷,采用SMOTE 方式處理不平衡數據。對比多種不平衡度下SMOTE 樣本訓練效果,發現SMOTE樣本訓練模型各項指標較配對樣本更優,且不平衡度越高,SMOTE 樣本的指標效果更明顯,從側面反映納入的多數類樣本更多,模型風險預警能力越強。
第三,隨著不平衡度提高,SMOTE 過采樣樣本建模的指標一直是變好的,但提升幅度逐漸減弱甚至為負。原因可能是過高不平衡度下SMOTE 過采樣生成的新少數類樣本存在信息重疊或者引入噪點,對于模型的效力甚微或無提升效果;凈語調會提升高不平衡度下SMOTE 生成噪點的概率。綜合邏輯斯蒂回歸、支持向量機和隨機森林預測結果,認為在不平衡度為5~10 時,采用SMOTE 過采樣便可得到滿意的分類效果,不需納入全部多數類樣本。
在財務指標選取方面,不管是否引入凈語調,頭部特征存在高度重疊性,之后研究可以著重分析凈資產收益率、基本每股收益增長率、現金流量利息保障倍數、權益系數和總資產周轉率;其分別對應財務比率選擇五大指標,印證財務比率選擇的合理性。在模型選擇方面,隨機森林>支持向量機>邏輯斯蒂模型,原因可能在于支持向量機可通過核函數達到高維非線性可分,而隨機森林更是通過集成學習克服單一分類器的偶然性。