汪政元+伍業鋒



摘 要 運用貢獻度隨機森林方法(CRF)方法探討公司債財務指標比率與其違約率的關系.運用連續屬性離散化方法(OB)進行財務指標最優降維;運用WOE變換進行模型變量約簡.研究表明,CRF模型的分類性能顯著優于其他模型,測試集評估總體正確率達90.47%,AUC統計量、AR比率及K-S值分別提升了2.6%、7.6%、4.38%,變量貢獻度量化了各財務指標對違約率影響,為詮釋隨機森林預測機制提供了依據.
關鍵詞 財務管理;違約預測;實證分析; 貢獻度隨機森林; 連續屬性離散化; WOE變換
中圖分類號 F224 文獻標識碼 A
Abstract The contribution forest model(CRF) was used to research the inner connection between the corporate bonds and its financial index ratio,. The method of discretization and WOE transformation were applied to reduce the dimension of these indexes. The results show that the CRF model's performance significantly outperforms the other models, and the performance of the model on test dataset reaches a accuracy of 90.47%. And the other assessment indexes,AUC statistics, AR ratio and K-S values, are improved by 2.6%, 7.6%, 4.38%. Furthermore, the contribution of variables evaluated its influence on probability of default in a quantitative way, which provides a new point of view to interpret the process of forecast of random forest.
Key words financial management; default prediction; empirical analysis ; contribution andom forest model; discretization; WOE transformation
1 引 言
隨著金融體系的快速發展,金融市場不斷實現快速迭代不斷更新,取得顯著成就的同時,危機事件卻頻出不窮.2016年以來國內先后出現多起銀行危機事件,先后有中國農業銀行39.15億元票據案件、中信銀行9.69億票據案件、天津銀行7.86億票據案件.上述危機之所以爆發,一個重要原因就是風險管理不當.而信用風險作為Basel新資本協議所強調的重要風險之一,由于其復雜多變,對信用風險的識別、計量往往面臨更大的挑戰.如何對借債企業的信用風險進行評估、預判其違約概率是信用風險管理的重點內容.因此,建立科學有效的信用風險評估模型,無論是對商業銀行增強抵御風險能力,還是對企業管理者宏觀審慎的戰略決策均有顯著意義.
從信用風險的現有研究成果來看,方法體系多分布于傳統的統計分析方法、定性評級法、基于期權理論以及現代數據挖掘類方法.其中,最早研究開始于Altman(1968)[1], 認為企業違約可能性的大小與其財務健全與否有直接密切聯系,選擇五個重要的財務比率,建立了區別倒閉公司與非倒閉公司的Altman模型.Deakin(1972)[2]認為,己經破產、無力償還債務的公司容易發生信用風險.由于我國目前信用評級機構尚不完善,信用評級數據嚴重缺失,國內關于企業信用風險的研究多從財務數據中提取特征指標建立相應信用評價模型.Prinzie(2008)[3]將隨機森林方法與logistic方法相結合,利用隨機森林的構造決策樹的思想構建logistic決策森林,提高了logistic模型的估計精度.Yeh等(2012)[4]利用實際金融市場數據,基于KMV模型、隨機森林方法、粗糙集理論構建混合KNV-RF-RST模型,評價企業信用風險問題.張奇等(2015)[5]構建了Logit-SVM混合評價模型,提高了模型在訓練集上的二分類預測能力.Cui (2015)等[6]充分利用社交媒體大數據,結合BP神經網絡模型,構建現代商業銀行信用風險評價模型,拓展了傳統的信用風險研究指標選擇方式.上述研究從不同角度充實了信用風險評價研究,但多數研究都注重模型精度的提高,而忽略了在提高模型精度的同時增加模型的解釋能力.如何改進已有的學習算法,在提高模型精度的同時也保證模型的解釋能力、量化評估指標的貢獻度.基于此,本文采用最優分箱(Optimal Binning,OB)和證據權重變換(Weight Of Evidence,WOE)對數據集進行轉變進一步提升模型預測精度,并提出貢獻度隨機森林(Contribution Random Forest,CRF)方法分解預測函數,在提升預測性能同時也提升了傳統RF模型的解釋能力.
2 貢獻度隨機森林模型構建
2.1 隨機森林原理回顧
隨機森林是Breiman(2001)[8]提出的一種組合分類算法.隨機森林通過隨機的方式建立多個決策樹,利用bootstrap抽樣方法從樣本數據中抽取k個bootstrap樣本Si(i=1,2,…,k),再每次從原始M個自變量中選擇n輸入變量(nM),由被選擇的n個自變量構成隨機特征輸入向量X,并利用分類回歸樹(CART)算法建立相應無剪枝的元決策樹分類器,最后利用這k個元分類器構成一個組合分類決策系統,最終采用簡單投票法做出最終預測.endprint
2.2 連續屬性離散化與WOE變換
原始隨機森林算法模型雖然分類精度高,但計算負荷大、評估速度慢,在數據集指標維度過大時這一點尤為明顯.而對于采用信息熵、Gini指數作為節點分裂標準的隨機森林而言,在決策樹的生成過程中傾向于選擇取值分布廣的連續變量,無法有效處理連續變量屬性,而通過離散化連續變量,恰可以消除這一影響.根據Fayyad和Irani(1993)[10]的基于熵的連續變量離散化最優分箱方法,以下簡稱最優分箱(Optimal Binning,OB),其原理和步驟如下:
(5)對分割后的左右子集,重復上述步驟,直至達到最大分組數K.
通過對連續變量進行OB分箱,一方面約束了連續變量的取值維度,使得各變量之間利用信息增益、Gini指數作為節點分裂標準有了可比性,且在一定程度上避免了極端值的影響;另一方面變量取值的降維大大降低了算法的開銷.在上述連續變量分箱后,相當于若干個虛擬變量,這就導致原始數據集變量取值過于稀疏,因此需要對分箱后的數據進一步規約,考慮進行證據權重變換(Weight of Evidence,WOE) [10],對分箱后的變量進行重新編碼.
從式(7)可以看出,CRF模型預測值可以分解為各決策樹的初始決策值的平均值與各特征變量的平均貢獻值之和.CRF模型雖然對隨機森林對預測函數進行了分解,但最終對響應變量的預測結果和傳統隨機森林的投票法完全一致.
3 實證分析
3.1 數據準備與指標體系說明
選取發行公司債券的滬深上市公司作為研究對象,數據來源于WIND金融咨詢終端,樣本包括截止2016年8月1日已到期債券和已摘牌債券.由于企業的財務狀況是企業經營現狀的直接反饋,其信用風險亦可從財務指標角度考察,因此從財務指標比率的角度建立信用風險評價模型.參考中誠信、鵬元資信、大公國際等評級機構信用風險評價指標體系,結合劉暢[11]等提出的中小企業信用風險預警指標體系,從資本結構、盈利能力、償債能力、營運能力、發展能力以及現金流量情況6個方面,遴選以下25項財務比率指標作為信用風險評估候選指標集,見表1.在研究樣本中,剔除數據缺失嚴重的樣本,最終初始樣本量為230.在230只債券中,已發生違約的債券有28只,記為Bad類,正常債券202只,記為Good類.在數據時間截點選擇上,選擇債券違約發生前一年或被評級機構降級前一年的財務數據,以此達到建模預警目的.由于現有樣本Bad類樣本過少,為平衡樣本結構,對于債券或主體評級為BBB以下、債券(主體)評級或評級展望被連續降級的也歸為Bad類,最后利用SMOTE[12]方法選擇每個Bad類樣本臨近的5個樣本合成部分Bad類樣本,最終Bad類樣本為166.
3.2 模型設定
設定訓練集與測試集比例為7:3,分別設定隨機森林中元分類器數量為100、200、300、400,設定候選特征數的變化范圍為2-25,訓練集中各模型的OOB誤差如圖1所示.
在n=100,候選特征數為 8時,OOB誤差達最小值為0.0702;在n=200,候選特征數為 4時,OOB誤差達最小值為0.0742;在n=300,候選特征數為 4時,OOB誤差達最小值為0.0661;在n=400,候選特征數為 3時,OOB誤差達最小值為0.0713 .綜合來看,隨著模型訓練次數的增加,OOB誤差逐漸收斂于穩定水平,過高的訓練次數范圍反而增加計算負荷,而候選特征數不宜過大或多小,因此設定模型元分類器數量為300,候選特征數為4.在實施最優分箱過程中,對連續變量的分組數不宜過大也不宜過小,過大則無法達到降維的目的,過小則區分度不足.設定每次劃分帶來的信息增益最小閾值為0.01,最大分組數K的變動范圍為3—10,不同分組條件下,隨機森林模型的準確率情況如表2所示.當分組數等于3時,模型的準確率最低;當分組數等于5或6時,準確率達最大;當分組數大于6時,準確率開始下降.因此,設定最大分組數為5或6為宜,為減小計算負荷,此處設為5.
3.3 模型比較
經過前述OB-WOE變換、預測函數貢獻度分解,即得變換后的CRF模型,為評估最優分箱WOE變換對其他模型影響,考察決策樹、支持向量機、logistic回歸、貝葉斯分類、KNN最近鄰分類以及神經網路在最優分箱WOE變換下的預測表現,如表3所示.
在實施最優分箱WOE變換的訓練集中,隨機森林對Good類樣本的準確率為98.39%,相比不變化情況上升了6.07個百分點;對Bad類的準確率為98.17%,上升了8.5個百分點.在測試集中,變換后的數據集對Good類樣本的準確率為91.80%,對Bad類的準確率為89.13%,分別上升了2.5、6.5個百分點.由此可見,無論是對于訓練集還是測試集,對于隨機森林分類方法而言,OB-WOE變換后的數據集能顯著提升模型分類效果.對于其他模型而言,提升效果較為明顯的是logistic回歸、神經網絡.其中,logistic回歸對于Good類的預測能力的提升效果尤為明顯,訓練集中由76.45%上升到90.32%,測試集中由76.82%上升到86.36%.對于神經網絡而言,無論是測試集還是訓練集,其Good類準確率和Bad類準確率都上升了10個百分點以上.究其原因,最優分箱本質是對數據集的一種規約,通過降低自變量取值維度來提煉各樣本之間的共性,故對于分類評估模型而言,最優分箱后的數據往往更能提升分類效果.模型準確率只是模型評估的一方面,為綜合評估一個信用風險評價模型,還需要從ROC曲線、K-S曲線、CAP曲線等角度綜合度量.
3.4 模型總體效應評估
考慮到準確率只是評估模型優劣的一種方法,在信用風險評估研究中還經常從ROC曲線、CAP曲線及K-S曲線三個角度考察模型的曲線性質.其中,ROC曲線是在混合矩陣基礎上利用圖形綜合揭示模型預測的靈敏性和誤報率的一種方法,橫軸表示誤報率(模型錯誤預測的Bad類占比總Good類比率),縱軸表示靈敏性(模型正確預測到Bad類占比總Bad類比率).CAP曲線又稱累計正確率曲線,CAP和準確性比率(AR)通常廣泛用于信用評級領域,通過模型為受評對象計算一個風險評分,將風險評分作為其信用的綜合評價,評分越高風險越大,通過求得不同風險評分范圍百分比下累計違約的概率部分來刻畫CAP曲線.K-S曲線是對模型區分Good類樣本和Bad類樣本的另一種評估方法,利用評估模型為每個研究樣本計算一個違約概率,再將所有樣本進行K等分分割,對每部分樣本按照違約概率大小進行降序,計算每個樣本中違約與正常百分比的累計分布,二者之間的差異就是K-S曲線的構成要素.endprint
如圖2所示,從各模型的測試集的ROC曲線來看,在誤報率在0.05左右時,變換后的CRF模型對Bad類的覆蓋率已達到92%,AUC統計量達0.943,而不變化的CRF模型模型對Bad類的覆蓋率約88%,AUC統計量統計量為0.917.對于其他模型,變換前后效果也很明顯,其中神經網絡模型的AUC統計量有0.653提升到0.872,在誤報率為0.1時的覆蓋率由0.38左右提升到0.8.綜合來看,實施變換后,各模型的優劣次序依次為隨機森林、SVM、KNN、神經網絡、logistics回歸、貝葉斯、決策樹,與測試集準確率評估結果基本一致.從各模型的CAP曲線來看,在前40%左右的樣本,變換后的CRF模型的CAP曲線貼近理想結果,其AR比例為0.891,不變換的CRF模型的CAP曲線與理想結果有一定差距,最終其AR比率為0.815,說明進行最優分箱變換能提高模型對Bad類的辨識度.從K-S曲線來看,變換后的模型,其K-S值達到0.8204,而不變換的CRF模型其K-S值為0.776 6,處于較高水平,進一步說明進行連續變量的OB-WOE變換能提升模型的分類性能.
3.5 變量重要性與變量貢獻度比較
根據式(7)建立變換后的CRF模型,以“11超日債”2013年年度財務數據為例,評估其變量貢獻度,并對比隨機森林方法下的變量重要性. 在變量貢獻度分析方法下,各變量變量貢獻度之和為0.802,即說明劃分為Bad類的概率為0.802,從而可以認為其風險較高.評級機構在超日債違約后才將其信用等級下調至C級,在某種程度上有一定時滯.而根據變換后的CRF模型,基于“超日債”發債主體2013年年度財務指標數據可判斷其違約概率為0.802,在判別“11超日債”為違約過程中,各變量的變量變量貢獻度如表4所示.
由(7)式可知,在判斷“11超日債”為Bad類過程中,貢獻度排在前5位的變量與變量重要性排在前5位的變量重復率為40%;貢獻度排在前10位的變量與變量重要性排在前10位的變量重復率為60%;貢獻度排在前15位的變量與變量重要性排在前15位的變量重復率為73%;貢獻度排在前20位的變量與變量重要性排在前20位的變量重復率為85%.其中吻合度較高的變量為EBITtoSaale、Asset_TR、Gro_profit、TAtoD_R、AR_TR;差異較大的變量為Z_Value、Inventory_TR、EM、LDA_R.這是因為變量重要性是對全部樣本共性的提煉,旨在說明在各變量在總體數據集的表現情況,多用于從大量指標中選擇有作用的變量;而變量貢獻度側重評估對象個性的描述,旨在說明在判斷其為Good類或Bad類過程中,哪些變量發揮的作用相對明顯,可用于個體分析判斷.從貢獻度來看,ROE的貢獻度最大,說明從ROE角度相對最能說明超日債的風險情況,其次是EBITtoSaale、GropToRev、NetPro_M等等,這也與實際的財務分析理念一致.企業長期經營戰略必須提升其ROE,ROE過低則自有資產利用效率低,償債壓力增大.此外,還注意到貢獻排名前12的變量中,其WOE值均為正,說明該分組子集中負例占比總負例的比率大于集中正例占比總正例的比率,即落入該分組的個案更多體現Bad類別的特征.結合 “11超日債”實際財務數據來看,其ROE為-1169.6,EBITtoSaale 為-793.56、GropToRev為-64.317、ROA為-65.783等均遠低于平均水平,而其Z_Value為-3.34,遠遠低于Altman的破產概率預警閾值1.8[1],從而上述指標在 “11 超日債”的判別過程中區分能力強,對違約率影響顯著.
因此,從預測結果分解的維度上來看,CRF模型是對預測過程的一個分解,將“黑盒”的決策過程還原為各變量的貢獻度之和,進而衡量在預測過程中哪些變量發揮的作用相對明顯,再從財務分析角度予以對比印證,在個案分析層面增加了模型的可解釋性.
4 結 論
針對傳統隨機森林方法的“黑盒”弊端提出貢獻度隨機森林方法,通過變量貢獻度視角研究了財務指標與違約率的關系.利用對數據集進行基于熵的最優分箱處理、WOE變換實現數據集約簡目的,并進一步構建CRF模型評估變量在個案預測過程中的貢獻度,實現預測過程的可解釋性,最后基于ROC曲線、CAP曲線、K-S曲線對模型進行評估.經對比分析,實施最優分箱、WOE變換能有效提升各模型的準確率,但仍屬CRF模型準確率最高,達90.47%.相比不變換的CRF模型,其AUC統計量、AR比率、K-S值分別提升了2.6%、7.6%、4.38%.在“11 超日債”單個樣本評估分析中,變量貢獻度和指標重要性排在前5、10、15、20位指標的重復度分別為40%、60%、73%、85%,兩種評估方式一致程度高.變量貢獻度排名靠前的指標均對違約率影響顯著,通過變量貢獻度角度分解了隨機森林預測過程,量化各項指標的影響大小,增加了模型的可解釋性.
參考文獻
[1] Altman E I. Financial Ratios, Discriminate analysis and the prediction of corporate bankruptcy[J].Journal of Finance,1968, 12(23):589-609.
[2] Deakin E B. A discriminate analysis of prediction for business failure[J]. Journal of Accounting Research,1972, 14(10):167-169.
[3] Prinzie A, Van den Poel D. Random forests for multiclass classification: Random multinomial logit[J]. Expert systems with Applications, 2008, 34(3): 1721-1732.endprint
[4] Yeh C C, Lin F, Hsu C Y. A hybrid KMV model, random forests and rough set theory approach for credit rating [J]. Knowledge-Based Systems, 2012, 22(33):166-172.
[5] 張奇, 胡藍藝, 王玨. 基于Logit與SVM的銀行業信用風險評價模型研究[J]. 系統工程理論與實踐,2015, 10(7):1784-1790.
[6] Cui D. Financial credit risk warning based on big data analysis [J]. Journal of Accounting Research , 2015, 8(10):133-141.
[7] 李軍,信聰,陳暮紫,楊曉光. 訴訟處置不良貸款違約損失率估計的模型簇[J].系統工程,2015, 11(08):123-132.
[8] Breiman L. Random forests[J].Machine Learning,2001, 45(1):145-168.
[9] Fayyad U M, Irani K B. Multi-interval discretization of continuous valued attributes for classification learning[J]. Thirteenth International Joint Conference on Articial Intelligence, 1993, 12(2):1022-1027
[10]Bill H Y, Mykola T . Modeling exposure at default and loss given default: Empirical approaches and technical implementation [J]. Journal of Credit Risk, 2012, 8(2):81-102
[11]劉暢, 郭敏, 莫鈮, 等. 基于巴塞爾協議Ⅱ內部評級法構建我國商業銀行中小企業貸款信用風險有效度量和預警指標體系[J]. 金融監管研究, 2012, 12(7):26-39.
[12]Chawla N, Bowyer K, Hall L. Smote: Synthetic minority Over-Sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16(3):321-357.endprint