基于改進隨機森林算法的企業破產預測研究

2021-08-04 01:59:04張康林葉春明

科技促進發展 2021年4期

■ 張康林葉春明

上海理工大學管理學院上海 200093

0 引言

2020年，新冠肺炎疫情的爆發使世界經濟遭受沉重打擊，許多企業也陷入了財務困境，相比于從前，它們破產風險劇烈增加，而企業是全球經濟的重要組成部分，也是經濟增長的基礎，更是社會進步的重要推動力，對公司進行破產預測變得愈加重要[1]。同時，預測公司未來的命運，一直都是金融機構、基金經理、貸款人、政府和經濟利益相關者關注的重點，破產預測的結果不僅能夠幫助投資者做出有效決策，還能提前警示公司管理層，幫助管理層提前實施保護措施，從而降低公司破產風險。

截止到2020年，企業破產預測研究主要從兩個角度出發，分別是破產預測指標的選取和破產預測模型的選取。

對于破產預測指標，1966年，Beaver 首次提出在企業破產預測研究中，財務指標具有很高的研究價值[2]。自此，許多學者也都開始使用企業財務指標進行企業破產預測相關研究[3-4],比如Tian 等人[5]使用留存收益/總資產、總負債/總資產和流動負債/銷售額3個財務比率指標構建了日本企業破產預測模型，并取得了良好的預測結果。但由于企業破產數據集具有高維的特性，影響模型分類性能，需要進行特征提取，文獻[5]使用了自適應LASSO 方法篩選出了3 個財務指標作為預測變量；Kou等人[6]提出了一種兩階段多對象特征選擇算法進行了特征提取，在中小企業破產預測模型中實現了類似的分類性能；Liang 等人[7]還使用3 種濾波器和兩種基于包裝的方法對財務比率和公司治理指標進行了特征選擇，通過對比預測性能，確定了最佳特征選擇方法。

對于破產預測模型，目前相關技術包括兩大類，分別是模式識別和機器學習。1968年，Altman[8]就根據會計知識，對22 個財務比率進行了線性鑒別分析，利用其中5 個財務比率構建了預測模型。隨后，使用邏輯回歸[9]、神經網絡[10]、支持向量機[11]來構建公司破產預測模型的研究相繼被提出，比如楊毓等人[12]使用了支持向量機構建了商業銀行破產預測模型，與反向神經網絡模型對比發現，支持向量機具有更好的分類性能。但由于企業破產預測研究中，數據集存在類不平衡問題，決策樹、K-最近鄰域分類、支持向量機和多層感知機等傳統分類器主要關注多數類而忽略了少數類，而解決不平衡數據的分類問題，集成學習方法具有更好的魯棒性和泛化能力[13]，Le等人[14]基于不平衡的KRBDS 數據集，使用改進的極端梯度提升器與最先進的破產預測機器學習方法對比發現，所提出的方法更優；還有Shen 等人[15]在研究中發現隨機森林分類器在不平衡數據分類任務中優于決策樹、支持向量機、貝葉斯等分類模型。

綜上分析，本文選取的破產預測模型指標為財務比率，選取的破產預測模型為隨機森林。

由于企業破產數據集具有高維不平衡的特性，因此會降低具有破產風險企業的預測精度。而針對這一問題，不同學者分別從樣本處理、變量選擇以及預測器選擇3 個方面進行優化。Gruszczynski[16]從不平衡樣本方面進行研究，探討類別不平衡對破產模型預測精度的影響，Wagenmans[17]使用邏輯回歸、神經網絡、隨機森林以及決策樹四個模型進行破產預測研究，對比模型預測結果，篩選出最佳預測模型，Tuong 等人[18]使用基于GPU的極端梯度提升機器，提出了一種gXGBS_hist 算法，在不平衡的韓國破產數據集上進行實驗，最終能夠提高模型性能并加快模型處理時間，這些研究者都僅僅只從單方面進行優化。Choi 等人[19]先進行了數據平衡化處理，再通過模型組合對建筑行業承包商的財務困境進行了預測，Tuong 等人[20]使用了實例硬度閾值(IHT)的采樣方法刪除了多數類中具有較大IHT 值的噪聲實例，然后提出了一種基于集群的提升算法CBoost并用于破產預測，而這些學者是同時結合了數據層面與模型層面的相關算法進行了破產預測研究。Philippe[21]首先對包含150個變量的不平衡破產數據集進行變量選擇，最后再通過一系列的模型設計構建了最佳破產預測模型，采用了特征處理與模型設計相結合的流程；同樣，Kim等人[22]從代表了公司盈利能力、穩定性、活躍性和生產率的111個財務比率中篩選出了53個顯著比率作為模型特征，并提出了一種DD-SVM進行企業破產預測的混合方法。

通過對上述研究梳理可知，少有研究同時采用了特征提取、類平衡化、模型設計這3 種方法。本文將此3 種方法進行了結合，彌補了這一方面的不足。并在指標選取方面，對文獻[23]的Pearson 相關系數特征提取規則進行了相應的改進；在模型構建方面，首先進行數據平衡化處理，然后對隨機森林模型進行改進。實驗結果表明，本文提出的研究方法在企業破產預測方面效果更加顯著。

1 相關算法改進

1.1 Pearson相關系數特征提取規則

Pearson 相關系數（Pearson Correlation Coefficient）是用來衡量兩個數據集合是否在一條線上面，從而用來衡量定距變量間的線性關系，相關系數的大小表示兩個變量屬性fi與fj之間的線性相關程度，其計算公式如(1)所示：

公式(1)中，c的取值范圍為[-1,1]，c=-1 時表示fi與fj完全負相關，c在(-1,0)的范圍內時表示fi與fj為負相關關系，c=0 是說明fi與fj完全不相關，c在(0,1)的范圍內時說明fi與fj為正相關關系，c=1 說明fi與fj完全正相關，c絕對值越大越接近1時，說明相關性越強，也就是說它們之間包含較多相似的信息，對于分類器來說屬于冗余變量，需要刪除其一。表1為c絕對值的不同取值范圍對應的fi與fj相關強度。

表1 c絕對值的不同取值范圍對應的相關強度

本文的Pearson相關系數特征提取規則如下：

1.計算屬性與屬性之間的相關系數以及屬性與類別標簽之間的相關系數；

2.依次判斷兩兩屬性之間的相關系數是否大于等于0.8，如果是，則跳到第3步；

3.比較兩個屬性與類別標簽之間的相關系數大小，選擇刪除其中相關系數更小的屬性，而不是隨機選擇刪除其一；

4.直至所有屬性兩兩之間的相關系數小于0.8，停止。否則返回第2步。

1.2 改進的隨機森林算法

Breiman[24]提出的隨機森林模型是基于決策樹方法構建的集成機器學習工具，旨在提高決策樹的性能。傳統隨機森林的算法步驟如下：

1.令收集來的數據集為D={xil,xi2,…,xin,yi}(i∈[l,m])，m為樣本數，特征數為N,采用Bootstrap 方法從D中抽取D1個樣本作為訓練集。

2.使用第1 步得來的數據集D1={xil,xi2,…,xik,yi}(i∈[l,m])(其中k<

3.重復1 和2 兩個步驟K次，得到K個決策樹，組合K個決策樹得到隨機森林。

4.使用測試集進入隨機森林的預測階段，預測公式可通過式（2）進行表示。

(2)式中，H(x)為最后分類結果，hi(x)為第i棵決策樹的分類結果，Y為類別標簽，I為簡單投票法。

在二分類實驗中，所謂的簡單投票法就是K 個決策樹有K 個分類結果，如果該樣本被分類為A 類的結果數占比大于0.5，則可以判定該樣本屬于A 類，反之屬于B類。可以看到，其分類閾值為0.5，但是在企業破產預測研究中，由于存在類不平衡問題，應該對分類閾值進行調整，找到最佳分類閾值，提高模型整體的分類性能。

所以本文將從隨機森林算法的第4步開始進行如下改進：

4.計算測試集樣本Dt={x1,x2,...,xz}在隨機森林模型中被判定為少數類的比率R=[rx1,rx2,...,rxz]。

5.確定最佳分類閾值搜索范圍T=[p,q],0

6.在T中確定一個分類閾值t，依次將樣本xz的比率rxz與t進行比較，若大于t,則將其判定為少數類，反之判定為多數類。

7.基于分類閾值t得到一個測試集樣本的分類結果，再根據分類結果計算召回率特異度均值RE_meant并保留，計算公式如式(3)所示；返回第6 步，直至范圍內所有分類閾值被判定完畢。

8.比較每一個分類閾值對應的召回率特異度均值大小，最大召回率特異度均值對應的分類閾值即為所求。

9.根據確定的最佳分類閾值計算模型的分類性能相關指標，判斷最終模型的好壞。

算法流程圖如圖1所示。

圖1 改進的隨機森林算法

2 實驗

本文所有實驗都是在系統WIN10、1TB+128G(SSD)的硬盤、INTEL 酷睿I7-6700Q 的CPU 和內存4GB 的PC機上通過python3.7 版本完成。實驗流程圖如圖2所示。

圖2 實驗流程圖

2.1 實驗數據與數據預處理

本文所使用的數據來源于全球新興市場信息的數據庫，共10173個企業，其中400個為在2013年破產的企業，9773 個為在2013年未破產的企業，從圖3可以明顯看出，數據存在類別不平衡問題。

圖3 企業破產數據集類別分布圖

每一個樣本共包含64 個屬性以及1 個預測類別，特征含義如表2所示，屬性均來自于公司2008年的財務報表。

表2 企業破產預測數據集特征構成

由于所收集到的數據集存在缺失值且屬性單位不一致，需要進行缺失值處理和歸一化處理。缺失值均屬于連續值，所以用該列的平均值進行填充;歸一化處理計算公式如(3)所示。

式(3)中，X′i,j表示歸一化處理后的數據，Xi,j表示原始數據，Xmin表示第j 列中的最小數，Xmax表示第j 列中的最大數。

2.2 特征提取

根據本文提出的Pearson 相關系數特征提取規則，首先計算屬性與屬性之間的相關系數以及屬性與類別標簽之間的相關系數，并用相關系數熱力圖進行了展示。圖4為保留下來的指標相關性熱力圖，圖5為已刪除的指標相關性熱力圖

從圖4和圖5可以得出保留下來的特征分別是X1，X5，X6，X8，X15，X16，X20，X21，X23，X24，X27，X28，X29，X37，X41，X45，X46，X47，X50，X54，X55，X56，X57，X58，X59，X60，X61，X62，共28個。

圖4 保留下來的指標相關性熱力圖

圖5 已刪除的指標相關性熱力圖

2.3 類別平衡化

首先進行數據集的劃分，70%為訓練集，30%為測試集，訓練集和測試集中兩類樣本數量如表3所示。

表3 訓練集和測試集中兩類樣本數量

針對類別不平衡問題，本文使用了現常用的3 種處理方法。第一是SMOTE 過采樣[25]，它通過生成合成樣本而不是復制少數類的樣本來對少數類進行過采樣，包括3個步驟，首先選擇原始樣本中的K最近個樣本，然后將原始樣本與所選的K 最近個樣本之間的距離乘以從0到1 的隨機數，最后將相乘距離的平均值與原始樣本相加，生成新樣本，重復3 個步驟，直至少數類和多數類樣本平衡；第二個是SMOTETomek Links 混合采樣法，它是將SMOTE 和Tomek Links兩種算法進行結合，首先通過SMOTE 算法對數據集中少數類樣本進行合成，然后通過Tomek Links 算法去清洗數據集，刪除采樣后數據集的中的Tomek Links 對，Tomek Links 對的尋找過程如下：首先假設兩個樣本點x，y，樣本x 取自于少數類樣本集，樣本y取自于多數類樣本集，然后計算兩個樣本點的歐式距離，并記為d(x,y)，最后如果不存在第3 個樣本點z，使得d(x,z)

本文將SMOTE中的樣本近鄰數K 統一規定為5，最終經3種平衡化方法處理后的數據集如表4所示。

表4 經四種平衡化方法處理后的樣本數分布表

2.4 評價指標

本文研究的是一個二分類問題，所以將會采用召回率(Recall)、特異度(Specificity)、召回率特異度均值(RS_mean)、精準率(Precision)以及AUC 值，計算公式為(5)至(7)所示。

TN真陰性為多數類樣本被預測為未破產的實例數，FP假陽性為多數類樣本被預測為破產的實例數，FN假陰性為少數類樣本被預測為未破產的實例數，TP真陽性為少數類樣本被預測為破產的實例數。召回率代表所有破產企業實例中預測為破產的實例比列，用來評價少數類樣本分類準確率；特異度代表所有未破產企業實例中預測為未破產的實例比列，用來評價多數類樣本分類準確率；召回率特異度均值用來衡量正類與負類被預測正確的一個綜合比例，用于本文分類閾值的選擇；精準率代表了所有正確預測為企業破產的實例數占所有預測為企業破產實例數的百分比。

2.5 改進隨機森林模型建模

2.5.1 隨機森林參數選擇

隨機森林模型的預測性能取決于兩個參數，分別是決策樹的數量和決策樹的深度。本文使用網格搜索法對以上兩個參數進行選擇，決策樹的數量搜索范圍為range(10,101,10)，決策樹的深度搜索范圍為range(3,21)。5種訓練集下隨機森林模型的兩個參數的最終取值如表5所示。

表5 5種訓練集下隨機森林模型兩個參數的最終取值

2.5.2 分類閾值的選擇

為了進一步提升對少數類的預測準確率以及模型的整體分類性能，本文考慮將其閾值進行改變，觀察其對預測結果的影響，閾值的選擇有[0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9]九個值。

模型1-0、1-1、1-2、1-3、1-4 的召回率、特異度、召回率特異度均值變化曲線分別如圖6～10所示。

以召回率特異度均值為評價標準，RS_mean 值越大，模型分類性能越好。所以可以從圖6～10 得出，模型1-0 與1-1 的最佳分類閾值為0.1，模型1-2、1-3、1-4 的最佳分類閾值為0.2。最佳分類閾值與分類閾值為0.5的結果對比如表6所示。

圖6 模型1-0召回率、特異度、召回率特異度均值變化曲線

圖7 模型1-1召回率、特異度、召回率特異度均值變化曲線

圖8 模型1-2召回率、特異度、召回率特異度均值變化曲線

圖9 模型1-3召回率、特異度、召回率特異度均值變化曲線

圖10 模型1-4召回率、特異度、召回率特異度均值變化曲線

可以從表6看出，模型1-0 在分類閾值為0.1 時，Re‐call 比閾值為0.5 時高36.67%，RS_mean 比閾值為0.5 時高15.13%；模型1-1 在分類閾值為0.1 時，Recall 比閾值為0.5 時高43.33%，RS_mean 比閾值為0.5 時高17.42%；模型1-2在分類閾值為0.2 時，Recall 比閾值為0.5 時高43.34%，RS_mean 比閾值為0.5 時高15.13%；模型1-3 在分類閾值為0.2 時，Recall 比閾值為0.5 時高45.84%，RS_mean比閾值為0.5時高16.59%；模型1-4在分類閾值為0.2 時，Recall 比閾值為0.5 時高48.34%，RS_mean 比閾值為0.5時高13.44%。所以降低分類閾值后，5個模型都能提高對具有破產風險企業的預測準確率，并獲得更好的預測性能。

表6 兩種分類閾值的預測結果對比

2.6 實驗結果分析

根據所獲得的最佳分類閾值，5 個模型對企業破產預測的最終分類結果如表7所示，圖11是5 個模型的ROC曲線。

圖11 基于改進隨機森林的五種模型的ROC曲線

從表7可以看到，模型1-1 與模型1-0 相比，召回率Recall 提升了8.33%，特異度Specificity 降低了2.12%，召回率特異度均值RS_mean 提升了3.10%，精確率Preci‐sion 提升了0.31%，AUC 值提升了0.0031，說明經計算Pearson 相關系數并進行特征提取的模型比未進行特征提取的模型分類性能更佳。

表7 基于改進隨機森林的五種模型的企業破產預測相關指標結果

模型1-2 與模型1-1 進行比較，召回率Recall 提升了6.67%，特異度Specificity降低了5.49%，召回率特異度均值RS_mean 提升了0.59%，精確率Precision 提升了0.20%，AUC 值提升了0.0056，說明對少數類采用SMOTE 過采樣技術生成的新數據集能夠顯著提升TRF分類器分類結果的各項評價指標值，在處理企業破產預測問題上，SMOTE-TRF 模型的綜合性能要比TRF 模型更優。

而結合綜合采樣的分類器與SMOTE-TRF 模型相比，模型1-3 即SMOTETomek-TRF 分類器在召回率上提升了2.5%，特異度Specificity 提升了0.24%，召回率特異度均值RS_mean 提升了1.37%，精確率Precision 提升了0.12%，AUC 值提升了0.0097；模型1-4 即SMOTEENNTRF 分類器在召回率上提升了12.5%，召回率特異度均值RS_mean 提升了1.17%，精確率Precision 提升了0.45%。

3 結束語

本文選取全球10173 個企業在2008年的財務比率以及在2013年的破產情況作為數據基礎，通過結合特征提取、平衡化技術、改進的隨機森林3種方法構建了企業破產預測模型。得出如下結論：

(1)改進的隨機森林模型相比于傳統隨機森林模型在召回率上提升了36.67%。

(2)本文提出的Pearson 相關系數特征提取規則能有效地從64 個財務比率中篩選出28 個來準確衡量企業各方面的能力，降低模型復雜度的同時，還提升了分類預測的各個評價指標值，對具有破產風險企業的預測正確率提升最為明顯。

(3)3 種方法的結合能獲得最高的預測性能，若平衡化技術選擇綜合采樣的話，預測結果會比使用SMOTE方法更優。

(4)本文選取的研究對象是全球不同行業的公司，所以本文的研究方法在企業破產預測領域具有更高的普適性以及更加廣闊的應用前景。

根據以上結論，提出以下建議：第一，金融政策方面要加強對企業破產預測模型的關注，加大對其研發資金的投入和研發人員的投入，使研究出來的模型具備實用性，而不僅僅只存在于理論方面，對于未來有可能會發生的經濟危機的防范要有所準備，從而盡可能減小損失。第二，企業要加強自身管理，增強風險管理意識，可以根據自身的情況建立破產風險預警系統，不僅可以引入本文提出的相關財務指標，未來還可以根據外部環境和企業內部環境的變化，考慮與業務增長、公司管理和宏觀經濟學相關的變量，進而提高模型在預測公司破產時的準確性，將預測結果及時提供給企業的所有者和利益相關者(包括債權人、工會、政府機構、雇員、客戶和供應商)，從而使企業提前一步發現問題并采取戰略行動，改善公司環境，達到減少損失甚至消除破產風險的目的。第三，要加強內部管控，保障所提供的財務數據真實準確，例如建立一套有效的管理信息系統，包括嚴密的授權及批準制度并要求全員執行，相關員工要定點盤點存貨、加強會計系統控制等。第四，要提高公司主營業收入或者降低產品成本，提高盈利能力；合理有效地安排資本結構，加快資金周轉率，提高營運能力，進而提高公司的盈利能力和償債能力。