基于不平衡數據的公司破產預測研究

2022-03-22 08:41:00周文泳馮麗霞段春艷

同濟大學學報(自然科學版) 2022年2期

周文泳，馮麗霞，段春艷

（1.同濟大學經濟與管理學院，上海 200092；2.同濟大學機械與能源工程學院，上海 201804）

企業破產是企業財務困境中最為嚴峻的情形，企業經營狀況不僅關系到企業的生存和發展，還影響到全球的經濟，因此準確預測企業經營狀況至關重要。傳統的企業經營風險預測常常是決策者依據經驗對企業當前情況進行判斷，然而這對決策者提出了很高的要求，且決策過程也易受決策者的主觀意識或外界因素干擾。如今隨著大數據時代的到來，這種傳統的預測方法已不能滿足現代社會經濟發展的需求。

早期建立了單變量判別模型［1］、多元線性判別模型［2］等用于破產預測的數學模型，而后多元邏輯回歸模型在財務困境預測研究中漸漸發展，解決了判別分析中的許多問題，如受假設條件的約束［3］。自20世紀90年代以來，隨著人工智能和機器學習的興起，決策樹、支持向量機、神經網絡等先進技術在破產預測領域得到了快速發展，眾多研究也證實了神經網絡、決策樹等機器學習算法在破產預測中具有更優的預測效果［4-9］。然而，實際預測的樣本中往往是破產企業數量遠小于未破產企業數量，樣本數據的不均衡總是導致機器學習的預測性能下降。這一問題的主要特征表現為，在少數類樣本量極少的情況下，分類器無法充分學習到少數類樣本的特征，進而難以識別少數類樣本。常見的解決思路是在數據層面將數據進行預處理，通過重抽樣調整多數類與少數類的數量以實現類間樣本量的平衡；此外在算法層面，運用集成學習算法對分類器進行增強［10］。Galar等［11］根據不同的基本集成學習算法和處理類不平衡問題的手段，劃分了四類集成解決方案——代價敏感提升和數據預處理后分別基于提升、自助匯聚，以及結合提升與自舉匯聚的雙集成學習，并選擇了4.5分類器（Classifier 4.5，C4.5）決策樹作為基分類器，證明了在數據不平衡情形下，通過聯合預處理技術（隨機欠抽樣等）和集成學習算法，可以獲得更好的預測效果。而后也有一些研究基于支持向量機、人工神經網絡、C4.5決策樹等模型，將人工少數類過采樣法（SMOTE）和自助匯聚、自適應提升等集成技術結合，獲得了較好的分類結果［12-14］。Shen等［15］基于SMOTE抽樣，對比了支持向量機、決策樹等多種集成分類器，發現RF的分類效果較優。然而，過大的數據量會限制支持向量機的使用能力，此外決定其預測能力的核函數往往也需要慎重地手動選擇［16］。相反，神經網絡不僅適用于大樣本，其自動提取數據特征的能力可一定程度上緩解核函數帶來的問題［17］。目前已有學者將神經網絡集成用于信息安全［18-19］、環境質量鑒別［20］、工業故障診斷［21］等多個研究領域，而用于公司破產預測領域的研究還較少。

因此，本文在前人研究基礎上，選取神經網絡和決策樹作為基分類器，將數據預處理與集成算法結合構建公司破產預測模型，并對加利福尼亞大學爾灣分校（University of California Irvine，UCI）機器學習數據庫提供的2007～2013年間一萬多家波蘭制造業公司進行實驗。主要貢獻包括：①在數據層面，選擇三種重抽樣方法——隨機欠抽樣、隨機過抽樣、SMOTE抽樣進行預處理以實現類間樣本量的平衡，并擇優選出適合不同基分類器的抽樣方法；②在算法層面，整合集成學習自助匯聚思想以提高單一分類器的預測效果。實驗得出以神經網絡為基分類器的模型結果優于以決策樹為基分類器的模型結果，表明本文的研究方法能更有效地消除實際應用中不平衡數據的影響，且在企業破產預測領域具有較高的適用性，可為企業經營檢測提供積極支撐。

1 研究方法

1.1 數據預處理技術

數據的預處理旨在預先對初始數據采取相關的審查、篩選、排序等必要措施［22］。數據預處理技術包含缺失、冗余信息處理，指標集優化篩選，標準化處理，抽樣消除樣本數據不平衡等多個階段。

首先，初始樣本數據往往存在缺失值，在所有待考察的屬性下并非均有對應的數值，若不預先處理掉缺失值，會致使一些分類模型無法建立，如神經網絡等。一般可通過特殊值、均值或眾數等數值進行插補，而當存在缺失值的個案在數據集里的占比很小時亦可采取直接剔除的手段。

其次，在眾多經濟指標中，各指標之間難免會有相關性，因而導致數據冗余。若將所有指標直接代入建立分類模型，不僅會拖慢分類器的運行速度，還容易降低分類精度和模型的可解釋性，因此選擇類似主成分分析這樣的手段根據指標間的相關性進行線性重組，進而得到能表示原始指標信息的少數幾個綜合性指標。

此外，為了像神經網絡這樣的模型能夠較好地運行，其輸入數據需進行標準化處理以消除量綱的影響，常見的方法如零-均值標準化、最小-最大標準化等。零-均值法適用于當數據呈正態分布時，通過轉化函數為將其化為標準正態分

布，其中μ為樣本數據的均值，σ為樣本數據的標準差。而當數據呈現非正態或均勻分布時，可對每一個輸入的數值型向量x，減去x中的最小值再除以x中值的范圍以此將數據化至0～1范圍內，函數表達式為

最后，由于分類器對不均衡數據集的有偏性，即多數類樣本容易識別而少數類樣本識別困難。本文分別通過隨機過抽樣、隨機欠抽樣、SMOTE抽樣處理來平衡數據集。隨機欠抽樣主要是對多數類觀測數采取隨機剔除的方式，使得數據集達到平衡，該方法在數據量很大時非常有效。隨機過抽樣以隨機重復少數類觀測的方式來增添樣本數目。SMOTE抽樣也稱人工數據合成法，利用生成人工數據來消除不平衡現象，而不僅是重復原始觀測值。該方法基于特征空間（而非數據空間）產生與少數類觀測相似的新數據，而相似性則通過歐氏距離得以衡量。

1.2 機器學習算法

決策樹算法是用于建立預測模型的有監督學習算法，是一種以樹形結構來建立模型的遞歸劃分探索法［17］，結構示意圖如圖1所示。

圖1 決策樹結構示意圖Fig.1 Schematic diagram of decision tree structure

決策樹通過很多算法都可以實現，5.0分類器（Classifier 5.0，C5.0）是其最知名算法之一。它是由計算機科學家J.Ross Quinlan對之前的C4.5算法的改進，運算速度更快且更精準。C5.0決策樹算法使用熵（entropy）來度量特征數據X的純度，如式（1）所示［23］；然后再計算信息增益（gain）來決定根據哪一個特征進行分割，如式（2）所示［23］。決策樹對于絕大多數的分類問題均適用。

人工神經網絡是通過仿照生物神經網絡而開拓出來的進行信息處理的模型［24］。其中，多層前饋網絡是應用最廣泛和最受歡迎的人工神經網絡之一，特別是在分類判別問題的應用中。圖2顯示了該網絡的基本結構［25］。輸入數據的特征數量直接決定網絡輸入層的節點個數，輸出層的節點個數則由需要得出的結果數目決定。而對于隱藏層的節點個數，當下尚且并無一個絕對的標準。需要反復訓練擁有不同節點數的模型，然后對比并適當地加或減其個數。隱層節點數目過大則使得模型易于出現過擬合，且計算量大、訓練緩慢；過小則容易導致無法分類。

圖2 多層前饋網絡示意圖［25］Fig.2 Schematic diagram of multilayer feedforward network[25]

集成學習算法的核心是通過整合眾多的單個弱學習器來建立強學習器。首先，輸入訓練數據建立多個模型，產生多個預測；之后，再利用投票表決或其他更復雜的方法來決定最終預測結果。使用集成學習的好處就是能節省尋找單一最佳模型的時間，并且由于集合了多個學習器的結果，也降低了單一學習器過擬合的可能性。自助匯聚法于1996年由Breiman［26］提出，該集成方法通過在一個訓練集合上重復訓練進而得到多個分類器。它對相對不穩定的單一學習器（如決策樹和神經網絡（neural network，NN））能產生較好的分類效果，因為此類學習器會由于數據的細小改變而產生差別很大的模型。

1.3 基于不平衡數據的公司破產預測模型構建

本文將數據預處理技術與集成算法結合構建企業破產預測模型，在數據層面，涵蓋缺失值處理、冗余信息處理、消除樣本不平衡等多個階段；再在算法層面，選取單隱層前饋神經網絡和C5.0決策樹作為基分類器，并結合集成學習自助匯聚思想來提高基分類器的預測性能。本文的模型構建路徑如圖3所示。

圖3 基于不平衡數據的公司破產預測模型構建路徑Fig.3 Building path of corporate bankruptcy prediction model based on imbalanced data

首先，將原始樣本加載至R軟件中進行初步的數據預處理。由于本文所用樣本量較大，因此選擇直接刪除法進行缺失值處理。在冗余信息處理時，采用主成分分析法對通過缺失值處理的剩余指標進行降維，從縱向上精簡輸入屬性的維數。然后按9：1的比例將主成分分析之后產生的新數據集拆分為訓練集和測試集。用0表示未破產類別，1表示破產類別。

其次，為了消除不均衡數據的影響，先在數據處理層面進行重抽樣處理，分別通過隨機過抽樣、隨機欠抽樣、SMOTE抽樣三種抽樣處理，使兩類數據量的比例達到1：1。

進而，將隨機過抽樣、隨機欠抽樣、SMOTE抽樣三種抽樣技術分別與C5.0決策樹、單隱層前饋神經網絡兩種基分類器相結合，創建6種不同的單一分類器，并在測試集上進行測試，通過比較選擇出最適合各個基分類器的抽樣方法。

最后，再從提高單一分類器性能的角度，將最優抽樣技術與集成算法自助匯聚法結合，形成隨機森林（random forest，RF）和神經網絡集成兩類集成分類器。其中，RF是通過C5.0決策樹算法與自助匯聚算法整合，為決策樹模型增添多樣性；神經網絡集成則是通過單隱層前饋神經網絡與自助匯聚算法整合，以重新抽取訓練數據集的方式來增添神經網絡集成的差異程度。兩者均是從橫向角度對訓練集實施多次選取得到多個有差異的網絡個體，進而獲得有差異的分類器。同樣在測試集上進行檢測，最終比較擇出分類效果最佳的破產預測模型。

1.4 評價指標

（1）ROC曲線下面積

對于不平衡數據的分類問題，傳統的分類精度評價準則確實能從宏觀上映現分類性能，但并不表示能得出對的分類結果。因為當多數類樣本數目遠大于少數類時，后者能被識別的概率幾乎為零。所以即使把所有樣本都歸為多數類，評價的精度依舊很高。Weiss等［27］的研究也證實，一般的分類精度評價標準會致使少數類的分類性能不佳。

受試者操作特征（receiver operating characteristic，ROC）曲線一般用于查驗尋找真陽性與規避假陽性兩者的權衡性。分別以假陽性比、真陽性比作為橫、縱坐標畫平面圖，得到ROC曲線，示意圖見圖4［28］。為了更好地計量，計算ROC曲線的下方面積（area under the ROC，AUC）值來評判其二元分類的優劣，它表示預測的陽性類排在陰性類前面的概率。因其同時考慮了分類器對陽性類和陰性類的分類性能，因此即使在樣本數據不平衡的情況下也能對分類器性能做出合理評價［29］。通常AUC的值使用如下評分體系：0.9～1.0＝A（優秀），0.8～0.9＝B（良好），0.7～0.8＝C（一般），0.6～0.7＝D（較差），0.5～0.6＝F（無法區分）。

圖4 ROC曲線［28］Fig.4 The ROC curve[28]

（2）十折交叉驗證

本文所選取的決策樹和神經網絡兩類基分類器均屬于相對不穩定的學習器，為了使訓練效果取得較為準確的評價，對每個模型都進行十折交叉驗證。將數據集分成10部分，依次把9份合并當成訓練集，剩余1份單獨當成驗證集來進行測驗。每次試驗都會產生相應的評價值，然后將10次結果的均值作為其最終評價。

2 研究設計

2.1 數據預處理

本文采用的波蘭公司財務狀況數據集由UCI機器學習數據庫提供。樣本數據包括64個財務指標，收集了近700家在2007-2013年間破產的公司和10 000多家仍在運營的公司數據。根據數據預測周期建立了5個分類案例。數據預處理步驟如下：

（1）統一數據類型。將數據文件加載至R軟件中，前64列的財務指標均轉化為數值型，最后一列分類指標轉化為因子型——“0”表示未破產，“1”表示破產。

（2）缺失值處理。本文所用樣本量較大，首先統計了有缺失數據的行，即指標數據有缺失的公司，發現超過50%的公司都有缺失數據。接著對列進行缺失值統計，發現了指標x21（銷售（n）/銷售（n-1））和x37（（流動資產-存貨）/長期負債）在5個預測期的樣本數據中存在著大面積的缺失，因此首先剔除掉這兩個指標。此時再統計含有缺失值的公司個數，發現缺失率都降到了15%以內，這時即可直接刪除這些公司數據。

（3）指標降維。利用主成分分析方法對通過缺失值處理的62個剩余經濟指標進行降維。為消除各不同指標中量綱的影響，先將數據通過零-均值標準化，再用函數提取主成分。當方差累積貢獻率至80%時即舍棄剩余的部分。本實驗中第1至第5年的樣本得到的主成分個數分別是10、10、13、15、14個，各碎石圖如圖5所示。

圖5 第1至第5年的樣本的主成分碎石圖Fig.5 Principal component lithotripsy diagrams of the samples from the first to the fifth years

（4）創建隨機的測試集和訓練集。為保證分類器的訓練效果，以9：1的比例對主成分分析后的數據集進行劃分，即90%的訓練集和10%的測試集。劃分后的樣本數量如表1所示。

表1 劃分后的樣本數量Tab.1 The number of samples after partition

（5）抽樣處理不平衡數據。對訓練數據采取重抽樣——分別通過隨機過抽樣、隨機欠抽樣、SMOTE抽樣。利用R軟件中的添加包ROSE（Random Over Sampling Examples，隨機過抽樣例子）以實現數據量1：1的平衡。例如第1年有5 593個原始多數類樣本，采用隨機過采樣法把少數類樣本也增添至5 593個，由此數據集共有11 186條觀測。

2.2 算法實現

本實驗分別測試C5.0決策樹模型和單隱層前饋神經網絡模型在采用隨機過抽樣、隨機欠抽樣、SMOTE抽樣技術后的分類性能，選擇最適合本實驗數據的抽樣技術；然后再將最優抽樣技術與自助匯聚法結合，尋找分類性能最佳的應用模型，并運用十折交叉驗證得到的AUC值進行分類效果評價。

（1）三類抽樣法與C5.0決策樹。使用C5.0添加包建立決策樹模型，將抽樣技術處理過后的訓練數據集用于訓練C5.0決策樹模型，然后再對仍舊保持不平衡狀態的測試數據集進行測試。

（2）三類抽樣法與神經網絡。為了確保神經網絡運行，其輸入數據最好是在0附近，因此先將數據采用最小-最大標準化。使用NNET添加包構建單隱層前饋神經網絡模型。對于參數的選擇上，本文根據以往研究經驗，對隱藏層的節點個數，依照經驗公式初始設置為5，再適當加上和減去一點余量，反復訓練模型并測試［30］。其次為了更好防止過擬合，設置權重衰減參數。根據每個模型訓練的實際情況進行權重衰減參數值在0.001～0.1之間的調整。

（3）RF與神經網絡集成。兩者都是基于自助匯聚法思想，其中，RF是通過C5.0決策樹算法與自助匯聚法算法整合，為決策樹模型增添多樣性；神經網絡集成則是將單隱層的前饋神經網絡與自助匯聚法算法整合，以重新抽取訓練數據集的方式來增添神經網絡集成的差異程度。本文意圖通過實驗將兩者進行比較。使用RF和CARET兩個添加包分別構建RF模型和神經網絡集成模型。最終所有模型都通過十折交叉驗證求出AUC值，作為其分類評價結果。

3 結果分析

根據前面幾節所介紹的步驟，把5個預測期的數據都分別代入單一分類器和集成分類器進行運算，得到對公司破產預測的分類評價結果如表2和表3所示。

表2 單一分類器的預測效果（AUC值及評價等級）Tab.2 Prediction effect of single classifier(AUC value and evaluation grade)

表3 集成分類器的預測效果（AUC值及評價等級）Tab.3 Prediction effect of ensemble classifier(AUC value and evaluation level)

（1）單一分類器比較

首先比較3種數據重抽樣技術分別對C5.0決策樹和單隱層前饋神經網絡的分類效果的影響。對于C5.0決策樹，通過五期AUC的平均值來比較三類不同抽樣法，結果顯示與欠抽樣技術結合的決策樹（C等）的分類性能更佳。因此為了后續模型性能的提升，選擇欠抽樣法與RF結合。對于單隱層前饋神經網絡，發現與欠抽樣、SMOTE抽樣結合的模型性能都比較優良（均為C等），因此為后面階段神經網絡的集成選擇隨機欠抽樣與SMOTE抽樣。兩種分類器的實驗結果均顯示欠抽樣技術在處理不均衡數據上的良好效用。其次，比較兩類單一分類器，從AUC平均數值上來看，欠抽樣、SMOTE抽樣下的單隱層前饋神經網絡（0.79、0.77），更優于欠抽樣下的C5.0決策樹（0.73）。

（2）集成分類器比較

從集成學習的角度比較集成分類器和單一分類器，結果顯示無論是通過集成學習之后的決策樹模型還是集成神經網絡，模型的預測性能都有所提升。尤其是針對那些集成前分類效果較差的預測期數據，模型集成后其性能有顯著的提升，如第3年數據的決策樹模型（從D到C）和第5年數據的神經網絡模型（從D到B）。再從不同分類器的角度比較隨機欠抽樣下的RF，與隨機欠抽樣、SMOTE抽樣下的神經網絡集成，從評價均值上來看后兩者對于公司破產預測效果更優（C、B、B）。

4 結論

2020年新冠疫情的爆發更是加大了企業對破產預測的重視程度。本文著眼于破產預測中樣本類別數據不均衡且樣本規模較大的問題，從增加分類器差異度的角度，對傳統的預測模型進行改進，建立了基于重抽樣技術和自助匯聚集成算法兩者聯合的機器學習模型，并對UCI機器學習數據庫中一萬余條波蘭制造業公司數據進行實驗。本研究選取C5.0決策樹與單隱層前饋神經網絡兩種基分類器，結合數據層和算法層兩方面的改進，并通過十折交叉驗證的AUC值進行評判。

最終實證結果顯示：

（1）針對類別不平衡的公司破產預測樣本，隨機欠抽樣和SMOTE抽樣技術能輔助單一分類器獲得更優良的預測效果；

（2）進而結合集成學習自助匯聚思想時，神經網絡集成模型的預測結果不僅優于其單一分類器模型，也更優于RF模型。本文構建的預測模型結合了數據層面和算法層面的改進，通過大量的樣本數據進行模型訓練，有效消減了實際應用中不平衡訓練集帶來的影響，得到了具有較好預測性能的集成分類器，能準確預測公司破產風險，可應用于記錄了眾多財務指標屬性的公司數據集中，為公司經營檢測提供積極支撐，進而使公司及早實施相關措施預防破產。

總而言之，建立科學、準確且實用的公司破產預測模型，不僅能夠幫助企業管理者及時地識別公司潛在的經營風險，還能幫助投資者等眾多利益相關方做出正確的投融資決定以免遭受巨大損失，同時對國家及地方政府的資金、人力等投入規劃的制定也具有重要的輔助作用。此外，隨著技術的不斷更新升級，公司破產預測模型也依舊是在不斷變化中發展的。從起初企業家的經驗判斷、判別分析，到如今的機器學習算法，公司破產預測研究始終是一個永恒且熱門的話題。面對新時代背景下不斷涌現的新的難題與挑戰，未來應不斷探索新途徑，持續對破產預測模型進行調整和創新，以完善公司破產預測領域的研究。

未來研究可進一步從此方向入手：針對神經網絡這種黑箱方法，建立更優參數配置的神經網絡集成模型，提升集成學習后的預測效果；除了常用的單隱層前饋神經網絡，還可以嘗試采用徑向基神經網絡等其他方法。

作者貢獻聲明：

周文泳：指導研究方案和論文撰寫，全文審閱。

馮麗霞：數據收集與處理，算法實現，撰寫論文。

段春艷：指導研究方案和論文撰寫，審閱及修訂論文。