基于決策樹集成的債券發(fā)行企業(yè)財務(wù)預(yù)警研究

2020-03-30 03:44:51宋宇李鴻禧

財會月刊·下半月 2020年3期

宋宇李鴻禧

【摘要】在我國，債券發(fā)行人中財務(wù)危機(jī)企業(yè)數(shù)量遠(yuǎn)小于財務(wù)健康企業(yè)，樣本的非平衡性導(dǎo)致一般的財務(wù)預(yù)警模型在訓(xùn)練時對財務(wù)危機(jī)企業(yè)的特征挖掘不足、預(yù)警精度低。利用“聚類Bagging”集成方法，將樣本數(shù)量較多的財務(wù)健康企業(yè)樣本分成多組，將多組財務(wù)健康樣本與財務(wù)危機(jī)樣本進(jìn)行兩兩配對，形成兩類樣本大致平衡的多個訓(xùn)練子集。在多個訓(xùn)練子集上分別構(gòu)建決策樹模型作為基學(xué)習(xí)器，使得決策樹基學(xué)習(xí)器可以大致同等地學(xué)習(xí)健康樣本與危機(jī)樣本的特征。利用基學(xué)習(xí)器在測試集上的預(yù)測精度AUC值作為權(quán)重，對決策樹基學(xué)習(xí)器進(jìn)行加權(quán)，得到?jīng)Q策樹集成模型，作為最終的財務(wù)預(yù)警模型。以制造業(yè)債券發(fā)行企業(yè)為樣本，實證對比發(fā)現(xiàn)基于決策樹集成的財務(wù)預(yù)警模型精度更高，說明本模型能夠在總體預(yù)警正確率較高的前提下提高對財務(wù)危機(jī)企業(yè)的正確識別率。

【關(guān)鍵詞】財務(wù)預(yù)警;決策樹集成;AUC;預(yù)警指標(biāo)體系;債券發(fā)行

【中圖分類號】F830? ? ? 【文獻(xiàn)標(biāo)識碼】A? ? ? 【文章編號】1004-0994（2020）06-0045-6

一、引言

隨著債券市場規(guī)模不斷擴(kuò)張、債券品種逐漸多樣化，債市信用風(fēng)險越來越難以把控。2018年以來我國金融市場上的債務(wù)違約呈現(xiàn)常態(tài)化。2018年全年違約債券125只、違約規(guī)模高達(dá)1160億元，超過2014 ～ 2017年之和。可見，我國金融市場的信用風(fēng)險形勢愈加嚴(yán)峻。在債券違約常態(tài)化的大趨勢下，對債券發(fā)行人的財務(wù)風(fēng)險及時進(jìn)行預(yù)警顯得尤為重要。財務(wù)預(yù)警是指通過挖掘企業(yè)數(shù)據(jù)和財務(wù)風(fēng)險之間的關(guān)聯(lián)關(guān)系，預(yù)測企業(yè)發(fā)生財務(wù)危機(jī)的概率。對債券企業(yè)進(jìn)行財務(wù)預(yù)警，一方面能夠提前給出風(fēng)險信號，便于企業(yè)管理者及早改善經(jīng)營，避免破產(chǎn)違約的發(fā)生;另一方面能夠為銀行、基金等機(jī)構(gòu)提供投資決策參考，使其免遭巨額損失。

財務(wù)預(yù)警模型的現(xiàn)有研究大致可分為三類：

一是基于統(tǒng)計計量方法的模型，其中有代表性的方法包括判別、聚類、邏輯回歸等。楊貴軍等[1] 在財務(wù)預(yù)警體系中增加了Benford因子，并利用Lasso-logistic模型構(gòu)建財務(wù)風(fēng)險預(yù)警模型。張發(fā)明等[2] 利用Topsis-GRA方法構(gòu)造動態(tài)信用評價加權(quán)決策矩陣，得到動態(tài)信用評價結(jié)果。周憶等[3] 基于卡爾曼濾波算法構(gòu)建了僵尸企業(yè)風(fēng)險動態(tài)預(yù)警模型。Mizen等[4] 利用次序Probit回歸模型預(yù)測美國債券發(fā)行人的違約風(fēng)險。

二是基于機(jī)器學(xué)習(xí)方法的模型，其中有代表性的方法包括決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。蔡立新等[5] 在分析大數(shù)據(jù)技術(shù)與企業(yè)財務(wù)風(fēng)險預(yù)警需求的基礎(chǔ)上，構(gòu)建了大數(shù)據(jù)視角下的企業(yè)財務(wù)風(fēng)險預(yù)警機(jī)制。李茜等[6] 利用三種BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)算法構(gòu)建財務(wù)預(yù)警模型，在預(yù)測精度上進(jìn)行對比分析。Sevim等[7] 利用決策樹、神經(jīng)網(wǎng)絡(luò)、邏輯回歸建立了貨幣危機(jī)的預(yù)警系統(tǒng)。

三是基于多種方法的組合模型。楊勝剛等[8] 利用決策樹方法對個人信用指標(biāo)進(jìn)行篩選，再利用神經(jīng)網(wǎng)絡(luò)構(gòu)建分類模型。丁嵐等[9] 以logistic回歸、決策樹、支持向量機(jī)作為初級學(xué)習(xí)器，以支持向量機(jī)作為次級學(xué)習(xí)器，預(yù)測P2P網(wǎng)貸的違約風(fēng)險。Javier De Andrés等[10] 將模糊聚類和多元自適應(yīng)回歸模型結(jié)合，對企業(yè)的破產(chǎn)概率進(jìn)行預(yù)測。

決策樹模型的概念最早由Hunt等在1966年提出，最有影響力的模型是Quinlan提出的基于ID3算法的模型，其以信息增益選擇結(jié)點分裂屬性為基礎(chǔ)。后來又提出了改進(jìn)后的C4.5算法，其以信息增益比率選擇屬性為基礎(chǔ)。而C5.0算法在C4.5算法的基礎(chǔ)上又進(jìn)一步提高了識別率。近年來，決策樹C5.0算法在風(fēng)險預(yù)警和信用評級方面應(yīng)用廣泛。龐素琳等[11] 將決策樹C5.0算法用于構(gòu)造銀行個人信用評級模型。王茂光等[12] 通過決策樹C5.0算法建立了小額網(wǎng)貸平臺的風(fēng)險監(jiān)控模型。

上述決策樹財務(wù)預(yù)警模型忽略了財務(wù)正常樣本與危機(jī)樣本之間數(shù)量比例不平衡的問題。在當(dāng)前我國資本市場上，發(fā)生財務(wù)危機(jī)、資不抵債的融資企業(yè)（發(fā)債主體、借款人等）仍是少數(shù)，大多數(shù)融資企業(yè)都處于財務(wù)正常狀態(tài)。這種危機(jī)樣本與正常樣本數(shù)量不均衡的現(xiàn)象，會導(dǎo)致分類模型在訓(xùn)練時更多地學(xué)習(xí)正常樣本的數(shù)據(jù)規(guī)律，而忽略了對危機(jī)樣本的規(guī)律挖掘，從而對危機(jī)樣本的預(yù)測精度過低。所以，本文在考慮債券發(fā)行人中財務(wù)危機(jī)企業(yè)數(shù)量遠(yuǎn)小于財務(wù)健康企業(yè)的這種非平衡數(shù)據(jù)特征的前提下，構(gòu)建決策樹集成模型，旨在解決非平衡數(shù)據(jù)特征下的信用危機(jī)預(yù)警問題，并提高預(yù)警的精度。

二、基于決策樹集成的財務(wù)預(yù)警模型

集成學(xué)習(xí)是將多個機(jī)器學(xué)習(xí)模型（稱為“個體學(xué)習(xí)器”）按照一定的方法集成到一起。經(jīng)典的集成方法有AdaBoost、Bagging、隨機(jī)森林，這些經(jīng)典方法的特點是能讓個體學(xué)習(xí)器保持差異化，以保證每個個體學(xué)習(xí)器都能反映不同的信息，集成后的結(jié)果能夠更加全面，從而提升預(yù)測的精度。

本文采用的是同質(zhì)集成，即集成中只包含同種類型的個體學(xué)習(xí)器，此時的個體學(xué)習(xí)器稱為“基學(xué)習(xí)器”。本文采用決策樹C5.0算法構(gòu)建決策樹基學(xué)習(xí)器，通過“聚類Bagging”方法將多個決策樹基學(xué)習(xí)器進(jìn)行集成，以解決非平衡數(shù)據(jù)特征下的財務(wù)預(yù)警精度問題。

（一）基學(xué)習(xí)器的構(gòu)建

1. 決策樹C5.0算法。決策樹C5.0算法依據(jù)的是信息增益比率，選取該節(jié)點上信息增益比率最大的指標(biāo)作為分裂變量，劃分樣本生成下一層新的結(jié)點。信息增益比率的計算過程如下：

其中，n（Sj）為樣本子集Sj的樣本數(shù)量，n為樣本總數(shù)。條件信息熵E（S|X）反映了樣本集合按照指標(biāo)X的取值進(jìn)行分類之后，對于財務(wù)危機(jī)的平均分辨能力。條件信息熵E（S|X）越小，指標(biāo)X對于財務(wù)危機(jī)的分辨能力越強(qiáng)。

信息增益G（X）反映了指標(biāo)X對于“是否發(fā)生財務(wù)危機(jī)”的分辨能力。信息增益G（X）越大，指標(biāo)X對于“是否發(fā)生財務(wù)危機(jī)”的分辨能力越強(qiáng)，從而可以更準(zhǔn)確地將財務(wù)危機(jī)樣本識別出來。為了消除指標(biāo)取值種類數(shù)目的影響，進(jìn)一步計算信息增益比率R（X）：

其中，n（Sj）為樣本集合按照指標(biāo)X取值劃分后的樣本子集Sj的樣本數(shù)量，n為樣本總數(shù)。

以上為信息增益比率的計算過程。以信息增益比率為關(guān)鍵參數(shù)構(gòu)建一個決策樹模型，步驟如下：

Step1：以樣本全集作為決策樹的根結(jié)點，計算全部評價指標(biāo)的信息增益比率R（Xi）。選取信息增益比率最大的指標(biāo)作為根結(jié)點的分裂變量。按照分裂變量的取值將樣本分成若干個子集，每個子集作為下一層的一個結(jié)點。假設(shè)，指標(biāo)“學(xué)歷”為全部指標(biāo)中信息增益比率最大的指標(biāo)，選取“學(xué)歷”為根結(jié)點上的分裂變量。根據(jù)“學(xué)歷”指標(biāo)下的四種取值{高中，本科，碩士及以上，其他}將樣本分為四類，形成第二層的四個節(jié)點。

Step2：在決策樹第二層中，對于每一個結(jié)點上的樣本集合，計算在該樣本集合上各個指標(biāo)的信息增益比率，選擇信息增益比率最大的指標(biāo)作為當(dāng)前結(jié)點上的分裂變量。同樣，根據(jù)分裂變量的取值繼續(xù)分裂成第三層上的結(jié)點。

Step3：以此類推逐層生成結(jié)點，直到滿足如下三種情況之一時停止：①當(dāng)前結(jié)點的樣本集合中所有的樣本都屬于同一類別（在本研究中，同屬于財務(wù)危機(jī)企業(yè)或財務(wù)正常企業(yè)），當(dāng)前結(jié)點為葉結(jié)點。②當(dāng)前結(jié)點的樣本集合在所有指標(biāo)上的取值均相同，無法進(jìn)一步劃分樣本。此時，用當(dāng)前結(jié)點上多數(shù)樣本所屬的類別標(biāo)記當(dāng)前結(jié)點，當(dāng)前結(jié)點為葉結(jié)點。③當(dāng)前結(jié)點包含的樣本集合為空。用當(dāng)前結(jié)點的父節(jié)點（該結(jié)點上一層直接關(guān)聯(lián)的結(jié)點）中多數(shù)樣本所屬的類別標(biāo)記當(dāng)前結(jié)點，當(dāng)前結(jié)點為葉結(jié)點。

2. 剪枝。由于在決策樹的生成中，為了盡可能正確識別出財務(wù)危機(jī)企業(yè)，從而不斷地劃分樣本，造成決策樹過于龐大，對于訓(xùn)練樣本擬合得過好，由此喪失了對于訓(xùn)練樣本外新樣本的預(yù)測能力。為了避免過擬合問題，本文采用EBP（基于錯誤的剪枝）方法，自下而上地對決策樹的每個結(jié)點進(jìn)行剪枝。其基本思路是，分別計算剪枝前后的預(yù)測錯誤率，若剪枝后的錯誤率相比剪枝前并沒有明顯增大，說明這個子樹對于預(yù)測效果的影響很小，屬于冗余的分枝，應(yīng)該剪掉。

假設(shè)Tj為以結(jié)點j為根的子樹，剪枝前的葉結(jié)點是子樹Tj的葉結(jié)點，剪枝后以結(jié)點j作為葉結(jié)點。采用悲觀錯誤率計算方法，計算剪枝前后該子樹上樣本的預(yù)測錯誤率e1、e2。假設(shè)樣本預(yù)測錯誤率是一個服從二項分布U（e，n）的隨機(jī)變量。給定一個置信度CF，可以求出關(guān)于錯誤率的一個置信區(qū)間[LCF，UCF]。若剪枝后的錯誤率期望值n×e2小于剪枝前的錯誤率上分位點UCF，說明剪枝后的錯誤率相比剪枝前并沒有明顯增大，那么剪枝;否則不剪枝。置信度CF越大，則剪枝越嚴(yán)重，CF一般取0.75。

（二）決策樹集成

市場上的債券發(fā)行人絕大多數(shù)都是財務(wù)健康的企業(yè)，而發(fā)生財務(wù)危機(jī)的不良發(fā)行人不足5%，兩類樣本的數(shù)量極其不平衡。這種情況會導(dǎo)致決策樹模型在訓(xùn)練時更多地學(xué)習(xí)財務(wù)健康企業(yè)的數(shù)據(jù)特征，而忽略了對財務(wù)危機(jī)企業(yè)的特征挖掘。這種現(xiàn)象被稱為非平衡樣本問題。

本文基于“聚類Bagging”集成方法，通過K均值聚類的方法，將數(shù)量較多的財務(wù)健康企業(yè)樣本分成K組，將K組財務(wù)健康樣本與財務(wù)危機(jī)樣本進(jìn)行兩兩配對，形成K個大致平衡的訓(xùn)練子集。在K個訓(xùn)練子集上分別構(gòu)建決策樹作為基學(xué)習(xí)器，然后再集成，形成最終的預(yù)警模型，從而解決財務(wù)預(yù)警模型構(gòu)建過程中的非平衡樣本問題。具體的模型構(gòu)建過程如下：

Step1：聚類。將樣本劃分為訓(xùn)練集和測試集，訓(xùn)練集是為了訓(xùn)練模型的樣本集合，測試集是為了驗證訓(xùn)練出的模型的預(yù)測精度。在訓(xùn)練集中，假設(shè)D為財務(wù)健康樣本集，F(xiàn)為財務(wù)危機(jī)樣本集。利用K均值聚類法將健康企業(yè)樣本D分成K份{D1，D2，…，DK}。由于聚類方法的特性，可以保證各類樣本之間的差異化最大，這樣就保證了不同樣本子集訓(xùn)練出的決策樹基學(xué)習(xí)器具有差異性。

Step2：生成多個訓(xùn)練樣本。將{D1，D2，…，DK}中每個集合與危機(jī)樣本集合F進(jìn)行兩兩配對，形成K個訓(xùn)練子集{D1∪F，D2∪F，…，DK∪F }。由于原本數(shù)量過多的健康樣本集D被拆成了K份，每一份健康樣本子集Di中樣本數(shù)量大大減少，因此新形成的訓(xùn)練子集Di∪F中，健康樣本數(shù)量與危機(jī)樣本數(shù)量變得相對平衡，從而大大削弱了總體樣本中的非平衡樣本問題。

Step3：決策樹基學(xué)習(xí)器。利用前文所述的方法，分別在上述K個訓(xùn)練子集上構(gòu)造決策樹，形成K個基學(xué)習(xí)器{M1，M2，…，MK}。聚類的方法特性使得不同訓(xùn)練子集之間具有差異性，保證了不同子集訓(xùn)練出的決策樹基學(xué)習(xí)器具有差異性。

Step4：決策樹集成。根據(jù)決策樹基學(xué)習(xí)器的預(yù)測精度對基學(xué)習(xí)器進(jìn)行加權(quán)，預(yù)測準(zhǔn)確性越高，權(quán)重越高，從而形成決策樹集成學(xué)習(xí)器。具體方法為：利用K個基學(xué)習(xí)器{M1，M2，…，MK}在測試集上進(jìn)行預(yù)測，將預(yù)測結(jié)果與實際財務(wù)狀態(tài)進(jìn)行對比，畫出ROC曲線。

ROC曲線的橫坐標(biāo)是偽正率，即預(yù)測為正例但實際為負(fù)的樣本占所有負(fù)例樣本的比例（在本文中“發(fā)生財務(wù)危機(jī)”是研究對象，為正例）;縱坐標(biāo)是真正率，即預(yù)測為正例且實際為正的樣本占所有正例樣本的比例。AUC值是ROC曲線與橫坐標(biāo)包圍的面積，AUC值綜合反映預(yù)測模型的準(zhǔn)確度和靈敏度。以AUC值作為權(quán)重對決策樹基學(xué)習(xí)器進(jìn)行加權(quán)，得到?jīng)Q策樹集成學(xué)習(xí)器，作為財務(wù)預(yù)警模型。

經(jīng)過上述過程，將決策樹基學(xué)習(xí)器集成，最終得到財務(wù)預(yù)警模型。上述過程如圖1所示。

三、實證分析

1. 樣本的選取。本研究選取我國2014 ～ 2018年有存續(xù)債的1159家制造業(yè)企業(yè)為實證樣本。將這些債券發(fā)行人在2014 ～ 2018年中有債券存續(xù)年份的數(shù)據(jù)作為實證數(shù)據(jù)，數(shù)據(jù)來自Wind數(shù)據(jù)庫。相同企業(yè)不同年份的數(shù)據(jù)可以看成不同的樣本，共得到3858個實證樣本。

本研究將以下兩種情況標(biāo)記為“企業(yè)發(fā)生財務(wù)危機(jī)”：一是債券發(fā)行人從違約前一年直至債券到期均標(biāo)記為發(fā)生財務(wù)危機(jī)，這是由于絕大多數(shù)債券發(fā)行人在發(fā)生違約的之前一段時間，就已經(jīng)因經(jīng)營不善或投資失敗出現(xiàn)資金流短缺等財務(wù)困境問題。二是對于上市公司的債券發(fā)行人，將標(biāo)記?ST當(dāng)年及前三年、ST當(dāng)年及前兩年均標(biāo)記為發(fā)生財務(wù)危機(jī)，主要是因為被?ST說明連續(xù)三年出現(xiàn)財務(wù)虧損或經(jīng)營不善等財務(wù)狀況惡化現(xiàn)象，被ST說明連續(xù)兩年出現(xiàn)財務(wù)問題。

因此，3858個實證樣本中有3773個樣本為財務(wù)正常樣本、85個樣本為財務(wù)危機(jī)樣本，財務(wù)正常記為0、財務(wù)危機(jī)記為1。采用分層抽樣，分別從正常樣本和危機(jī)樣本中隨機(jī)抽取10%的樣本（包含378個財務(wù)正常樣本、9個危機(jī)樣本）作為測試集Test，剩余的3471個樣本（包含3395個財務(wù)正常樣本、76個危機(jī)樣本）作為訓(xùn)練集Train。

2. 預(yù)警指標(biāo)的海選。本研究借鑒穆迪、中誠信等國內(nèi)外評級機(jī)構(gòu)及文獻(xiàn)中的高頻指標(biāo)，從企業(yè)財務(wù)運營和經(jīng)營環(huán)境兩個層面來構(gòu)建指標(biāo)體系，如表1所示。

3. 決策樹集成。本研究中3471個訓(xùn)練樣本包含3395個財務(wù)正常樣本（記為集合D）和76個危機(jī)樣本（記為集合F），兩類樣本的比例約為45∶1，兩類樣本的數(shù)量極其不平衡。

對應(yīng)前文所述的步驟，構(gòu)建決策樹集成的財務(wù)預(yù)警模型：

Step1：聚類。采用K均值聚類的方法，將訓(xùn)練樣本中的財務(wù)正常樣本集合D分為四類{D1，D2，D3，D4}，樣本個數(shù)分別為1633、1403、90、269。

Step2：生成多個訓(xùn)練樣本。將Step1中劃分的四類樣本{D1，D2，D3，D4}，分別與財務(wù)危機(jī)樣本集F進(jìn)行兩兩配對，形成了4個訓(xùn)練子集{D1∪ F，D2∪ F，D3∪ F，D4∪ F}，4個訓(xùn)練子集中兩類樣本的比例分別為21∶1、18∶1、1.2∶1和3.5∶1。相比整體訓(xùn)練樣本中兩類樣本的比例45∶1，訓(xùn)練子集中非平衡樣本問題被大大削弱了。

Step3：決策樹基學(xué)習(xí)器。利用前文所述方法，分別針對4個訓(xùn)練子集{D1∪ F，D2∪ F，D3∪ F，D4∪ F}，利用決策樹C5.0算法訓(xùn)練模型，并在置信度CF=0.75的設(shè)置下對決策樹進(jìn)行剪枝，從而訓(xùn)練出4個決策樹基學(xué)習(xí)器{M1，M2，M3，M4}。此處以第一個訓(xùn)練子集訓(xùn)練出的決策樹基學(xué)習(xí)器M1為例進(jìn)行展示，見圖2。

Step4：決策樹集成。將四個決策樹基學(xué)習(xí)器{M1，M2，M3，M4}在測試集Test上進(jìn)行危機(jī)預(yù)測，分別計算四個決策樹基學(xué)習(xí)器的預(yù)測總體正確率、財務(wù)危機(jī)的預(yù)測正確率（將實際危機(jī)樣本預(yù)測正確的比率）。并根據(jù)畫出每個決策樹基學(xué)習(xí)器的ROC曲線，計算ROC曲線下方面積，即AUC值，如表2所示。以AUC值為權(quán)重對四個決策樹基學(xué)習(xí)器進(jìn)行集成，得到?jīng)Q策樹集成學(xué)習(xí)器，即為最終的財務(wù)預(yù)警模型。

在測試集上進(jìn)行財務(wù)危機(jī)預(yù)警的檢驗，預(yù)警的精度指標(biāo)如表3第二行所示。基于決策樹集成的財務(wù)預(yù)警模型對于測試集整體的預(yù)測正確率達(dá)到78.3%，財務(wù)危機(jī)的預(yù)測正確率達(dá)到77.8%。與表2中的基學(xué)習(xí)器相比，決策樹學(xué)習(xí)器預(yù)警模型在總體正確率較高的基礎(chǔ)上，大大提高了財務(wù)危機(jī)企業(yè)的正確識別率，兼顧了總體樣本的預(yù)測正確率和財務(wù)危機(jī)樣本的預(yù)測正確率，說明決策樹基學(xué)習(xí)器的集成是有效的。

4. 對比分析。本研究采用“聚類Bagging”方法構(gòu)建決策樹集成模型，目的是解決財務(wù)危機(jī)樣本過少情況下對于危機(jī)樣本的預(yù)測準(zhǔn)確度過低的問題。因此，將本研究構(gòu)建的決策樹集成模型與普通的決策樹模型進(jìn)行對比分析。對比模型是將全部訓(xùn)練樣本直接構(gòu)建一個決策樹模型，再對訓(xùn)練集進(jìn)行預(yù)警精度的檢測，決策樹中其他參數(shù)的設(shè)置均與本模型相同。將本模型與對比模型在測試集上的預(yù)警精度進(jìn)行對比，結(jié)果如表3所示。

由表3可以看出，對比模型對于財務(wù)危機(jī)的預(yù)警幾乎失效，近80%的危機(jī)企業(yè)都沒有被識別出來，沒有達(dá)到財務(wù)預(yù)警的根本目的。相較對比模型，本模型在財務(wù)危機(jī)樣本的預(yù)測正確率上提高了55.6%，能夠?qū)⒔^大多數(shù)的危機(jī)企業(yè)正確預(yù)測出來，且能夠使得總體樣本的預(yù)測正確率達(dá)到78%以上的較高水平。這說明本預(yù)警模型在總體預(yù)測正確率較高的前提下大大提高了財務(wù)危機(jī)的正確識別率，更為合理。

四、結(jié)論

本文考慮了債券發(fā)行人中財務(wù)危機(jī)企業(yè)數(shù)量遠(yuǎn)小于財務(wù)健康企業(yè)的這種非平衡數(shù)據(jù)特征，借鑒“聚類Bagging”集成方法，通過K均值聚類的方法，將樣本數(shù)量較多的財務(wù)健康企業(yè)樣本分成K組，將K組財務(wù)健康樣本與財務(wù)危機(jī)樣本進(jìn)行兩兩配對，形成K個大致平衡且有差異性的訓(xùn)練子集。利用決策樹C5.0算法，在K個訓(xùn)練子集上分別構(gòu)建決策樹模型作為基學(xué)習(xí)器，使得決策樹基學(xué)習(xí)器可以大致同等地學(xué)習(xí)健康樣本與危機(jī)樣本的特征，避免由于非平衡數(shù)據(jù)導(dǎo)致預(yù)警模型對數(shù)量較少的危機(jī)樣本預(yù)測精度過低的問題。利用基學(xué)習(xí)器在測試集上的預(yù)測精度AUC值作為權(quán)重，對決策樹基學(xué)習(xí)器進(jìn)行加權(quán)，得到?jīng)Q策樹集成模型，作為最終的財務(wù)預(yù)警模型，這使得預(yù)測精度高的基學(xué)習(xí)器在決策樹集成模型中發(fā)揮更大的作用，提高了集成模型的預(yù)警精度。

經(jīng)過測試集檢驗和對比分析，本文建立的基于決策樹集成的財務(wù)預(yù)警模型精度較高，總體的預(yù)警正確率達(dá)到78%，對財務(wù)危機(jī)企業(yè)的正確識別率達(dá)到77.8%。而簡單的決策樹模型對于財務(wù)危機(jī)的預(yù)警幾乎失效，近80%的危機(jī)企業(yè)都沒有被識別出來，說明本模型能夠在總體預(yù)警正確率較高的前提下大大提高財務(wù)危機(jī)的正確識別率。

【主要參考文獻(xiàn) 】

[ 1 ]? ?楊貴軍，周亞夢，孫玲莉.基于Benford-Logistic模型的企業(yè)財務(wù)風(fēng)險預(yù)警方法[ J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究，2019（10）：149 ～ 164.

[ 2 ]? ?張發(fā)明，王偉明，李小霜.TOPSIS-GRA法下的企業(yè)動態(tài)信用評價方法及其應(yīng)用[ J].運籌與管理，2018（9）：136 ～ 142.

[ 3 ]? ?周憶，張友棠.基于卡爾曼濾波的僵尸企業(yè)財務(wù)風(fēng)險動態(tài)預(yù)警研究[ J].財會通訊，2019（23）：110 ～ 114.

[ 4 ]? ?Mizen P.，Tsoukas S.. Forecasting US bond default ratings allowing for previous and initial state dependence in an ordered probit model[ J].International Journal of Forecasting，2012（1）：273 ～ 287.

[ 5 ]? ?蔡立新，李嘉歡.大數(shù)據(jù)時代企業(yè)財務(wù)風(fēng)險預(yù)警機(jī)制與路徑探究[ J].財會月刊，2018（15）：40 ～ 45.

[ 6 ]? ?李茜，唐恒書.基于三種BP-NNs改進(jìn)算法的財務(wù)預(yù)警研究[ J].會計之友，2019（6）：57 ～ 64.

[ 7 ]? ?Sevim C.， Oztekin A.， Bali O.， et al.. Developing an early warning system to predict currency crises[ J].European Journal of OperationalResearch，2014（3）：1095 ～ 1104.

[ 8 ]? ?楊勝剛，朱琦，成程.個人信用評估組合模型的構(gòu)建——基于決策樹—神經(jīng)網(wǎng)絡(luò)的研究[ J].金融論壇，2013（2）：57 ～ 61.

[ 9 ]? ?丁嵐，駱品亮.基于Stacking集成策略的P2P網(wǎng)貸違約風(fēng)險預(yù)警研究[ J].投資研究，2017（4）：43 ～ 56.

[10]? ?Javier De Andrés， Lorca P.， Juez F. J. D. C.， et al.. Bankruptcy forecasting： A hybrid approach using fuzzy c-means clustering and multi-variate adaptive regression splines （MARS）[ J].Expert Systems with Applications，2011（3）：1866 ～ 1875.

[11]? ?龐素琳，鞏吉璋.C5.0分類算法及在銀行個人信用評級中的應(yīng)用[ J].系統(tǒng)工程理論與實踐，2009（12）：94 ～ 104.

[12]? ?王茂光，葛蕾蕾，趙江平.基于C5.0算法的小額網(wǎng)貸平臺的風(fēng)險監(jiān)控研究[ J].中國管理科學(xué)，2016（S1）：356 ～ 363.

財會月刊·下半月2020年3期

財會月刊·下半月的其它文章: 中國數(shù)字經(jīng)濟(jì)產(chǎn)出效率：區(qū)位差異及變化趨勢; 美國貨幣政策風(fēng)險溢出效應(yīng)分析; 我國個人所得稅稅負(fù)累進(jìn)機(jī)制創(chuàng)新; 稅法漏洞類型化的文本分析; 戰(zhàn)略性新興產(chǎn)業(yè)創(chuàng)新鏈與資金鏈供需匹配研究述評; 社會誠信制度建設(shè)能抑制企業(yè)腐敗行為嗎