999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

集成機(jī)器學(xué)習(xí)模型在不平衡樣本財(cái)務(wù)預(yù)警中的應(yīng)用*

2021-08-29 07:00:10劉家鵬江敏祺
電子技術(shù)應(yīng)用 2021年8期
關(guān)鍵詞:分類財(cái)務(wù)模型

張 露 ,劉家鵬 ,江敏祺

(1.中國計(jì)量大學(xué) 經(jīng)濟(jì)與管理學(xué)院,浙江 杭州 310018;2.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200000)

0 引言

進(jìn)入大數(shù)據(jù)時(shí)代以來,對信息的敏感程度和預(yù)測能力變得尤為重要,而對企業(yè)而言,無論是在經(jīng)營活動(dòng)還是投資活動(dòng)中,財(cái)務(wù)危機(jī)預(yù)警一直是個(gè)問題和難題。機(jī)器學(xué)習(xí)的興起為大數(shù)據(jù)的處理和應(yīng)用提供了新的方式。

目前,許多學(xué)者將機(jī)器學(xué)習(xí)與金融危機(jī)預(yù)警相結(jié)合,取得了重大突破。OHLSON J A[1]建議將邏輯回歸應(yīng)用于分類的后概率,來估計(jì)公司的破產(chǎn)概率。Zou Hui 和HASTIE T[2]提出了彈性網(wǎng)絡(luò),克服了嶺回歸和Lasso的缺點(diǎn)[3]。決策樹學(xué)習(xí)是一種強(qiáng)大的分類器[4],在樹分類器的基礎(chǔ)上,有學(xué)者提出了隨機(jī)森林[5]和XGBoost[6],在計(jì)算機(jī)[7]、圖像分類[8]等領(lǐng)域被證明有效。

但在過去的研究中,大多采用人工設(shè)定樣本量,而忽視了實(shí)際上財(cái)務(wù)預(yù)警企業(yè)與正常企業(yè)的數(shù)量對比的懸殊[9]。數(shù)據(jù)不平衡的問題是財(cái)務(wù)預(yù)警研究領(lǐng)域的難題[10]。VEGANZONES D 和SEVERIN E[11]提出采樣技術(shù)可用于提高不平衡樣本預(yù)測的分類器性能,隨機(jī)上采樣技術(shù)[12]、隨機(jī)下采樣技術(shù)[13]和人工合成少數(shù)抽樣技術(shù)(SMOTE)[14]的應(yīng)用解決了集成復(fù)雜分類器在不平衡的財(cái)務(wù)預(yù)警研究數(shù)據(jù)中失效的問題。而集成學(xué)習(xí)機(jī)制可以通過集成不同的模型來整合多種算法的優(yōu)點(diǎn)[15],目前在個(gè)人信貸領(lǐng)域已經(jīng)有了一定的應(yīng)用[16]。

本文研究的目的包括三個(gè)部分:一是測試集成機(jī)器學(xué)習(xí)模型的預(yù)測性能,尋找最適合財(cái)務(wù)預(yù)警的分類器;二是將不平衡學(xué)習(xí)理念運(yùn)用到中國上市公司的全樣本中,避免人工篩選樣本的巧合性,利用抽樣技術(shù)和袋裝(Bagging)方法提高企業(yè)在T-3 期間內(nèi)財(cái)務(wù)風(fēng)險(xiǎn)的概率;三是保持財(cái)務(wù)預(yù)警企業(yè)預(yù)測準(zhǔn)確率的同時(shí),提高健康企業(yè)分類的準(zhǔn)確性,為企業(yè)的日常經(jīng)營和投資者的投資決策提供一定的參考。

1 實(shí)證研究方法設(shè)計(jì)

1.1 研究模型設(shè)計(jì)

本文的研究模型設(shè)計(jì)過程如圖1 所示。

圖1 不平衡財(cái)務(wù)預(yù)警模型設(shè)計(jì)過程

首先,本文用裝袋法和采樣技術(shù)對不平衡數(shù)據(jù)進(jìn)行處理。隨機(jī)上采樣技術(shù)(RUT)通過隨機(jī)抽取重復(fù)的小樣本來平衡不平衡樣本;隨機(jī)下采樣技術(shù)(RDT)隨機(jī)篩選出大樣本,使其處于平衡狀態(tài);合成少數(shù)過采樣技術(shù)(SMOTE)通過KNN 生成新的小樣本來生成平衡數(shù)據(jù),分別得到3 個(gè)數(shù)據(jù)集。

其次,對于在上一步驟得到的數(shù)據(jù)集,分別采用模型池中的Logistic 回歸(LR)、彈性網(wǎng)(EN)、決策樹(DT)、隨機(jī)森林(RF)和XGBoost 5 種分類器進(jìn)行預(yù)測。前4 種財(cái)務(wù)方法在財(cái)務(wù)預(yù)警領(lǐng)域已經(jīng)有了較為成熟的應(yīng)用。XGBoost 于2016 年提出,是對GBDT的進(jìn)一步提升,其損失函數(shù)為:

其中,第一部分表示n 個(gè)樣本的損失函數(shù)值,在這里通過樣本預(yù)測值y^i和真實(shí)值yi的比較,來計(jì)算出對樣本i的模型損失值;第二部分是正則項(xiàng),用來控制模型的復(fù)雜度,模型越復(fù)雜,則懲罰力度越大,從而提升模型的泛化能力,Ω(fk)代表第k 棵樹的復(fù)雜度。XGBoost 是一種改進(jìn)的GBDT算法,GBDT在優(yōu)化時(shí)只用到一階導(dǎo)數(shù),而XGBoost 則對損失函數(shù)進(jìn)行了二階泰勒展開,利用二階導(dǎo)加快了模型訓(xùn)練時(shí)的收斂速度,使得模型求解更加高效。XGBoost 算法中加入了正則項(xiàng),可以有效減少過擬合,即:

其中,Τ 為葉節(jié)點(diǎn)的個(gè)數(shù)。第二部分為節(jié)點(diǎn)權(quán)重的L2 范式,葉子節(jié)點(diǎn)值wj用來評估第k 棵樹的復(fù)雜性程度。γ、λ 分別為對應(yīng)的懲罰參數(shù),越大的γ 和λ 對應(yīng)越簡單的模型。對式(1)泰勒展開,可得:

式(3)中涉及的參數(shù)有:

其中,hi和gi為第t 步的損失函數(shù),由于hi和gi可以并行計(jì)算,極大地提高了XGBoost的建模效率;I 代表了每個(gè)葉子節(jié)點(diǎn)上的訓(xùn)練集樣本。此外,XGBoost 算法還在目標(biāo)函數(shù)中加入了正則項(xiàng),用以權(quán)衡目標(biāo)函數(shù)的下降和模型的復(fù)雜程度,一定程度上避免了過擬合。

最后,集成學(xué)習(xí)機(jī)制通過整合不同的學(xué)習(xí)模型,綜合多種算法的優(yōu)點(diǎn)。本文分別通過穩(wěn)健和謹(jǐn)慎的算法來整合單個(gè)分類器。穩(wěn)健集成算法是指只要其中一個(gè)模型預(yù)測到企業(yè)的財(cái)務(wù)風(fēng)險(xiǎn),集成模型就預(yù)測出企業(yè)存在財(cái)務(wù)風(fēng)險(xiǎn),并記為ME-R;謹(jǐn)慎集成算法是只有所有模型都預(yù)測到企業(yè)的財(cái)務(wù)風(fēng)險(xiǎn)時(shí),該集成模型才能預(yù)測到企業(yè)存在財(cái)務(wù)風(fēng)險(xiǎn)兩個(gè)分類器同時(shí)預(yù)測企業(yè)將面臨風(fēng)險(xiǎn),記為ME-C。

1.2 數(shù)據(jù)來源及指標(biāo)選取

本文選取的是上交所主板市場非金融行業(yè)A 股企業(yè)的財(cái)務(wù)指標(biāo)數(shù)據(jù),數(shù)據(jù)來自銳思金融數(shù)據(jù)庫。考慮到ST 或*ST的標(biāo)志是連續(xù)兩年或三年凈利潤為負(fù),因此選取了t-3 年的財(cái)務(wù)指標(biāo)數(shù)據(jù)來預(yù)測第t 年的結(jié)果。

本文從銳思金融數(shù)據(jù)庫的財(cái)務(wù)比率數(shù)據(jù)中選取了107 個(gè)原始變量,并參考了數(shù)據(jù)庫的分類方法,將107 個(gè)變量分成了9 組指標(biāo),分別是每股指標(biāo)、盈利能力、償債能力、成長能力、營運(yùn)能力、現(xiàn)金流量、分紅能力、資本結(jié)構(gòu)和杜邦分析指標(biāo)。由于這些指標(biāo)未經(jīng)過初始分類,存在一定的相關(guān)性,為了防止信息冗余和過度擬合,本文采用相關(guān)系數(shù)矩陣計(jì)算,篩選掉相關(guān)系數(shù)大于0.5的指標(biāo),然后剩下的57 個(gè)變量指標(biāo)如圖2 所示,Xi代表財(cái)務(wù)預(yù)警指標(biāo)。

圖2 財(cái)務(wù)預(yù)警指標(biāo)構(gòu)建

1.3 數(shù)據(jù)來源及指標(biāo)選取

本文設(shè)定的分類結(jié)果矩陣表示如表1 所示,TP 和TN 代表預(yù)測和真實(shí)值一致的情況,F(xiàn)P 和FN 代表預(yù)測值和真實(shí)值不一致的情況。本次研究中感興趣的是發(fā)生財(cái)務(wù)預(yù)警的企業(yè),因此將其設(shè)定為Positive的類別。

表1 分類矩陣

表1 中,TN 代表正確的分類為不感興趣的類別,TP代表正確的分類為感興趣的類別,F(xiàn)N 代表錯(cuò)誤的分類為不感興趣的類別,F(xiàn)P 代表錯(cuò)誤的分類為感興趣的類別。本文使用的3 個(gè)指標(biāo)公式如下所示:

其中,靈敏度(Sensitivity)是本文感興趣的類別正確分類的概率,即正確挑選出有財(cái)務(wù)風(fēng)險(xiǎn)企業(yè)的概率;特異性(Specificity)度量了挑選出正常企業(yè)的概率;準(zhǔn)確度(Accuracy)則是所有企業(yè)被正確分類的概率。

此外,還將用AUC(Area Under Curve)值來度量模型的精確度以衡量模型的性能。AUC 值越大,代表該模型的性能越好。

2 實(shí)際測試及結(jié)果分析

首先使用Bagging的思想加強(qiáng)學(xué)習(xí)感興趣樣本的信息,然后在Bagging的基礎(chǔ)上,又分別嘗試使用了隨機(jī)過采樣、隨機(jī)欠采樣和SMOTE 采樣技術(shù)。對上述優(yōu)化是否能提升模型性能用AUC 值來表示,如表2 所示,即模型經(jīng)過優(yōu)化前后的AUC 值的對比。

表2 模型優(yōu)化前后的AUC 值

從表2 中可以看出,經(jīng)過采樣技術(shù)和Bagging 對機(jī)器學(xué)習(xí)模型的優(yōu)化,AUC 值得到了明顯的提高,分類器在優(yōu)化前的均衡樣本中的表現(xiàn)要明顯差于優(yōu)化后的不均衡樣本。數(shù)據(jù)的增加使得分類器能學(xué)習(xí)到更多的信息,對樣本進(jìn)行不平衡采樣的處理,使得模型不會(huì)忽略小樣本中的信息,甚至通過權(quán)重影響,更重視小樣本中的信息,從而減小巧合,發(fā)揮分類器預(yù)測的性能。

接下來分別對經(jīng)過不平衡采樣處理后的分類器進(jìn)行財(cái)務(wù)預(yù)警預(yù)測,結(jié)果如表3 所示。

基于誤判的代價(jià),本文優(yōu)先考慮模型的靈敏度,即正確挑選出財(cái)務(wù)預(yù)警企業(yè)的概率。其中,在Bagging RDT的算法下,對財(cái)務(wù)預(yù)警的預(yù)測準(zhǔn)確率是最高的,且隨機(jī)森林和XGBoost的Sensitivity 值是相同的。對此,推測將這兩個(gè)分類器進(jìn)一步集成可能會(huì)提高整體樣本的準(zhǔn)確率。因此,本文嘗試用穩(wěn)健和謹(jǐn)慎的算法將隨機(jī)森林和XGBoost 相結(jié)合。

從表3 中的ME-R 和ME-C 可以看出,兩種集成算法都能保持金融危機(jī)企業(yè)選擇的準(zhǔn)確性,但謹(jǐn)慎的集成算法可以降低對健康企業(yè)的誤判率。在Bagging RDT 模型上,總精度提高了5%~9%。因此,推薦謹(jǐn)慎算法(ME-C)下的集成模型。

表3 優(yōu)化模型的分類預(yù)測概率

此外,通過隨機(jī)森林和XGBoost 對研究指標(biāo)進(jìn)行重要性分析,分別排名前5 個(gè)的變量如圖3 所示挑選出重要指標(biāo),為利益相關(guān)者提供一定的參考,如圖3 所示。

在圖3 中有一個(gè)變量發(fā)生重疊,因此,一共有9 個(gè)較為重要的變量,分別是每股收益、每股營業(yè)總收入、每股營業(yè)利潤、每股未分配利潤、每股留存收益、歸屬母公司的凈利潤增長率、每股現(xiàn)金及現(xiàn)金等價(jià)物余額、流動(dòng)負(fù)債/負(fù)債合計(jì)、扣除非經(jīng)常性損益后的凈利潤。篩選出的衡量企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)的關(guān)鍵性指標(biāo),能為企業(yè)的投資決策和經(jīng)營管理提供一定的借鑒。

圖3 隨機(jī)森林的指標(biāo)重要性程度

3 結(jié)論

本文將集成機(jī)器學(xué)習(xí)模型應(yīng)用到不均衡樣本的企業(yè)財(cái)務(wù)預(yù)警中,并通過一系列的優(yōu)化解決了樣本不均衡的問題,提高了預(yù)測的準(zhǔn)確性。

本文的實(shí)證研究使用了t-3 期的上交所主板市場非金融行業(yè)A 股企業(yè)的財(cái)務(wù)指標(biāo)數(shù)據(jù)來預(yù)測t 期的企業(yè)財(cái)務(wù)狀況,即預(yù)測該企業(yè)在t 期是否會(huì)被ST。本文證明了不同的采樣比例會(huì)影響預(yù)測的準(zhǔn)確率,隨著樣本規(guī)模的增大,在一定程度上會(huì)提高預(yù)測準(zhǔn)確率,但隨著正常上市企業(yè)樣本的擴(kuò)增,而存在財(cái)務(wù)風(fēng)險(xiǎn)的企業(yè)的數(shù)量遠(yuǎn)遠(yuǎn)小于正常上市企業(yè),使得分類器“偷懶”,盲目將企業(yè)預(yù)測為正常,出現(xiàn)了樣本的不均衡現(xiàn)象,使得模型失去挑選出財(cái)務(wù)危機(jī)企業(yè)的能力。但是由于人為設(shè)定樣本使得樣本量數(shù)量受限,使得機(jī)器學(xué)習(xí)的分類器無法完全發(fā)揮其優(yōu)勢,因此本文應(yīng)用了Bagging 思想和采樣技術(shù)——隨機(jī)過采樣、隨機(jī)欠采樣和SMOTE 采樣來優(yōu)化模型,從而提升預(yù)測的準(zhǔn)確性。

實(shí)證研究表明,采樣技術(shù)的使用提高了模型的性能,提升了正確挑選出財(cái)務(wù)預(yù)警企業(yè)的概率,這正是本文所感興趣的分類。其中,單獨(dú)的分類器中,表現(xiàn)最佳的是XGBoost 與隨機(jī)欠采樣的結(jié)合,它在提升了挑選出財(cái)務(wù)危機(jī)企業(yè)的概率的同時(shí),對正常企業(yè)預(yù)測概率的兼顧性要優(yōu)于隨機(jī)森林。為了減少正常企業(yè)被誤判的概率,本文對隨機(jī)森林和XGBoost 進(jìn)行了簡單的集成,使得在t 期正確預(yù)測財(cái)務(wù)預(yù)警企業(yè)的概率維持在92.86%的同時(shí),相比于基分類器,集成模型將正常企業(yè)的誤判率降低了約6%,整體預(yù)測準(zhǔn)確率提高了5.4%。

集成機(jī)器學(xué)習(xí)的應(yīng)用能幫助企業(yè)較好地完成前瞻性的財(cái)務(wù)預(yù)警,與傳統(tǒng)方法相比,會(huì)具有更好的普適性,能結(jié)合大數(shù)據(jù)時(shí)代的背景,提高預(yù)測的準(zhǔn)確率,對管理者有更低的財(cái)會(huì)專業(yè)性要求,有利于企業(yè)的多元化發(fā)展,為企業(yè)挑選投資對象以及日常的生產(chǎn)經(jīng)營活動(dòng)提供了新的借鑒意義。

猜你喜歡
分類財(cái)務(wù)模型
一半模型
黨建與財(cái)務(wù)工作深融合雙提升的思考
分類算一算
重要模型『一線三等角』
論事業(yè)單位財(cái)務(wù)內(nèi)部控制的實(shí)現(xiàn)
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
欲望不控制,財(cái)務(wù)不自由
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 美女一区二区在线观看| 一级爆乳无码av| 狠狠色丁香婷婷| 天天综合色天天综合网| 久久精品波多野结衣| 99热国产在线精品99| 伊人福利视频| 亚洲品质国产精品无码| 视频二区中文无码| 四虎永久在线| 韩日免费小视频| 国产玖玖玖精品视频| 亚洲色图在线观看| 狼友av永久网站免费观看| 一区二区欧美日韩高清免费| 亚洲免费福利视频| 91久久国产综合精品女同我| 国产精品大尺度尺度视频| 亚洲第一香蕉视频| 一级成人欧美一区在线观看 | 久久久成年黄色视频| 91最新精品视频发布页| 精品少妇人妻av无码久久| 毛片基地视频| 国产视频 第一页| 亚洲天堂久久| 日韩欧美中文在线| 国产高清色视频免费看的网址| 激情综合图区| 91精品免费高清在线| 老色鬼久久亚洲AV综合| 久久国产精品嫖妓| 精品久久香蕉国产线看观看gif| 欧美成人午夜影院| 久久综合色天堂av| 无码福利视频| 99这里精品| 亚洲Av激情网五月天| 亚洲欧洲日韩久久狠狠爱| 麻豆国产在线观看一区二区| 欧美日韩亚洲综合在线观看| 精品一区二区三区水蜜桃| 亚洲第一视频网| 国产成人精品一区二区| 欧美成人午夜在线全部免费| 国产AV毛片| 日韩无码视频专区| 欧美日韩国产在线播放| 欧美国产在线看| 国产美女在线观看| 亚洲男人的天堂久久精品| 久久一本日韩精品中文字幕屁孩| 色国产视频| 欧美精品不卡| 成人va亚洲va欧美天堂| 毛片卡一卡二| 蜜芽国产尤物av尤物在线看| 国产精品无码久久久久久| 99热这里只有精品在线播放| 国产H片无码不卡在线视频| 最新亚洲人成无码网站欣赏网| 无码一区中文字幕| 99中文字幕亚洲一区二区| 97色婷婷成人综合在线观看| 激情综合图区| 免费国产小视频在线观看| 成人午夜天| 国产精品第| 最新国产你懂的在线网址| 华人在线亚洲欧美精品| 亚洲午夜天堂| 国产福利一区在线| 国产在线91在线电影| 亚洲天堂成人| 啪啪啪亚洲无码| 99无码熟妇丰满人妻啪啪| 亚洲成人精品久久| 国产主播在线一区| jizz国产视频| www亚洲天堂| 午夜毛片免费观看视频 | 一级毛片在线免费看|