999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的企業倒閉風險預測

2018-04-27 12:27:22
無線互聯科技 2018年8期
關鍵詞:融合信息模型

石 濤

(廣東工業大學 自動化學院,廣東 廣州 510000)

近年來大量小微型企業的活力釋放,小微企業已經成長為國民經濟的重要組成部分,對我國的國際民生產生重要的影響[1]。由于資金、管理、決策等一系列行為導致很多企業都無法長久經營,能否預測出企業的風險對于銀行等借貸機構就顯得非常重要了。銀行準確預測出企業的停業風險就可以合理地投放貸款,減少損失。傳統的大型企業財務信息公開完善,且在銀行等借貸領域的信用記錄也可查詢,使用這些完備的數據便可以預測企業風險;但是小微型企業一般不會公開自己的財務信息,并且獲得的行為數據也都不完整,所以使用傳統的方法分析是行不通的。

為了解決企業數據缺失造成的困難,本文提出了一種使用XGBoost算法的企業風險預測模型。模型針對企業的招聘數據、項目數據、投資數據等9項行為數據分別構建獨立的預測模型,并對每個模型的結果進行線性加權融合,分別計算曲線下面積(Area Under Curve,AUC)值和F1分數作為評分標準,據此預測出企業未來退出市場的概率,以作為其他機構決策的參考。

1 數據描述

本文的全部數據來源于全國2 000萬企業抽取一部分,包括企業主體在多方面留下的行為足跡信息數據,數據包括兩種。(1)企業身份信息以及企業在一定時間內的行為數據(見表1)。(2)目標數據,該數據包括企業的經營狀況:停業1,正常0。企業基本信息數據是身份數據,一個企業只有一條數據,而其他數據都是行為數據,一個企業可又有多條數據,也可能一條都沒有。

表1 企業行為數據

續表1

企業身份信息(見表2)包括企業的類型、成立的年度、注冊資本,還有一些給定計算好的指標等信息。這部分數據是表現每個企業最為基本的信息,所以不管在哪個字模型中都會將其作為特征進行計算。行為數據總共包含8種,分別是變更數據、分子機構數、投資數據、權利數據、項目數據、被執行數據、失信數據和招聘數據,分別包含企業的各類行為。

表2 企業身份信息

對數據的預處理是非常必要的環節。由于原始數據存在缺失值,我們先要做的就是填補空值,然后要去除重復行數據。由于XGBoost僅適用于處理數值型向量,因此,處理訓練集和測試集時需要將所有標量數據轉換為數值型向量,獨熱編碼(one-hot)是常用的轉換方式[2]。本文數據集中的ETYPE和HY等數據都需要經one-hot編碼后才能進行訓練。

2 XGBoost算法介紹

XGBoost是一種迭代回歸樹算法,是在GBDT算法基礎上的改進,但二者皆屬于Boosting提升方法。XGBoost可支持多線程并發任務,這是因為特征列排序后以塊的形式存儲在內存中,在迭代中可以重復使用;雖然Boosting算法迭代必須串行,但是在處理每個特征列時就可以做到并行,因此,實現并行化后在同等條件下比同類算法速度提升10倍以上[3]。XGBoost考慮了訓練數據為稀疏值的情況,可以為缺失值或者指定的值指定分支的默認方向,這能大大提升算法的效率。XGBoost內部包含大量的CART回歸樹,使用殘差來提升模型,內部的正則化防過擬合技術可以保證模型的魯棒性。XGBoost算法可自定義損失函數,且支持多種語言編程,因此非常靈活。下面是該算法的一些重要推導公式。

2.1 目標損失函數

2.2 對目標函數做泰勒二階展開

因為我們要求的是這個目標函數的最小值,(2)式后面的常數項constant是無用的,可以直接去掉。而Ω這項表示的是一個正則化項,可以表示為:

有了(3)式,將其帶入(2),然后再做變形:

對ω求導,可得最優系數,而obj*是對樹結構的一個評價函數,值越小,代表誤差越小:

3 實驗過程與結果

我們的數據是全國2 000多萬企業中篩選出部分作為樣本,根據所提供的數據,預測出企業未來兩年是否由于經營不善而退出市場。由于行為數據涉及多個方面,為了進行對比,我們先對每種行為數據分別訓練模型,觀察模型的AUC分數,這樣就可以確定出哪些數據的影響比較大。同時我們還將數據帶入隨機森林算法中,將其結果與XGBoost算法的結果對比,從而選出最合適的預測模型。實驗結果如表3所示。

由實驗結果可以發現,不同的行為數據對模型精度有很大影響。變更數據,項目數據,被執行數據,招聘數據對XGBoost算法和隨機森林算法都有比較大的影響;而分支機構數據,投資數據,權利數據則出現比較大的反差。這是由于模型對不同的特征的靈敏度造成的差異。由于隨機森林算法引入的隨機性,使得其對噪聲不敏感,不容易導致過擬合[4],泛化性能也就非常好,所以我們會發現它的結果波動不會非常大。而XGBoost算法是對殘差進行迭代優化,所以擬合結果效果非常好。綜合比較兩種算法的效果,我們選用XGBoost算法作為基本算法來做模型融合。

模型融合的思想是在單一模型的預測結果上,再使用模型融合方法來進一步提高模型預測的準確率[5]。多模型融合是取得優秀分析能力的有效途徑[6]。具體來說,上面的步驟已經算出了各個子模型的參數,也知道了各個模型對于預測樣本的結果。據此我們可以使用投票法對結果進行表決,如果這幾個分類器中有多數的結果是1(停業),那結果就是停業,否則就是正常;同時我們也可以對模型的預測概率作平均,公式如下:

其中,n表示模型的個數,Weighti表示該模型權重,Pi表示模型i的預測概率值。其中投票法太過簡單,所以選用參數取平均法作融合。當然還有其他一些復雜的方法來實現,此處不再贅述。經實驗,使用多種行為數據作模型融合,10次結果取平均的AUC值為0.916,且結果波動范圍大大減小,只有3.3%。以上分析結果說明,采用XGBoost算法作模型融合可以實現預測企業倒閉的概率,對于指導行業正常發展有一定的意義。

4 結語

本文基于一種XGBoost的回歸樹模型,使用不同的行為數據記錄,對全國的小型企業的未來是否會正常經營進行預測,對結果參數取平均作模型融合,并用AUC值進行評估。結果顯示對比使用隨機森林算法,此方法得出的結果正確率相對較高,性能相對穩定,對相關行業具有實際的指導意義。

[參考文獻]

[1]陳志朋.科學發展觀視域下中國小微企業發展研究[D].長春:長春師范大學,2014.

[2]黃達文,方梵嵐.基于XGBoost算法的用電電量預測的實踐應用[J].現代信息科技,2017(4):10-12.

[3]葉倩怡,饒泓,姬名書.基于Xgboost的商業銷售預測[J].南昌大學學報(理科版),2017(3):275-281.

[4]李貞貴.隨機森林改進的若干研究[D].廈門:廈門大學,2013.

[5]李巧.模型融合算法的研究及應用[D].武漢:湖北大學,2016.

[6]馬健.多模型融合學習方法與應用[D].南京:南京大學,2016.

猜你喜歡
融合信息模型
一半模型
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
重要模型『一線三等角』
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 亚洲国产一成久久精品国产成人综合| 婷婷色一区二区三区| 美女裸体18禁网站| 亚洲全网成人资源在线观看| 黄色免费在线网址| 波多野一区| 五月天天天色| 亚洲AⅤ综合在线欧美一区| 国产欧美日韩另类精彩视频| 国产精品护士| 亚洲国产中文欧美在线人成大黄瓜| 亚洲男女天堂| 国产xx在线观看| 久久综合国产乱子免费| 成人国产一区二区三区| 久久精品嫩草研究院| 亚洲人妖在线| 亚欧美国产综合| 女人毛片a级大学毛片免费| 中文字幕中文字字幕码一二区| 亚洲综合九九| 亚洲永久视频| 国产地址二永久伊甸园| 亚洲成人77777| 99久久精品视香蕉蕉| 国产91视频免费观看| 夜夜拍夜夜爽| 一级香蕉视频在线观看| 亚洲欧美日韩动漫| 91亚瑟视频| 97国产在线观看| 亚洲国产天堂在线观看| 国内精自线i品一区202| 亚洲h视频在线| 视频一区亚洲| 亚洲色欲色欲www在线观看| 欧美性色综合网| 女同国产精品一区二区| 久久综合婷婷| av在线无码浏览| 一本二本三本不卡无码| 午夜精品区| 亚洲精品日产AⅤ| 亚洲欧美一区在线| 亚洲最黄视频| AV无码一区二区三区四区| 大陆国产精品视频| 99成人在线观看| 欧美精品v欧洲精品| 国产亚洲欧美日韩在线一区二区三区| 亚欧美国产综合| 天天躁狠狠躁| 亚洲第一成网站| 免费看av在线网站网址| 久久国语对白| 国产成人亚洲毛片| 亚洲色图欧美视频| 鲁鲁鲁爽爽爽在线视频观看| 国产亚洲精品自在久久不卡| 青青草91视频| 日韩欧美国产中文| 精品国产成人av免费| 91免费国产在线观看尤物| 亚洲永久视频| 亚洲欧洲天堂色AV| 毛片网站在线看| 日韩av在线直播| 亚洲AV人人澡人人双人| 手机精品福利在线观看| 国产青榴视频在线观看网站| 亚洲水蜜桃久久综合网站| 四虎永久免费地址在线网站 | 91精品小视频| 99人妻碰碰碰久久久久禁片| 亚洲综合色婷婷中文字幕| 一级毛片中文字幕| 国产欧美精品一区二区| 午夜视频免费一区二区在线看| 免费一级毛片在线播放傲雪网| 波多野结衣中文字幕久久| 91成人精品视频| 香蕉精品在线|