999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非平衡數據集下基于XGBoost模型的財務舞弊識別研究

2023-04-29 00:00:00王琦熊莎麗娜詹柔張露楊鑫張健
計算機時代 2023年12期

摘" 要: 針對現實中舞弊樣本與非舞弊樣本存在的數量不平衡情況,通過25個財務指標與2個非財務指標,運用過采樣、欠采樣技術及XGBoost模型進行財務報表舞弊識別研究。結果表明,SMOTE過采樣方法與XGBoost模型的結合在非平衡數據集下具有較好的整體識別效果,對上市公司財務報表舞弊的智能識別有一定參考意義。

關鍵詞: 非平衡數據集; 財務報表舞弊識別; SMOTE; XGBoost

中圖分類號:TP311.1;F275.5" " " " " 文獻標識碼:A" " "文章編號:1006-8228(2023)12-59-05

Research on financial fraud identification based on XGBoost model in unbalanced datasets

Wang Qi, Xiong Shalina, Zhan Rou, Zhang Lu, Yang Xin, Zhang Jian

(School of Mathematics and Science, Southwest Forestry University, Kunming, Yunnan 650224, China)

Abstract: In view of the unbalance in the number of fraud samples and non-fraud samples in reality, a study on financial statement fraud identification is conducted by applying over-sampling, under-sampling techniques and XGBoost model to 25 financial indicators and 2 non-financial indicators. The results show that the combination of SMOTE over-sampling method and XGBoost model has a good overall identification effect in the unbalanced dataset, which has certain reference significance for the intelligent identification of financial statement fraud of listed companies.

Key words: unbalanced dataset; identification of financial statement fraud; SMOTE; XGBoost

0 引言

財務報表是會計信息使用者了解企業實情,做出決策的重要依據。近年來,財務報表舞弊事件屢禁不止,實施舞弊的手法也不斷進化,對會計信息使用者造成了深重的傷害。由于會計師事務所自身的缺陷,財務舞弊難以被及時發現[1]。因此,在提升審計人員自身技術水平和職業道德的同時,也應該利用大數據分析技術為審計賦能,提高快速發現財務報表舞弊的能力。

1 研究現狀

財務舞弊的計算機識別模型構建是近年來國內外審計領域和計算機領域交叉研究的一個熱點問題。張曾蓮、高雅(2017)選取2005-2013年證監會公布的財務舞弊上市公司61家及對比公司61家,以邏輯回歸的向后逐步法構建財務舞弊識別模型,模型識別率達到77.9%[2];王珮伊(2022)選取2000-2020年批發業舞弊上市公司為樣本,并按1:1的比例選擇配對樣本,研究不同降維方法與機器學習的組合,能夠實現對批發零售業上市公司財務舞弊的高效識別[3];梁功梟(2021)選取2016-2019年上市公司數據,利用隨機森林算法構建模型對上市公司財務造假情況進行有效識別預警[4]。Mengshuang Du(2021)采用規范分析與實證研究相結合的研究方法,以CRIME理論為基礎,建立財務舞弊識別模型[5];Meng C (2020)以某互聯網金融機構的真實在線交易數據為基礎,分別研究了XGBoost算法在原始數據集、欠采樣和SMOTE數據集上的性能[6];濮雙羽等(2021)選取68家舞弊企業與68家非舞弊企業構成1:1配對樣本,建立Logistic回歸模型,整體識別率為86.87%[7];吳貞如(2022)以1:2配比選擇283個舞弊樣本和566個非舞弊樣本,使用四種機器學習算法進行舞弊識別研究,結果表明XGBoost效果最好,準確度為86.95%,召回率為83.61%[8]。

通過梳理文獻,大部分學者在研究財務舞弊識別的問題中,舞弊與非舞弊樣本通常采用1:1或者1:2人工配對,這樣做會使得舞弊識別率虛高。本文的特點在于:在非舞弊樣本與舞弊樣本極不平衡數據集下,分別使用過采樣和欠采樣技術構建基于XGBoost算法的舞弊識別模型,避免了人工配對下舞弊識別率虛高的問題,得到的識別結果更加符合實際,為大數據環境下上市公司財務報表舞弊智能識別研究提供參考。

2 數據來源

本文以國泰安(CSMAR)數據庫中我國A股上市公司2010-2020年的財務年報數據為樣本,舞弊企業數據來自于違規處理數據庫中的“違規信息總表”,排除金融保險類企業,選擇出因“虛構利潤”、“虛列資產”、“虛假記載(誤導性陳述)”和“披露不實”而被處罰的舞弊企業,共篩選出259家企業的490條舞弊記錄。

非舞弊樣本選取了2010-2020年從未發生過舞弊的非金融業上市公司的財務報表數據,每家公司每一年的年報數據作為一個樣本,得到24893個為非舞弊樣本。其中有大量樣本存在一個或多個指標缺失的情況,刪除帶有缺失值的表報數據,最終得到8621個非舞弊樣本,355個舞弊樣本,非舞弊樣本與舞弊樣本之比為24:1,屬于極不平衡數據集。

3 指標選取

通常采用財務指標與非財務指標結合的方式選擇舞弊識別指標。結合文獻[8-9],本文選取了29指標,其中包括27個財務指標、2個非財務指標。如表1所示。

4 算法原理

4.1 XGBoost算法

以往研究表明,基于XGBoost算法構建的財務報表舞弊識別模型在所有性能指標上都優于邏輯回歸、支持向量機和隨機森林算法[8],因此本文采用XGBoost作為主要算法。XGBoost是由華盛頓大學的陳天奇博士在2015年對梯度提升算法進行改進而來,其求解損失函數的極值時使用了牛頓法,并將損失函數泰勒展開到二階,另外在損失函數中加入了正則項。訓練時目標函數由梯度提升算法損失和正則項組成,其中梯度提升算法損失衡量模型相對于訓練數據的預測效果,正則項則是控制模型的復雜程度,降低過擬合的風險,這樣做使得預測模型更符合機器學習中的偏見方差權衡的原則[9-10]。

4.2 SMOTE算法

由于舞弊樣本只占全部數據集中的極少數,這樣的問題稱為類失衡。類失衡問題往往會導致模型的訓練結果出現較大的偏差。解決類失衡問題主要有過采樣和欠采樣方法。

SMOTE是一種過采樣技術,它的思想是少數類樣本中附近的樣本依舊是少數類樣本,基于此SMOTE的做法是:確定距離某個少數類樣本最近的[K]個近鄰樣本,并在[K]個近鄰樣本中選取[N]個樣本([Nlt;K]),然后在該樣本與其近鄰樣本的連線上隨機選取一點來生成少數類樣本。SMOTE算法公式[9]:

[Xnew=X+rand(0,1)×(X-X)]" ⑴

如圖1中五角星為少數類、圓圈為多數類,方塊則為生成的“少數類樣本”,即式⑴中的[Xnew]。

應用SMOTE算法可以“合成少數類”,將不平衡樣本轉化為平衡樣本。

5 實驗結果與分析

5.1 模型評價指標

上市公司財務舞弊識別是一個二分類問題,混淆矩陣可直觀的看出模型預測正確和預測錯誤的識別結果,如表2所示。

根據混淆矩陣,可以定義如下評估指標:

⑴ 準確率 表示預測正確的樣本數占全部樣本數的比率,計算公式:

[Accuracy=TP+TNTP+FP+TN+FN]" ⑵

⑵ 精確率 預測正確的正例樣本數占所有預測為正例樣本數的比例,計算公式:

[Precision=TPTP+FP]" ⑶

⑶ 召回率(命中率) 表示預測正確的正例數占全部正例的比例,計算公式:

[Recall=TPTP+FN]" ⑷

⑷ F1系數 精確率和召回率的調和平均,計算公式:

[F1=2?Precision?RecallPrecision+Recall]" ⑸

在舞弊識別問題中,重點在于盡可能識別出舞弊企業,因此常以準確率和召回率作為最主要的指標。

5.2 實驗結果分析

5.2.1 直接使用原始數據

本文將全部8976個樣本數據隨機劃分為訓練集和測試集,其中80%的數據作為訓練集,20%的數據作為測試集,正負例的分布如表3所示。

對原始數據劃分為訓練集和測試集后,采用訓練集對XGBoost模型進行訓練,然后用訓練后的模型對測試集進行預測,模型參數取默認值。

根據預測結果,得出混淆矩陣如表4所示。

由混淆矩陣可知,測試集中的1728個非舞弊樣本有1726個預測正確,只有2個誤判為舞弊樣本;68個舞弊樣本中有61個被誤判為非舞弊樣本,只有7個預測正確。模型整體準確率為96.5%,但召回率(舞弊樣本命中率)只有10.3%。原因在于原始數據中96%的樣本為非舞弊樣本,模型為了提高整體準確率,會盡可能擬合優勢類,導致將大量的樣本都判斷為非舞弊樣本。

5.2.2 SMOTE-XGBoost算法

對模型進行訓練前,先使用SMOTE過采樣算法合成舞弊樣本,得到平衡數據集。使用SMOTE算法后正負例分布如表5所示。

使用XGBoost算法進行訓練和預測,得混淆矩陣如下:

由表6可以看出,測試集中1728個非舞弊企業,有1683個預測正確;68個舞弊企業,有38個預測正確。預測整體準確率為95.4%,召回率為44.1%,說明加入SMOTE算法后,模型的召回率有較大提升,同時準確率沒有明顯下降。

5.2.3 欠采樣-XGBoost算法

欠采樣是從多數類樣本中,隨機抽取和少數類樣本一樣多的樣本,構成平衡樣本。欠采樣后的訓練集正負例分布如表7所示。

用欠采樣后的數據訓練模型,結果如表8的所示,非舞弊企業有1309個預測正確,419個被誤判為舞弊企業;舞弊企業有47個預測正確,21個被誤判為非舞弊企業。

欠采樣方式下,模型的準確率只有75.5%,這主要是因為大量非舞弊樣本信息沒有被利用所致。由于采用的都是真實樣本而沒有“合成樣本”,此時舞弊樣本的召回率是最高的,達到69.1%。

5.3 結果對比分析

根據表9可知,在非平衡數據集下,采用SMOTE過擬合方法后,召回率提升到44.1%,同時準確率仍然保持95.4%的高水平,說明此方法在保持高準確率的條件下,極大提升了舞弊企業的命中率;而采用欠采樣方式,可以命中近70%的舞弊企業,對舞弊企業的識別最為有利,但是整體的識別率只有75.5%,存在大量的誤判樣本。

圖2是三種模型下的ROC曲線圖。ROC曲線越接近左上角,曲線下面積(AUC)越接近1,表明模型的分類效果越好。在商業實戰中,AUC值能達到0.75以上就已經可以接受[11],因此,以上三種方法的結果都是可以接受的。

6 結論

現實的財務報表舞弊識別問題中,由于舞弊樣本的稀有性,面對的是極不平衡數據集下少數類樣本識別問題,已有文獻基本未能解決此問題[12]。本文在極不平衡平衡數據集下,基于過采樣及欠采樣方法及XGBoost模型進行財務舞弊識別研究。研究結果表明,引入SMOTE過采樣算法能夠提升非平衡數據集下的舞弊識別效果,模型的整體準確率達到95.4%,但模型的召回率僅為44.1%,對舞弊樣本的識別效果不夠理想。由于財務舞弊的稀有性、多變性、隱蔽性與復雜性,在實際中的非平衡數據集情況下,如何利用機器學習算法快速有效地識別出舞弊樣本,尚需要進一步研究。

參考文獻(References):

[1] 黃世忠,葉欽華,徐珊,等.2010~2019年中國上市公司財務

舞弊分析[J].財會月刊,2020,No.882(14):153-160.

[2] 張曾蓮,高雅.財務舞弊識別模型構建及實證檢驗[J].統計與

決策,2017,No.477(9):172-175.

[3] 王珮伊.基于機器學習的批發零售業上市公司財務舞弊識

別[D].重慶:西南大學,2022(2).

[4] 梁功梟.企業財務造假識別預警研究[D].成都:四川大學,

2021(8).

[5] Du Mengshuang.Corporate governance: five-factor

theory-based financial fraud identification[Z].Journal of Chinese Governance,2021.

[6] Cuizhu Meng,Li Zhou,Bisong Liu.A Case Study in Credit

Fraud Detection With SMOTE and XGBoost[Z].Proceedings of 2020 4th International Conference on Electrical, Mechanical and Computer Engineering(ICEMCE 2020)(VOL.4),2020.

[7] 濮雙羽,趙洪進.上市公司財務報表舞弊識別的實證研究

——基于Logistic回歸模型[J].農場經濟管理,2021,No.299(2):47-50.

[8] 吳貞如.基于XGBoost算法的上市公司財務報表舞弊識別

研究[J].計算機時代,2022,No.362(8):29-33.

[9] 曾曙蓮,王濤,段亞窮.基于XGBoost模型的上市公司財務

風險預警應用[J].商業會計,2023,No.746(2):62-66.

[10] Tianqi Chen,Carlos Guestrin.XGBoost: A Scalable Tree

Boosting System.[Z].CoRR,2016.

[11] 王宇韜,錢妍竹.Python大數據分析與機器學習商業案例

實戰[M].北京:機械工業出版社,2020:223.

[12] 劉云菁,伍彬,張敏.上市公司財務舞弊識別模型設計及其

應用研究——基于新興機器學習算法[J].數量經濟技術經濟研究,2022,39(7):152-175.

主站蜘蛛池模板: 亚洲男人的天堂在线| 国产自在线播放| 欧美黑人欧美精品刺激| 亚洲日韩精品欧美中文字幕| 国产欧美视频综合二区| 日韩福利视频导航| 国产区精品高清在线观看| 免费av一区二区三区在线| 欧美精品亚洲精品日韩专区| www.av男人.com| 白浆免费视频国产精品视频| 国产精品女主播| 欧美97欧美综合色伦图| 亚洲熟女中文字幕男人总站| 欧美黄网站免费观看| 婷婷久久综合九色综合88| 国产凹凸视频在线观看| 天天视频在线91频| 国产第一色| 精品福利网| 青草娱乐极品免费视频| 亚洲天堂网在线观看视频| 国产美女无遮挡免费视频| 92午夜福利影院一区二区三区| 在线观看亚洲人成网站| yjizz国产在线视频网| 精品三级网站| 人人澡人人爽欧美一区| 免费a级毛片视频| 欧美视频二区| 尤物在线观看乱码| 99青青青精品视频在线| 日本人真淫视频一区二区三区 | 一级全黄毛片| 午夜福利无码一区二区| 夜夜高潮夜夜爽国产伦精品| 亚洲乱码在线播放| 亚洲愉拍一区二区精品| 91在线无码精品秘九色APP| 精品精品国产高清A毛片| 欧美黄网在线| 国产亚洲视频播放9000| 午夜性爽视频男人的天堂| 日本欧美午夜| 亚洲日本精品一区二区| 免费一看一级毛片| 成人国产精品视频频| 国产特一级毛片| 天天爽免费视频| 精品视频第一页| 国产XXXX做受性欧美88| 伊人色综合久久天天| 国产精品污视频| 91人妻日韩人妻无码专区精品| 欧美亚洲香蕉| 日本91在线| www亚洲天堂| 亚洲国产精品无码久久一线| 国产精品原创不卡在线| 9丨情侣偷在线精品国产| 永久成人无码激情视频免费| 久久国产高潮流白浆免费观看| 亚洲成a人片77777在线播放| 99久久精品美女高潮喷水| 天天色综网| 91福利在线观看视频| 一级看片免费视频| 国内a级毛片| vvvv98国产成人综合青青| 九九香蕉视频| 伊人久久青草青青综合| 国产精品网曝门免费视频| 国产白浆在线观看| 国产精品成人免费综合| 国产91久久久久久| 国产福利拍拍拍| 亚洲aaa视频| 亚洲AV无码乱码在线观看裸奔 | 日本午夜影院| 欧美在线网| 欧美午夜小视频| 91人妻日韩人妻无码专区精品|