


【摘" 要】近年來,上市公司財務(wù)欺詐案件頻發(fā),嚴(yán)重影響金融市場的健康發(fā)展。為更精確地識別上市公司財務(wù)欺詐情況,論文在傳統(tǒng)指標(biāo)的基礎(chǔ)上引入第三方機構(gòu)指標(biāo),構(gòu)建基于特征選擇的財務(wù)欺詐識別模型。經(jīng)過兩次特征篩選后第三方機構(gòu)指標(biāo)保留在最優(yōu)指標(biāo)組合中,且加入這個指標(biāo)使模型精度有所提升,說明第三方機構(gòu)指標(biāo)的加入能夠有效提升模型的識別性能。論文為財務(wù)欺詐識別指標(biāo)體系構(gòu)建提供了新思路,為有關(guān)部門的監(jiān)管擴(kuò)充了新的視角。
【關(guān)鍵詞】特征選擇;非均衡樣本;財務(wù)欺詐識別;XGBoost;SMOTE
【中圖分類號】F832.5;F406.7" " " " " " " " " " " " " " " " " " " " " " "【文獻(xiàn)標(biāo)志碼】A" " " " " " " " " " " " " " " " " " " " " " " " "【文章編號】1673-1069(2024)12-0037-03
1 引言
財務(wù)欺詐是資本市場的一顆毒瘤,實施欺詐的上市公司雖是少數(shù),但損害了上市公司群體形象,嚴(yán)重擾亂資本市場秩序、動搖投資者信心、侵犯投資者權(quán)益。盡管監(jiān)管層“嚴(yán)”字當(dāng)頭,卻依然有上市公司鋌而走險,采取的欺詐手段還更加多樣和隱蔽。因此,本文構(gòu)建的財務(wù)欺詐識別模型能夠較準(zhǔn)確地識別上市公司的財務(wù)欺詐行為,對企業(yè)自身、投資者和整個資本市場的健康發(fā)展都有重要意義。
2 文獻(xiàn)綜述
2.1 財務(wù)欺詐識別指標(biāo)選取研究
徐靜等[1]研究得出營運資金與總資產(chǎn)比、資產(chǎn)負(fù)債率等5個變量的重要性值(1-p值)大于0.95,是表征財務(wù)報表舞弊的關(guān)鍵指標(biāo)。葉欽華等[2]的研究發(fā)現(xiàn),財務(wù)欺詐公司的非財務(wù)異常特征出現(xiàn)次數(shù)明顯多于財務(wù)異常特征,其中股東行為異常特征出現(xiàn)最為頻繁。
2.2 財務(wù)欺詐識別指標(biāo)篩選方法研究
陳朝焰等[3]引入信息熵來度量引入某個指標(biāo)帶來的好處,從而選擇熵值更大的指標(biāo)。李愛華等[4]先通過計算得到各特征間的相關(guān)性,保留相關(guān)性系數(shù)0.8以下的特征。
2.3 財務(wù)欺詐識別方法研究
楊貴軍等[5]提出將Benford律和Logistic模型相結(jié)合的一種財務(wù)欺詐識別方法,利用中國上市公司財務(wù)數(shù)據(jù)模擬研究后發(fā)現(xiàn),包含Benford因子的Logistic模型具有更高的正確率。黃志剛等[6]在探尋最適合用于財務(wù)欺詐識別的機器學(xué)習(xí)算法的研究時發(fā)現(xiàn)隨機森林在測試集中識別性能最好。
綜上,本文從現(xiàn)有研究的局限入手,在指標(biāo)海選時,引入客觀性和真實性更高的外部機構(gòu)的ESG評價指標(biāo)。在篩選指標(biāo)時,采用基于XGBoost算法的嵌入式特征選擇方法,根據(jù)模型計算結(jié)果反推最優(yōu)欺詐識別特征指標(biāo)組合,這樣構(gòu)建的指標(biāo)體系更客觀、有效。且根據(jù)識別結(jié)果可知,相比其他機器學(xué)習(xí)模型,XGBoost的識別效果更好、泛化能力更強,能夠提升識別的準(zhǔn)確度。
3 我國上市公司財務(wù)欺詐識別模型構(gòu)建
3.1 樣本數(shù)據(jù)處理
3.1.1 指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化
不同性質(zhì)的指標(biāo)存在著不同的量綱和數(shù)量級,如果不消除這種差異而是直接采用原始數(shù)據(jù),那么會導(dǎo)致識別結(jié)果不合理。所以,模型構(gòu)建之前需要對原始指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,本文選擇將其縮放到[0,1]的范圍內(nèi)的方式。
3.1.2 基于SMOTE的非平衡樣本處理
SMOTE算法是一種用于處理類別不均衡問題的過采樣方法,其原理是通過在少數(shù)類樣本附近進(jìn)行隨機插補合成新的少數(shù)類樣本的方式使數(shù)據(jù)集達(dá)到平衡。本文所研究的上市公司財務(wù)欺詐識別是一個明顯的正負(fù)樣本不均衡的二分類問題。為了讓模型更好地學(xué)習(xí)欺詐樣本的特征,盡可能多地識別出欺詐企業(yè),本文選擇SMOTE算法通過合成新的欺詐樣本的方式來平衡數(shù)據(jù)集。
3.2 指標(biāo)體系的構(gòu)建
第一步,開拓更廣泛的視角進(jìn)行指標(biāo)海選,爭取涵蓋更全面的信息;第二步,進(jìn)行指標(biāo)初篩,刪掉數(shù)據(jù)無法獲取、信息難以觀測的指標(biāo);第三步,依靠XGBoost算法進(jìn)行基于特征選擇和欺詐識別的第二次指標(biāo)篩選。
3.3 基于XGBoost的財務(wù)欺詐識別模型的構(gòu)建與評估
3.3.1 XGBoost算法
XGBoost(Extreme Gradient Boosting)算法是一種集成學(xué)習(xí)方法。集成模型的基本理念是,通過構(gòu)建一系列弱基礎(chǔ)模型來構(gòu)建一個強大的模型。XGBoost的核心算法思想是在訓(xùn)練出一棵樹的基礎(chǔ)上再訓(xùn)練下一棵樹預(yù)測它與真實分布間的差距。通過不斷訓(xùn)練用來彌補差距的樹,最終用樹的組合實現(xiàn)對真實分布的模擬。
3.3.2 模型評估
對于財務(wù)欺詐識別問題,由于數(shù)據(jù)集的正負(fù)樣本不平衡,因此僅使用準(zhǔn)確率(Accuracy)并不能很準(zhǔn)確地評判模型的分類性能。本研究希望能夠盡可能多地查出正樣本(即欺詐樣本),從而使用召回率(Recall)作為重要的評價指標(biāo);只考慮單一指標(biāo)也無法準(zhǔn)確評估模型效果,因此引入AUC和G-mean值。這兩個綜合性指標(biāo)常用于評價正負(fù)樣本不均衡的二分類模型的性能。
模型精度評估通常要根據(jù)混淆矩陣進(jìn)行計算。混淆矩陣中TP為欺詐樣本被正確識別出來的數(shù)量;FP為未欺詐樣本被錯誤識別成欺詐的數(shù)量;FN為欺詐樣本被錯誤識別成未欺詐的數(shù)量;TN為未欺詐樣本被正確識別出來的數(shù)量。根據(jù)混淆矩陣,進(jìn)一步給出4個模型評估指標(biāo)的計算公式如下。
準(zhǔn)確率可由公式(1)計算。
Accuracy=" " " " " (1)
召回率可由公式(2)計算。
Recall=" " " " " "(2)
AUC值是ROC曲線下的面積,以假陽率FPR為橫軸,真陽率TPR為縱軸。TPR和FPR可分別使用公式(3)、公式(4)計算。
TPR=" " " " " (3)
FPR=" " " " "(4)
G-mean可由公式(5)計算。
G-mean=" " " " "(5)
4 實證研究
4.1 樣本選取及數(shù)據(jù)來源
本研究中用到的上市公司內(nèi)部數(shù)據(jù)獲取自中國經(jīng)濟(jì)金融研究數(shù)據(jù)庫,ESG得分獲取自華證指數(shù)平臺,外部宏觀數(shù)據(jù)獲取自中國經(jīng)濟(jì)社會大數(shù)據(jù)研究平臺。
欺詐樣本來自CSMAR數(shù)據(jù)庫中的上市公司財務(wù)違規(guī)信息表,排除金融行業(yè),選擇因“虛構(gòu)利潤”“虛列資產(chǎn)”“虛假記載(誤導(dǎo)性陳述)”“重大遺漏”和“披露不實”而被處罰上市公司。非欺詐樣本選取自2012-2021年從未發(fā)生過欺詐的非金融業(yè)上市公司,每家公司每一年的數(shù)據(jù)作為一個樣本,最終得到13 435個非欺詐樣本,1 487個欺詐樣本,屬于不平衡數(shù)據(jù)集。
4.2 指標(biāo)體系的構(gòu)建
首先,盡可能全面地海選能夠識別出財務(wù)欺詐的指標(biāo),得到的海選指標(biāo)體系中共包含251個指標(biāo)。然后刪掉數(shù)據(jù)缺失率較高的指標(biāo),初步篩選保留了海選指標(biāo)體系中的224個指標(biāo)。
4.3 樣本數(shù)據(jù)處理
將原始數(shù)據(jù)中正、負(fù)向指標(biāo)分別進(jìn)行標(biāo)準(zhǔn)化。對初篩后的非均衡樣本采用SMOTE方法進(jìn)行非均衡樣本處理。將樣本按8∶2的比例進(jìn)行5次分層抽樣,然后采用十折交叉方法將80%部分劃分為訓(xùn)練和驗證樣本,剩余20%作為測試樣本。
4.4 建立基于XGBoost的財務(wù)欺詐識別模型
4.4.1 模型選擇
將經(jīng)初始劃分的80%訓(xùn)練集樣本數(shù)據(jù)輸入模型,讓模型學(xué)習(xí)其特征和標(biāo)簽,然后用另外的20%測試集樣本數(shù)據(jù)檢驗?zāi)P汀Mㄟ^對模型精度和降維效果兩方面的綜合考慮,最終確定本文模型。
4.4.2 指標(biāo)體系確定
模型的計算過程即第二次指標(biāo)篩選的過程,篩選結(jié)果如表1所示。
4.5 ESG指標(biāo)特征有效性對比分析
為了驗證ESG得分指標(biāo)有利于提高模型的識別精度,本部分安排設(shè)計將兩個差別僅在于是否包含ESG得分指標(biāo)的特征組分別輸入模型。
兩個特征組輸入模型后得到的實驗結(jié)果為,未加入ESG指標(biāo)的模型精度為Recall=80.13%,AUC=84.15%,acc=71.66%,G-mean=75.28%。加入ESG指標(biāo)的模型精度為Recall=81.14%,AUC=84.79%,acc=73.20%,G-mean=76.61%。
由此得知,輸入含有ESG得分指標(biāo)特征組的模型識別性能更好,各個評價指標(biāo)數(shù)值都高于另一組,這表明本文加入的第三方機構(gòu)指標(biāo)(ESG得分指標(biāo))在識別財務(wù)欺詐方面有提升模型性能的作用。
4.6 模型精度對比分析
本文選取了6個常用的機器學(xué)習(xí)模型與XGBoost模型進(jìn)行對比。7個模型的欺詐識別精度對比如表2所示。
從模型欺詐識別精度對比分析可以發(fā)現(xiàn),在欺詐識別中更為看重的Recall指標(biāo)值的比較中,XGBoost模型位居首位,且遠(yuǎn)遠(yuǎn)優(yōu)于其他模型。再考慮其他綜合評價指標(biāo)結(jié)果,XGBoost模型的平均精度也最高。
此外,XGBoost模型降維后的指標(biāo)個數(shù)為55,是所有參與對比模型中指標(biāo)體系規(guī)模最小的。因此,綜合降維效果和識別精度兩方面考慮,XGBoost模型更適合用于本文上市公司財務(wù)欺詐識別的研究。
5 結(jié)論
第三方評級指標(biāo)(ESG得分)對識別上市公司財務(wù)欺詐有一定作用。根據(jù)識別結(jié)果可知,在財務(wù)欺詐識別模型指標(biāo)體系中加入第三方機構(gòu)指標(biāo)(ESG得分)后,模型的識別效果更好。因此在上市公司財務(wù)欺詐識別中,不僅要考慮上市公司自身披露的相關(guān)指標(biāo),也要重視第三方機構(gòu)的評級指標(biāo)。只有逐漸擴(kuò)大監(jiān)管的范圍,豐富監(jiān)管的視角,這樣才能應(yīng)對欺詐手段越來越多樣和隱蔽的現(xiàn)狀。
基于XGBoost的上市公司財務(wù)欺詐識別模型,能夠得出識別欺詐的最優(yōu)指標(biāo)組合,更準(zhǔn)確地識別上市公司財務(wù)欺詐行為。本文模型在保證識別精度的前提下,根據(jù)計算結(jié)果反推出了最優(yōu)指標(biāo)組合,既能有效識別出欺詐企業(yè),又從指標(biāo)組合的識別效果角度篩選指標(biāo),構(gòu)建最終的指標(biāo)體系,便于實際操作,可解釋性更強。
【參考文獻(xiàn)】
【1】徐靜,李俊林,唐少清.上市公司財務(wù)異常與舞弊疑點檢測研究[J].中國軟科學(xué),2021(S1):421-428.
【2】葉欽華,黃世忠,葉凡,等.嚴(yán)監(jiān)管下的財務(wù)舞弊分析——基于2020~2021年的舞弊樣本[J].財會月刊,2022(13):10-15.
【3】陳朝焰,韓冬梅,吳馨一.融合新聞文本和時序信息的上市公司財務(wù)欺詐預(yù)警[J].財會月刊,2023,44(12):30-39.
【4】李愛華,王迪文,續(xù)維佳,等.基于多數(shù)據(jù)源融合的創(chuàng)業(yè)板上市公司財務(wù)造假異常檢測[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2023,7(05):33-47.
【5】楊貴軍,周亞夢,孫玲莉.基于Benford-Logistic模型的企業(yè)財務(wù)風(fēng)險預(yù)警方法[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2019,36(10):149-165.
【6】黃志剛,劉佳進(jìn),林朝穎.基于機器學(xué)習(xí)的上市公司財報舞弊識別前沿方法比較研究[J].系統(tǒng)科學(xué)與數(shù)學(xué),2020,40(10):1882-1900.
【基金項目】遼寧省社會科學(xué)規(guī)劃基金項目“遼寧經(jīng)濟(jì)發(fā)展質(zhì)量評價研究”(L18DTJ001);遼寧省教育科學(xué)規(guī)劃課題:政府會計制度下高校預(yù)算績效評價研究(JG20DB070)。
【作者簡介】郭雋含(2001-),女,吉林長春人,碩士研究生在讀,研究方向:技術(shù)經(jīng)濟(jì)管理與風(fēng)險分析。