陳朝焰 韓冬梅 吳馨一



【摘要】本文針對資本市場中普遍存在的上市公司財務欺詐問題, 在財報數據中融入財經新聞文本特征, 并提取時序信息, 為上市公司財務欺詐預警提供新途徑。以結構化的財報數據和非結構化的新聞文本數據為對象, 在結構化數據特征中融入新聞文本的主題特征、 觀點特征、 情緒特征和欺詐特征, 然后提取時序信息, 并基于樹集成的方法實現上市公司財務欺詐預警。本文融合預警欺詐行為的方法在CSMAR財報數據集和爬取的新浪財經數據集上達到了86.1%的準確率和86.5%的召回率, 融入新聞特征和時序信息后比單純地采用財報數據特征的準確率提高了8%。新聞文本特征可以作為財報數據的有效補充, 且在財報數據和新聞文本數據中引入時序信息有利于提高上市公司財務欺詐的預警性能。
【關鍵詞】上市公司;財務欺詐;新聞文本;時序信息;欺詐預警
【中圖分類號】F275? ? ? 【文獻標識碼】A? ? ? 【文章編號】1004-0994(2023)12-0030-10
一、 引言
上市公司財務欺詐事件時有發生。不僅在我國, 在世界范圍內上市公司財務欺詐都是一個焦點問題。2020年, 瑞幸咖啡發布公告承認其2019年第二至第四季度存在偽造交易行為的財務造假行為, 涉及總金額約為22億元。安然公司曾被曝財務造假, 虛增利潤5.52億美元, 使得股東和股民損失740億美元。安然公司的造假丑聞還殃及了花旗銀行、 安達信等, 同時引出了世通的財務欺詐案件, 這又導致三萬人失業, 使投資者損失1800億美元。除了巨大的財務損失, 股民信心也受到重大打擊, 一時間股票市場持續低迷。因此, 公司財務欺詐行為對資本市場的整體發展和投資者的信心都會造成損害。
鑒于財務欺詐事件的頻發及其給社會帶來的危害, 如何準確及時地識別出具有財務造假行為的上市公司, 在第一時間減輕財務造假帶來的損失, 是對資本市場各個方面都非常有意義的研究問題。為此, 國內外學者對財務欺詐預警方法進行了廣泛研究(王昱和楊珊珊,2021;宋宇和李鴻禧,2020;Bao等,2020;吳慶賀等,2020;Craja等,2020;Hajek和Henriques,2017)?,F有研究中, 從結構化的“企業—年度”數據中提取財務指標和非財務指標是主流做法(王昱和楊珊珊,2021;宋宇和李鴻禧,2020;Bao等,2020;吳慶賀等,2020)。楊子暉等(2022)指出, 采用傳統的機器學習模型(如隨機森林模型和Logit回歸模型等), 能夠對我國大多數財務危機事件進行有效預警。隨著自然語言處理技術的進步, 非結構化的文本數據可作為對結構化數據的有益補充(Craja等,2020;Hajek和Henriques,2017)。然而, 結構化數據和文本數據中的時序信息沒有得到充分挖掘。鑒于此, 本文將時序信息的提取引入結構化數據和非結構化的文本數據中, 以期能夠更好地捕捉公司財務欺詐的連續變化信息, 從而獲得更好的上市公司財務欺詐預警性能。
從數據的獲取途徑來看, 結構化年報數據通常來源于國泰安(CSMAR)或銳思(RESSET)等公開的金融數據庫, 其發布時間均有一定的滯后性; 此外, 上市公司財務欺詐的界定依賴于監管機構發布公告的時效性, 且通常也存在一定的滯后性。鑒于此, 本文通過對爬取的財經新聞文本進行信息挖掘, 以期彌補結構化數據時效性不足的問題。
本文的主要貢獻如下: 首先, 在結構化的財報指標數據基礎上, 增加了新聞文本作為新的數據源, 并提取時序信息, 建立了一個更加完善的上市公司財務欺詐預警框架; 其次, 在提取結構化財報數據特征和新聞文本特征的時序信息時, 考慮了上市公司經營活動的連續性。與已有研究相比, 本文構建的時序性衍生指標考慮了隱藏在財報數據和新聞文本數據中的時序信息, 各指標的時序性變動可能預示著企業的財務危機或企業財務規律上的異常, 更有利于進行財務欺詐預警。此外, 由于新聞報道的客觀性和即時性, 新聞文本特征的引入, 更能及時對有欺詐可能的上市公司發出預警。
二、 相關研究綜述
國內外關于上市公司財務欺詐預警方面的研究, 依據所處理數據形式的不同, 可分為結構化方法和非結構化方法。在結構化方法的研究方面, 孟銀鳳和王珮瑤(2023)通過構造Zipf因子, 生成新的特征向量補充到數據集中以挖掘更多有效信息, 并基于隨機森林構造財務預警模型。高燕等(2023)以A股制造企業為樣本, 構建BP神經網絡模型預警財務風險, 并以一汽夏利(現中國鐵物)為例進行分析, 提出防范風險的建議。楊貴軍等(2021)通過引入包含代表財務數據質量的修正Benford因子, 改善財務危機預警Logistic模型的預測效果。Kotsiantis等(2006)以164家欺詐和非欺詐公司的財務數據作為樣本, 分別建立了貝葉斯網絡、 k-均值、 決策樹、 人工神經網絡、 支持向量機及邏輯回歸模型, 使用堆疊變量方法發現混合分類器的效果好于單一模型的分類效果。Cecchini等(2010a)利用40個財務指標, 開發了面向金融領域的支持向量機核函數進行公司的管理層舞弊預警。Dechow等(2011)分析了欺詐公司的財務特性, 并通過對財務變量的邏輯回歸處理預測會計報表中的欺詐行為。Bao等(2020)運用集成學習模型并引入一種新的性能評估指標, 得出的欺詐預測結果優于Dechow等(2011)的邏輯回歸模型和Cecchini等(2010a)的支持向量機模型。酈金梁等(2020)構建了遞延所得稅異動指標, 并利用XGBoost算法進行上市公司財務欺詐預警。
在非結構化方法的研究方面, 隨著自然語言處理技術的進步, 非結構化的文本挖掘技術成為主流。Cecchini等(2010b)從10-Ks的管理層討論和分析(MD&A)部分創建字典來區分欺詐和非欺詐公司, 將文本數據作為財務數據的有效補充, 其分析結果表明MD&A文本補充了定量財務信息。Purda和Skillicorn(2015)對MD&A部分的所有單詞進行有效性排序, 挑選前200個最具預測性的單詞, 采用詞袋模型對樣本分類, 取得了較好效果。Hajek和Henriques(2017)從MD&A文本中提取語言學指標, 作為對結構化指標的有效補充, 共同實現財務報表舞弊的智能預警, 并比較了多種機器學習方法的性能。Dong等(2018)提出了一個基于SFL理論的文本分析框架, 結合社交媒體文本的概念功能和人際功能對上市公司欺詐的早期跡象進行預警。徐凱等(2022)以MD&A文本信息為基礎, 構建Logistic財務危機預警模型, 研究了MD&A文本積極信息與文本信息可讀性對企業財務危機的預警作用。肖毅等(2020)基于TEI@I方法論的理論框架, 集成文本挖掘和深度學習構建企業財務風險預警模型。Brown等(2020)運用隱性狄利克雷分布(LDA)主題模型, 將MD&A部分的主題特征與財務數據和文本特征相結合, 證明了提取披露的主題有助于捕捉財務不端行為。胡楠等(2021)基于高層梯隊理論和社會心理學中的時間導向理論, 得出管理者內在的短視主義特質與企業資本支出和研發支出的關系, 采用文本分析和機器學習技術構建出管理者短視主義指標并據此完成實證檢驗。
從上述研究中可以發現, 不少研究會將非結構化文本數據作為對結構化數據的有效補充, 這有利于提升上市公司財務欺詐預警性能。然而, 文本數據的觀點、 主題和情緒等特征在欺詐年度附近的變化信息并未得到充分考慮。鑒于此, 本文在結構化的財報數據中融入財經新聞文本特征的同時, 還在模型中加入提取的時序信息, 為上市公司財務欺詐預警研究提供新思路。
三、 特征工程與時序信息提取
為更好地將結構化的財報數據和非結構化的新聞文本數據有效融合, 需進行特征工程處理, 將其變換至相同的特征維度。且在進行特征變換前, 對財報數據和新聞文本數據的特征均需進行時序信息提取。
(一)結構化財報數據的特征提取
本文所采取的結構化財報數據特征工程與時序信息提取過程如圖1所示。從圖1可以看出, 結構化財報數據可由財務指標和非財務指標表征, 但在將其輸入財務欺詐智能預警模型前, 需對其進行數據預處理和特征變換。另外, 為了降低數據的維度, 還需進行指標篩選。
1. 財務指標和非財務指標挑選。依據國內外相關研究文獻(Chen和Han,2023;葉欽華等,2022), 并結合上市公司財報指標數據的獲取情況, 本文共篩選了與結構化財報數據相關的42個指標, 其中償債能力(x1 ~ x3)、 比率結構(x4 ~ x6)、 經營能力(x7 ~ x10)、 盈利能力(x11 ~ x13)、 現金流分析(x14 ~ x16)、 風險水平(x17,x18)、 發展能力(x19 ~ x24)、 每股指標(x25 ~ x27)和流動資產結構(x28 ~ x32)等共計9類32個為財務指標, 股本結構(x33 ~ x35)、 治理綜合信息(x36 ~ x39)、 三會基本信息(x40 ~ x42)等共計3類10個為非財務指標。本文選取的與結構化財報數據相關的指標及其定義如表1所示。
對于上述挑選好的指標, 結合上市公司的欺詐年度情況, 可建立結構化的“企業—年度”數據集。
2. 結構化數據時序信息提取。為了更好地捕捉上市公司的財務欺詐行為, 需考慮能夠反映各指標數據連續變化和累積效果的時序信息。對于表1中的財務指標數據x1 ~ x32, 其為連續型數值, 因此采用比值形式構造財務指標的衍生變量:
(三)基準算法與樹集成方法
可供選擇的機器學習模型fML(?)種類較多, 決策樹由于具有很強的可解釋性和簡易性而受到廣泛關注。常見的決策樹模型類型有ID3、 C4.5、 C5.0和CART, 其中CART的應用最廣泛。由于容易出現過擬合, 常規的決策樹模型很少被采用, 通常僅作為基準模型用于性能對比, 因此本文選擇CART(Loh,2011)作為基準模型。實際被廣泛應用的是樹集成方法, 主要有兩大類: RF和提升樹。RF(Breiman,2001)可看做Bagging集成的變體, 由成百上千棵決策樹構成基分類器, 這些基決策樹的屬性來自于對全體屬性集合的隨機抽樣; 提升樹同樣集成了成百上千棵決策樹, 但其通過不斷添加越來越多的樹, 來迭代地減小分類誤差, 直到滿足停止條件為止。為構造提升樹, 可在AdaBoost(Freund和Schapire,1997)中使用決策樹作為基本分類器, 這樣可將多個弱分類器提升為強分類器。當使用梯度提升算法來解決優化問題時, 提升算法成為梯度提升算法, 最典型的是XGBoost(Chen和Guestrin,2016)。XGBoost是對經典梯度提升算法的改進, 在求解損失函數的最優解時使用了牛頓法, 并將損失函數泰勒展開到二階, 另外損失函數中加入了正則化項。
綜上所述, 本文共挑選三種典型的樹集成方法: RF、 AdaBoost和XGBoost, 并使用經典的CART決策樹作為基準分類器, 對樹集成方法的性能進行對比。
五、 實驗驗證與分析
(一)數據集描述
本實驗所使用的結構化數據來源于中國經濟金融研究數據庫(CSMAR), 新聞文本數據則爬取自新浪財經網站。本研究共收集2016 ~ 2018年620家上市公司(310家欺詐樣本和310家非欺詐樣本)的結構化數據和76675篇新聞文本數據。首先根據標題中的關鍵詞篩選掉與多家公司相關聯的新聞文本, 然后對余下的新聞進行人工篩選, 共得到15043篇。其中: 欺詐公司在欺詐前一年共有3431條, 在欺詐當年有4985條; 非欺詐公司在欺詐前一年有3000條, 在欺詐當年共有3627條。各家上市公司的分類標簽則依據CSMAR數據庫中的上市公司財務違規信息表進行標注。本研究采用企業—年度數據標注形式, 即將欺詐當年的每一家公司作為一個樣本, 而對于連續多年均存在財務欺詐的公司, 則選取該公司首次被披露的年份。
(二)實驗設置與過程
本實驗所采用的上市公司財務欺詐預警過程如圖6所示。在結構化數據中融合新聞文本特征, 并提取相應的時序信息。進行特征集成時, 分別對財報數據和財經新聞文本數據及其時序性衍生特征進行組合。然后分別利用CART、 RF、 AdaBoost和XGBoost等構建上市公司財務欺詐預警模型, 實現對上市公司財務欺詐的智能預警。
實驗中, 采用五折交叉驗證的方式對所選模型進行性能評價。首先, 將來自620家上市公司的樣本劃分成5等份; 其次, 采用五折交叉驗證, 將其中4份作為訓練集, 余下1份作為測試集; 最后, 將五折交叉驗證結果的均值作為模型評價指標的結果。本文選取準確率Acc=(TN+TP)/(TN+FP+FN+TP)和召回率Recall=TP/(FN+TP)作為模型性能的評價指標, 其中, TN、 FP、 FN和TP分別為真負率、 假正率、 假負率和真正率, 其可通過混淆矩陣獲得。
六、 結論
本文將傳統的結構化財報數據、 非結構化財經新聞文本數據及其時序信息進行融合, 并基于樹集成方法對上市公司財務欺詐進行了預測分析。主要結論為: 第一, 新聞文本特征可作為上市公司財報數據的有效補充。新聞的時效性強于財報, 從新聞文本中提取的主題、 觀點、 情緒和欺詐等特征是對財務指標與非財務指標的有益補充。第二, 在財報數據和新聞文本數據中引入時序信息均有助于提高上市公司財務欺詐預警性能。時序信息的利用, 有助于后續的機器學習模型捕捉指標或特征的連續變化, 更有利于識別上市公司的財務欺詐。第三, AdaBoost算法的欺詐預警性能優于RF算法和XGBoost算法。在利用樹集成方法實現上市公司財務欺詐預警時, 將RF、 AdaBoost和XGBoost算法的性能與基準的CART算法的性能進行了對比, 發現AdaBoost算法的性能最佳, 達到了86.1%的準確率和86.5%的召回率。
上市公司財務欺詐預警模型的輸出信息, 可為監管部門、 上市公司管理者和投資者等使用方提供智能決策依據。研究的實踐意義為: 首先, 對于證監會、 深圳證券交易所、 上海證券交易所等監管部門而言, 如果某公司存在欺詐預警, 則監管部門需對該公司加以重點關注和考察, 并加大監管力度, 以減小財務欺詐給資本市場帶來的沖擊, 進而促進證券市場健康運行。其次, 對于被考察企業而言, 如果其收到財務欺詐預警信號, 則表明其財務指標已經開始惡化。為避免因財務指標惡化而導致企業財務危機, 進而帶來不必要的損失, 其管理者應及早排查企業的財務風險狀況, 以及時發現偏離正常范圍的各項指標, 并采取措施進行補救, 及時規避財務風險。最后, 投資者在識別上市公司的投資風險時, 如果發現某公司存在欺詐預警, 則投資者需詳細評估該公司的財務風險狀況, 并對其投資決策做相應的調整, 以規避盲目投資帶來的經濟損失。
【 主 要 參 考 文 獻 】
胡楠,薛付婧,王昊楠.管理者短視主義影響企業長期投資嗎? —— 基于文本分析和機器學習[ J].管理世界,2021(5):139 ~ 156+11+19 ~ 21.
酈金梁,吳謠,雷曜,黃燕婷.有效預警上市公司違規的遞延所得稅異動指標和人工智能模型[ J].金融研究,2020(8):149 ~ 168.
孟銀鳳,王珮瑤.基于Zipf定律的隨機森林財務預警模型[ J/OL].山西大學學報(自然科學版):1 ~ 9[2023-05-09].https://doi.org/10.13451/j.sxu.ns.
2022088.
宋宇,李鴻禧.基于決策樹集成的債券發行企業財務預警研究[ J].財會月刊,2020(6):45 ~ 50.
王昱,楊珊珊.考慮多維效率的上市公司財務困境預警研究[ J].中國管理科學,2021(2):32 ~ 41.
吳慶賀,唐曉華,林宇.創業板上市公司財務危機的識別與預警[ J].財會月刊,2020(2):56 ~ 64.
肖毅,熊凱倫,張希.基于TEI@I方法論的企業財務風險預警模型研究[ J].管理評論,2020(7):226 ~ 235.
徐琳宏,林鴻飛,潘宇等.情感詞匯本體的構造[ J].情報學報,2008(2):180 ~ 185.
楊貴軍,孫玲莉,周亞夢等.基于修正Benford律的財務危機預警Logistic模型及其應用[ J].數理統計與管理,2021(4):585 ~ 595.
楊子暉,張平淼,林師涵.系統性風險與企業財務危機預警 —— 基于前沿機器學習的新視角[ J].金融研究,2022(8):152 ~ 170.
葉欽華,黃世忠,葉凡等.嚴監管下的財務舞弊分析 —— 基于2020~2021年的舞弊樣本[ J].財會月刊,2022(13):10 ~ 15.
Bao Y., Ke B., Li B., et al.. Detecting accounting fraud in publicly traded US firms using a machine learning approach[ J].Journal of Accounting Research, 2020(1):199 ~ 235.
Blei D. M., Ng A. Y., Jordan M. I.. Latent dirichlet allocation[ J].Journal of Machine Learning Research,2003(1):993 ~ 1022.
Breiman L.. Random forests[ J].Machine Learning,2001(1):5 ~ 32.
Brown N. C., Crowley R. M., Elliott W. B.. What are you saying? Using topic to detect financial misreporting[ J].Journal of Accounting Research,2020(1):237 ~ 291.
Cecchini M., Aytug H., Koehler G. J., et al.. Detecting management fraud in public companies[ J].Management Science,2010a(7):1146 ~ 1160.
Cecchini M., Aytug H., Koehler G. J., et al.. Making words work: Using financial text as a predictor of financial events[ J].Decision Support Systems, 2010b(1):164 ~ 175.
Chen Z. Y., Han D.. Detecting corporate financial fraud via two-stage mapping in joint temporal and financial feature domain[ J].Expert Systems with Applications,2023(217):119559.
Craja P., Kim A., Lessmann S.. Deep learning for detecting financial statement fraud[ J].Decision Support Systems,2020(139):113421.
Dechow P. M., Ge W., Larson C. R., et al.. Predicting material accounting misstatements[ J].Contemporary Accounting Research,2011(1):17 ~ 82.
Dong W., Liao S., Zhang Z.. Leveraging financial social media data for corporate fraud detection[ J].Journal of Management Information Systems,2018(2):461 ~ 487.
Freund Y., Schapire R. E.. A decision-theoretic generalization of on-line learning and an application to boosting[ J].Journal of Computer and System Sciences,1997(1):119 ~ 139.
Hajek P., Henriques R.. Mining corporate annual reports for intelligent detection of financial statement fraud-A comparative study of machine learning methods[ J].Knowledge-Based Systems,2017(128):139 ~ 152.
Jiang F., Lee J., Martin X., et al.. Manager sentiment and stock returns[ J].Journal of Financial Economics,2019(1):126 ~ 149.
Kotsiantis S., Koumanakos E., Tzelepis D., et al.. Forecasting fraudulent financial statements using data mining[ J].International Journal of Computational Intelligence,2006(2):104 ~ 110.
Loh W. Y.. Classification and regression trees[ J].Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery,2011(1):14 ~ 23.
Purda L., Skillicorn D.. Accounting variables, deception, and a bag of words: Assessing the tools of fraud detection[ J].Contemporary Accounting Research,2015(3):1193 ~ 1223.