



摘要:當前,財務數據異常檢測研究通常只關注數值型數據,這種單模態的數據處理方式在一定程度上限制了數據異常檢測的精度。為此,文章研究了一種基于多模態機器學習的財務數據異常自動檢測方法。文章對企業財務數據進行預處理,構建財務數據集,基于數據集提取數值和文本特征,同時借助多模態數據融合技術進行特征融合,建立多模態機器學習下的財務數據異常檢測模型,將融合后的特征輸入該模型,根據輸入數據的不同部分利用注意力機制對預測結果的貢獻度動態加權,從而輸出最終異常檢測結果。實驗結果顯示,該方法受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)下的真正例率高、檢測正確率在90%以上、檢測損失值小,具有較好的實際應用價值。
關鍵詞:多模態機器學習;財務數據;財務數據異常;數據異常檢測;自動檢測
中圖分類號:TM76文獻標志碼:A
0引言
隨著信息技術發展,企業財務數據管理與分析成為企業運營的關鍵。然而,面對海量的財務數據,如何高效識別異常值,對于企業預防財務風險、提升決策效率至關重要。傳統的財務數據異常檢測方法大多依賴于人工設定的規則和閾值,這不僅耗時耗力,還難以適應復雜環境。因此,相關學者探索一種智能、高效的財務數據異常自動檢測手段顯得尤為重要。針對這一問題,馮華偉[1]提出了基于深度神經網絡的異常財務數據識別方法。該方法通過增加方差項,改進了傳統的隨機森林模型。同時,利用深度遞歸神經網絡訓練隨機森林。但深度神經網絡因模型的復雜性和多參數易導致過擬合,影響泛化能力和檢測精度。李自霞等[2]提出了基于孤立森林算法的企業分布式財務不良數據檢測方法。該方法通過分析企業分布式財務元數據管理體系,提取實際財務數據,對其進行預處理保證數據質量,同時計算不良數據分布特征,基于孤立森林算法實現不良數據檢測。但孤立森林算法對噪聲和冗余信息敏感,影響檢測精度。為提高異常數據檢測精度,文章提出基于多模態機器學習的財務數據異常自動檢測方法。
1財務數據預處理
在企業財務數據的預處理階段,文章采用Selenium爬蟲技術實現財務報表數據的自動化采集,采集到的數據類型包括資產負債表數據、利潤表數據、現金流量表數據、交易記錄數據、賬戶信息數據、財務指標數據等。每一類數據都對應著企業財務狀況的不同方面,共同構成了企業財務數據的完整體系。然而,在數據采集過程中,該過程易受傳輸中斷、硬件故障等外部因素的影響,導致數據記錄存在缺失的情況[3]。為此,文章引入線性插值法,填補這些缺失的數據點。為有效消除干擾,文章采用Zscore標準化方法,以削弱數據中的不確定性成分[4]。表達式如式(2)所示。
2融合財務數據多模態特征
筆者經過研究發現,數值特征作為財務數據的直觀體現,主要包括收入、成本、利潤、資產及負債等一系列核心財務指標。它們直接反映了企業的財務健康狀況和經營成果。文本特征主要聚焦于財務數據中的非結構化信息,如財務報表附注、審計報告、管理層討論與分析等文本內容[5]。這些信息雖然不像數值數據那樣直觀,但卻蘊含著豐富的財務信息和業務背景,對于深入理解企業的財務狀況至關重要。文章為了充分利用這些多樣化的模態特征,應用多模態數據融合技術將數值特征和文本特征等多樣化的模態特征進行整合。
文章在多模態融合過程中為每個模態的特征向量分配一個權重,然后計算它們的加權和。文章假設權重向量為w=[w1,w2,…,wm],則融合后的特征向量如公式(3)所示。
3建立多模態機器學習下的財務數據異常檢測模型
文章在多模態機器學習下的財務數據異常檢測模型構建的具體實踐中,以企業財務數據樣本為訓練集。針對財務數據具有時間序列特性的特點,文章采用機器學習中的卷積神經網絡單元進行序列數據的訓練與處理[6]。在多模態機器學習下,財務數據異常檢測模型如圖1所示。
4引入注意力機制輸出最終異常檢測結果
為提升模型在財務數據異常檢測中的精確性,文章在財務數據異常檢測的復雜場景中,引入注意力機制。
在注意力機制中,權重通常是通過計算查詢向量Q和一系列鍵向量Ki之間的相似度或相關性得到的。Q和Ki分別代表了財務數據異常檢測模型在處理輸入數據時所要關注的“焦點”和“候選信息”。文章通過計算它們之間的相似度得分,可以量化每個候選信息對于最終預測結果的重要性程度。相似度得分為:si=Q,KTi,為了得到更加穩定和可靠的權重分配,應用Scale操作和softmax函數來計算權重αi:
5實驗
51實驗準備
文章以某大型制造業公司為例進行了測試,該公司擁有完善的財務系統,記錄了近5年的財務數據,包括銷售收入、成本、利潤、現金流等關鍵指標,收集該公司某年1月的部分財務數據,如表1所示。
由表2可知,該公司1月26日的數據明顯異常,其銷售收入、成本、利潤和現金流均遠高于其他日期。文章使用除1月26日外的其他日期數據作為訓練集,對模型進行訓練,同時將訓練好的模型應用于整個數據集,對包括1月26日的數據,進行異常檢測。
52實驗結果與分析
在完成了多模態機器學習下的財務數據異常檢測模型的構建與訓練后,筆者將文章方法與基于深度神經網絡的異常財務數據識別方法(方法1)和基于孤立森林算法的企業分布式財務不良數據檢測(方法2)進行對比,采用ROC曲線、檢測精度以及檢測方法的損失值作為評價指標,驗證3種檢測方法的效果,繪制相關的圖2、圖3、圖4,以便直觀展示。
在圖2中,筆者展示了基于多模態機器學習的財務數據異常自動檢測方法(文章方法)與其他2種方法(方法1和方法2)的性能對比。從ROC曲線的走勢來看,文章方法的曲線更加陡峭,在相同假正例率下,其真正例率明顯高于方法1和方法2。在假正例率較低時,文章方法就能達到較高的真正例率。這表明文章方法在保持低誤報率的同時,能夠更有效地識別出財務數據中的異常。這一優勢在財務數據異常檢測中尤為重要,因為誤報可能會給企業帶來不必要的困擾和損失。
根據圖3所示,筆者對比了3種方法在不同財務樣本數量下的檢測正確率。隨著樣本數量的逐步增加,文章方法展現出了顯著的優勢,其檢測正確率較高,在90%以上。相比之下,另外2種方法的檢測正確率則相對較低,特別是在樣本數量較多的情況下,文章方法的正確率遠高于另外2種方法,這充分證明了基于多模態機器學習的財務數據異常自動檢測方法的有效性,以此證明文章方法能夠充分利用財務數據的多種模態特征,實現更精準、更高效的異常檢測。
筆者通過對3種不同方法在檢測財務數據異常上的損失值變化情況進行分析,得出以下結論:在圖5所展示的樣本數量范圍內,可以清晰地看到基于多模態機器學習的財務數據異常自動檢測方法相較于其他2種方法表現出了顯著的優勢。隨著樣本數量的增加,文章方法的檢測損失值下降得更為迅速,這表明其能夠更好地適應和學習數據中的特征。這一結果驗證了多模態機器學習在財務數據異常檢測中的有效性,因此,筆者可以認為基于多模態機器學習的財務數據異常自動檢測方法效果好,具有廣闊的應用前景。
6結語
綜上所述,文章研究的基于多模態機器學習的財務數據異常自動檢測方法能夠自動識別并分析財務數據中的異常模式,這不僅提高了財務審計的準確性和效率,還為企業的風險管理和內部控制提供了強有力的技術支持。然而,在模型訓練過程中,算法的參數調優和模型選擇也面臨一定挑戰,需要不斷嘗試和優化才能達到最佳效果。基于多模態機器學習的財務數據異常自動檢測研究仍有較大發展空間,可深入研究更先進的機器學習算法和深度學習模型,以更好地捕捉財務數據中的復雜異常模式。通過不斷努力和改進,筆者相信未來基于多模態機器學習的財務數據異常自動檢測方法將更加成熟和完善,為企業的財務管理和風險控制做出更大的貢獻。
參考文獻
[1]馮華偉.基于深度神經網絡的異常財務數據識別方法[J].電子設計工程,2022(10):31-35.
[2]李自霞,周波.基于孤立森林算法的企業分布式財務不良數據檢測研究[J].湖北文理學院學報,2024(8):22-27.
[3]張學凱,張仰森,劉帥康,等.面向財務審計的數據異常偵測算法研究[J].重慶理工大學學報(自然科學),2024(7):158-165.
[4]高倩,王春飛.大數據分析與財務舞弊檢測[J].中國注冊會計師,2023(12):63-66.
[5]劉華玲,陳尚輝,曹世杰,等.基于多模態學習的虛假新聞檢測研究[J].計算機科學與探索,2023(9):2015-2029.
[6]陳云杰,柏溢.基于卷積神經網絡的移動通信網絡入侵檢測方法研究[J].無線互聯科技,2024(17):122-124.
(編輯王永超)