基于數據挖掘的財務舞弊識別研究

2014-12-30 05:53:48高媛媛

科技經濟市場 2014年11期

高媛媛

摘 ?要：本文以財務舞弊識別為目標，應用C5.0算法的決策樹模型對舞弊識別指標進行特征選擇，并在此基礎上構建神經網絡模型，建立舞弊識別組合模型，并與BP神經網絡的預測結果進行了對比分析。研究表明，基于決策樹-神經網絡組合模型的精確性和穩定性更高，能更有效的識別財務舞弊。

關鍵詞：財務舞弊;數據挖掘;決策樹;神經網絡

0 ?引言

財務報表舞弊是我國資本市場當前和未來一段時期內面臨的最大挑戰之一。雖然對上市公司的信息監管力度不斷加強，但為了追求相關群體的利益最大化，上市公司依然有著強烈的財務舞弊的動機，并且傾向于采用更為隱蔽的手段，上市公司的財務舞弊行為必然會損害廣大投資者的利益，破壞資本市場的健康發展，這就要求監管部門以及會計師事務所必須不斷加大對財務舞弊識別方法的探索，利用先進的計量分析技術建立有效精準的評估模型評估舞弊風險、識別舞弊行為。

關于財務舞弊識別國內外做了大量研究，提出了很多識別方法及模型。例如單因素方差分析模型、Logistic 回歸分析、線性概率模型、多元判別分析方法、神經網絡等等。其中神經網絡是一種是"一種基于腦與神經系統研究，所啟發的信息處理技術"，具有自組織、自適應以及較強的學習能力，由于其能迅速尋找優化解，具有較強預測能力，因此得到較為廣泛的應用。例如Fanning等人（1995）分別使用了 Logistic regression、通用的自適應神經網絡結構和自適應邏輯網絡兩種方法設計神經網絡模型對公司虛假財務報告進行識別，結果表明，神經網絡的識別準確率高于Logistic regression的識別準確率;Green and Choi （1997）采用人工神經網絡技術構造了建立在原始財務數據基礎上的財務報告舞弊判別模型;Lin、Hwang &Becker（2003）進一步構建了基于模糊神經網絡的會計舞弊判定模型，實證結果表明它可以有效地減少審計師的偏見或彌補審計師的不足;我國的劉君、王理平（2006）采用徑向基概率神經網絡為工具，經過對樣本的訓練和學習，取得了較高的識別率。

然而神經網絡的主要缺點是結構不明，可能出現過度訓練，從而導致預測穩定性不佳，而且神經網絡的黑箱操作性使其無法揭示模型的結構，缺乏解釋性。因此單一神經網絡模型在實際操作時具有風險，為了避免這一缺陷，本文擬首先利用決策樹進行特征指標選擇，以減少非核心指標對舞弊識別預測結果的影響，然后建立決策樹-神經網絡組合模型，將兩個單一模型相結合，以達到性能互補、增強模型的穩定性和精確度的目的。

2 ?組合模型算法

（一）決策樹

決策樹使用屬性選擇度量進行選擇，屬性選擇度量是一種選擇分裂準則，即按照不同的屬性將總樣本構造為不同的子集，每一子集內部因變量的取值高度一致，其目標是讓各個分裂子集盡可能地"純"，相應的變異/雜質盡量落在不同子集區間。所有決策樹模型的算法都遵循這一原則，差異只在于對變異/雜質的定義不同。某個節點處按照某一特征屬性的不同劃分構造不同的分支，決策樹算法中最具代表性的是Quinlan于1986年提出的ID3，在該算法中，引入了信息論中熵的概念，利用分割前后的熵來計算信息增益，作為判別能力的度量。但是ID3算法的主要缺陷是只能處理離散型描述屬性。此外，按照信息增益最大的原則，ID3算法首先判斷的屬性（靠近決策樹的根節點）在某些情況下可能不會提供太多有價值的信息。隨后，Quinlan改進了ID3，提出C4.5算法，該方法使用增益率（gain ratio）的信息增益擴充，以克服ID3偏向于多值屬性的缺陷。C4.5不僅可以處理離散型描述屬性，還能處理連續性描述屬性。C5.0算法則是C4.5算法的修訂版，適用于處理大數據集，采用Boosting方式提高模型準確率及計算效率。

（二）BP神經網絡

BP神經網絡的基本原理：BP神經網絡一般是多層的，神經網絡模型拓撲結構包括輸入層、隱含層和輸出層。隱含層可以為一層或多層，多層的網絡設計，使BP網絡能夠從輸入層中挖掘更多的信息，完成更復雜的任務。對于輸入信號，要先向前傳播到隱含層節點，經作用函數后，再把隱節點的輸出信號傳播到輸出節點，最后給出輸出結果。BP網絡一般使用Sigmoid函數或線性函數作為傳遞函數。在BP神經網絡中，數據從輸入層經隱含層向后傳播，訓練網絡權值時，則沿著減少誤差的方向，從輸出層經過中間各層逐層向前修正網絡的鏈接權值。隨著學習的不斷進行，最終的誤差越來越小。

3 ?數據來源及研究設計

（一）數據來源與研究平臺

研究選取2003-2012年因提供虛假財務報告而被證監會、上交所、深交所公開處罰的制造業上市公司作為舞弊公司樣本，以與舞弊樣本相同行業、相同年度、相近規模為標準選取非舞弊公司作為配對樣本，提出了僅發行B股的公司，共得到1031個舞弊樣本以及960個非舞弊樣本，所用數據主要來源于CCER數據庫。本研究以SPSS Modeler 14.2為研究平臺，建立組合模型。

（二）舞弊識別初選指標

舞弊識別指標通常作為舞弊識別的分類特征，因此甄選適當的識別指標是構建模型的前提。根據以往的研究經驗，在識別財務舞弊方面財務指標被普遍應用。除此之外，公司外部監督和內部治理機制是會計信息的真實性的有力保障，因此本研究選取了涵蓋企業償債能力、營運能力、盈利能力、發展能力、風險水平、現金流量能力等方面的財務指標;同時也將選擇公司治理、股權結構、審計意見等非財務信息指標作為舞弊識別的初選指標（見表1）

（三）模型設計

本文設計的研究模型為決策樹--神經網絡兩階段組合模型，首先利用 C5.0算法構建最優決策樹，從舞弊識別備選指標中選擇對舞弊識別分類預測結果影響較大的指標。隨后將甄選后的指標作為神經網絡輸入層的指標構建BP神經網絡模型，最后利用測試集對模型的優劣進行評估。

（四）選擇特征屬性

對舞弊識別的特征屬性進行選擇，首先要建立最優決策樹。為了避免決策樹過度擬合需要調整決策樹的修剪程度;此外Boosting技術能夠提高弱分類模型的準確性，因此需確定最佳 Boosting迭代次數，經過多次試驗后，建立最優決策樹的條件是：修建嚴重性為70;Boosting迭代次數為25次。將SPSS Modeler中的決策樹C5.0模型按照上述參數設置，此時構建的決策樹為最優決策樹，基于C5.0算法信息熵增益率的分類原理可以得出，各屬性指標對分類預測結果的影響大小排序如表2：

4 ?建模檢驗與評估

（一）組合模型

選取最優決策樹甄選出的11個特征指標作為BP神經網絡輸入層的屬性指標，按照7：3比例將樣本拆分為訓練集和測試集。同時設置防過度擬合率為80%，在出現錯誤時停止學習，其他采用系統默認。由于神經網絡模型的穩定性不佳，因此采取重復10次運行模型得出分類預測的結果，組合模型分類結果如表3：

（二）組合模型與單一BP神經網絡模型的對比分析

將未經篩選的指標作為單一BP神經網絡輸入層的指標屬性，其他設置均與組合模型一致，與組合模型的運行結果對比分析，運行結果如表4：

由表3與表4對比可見，決策樹--神經網絡組合模型的總體正確率遠遠高于單一神經網絡模型。組合模型的測試集10次運行的最高正確率為79.8%，高出單一神經網絡模型測試集的最高精度13.1%，且組合模型整測試集體正確率方差為0.0012（表5），小于單一神經網絡模型測試集正確率方差，說明組合模型的穩定性好于單一神經網絡模型。可見，基于信息熵增益率分類原理的最優決策樹挑選指標方法的有效性得到了很好的驗證，該方法能合理的去處非重要屬性指標的干擾，使真正有效的屬性指標輸入神經網絡模型進行預測分類，提高模型分類的準確性和穩定性。此外，由決策樹甄選出的指標可知非主板上市公司更容易發生舞弊行為;代表資產質量的自由現金流比、應計總額資產指數、流動比率;代表盈利質量的財務費用率、應計利潤率、收益質量指標;以及代表內、外部監管力度的審計意見、董事會會議次數等指標對區分舞弊與非舞弊有重要影響，較原來單一BP神經網絡模型的"黑箱性"，決策樹--神經網絡組合更容易理解。

5 ?總結

為了有效的識別財務舞弊，本文應用C5.0算法的決策樹模型，建立最優決策樹，將其選取出來的識別財務舞弊的特征屬性按重要性排序，將非主板上市、自由現金流比等指標輸入神經網絡，得出預測結果。從組合模型與單一神經網絡模型的對比分析來看，利用基于信息熵增益率分類原理的最優決策樹模型提高了神經網絡的可解釋性、穩定性及精確度。

參考文獻：

[1]薛薇，陳歡歌.Clementine數據挖掘方法及應用[M].電子工業出版社，2010.

[2]汪士果，張俊民.基于數據挖掘的會計舞弊識別問題研究綜述[M].中南財經政法大學學報，2011（1）.

[3]劉建勇、湯浩.我國上市公司財務報告舞弊識別指標體系研究-基于問卷調查結果的實證分析[M].中國管理信息化，2008（1）.

[4]劉君、王理平.基于概率神經網絡的財務舞弊識別模型[M].哈爾濱商業大學學報，2006（3）.