高媛媛
摘 要:為提高財務舞弊識別的精確度及泛化能力,本文以Spss Modeler14.2為平臺,利用bagging和Boosting算法構建神經網絡集成分類器,建立財務舞弊識別數據流,并對結果進行了分析。結果表明,Boosting算法構建的神經網絡集成分類器精確度高,泛化能力強,能更有效的識別財務舞弊。
關鍵詞:財務舞弊;神經網絡集成;Bagging;Boosting
0 引言
近年來上市公司的財務舞弊案頻繁發生,打擊了公眾對上市公司和資本市場的信心,成為資本市場健康發展的一塊頑石,因此尋求有效并能迅速識別舞弊的方法成為資本市場和會計執業界面臨的問題之一。隨著人工智能和計算機技術的發展,許多數據挖掘算法應用到財務舞弊識別領域,神經網絡由于對數據分布假設沒有要求,且非線性擬合能力較強,這使得其在舞弊識別方面具有較強的適用性。國外應用神經網路識別財務舞弊的研究開展的較早,Ethridge和Brooks早在1994年就提出人工神經網絡是甄別管理舞弊的理想方法[1]。Green和Choi (1997)利用原始財務數據建立神經網絡(ANN)舞弊判別模型[2]。Lin、Hwang和Becker (2003) 融合模糊回歸、神經網絡等方法構建了集成的模糊神經網絡[3]。國內學者的代表性研究主要有:梁杰等(2006)提出了模糊神經網絡混合模型[4]。劉君、王里平(2006)建立徑向基概率神經網絡的財務舞弊識別模型[5]。蔡志岳和吳世農(2006)證明遺傳神經網絡預測準確度高于邏輯回歸模型和BP神經網絡預測模型[6]。
從上述研究可以看出前人的研究主要采用單一分類器構建模型,在實際應用中單一分類器存在一些缺陷,如分類精確度較低、預測性能不穩定等問題。針對財務舞弊識別建模數據樣本量較少、數據維度高、信噪比低等諸多難題,本文提出采用神經網絡集成的思想來提高舞弊識別模型的泛化能力和預測效果。
1 神經網絡集成
根據1996年Sollich和Krough的定義:“神經網絡集成是用有限個神經網絡對同一個問題進行學習,集成在某輸入示例下的輸出由構成集成的各神經網絡在該示例下的輸出共同決定”[7]。簡單來說,通過建立多個神經網絡并將其結論結合,以提高學習系統的泛化能力。在生成集成的個體網絡方面,Bagging和Boosting是集成學習中兩種常用的算法。
1.1 Bagging 算法
Bagging 是1996年Breiman在Bootstrapping和aggregating概念的基礎上提出的。Bagging算法的核心思想是可重復取樣。該方法通過對原始數據集進行放回抽樣,產生訓練數據集的副本,創建大小與原始數據集相同的 bootstrap 樣本。然后,在每個副本上構建“成分模型”,得出預測函數序列,最終的預測結果將按照一定的集成方法來得到。
2 實證檢驗
2.1 研究設計
本文以Spss Modeler 14.2為建模平臺,首先利用Pearson相關算法對舞弊識別指標進行特征選擇,形成次優特征集,在此基礎上利用Bagging算法和Boosting算法構建神經網絡集成分類器作為挖掘模型,建立舞弊識別數據流。Spss Modeler 14.2的神經網絡建模工具是一種完全的黑盒模型,不需要自己構建數學函數,完全通過機器的學習完成建模。
2.2 樣本選取
本文所用數據來源于國泰安上市公司數據庫,選取2008~2012年因虛構利潤、虛列資產、誤導性陳述、重大遺漏、推遲披露等原因被證監會、上交所、深交所公開處罰的違規樣本作為舞弊樣本,以與舞弊樣本相同行業、相同年度、相近規模為標準選取非違規公司為配對樣本。共獲得樣本1100個。
2.3 指標選擇與數據預處理
(一)舞弊識別指標
舞弊識別指標通常作為舞弊識別的分類特征,因此甄選適當的識別指標是構建模型的前提。根據以往的研究經驗,財務指標被普遍應用,并證明在舞弊識別方面是有效的。此外,會計信息的真實性有賴于公司外部監督和內部治理機制的保障,因此研究選擇了涵蓋企業償債能力、營運能力、盈利能力、發展能力、風險水平、現金流量能力等方面的財務指標;同時也將選擇公司治理、股權結構、審計意見等非財務信息指標作為舞弊識別的備選指標。具體如下:
(1)償債能力:資產負債率、利息保障倍數、營運資金與借款比、產權比率、流動比率、速動比率、現金比率、營運資金比率
(2)營運能力:存貨周轉率、存貨與收入比、應收賬款周轉率、應收賬款與收入比、總資產周轉率
(3)盈利能力:營業毛利率、息稅前利潤與營業收入比、資產報酬率、總資產凈利率、凈資產收益率、管理費用率、財務費用率、銷售費用率
(4)發展能力:應計項目總資產比、總資產增長率、利潤總額增長率、營業收入增長率、每股收益增長率
(5)風險水平:財務杠桿系數、經營杠桿系數
(6)現金流量能力:營業收入現金比率、自由現金比率、營運指數
(7)公司治理指標:董事長與總經理兼任情況、董事會會議次數、監事會會議次數、股東大會會議次數、
(8)股權結構:股權集中度、控制權競爭程度、高管持股比
(9)外部監督指標:審計意見類型、會計師事務所變更
(二)數據預處理
由于原始數據存在缺失的情況,會對深層次數據分析和構建模型帶來不利影響,因此在進行指標篩選前要對數據進行清理。刪除缺失值比例大于30%的特征變量,對于缺失比例較小的變量,連續類型的變量利用均值對空值進行插補,標志類型的變量則將整條個案刪除,形成建模的樣本數據。每股收益增長率因為缺失比率超過30%被過濾出去,最終共39個特征變量,1056條記錄(其中舞弊樣本597個,非舞弊樣本459個)形成建模數據。
(三)特征提取
在建模之前首先對舞弊識別備選指標進行篩選。常用的對指標進行降維的方法包括兩類,一是選擇指標的子集來代替原有的指標體系;二是對原有指標進行變換轉化成新的綜合性指標,如主成分分析[8]。研究首先選擇了主成分分析法,利用SPSS對建模數據進行主成分分析,KMO和Bartlett檢驗值為0.569(<0.7),提取公因子14個,累計貢獻率66.86%,由此看來利用主成分分析會損失部分信息,所以本文采用子集選擇法篩選指標。利用Spss Modeler14.2的征選擇節點,選擇Pearson相關性分析對備選指標篩選,將重要性大于0.9的指標作為次優特征集,如表1所示。
2.4 建模及結果分析
利用Spss Modeler的“分區”,按照5:5的比例將樣本隨機劃分為訓練分區和測試分區。在本文中,將單一神經網絡、boosting神經網絡分類集成與bagging神經網絡分類集成進行對比實驗。實驗中,采用3層MLP神經網絡結構。首選確定神經網絡隱含層節點的數目。隱含層的節點數太少,則神經網絡學習誤差大,泛化能力差;隱含層節點數目太多,則會延長網絡的學習時間,且學習過程“記住”噪音等非規律內容,網絡易出現過度擬合現象,即系統可以很好地擬合訓練數據集,但泛化能力很差。對隱含層節點數目的確定理論上沒有很好的方法,通常由實驗測試得出,通過反復實驗發現隱含層節點為6個時性能較好,由此神經網絡的結構為輸入層19個節點,隱含層6個節點,輸出層1個節點。選擇Spss Modeler建模中的“神經網絡”進行設置,具體參數如下:
(一)字段選項:“目標”選擇“舞弊否”字段,“預測變量”對應特征選擇后的19個財務及非財務指標值。
(二)構建選項:
(1)“目標”選擇“創建新模型”建立單一分類器;選擇“增強模型的準確性”創建boosting分類器集;選擇“增強模型穩定性”創建bagging分類器集;
(2)“基本”中設置神經網絡模型為MLP,隱藏層設置為1層,自定義單元數目為6;
(3)“停止規則”中設置停止時間為5.0分鐘;
(4)“整體”中設置分類目標的合并規則為“投票”方式,用于Bagging和Boosting的組件模型數量為15個;
(5)過度擬合防止集合百分比為30%。
(三)其他參數采用系統默認值
在Spss Modeler中構建舞弊識別與檢驗模型數據流,檢驗結果如表2,單一神經網絡能夠識別財務舞弊,在訓練集和測試集上表現穩定,但是精確度較低;Bagging算法和Boosting算法的精確度都高于單一神經網絡的精確度,Boosting算法構造的神經網絡集成分類器精確度高于bagging算法構造的集成分類器,但其穩定性略遜于bagging算法構造的集成分類器。
3 結論
由于公司舞弊受到多種因素影響,且作用機制復雜,運用單一神經網絡較難提高舞弊識別的精確性和穩定性。因此本文提出應用神經網絡集成技術對識別財務舞弊進行識別,以克服當前識別財務舞弊建模過程中存在的樣本量少,維度高、非線性、噪音干擾以及數據缺失等諸多難題。本文以Spss Modeler 14.2 為平臺,采用Bagging和Boosting算法建立模型,結果表明Boosting算法構建的神經網絡集成精確度最高,穩定性較強,優于Bagging算法構建的神經網絡集成和單一神經網絡模型。
參考文獻:
[1] Etheridge,Harlan L.,Richard C. Brooks. Neural Networks: A New Technology[J]. The CPA Journal, 1994, 64(3):36 - 39,52 - 55.
[2] Green B.P.,Choi J.H.. Assessing the risk of management fraud through neural network technology[J]. Auditing: A Journal of Practice &Theory;,1997,16:14-28.
[3] Jerry W. Lin,Mark I. Hwang,Jack D. Becker,A Fuzzy Neural Network for Assessing the Risk of Fraudulent Financial Reporting[J]. Managerial Auditing Journal,2003,18(8): 657-665.
[4] 梁杰,位金亮等. 基于神經網絡的會計舞弊混合識別模型研究[J]. 統計與決策,2006(2):152-153.
[5] 劉君,王里平. 基于概率神經網絡的財務舞弊識別模型[J]. 哈爾濱商業大學學報,2006(3):102-205.
[6] 蔡志岳,吳世農. 基于公司治理的信息披露舞弊預警研究[J]. 管理科學,2006,19(4):79-90.
[7] Sollich P, Krogh A.Learning with ensembles: How over-fitting can be useful[M]. Advances in Neural Information Processing Systems 8.MA: MIT Press,1996: 190-196.
[8] 習勤,米帥軍. 指標篩選技術在神經網絡數據挖掘中的應用[J]. 統計與決策,2011(10):163-165.