趙于卓 黃子瑩



摘 要:本文在回顧舞弊識別理論、指標和模型研究相關文獻的基礎上,以482個舞弊公司和非舞弊公司為研究樣本,基于舞弊三角理論選取財務指標、財務增量指標和非財務指標構建綜合指標體系,得到GA-BP舞弊識別模型。大數據技術下數據全面化、多維化的特點賦予審計對象,審計過程多元化、復雜化的特征,給審計工作帶來新的挑戰,將大數據技術和舞弊識別模型創新結合能賦予審計工作以新的生命力,為全面審計提供堅實的基礎,提高審計質量和效率。
關鍵詞:財務舞弊;GA-BP模型;舞弊三角理論;大數據
中圖分類號:F275 文獻標識碼:A 文章編號:2096-0298(2021)06(b)--05
近年來國內財務舞弊案件迭出,如2019年的康美藥業、康得新以及2020年的瑞幸等,不僅損害了投資者利益和市場可信度,影響證券市場資源配置功能的發揮,還對中國上市公司的聲譽造成嚴重影響。舞弊動因更加復雜多樣,舞弊方式不斷新式化,國家對上市公司的監管也日益加強,識別公司財務舞弊的方法成為社會焦點。
本文以舞弊三角理論為基礎,結合前人已有研究,構建了基于財務信息與非財務信息的指標體系,共計64個指標,作為智能算法識別舞弊的基礎。根據412個公司樣本擬合,并用70個樣本進行測試,得到了一個精準有效的GA-BP舞弊識別模型。同時將模型進行擴展,為構建一個以數據處理為核心組織,基于大數據技術進行自動分析與識別的審計框架提供了初步方案。
1 文獻綜述
1.1 舞弊動因理論
孫麗亞(2010)從“三元素”理論出發,分析三元素的內在關系,創建了與舞弊特征相關的識別卡。洪葒等(2012)利用“GONE”理論探究得出影響五項舞弊發生的重大因素。此外,管楊威等(2014)選擇“CRIME”舞弊動機五因素論為研究依據,對60個上市公司舞弊與非舞弊樣本進行對比檢驗獲得較好應用能力的識別模型。
1.2 舞弊指標
彭子坤等(2013)立足非財務指標從舞弊行為的根本原因出發認識該行為,以公司治理信息和外部環境信息來對非財務信息進行分類,分析現在舞弊識別中的缺陷與滯后性。而熊方軍(2015)立足財務指標,通過對幾十家舞弊和非舞弊公司的16個財務指標構建以Logistic模型為基石的舞弊識別方法,對數據進行剖析后認為:公司財務指標的數據樣本容量大小影響著預測正確率,容量越小正確率越高。
1.3 舞弊識別模型
夏明等(2015)選取神經網絡組合模型,以BP、RPF神經網絡的實驗結果為基礎,提出RPF-BP組合模型,效法于生物體內神經網絡,具有較好的自適應及容錯性和應用性,為有效識別會計舞弊提供了新的思路和方法。與之不同的是楊貴軍等(2019)使用基于Benford律的Logistic模型,創造性地提出創建一個Benford因子并將其帶入到Logistic模型。另外,潘夢雪(2019)基于有較高準確率的預測算法隨機森林,結合2014—2017年400多家有舞弊行為的公司進行建模驗證,得到具有實用價值的風險識別模型。
由上述的文獻可以得知,在舞弊識別模型、指標、舞弊動因理論的選擇上,學術界針對不同方向都得到了較為豐富的成果。本文旨在前人研究的基礎上進行創新性優化,以期獲得具有更高可信度和實用價值的舞弊識別模型。
2 GA-BP模型構建
2.1 神經網絡選取
人工神經網絡中的BP(Back Propagation)神經網絡應用最為廣泛,其常見結構有三層,分別是輸入、隱含與輸出層,不同層之間的神經元之間可以利用通道進行信息傳輸。神經元與通道構成了一個非線性有向圖,具有很強的學習能力與處理能力,可以根據輸入數據修改每條通道的權重,從而映射出未知結構的數據關系。
該模型的重點在于權矩陣的確定。選取個學習樣本,每個樣本有個指標值和1個輸出值,所以期望輸出值構成了目標向量,輸出值構成了向量,把與之間的誤差逐層逆向傳遞給上一層,通過不斷修正神經元間信號通道的權重來減少誤差,當誤差減小到預先設定的標準,則學習狀態結束。
2.2 遺傳算法優化
雖然BP神經網絡的學習能力較強,但收斂速度較慢,易困于局部最優解,為克服這一缺點選用遺傳算法(Genetic Algorithm ,GA)進行優化。遺傳算法借鑒自然界遺傳機制與適者生存思想,模擬生物遺傳進化過程,通過選擇、交叉、變異等操作循環繁殖來挖掘最優個體,縮小最優解范圍,用于優化BP神經網絡模型的權值閾值。
2.3 GA-BP模型構建
GA-BP模型算法的主要步驟如下。
2.3.1 網絡初始化
首先需要確定神經網絡的拓撲結構,包括網絡層數和權值閾值個數,并賦予初始值,確定網絡的學習規則,這里引入動量項,使得學習因子可以根據需要變化。其中
為學習因子,影響網絡收斂速度;為動量因子,影響誤差修正力度,一般取0.9。
2.3.2 種群初始化
確定染色體的長度并進行編碼,產生一個初始種群,每一個都代表網絡中一個對應的權重。
2.3.3 適應度函數
將網絡預測誤差絕對值和的倒數作為遺傳算法中的適應度函數。
2.3.4 遺傳操作
(1)選擇操作
根據適應度函數計算個體適應值作為篩選依據,采用輪盤賭注法確定父代染色體,適應度值越大被選中的概率越高,體現了適者生存思想。第個染色體被選中的概率為:
(2)交叉操作
根據數值交叉法,以交叉概率對染色體、的第個基因進行交叉操作,產生新個體和,其余部分直接進行復制。
(3)變異操作
以突變概率對染色體的第個基因進行突變操作產生新個體。
2.3.5 尋找最優個體
根據每次計算的適應度值進行判斷,若達到設定的精度要求,或循環次數達到所設的最大迭代次數,則循環終止得到最優個體,解碼便可獲取最優權值、閾值。
2.3.6 訓練BP神經網絡
將最優權值、閾值賦給BP神經網絡進行訓練,計算輸出向量與目標向量的總誤差,若未達到預定標準則反向更新權值、閾值,通過正反向的交替過程逐步提高預測精度,如圖1所示。
3 樣本及指標體系
3.1 樣本選擇
本文研究數據全部來自證監會、國泰安CSMAR數據庫以及滬深證券交易所。
(1)舞弊樣本選擇。考慮到處罰決定與行為發生相比存在一定的時滯性,近期存在舞弊行為的公司可能未被處罰,導致被誤認為非舞弊公司,本文所選取的舞弊公司樣本來源于2015—2019年證監會處罰公告,最終選取了2014—2018年發生舞弊的263個公司。
樣本篩選過程考慮以下方面。由于處罰原因并非都是舞弊,所以擅自改變資金用途、操縱股價等非舞弊行為導致違規的樣本需剔除;部分上市公司多年度發生了舞弊行為,為避免樣本重復僅選擇第一次發生舞弊年份的信息;剔除金融業上市公司,因報表結構與其他行業差異較大;剔除ST公司及上市未滿三年的公司,具體如表1所示。
(2)非舞弊樣本選擇。為了避免樣本規模因素對模型構建產生影響,按照舞弊樣本與非舞弊樣本1∶1的原則選取對應年度的263個非舞弊公司樣本。
篩選原則為可比性。配對的兩個公司資產總額比值控制在80%~120%;具有相同的股票代碼開頭;所處行業相同,行業劃分以證監會行業分類(2012)中的第一級作為依據。非舞弊公司在配對年度需已上市滿三年。
3.2 指標選取
(1)財務信息指標。根據舞弊三角理論可知財務指標可以在一定程度上反映出公司的經營壓力,基于客觀性和可行性的原則,本文從償債能力、經營能力、盈利能力等七大方面選取了典型財務指標,以反映公司的發展狀況,如表3所示。
(2)財務信息增量指標。當公司處于穩定發展階段時,其財務指標不會發生較大波動,若公司試圖通過虛增利潤或虛列資產等方式粉飾數據,其相關的財務指標便會發生較大的波動,偏離真實的發展趨勢。針對上述23個財務指標分別將舞弊年份與上一年進行對比,求出增量數據ΔX1,ΔX2,…ΔX23,其中是從營業收入變動率與總資產變動率的差距探討與舞弊的關系。
(3)非財務信息指標。當公司有較好的治理水平和股權結構,能做到權利相互制衡、職務分離時,則在一定程度上制約舞弊行為發生。本文從機會角度選取股權結構、治理綜合信息以及三會情況相關指標。三因素之一的借口可以通過薪酬合理體現,其與高管對公司的不滿情緒有反向關系,具體選取17個指標如表4所示。
4 實證分析
4.1 獨立樣本T檢驗
在模型擬合過程中,舞弊組與非舞弊組間沒有顯著差異的指標貢獻度較低,故采用獨立樣本T檢驗的方法,確定舞弊樣本與非舞弊樣本對同一指標的表現是否有顯著差別,即均值和方差是否來源于同一總體。從而對已選定的變量進行初步篩選,便于高效構建模型。
為了盡可能保證數據的真實性,減少缺失值對檢驗的干擾,應剔除指標缺失較多的公司,并刪除其配對公司,得到482個公司樣本,剩余空缺值用所屬的舞弊組或非舞弊組的平均值填補,然后通過SPSS進行檢驗。
在分析上述64個指標的獨立樣本T檢驗結果時,首先根據萊文方差等同性檢驗值判斷指標是否具有方差齊性,然后選擇對應類別的Sig.檢驗結果,如表5所示。
共篩選出8個在0.05顯著水平下具有顯著差異的指標,分別為資產負債率增量ΔX3應收賬款周轉率增量ΔX6、固定資產周轉率增量ΔX8、營業毛利率、財務杠桿、
營業收入變動率與總資產變動率之差、流通股比例和股東大會召開次數。
4.2 數據預處理
因為不同指標的量綱和數量級都有差異,為了消除其對模型的影響,首先應對指標進行標準化處理,具體處理公式為
其中,為第個指標的第個數據,為第個指標的最小值,為第個指標的最大值。
主成分分析法可進一步濃縮指標,但根據8個指標的KMO和巴特利特檢驗可知,KMO=0.528不符合主成分分析的前提條件,故不進行降維轉換,如表6所示。
4.3 GA-BP模型訓練與分析
在本文構建的舞弊識別模型中,將篩選出的8個指標作為輸入量,是否為舞弊公司作為輸出數據,其中-1代表非舞弊,1代表舞弊,用MATLAB2016B進行神經網絡訓練。
將482個公司樣本分為訓練組和測試組,訓練組412個樣本用于神經網絡的學習,測試組70個樣本用于對神經網絡的有效性進行檢驗,得到GA-BP模型的識別準確度如表7所示。
綜合來看,不論是訓練樣本還是測試樣本,其對舞弊組識別的準確率都要高于非舞弊組,即傾向于誤判為舞弊組。根據預測準確度來看,模型對未知公司的舞弊識別能力較高,大致為79%,說明構建的GA-BP模型可以作為信度較高的舞弊識別模型之一,在未來大數據環境下可以進一步挖掘更具有代表性的指標,探究如何更加有效地利用智能算法識別舞弊行為。
5 應用與展望
5.1 大數據在財務審計中的應用特點
信息化時代使會計信息由孤立的系統變成一個關于財務信息、人力資源、產品生產供應與銷售為一體的綜合復雜信息系統。而大數據時代的到來,正是使這種信息數據結構由單一、局部變成多維、全面,使得多種舞弊行為更易被分析識別,壓縮了企業舞弊空間。
5.1.1 對象全面性
大數據時代不再是對單一的財務報表或財務信息進行分析,而是對財務指標與非財務指標多個方面的信息進行分析,對所有可能獲得的公司財務信息進行分析,大大提高了審計對象的全面性和審計結果的準確性。
5.1.2 過程便捷性
大數據分析模式下,因為可以獲得全部數據與指標,因此通過智能化選擇對實時獲得的數據信息進行篩選和處理,對于多個可能性同時進行信息處理,精準找到將要得到的數據結果。
5.2 大數據在財務審計中的風險
5.2.1 信息數據更改
隨著電子信息技術日益增強,企業的信息數據面臨企業內部與外界兩部分干擾,通過公司內部信息技術更改企業數據,達成舞弊結果,外部人員通過信息技術手段惡意更改企業數據,兩方面皆會對審計結果產生重大影響。
5.2.2 信息數據缺失
電子形式的審計數據存在的穩定性嚴重依賴于信息系統,因此信息系統平臺的安全性與可靠性變得至關重要。其次電子審計數據在傳遞過程中極易發生更改與缺失,使得審計數據的真實性、可靠性、安全性有極大的隱患。
5.2.3 系統處理可靠性
在計算機根據模型進行審計識別時,識別模型對于審計數據處理的結果存在不確定性,即審計模型結果的可信度問題。局限于審計識別模型的科學方法,多數審計模型的結果準確性存在信任問題。
5.3 大數據對企業財務舞弊的影響
5.3.1 舞弊動因多元性
大數據時代下,數據價值的增大使企業生產銷售營銷面臨更加復雜的情況,同時企業財務信息透明化,使得企業之間的競爭壓力更加激烈,也可能使得舞弊行為的成本更低,導致舞弊行為的產生。
5.3.2 舞弊方法多樣性
互聯網+財務模式的快速發展使得監管監督機制無法即時更新,導致監管部分失效,某些財務舞弊得以滋生。并且,大數據模式下,數據的關聯性、豐富性、龐大性和各種互聯網技術的快速發展使財務舞弊產生的方式方法更加多樣化。
5.3.3 舞弊識別弱化性
互聯網時代由于市場發展迅速,識別舞弊行為存在滯后性,市場監管對于舞弊行為的判斷能力較弱,所以應建立強力完善的財務審計機制,提高審計人員的能力,獲得更加高效有實用性的財務審計工具。
5.4 大數據與創新財務舞弊識別模型的意義
隨著大數據時代的深化發展,會計審計工作持續更新增進,將會建立更加完善和全面的財務審計機制,糾察各類財務舞弊行為。大數據時代下的財務工作信息化和財務舞弊識別模型的創新在其中有著至關重要的作用。
5.4.1 財務舞弊模型判斷準確性提高
財務信息系統對于信息處理能力的準確性一直是審計工作的關鍵因素,預測模型的準確率起著決定性的作用。因此創新財務舞弊模型,創建有可靠性和實用價值的模型給審計人員選擇方法上提供了多樣性。
5.4.2 為全面審計提供可能性
現代企業財務信息化的不斷提高,傳統升級模式抽樣方法忽略了未抽取樣本存在舞弊的可能性。而在大數據時代,通過企業信息化平臺集中獲取數據帶入相關審計模型進行綜合審計,可以避免此類方法的缺陷,減小企業的舞弊空間。
5.4.3 提升舞弊行為的審計質量與效率
大數據時代,審計人員通過計算機等互聯網平臺對數據進行快速分類和整合,應用智能化快速識別舞弊行為,相比傳統審計模式,提升了審計工作的速度與準確性,同時也提升了審計人員的工作技術水平。
參考文獻
孫麗亞.基于“三元素”理論的企業財務舞弊識別[J].財會月刊,2010(05):5-7.
洪葒,胡華夏,郭春飛.基于GONE理論的上市公司財務報告舞弊識別研究[J].會計研究,2012(08):84-90+97.
管揚威,朱衛東.基于CRIME五因素論的ST公司財務舞弊識別[J].財會月刊,2014(16):12-16.
彭子坤,曾志勇.基于非財務信息的財務舞弊識別問題綜述[J].財會通訊,2013(14):55-57.
熊方軍.基于財務指標分析的上市公司會計舞弊識別研究[J].財會通訊,2015(24):3-6+129.
夏明,李海林,吳立源.基于神經網絡組合模型的會計舞弊識別[J].統計與決策,2015(16):49-52.
楊貴軍,周亞夢,孫玲莉,等.基于Benford律的Logistic模型及其在財務舞弊識別中的應用[J].統計與信息論壇,2019,34(08):50-56.
潘夢雪.基于隨機森林的上市公司舞弊風險識別模型研究[D].杭州:杭州電子科技大學,2019.
高利,芳何磊,李藝瑋.企業反賄賂內部審計的主觀動因研究——基于世茂集團的案例分析[J].重慶工商大學學報(社會科學版).2020,37(02):75-86.
Abstract: Based on a review of the literature on Fraud Identification Theories, indicators and models, 482 fraud firms and non-fraud firms were selected as the research samples. According to the Triangle Theory of Fraud, financial index, financial increment index and non-financial index are selected to build a comprehensive index system. GA-BP Fraud Identification Model is Fitted. Under the background of big data, comprehensive and multi-dimensional characteristics of data endow audit objects and audit processes with the characteristics of diversification and complexity, which brings new challenges to audit. Innovative combination of big data technology and Fraud Detection Model can give new vitality to audit, provide a solid foundation for comprehensive audit, and improve the quality and efficiency of audit.
Keywords: financial fraud; GA-BP Model; Fraud Triangle Theory; big data