王澤霞,李正治
(杭州電子科技大學 會計學院,浙江 杭州 310018)
上市公司舞弊歷來是資本市場的監管難點,是審計理論界、實務界聚焦的重點,如何有效識別企業舞弊行為更是其中的關鍵點。國內外研究學者采用實證研究方法從公司治理特征、違法違規的誘因、預警和偵查等多角度對公司舞弊等違法違規行為進行了豐富的研究,實證研究表明模型舞弊識別效果較優。
現有舞弊識別模型主要有多元判別分析模型、logit模型、probit模型、人工神經網絡模型、決策樹、貝葉斯網絡等,梳理發現模型識別的效率比經驗識別效率高,其中logit回歸模型的應用最常見,而從結果的準確性方面來看神經網絡整體則優于回歸模型。Kirkos和 Spathis(2007)[1]應用人工神經網絡、決策樹和貝葉斯網絡三種算法建立會計舞弊檢測模型。檢測結果顯示:貝葉斯網絡模型的效果最好,準確率為90.3%,神經網絡和決策樹模型的準確率分別是80%和73.6%;陳國欣和呂占甲等(2007)[2]從上市公司中選取1994—2005年間舞弊公司和正常公司126家作為研究樣本,從財務、股權結構、內部控制以及其他等四類29個指標構建Logistic回歸模型,模型總體識別正確率達到95.1%,預測效果良好;洪文洲和王旭霞等(2014)[3]選取44家舞弊公司和44家財務報表正常的公司作為對比,選取兩組樣本中具有顯著性差異的指標數據,構建向后逐步法的logit回歸模型作為財務報告舞弊識別模型,模型整體的預測準確率達到了88.89%;王澤霞等(2017)[4]構建 BPLVQ的組合神經網絡舞弊風險識別模型,研究結果表明:組合神經網絡模型的識別率為90.56%,顯著高于這兩個單一神經網絡模型的舞弊識別率。上述舞弊模型的研究也有其局限性,研究過程中訓練樣本和檢驗樣本的選取按照舞弊和非舞弊1∶1進行配對,在對檢驗樣本進行預測時,由于1∶1的配對原則,導致即使不選擇使用模型,人工隨機選取,識別率也能達到50%,因此已有研究文獻中預測準確率往往存在被高估的可能性,同時在現有模型識別研究中,benford定律多運用于評價財務數據質量,在舞弊等違法違規的識別上尚不多見,因此本文重點探討綜合運用benford定律和面板模型來識別上市公司違法違規行為這一方法是否有效,提供一種新的舞弊識別模型來識別公司違法違規行為。
benford定律作為數學科學,已有研究學者從理論和實證上,證明了財務數據的分布客觀上符合benford定律,因此運用benford定律和面板模型識別財務數據是否篡改造假,具有一定的理論基礎。基于對已有文獻的梳理,一般認為benford定律可以用來評價財務會計數據的質量,張蘇彤和康智慧(2007)[5]利用benford定律對上市公司財務數據按總體、分板塊和分行業分別進行測試,發現上市公司財務報表主要財務數據的首位數頻率分布與benford定律所描述的首位數頻率分布保持了高度的相關,上市公司公布的財務數據都較好地符合benford定律;趙瑩和韓立巖(2007)[6]發現運用benford定律可以發現公司的輕微數據操縱行為和操縱者某些獨特的行為文化特質,研究發現ST公司更傾向于篡改“偶數”進行利潤操作,證實了benford定律可以有效運用于利潤操縱偵測,同時運用Jones模型對研究樣本進行穩健性測試,進一步證明了運用benford定律可以有效識別上市公司利潤操縱行為;Nigrini and Miller(2009)[7]指出benford定律可以用來測試不同交易水平下會計數據的有效性和可靠性,并指出這種檢測方法可以用于任何傳統的分析復核程序無法輕易鑒別的數據;Charles E Jordan,Stanly J Clark(2011)[8]研究發現benford定律不僅可用于檢查是否有假賬,還可以用于會計、金融甚至選舉中出現的數據;劉云霞(2012)[9]等在研究中探討了如何將 benford定律與面板模型相結合,找出可能存在質量異常的具體問題數據的方法;楊君岐和王嬌(2016)[10]采用benford定律,構建上市公司財務信息質量評級系統,檢驗結果表明benford定律能夠很好地評價公司會計數據的質量;陳偉和吳正等(2017)[11]從大數據審計角度,研究bengford定律在電子數據審計中應用的可能性和基本的實現路徑。
本文利用面板模型進行數據分析的基本原理是,可以用面板模型來擬合任何一個數據指標和與之相關的另一項或一組指標之間的關系。如果進行回歸后,結果表明整體模型擬合得很好,只有少數幾個數據點嚴重偏離既定模型,則很可能認為位于這些點(偏離點)上的數據準確性存在一定的問題,有必要作進一步的觀察與分析。綜合上文所述,基于benford定律良好的統計特性,對財務數據的分布進行檢驗,再結合面板模型找出具體位置和時間的異常數據點,方便注冊會計師重點對“可疑”的上市公司深入調查,從而對提高審計效率,減少審計風險將是十分有效的。
1881年,美國數學家、天文學家Simon Newcomb,偶然發現對數表的第一頁比其他頁更破舊,針對這一現象經過大量的統計分析后,首先發現首位數概率分布,但是Simon Newcomb對于這一現象僅僅是出于好奇,并未做進一步研究。之后美國通用電器公司物理學家 Frank Benford(1938)[12]也注意到了這一現象,通過收集不同類型的數據共計20 229,涉及領域廣泛包括電費賬單、城市人口數量、湖泊的面積、物理以及數學領域中的常數、籃球比賽中的得分等,經過大量的實證研究,最終驗證了Simon Newcomb的理論,研究發現,首位數為1的數字出現的頻率是30.1%,首位數為2的數字出現的頻率是17.6%,往后出現頻率依次減少。美國學者Hill(1995)[13]從理論上對Benford法則給出了滿意的解釋,并進行了嚴謹的數學證明,同時發現,研究的數據量越大,結果越接近benford定律的理論分布。
Benford定律首位數出現的概率公式:

其中,首位數字n是指左邊的第一位非零的有效數字。根據公式(1)首位數概率分布如表1所示。

表1 benford定律首位數概率分布
目前有四類常用的檢驗方法,來驗證樣本數據的分布是否符合benford定律的期望分布。
下列檢驗公式中,ei是首位數是i的實際頻率,pi是benford定律下的理論頻率。Fe(x)是實際樣本首位數的累積分布函數,Fp(x)是理論分布下的首位數的累積分布函數。
1.χ2擬合優度檢驗。χ2擬合優度檢驗是較為重要的檢驗方法:

在顯著性水平為10%、5%和1%條件下,χ2的臨界值分別為13.36、15.51和20.09。
原假設:實際樣本首位數分布符合Benford定律的理論分布。
備擇假設:實際樣本首位數分布不符合Benford定律的理論分布。
若統計量大于臨界值,則拒絕原假設,接受備擇假設,表明該樣本數據與benford定律理論分布不相符,樣本數據質量值得懷疑,財務指標數據可能是人為篡改的。
2.修正Kolmogorov-Smirnov擬合優度檢驗。根據Kolmogorov-Smirnov檢驗理論,將實際樣本首位數累積分布函數減去benford理論分布函數之差,取絕對值,并選取最大值作為統計D值,將D值與臨界值進行比較,若大于,則說明實際樣本首位數分布不服從該理論分布。
Stephens(1970)[14]對 K-S 擬合優度檢驗作了修正,檢驗方法如下:

Giles(2007)[15]對公式(3)的統計量再作修正,方法為:

在顯著性水平為10%、5%和1%條件下,V*n的臨界值分別為1.19、1.32和1.58。
3.修正的距離檢測。計算實際樣本首位數的頻率分布與benford理論分布之間的距離,其中距離越大越不符合benford理論分布距離計算公式:

Morrow(2014)[16]對上述距離進行了修正:

在10%、5%和1%的置信水平下,d*統計量判別值分別為1.212,1.330和1.569;m*統計量判別值分別為0.851,0.967和1.212。
4.Pearson相關系數。計算樣本數據的首位數頻率分布與首位數期望頻率分布的Person相關系數,相關系數越接近于1,則越符合benford理論分布。

表2 benford定律檢驗方法
在數理統計中,面板數據可以提供時間序列和截面兩個維度上的數據信息,并把它們融合在一起。利用適當的面板回歸方法,它不僅可以用于模擬自變量和因變量之間的關系,也可以用來觀測樣本中有差異的數據。在benford定律對數據進行分析的基礎上,再構建面板模型進行擬合,進一步發現具體哪家公司、具體年份上的可疑樣本點。
benford定律和面板模型結合的思路:(1)對研究樣本中的各個財務指標數據進行首位數字測算,得出各財務指標首位數的頻率分布;(2)將計算出的首位數字頻率分布與benford定律首位數的期望分布進行統計學檢驗和分析,判斷兩者之間差異是否顯著,具有顯著差異的則很可能是存在異常的財務指標數據;(3)運用面板模型對很可能存在異常的財務指標數據進行回歸模擬和殘差分析,如果模型擬合效果較好,僅存在極少數樣本點偏離回歸模型,表明大多數樣本符合預期,而偏離的樣本點則可能存在問題;(4)根據殘差分析,得到的“異常樣本池”,再查閱證監會、財政部等網站以及媒體報道,找出歷史會計年度是否存在舞弊行為或違法違規事項,進行結果的驗證。
實證分析采用的數據來自國泰安數據庫,所選擇的樣本為2006—2016年間全部A股上市公司的年度財務報表數據,根據已有文獻研究,資產負債表中選擇應收賬款凈額、資產總計、負債、資本公積、未分配利潤、所有者權益合計;利潤表中選擇營業收入、營業成本、銷售費用、管理費用、營業利潤、利潤總額、凈利潤,共計13個指標。針對樣本結果的分析,則參考證監會、財政部、深圳證券交易所和上海證券交易所等平臺發布的公告信息。
1.財務指標首位數頻率分布。表3給出了在剔除了缺失值后全部A股2006—2016年間主要財務數據指標的首位數分布情況。表3中各項財務指標數據首位數頻率分布基本上都較好地符合benford描述的首位數頻率從1到9依次遞減的規律,證實了前文梳理的研究文獻中關于benford定律可以應用于評價財務數據質量的研究結果,同時依表3看出實際的頻率分布與期望分布存在一定程度上的差別,但是是否具有顯著差異,還需要進行本文下一步的統計檢驗分析。
2.benford分布的檢驗分析。根據表4,可以將下述13個財務指標劃分為嚴重偏離、一般偏離、相對符合三個組:(1)嚴重偏離組:資產總計、資本公積、所有者權益合計和管理費用;(2)一般偏離組:應收賬款凈額、未分配利潤和凈利潤;(3)相對符合組:負債、營業收入、營業成本、銷售費用和營業利潤。
第(1)組和第(2)組的財務指標基本上在1%顯著性水平上都拒絕原假設(χ2、V*n、d*和 m*統計量,除應收賬款凈額的χ2統計量之外),與原假設具有顯著差異,有理由認為其不符合Benford分布,但是第(1)組統計量值明顯大于第(2)組統計量值,認為第(1)組偏離更為嚴重。第(3)組財務指標(除負債的V*n統計量以及的銷售費用的V*n統計量之外)至少在1%顯著性水平上沒有拒絕原假設,有理由認為其具有較高可能符合Benford分布。

表3 樣本數據測試結果

表4 樣本數據擬合優度檢驗結果
1.模型構建。面板模型構建思路:(1)被解釋變量選取差異最大的指標即將上述的嚴重偏離組中的財務指標都作為候選的被解釋變量;(2)解釋變量選取差異最小的指標即將上述的相對符合組中的財務指標都作為候選的解釋變量,由表6解釋變量相關系數矩陣看,各解釋變量之間相關性比較高,為避免多重共線性,每次只選擇一個指標進行擬合。從本文主要目的是篩選數據存在問題的公司這一角度來看,這種處理方法是合適的。
經過篩選,資產總計(Total Assets)和管理費用(Administration Expenses)作為被解釋變量,解釋變量有負債(Liabilities)、營業利潤(Operating Profit)、營業收入(Operating Revenue)和營業成本(Operating Costs),具體模型如下:

其中,各變量含義:i=1,2,3,…,即樣本中每一家公司;t=1,2,3,…,11,即 2006—2016 年的每一年;Total Assetsit和 Administration Expensesit分別為第i個公司在第t年的資產總計數額和管理費用數額;α、β和μit分別為截距項、斜率系數和隨機誤差項。
我們利用廣義最小二乘法對上述模型進行估計。從表5回歸結果看,各個模型的截距項和斜率系數均非常顯著,并且各個模型的R2都達到了0.9以上,可以認為模型整體擬合效果較好,為下一步殘差分析提供較好的基礎。

表5 模型回歸結果

表6 各解釋變量相關系數矩陣
2.殘差及結果分析。在面板模型中,殘差分析所提供的信息可以用來對數據進行診斷。如果面板模型可靠,擬合良好,可以將殘差視作誤差的預測值。標準化殘差服從標準正態分布N(0,1),如果樣本的標準化殘差落在(-2,2)之外,則可以在95%的置信區間內視作異常數據點,這些樣本數據點更有可能出現質量問題。
根據2006—2016年的殘差數據,計算每家公司每年殘差的標準化數值:

其中,Zij為第i年第 j個公司的標準化殘差值;xij為第i年第j個公司的殘差;為第 i年所有公司殘差的平均值;σi為第i年所有公司殘差的標準差。
根據現有文獻分析,發現舞弊或違法違規的時間有可能并不是真正的舞弊或違法違規的起始時間,以前年份的舞弊或違規行為可能由于公司手段高明隱晦、金額較小或者性質較輕而未被發現。連竑斌(2008)[17]研究發現上市公司舞弊有以下特點:時間跨度較長,在兩年甚至兩年以前上市公司就已經開始進行舞弊和違法違規操作,同時在該持續時間內,也會陸續有性質較重或者較輕的違法違規行為;從舞弊和違法違規行為實施到政府相關機構進行查處的時間間隔比較長,有的企業在違規操作兩年后受到處罰,甚至有的企業是在五年后才被發現和處罰。章立軍(2009)[18]研究發現舞弊與處罰的時間間隔大多數在兩年以上,且舞弊具有較大的隱蔽性。龍鳳(2012)[19]對研究樣本檢查發現,舞弊行為發生在一個年度內大約占比9%,持續時間兩年占比42%,持續三年占比21%,舞弊行為發生大于等于四年的達到28%以上,最長的甚至達到9年。
因此本文不考慮違法違規行為實施的具體年份,在此情況下對預測結果進行分析:模型預測的異常值公司共56家,有效預測公司共29家,識別率達到51.79%。連竑斌(2008)對國內上市公司舞弊的研究文獻整理后,指出實施舞弊或違法違規行為的公司,通常會采用“隱蔽”的方式進行財務報表粉飾,使得注冊會計師在實施審計時不容易發現,同時,也有一定數量的公司會選擇與注冊會計師溝通,對相關會計處理進行調整,從而降低金額或減輕性質的嚴重程度,以獲取“無保留意見”的審計報告,因此在舞弊和違規本身“隱晦”和難以及時發現,且本文的研究樣本量達到2萬以上(每年每家公司視為一個樣本的話)數據規模龐大的情況下,識別率達到了51.79%,這足以說明Benford定律與面板模型相結合的數據質量檢測方法具有一定的真實性和可靠性,可以作為計算機輔助審計手段中的一個方法。
本文選取2006—2016年全部A股上市公司13個財務報表指標,利用benford定律進行質量檢驗和分析,同時構建面板模型進行擬合。結果顯示259個異常樣本點上,有40個樣本點的公司在預測年份前后兩年內有舞弊或違法違規行為;在不考慮具體時間情況下,殘差分析得出的56家異常公司有29家確實有舞弊或違法違規行為。
影響實驗結果的因素有,首先多數上市公司違法違規行為會跨越數年,傾向于在該時間跨度內進行多次但性質不嚴重的違法違規行為,對財務數據進行金額不重大、性質不嚴重且比較隱晦的人為篡改,并不會選擇在某一年度集中爆發,從而容易造成模型對輕微的數據篡改識別效果不明顯甚至不能識別;其次本文是對財務指標進行首位數頻率分布進行統計并檢驗分析后,選出最可疑的指標作為面板模型的被解釋變量,構建面板模型擬合優度都達到0.9以上,但是并不能完全保證這些財務指標是上市公司常用的實施違法違規行為而改動的數據;最后,由于舞弊違規行為本身具有復雜性、隱蔽性和動態性的特點,未被發現違法違規行為的公司并不能證明該公司沒有進行過違法違規行為,基于以上因素的考慮,識別率51.79%,仍表明benford定律和面板模型相結合的方法具有一定的應用價值。