隨著經濟的快速發展,每一個企業、每一個行業、每一個地區都有大量的數據涌現,大數據時代來臨了!會計信息數據也有呈幾何級數增長的趨勢。上市公司的年報、各種各樣的公告、披露和說明,由原來的十幾頁,幾十頁,到上百頁,直至現在的幾百頁,數據信息量驟增。在全面、復雜、多樣的經濟信息面前,尤其是財務會計信息面前,怎樣才能保證我們所需要的會計信息比較真實呢?或者說,在大數據環境下,怎樣高效地審計海量的會計信息,這是擺在審計人面前的一個課題。筆者認為,本福特定律(Benford’s law)是一個不錯的解決該問題的方法。它對于大數據審計巨大的影響,就像將抽樣審計技術方法應用到審計中一樣,同時,能夠為適應大數據時代和審計實踐快速發展而探索和積累豐富的經驗,對于審計理論和審計理論與實踐的融合、尤其是本福特定律審計技術方法的實踐應用和拓展研究很有必要。
1881年,Simon Newcomb通過對大量隨機數據統計分析發現了本福特定律:以1為第一位數的隨機數要比以2為第一位數的隨機數出現的概率要大,而以2為第一位數的隨機數要比以3為第一位數的隨機數出現的概率要大,依此類推。
1938年,Frank Benford在研究中,再次獨立發現了這一規律,并分析和驗證了總數為20229個的20組數字。其中包括:各城市人口分布數字、在某一雜志里出現的所有數字等。他進一步推導了本福特定律的數學表達式,即數字的第一位上各個非0數字出現的概率。整數1-9在數字首位上出現的概率(其中:D=1,2,3……9;P=probability 代表概率),隨著首位(第一位非0)數字的增大,首位數字的隨機比率會逐漸減小,以9為首位數字(最大)出現的隨機概率最小,如表1、圖1所示。

表1 1-9在數字首位上出現的概率

圖1 本福特定律圖
雖然在用本福特定律進行自然數據分析時受到一定條件的限制,但研究表明,會計信息、統計資料、稅收、金融等各種數據符合本福特定律。本福特定律可以用來檢驗社會科學研究成果的可靠性和實用性(Varian,1972)。20世紀80年代,我國有人開始關注這一定律在財務領域的應用(王福勝、李勛、孫遜,2007),在評價財務數據或者其他經濟數據的質量時,本福特定律可以較好地進行測試。本福特定律在識別“人為造假”方面也有明顯的作用,也可以用于審計數據的真實性。有學者研究發現回歸系數和標準誤差的分布符合本福特定律;在會計信息方面,數據首位數字的概率分布在無限制的條件下,就符合本福特定律,如果存在弄虛作假或者拼湊、修飾數據的行為,這種規律有可能被破壞。因此,如果一組統計數據的首位數字的概率分布與本福特定律下的首位數字概率分布存在差異時,該數據的準確性就值得懷疑(劉云霞、吳曦明、曾五一,2012),將相關單位會計信息依據本福特定律進行測試后,發現本福特定律在財務會計審計中可以發揮巨大的作用,能夠大大提高審計效率,節約審計成本,減少審計過程中的人力物力和財力的投入(羅玉波,2015)。
經過大量數據統計分析和數學推導得出:首位數字1統計的出現頻率為30.1%,首位數字2統計出現的頻率為17.6%,首位數字3統計出現的頻率為12.5%,4為9.7%,依次遞減,首位數字9統計出現的頻率是4.6%。在此基礎上進行數學公式的推導,得出公式為:F(d) = log[1 + (1/d)],此公式中F代表頻率,d代表首位統計數字。
目前也有學者研究表明,沒有人為因素影響的經濟信息,前兩位數字出現的頻率,也就是前兩位是10-99數字的經濟信息,也很好地符合本福特定律,數學公式為:F(d1d2) = log[1 + (1/d1d2)],此公式中F代表頻率,d1代表首位數字(1-9),d2代表第二位數字(0-9);前三位數字(100-999)出現的頻率也有推導數學公式:F(d1d2d3) = log[1 + (1/d1d2d3)],公式中F代表頻率,d1代表首位數字(1-9),d2代表第二位數字(0-9),d3代表第三位數字(0-9)。當統計數字位數越多,頻率越趨平緩,越來越沒有特色。
羅玉波(2010)將任何沒有限制的數字相加,最后得出的數字的首位數字很好地符合本福特定律;沒有限制數字相乘所得結果,也很好地符合本福特定律;甚至沒有限制數字的乘方,所得出的數字的首位數字也很好地符合本福特定律,并且幾乎所有的會計信息,也就是會計賬本上的借方和貸方金額都是由幾個數字相加、相乘、乘方或者前三者的相互組合得出的數字。所以單位的會計信息在沒有人為干預的情況下是很好地符合本福特定律的。
經濟信息尤其是會計信息在很大程度上符合本福特定律,會計信息符合本福特定律的假設條件為:
1.沒有人為因素影響的會計信息。比如,外來原始憑證一般比較好地符合本福特定律,營業收入,購進原材料成本等。
2.沒有嚴格內部控制制度限制的會計信息。如差旅費借款限制在5000元以下,或者只能借款5000元,則首位數字為5的頻率要遠遠大于本福特定律的7.9%。
3.會計信息數據量要足夠大。一般認為200,也有的認為要有1000個經濟信息,當然經濟信息量較少時應用本福特定律將失去其價值,因為只有在海量數據需要審計時,應用本福特定律可以找出審計重點和重點審計領域。
樣本單位是某普通本科院校,實行高等學校會計制度。學校會計信息大致分五部分:收入類、支出類、資產類、負債類和凈資產類。本文以樣本學校2015年1月1日到12月30日(結賬前)財務賬套數據為例,收集2015年全年所有明細分類賬戶借方和貸方金額作為研究的觀測數據。所涉及的一級會計賬戶有:
收入類4個,具體賬戶名稱為:財政補助收入、教育事業收入、科研事業收入和其他收入,代碼分別為4001、4101、4102和4501;
支出類6個,分別為:行政管理支出、后勤保障支出、教育事業支出、科研事業支出、離退休支出和其他支出,代碼分別為5003、5004、5001、5002、5005和5401;
資產類12個,分別為:財政應返還額度、存貨、固定資產、累計折舊、零余額賬戶用款額度、其他應收款、無形資產、庫存現金、銀行存款、應收賬款、預付賬款和在建工程,代碼分別為1201、1301、1501、1502、1011、1215、1601、1001、1002、1212、1213 和 1511;
負債類8個,賬戶名稱是:長期應付款、預收賬款、應繳水費、應繳國庫款、應繳財政專戶、應付職工薪酬、其他應付款和代管款;代碼分別為2402、2303、2101、2102、2103、2201、2305、2501;
凈資產類5個,賬戶名稱分別是:財政補助結轉、非流動資產基金明細賬、事業基金、事業結余和專用基金,代碼分別為3301、3101、3001、3402和3201;
在樣本單位中,所有收入、支出、資產、負債和凈資產類賬戶共有35個一級會計科目,其中:應繳國庫款(2102)、在建工程(1511)、無形資產(1601)、累計折舊(1502)、存貨(1301)、事業結余(3402)和財政補助結轉(3301)等7個賬戶會計信息不超過50個可直接進行詳細審計,余下28個一級會計科目,作為研究的觀測數據。會計科目的一級科目下設二級三級科目太多,這里不一一列舉,研究數據共涉及6萬多個會計信息數據。
將相關賬戶數據統計首位數字占比與本福特定律的描述進行比較,其結果如表2所示。
第一,將上述數據進行顯著性分析和判斷。首先對試驗樣本所在的總體作假設,假設樣本單位財務會計數據與本福特定律描述情況相同,即以1開頭的數據比率的平均數標準值為U0=0.301,從代碼2402-1213科目共28個賬戶數據,以1開頭數據的比率或者占比與標準值U0=0.301,有顯著差異或者沒有顯著差異。為以1開頭的數據所有樣本單位賬戶的平均數,則
=(0.304+0.287+...+0.305)÷28=0.298826
計算=0.045254008

查表t0.05(27)=2.052,t0.01(27)=2.473,t0.05(27)=2.052
因此,可以判斷以1開頭數據的平均比率符合本福特定律的0.301。以此類推,可以用相同的辦法證明以2、3、4....9開頭的數據的平均比率都符合本福特定律的描述。因為t值均小于t0.05(27)=2.052,如表3所示。

表2 樣本單位的賬戶首位數字占比統計表

表3 顯著性差異t值計算表
第二,在分析樣本單位會計信息數據的首位數字比率符合本福特定律的基礎上,計算置信區間。
以1開頭的數據的置信區間為:,其中:

將相應數值代入,則置信區間為:
[0.2823372,0.315268287]
以此類推,同理可以計算出以2-9開頭的數據的置信區間如表4所示。

表4 1-9首位數字的置信區間數據表
第三,將樣本單位的會計信息數據首位數字比率超過上述置信區間的經濟業務,確定為重點審計領域。以所有賬戶的以1為首位數字的會計信息為例,標示出超過置信區間的數據,如表5所示。
根據偏離置信區間的程度,將異常會計信息劃分為“重點關注”“一般關注”“一般分析”和“正常”四類,標注為“重點關注”的應設為重點審計的范疇,需要加大審計力度,分析出現偏離的原因(如:代碼3201賬戶中以1開頭的數據的比率達到40.3%,主要原因是人為的因素影響較大,加上年末調整數據的增加等原因,導致比率偏大);標注為“一般關注”偏離置信區間較小數字的會計信息,對偏離原因作一般性分析;標注為“一般分析”的記錄于工作底稿備查。
以同樣的方法,將所有賬戶以2-9開頭的數據占比的置信區間計算出來(如表4),再將樣本單位從2-9為首位數字的占比實際數據(如表2)與置信區間(如表4)進行比較,找出異常的部分,作縱向標示。因為內容太多,在此不列舉。
由表5可以清楚地看出,在28個一級會計科目中首位數字是“1”的經濟業務,需要重點審計的只有4個,分別為2103賬戶、3201賬戶、4101賬戶和1215賬戶,占比為85.71%,其他24個會計科目中也只有2101賬戶和1001賬戶一般關注,3101賬戶、5005賬戶和1002賬戶進行一般分析,約節約80%的時間、精力和財力,另外28個一級會計科目中首位數字為“2-9”也可以得出類似的結果,因此本福特定律可以極大提高審計工作效率。

表5 1為首位數字的超出置信區間的情況表
以2015年1-12月代碼1212賬戶的會計信息為例,應用本福特定律,將實際數據比率與理論比率作比較,如表6、圖2所示。
通過相關統計數據的分析計算,得出X2統計量、相關系數、M、d等數據(2015,羅玉波),如表7所示。
如表6、表7和圖2所示,X2統計量為2.0526(要將表5中X2值乘100進行修正,即0.020526的100倍等于2.0526),小于標準值13.362,說明1212賬戶數據符合本福特定律的描述;從Pearson相關系數來看,相關系數為0.9827733,符合程度好;而且從本福特定律的圖表可以明顯看出,只有以“3”為首位的數據頻率出現了異常,需要加以關注;M、d、k-s擬合優度檢驗VN和k-s擬合優度檢驗VN*的數據分別為0.034、0.0431、0.0488和0.784854714,都很小,對于審計分析影響不大;偏離度數值為0.2557,也較小,說明只需要對以“3”為首位的數據進行一般性關注。

表6 2015年1-12月資產類1212賬戶實際數據比率與理論比率比較表

圖2 2015年1-12月資產類1212賬戶實際數據比率與理論比率比較圖

表7 1212賬戶首位數字出現概率計算統計量數據
從圖表上可以比較直觀地進行橫向標示。
計算出28個賬戶以1-9開頭的數據比率與本福特定律的相關系數,如表8所示。
一般來說,相關系數大于0.9,說明樣本單位的會計信息數據的首位數字很好地符合本福特定律的描述;相關系數小于0.9,則說明樣本單位會計信息數據首位數字與本福特定律的描述發生偏離。
從表8可以發現,針對1201賬戶(相關系數0.816)、2201賬戶(相關系數0.884)和2402賬戶(相關系數0.859)在進行審計時,需要分析相關系數偏低的原因,作為重點審計項目,進行一般關注即可;但對于3001賬戶(相關系數0.729)和4101賬戶(相關系數0.568)分析其較低的原因,同時需要重點關注。
利用相關系數分析,發現某個賬戶的首位數字占比與本福特定律的描述偏離較大時,也可以進行橫向標示。

表8 所有賬戶以1-9開頭的數據比率與本福特定律的相關系數
綜合以上橫向分析(相關系數和圖表直接觀察分析)和縱向分析(差異性和置信區間)結果,橫向分析和縱向分析都出現異常的會計信息數據就是我們分析重點中的重點。如表5和表8中,3001賬戶和4101賬戶中以1開頭的數據的占比分別為0.225、0.230偏離置信區間[0.28238372,0.31526828]數據很大,需要重點關注。在相關系數分析中,3001賬戶的相關系數為0.729,4101賬戶的相關系數0.568,相對確定的相關系數0.9來說,偏離很大,這就說明3001賬戶和4101賬戶的以1開頭的會計信息數據是審計重點中的重點。可見,通過置信區間分析以及相關統計數據計算,能夠鎖定重點審計領域,減少審計工作量,降低審計風險,提高審計工作效率。
綜上所述,在大數據環境下,利用本福特定律進行審計既可以節約審計成本,提高審計效率,也有助于審計理論和審計技術方法的發展,同時可以豐富審計程序和提升審計質量,使審計思路進一步拓展,完善審計工作方法。
主要參考文獻
劉云霞,吳曦明,曾五一.關于綜合運用 Benford 法則和面板模型檢測統計數據質量的研究[J].統計研究, 2012(11)
羅玉波,張冬霞等.本福特定律在財務審計中的實證研究[J].中國審計評論, 2015(2):69-78
張蘇彤.奔福德定律與舞弊審計——基于人為造假與隨機數樣本的實證測試[J].會計之友,2016(12):7-15
張蘇彤,康智慧.信息時代舞弊審計新工具:奔福德定律及其來自中國上市公司的實證測試[J].審計研究, 2007(3):81-87
曾五一,薛梅林. GDP 國家數據與地區數據的可銜接性研究[J].廈門大學學報:哲學社會科學版,2014(2):110-119