[摘 要] 本文從距離孤立點(diǎn)數(shù)據(jù)挖掘相關(guān)概念出發(fā),討論了歐式距離挖掘方法在審計中的實(shí)現(xiàn)過程,并以某一公司應(yīng)收賬款明細(xì)表為例,使用Excel中的VBA編程實(shí)現(xiàn)了該挖掘方法,通過該方法幫助審計人員快速確認(rèn)了應(yīng)收賬款重點(diǎn)審計的交易事項,提高了審計效率#65377;
[關(guān)鍵詞] 孤立點(diǎn)挖掘;歐式距離;審計專業(yè)性分析;VBA編程
[中圖分類號]F239.1[文獻(xiàn)標(biāo)識碼]A[文章編號]1673-0194(2008)13-0048-03
1 引 言
數(shù)據(jù)挖掘(Data Mining)自從20世紀(jì)90年代中期引起人們的廣泛興趣以來,便得到了迅猛的發(fā)展#65377;數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)正確的#65380;新穎的#65380;潛在有用的并能夠被理解的知識或規(guī)則的過程#65377;一般來說,數(shù)據(jù)挖掘可以分成如下4類:類別的判定;類別的描述;相關(guān)#65380;依賴關(guān)系的發(fā)現(xiàn);孤立點(diǎn)的數(shù)據(jù)挖掘(Outlier Mining)#65377;孤立點(diǎn)數(shù)據(jù)挖掘問題是數(shù)據(jù)挖掘的重要研究領(lǐng)域之一,它用于發(fā)現(xiàn)數(shù)據(jù)集中小部分的數(shù)據(jù)對象,這些對象和數(shù)據(jù)中的一般行為或數(shù)據(jù)模式有著顯著的不同#65377;它在實(shí)際生活中已經(jīng)有了相當(dāng)?shù)膽?yīng)用,如金融#65380;通信領(lǐng)域的欺詐分析與監(jiān)測#65380;網(wǎng)絡(luò)入侵監(jiān)測#65380;消費(fèi)極高或極低客戶的消費(fèi)習(xí)慣#65380;過程控制中的故障檢測與診斷等#65377;孤立點(diǎn)數(shù)據(jù)挖掘方法在審計中的應(yīng)用也有其重要意義,它有助于揭示審計數(shù)據(jù)中隱藏的有價值的知識,并能輔助審計人員為得出審計結(jié)論#65380;出具合理保證的審計報告獲取充分#65380;適當(dāng)?shù)膶徲嬜C據(jù)#65377;
2 基于距離孤立點(diǎn)挖掘的相關(guān)概念
孤立點(diǎn)又稱為離群點(diǎn)#65380;野點(diǎn),到目前為止,孤立點(diǎn)還沒有一個被普遍采納的定義,Hawkins在專業(yè)應(yīng)用領(lǐng)域較早對孤立點(diǎn)進(jìn)行了描述:“孤立點(diǎn)與其他點(diǎn)如此不同,以至于讓人懷疑它們是由另外一個不同的機(jī)制產(chǎn)生的”#65377;現(xiàn)有的孤立點(diǎn)在數(shù)據(jù)挖掘方面的定義大多是在Hawkins定義的基礎(chǔ)上給出的一個定量化描述#65377;
基于距離孤立點(diǎn)最早是由Knorr和Ng提出:孤立點(diǎn)為數(shù)據(jù)集中與大多數(shù)點(diǎn)之間的距離都大于某個閾值的點(diǎn),描述為在數(shù)據(jù)集X中,當(dāng)且僅當(dāng)X中至少有r部分的對象與O距離大于設(shè)定的rO時,O是一個孤立點(diǎn)#65377;基于距離孤立點(diǎn)的挖掘方法不同于基于統(tǒng)計的方法,即使在不知道數(shù)據(jù)集分布的情況下,它仍然能夠有效地發(fā)現(xiàn)孤立點(diǎn)#65377;另外,基于距離孤立點(diǎn)的挖掘方法能處理任何維度任意類型的數(shù)據(jù),當(dāng)屬性數(shù)據(jù)為區(qū)間標(biāo)度等非數(shù)值屬性時,對象之間的距離不能直接確定,但只要把屬性轉(zhuǎn)換為數(shù)值型,再按照定義計算各對象之間的距離便可#65377;同時,這種方法具有比較直觀的意義,算法比較容易理解#65377;
孤立點(diǎn)挖掘定義:應(yīng)用數(shù)據(jù)挖掘的理論和方法發(fā)展數(shù)據(jù)集中的孤立點(diǎn),即用于發(fā)現(xiàn)數(shù)據(jù)集中不同于數(shù)據(jù)中的一般行為或數(shù)據(jù)模式的小部分對象,這小部分對象與一般行為對象有著顯著不同#65377;
基于加權(quán)歐式距離在審計中孤立點(diǎn)挖掘:通過企業(yè)信息系統(tǒng)收集到的原始數(shù)據(jù),對原始數(shù)據(jù)用標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化后計算數(shù)據(jù)集中的n個對象兩兩之間的加權(quán)歐式距離dij,形成加權(quán)歐式距離矩陣D,再根據(jù)dij與d0設(shè)定的關(guān)系轉(zhuǎn)化成等價轉(zhuǎn)換矩陣R,然后計算矩陣R中每個對象與其他對象距離大于d0的個數(shù)ri,并與設(shè)定的最大個數(shù)r0比較,如果ri >r0,則認(rèn)為對象Xi是孤立點(diǎn),否則不是孤立點(diǎn)#65377;
3 距離孤立點(diǎn)挖掘方法在審計中的實(shí)現(xiàn)過程
被審計單位的交易#65380;余額等審計相關(guān)信息大量存儲于ERP#65380;MRPⅡ和CAIS等信息系統(tǒng)中,審計人員通過系統(tǒng)自帶的數(shù)據(jù)導(dǎo)出功能將需要數(shù)據(jù)引出,存儲在定指計算機(jī)數(shù)據(jù)庫上#65377;審計人員通過對這些數(shù)據(jù)執(zhí)行孤立點(diǎn)挖掘程序?qū)崿F(xiàn)孤立點(diǎn)挖掘,找出這些與一般行為有顯著不同的孤立點(diǎn),從而確認(rèn)為審計重點(diǎn),實(shí)施審計程序后獲取審計證據(jù)#65377;
第一步 數(shù)值型數(shù)據(jù)的標(biāo)準(zhǔn)化
原始數(shù)據(jù)集中的數(shù)據(jù)通常有特定的單位,不同的單位度量會對距離的計算結(jié)果產(chǎn)生影響#65377;所以,在計算距離之前,應(yīng)先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,用標(biāo)準(zhǔn)化后的數(shù)據(jù)計算距離#65377;本文使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法,得到分布在標(biāo)準(zhǔn)區(qū)間內(nèi)的屬性值,方便數(shù)據(jù)的使用#65377;進(jìn)行標(biāo)準(zhǔn)化的目的是為了防止具有較大值域的屬性與具有較小值域的屬性相比對度量的結(jié)果產(chǎn)生過大的影響#65377;標(biāo)準(zhǔn)化的情況如下:
設(shè)X={Xi | Xi=(xi1,xi2,…,xij,…,xim),i=1,2,…,n; j=1,2,…,m}是待進(jìn)行孤立點(diǎn)數(shù)據(jù)挖掘的數(shù)據(jù)集合,Xi表示第i個對象,共有n個對象;Xij表示第i個對象的第j個屬性值,共有m個屬性#65377;
令Xj,Rj和Sj分別表示第j個屬性的均值#65380;平均絕對偏差和標(biāo)準(zhǔn)差,即:
第六步 孤立點(diǎn)的審計專業(yè)性分析與判斷
孤立點(diǎn)應(yīng)該作為審計重點(diǎn),但并不是所有的孤立點(diǎn)都是由于錯誤引起的#65377;孤立點(diǎn)數(shù)據(jù)來源于兩類:第一類是錯誤的數(shù)據(jù),這種錯誤可能是由于會計記錄或相關(guān)記錄的操縱#65380;偽造或篡改,會計政策和會計估計的故意無用等舞弊行為導(dǎo)致的錯誤,也可能是由于員工的非故意行為引起的,如輸入數(shù)據(jù)的錯誤#65377;第二類是交易或事項正常性質(zhì)的反映,可能是固有的數(shù)據(jù)變異性的結(jié)果,如某一公司總經(jīng)理的工資,自然遠(yuǎn)遠(yuǎn)高于公司其他雇員的工資,就可能成為一個孤立點(diǎn)#65377;由于存在這兩類的孤立點(diǎn)數(shù)據(jù)來源,對于挖掘到的孤立點(diǎn)并不能直接形成審計證據(jù),審計人員應(yīng)該對孤立點(diǎn)進(jìn)行專業(yè)性的分析判斷,決定應(yīng)采取重新計算#65380;審閱#65380;盤存和函證等哪一種進(jìn)一步的審計程序,從而為審計人員提出審計結(jié)論#65380;出具審計報告獲取充分#65380;適當(dāng)?shù)膶徲嬜C據(jù),同時提高了審計工作效率和效果#65377;
4 案例應(yīng)用與分析
本案例以從某通信技術(shù)公司用友NC系統(tǒng)中導(dǎo)出Excel格式的2006年度(1月1日至12月31日)應(yīng)收賬款明細(xì)為例,利用加權(quán)歐式距離挖掘孤立點(diǎn)方法對應(yīng)收賬款各交易是否存在異常變動進(jìn)行分析#65377;應(yīng)收賬款明細(xì)表包括13個屬性列,本案例中只對借方發(fā)生額進(jìn)行孤立點(diǎn)挖掘分析,確定應(yīng)收賬款實(shí)質(zhì)性測試中應(yīng)抽查的交易事項,以獲取審計證據(jù)#65377;令d >10,r >100,通過Excel中的VBA編程實(shí)現(xiàn)如下:
Sub CommandButton1_click()
Dim i,j,n As Integer
Dim sum_x,sum_r,sum_s,aver_x,stand_s As Single
'以第三列“憑證號”計算非空單元格個數(shù),將其賦值給n
n = Application.WorksheetFunction.CountA(Columns(3))
'計算第I列“借方金額”的均值(第一行為屬性行,因此循環(huán)從第二行開始)
aver_x = Application.WorksheetFunction.Average(Range(Cells(2, 9), Cells(n, 9)))
'計算標(biāo)準(zhǔn)差
Sum_s = 0
For j = 2 To n
Sum_s = (Sheets("sheet1").Cells(I, 9) - aver_x) ^ 2 + sum_s
Next
stand_s = Sqr(sum_s / (n - 1))
'將標(biāo)準(zhǔn)化數(shù)值賦值到第十五列對應(yīng)單元格中
For j = 2 To n
Sheets("sheet1").Cells(j, 15).Value = (Sheets("sheet1").Cells(j, 9) - aver_x) / stand_s
Next
'歐式距離的計算及轉(zhuǎn)換成超過距離閾值d > 2個數(shù)r 的計算,將r 賦值到第十六列對應(yīng)單元格中,將r >100的點(diǎn)確認(rèn)為孤立點(diǎn),并對該孤立點(diǎn)背景色以紅色標(biāo)識
For i = 2 To n
Sum_r = 0
For j = 2 To n
If Sqr((Sheets("sheet1").Cells(i, 15) - Sheets("sheet1").Cells(j, 15)) ^ 2)>2 then
Sum_x= 1
Else
Sum_x = 0
End If
Sum_r = sum_r+ sum_x
Next
Sheets("sheet1").Cells(i, 16) = sum_r
If sum_r>100 then
Sheets("sheet1").Cells(i, 16). Interior.Color = RGB(255,0,0)
End If
Next
End Sub
通過運(yùn)行上面的程序,共挖掘出的29個孤立點(diǎn),分析發(fā)現(xiàn)這29個孤立點(diǎn)涉及的借方發(fā)生額都比較大,有可能造成嚴(yán)重的后果,因此對這29個孤立點(diǎn)進(jìn)行實(shí)質(zhì)性測試,包括從“憑證字號”出發(fā)查找相關(guān)的記賬憑證和原始憑證,并進(jìn)行了函證等審計程序#65377;采取進(jìn)一步審計程序的結(jié)果并沒有發(fā)現(xiàn)錯誤,這29個孤立點(diǎn)是正常交易或事項的結(jié)果,從而記入工作底稿,形成審計證據(jù)#65377;
5 結(jié)束語
基于距離孤立點(diǎn)的挖掘方法在審計中的應(yīng)用有利于幫助審計人員發(fā)現(xiàn)異常的交易或事項,快速確定審計重點(diǎn),提高審計效率#65377;由于孤立點(diǎn)挖掘方法在審計中的應(yīng)用目前的研究還比較少,本文的研究還屬于初探和嘗試,還存在很多不足,進(jìn)一步的研究還在繼續(xù)#65377;
主要參考文獻(xiàn)
[1] S D Bag,M Schwabacher. Mining Distance-Based Outliers in Near Linear Time with Randomization and a Simple Pruning Rule[C].In KDD’03:Proceedings of the 9th Acm SIGKDD International Con ference on Knouledge Discovery and Data Mining,New York:Acm Press,2003:29-38.
[2] Supatcharee Sirikulbadhana.Data Mining as a Financial Auditing Tool[D]. The Swedish School of Economica and Business Administration,2002.
[3]Knorr E,Ng R. Algorithms for Mining Distance-Based Outlier in Large Datasets[C]. In:Proc of the 24th International VLDB Conference,New York,1998:392-403.
[4] Knorr E,Ng R.Finding Intensional Knowledge of Distance-Based[C]. In:Proc of the 25th International VLDB Conference,Edinburgh,Scotland,1999.
[5] Barnett V,Lewis T.Outliers in Statistical Data[C]. New York:John WileySons,1994.
[6] 黃洪宇,林甲祥,陳崇成,等. 離群數(shù)據(jù)挖掘綜述[J]. 計算機(jī)應(yīng)用研究,2006(8).
[7] 陳偉,劉思峰,邱廣華. 計算機(jī)審計中一種基于孤立點(diǎn)檢測的數(shù)據(jù)處理方法[J]. 商業(yè)研究,2006(17).
[8] 任佳,李建嶺. 孤立點(diǎn)檢測在零售業(yè)中的應(yīng)用與研究[J]. 科技信息(科學(xué)教研),2007(11).
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”