999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于歐式距離孤立點(diǎn)的數(shù)據(jù)挖掘方法在審計中的應(yīng)用與研究

2008-12-31 00:00:00張炳才彭國林
中國管理信息化 2008年13期

[摘 要] 本文從距離孤立點(diǎn)數(shù)據(jù)挖掘相關(guān)概念出發(fā),討論了歐式距離挖掘方法在審計中的實(shí)現(xiàn)過程,并以某一公司應(yīng)收賬款明細(xì)表為例,使用Excel中的VBA編程實(shí)現(xiàn)了該挖掘方法,通過該方法幫助審計人員快速確認(rèn)了應(yīng)收賬款重點(diǎn)審計的交易事項,提高了審計效率#65377;

[關(guān)鍵詞] 孤立點(diǎn)挖掘;歐式距離;審計專業(yè)性分析;VBA編程

[中圖分類號]F239.1[文獻(xiàn)標(biāo)識碼]A[文章編號]1673-0194(2008)13-0048-03

1 引 言

數(shù)據(jù)挖掘(Data Mining)自從20世紀(jì)90年代中期引起人們的廣泛興趣以來,便得到了迅猛的發(fā)展#65377;數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)正確的#65380;新穎的#65380;潛在有用的并能夠被理解的知識或規(guī)則的過程#65377;一般來說,數(shù)據(jù)挖掘可以分成如下4類:類別的判定;類別的描述;相關(guān)#65380;依賴關(guān)系的發(fā)現(xiàn);孤立點(diǎn)的數(shù)據(jù)挖掘(Outlier Mining)#65377;孤立點(diǎn)數(shù)據(jù)挖掘問題是數(shù)據(jù)挖掘的重要研究領(lǐng)域之一,它用于發(fā)現(xiàn)數(shù)據(jù)集中小部分的數(shù)據(jù)對象,這些對象和數(shù)據(jù)中的一般行為或數(shù)據(jù)模式有著顯著的不同#65377;它在實(shí)際生活中已經(jīng)有了相當(dāng)?shù)膽?yīng)用,如金融#65380;通信領(lǐng)域的欺詐分析與監(jiān)測#65380;網(wǎng)絡(luò)入侵監(jiān)測#65380;消費(fèi)極高或極低客戶的消費(fèi)習(xí)慣#65380;過程控制中的故障檢測與診斷等#65377;孤立點(diǎn)數(shù)據(jù)挖掘方法在審計中的應(yīng)用也有其重要意義,它有助于揭示審計數(shù)據(jù)中隱藏的有價值的知識,并能輔助審計人員為得出審計結(jié)論#65380;出具合理保證的審計報告獲取充分#65380;適當(dāng)?shù)膶徲嬜C據(jù)#65377;

2 基于距離孤立點(diǎn)挖掘的相關(guān)概念

孤立點(diǎn)又稱為離群點(diǎn)#65380;野點(diǎn),到目前為止,孤立點(diǎn)還沒有一個被普遍采納的定義,Hawkins在專業(yè)應(yīng)用領(lǐng)域較早對孤立點(diǎn)進(jìn)行了描述:“孤立點(diǎn)與其他點(diǎn)如此不同,以至于讓人懷疑它們是由另外一個不同的機(jī)制產(chǎn)生的”#65377;現(xiàn)有的孤立點(diǎn)在數(shù)據(jù)挖掘方面的定義大多是在Hawkins定義的基礎(chǔ)上給出的一個定量化描述#65377;

基于距離孤立點(diǎn)最早是由Knorr和Ng提出:孤立點(diǎn)為數(shù)據(jù)集中與大多數(shù)點(diǎn)之間的距離都大于某個閾值的點(diǎn),描述為在數(shù)據(jù)集X中,當(dāng)且僅當(dāng)X中至少有r部分的對象與O距離大于設(shè)定的rO時,O是一個孤立點(diǎn)#65377;基于距離孤立點(diǎn)的挖掘方法不同于基于統(tǒng)計的方法,即使在不知道數(shù)據(jù)集分布的情況下,它仍然能夠有效地發(fā)現(xiàn)孤立點(diǎn)#65377;另外,基于距離孤立點(diǎn)的挖掘方法能處理任何維度任意類型的數(shù)據(jù),當(dāng)屬性數(shù)據(jù)為區(qū)間標(biāo)度等非數(shù)值屬性時,對象之間的距離不能直接確定,但只要把屬性轉(zhuǎn)換為數(shù)值型,再按照定義計算各對象之間的距離便可#65377;同時,這種方法具有比較直觀的意義,算法比較容易理解#65377;

孤立點(diǎn)挖掘定義:應(yīng)用數(shù)據(jù)挖掘的理論和方法發(fā)展數(shù)據(jù)集中的孤立點(diǎn),即用于發(fā)現(xiàn)數(shù)據(jù)集中不同于數(shù)據(jù)中的一般行為或數(shù)據(jù)模式的小部分對象,這小部分對象與一般行為對象有著顯著不同#65377;

基于加權(quán)歐式距離在審計中孤立點(diǎn)挖掘:通過企業(yè)信息系統(tǒng)收集到的原始數(shù)據(jù),對原始數(shù)據(jù)用標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化后計算數(shù)據(jù)集中的n個對象兩兩之間的加權(quán)歐式距離dij,形成加權(quán)歐式距離矩陣D,再根據(jù)dij與d0設(shè)定的關(guān)系轉(zhuǎn)化成等價轉(zhuǎn)換矩陣R,然后計算矩陣R中每個對象與其他對象距離大于d0的個數(shù)ri,并與設(shè)定的最大個數(shù)r0比較,如果ri >r0,則認(rèn)為對象Xi是孤立點(diǎn),否則不是孤立點(diǎn)#65377;

3 距離孤立點(diǎn)挖掘方法在審計中的實(shí)現(xiàn)過程

被審計單位的交易#65380;余額等審計相關(guān)信息大量存儲于ERP#65380;MRPⅡ和CAIS等信息系統(tǒng)中,審計人員通過系統(tǒng)自帶的數(shù)據(jù)導(dǎo)出功能將需要數(shù)據(jù)引出,存儲在定指計算機(jī)數(shù)據(jù)庫上#65377;審計人員通過對這些數(shù)據(jù)執(zhí)行孤立點(diǎn)挖掘程序?qū)崿F(xiàn)孤立點(diǎn)挖掘,找出這些與一般行為有顯著不同的孤立點(diǎn),從而確認(rèn)為審計重點(diǎn),實(shí)施審計程序后獲取審計證據(jù)#65377;

第一步 數(shù)值型數(shù)據(jù)的標(biāo)準(zhǔn)化

原始數(shù)據(jù)集中的數(shù)據(jù)通常有特定的單位,不同的單位度量會對距離的計算結(jié)果產(chǎn)生影響#65377;所以,在計算距離之前,應(yīng)先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,用標(biāo)準(zhǔn)化后的數(shù)據(jù)計算距離#65377;本文使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法,得到分布在標(biāo)準(zhǔn)區(qū)間內(nèi)的屬性值,方便數(shù)據(jù)的使用#65377;進(jìn)行標(biāo)準(zhǔn)化的目的是為了防止具有較大值域的屬性與具有較小值域的屬性相比對度量的結(jié)果產(chǎn)生過大的影響#65377;標(biāo)準(zhǔn)化的情況如下:

設(shè)X={Xi | Xi=(xi1,xi2,…,xij,…,xim),i=1,2,…,n; j=1,2,…,m}是待進(jìn)行孤立點(diǎn)數(shù)據(jù)挖掘的數(shù)據(jù)集合,Xi表示第i個對象,共有n個對象;Xij表示第i個對象的第j個屬性值,共有m個屬性#65377;

令Xj,Rj和Sj分別表示第j個屬性的均值#65380;平均絕對偏差和標(biāo)準(zhǔn)差,即:

第六步 孤立點(diǎn)的審計專業(yè)性分析與判斷

孤立點(diǎn)應(yīng)該作為審計重點(diǎn),但并不是所有的孤立點(diǎn)都是由于錯誤引起的#65377;孤立點(diǎn)數(shù)據(jù)來源于兩類:第一類是錯誤的數(shù)據(jù),這種錯誤可能是由于會計記錄或相關(guān)記錄的操縱#65380;偽造或篡改,會計政策和會計估計的故意無用等舞弊行為導(dǎo)致的錯誤,也可能是由于員工的非故意行為引起的,如輸入數(shù)據(jù)的錯誤#65377;第二類是交易或事項正常性質(zhì)的反映,可能是固有的數(shù)據(jù)變異性的結(jié)果,如某一公司總經(jīng)理的工資,自然遠(yuǎn)遠(yuǎn)高于公司其他雇員的工資,就可能成為一個孤立點(diǎn)#65377;由于存在這兩類的孤立點(diǎn)數(shù)據(jù)來源,對于挖掘到的孤立點(diǎn)并不能直接形成審計證據(jù),審計人員應(yīng)該對孤立點(diǎn)進(jìn)行專業(yè)性的分析判斷,決定應(yīng)采取重新計算#65380;審閱#65380;盤存和函證等哪一種進(jìn)一步的審計程序,從而為審計人員提出審計結(jié)論#65380;出具審計報告獲取充分#65380;適當(dāng)?shù)膶徲嬜C據(jù),同時提高了審計工作效率和效果#65377;

4 案例應(yīng)用與分析

本案例以從某通信技術(shù)公司用友NC系統(tǒng)中導(dǎo)出Excel格式的2006年度(1月1日至12月31日)應(yīng)收賬款明細(xì)為例,利用加權(quán)歐式距離挖掘孤立點(diǎn)方法對應(yīng)收賬款各交易是否存在異常變動進(jìn)行分析#65377;應(yīng)收賬款明細(xì)表包括13個屬性列,本案例中只對借方發(fā)生額進(jìn)行孤立點(diǎn)挖掘分析,確定應(yīng)收賬款實(shí)質(zhì)性測試中應(yīng)抽查的交易事項,以獲取審計證據(jù)#65377;令d >10,r >100,通過Excel中的VBA編程實(shí)現(xiàn)如下:

Sub CommandButton1_click()

Dim i,j,n As Integer

Dim sum_x,sum_r,sum_s,aver_x,stand_s As Single

'以第三列“憑證號”計算非空單元格個數(shù),將其賦值給n

n = Application.WorksheetFunction.CountA(Columns(3))

'計算第I列“借方金額”的均值(第一行為屬性行,因此循環(huán)從第二行開始)

aver_x = Application.WorksheetFunction.Average(Range(Cells(2, 9), Cells(n, 9)))

'計算標(biāo)準(zhǔn)差

Sum_s = 0

For j = 2 To n

Sum_s = (Sheets("sheet1").Cells(I, 9) - aver_x) ^ 2 + sum_s

Next

stand_s = Sqr(sum_s / (n - 1))

'將標(biāo)準(zhǔn)化數(shù)值賦值到第十五列對應(yīng)單元格中

For j = 2 To n

Sheets("sheet1").Cells(j, 15).Value = (Sheets("sheet1").Cells(j, 9) - aver_x) / stand_s

Next

'歐式距離的計算及轉(zhuǎn)換成超過距離閾值d > 2個數(shù)r 的計算,將r 賦值到第十六列對應(yīng)單元格中,將r >100的點(diǎn)確認(rèn)為孤立點(diǎn),并對該孤立點(diǎn)背景色以紅色標(biāo)識

For i = 2 To n

Sum_r = 0

For j = 2 To n

If Sqr((Sheets("sheet1").Cells(i, 15) - Sheets("sheet1").Cells(j, 15)) ^ 2)>2 then

Sum_x= 1

Else

Sum_x = 0

End If

Sum_r = sum_r+ sum_x

Next

Sheets("sheet1").Cells(i, 16) = sum_r

If sum_r>100 then

Sheets("sheet1").Cells(i, 16). Interior.Color = RGB(255,0,0)

End If

Next

End Sub

通過運(yùn)行上面的程序,共挖掘出的29個孤立點(diǎn),分析發(fā)現(xiàn)這29個孤立點(diǎn)涉及的借方發(fā)生額都比較大,有可能造成嚴(yán)重的后果,因此對這29個孤立點(diǎn)進(jìn)行實(shí)質(zhì)性測試,包括從“憑證字號”出發(fā)查找相關(guān)的記賬憑證和原始憑證,并進(jìn)行了函證等審計程序#65377;采取進(jìn)一步審計程序的結(jié)果并沒有發(fā)現(xiàn)錯誤,這29個孤立點(diǎn)是正常交易或事項的結(jié)果,從而記入工作底稿,形成審計證據(jù)#65377;

5 結(jié)束語

基于距離孤立點(diǎn)的挖掘方法在審計中的應(yīng)用有利于幫助審計人員發(fā)現(xiàn)異常的交易或事項,快速確定審計重點(diǎn),提高審計效率#65377;由于孤立點(diǎn)挖掘方法在審計中的應(yīng)用目前的研究還比較少,本文的研究還屬于初探和嘗試,還存在很多不足,進(jìn)一步的研究還在繼續(xù)#65377;

主要參考文獻(xiàn)

[1] S D Bag,M Schwabacher. Mining Distance-Based Outliers in Near Linear Time with Randomization and a Simple Pruning Rule[C].In KDD’03:Proceedings of the 9th Acm SIGKDD International Con ference on Knouledge Discovery and Data Mining,New York:Acm Press,2003:29-38.

[2] Supatcharee Sirikulbadhana.Data Mining as a Financial Auditing Tool[D]. The Swedish School of Economica and Business Administration,2002.

[3]Knorr E,Ng R. Algorithms for Mining Distance-Based Outlier in Large Datasets[C]. In:Proc of the 24th International VLDB Conference,New York,1998:392-403.

[4] Knorr E,Ng R.Finding Intensional Knowledge of Distance-Based[C]. In:Proc of the 25th International VLDB Conference,Edinburgh,Scotland,1999.

[5] Barnett V,Lewis T.Outliers in Statistical Data[C]. New York:John WileySons,1994.

[6] 黃洪宇,林甲祥,陳崇成,等. 離群數(shù)據(jù)挖掘綜述[J]. 計算機(jī)應(yīng)用研究,2006(8).

[7] 陳偉,劉思峰,邱廣華. 計算機(jī)審計中一種基于孤立點(diǎn)檢測的數(shù)據(jù)處理方法[J]. 商業(yè)研究,2006(17).

[8] 任佳,李建嶺. 孤立點(diǎn)檢測在零售業(yè)中的應(yīng)用與研究[J]. 科技信息(科學(xué)教研),2007(11).

“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”

主站蜘蛛池模板: 91啪在线| 国产精品主播| 日韩欧美综合在线制服| 亚洲天堂久久| 亚洲综合激情另类专区| 免费在线色| 欧美精品另类| 亚洲精品va| 狠狠做深爱婷婷久久一区| 在线观看av永久| 成人国产精品一级毛片天堂 | 久草视频一区| 久久久亚洲色| 日韩精品无码免费专网站| 久久精品国产免费观看频道| 精品欧美一区二区三区久久久| 午夜日b视频| 99久久精品国产综合婷婷| 丁香六月激情综合| 日韩毛片视频| 国产高潮流白浆视频| 亚洲精品色AV无码看| 少妇精品在线| 国产精品女在线观看| 五月六月伊人狠狠丁香网| 国产成人h在线观看网站站| 国产成人盗摄精品| 色国产视频| 久久久久国产精品熟女影院| 国产精品任我爽爆在线播放6080| 伊人中文网| 国产特级毛片| 日本91视频| 99re这里只有国产中文精品国产精品| 好吊妞欧美视频免费| 欧美色综合网站| 狠狠色狠狠色综合久久第一次| 一级毛片网| 99国产精品免费观看视频| 亚洲最猛黑人xxxx黑人猛交| 亚洲欧美日韩久久精品| 中国国产高清免费AV片| 亚洲人成网18禁| 欧美 亚洲 日韩 国产| 国内精品伊人久久久久7777人| 国产欧美日韩va另类在线播放| 精品久久国产综合精麻豆| 国产成年女人特黄特色毛片免 | 久久99精品久久久大学生| 538国产在线| 中文字幕在线视频免费| 亚洲一区二区视频在线观看| 亚洲AⅤ永久无码精品毛片| 亚洲一区国色天香| 9cao视频精品| 国产成人综合日韩精品无码首页 | 暴力调教一区二区三区| 国产一二视频| 日本午夜精品一本在线观看 | 视频二区国产精品职场同事| 日韩一区二区三免费高清| 九九这里只有精品视频| 色综合五月| 人妻精品久久无码区| 噜噜噜久久| 免费啪啪网址| 亚洲欧美一区二区三区图片| 色婷婷亚洲综合五月| 国产精品美女网站| 国产美女91呻吟求| 国产精品欧美在线观看| 国产国拍精品视频免费看 | 亚洲a级在线观看| 9966国产精品视频| 国产色爱av资源综合区| 色视频久久| 欧美第二区| 久久综合亚洲鲁鲁九月天| 精品国产www| 精品视频在线观看你懂的一区| 国产微拍精品| 夜色爽爽影院18禁妓女影院|