999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的金融審計數(shù)據(jù)分析研究

2020-02-08 08:46:01趙瀏洋
中國商論 2020年20期
關(guān)鍵詞:數(shù)據(jù)挖掘

趙瀏洋

摘 要:針對由于初始變量數(shù)據(jù)過多,導致金融審計數(shù)據(jù)挖掘精度不足的問題,進行基于數(shù)據(jù)挖掘的金融審計數(shù)據(jù)分析研究。本文首先從被審計的金融機構(gòu)信息系統(tǒng)中提取所需數(shù)據(jù),并對其進行預(yù)處理,包括缺失值處理、重復(fù)數(shù)據(jù)處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)變換等,其次利用主成分分析方法解決初始變量數(shù)據(jù)過多問題,降低數(shù)據(jù)維度,最后選取聚類算法作為挖掘方法,實現(xiàn)金融審計異常數(shù)據(jù)分析。結(jié)果表明:與神經(jīng)網(wǎng)絡(luò)算法、支持向量機、最近鄰算法相比,本方法精度更高,以期為后續(xù)研究提供參考。

關(guān)鍵詞:數(shù)據(jù)挖掘;金融審計數(shù)據(jù);聚類算法;數(shù)據(jù)維度

中圖分類號:F239.65 文獻標識碼:A 文章編號:2096-0298(2020)10(b)-055-03

審計機關(guān)是推動完善公共治理的重要力量,它可以通過提供以證據(jù)為基礎(chǔ)的解決系統(tǒng)性問題的意見及建議,促進、完善政策和方案,發(fā)揮審計的監(jiān)督、洞察和前瞻功能,推動改善公共治理[1]。近年來,審計機關(guān)通過開展金融審計工作,有效地發(fā)揮了監(jiān)督、洞察與前瞻功能,在促進防范和化解金融風險,提高金融服務(wù)實體經(jīng)濟質(zhì)量和效益,完善金融監(jiān)管體制,推動金融體制改革和金融領(lǐng)域反腐倡廉等方面發(fā)揮了重要作用。然而,在審計機構(gòu)進行金融審計時,面臨海量的數(shù)據(jù),僅僅依靠傳統(tǒng)的數(shù)據(jù)檢索機制和方法是遠遠不夠的,存在審計效率低下等問題。

在上述背景下,數(shù)據(jù)挖掘技術(shù)應(yīng)用成為審計領(lǐng)域研究的重點課題。利用數(shù)據(jù)挖掘技術(shù)尋找數(shù)據(jù)間潛在的關(guān)聯(lián),關(guān)鍵在于挖掘算法的選擇上。常用的挖掘算法有很多,如Desaietal利用神經(jīng)網(wǎng)絡(luò)分類挖掘算法對3000個觀察數(shù)據(jù)進行分析;孫北伐、張高煜、徐倩蓉等在《大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘在審計中的分析與應(yīng)用》中介紹決策樹算法和隨機森林算法的數(shù)據(jù)分析過程。此外,數(shù)據(jù)挖掘還包括聚類算法、神經(jīng)網(wǎng)絡(luò)算法、支持向量機、最近鄰算法等[2]。本文在已有研究經(jīng)驗的基礎(chǔ)上,以聚類算法為基礎(chǔ),進行數(shù)據(jù)挖掘研究。研究過程如下:首先進行金融審計數(shù)據(jù)采集并進行預(yù)處理,提高數(shù)據(jù)質(zhì)量,然后選取聚類算法作為挖掘算法,設(shè)置挖掘條件,進行模式匹配,找尋可疑數(shù)據(jù)。通過這些可疑數(shù)據(jù),審計機構(gòu)可以以此為依據(jù)進行追蹤,探尋企業(yè)違法犯罪行為,為金融領(lǐng)域反腐倡廉工作提供依據(jù)。

1 基于數(shù)據(jù)挖掘的金融審計數(shù)據(jù)分析方法

隨著計算機網(wǎng)絡(luò)以及信息技術(shù)的不斷發(fā)展,各行各業(yè)對信息系統(tǒng)的依賴程度越來越深,其中金融審計就是其中一個。金融審計就是在海量數(shù)據(jù)中尋找異常數(shù)據(jù),從而發(fā)現(xiàn)問題,得出各種金融機構(gòu)的經(jīng)營狀況,以便避免出現(xiàn)金融風險,揭露隱藏的違法違規(guī)行為,推進反腐倡廉工作。現(xiàn)代金融審計人員面對的不再是簡單的紙質(zhì)賬目,而是存儲在計算機系統(tǒng)數(shù)據(jù)庫中的種類繁多的電子數(shù)據(jù),要想通過人工完成數(shù)據(jù)分析是不現(xiàn)實的,因此本文通過數(shù)據(jù)挖掘技術(shù)進行金融審計數(shù)據(jù)分析。

1.1 金融審計數(shù)據(jù)采集

金融審計數(shù)據(jù)采集進行數(shù)據(jù)挖掘的第一步,也是后續(xù)進行數(shù)據(jù)分析的基礎(chǔ)和前提。金融審計數(shù)據(jù)采集是指審計人員在利用計算機審計時,需要根據(jù)審計要求從被審計的金融機構(gòu)信息系統(tǒng)中提取數(shù)據(jù)文件的過程[3]。目前,采集方式主要有三種,即直接讀取數(shù)據(jù)的方式、數(shù)據(jù)庫連接性的方式以及數(shù)據(jù)傳輸?shù)姆绞剑N方式特點比較如表1所示。

1.2 金融審計數(shù)據(jù)預(yù)處理

從各個金融機構(gòu)系統(tǒng)數(shù)據(jù)采集得到的數(shù)據(jù)受到人為因素、系統(tǒng)因素等的影響,數(shù)據(jù)質(zhì)量并不高,若直接用于后續(xù)數(shù)據(jù)挖掘,將會導致數(shù)據(jù)分析準確性降低。為此,需要對采集到的數(shù)據(jù)進行預(yù)處理,具體包括缺失值處理、重復(fù)數(shù)據(jù)處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)變換等[4]。

1.2.1 缺失值處理

采集得到的原始數(shù)據(jù)極有可能存在缺失值,但是缺失值并不意味數(shù)據(jù)有錯誤。缺失值在整個數(shù)據(jù)集若是一個關(guān)鍵值,就需要進行填補。缺失值填補的方法有很多,如人工填寫、平均值填充、最鄰近方法填充、期望值最大化方法填充、貝葉斯Boostrap方法填充、回歸法填充等。

1.2.2 重復(fù)數(shù)據(jù)處理

在采集到的原始金融審計數(shù)據(jù)中還存在一些重復(fù)記錄的數(shù)據(jù),這些數(shù)據(jù)也被稱為冗余數(shù)據(jù)。冗余數(shù)據(jù)的存在會增加后續(xù)數(shù)據(jù)挖掘和分析的計算量,降低數(shù)據(jù)分析效率。對于重復(fù)數(shù)據(jù)的處理,需要進行記錄排序,即根據(jù)關(guān)鍵字、詞等進行排序,然后識別重復(fù)記錄,將重復(fù)的數(shù)據(jù)進行合并。對于重復(fù)記錄識別,可以通過簡單的模糊匹配或各個角度的相似度計算來完成。

1.2.3 噪聲數(shù)據(jù)處理

由于各種原因?qū)е聦傩灾挡徽_或不一致的數(shù)據(jù)被稱為噪聲數(shù)據(jù)。對于噪聲數(shù)據(jù),處理方法主要有三種:分箱、回歸以及聚類,如表2所示。

1.2.4 數(shù)據(jù)變換

采集到的原始金融審計數(shù)據(jù)可能來自被審計金融機構(gòu)的不同類型的數(shù)據(jù)庫,而不同類型的數(shù)據(jù)庫的數(shù)據(jù)是不同的,無法進行比較分析,因此需要將不同形式的金融審計數(shù)據(jù)轉(zhuǎn)換成適合的審計分析軟件處理所需要的形式,將數(shù)據(jù)規(guī)范成相對統(tǒng)計的形式,去除量綱,即數(shù)據(jù)規(guī)范化。數(shù)據(jù)規(guī)范化方法主要有以下三種。

(1)Min-Max標準化(Min-Max normalization)

Min-Max標準化,也稱為最小-最大規(guī)范化,基本原理是對原始金融審計數(shù)據(jù)進行線性變換,使變換后的結(jié)果落到[0,1]區(qū)間內(nèi)。Min-Max標準化表達式如下:

1.3 金融審計數(shù)據(jù)降維

以往利用數(shù)據(jù)挖掘算法進行直接金融審計數(shù)據(jù)分析時,往往存在計算量大、分析不準確的問題,而導致這一現(xiàn)象的主要原因是后續(xù)輸入到數(shù)據(jù)挖掘算法中初始變量數(shù)據(jù)過多。對于上述問題,將數(shù)據(jù)降維十分必要。

數(shù)據(jù)降維是指在保證原始數(shù)據(jù)損失量最小的前提下,優(yōu)化數(shù)據(jù)組成,降低數(shù)據(jù)維度,減少數(shù)據(jù)規(guī)模。

對于數(shù)據(jù)降維問題,解決方法有很多,大致分為線性映射和非線性映射方法兩大類。在本文中選擇主成分分析方法進行金融審計數(shù)據(jù)降維。具體過程如下:

步驟1:假設(shè)待分析原始金融審計數(shù)據(jù)的形式是一個X包含n個樣本的樣本集。

步驟2:對樣本集中的數(shù)據(jù)進行標準化處理,處理方法見1.2.4中數(shù)據(jù)變換處理方法,最后得到的標準化矩陣Z。

步驟3: 計算標準化矩陣Z的相關(guān)系數(shù)矩陣R。

步驟4:用雅克比方法解矩陣R的特征方程,得特征根和特征向量(主成分)。

步驟5:計算主成分累計貢獻率,一般選擇超過85%貢獻率的主成分作為重要主成分。

步驟6:重要主成分即為降維后數(shù)據(jù)。

1.4 金融審計數(shù)據(jù)挖掘分析

數(shù)據(jù)挖掘的概念是在20世紀80年代提出的,其定義是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中找尋價值信息和知識的過程,因此數(shù)據(jù)挖掘也被稱為“知識發(fā)現(xiàn)”,一般分為以下幾個過程,如圖1所示。

從圖1中可以看出,前文已經(jīng)介紹了數(shù)據(jù)挖掘的準備環(huán)節(jié),現(xiàn)進行數(shù)據(jù)挖掘分析。在數(shù)據(jù)挖掘中,關(guān)鍵在于算法的選擇上。數(shù)據(jù)挖掘算法有很多,如聚類算法、神經(jīng)網(wǎng)絡(luò)算法、決策樹算法、遺傳算法等。選擇聚類算法進行數(shù)據(jù)挖掘,其理由是該算法具有可伸縮性,圖形數(shù)據(jù)集的劃分效果良好,并且十分高效。聚類算法是指按照某種數(shù)據(jù)特征進行分類,同一類的數(shù)據(jù)具有相同的特征,從而從中分辨出不同特征的數(shù)據(jù),即異常數(shù)據(jù)。具體過程大致分為以下五個步驟。

步驟1:從金融審計數(shù)據(jù)中隨機選定K個樣本數(shù)據(jù)點作為初始聚類中心;

步驟2:計算這K個初始聚類中心到其他樣本數(shù)據(jù)點的距離,包括閔可夫斯基距離、歐式距離、曼哈頓距離等;

步驟3:根據(jù)距離計算結(jié)果對每一個樣本數(shù)據(jù)點進行分類;

步驟4:重新計算每個類的類中心;

步驟5:判斷得到的新聚類中心是否與原來的初始聚類中心相同。若相同,聚類結(jié)束,輸出聚類結(jié)果;否則回到步驟2,重新進行聚類,直到目標函數(shù)收斂。

2 實驗分析

本文為測試基于數(shù)據(jù)挖掘的金融審計數(shù)據(jù)分析方法的性能,以神經(jīng)網(wǎng)絡(luò)算法、支持向量機、最近鄰算法等數(shù)據(jù)挖掘方法作為對比項,進行實驗分析。

2.1 實驗數(shù)據(jù)

保險公司是我國重要的金融機構(gòu)之一,關(guān)系國計民生,關(guān)系社會生活中的每一分子,因此本文就選取某保險公司業(yè)務(wù)及管理費的核算數(shù)據(jù)作為仿真實驗數(shù)據(jù)。利用本文章節(jié)1.1數(shù)據(jù)采集方法,從該公司財務(wù)系統(tǒng)中獲取2008年與業(yè)務(wù)及管理費相關(guān)的全部憑證明細。

據(jù)統(tǒng)計,獲取的某保險公司2008年與業(yè)務(wù)及管理費相關(guān)的全部憑證明細數(shù)據(jù)共計1268825條,全部為正常數(shù)據(jù),因此本實驗通過手動篡改其中1562條數(shù)據(jù),作為異常數(shù)據(jù),用于后續(xù)數(shù)據(jù)挖掘。

2.2 數(shù)據(jù)挖掘工具

本文數(shù)據(jù)預(yù)處理、降維以及挖掘分析都通過SPSS公司開發(fā)的Clementine12.0數(shù)據(jù)挖掘軟件來實現(xiàn)。通過Clementine12.0,可以將數(shù)據(jù)放到軟件上進行分析,從而利用內(nèi)置的強大算法以及圖形功能預(yù)測未來數(shù)據(jù)的走勢,提前定制公司項目計劃,定制未來開發(fā)的具體流程,并且可以將分析結(jié)果建立模型或流程圖,方便整個數(shù)據(jù)挖掘過程將數(shù)據(jù)部署到企業(yè)開發(fā)計劃上,從而完善企業(yè)后期決策計劃。

2.3 數(shù)據(jù)挖掘評價指標

數(shù)據(jù)挖掘目標是從正常數(shù)據(jù)中找出異常數(shù)據(jù),因此數(shù)據(jù)有兩類,即為正例(positive)和負例(negtive),構(gòu)建混淆矩陣如表3所示。

根據(jù)混淆矩陣,計算數(shù)據(jù)挖掘精度,公式如下:

2.4 結(jié)果分析

利用Clementine12.0數(shù)據(jù)挖掘軟件進行數(shù)據(jù)挖掘,并統(tǒng)計挖掘結(jié)果,如表4所示。

從表4中可以看出,利用本文方法進行數(shù)據(jù)挖掘后,從1268825條正常數(shù)據(jù)中找尋1562條異常數(shù)據(jù)的精度達到96.38%,高于神經(jīng)網(wǎng)絡(luò)算法、支持向量機、最近鄰算法三種挖掘方法,證明了本研究的有效性。

3 結(jié)語

綜上所述,面對海量的金融審計數(shù)據(jù),如何有效地從中挖掘出有價值的潛在信息對于審計部門來說至關(guān)重要,為此本文基于數(shù)據(jù)挖掘進行金融審計數(shù)據(jù)分析研究,并取得了一定的成果,但是由于個人能力有限,還存在不足之處,如在進行仿真研究時,樣本數(shù)量并不符合數(shù)據(jù)挖掘?qū)Υ罅繑?shù)據(jù)的要求,且財務(wù)指標不夠全面,因此得出的結(jié)果可能與實際結(jié)果存在一定的誤差,因此有待進一步的探討和研究。

參考文獻

[1] 趙圣偉,吳雨橫.基于金融審計大數(shù)據(jù)的證券市場異常交易模型探討[J].審計研究,2018,205(05).

[2] 朱蕊,田晨,高岑.基于數(shù)據(jù)挖掘的熨法干預(yù)肩周炎藥物使用規(guī)律研究[J].時珍國醫(yī)國藥,2018,29(09).

[3] 陳偉,勾東升,徐發(fā)亮.基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計方法研究[J].中國注冊會計師,2018,234(11).

[4] 鐘若武,王惠平.基于數(shù)據(jù)挖掘的高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢技術(shù)[J].現(xiàn)代電子技術(shù),2018,41(02).

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 91综合色区亚洲熟妇p| 亚洲人成网站在线观看播放不卡| 国产精品妖精视频| 在线观看91香蕉国产免费| 中文字幕佐山爱一区二区免费| 在线中文字幕日韩| 亚洲国产精品VA在线看黑人| 免费一级全黄少妇性色生活片| 91精品免费久久久| 99成人在线观看| 久草热视频在线| 日韩中文无码av超清| 香蕉国产精品视频| 国产欧美日韩在线一区| 国内丰满少妇猛烈精品播| 日本精品视频| 国产精品福利在线观看无码卡| 欧美色综合网站| 亚洲日韩精品伊甸| 国产女人在线视频| 成人免费午间影院在线观看| 亚洲精品波多野结衣| 蜜臀AVWWW国产天堂| 国产粉嫩粉嫩的18在线播放91| 99无码熟妇丰满人妻啪啪| 国产噜噜噜视频在线观看| 国产国语一级毛片| 亚洲欧洲一区二区三区| 国产va在线| 激情综合激情| 免费 国产 无码久久久| 99re精彩视频| 成人av专区精品无码国产| 国产精品尤物铁牛tv| 欧美爱爱网| 亚洲第一成年网| 亚洲色图欧美激情| 国产精品v欧美| 亚洲国内精品自在自线官| 亚洲无码高清免费视频亚洲| 日韩毛片免费| 国产精品va免费视频| 91丨九色丨首页在线播放| www.亚洲天堂| 欧美亚洲中文精品三区| 午夜a级毛片| 国产精品永久免费嫩草研究院| 国产精品欧美日本韩免费一区二区三区不卡 | 国产视频一二三区| 亚洲国产中文综合专区在| 国产福利不卡视频| 无码中字出轨中文人妻中文中| 97se亚洲综合在线天天| 亚洲精品第五页| 红杏AV在线无码| 色成人综合| 鲁鲁鲁爽爽爽在线视频观看| 97国产在线视频| 欧美精品高清| 国产成人免费视频精品一区二区| 久久96热在精品国产高清| 国产免费福利网站| 啦啦啦网站在线观看a毛片| 国产精品综合久久久 | 中国一级特黄大片在线观看| 永久免费无码成人网站| 国产精品自在线天天看片| AV无码国产在线看岛国岛| 国产亚洲精品97在线观看| 久久久久免费精品国产| 香蕉久久永久视频| 国产精品久久久久无码网站| 亚洲中文字幕日产无码2021| 日韩A∨精品日韩精品无码| 99久久国产综合精品2020| 亚洲男人在线天堂| 国内熟女少妇一线天| 精品无码国产一区二区三区AV| 国产精品女在线观看| 一级全黄毛片| 国产99久久亚洲综合精品西瓜tv| 毛片在线看网站|