999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析大數(shù)據(jù)審計采集技術(shù)體系的構(gòu)成及其應(yīng)用

2023-06-27 00:18:52劉國城李君尤建闕圣貴
中國內(nèi)部審計 2023年1期

劉國城 李君 尤建 闕圣貴

[摘要]構(gòu)建大數(shù)據(jù)審計采集技術(shù)體系的關(guān)鍵是大數(shù)據(jù)的采集及其標(biāo)準(zhǔn)化處理,如何從紛繁的數(shù)據(jù)中快速有效地找到所需數(shù)據(jù),正逐漸成為大數(shù)據(jù)審計發(fā)展的關(guān)鍵因素。大數(shù)據(jù)審計采集技術(shù)體系主要由數(shù)據(jù)庫采集技術(shù)、系統(tǒng)日志采集技術(shù)、感知設(shè)備采集技術(shù)和網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)四方面構(gòu)成。本文針對上述四方面的原理與應(yīng)用進行深層次研究,以期促進審計采集技術(shù)的高質(zhì)量發(fā)展。

[關(guān)鍵詞]國家審計 ? 大數(shù)據(jù)審計 ? 數(shù)據(jù)采集技術(shù)

本文系江蘇高校哲學(xué)社會科學(xué)研究項目“數(shù)字經(jīng)濟時代智能會計應(yīng)用平臺的模式設(shè)計與策略優(yōu)化研究”(2022SJZD057)

在大數(shù)據(jù)審計采集、預(yù)處理、分析和可視化等流程中,大數(shù)據(jù)審計采集是首要環(huán)節(jié),只有將數(shù)據(jù)進行集中收集,并積累到一定數(shù)量,才能由量變引發(fā)質(zhì)變,進而找到不同領(lǐng)域、不同行業(yè)、不同層級數(shù)據(jù)之間的關(guān)系,這也直接決定了大數(shù)據(jù)審計在后續(xù)階段所能提供的價值。針對大數(shù)據(jù)來源的不同,本文將大數(shù)據(jù)審計采集技術(shù)體系的構(gòu)成分為四類,即數(shù)據(jù)庫采集技術(shù)、系統(tǒng)日志采集技術(shù)、感知設(shè)備采集技術(shù)以及網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù),并在各采集技術(shù)中引入實務(wù)應(yīng)用,以期加速推進大數(shù)據(jù)審計采集技術(shù)體系的智能化建設(shè)與高質(zhì)量發(fā)展。

一、數(shù)據(jù)庫采集技術(shù)的分析

傳統(tǒng)的審計業(yè)務(wù)往往會應(yīng)用關(guān)系型數(shù)據(jù)庫,如Oracle(甲骨文數(shù)據(jù)庫)、MySQL(AB公司開發(fā)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng))、Microsoft Access(微軟開發(fā)的關(guān)系數(shù)據(jù)庫管理系統(tǒng))和DB2(IBM開發(fā)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng))等數(shù)據(jù)管理系統(tǒng),以此來存儲被審計單位的各項數(shù)據(jù)。近年來,審計主體通常會使用NoSQL(非關(guān)系型的數(shù)據(jù)庫)、HBase(分布式的、面向列的開源數(shù)據(jù)庫)、MongoDB(基于分布式文件存儲的數(shù)據(jù)庫)等數(shù)據(jù)庫采集、存儲被審計單位的數(shù)據(jù),并應(yīng)用高端采集技術(shù),如ODBC(Open DataBase Connectivity,開放數(shù)據(jù)庫互連)技術(shù)、審計接口技術(shù)等,以此來連接審計主體和被審計單位的數(shù)據(jù)庫,完成大數(shù)據(jù)審計的采集工作。

(一)ODBC技術(shù)的應(yīng)用

ODBC技術(shù)是通用的審計大數(shù)據(jù)采集方法之一,其主要涵蓋應(yīng)用程序、驅(qū)動程序管理器、驅(qū)動程序和數(shù)據(jù)源。應(yīng)用程序?qū)油ㄟ^采用ODBC接口,可以實現(xiàn)與數(shù)據(jù)源的連接和會話,并向數(shù)據(jù)源發(fā)送結(jié)構(gòu)化查詢語言(SQL)請求,再對結(jié)果定義數(shù)據(jù)格式。驅(qū)動程序管理器主要是為了裝入驅(qū)動程序,以便于進行ODBC的初始化、提供參數(shù)以及次序驗證等操作步驟。驅(qū)動程序是一種動態(tài)鏈接庫,可以達(dá)到使數(shù)據(jù)源和ODBC函數(shù)交互的目的,在用戶有需求時,轉(zhuǎn)換相應(yīng)的格式,并將結(jié)果返還給應(yīng)用程序,發(fā)現(xiàn)運行錯誤的格式,也會以標(biāo)準(zhǔn)代碼的形式進行返回。數(shù)據(jù)源則是由審計主體在數(shù)據(jù)庫中存儲的數(shù)據(jù)、數(shù)據(jù)庫管理系統(tǒng)、網(wǎng)絡(luò)環(huán)境以及相關(guān)的操作系統(tǒng)所組成。

ODBC技術(shù)目前被廣泛應(yīng)用于計算機輔助審計業(yè)務(wù)中,作為連接審計主體和被審計單位數(shù)據(jù)庫的公共接口。審計人員借助ODBC技術(shù)可以輕松訪問被審計單位的審計信息系統(tǒng),并根據(jù)用戶的不同數(shù)據(jù)需求,啟動相應(yīng)的驅(qū)動程序,配置對應(yīng)的參數(shù),將不同的數(shù)據(jù)格式轉(zhuǎn)換成審計所需的格式。ODBC技術(shù)的優(yōu)點有很多。首先,由于代碼開源,依靠分層機構(gòu)來運行,所以O(shè)DBC有很高的標(biāo)準(zhǔn)性與開放性,程序集成就變得十分輕松;其次,可以實現(xiàn)不同的數(shù)據(jù)庫管理系統(tǒng)由相同代碼運行,使得用戶程序具備很高的互操作性,C/S(Client-Server,服務(wù)器-客戶機)架構(gòu)也因此得到了相應(yīng)的技術(shù)支持,開發(fā)與運營維護成本大大降低。計算機輔助審計也是一種基于審計大數(shù)據(jù)采集業(yè)務(wù)的審計方式,相當(dāng)于將被審計單位的各類數(shù)據(jù)進行數(shù)據(jù)遷移,并經(jīng)過預(yù)處理等步驟,把數(shù)據(jù)轉(zhuǎn)換成對應(yīng)格式,存儲于審計主體的數(shù)據(jù)庫,最后應(yīng)用分析程序?qū)Σ杉降膶徲嫶髷?shù)據(jù)進行數(shù)據(jù)分析。持續(xù)審計是計算機輔助審計未來的一個重要發(fā)展方向,其中,數(shù)據(jù)庫采集技術(shù)為審計人員采集數(shù)據(jù)提供了諸多便利。

(二)審計接口技術(shù)的應(yīng)用

針對審計接口技術(shù)應(yīng)用的業(yè)務(wù)不同,可以劃分為通用審計接口與專用審計接口。通用審計接口有三種實現(xiàn)方式。第一,審計主體可以直接連接被審計單位的目標(biāo)數(shù)據(jù)庫,采集有用的各種數(shù)據(jù),這種審計接口往往只可以讀取數(shù)據(jù),不具備修改、刪除數(shù)據(jù)的權(quán)限。第二,審計主體可以通過聯(lián)網(wǎng)方式遠(yuǎn)程采集被審計單位的數(shù)據(jù)。該方式的原理是把大數(shù)據(jù)采集與存儲相分離,并且增加了大數(shù)據(jù)采集工作站,審計主體從被審計單位中采集的數(shù)據(jù)都要統(tǒng)一存放到中間數(shù)據(jù)庫中,由審計人員將所需數(shù)據(jù)采集到審計服務(wù)器中,進一步實現(xiàn)了審計端口與被審計端口的有效隔離。第三,在審計主體采用大型數(shù)據(jù)庫,與被審計單位建立直接接口存在困難時,可以先獲取生產(chǎn)轉(zhuǎn)換文件,按照目標(biāo)的文件格式進行導(dǎo)出,完成大數(shù)據(jù)審計的采集工作。

近年來,審計接口技術(shù)被廣泛應(yīng)用于計算機醫(yī)保審計中。傳統(tǒng)的計算機醫(yī)保審計方式限制了審計人員的審計線索采集方式,只能局限于使用SQL語言來獲取醫(yī)保欺詐的線索,但是這種方法只能處理標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)。然而,隨著醫(yī)療改革的深入與信息技術(shù)的進步,醫(yī)保的覆蓋面逐漸擴大,醫(yī)保的相關(guān)數(shù)據(jù)也隨之逐漸朝著異構(gòu)化、大規(guī)模、非數(shù)字化和多樣化的趨勢發(fā)展,進而對審計人員采集醫(yī)保數(shù)據(jù)提出了更高的要求。醫(yī)保數(shù)據(jù)采集是整個醫(yī)保審計流程的起點,對不同來源和不同結(jié)構(gòu)的審計數(shù)據(jù),運用審計接口技術(shù)可以實現(xiàn)數(shù)據(jù)從非數(shù)字化轉(zhuǎn)向數(shù)字化、從非結(jié)構(gòu)化轉(zhuǎn)向結(jié)構(gòu)化以及從非標(biāo)準(zhǔn)化轉(zhuǎn)向標(biāo)準(zhǔn)化,不斷拓展數(shù)據(jù)的采集范圍,并搭配數(shù)據(jù)清洗、集成等手段,不斷提高數(shù)據(jù)的采集質(zhì)量,進而形成醫(yī)保數(shù)據(jù)存儲倉庫,滿足后續(xù)的審計程序?qū)?shù)據(jù)方面的需求。

二、系統(tǒng)日志采集技術(shù)的分析

系統(tǒng)日志記錄了被審計單位日常系統(tǒng)中關(guān)于各種硬件、軟件問題的數(shù)據(jù),以及對系統(tǒng)運行情況的監(jiān)控記錄,如有關(guān)應(yīng)用程序、系統(tǒng)安全等方面的各種記錄。目前日志采集技術(shù)被廣泛應(yīng)用于審計業(yè)務(wù)的很多方面,本部分的系統(tǒng)日志采集技術(shù)主要涉及Flume(Cloudera開發(fā)的日志收集系統(tǒng))、Scribe(Facebook開源的日志收集系統(tǒng))、Kafka(Apache軟件基金會開發(fā)的開源流處理平臺)等技術(shù)。

(一)Flume技術(shù)的應(yīng)用

Flume是一種資源收集系統(tǒng),主要用于收集被審計單位的系統(tǒng)日志等數(shù)據(jù)資源,在將服務(wù)器中的數(shù)據(jù)收集完成之后,F(xiàn)lume會把這些大數(shù)據(jù)資源統(tǒng)一集中到相應(yīng)位置,如分布式文件系統(tǒng)(HDFS)。Flume技術(shù)的運行流程分為若干步驟:首先,從云端、臉書、推特等數(shù)據(jù)生成器中收集各種可用數(shù)據(jù),這些數(shù)據(jù)會被代理(Agent)統(tǒng)一存儲到數(shù)據(jù)收集器中,并需要同審計數(shù)據(jù)源和數(shù)據(jù)的接收端進行交互,最后代理(Agent)將匯集到的數(shù)據(jù)通過多個通道傳輸?shù)綇V義存儲當(dāng)中,如Hadoop(由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu))、HBase等。

Flume技術(shù)目前在大氣污染防治審計中應(yīng)用廣泛。大氣污染防治綜合情況的業(yè)務(wù)數(shù)據(jù),比如,資源類監(jiān)視數(shù)據(jù)(基礎(chǔ)設(shè)施、數(shù)據(jù)庫、中間件等系統(tǒng)軟件和氣象業(yè)務(wù)運行進程狀態(tài)數(shù)據(jù))和業(yè)務(wù)類監(jiān)視數(shù)據(jù)(以往業(yè)務(wù)系統(tǒng)的業(yè)務(wù)日志)收集,主要應(yīng)用Flume技術(shù)進行“拉取”,通過在客戶端部署代理工具,可以對大氣污染防治的相關(guān)數(shù)據(jù)進行采集。關(guān)于大氣污染防治審計的Flume采集技術(shù),其應(yīng)用框架可以分為采集層和匯聚層。在采集層部署代理(Agent),收集被審計單位業(yè)務(wù)系統(tǒng)的文件日志、數(shù)據(jù)庫日志和其他日志,并對其格式進行轉(zhuǎn)換以及封裝這些日志;匯聚層的代理(Agent)會屏蔽掉采集層單個Agent的調(diào)整情況,以此起到隔離、緩沖的作用,防止其影響到其他大氣數(shù)據(jù)的采集情況,確保采集的業(yè)務(wù)數(shù)據(jù)不會丟失,最后匯總采集層的全部和大氣污染防治審計系統(tǒng)相關(guān)的監(jiān)視數(shù)據(jù)。

(二)Scribe技術(shù)的應(yīng)用

Scribe從被審計單位的日志源中收集各種與審計業(yè)務(wù)相關(guān)的日志,并統(tǒng)一存放到網(wǎng)絡(luò)文件系統(tǒng)或分布式文件系統(tǒng)中,以便將來審計主體對數(shù)據(jù)進行處理與分析,此類分布式收集、集中處理的運行方式具備了高容錯性、易擴展性的優(yōu)點。Scribe技術(shù)的具體工作流程為:被審計單位的各類日志文件在經(jīng)過收集之后,進行相應(yīng)的資源配置,再通過共享隊列的方式排隊輸送,Scribe技術(shù)可以將不同種類的審計數(shù)據(jù)存放到相應(yīng)的目錄,最后再傳輸給存儲系統(tǒng)。如果分布式文件系統(tǒng)(HDFS)出現(xiàn)了問題,這些數(shù)據(jù)會先存放在本地,等到HDFS正常運行之后,才會被轉(zhuǎn)移至后端的存儲對象。Scribe的存儲方式有很多,目前主流的方式有:File(文件)、Buffer(雙層存儲)、Null(忽略數(shù)據(jù))、Bucket(包含多個store,通過hash將數(shù)據(jù)存到不同store中)、Multi(把數(shù)據(jù)同時存放到不同store中)等。

隨著信息技術(shù)的發(fā)展,審計環(huán)境也發(fā)生了巨大的變化,在這樣的背景下,審計主體須借助于計算機科學(xué)的迅猛發(fā)展,對被審計單位的各項經(jīng)濟業(yè)務(wù)往來進行審查,才能充分發(fā)揮審計的監(jiān)督作用。近年來,為推進審計信息化建設(shè),計算機輔助審計業(yè)務(wù)已開始應(yīng)用Scribe技術(shù)進行數(shù)據(jù)采集。審計主體采用Scribe技術(shù)開展審計大數(shù)據(jù)的采集工作,在實踐中也體現(xiàn)出了強大的優(yōu)勢:審計從抽樣變?yōu)槿采w,有效降低了審計風(fēng)險;對海量數(shù)據(jù)的快速、靈活分析大大提高了審計效率;審計結(jié)論以數(shù)據(jù)說話,說服力更強,改善了審計效果。

(三)Kafka技術(shù)的應(yīng)用

Kafka從屬于Java陣營,是一種由Scala編程語言編寫的數(shù)據(jù)采集存儲系統(tǒng),用于信息的實時發(fā)布和審計日志的采集與存儲。Kafka技術(shù)在具備Scribe技術(shù)高擴展性與容錯性的同時,還擁有高并發(fā)性、高吞吐量的特點。在審計數(shù)據(jù)采集中,Kafka技術(shù)的架構(gòu)被劃分為信息發(fā)布者、服務(wù)代理和信息接收者三層,Kafka的主要工作流程是將信息發(fā)布者的各類消息通過服務(wù)代理來傳播、分類,最后由信息接收者收取信息。

當(dāng)前的煤礦安全風(fēng)險監(jiān)測系統(tǒng)面臨著諸多亟需解決的問題。在此背景下,為滿足智能化的監(jiān)管需求,可將Kafka技術(shù)應(yīng)用于煤礦監(jiān)管審計之中,通過深入研究Kafka的工作原理以及Hadoop大數(shù)據(jù)平臺的搭建,設(shè)計出區(qū)域煤礦監(jiān)管數(shù)據(jù)服務(wù)平臺。基于Kafka技術(shù)搭建的區(qū)域煤礦監(jiān)管數(shù)據(jù)服務(wù)平臺,與傳統(tǒng)的煤礦監(jiān)管審計平臺相比具有明顯的優(yōu)勢:一方面,使用分布式大數(shù)據(jù)集群存儲煤礦生產(chǎn)安全審計大數(shù)據(jù),可以有效規(guī)避因平臺故障導(dǎo)致的數(shù)據(jù)丟失風(fēng)險,同時,還可降低審計監(jiān)管機構(gòu)的資源投入成本以及各項維修服務(wù)成本,并提供個性化的數(shù)據(jù)業(yè)務(wù)服務(wù);另一方面,煤礦監(jiān)管審計平臺結(jié)合了云計算等新興技術(shù),在數(shù)據(jù)存儲以及資源計算等方面表現(xiàn)強勁,能夠滿足審計大數(shù)據(jù)存儲以及高速計算的要求,為審計主體智能化監(jiān)管提供海量數(shù)據(jù),有益于后續(xù)審計中的大數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)挖掘等工作的開展。

三、感知設(shè)備采集技術(shù)的分析

大數(shù)據(jù)感知設(shè)備采集技術(shù)主要是借助被審計單位的各種信號、圖片、視頻等信息,挖掘與審計業(yè)務(wù)相關(guān)的各種數(shù)據(jù),且大數(shù)據(jù)智能感知系統(tǒng)會對結(jié)構(gòu)化和異構(gòu)化的數(shù)據(jù)進行識別、感知、適配和傳輸。本部分的感知設(shè)備采集技術(shù)主要涉及攝像頭監(jiān)控、數(shù)字會議桌面、遙感等技術(shù)。

(一)攝像頭監(jiān)控技術(shù)的應(yīng)用

攝像頭監(jiān)控技術(shù),是指審計主體通過安裝攝像頭的方式,代替審計人員對特殊的場景進行監(jiān)督與觀察,以節(jié)省相應(yīng)的人力資源。通過攝像頭監(jiān)控技術(shù)采集到的各類圖片、視頻數(shù)據(jù)背后蘊藏的價值是十分巨大的,審計主體應(yīng)充分關(guān)注攝像頭監(jiān)控技術(shù)的重要性。采用攝像頭監(jiān)控代替?zhèn)鹘y(tǒng)的人工觀察,可以及時發(fā)現(xiàn)被審計單位內(nèi)部控制存在的問題,發(fā)現(xiàn)更多的審計疑點,評價內(nèi)部控制的執(zhí)行情況,延展審計取證業(yè)務(wù)的時間范圍與空間范圍。

在資源環(huán)境審計中,審計人員可以在重點監(jiān)控區(qū)域布控攝像頭,并融合3S(遙感、地理信息系統(tǒng)和全球?qū)Ш叫l(wèi)星系統(tǒng))、環(huán)境實時監(jiān)測、無人機遠(yuǎn)程監(jiān)控等技術(shù)與方法,全天候?qū)Ρ粚徲媶挝坏娜粘_\行情況進行監(jiān)控。一旦監(jiān)測到不合理的情況,便可以收集被審計單位的違規(guī)與違法數(shù)據(jù),最大程度上保證審計數(shù)據(jù)的真實性與合理性。在計算機系統(tǒng)以及各項硬件的協(xié)同運行下,審計主體可以對地球表層以及大氣層空間中的各項地理信息數(shù)據(jù)進行采集、預(yù)處理、分析、計算、顯示、描述,將對應(yīng)地理區(qū)域內(nèi)發(fā)生的各種自然現(xiàn)象進行分析和處理,把復(fù)雜的規(guī)劃、管理、決策問題化繁為簡,這將極大地促進審計模式、審計工作方式的轉(zhuǎn)型升級,并為審計全覆蓋的實現(xiàn)提供更為先進、自然的手段與技術(shù)。

(二)數(shù)字會議桌面技術(shù)的應(yīng)用

數(shù)字會議桌面技術(shù)是對傳統(tǒng)會議模式的創(chuàng)新,該會議系統(tǒng)集音頻視頻播放、會議簽到、會議討論、會議日程提醒、信息接收與發(fā)送、投票表決、資源共享等服務(wù)于一體,具備高度數(shù)字化、智能化與網(wǎng)絡(luò)化的特點。數(shù)字會議桌面主要應(yīng)用了圖像音頻視頻處理技術(shù)、網(wǎng)絡(luò)處理技術(shù)和會議集中控制技術(shù)等。

隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,未來的數(shù)據(jù)量必然會呈指數(shù)式上漲,數(shù)字會議桌面背后隱藏的大量被審計單位日常數(shù)據(jù),將來會成為審計工作的重點內(nèi)容之一。尤其是在財經(jīng)法紀(jì)審計業(yè)務(wù)中,審計人員使用基于數(shù)字會議桌面的智能數(shù)據(jù)采集技術(shù),可以迅速捕捉有用的審計信息,比如,核實會議的簽到情況,檢查會議的內(nèi)容、安排、主題、報告,與會議相關(guān)的圖片、視頻、文本等資料,以及會議中討論事項的表決、投票情況等。

(三)遙感技術(shù)的應(yīng)用

遙感技術(shù)通過使用探測儀器,在不接觸探測目標(biāo)的情況下,從遠(yuǎn)處對目標(biāo)的電磁波特征進行記錄,并分析其特征以及變化。當(dāng)前,遙感技術(shù)廣泛應(yīng)用于資源環(huán)境審計大數(shù)據(jù)采集過程中,主要采集被審計單位對水資源、林業(yè)資源、礦業(yè)資源等的利用情況與生態(tài)環(huán)境保護情況相關(guān)的數(shù)據(jù)。相較于傳統(tǒng)的審計技術(shù)與方法,遙感技術(shù)具有數(shù)據(jù)采集范圍廣,獲取數(shù)據(jù)速度較快、采集周期短,采集手段多樣,采集數(shù)據(jù)量大,不受地形地貌等自然條件的限制等優(yōu)勢。

遙感技術(shù)多用于資源環(huán)境審計大數(shù)據(jù)的采集,如審計主體對水、土、林、礦等資源利用和生態(tài)環(huán)境保護情況的核查和審查,有時也應(yīng)用于城市建設(shè)和管理審計之中。遙感系統(tǒng)由數(shù)據(jù)源、數(shù)據(jù)獲取、數(shù)據(jù)處理三個重要部分組成。數(shù)據(jù)源是遙感探測的目標(biāo)物,為遙感探測提供了獲取數(shù)據(jù)的依據(jù);數(shù)據(jù)獲取運用遙感技術(shù)裝備,比如,遙感平臺和傳感器記錄目標(biāo)物電磁波特性;數(shù)據(jù)處理通過運用光學(xué)儀器和計算機設(shè)備等硬件設(shè)施對所獲取的遙感數(shù)據(jù)進行校正、分析和解譯處理。運用遙感技術(shù)對數(shù)據(jù)進行校正、分析和解譯處理,可以掌握或清除遙感原始數(shù)據(jù)的誤差,從而梳理、歸納出被探測目標(biāo)物的影像特征。在自然資源資產(chǎn)離任審計中,可將遙感影像作為數(shù)據(jù)源,獲取領(lǐng)導(dǎo)干部任期內(nèi)自然資源資產(chǎn)的客觀時空分布狀況,通過持續(xù)性監(jiān)測獲取自然資源資產(chǎn)時空變化信息,最終反映實際的自然資源資產(chǎn)時空分布和變化情況。

四、網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)的分析

網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)是指審計主體利用人工智能等新興技術(shù),從網(wǎng)站上獲取與被審計單位業(yè)務(wù)相關(guān)的數(shù)據(jù)資料,將非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,并存放到提前設(shè)置好的存儲系統(tǒng)之中。本部分以網(wǎng)絡(luò)爬蟲和自然語言處理為例,闡釋二者在審計數(shù)據(jù)采集過程中的應(yīng)用。

(一)網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用

網(wǎng)絡(luò)爬蟲是一種模擬人點擊網(wǎng)頁的操作,利用互聯(lián)網(wǎng)的鏈接地址來查找相關(guān)網(wǎng)頁,在讀取完該網(wǎng)頁的全部信息之后,會自動搜索網(wǎng)頁中的各種鏈接,按照這個原理循環(huán)往復(fù)地操作,以此實現(xiàn)自動抓取所需網(wǎng)頁全部內(nèi)容的技術(shù)。網(wǎng)絡(luò)爬蟲技術(shù)被廣泛應(yīng)用于審計數(shù)據(jù)收集、輿情監(jiān)測、咨詢業(yè)務(wù)等審計情境。網(wǎng)絡(luò)爬蟲會按照事先設(shè)定好的規(guī)則,自動采集所有可以訪問頁面的全量數(shù)據(jù),在非人工干預(yù)的情形下實現(xiàn)瀏覽器與服務(wù)器的交互操作。與傳統(tǒng)的人工數(shù)據(jù)收集相比,網(wǎng)絡(luò)爬蟲技術(shù)具備精準(zhǔn)、大范圍、高效采集等優(yōu)勢。

近年來,網(wǎng)絡(luò)爬蟲技術(shù)被廣泛應(yīng)用于互聯(lián)網(wǎng)金融審計業(yè)務(wù)中,在審計大數(shù)據(jù)的采集環(huán)節(jié)發(fā)揮著重要作用。對于互聯(lián)網(wǎng)金融企業(yè)來說,僅僅依靠被審計單位提供的業(yè)務(wù)數(shù)據(jù)和財務(wù)數(shù)據(jù),很難讓審計人員在審計過程中發(fā)現(xiàn)企業(yè)的違法違規(guī)交易、網(wǎng)絡(luò)非法集資、互聯(lián)網(wǎng)金融信息安全等問題。傳統(tǒng)的審計過程僅僅依靠被審計單位提供的內(nèi)部數(shù)據(jù),已經(jīng)無法滿足大數(shù)據(jù)審計的需要。商業(yè)銀行在面對小微企業(yè)貸款時,也存在著類似的問題。由于客戶的貸款信息由自己報送,因此,信息的真實性、可靠性與完整性需要進一步查驗。在大數(shù)據(jù)背景下,網(wǎng)絡(luò)爬蟲技術(shù)作為大數(shù)據(jù)審計采集環(huán)節(jié)的前端技術(shù),結(jié)合文字識別、語音識別、可視化等大數(shù)據(jù)技術(shù),能夠更為便捷地收集被審計單位的網(wǎng)絡(luò)外部公開數(shù)據(jù),采集來的審計大數(shù)據(jù)更加真實、完整、可靠,能及時填補審計專項工作的數(shù)據(jù)缺口,并為之后的大數(shù)據(jù)審計分析奠定堅實的數(shù)據(jù)基礎(chǔ)。

(二)自然語言處理技術(shù)的應(yīng)用

自然語言處理作為“大智移云”(大數(shù)據(jù)、智能化、移動互聯(lián)網(wǎng)和云計算)發(fā)展的代表性技術(shù),是一種讓計算機能夠像人類一樣,理解與學(xué)習(xí)自然語言、處理閱讀和書寫的新興技術(shù),它可以用來處理與審計相關(guān)的文本信息,避免人工檢查的知識局限以及漏判、誤判等情況的發(fā)生。得益于機器學(xué)習(xí)算法以及深度學(xué)習(xí)算法的發(fā)展,審計人員可利用計算機對搜集來的網(wǎng)絡(luò)數(shù)據(jù)進行系統(tǒng)性的分析,從中篩除冗余信息并挖掘關(guān)鍵數(shù)據(jù),為后續(xù)審計工作流程提供數(shù)據(jù)。

傳統(tǒng)的信息系統(tǒng)審計通常采用訪談、現(xiàn)場觀察、文檔查看、抽樣、穿行測試等方法收集證據(jù),但上述方法需要以審計人員具備充分的經(jīng)驗為基礎(chǔ),并對相關(guān)問題進行逐一搜索或者重點排查。在大數(shù)據(jù)審計的環(huán)境下,文本數(shù)據(jù)的數(shù)量大幅增加使得審計人員對信息系統(tǒng)審計線索的發(fā)現(xiàn)愈發(fā)困難,傳統(tǒng)的人工瀏覽方式難以滿足大數(shù)據(jù)環(huán)境下對非結(jié)構(gòu)化數(shù)據(jù)審計的需求,被審計單位的某些信息系統(tǒng)問題經(jīng)常被忽略。在這種背景下,運用自然語言處理技術(shù)開展信息系統(tǒng)審計至關(guān)重要。基于自然語言處理技術(shù)的信息系統(tǒng)審計大數(shù)據(jù)采集原理可概括如下:通過對被審計單位現(xiàn)場調(diào)查和訪談之后,采集與被審計單位審計業(yè)務(wù)相關(guān)的信息,如各類財務(wù)數(shù)據(jù),各項業(yè)務(wù)數(shù)據(jù),運營過程中的各項采購、生產(chǎn)、銷售單據(jù)等結(jié)構(gòu)化數(shù)據(jù),以及與審計活動相關(guān)的圖片、文本、視頻、法律法規(guī)、政策、輿情數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)。針對采集到的審計大數(shù)據(jù),審計人員可以利用自然語言處理技術(shù)實現(xiàn)標(biāo)簽云分析等操作,對非結(jié)構(gòu)化數(shù)據(jù)進行建模與分析,從審計大數(shù)據(jù)信息中全面獲取審計證據(jù)并快速發(fā)現(xiàn)異常情況,可以極大地提高審計人員的工作效率與審計質(zhì)量。

五、結(jié)語

大數(shù)據(jù)審計采集技術(shù)的發(fā)展極大地促進了審計人員數(shù)據(jù)收集的質(zhì)量與效率,奠定了堅實可靠的審計數(shù)據(jù)基礎(chǔ),為大數(shù)據(jù)審計后續(xù)環(huán)節(jié)的開展減負(fù)增效。本文建立了以數(shù)據(jù)庫采集技術(shù)、系統(tǒng)日志采集技術(shù)、感知設(shè)備采集技術(shù)、網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)為中心的大數(shù)據(jù)審計采集技術(shù)體系,并在此基礎(chǔ)上,將其分別融入到計算機輔助審計、資源環(huán)境審計、互聯(lián)網(wǎng)金融審計等審計實務(wù)中,為大數(shù)據(jù)審計采集技術(shù)的未來發(fā)展及應(yīng)用提供了理論支持和可供參考的實踐模式。強化對大數(shù)據(jù)審計采集技術(shù)體系的深層次研究,將有助于發(fā)揮數(shù)據(jù)資源在大數(shù)據(jù)審計工作中的引擎作用,有利于扎實推進審計全覆蓋目標(biāo)的實現(xiàn)。

(作者單位:南京審計大學(xué)會計學(xué)院 ?海安市審計局,郵政編碼:211815,電子郵箱:215402@nau.edu.cn)

主要參考文獻(xiàn)

[1]鄧曉嵐,余遠(yuǎn)劍,茅金焰,等.領(lǐng)導(dǎo)干部自然資源資產(chǎn)離任審計的大數(shù)據(jù)技術(shù)應(yīng)用研究[J].審計研究, 2020(5):19-29

[2]徐超,陳勇,葛紅美,等.基于大數(shù)據(jù)的審計技術(shù)研究[J].電子學(xué)報, 2020(5):1003-1017

[3]袁濤.“3S”技術(shù)在資源環(huán)境審計中的運用[J].中國內(nèi)部審計, 2020(10):74-78

主站蜘蛛池模板: 国产在线拍偷自揄观看视频网站| 欧美人与性动交a欧美精品| 欧美成人手机在线观看网址| 亚洲视频在线网| 亚洲人成网址| 久久情精品国产品免费| 日韩毛片在线播放| 国产一级片网址| 欧美区一区二区三| 久久久久无码精品国产免费| 亚洲精品国产首次亮相| 精品丝袜美腿国产一区| 91精品视频在线播放| 国产爽妇精品| 欧美高清三区| 亚洲无码四虎黄色网站| 国产成人精品一区二区秒拍1o| 色网站免费在线观看| 亚洲第一视频区| 日韩福利视频导航| 99色亚洲国产精品11p| 中文字幕1区2区| 国产91在线|日本| 99re视频在线| 亚洲第一成年网| 91丝袜在线观看| 亚洲区欧美区| 久久 午夜福利 张柏芝| 国产亚洲精品自在久久不卡| 国产视频 第一页| 亚洲乱伦视频| 亚洲视频欧美不卡| 国产熟睡乱子伦视频网站| 久久semm亚洲国产| 国产一区二区精品福利| 亚洲精品制服丝袜二区| 国产丝袜一区二区三区视频免下载| 激情综合婷婷丁香五月尤物| 成人毛片在线播放| 国产精品毛片一区视频播| 日韩精品亚洲人旧成在线| 国内毛片视频| 亚洲三级影院| 九色在线视频导航91| 伊人蕉久影院| 国产成人AV综合久久| 在线国产毛片| 日本亚洲国产一区二区三区| 国产无码精品在线| 免费高清a毛片| 亚洲成aⅴ人在线观看| 欧美色99| 亚洲av无码久久无遮挡| 亚洲精选高清无码| 亚洲天堂免费观看| 国产成人福利在线| 波多野结衣中文字幕久久| 中文字幕 91| 免费 国产 无码久久久| 国产三级国产精品国产普男人| 婷婷亚洲最大| 免费av一区二区三区在线| 中文字幕不卡免费高清视频| 国产亚洲欧美日韩在线观看一区二区| 制服丝袜在线视频香蕉| 日本伊人色综合网| 亚洲一级无毛片无码在线免费视频| 久久午夜夜伦鲁鲁片不卡| 女人一级毛片| 91九色国产在线| 欧美一区二区三区不卡免费| 狠狠干综合| 日韩免费视频播播| 国产99欧美精品久久精品久久| 国产成人盗摄精品| 欧美精品1区2区| 香蕉蕉亚亚洲aav综合| 久久人人妻人人爽人人卡片av| 尤物国产在线| 丝袜高跟美脚国产1区| a级毛片毛片免费观看久潮| 中文字幕永久视频|