陳 偉
隨著被審計單位信息化趨向普及,審計對象的信息化使得審計信息化成為必然。信息技術的發展使得審計信息化向遠程、動態、實時的方向發展,遠程聯網審計或持續審計(Continuous auditing,CA)成為審計信息化的一個重要發展方向,并已得到學術界、審計人員、以及軟件開發人員的廣泛研究與應用(CICA/AICPA,1999; Vasarhelyi等,2012;Gonzalez,2012;Alles,2013)。我國高度重視審計信息化工作,為了實現現場審計和遠程審計相結合,提高審計工作效率,積極推進聯網審計工作,2015年12月8日,中共中央辦公廳、國務院辦公廳印發的《關于實行審計全覆蓋的實施意見》指出,“創新審計技術方法是實現審計全覆蓋的一個重要手段,要求構建大數據審計工作模式,提高審計能力、質量和效率,擴大審計監督的廣度和深度,同時,探索建立審計實時監督系統,實施聯網審計”。2017年3月中共中央辦公廳、國務院辦公廳印發的《關于深化國有企業和國有資本審計監督的若干意見》提出“創新審計理念,完善審計監督體制機制,改進審計方式方法”。隨著信息技術的發展,大數據審計成為目前審計領域研究與應用的熱點問題。國際內部審計師協會2017年發布了《理解與審計大數據》指南(GTAG,2017);美國注冊會計師協會AICPA(2014)分析了大數據環境對審計工作的影響。國內外學術界也高度關注大數據技術在審計中的應用。Earley(2015)分析了大數據技術給審計工作帶來的機遇和挑戰,研究了大數據技術在CPA審計中的應用;Gepp(2018)研究了大數據在審計研究與實踐中的目前現狀與未來機遇;陳偉(2017)分析了大數據審計的現狀與發展,以及大數據環境下電子數據審計的機遇、挑戰與方法(陳偉,2016),研究了大數據環境下基于模糊匹配的審計方法(陳偉,2016),基于Benford定律的大數據審計方法(陳偉,2017),大數據環境下基于數據可視化技術的電子數據審計方法(陳偉,2017),以及基于大數據可視化技術的審計線索特征挖掘方法(陳偉,2018)。
由以上分析可知:聯網審計是目前審計研究與應用的一個重要方向。大數據時代的到來給聯網審計帶來了機遇和挑戰,比如,目前的聯網審計實現方法能否完全滿足大數據環境下的審計需要?大數據環境對聯網審計的數據采集、數據存儲、數據分析等關鍵環節有哪些影響?哪些審計數據方法可以用于大數據環境下的聯網審計數據分析之中?大數據技術如何提高聯網審計的效果?如何控制大數據環境對聯網審計產生的風險?雖然聯網審計近年來得到國內外學術界的高度重視,但目前關于聯網審計的研究多集中在聯網審計的實現技術、應用和績效評價等方面(Gonzalez,2012;Alles,2013;陳偉,2012;Chen,2012;),而對于大數據環境下的聯網審計問題目前尚缺少系統、深入的研究,影響了大數據環境下聯網審計技術的廣泛應用。
綜上所述,研究大數據環境下的聯網審計風險問題具有重要的理論意義和應用價值。本文結合目前大數據審計及聯網審計的研究與應用現狀,研究大數據環境下聯網審計方法及其風險控制問題。
對我國來說,信息化環境下如何審計被審計單位的電子數據,發現大案、要案是一項最重要的任務,特別是政府審計的一項重要任務。國際內部審計師協會也高度關注電子數據分析技術(Lambrechts等,2011)。可見,電子數據審計是目前國內外審計領域關注的重點。審計人員根據審計任務的需要,到被審計單位現場采集電子數據,然后對這些電子數據進行預處理并完成數據分析,獲得審計證據,這種開展電子數據審計的方式可稱之為現場電子數據審計,這是目前電子數據審計的主要方式。如前文所述,近年信息技術的發展使得審計信息化向遠程、動態、實時的方向發展,遠程聯網審計成為審計信息化的一個重要發展方向。我國正在研究與實施的聯網審計也是持續審計的一種方式,相對于現場電子數據審計,它可以看成是一個采用遠程聯網方式從被審計單位采集電子數據,并對其進行分析,獲取審計證據的過程,也被稱為面向數據的聯網審計(國家863計劃審計署課題組,2006;陳偉,2012:Chen,2012)。聯網審計技術的應用為審計單位積累了大量的電子數據,這為開展審計大數據分析提供了條件。其在技術實現上主要分成四個部分:
(1)審計數據采集:根據審計工作的需要,采集被審計單位的電子數據。
(2)審計數據傳輸:把采集來的電子數據通過網絡傳輸到審計單位中去,供審計分析使用。
(3)審計數據存儲:對于采集到的電子數據采取一定的方式進行存儲。
(4)審計數據分析:對采集來的電子數據進行分析,從而發現審計線索。
除了上述介紹的遠程聯網審計,在實際的審計工作中,在風險可控的情況下,審計人員有時會在審計現場通過局域網或專用網絡直接訪問被審計單位的數據庫服務器,進行數據的查詢和分析,發現審計線索,完成審計工作,這種聯網核查的審計方法有時也被稱為聯網審計。由于這種聯網審計方式一般在被審計單位內部局域內進行,且僅能進行數據查詢操作,相對風險較少,因此,這種聯網審計方式不在本文研究的范圍之內。

圖1 大數據環境下的聯網審計實現方法原理

圖2 審計數據分區管理示意圖
1.常用聯網審計數據采集與傳輸方式存在風險與挑戰
由前文分析可知,傳統的聯網審計數據采集的實現是通過在被審計單位數據服務器端放置一臺稱之為“數據采集前置機”的服務器,通過在“數據采集前置機”上安裝數據采集軟件,把審計需要的財務數據和相關經濟業務數據,采集到部署在本地的審計數據采集服務器(前置機)中,從而完成聯網審計的審計數據采集工作。大數據環境下,數據量巨大,傳統借助網絡環境的數據傳輸方式將不能滿足大數據環境下的數據傳輸需要,數據傳輸安全、數據傳輸速度、數據傳輸成本等都給聯網審計的實施帶來巨大挑戰。這些挑戰主要表現為:一是需要采集數據的被審計單位數量廣、數據量大。為了實現審計全覆蓋,同時也是為了更好地發揮大數據審計的優勢和威力,更好地實現對不同來源數據的比較分析,更全面的發現相關問題線索,需要采集更多單位的電子數據,包括金融、財政、稅收、海關、企業數據等,采集的層次不僅是省級單位,還包括基層單位。二是除了需要從被審計單位內部采集數據之外,還需要采集相關外部數據。在這種環境下,若仍然采用原來的方式,則聯網審計的成本會大大增加。三是大數據環境下,被審計單位產生的數據量大,一些單位每天產生的數據量高達數億條,這對聯網審計系統的數據采集和數據傳輸帶來很大的風險與挑戰。
2.大數據環境下的聯網審計數據質量風險
大數據環境下,影響數據真實性的因素很多,為了能得到正確、可靠的審計證據,防止大數據環境下的“假賬真審”,必須保證采集來的相關數據的真實性和可靠性,審計大數據質量控制是防范與控制大數據環境帶來的審計風險的一個關鍵問題。傳統環境下,聯網審計采集被審計單位的數據大多是結構化數據;大數據環境下,數據來源更豐富,這些數據源于社交媒體數據,包括傳感器信息、海量圖像文件、Web文本、電子郵件等。聯網審計不僅僅需要采集被審計單位的內部數據(結構化數據、非結構化數據),還需要采集被審計單位外部的數據,因此,數據質量控制上更加復雜,審計風險更大(比如,從公共網絡上采集來的相關數據的可靠性、完整性、準確性等很難得到驗證)。這給充分獲得大數據帶來的價值帶來了障礙,影響了審計取證的查全率,造成了一定的審計風險。
3.聯網審計大數據采集的不全面帶來風險
大數據環境下,審計單位需要訪問第三方數據來源并將自己信息與外部信息進行集成以充分發揮大數據的潛力。然而,目前尚未建立起數據訪問與數據共享機制。這為充分獲得大數據帶來的價值帶來了障礙,影響了審計取證的查全率,造成了一定的審計風險。

(1)大數據環境下,通過聯網審計從被審計單位采集來的電子數據是巨量的,已有的聯網審計數據存儲技術將不能完全滿足大數據環境的需要,被審計單位的大數據為審計數據的存儲提出了挑戰,研究適合大數據環境的聯網審計數據存儲技術成為開展聯網審計的一項重要任務。大數據環境下,聯網審計數據的存儲方法發改變,包括存儲設施、存儲架構、數據訪問機制等。另外,在進行數據存儲時,審計大數據的集成也是一個問題,需要把從不同被審計單位或同一被審計單位中不同數據源中的各種不同數據整合在一起,這些數據往往涉及諸多數據源,并且它們的數據模式也可能不一。
(2)大數據環境下,為了獲得全面、可靠的審計證據,需要從眾多的被審計單位采集大量敏感和重要的數據來分析,這些審計大數據常常會含有一些詳細的、潛在的能夠反應被審計單位機密的信息,這些采集來的數據集中存儲在審計單位的數據中心,來自網絡的攻擊會影響審計大數據的安全,一些對審計數據中心的惡意進攻也會造成更嚴重的后果,這就需要審計大數據要有合適的,貫穿審計數據采集、傳輸、存儲、維護、分析等整個數據生命周期的控制和保護,以減少審計風險。
(3)大數據環境下,聯網審計的數據存儲風險還包括災難恢復與業務持續風險。大數據環境下,審計數據中心的災難恢復與業務持續策略對聯網審計有著重要的影響,主要表現為:審計數據中心如何考慮災難恢復計劃DRP(Disaster Recovery Plan,災難恢復計劃)與BCP(Business Continuity Plan,業務持續計劃)?審計數據中心的數據是否有備份?當發生災難事故時,數據恢復的時間有多長?另外,審計單位和被審計單位使用的網絡連接是否可靠?數據傳輸是否可靠?當網絡出現故障時,會影響聯網審計的可靠性。
通過聯網審計采集來的電子數據需要采用相關審計工具和方法進行分析,從而發現審計線索,獲得審計證據。目前常用的審計數據分析方法主要有SQL數據查詢、審計抽樣、統計分析、數值分析等,審計大數據的復雜性給數據分析帶來了一定困難。由大數據的特點可知,目前現有的聯網審計方法將不能完全滿足大數據環境下聯網審計的需要,因此,大數據環境下開展大數據分析需要更多的技術與方法。大數據環境下,數據信息全面,隱藏的或未知的信息較多,采集來的大量數據為審計數據分析提供了基礎,需要強大、高效、實時的審計數據分析方法。另一方面,大數據環境下,數據復雜性也急劇增長,其多樣性(多源、異構、多模態、不連貫語法或語義等)、低價值密度(大量不相關信息、知識“提純”難度高)、實時性(數據需實時生成、存儲、處理和分析)等復雜特征日益顯著。審計單位現有的計算機系統和審計軟件不能應對急劇增長、種類眾多的被審計數據,審計大數據的復雜性給數據分析帶來了一定困難,造成了審計數據分析的風險。因此,大數據環境下,如果不采用大數據技術實現從傳統的審計數據分析向審計大數據分析的過度,必將影響審計數據分析結果和分析效率,造成一定的審計風險。
由前文分析可知,大數據環境下,聯網審計的數據采集存在一定的風險,一方面是因為數據量大、結構復雜;另一方面是數據的傳輸風險;除了需要從被審計單位內部采集數據之外,還需要采集相關外部數據。因此,目前在審計實務中,對于數據采集,除了已有的聯網自動采集數據方法之外,大數據環境下,也可以采用其他數據采集方式為開展聯網審計提供基礎,比如,在審計項目實施期間按規定程序依法現場采集相關數據、每年定期從相關單位采集數據、被審計單位定期報送相關數據等。因此,在實際的聯網審計實施過程中,可以采取聯網審計和數據報送相結合的方式來控制和減少聯網審計的實施風險,其原理如圖1所示。
1.傳統聯網審計方法
針對相對固定、數據量小、聯網條件成熟的被審計單位,仍可以繼續采用原有的聯網數據采集方式。在聯網采集數據的過程中,需要針對不同傳輸環境和數據敏感級別,應采用差異化的加密及傳輸方式進行傳輸,確保數據傳輸的安全性和完整性。

圖4 遠程數據查詢服務
2.基于數據報送的聯網審計方法
對于那些比較分散、審計周期不固定,或者是數據量極大,或者是聯網條件不成熟的被審計單位,可以采用定期數據報送方式采集。在數據報送時,一般需要采用對數據加密后通過移動介質拷貝、“雙人交付”的方式進行,在報送的過程中要注意做好介質交接記錄。另外,數據報送時,被審計單位根據審計機關要求的數據格式提供數據,從而有效地控制數據質量風險。
3.基于網絡爬蟲技術的數據采集方法
基于網絡爬蟲技術的數據采集方法可以有效地彌補審計大數據不全面性的不足,審計人員可以將被審計單位內部數據與外部相關數據進行集成以充分發揮大數據的潛力,提高了審計取證的查全率,減少審計風險。另一方面,審計人員在采用這種數據采集方式時,注意選擇好合適的公開數據源(數據采集對象),注意加強數據驗證,保證采集來的相關公開數據的可靠性、完整性和準確性,減少審計風險。
借助云計算平臺或分布式文件系統進行大數據環境下的聯網審計數據存儲與管理,這種方式可以解決大數據環境下聯網審計數據的存儲問題。借助云計算平臺或分布式文件系統,在審計單位構建聯網審計的海量數據存儲系統,對采集來的數據實現按不同的應用(邏輯)、或按數據特征(類型)進行分區管理,如圖2所示。
1.加強日常安全管理工作
大數據環境下聯網審計的數據管理安全涉及到管理、人員、技術等各個方面,因此,數據安全管理工作可以從管理安全(如安全管理制度與管理組織)、人員安全以及技術安全(如計算機機房、操作系統、數據庫系統、網絡通訊、軟件、硬件等)三個方面出發。
(1)管理安全
審計機關應在聯網審計的數據安全管理工作方面要建立相應的安全管理職能部門,設置相應的安全管理崗位,為信息系統的安全管理提供組織上的保障;建立相應的管理制度,并要求相關部門嚴格執行管理制度。
(2)人員安全
在數據管理方面,審計機關要制訂詳細的數據管理制度和流程來嚴格管理數據的采集、存貯、分析、傳輸、分發、備份、恢復、清理和銷毀;在內部數據管理崗位設置和人員安排方面,審計機關要注意做到職責分離;在數據使用方面,審計機關要注意提高審計人員的數據安全意識、加強數據安全重要性教育,建立數據使用、下載等過程的審批管理制度。
(3)技術安全
審計機關要注意防范數據中心運行環境中影響信息系統正常、可靠運行的安全隱患,保護數據中心相關信息系統中的各種資源免受毀壞、替換、盜竊和丟失的威脅,注意防范環境故障風險,如電力故障、設備故障、溫度、濕度、靜電、恐怖襲擊等。

2.采用分級保護方式進行數據應用管理
為了減少大數據環境下聯網審計的數據應用風險,根據采集來的被審計數據對象和敏感程度的不同,在數據應用管理上要進行分級別保護,比如:
(1)對于一般基礎類數據,如稅務、工商等數據,可以對相關審計機關開放查詢使用權限。
(2)對于特定的專業類數據,需要根據年度開展的審計項目實際需要授權。
(3)對于跨區域、跨行業的數據,需要相關部門共同審批。
(4)對于其他特殊需要數據,需要根據實際情況進行審批。
3.加強業務連續性管理與控制
業務連續性管理是為了防止業務活動中斷,保護關鍵業務流程不受信息系統失效或自然災害的影響,將意外事件或災難對業務的影響降低到最低水平。傳統環境下,通過聯網審計采集來的數據量小,在意外事件或災難發生后,一般可以比較容易恢復,或者重新采集相關數據。但在大數據環境下,聯網審計需要采集的數據量大,數據來源廣,數據結構復雜,數據預處理時間長,且預處理成本高。因此,在意外事件或災難發生時,若沒有合適的針對聯網審計的業務連續性管理措施,也很難對業務進行恢復。大數據環境下聯網審計數據中心無在線生產系統,時效性低,對數據運算速度要求相對較低,因此,對于其業務連續性管理,需要確保在意外事件或災難發生后,能在需要的時間內恢復業務運作所需的IT基礎設施、數據管理系統和數據查詢與分析服務,最終使聯網審計系統能夠按照聯網審計方案中規定的水平與恢復時間等目標對外提供服務。
為了做好大數據環境下聯網審計數據的業務連續性管理,可以采取以下措施:
(1)指定一個部門負責聯網審計數據的業務連續性管理工作。
(2)制定規范的業務連續性計劃,以及業務連續性管理相關規章制度與人員名單。
(3)制定規范的IT服務連續性計劃,包括相關的規章制度、文件以及人員名單。
(4)做好年度應急演練工作。
大數據環境下,聯網審計給審計人員提供了豐富的數據,如果僅僅使用原有的聯網審計數據分析方法,則不能充分利用這些數據發現相關問題,造成審計檢查風險。因此,為了減少大數據環境下的聯網審計數據分析風險,審計人員可以采用以下數據分析方法:
1.對采集來的數據進行非現場集中分析
通過對采集來的數據進行集中分析,審計人員可以發現相關線索,從而為現場審計提供服務。面向大數據環境的聯網審計數據分析方法原理如圖3所示。相關分析方法分析如下:
(1)常用的SQL查詢方法
基于SQL的數據查詢方法一般是通過對審計問題的分析,構建相應的SQL語句,然后通過在一些數據庫工具(如Microsoft Access、SQL Server等)或審計軟件中運行以上SQL語句,查找出相關審計線索。大數據環境下,基于SQL的數據查詢方法不僅僅局限于對一個部門數據的分析,而且更多的是要對財務數據和業務數據之間,不同部門來源數據之間,以及結構化數據、半結構化數據、非結構化數據的分析。這種方法仍然是目前比較常用和有效的方法。
(2)大數據可視化技術
大數據環境下,數據可視化技術以更簡潔地表達被審計大數據的信息,有助于審計人員探索、分析和解釋復雜的海量數據,借助數據可視化技術,審計人員能夠“洞察”被審計數據信息中內在因素的模式和關聯,快速從大數據中發現審計線索及其特征。基于大數據可視化技術的審計線索特征挖掘方法原理為:在審計大數據集成和預處理的基礎上,借助某種大數據可視化軟件對被審計數據進行可視化建模分析。審計人員結合自己的審計背景知識,發揮人類視覺系統的敏感性,通過對可視化的結果圖形和圖像進行分析、觀察和認知,從總體上系統地理解和分析被審計數據的內涵和特征,從而發現審計線索,獲得審計證據。同時,根據需要,交互地改變可視化軟件的設置,改變輸出的可視化圖形和圖像,從不同的方面獲得對被審計數據的理解,從而全面發現審計線索的特征,分析產生相關問題的規律和原因。
(3)其他大數據分析方法
為了滿足大數據分析的需要,需要研究如何把各種高性能處理算法、智能搜索與挖掘算法等應用于大數據審計之中,這些方法可以彌補常用的基于SQL的數據查詢方法的不足,更好地幫助審計人員從大數據中發現相關審計線索,減少審計檢查風險。典型的方法有:
一是社交網絡分析技術。社交網絡分析(Social Network Analysis)是指基于信息學、數學、社會學、管理學、心理學等多學科的融合理論和方法,為理解人類各種社交關系的形成、行為特點分析以及信息傳播規律提供的一種可計算的分析方法。目前,社交網絡分析在市場營銷、廣告、企業招聘、預測票房等方面得到應用,一些流行的大數據可視化工具,如Python、Gephi等也具有強大的社交網絡分析功能。因此,大數據環境下,聯網審計采集來的大數據可以借助社交網絡分析方法發現相關審計線索。
二是圖形數據庫技術。圖形數據庫是大數據時代的一種新型數據庫,它是基于數學中圖論的理論和算法而實現的高效處理復雜關系網絡的新型數據庫系統。從數據庫的結構來看,它包含的概念非常簡單,只有節點和關系。節點可以帶標簽,節點和關系也都可以帶屬性。圖形數據庫專門為處理復雜關系而創建出來,擅長處理大量的、復雜的、互聯的、多變的網狀數據,且處理效率遠遠高于傳統的關系型數據庫。因此,它特別適用于社交網絡、實時推薦、金融征信系統領域的大數據分析。一些流行的圖形數據庫工具被開發出來,如Neo4J、Titan 等。大數據環境下,聯網審計采集來的大數據可以借助圖形數據庫技術發現相關審計線索。
2.提供遠程數據查詢和分析服務
為了更好地服務于現場審計項目,在實際的審計工作中,在風險可控的情況下,聯網審計數據中心可以為審計人員開放相關數據,審計人員通過審計專網查詢相關數據庫,進行數據的查詢和分析,完成審計工作,其原理如圖4所示。在以上數據使用過程中,為了控制審計風險,需要做到:
(1)根據實際審計項目需要開放相應的數據。審計機關和審計人員嚴格按照授權使用的范圍、用途、方式等使用相應的數據。
(2)加強風險控制,分級開放數據。權限賬戶的權限管理必須基于“最小授權”原則,并需嚴格限定賬戶的使用范圍和使用目的。
(3)數據使用嚴格遵守保密管理規定,審批流程執行到位。數據的使用過程要有完整的記錄控制措施,完整記錄數據分析和導出的操作時間、操作人、操作方式、數據內容等相關信息,并留存授權資料以供檢查使用。
(4)加強對數據使用人員的安全保密教育,強化對數據使用安全重要性的認識。
(5)相關數據分析均在審計機關特定的數據分析平臺上進行,對于經授權下載在終端中使用的相關數據,在使用完畢后應及時銷毀。