尹勇 殷瀟(南京審計大學)
據統計,大數據平臺建設過程中60%工作量集中于審計數據接入/抽取、清洗/轉換、加載等審計數據治理集成工作;而在失敗的大數據應用項目中約有70%以上源自無效的數據治理集成方式。
現有審計數據分析需要有良好的審計數據質量進行支撐,所以審計數據治理集成模塊在大數據應用項目中具有極其重要的地位。在審計數據治理集成的過程中,我們經常面臨三類主要的問題:
(1)審計數據源和審計數據格式眾多,需要處理的審計數據日益復雜。目前各種業務系統每天都在產生大量的審計數據,審計數據源頭眾多,審計數據的格式差異很大,包括常規的文本格式、審計數據庫格式,甚至某些應用的私有格式,多種異構審計數據源整合難度非常大。除了審計數據源和審計數據格式異常復雜,審計數據內容也呈現爆炸式擴增,例如業務內容審計數據、業務運行日志審計數據、位置審計數據、時間空間審計數據等,這些日益復雜的審計數據對于大數據業務系統來說是一個巨大的挑戰。
(2)大數據審計業務需求變化快,傳統審計數據處理方式跟不上。由于大數據應用的特殊性,不斷接入新的審計數據和調整審計數據模型是一項基本工作,而這些每天都是發生的工作,是否都需要不斷地修改和開發才能適應?如果是,那么這絕對是企業資源的巨大浪費。另外大數據應用需要不斷的處理各種新增業務以適應審計數據分析市場的需求,可能是新增審計數據源,可能是新增審計數據模型,可能是新增結果展現。這些突發業務,不斷挑戰著大數據系統的靈活性。大數據應用系統中動輒需要接入數TB每秒、處理總容量數PB甚至幾十PB的審計數據規模,而審計數據分析業務卻需要在海量審計數據中快速獲取業務需要的審計數據,并將審計數據以秒級的速度計算出結果和快速驗證。
(3)審計數據處理過程越來越復雜,審計數據得不到有效治理。審計數據治理集成不是簡單的審計數據堆疊,審計數據放在一起,需要進行科學的分區分層管理,以及統一規范的審計數據命名、審計數據標簽管理。海量審計數據在治理和使用過程中,不斷的進行拆分、合并、關聯、計算、復制,需要更有效的方法保證審計數據的完整性和可回溯性。另外如何高效地識別和處理無效審計數據、垃圾審計數據和錯誤審計數據,也是大數據應用的重大難題。
大數據審計平臺主要采用Hadoop/Spark的技術架構體系作為核心技術框架,可以整合多個異構業務數據源,實現數據導入、清洗、轉化的一體化管理。本“大數據層”治理的數據結構包含:
(1)原始數據庫:從各信息系統采集來的原始數據,完全保留原有的數據格式和存儲方式,以防止數據丟失和便于長期歷史數據存根,在經過處理以后以冷數據的方式存儲。
(2)標準數據庫:從數據源或者原始庫獲取的數據,經過基礎的格式轉換、取值轉換、空值補充、關聯、去重等數據清洗操作以后,形成的遵循相同數據規則的標準化數據集合。
(3)專題數據庫:根據一定的審計業務需求、按照一定的數據模型,從基礎數據庫中關聯抽取的數據集合。
數據接入。現有系統的數據庫多為傳統關系型數據庫,并包含大數據存儲和流式數據等新興數據類型。為了保證審計數據源的全覆蓋,數據治理將規劃支持多種數據源類型的導入。可以支持的數據源種類包括:
(1)傳統關系數據庫。Oracle,Mysql和Domino。
(2)數據存儲。HDFS,Hive,Hbase,GreenPlum,Impala,ElasticSearch,Neo4j,Titan。
(3)其他種類數據源。a.非標準格式:特定行業數據格式,非標準二進制數據,自定義格式可配置(模板、接口);b.標準格式:CSV,TSV,JSON,XML,HTML,Avro File,RCFile,ORC File,Parquet,ASN1,TLV,EML,MSG,PST,PDF,OFFICE格式,WPS格式,ZIP,RAR等。
數據處理。由于各業務系統庫表結構的設計是為了事務性的處理,強調事務處理能力和并發性,要求數據不能冗余。而審計部門存儲的數據是為了數據分析和查詢,要求數據冗余存儲,所以數據中心的表結構和業務系統的表格必然是不一致的,數據從各業務系統抽取到大數據層,需要對接入數據進行清洗、過濾、轉換,獲得審計標準數據。本步驟需要完成以下任務:
(1)把多個不同數據源的數據合并。
(2)不同數據集的轉換和同步,去重。
從歷次普法規劃和決議文件名稱可以看出普法理念的變化。從“一五”普法規劃的“基本普及法律常識”到“二五”至“六五”普法規劃的“法制宣傳教育”再到“七五”普法規劃的“法治宣傳教育”。國家對全民包括農村普法教育的觀念從簡單的法律常識普及轉變為法律宣傳教育,又轉變為法律治理的教育。
(3)數據類型和格式的轉換。
(4)用于不同目標表的數據分離。
數據治理。提供數據質量管理功能,包括數據質量規則管理、數據質量稽核、數據質量報表生成,此功能協助審計人員改善數據質量、提升業務效率。審計人員首先在系統中制定質量規則,包括格式檢查、范圍檢查、疏密檢查等;利用制定好的質量規則對數據進行質量稽核;數據質量稽核結果通過生成質量分析報表進行展示。
審計模型構建是在信息化環境下實施數據式審計的核心建設內容,審計模型構建方法的標準規范是實現大數據審計的重要基礎設施。
審計模型構建方法主要包括3個方面的內容:審計模型目錄體系、審計模型構建、審計模型要素。審計模型目錄體系確定審計模型資源分類、審計模型代碼結構的規范,為審計模型信息資源的積累、使用和共享提供重要條件。審計模型構建方法提出構建審計數據模型的規范,為審計模型的構建提供了較為科學的方法。審計模型要素對模型構成要素進行規范,為審計模型的研制、管理和使用提供了規范。
審計業務及相應的審計方法種類繁多,以此為依據設計的審計模型在種類和數量上也相應繁雜。為了切實高效使用審計模型,首先需要解決審計模型“有什么”“在哪里”的問題,規范審計模型目錄。審計模型目錄體系確定審計模型資源分類、代碼結構的規范,為審計模型信息資源的積累、使用和共享提供重要條件。
審計模型目錄體系包括:審計模型資源分類、審計模型代碼結構。
審計模型分類代碼參考專業計算機審計的分類分級體系,確定統一的代碼規則,便于各專業審計模型目錄體系的代碼編制。
審計模型是審計人員為履行審計職責、實現審計目標,利用信息技術對特定審計事項進行檢查和評價的思路的實現。
審計模型的構建建立在對審計業務理解的基礎上,對審計模型的審計目標與功能、所需數據和相關資料、審計分析步驟、分析步驟的流程圖示、模型執行后的審計結果展示等,逐一研究建立,從而完成審計模型的構建。
審計數據分析系統通過聚焦審計業務應用需求,提供個性化審計業務數據分析模型功能,同時為了減少審計人員重復思考和創建審計業務模型的時間、提高審計效率,審計人員可以利用該功能有計劃地整理收集各領域審計業務應用知識,并將其固化為審計模板,構建審計模板庫,并在推廣應用中不斷優化、增加和更新。數據分析的功能至少包括模型定義、模型分析、模型結果,模型報告、指標定義、指標分析、指標結果和指標預警。
審計工作的核心是數據處理,審計工作面臨著審計對象及規則多樣化、審計過程中重復工作多且效率等問題。
審計數據分析系統屏蔽底層的大數據實現技術細節,根據不同場景的業務需求,將大數據分析、挖掘等能力封裝成獨立的功能模塊,以功能組件的形式為用戶提供便捷易操作的大數據功能。
審計數據分析系統提供豐富的數據處理功能組件,包括數據轉化類、數據清洗轉換類、數據分析類、機器學習類、實用工具類、二次開發類組件。審計人員可通過簡單拖拽功能組件連接組成流程,快速生成個性化審計業務的方式靈活地開展大數據審計工作,隨時隨地進行大數據分析挖掘,完美適應大數據時代下對審計工作的需求。
目前,審計工作也存在很多困難,主要表現在人力資源的不足。如何解決這個問題,需要依靠新技術。大數據技術可以很好地解決這個問題。本文從大數據審計基礎架構、審計模型構建以及審計數據分析系統三個方面闡述了通過大數據審計構建審計全覆蓋的路徑,具有現實意義。