大數據審計是審計機關遵循大數據理念,運用大數據技術方法和工具,對數量巨大、來源分散、格式多樣的經濟社會運行數據,開展的跨層級、跨地域、跨系統、跨部門和跨業務深入挖掘與分析。大數據審計的理論框架主要由審計大數據、審計大數據分析技術和大數據審計平臺構成。
大數據審計首先要堅持“數據先行”,只有高質量的基礎數據才能成為大數據審計分析的基礎。
1.審計數據
審計數據中包含結構化、半結構化和非結構化數據,按照數據來源可劃分為依托外部的公共資源、審計基礎資源、審計業務資源、審計知識資源以及審計共享信息。依托外部的公共資源是指互聯網或其他公共渠道能夠獲得的審計需要的相關信息;審計基礎資源是審計管理全流程中形成的審計計劃、審計證據、審計底稿、審計報告和審計決定等全部文檔資料;審計業務資源主要是指專題性行業數據;審計知識資源主要是以知識發現和知識管理為目標,收集的審計方法、審計法律法規、質量管理、審計事項等知識信息;審計共享信息主要是依托國家電子政務外網和國家級、省級公共數據交換平臺,用于各級政府機關政務共享的數據。
2.大數據采集和預處理
對審計數據分析有價值的數據都應納入采集范圍,主要采集技術有ETL、網絡爬取和數據眾包采集。數據預處理即對采集到的數據進行清洗、填補、平滑、合并、規格化,以及檢查一致性等處理,并對數據的多種屬性進行初步組織,主要包含數據清理、數據集成與變換以及數據規約。……