楊淑慧+潘德寶+徐芬+李磊
隨著中國人民銀行信息化水平的不斷提升,先后引入和升級了許多業務系統,記錄和處理各項業務的經營狀況、處理活動,形成了各類業務數據庫,儲存了海量業務數據,大踏步邁入了大數據時代。面對大數據時代的到來,各級人民銀行內部審計部門要保持高度的危機意識、未雨綢繆,正確認識大數據分析的理論核心數據挖掘技術,逐步將數據挖掘技術引入人民銀行內部審計工作。通過數據的全面掌握、挖掘技術的廣泛運用,實現對風險的前瞻、全面、深入和持續的審計覆蓋,提高審計質量,規避審計風險,從更高層面為人民銀行業務發展提供更具戰略性、系統性和前瞻性的審計建議,改善組織運營,增加組織價值。
一、基本概念
(一)大數據
大數據又稱巨量數據,所涉及的數據量規模巨大到無法使用傳統工具,在合理時間內達到擷取、管理、處理并整理成有價值的信息。大數據具有數據容量巨大、數據類型紛繁、數據價值密度低和處理速度要求快的特點。
大數據對內部審計工作具有重要影響:一是促使審計方式向連續審計轉變。隨著信息技術迅速發展,連續審計的重要性日益凸顯,大數據技術及大數據基礎使連續審計成為可能,連續審計可以降低傳統審計過程中的時滯問題,降低審計錯誤和風險,為組織提供咨詢增值服務;二是促進審計抽樣向系統化、智能化和模塊化發展。數據量的爆炸式增長使審計人員無法使用現行的抽樣審計方法揭示舞弊行為和技術性錯誤。大數據時代的審計抽樣算法可以對審計數據進行分析,進行數據挖掘,找出特征數據,縮小抽取樣本的數量,降低審計成本、提高審計效率;利用關聯規則,預測被審計單位運營風險的高低,幫助審計人員確定審計重點,實現精確打擊;三是促進審計成果的轉化與應用。促進對以往審計中獲取的大量信息資料的匯總、歸納,從中找出內在規律、共性問題和發展趨勢,通過匯總歸納宏觀性和綜合性較強的審計信息,為領導決策提供依據;通過對帶有共性、普遍性、傾向性的問題進行挖掘,提煉出問題與數據中的關聯性,可以將所有問題通過IT手段檢查出來;將審計成果進行知識化留存;通過大數據技術,將問題規則化并固化到系統中,以便于計算或判斷問題發展趨勢、對問題進行預警等。
(二)數據挖掘技術
數據挖掘(Data Mining,DM)是一種計算機輔助技術,用于從海量的、不完全的、有噪聲的、模糊的、隨機的數據中抽取出潛在的、有效的、新穎的、有用的和最終可以理解的知識的過程,又稱數據庫知識發現(Knowledge Discover of Database,KDD)。數據挖掘即能針對特定7876數據庫進行簡單的檢索和查詢,又能進行多層次、全方位的統計、分析、綜合和推理,越來越多的組織開始對記錄交易活動、經營狀況和市場信息的海量數據進行數據挖掘,從而獲得有價值的信息,提高組織的盈利水平和競爭能力。審計人員可將具有相似性的會計數據進行聚類分組,從而發現異常賬目。
二、大數據視角下的人民銀行內部審計模型
根據人民銀行業務實際和大數據處理要求,構建了由數據獲取、數據整理、數據挖掘和審計應用四階段構成的人民銀行大數據審計模型,模型流程如圖1。
圖1 人民銀行大數據審計模型
(一)數據獲取。人民銀行內審部門應結合轄區業務實際,積極開展風險評估工作,確定各業務風險排序,擬定審計主題,針對特定的審計目標和審計內容進行廣泛而深入的審前調查,掌握審計的范圍、審計的內容、審計所需的信息。根據審前調查情況,審計人員有目的性的收集和整理與審計相關的數據,服務于審計項目。該階段審計人員在保證不影響被審計單位業務系統的平穩、持續運行前提下,采取諸如Microsoft SQL Server 2000等數據轉換工具,獲取、更新和維護審計相關數據。
(二)數據整理。該階段審計人員在充分分析數據質量的情況下,運用數據庫各表之間的勾稽關系,剔除垃圾數據,清理、轉換、載入和驗證提取的數據,建立審計數據庫××,數據庫中的審計數據是集成的、一致的、高質量的,便于后續審計工作的開展。數據庫是面向特定審計主題的,不同被審計單位的審計主題不同,因此審計人員要為不同審計對象設計不同的數據庫××,設計數據庫××包括數據庫××模型設計及數據處理設計,是一個循環往復、不斷優化的過程,需要不斷地反饋和不斷地完善。該階段審計人員主要任務是為采集到的審計數據建立一個獨立與被審計單位數據庫的數據庫××,提供適合聯機分析處理和數據挖掘的數據存儲環境。
(三)數據挖掘。該階段審計人員可以使用簡單分析和多維分析工具對數據庫××進行數據分析,如:采用聯機分析處理的切塊、切片、旋轉和鉆取等技術,對審計數據進行比較分析、比率分析、趨勢分析等。但在海量數據情況下,審計人員必須采用諸如統計分析、決策樹、人工神經網絡和關聯規則等數據挖掘算法,對數據庫××進行數據挖掘。
1.選擇數據挖掘算法。不同數據挖掘算法的思路、步驟、功能和應用領域不盡相同,審計人員應根據審計主題選擇挖掘方法,以得到對審計有指導意義的知識。
2.建立數據挖掘模型。選擇數據挖掘算法后,從分析數據入手,從數據庫××中提取主要變量,剔除無關變量,建立適合該算法的數據挖掘模型。
3.驗證數據挖掘模型。從數據庫××中選取多個樣本數據,對挖掘模型進行驗證,確保數據挖掘模型實現既定審計目的。
4.運行數據挖掘模型。挖掘模型的運行由專業計算機工具完成,審計人員要認真評估挖掘結果,判定挖掘結果的準確性和有效性,保證挖掘結果得出正確審計結論。評估結果可能導致退回到之前的階段,重新選擇數據集合、數據挖掘算法或調整挖掘算法參數。
5.構造審計知識庫。數據挖掘模型運行后,會呈現隱藏在數據庫××中的一些規律或者展示異常審計數據,這些規律或者異常稱之為審計知識,不同的審計知識存儲在一起即構成了審計知識庫,審計人員利用審計知識提取審計線索或違規及風險情況。