摘要:在分析計算機審計的特點及需求的基礎上,借鑒數據倉庫、OLAP、數據挖掘等技術的優勢,提出了一種新型的計算機審計模型。該模型克服了傳統審計軟件的不足,有效地解決了面對海量數據的審計等問題,提高了審計的效率及質量。最后還對智能審計的發展作了一定的探討。
關鍵詞:數據倉庫;聯機分析處理;數據挖掘;計算機審計
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2008)03-0782-04
0引言
在信息技術飛速發展的大形勢下,企業ERP系統、電子商務、電子政務及會計電算化等逐漸普及,審計工作面臨巨大的挑戰,計算機審計取代過去傳統的手工審計,成為現代審計領域的一個重要課題,對海量數據的計算機審計及智能審計更是迫切需要解決的問題。
近年來,數據管理技術和市場上一個方興未艾的領域——數據倉庫及其相關的OLAP、數據挖掘等技術,已經服務于金融、保險、電信、郵電等多個行業領域,為各級經營管理者提供了寶貴的決策性支持,如用于信用分析、風險分析、欺詐檢測、客戶關系管理等。但其在審計行業的應用,還只在試驗探索階段,或只關注其中某個技術與審計結合,或局限在某個特定的審計領域。
本文提出了一種新型的計算機審計模型,將數據倉庫、OLAP、數據挖掘等技術的優勢充分地應用于審計行業,以輔助計算機審計,降低審計風險,提高審計效率,保證審計質量。
1審計現狀與發展需求
1.1審計現狀
審計是由專職機構和人員,對被審計單位的財政、財務收支及其他經濟活動的真實性、合法性和效益性進行審查和評價的獨立性經濟監督活動。
隨著計算機、數據庫、網絡等信息技術的飛速發展,會計電算化形勢的形成,電子商務、電子政務系統的普及,審計方式也相應地由手工審計轉變為計算機審計。當前的計算機審計(主要指針對數據的審計)面臨很大的壓力與挑戰:
a)審計數據量大。在信息技術高速發展的時代,被審計單位積累了大量的業務數據,并且仍在急劇增長。
b)數據的不一致性。被審計單位的數據,可能來自不同的業務信息系統,或以不同的存儲方式存在,因此,這些數據難免具有不一致性,諸如異構、冗余、缺值、數據類型不一致、數據單位不一致、表示方式不一致、數據錯誤等。
c)審計時限限制。審計工作是一項復雜的任務,在實際操作中,每項審計任務均受到審計時限的限制,力求提高審計效率是刻不容緩的。
d)審計知識經驗有限。審計行業跨度較大,不同的行業,審計知識也不盡相同,而且每個審計人員僅有自己積累的那一部分經驗,無法共享。
e)信息不對稱。對同一個問題,不同的審計人員關注的重點不同,得到的審計結果也不盡相同,信息的不對稱性必將影響審計的質量[1]。
f)現代計算機技術利用不充分,審計效率及質量不高。使用傳統的審計軟件,在進行數據分析時,仍只能靠簡單的表或記錄查詢,仍局限于依靠審計人員積累的審計經驗來發現異常數據,隱藏信息不易暴露,常有漏審、誤審等現象發生。
為克服上述困難,有效地針對海量數據開展審計已成為計算機審計領域迫切需要解決的問題。雖然目前計算機審計已能夠利用DB2、Oracle等大型數據庫進行數據處理,并進行簡單的分析,但對于如何有效地處理、分析數據,有效地作出決策還有待進一步探索,這就需要引入數據倉庫、OLAP、數據挖掘等技術。
1.2技術發展
數據倉庫技術是將各種有效的操作型數據集成到統一的環境中,以提供決策型數據訪問的技術和模塊的總稱。它所做的一切都是為了讓用戶更快、更方便地查詢所需要的信息,提供決策性支持。數據倉庫的體系結構[2]如圖1所示。
1.2.1數據預處理
數據源是業務系統中存在的操作型數據,通常數據量很大,產生規則不盡相同,難免有噪聲、空缺、不一致、冗余等數據的存在。為提高數據質量,從而提高數據分析的效率及分析結果的質量,需要進行必要的數據預處理,如數據清理、數據集成、數據變換和數據規約。
1.2.2數據倉庫
數據經過預處理之后,被加載到數據倉庫。W.H.Inmon[3]描述數據倉庫 (data warehouse,DW) 為:一個面向主題的、集成的、非易失的、且隨時間變化的數據集合,用來支持管理人員的決策。數據倉庫的目標是支持全面的、大量的數據存儲,并依靠客戶端工具來實現高層次的決策支持。
1.2.3數據組織
數據倉庫可采用索引機制、查詢優化器、連接策略、數據排序、采樣、并行處理等技術,管理大量數據,以方便快速地訪問。
數據倉庫還支持多維分析的查詢模式,E.F.Codd 在1993年提出了聯機分析處理(OLAP)的概念,簡單地說,它是針對特定問題的聯機數據訪問和分析,通過對信息的多個角度(維)進行快速、一致、穩定地交互訪問,決策分析人員可以深入地觀察[4]。多維性是OLAP的靈魂,選擇合理的多維數據模型,適當的OLAP服務器,有效地組織數據倉庫中的數據,為數據分析提供便利。
1.2.4數據分析
1)普通分析
2)多維分析
OLAP技術使多維數據分析成為現實,分析人員在數據立方體結構的基礎上,借助OLAP工具提供的切片、切塊、上卷、下鉆、轉軸等操作,多維、快速、一致地分析數據。
3)數據挖掘
數據挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的,人們事先不知道的,但又是潛在有用的信息和知識的過程[5]。利用各種分析工具,可以從海量數據中發現未知的模型或數據間隱含的關系,并以此作出預測。常見的數據挖掘功能有數據描述、關聯分析、分類和預測、聚類分析、孤立點分析、演變分析等。
筆者認為將數據倉庫、OLAP、數據挖掘等技術應用到審計行業,輔助計算機審計是可行的,且很有必要。現代審計領域,計算機審計的發展需要利用此類相關技術建設審計數據倉庫,與聯機分析處理、數據挖掘有機集成,并實現各種數據挖掘算法,對海量數據進行智能化和多元化的分析、關聯,從而發現審計線索,幫助審計人員正確作出決策。
2審計數據倉庫模型的設計
圖2為傳統計算機審計軟件的工作方式。
傳統的計算機審計,對不同來源的審計數據也執行了抽取、凈化、轉換等操作,但相對于數據倉庫而言,數據庫在對海量數據的組織管理方面有很多缺陷,并且在傳統計算機審計方式下,審計數據的分析以及審計線索的發現,仍局限于依靠審計人員的經驗,審計效率很低。
本文提出一種新型的計算機審計模型,如圖3所示。該模型克服了傳統審計軟件的不足,實現了新環境下高效計算機審計的目標。
新型的計算機審計模型實現了數據倉庫、OLAP、數據挖掘等技術的有機集成,并且在適當的環節引進其他先進技術,指導計算機審計高效實施。相對于傳統審計軟件,該模型具有如下優勢:
a)審計數據交由數據倉庫管理,數據倉庫的優勢無疑為面向海量數據的審計帶來諸多好處。
b)審計數據的組織可以使用索引機制、OLAP、并行處理等先進的數據倉庫技術,實現快速、高效地訪問數據的目標。
c)支持多維分析。使用OLAP工具,多角度、多方位地分析數據,可以快速地發現審計線索,暴露某些不易發現的隱藏信息也成為可能。
d)有指導分析,并且實現了審計經驗的積累與共享。分析審計數據,不再局限于依靠審計人員僅有的經驗,規則庫中積累的所有經驗知識及數據挖掘發現的審計規則均可以作為指導規則。
在審計數據倉庫模型的指導下,審計人員利用先進的信息技術,按照如下步驟,順利完成計算機審計任務。
2.1審計數據倉庫
2.1.1確定審計目標及審計重點
前期準備階段,由審計單位相關負責人制訂審計計劃。審計人員準備實施審計任務時,根據審計計劃,進一步了解被審計單位的業務系統、財務系統、業務數據的特點等,確定審計的目標、內容及審計重點。
信息技術的發展,使得業務的運作模式各有特點,數據的產生規則也不盡相同,呈現出不同的表現形式。審計人員只有與被審計單位相關人員及時溝通,才能較深刻地了解被審計單位的內部控制制度以及數據的特點,降低審計風險。
2.1.2建立審計數據模型,完成數據倉庫的邏輯/物理設計
熟悉被審計單位的數據特點并明確審計目標之后,審計人員根據相關的法律、法規、審計知識以及確定的審計重點,建立審計數據模型。確定關鍵的審計主題域,每個主題必要的數據支持,待分析的指標、度量等,設計數據倉庫的邏輯/物理結構,提取的審計數據需要根據模型進行轉換、集成。
例如,在對某商業銀行金融審計時,審計主題域可設為存款業務審計、貸款業務審計、銀行卡業務審計等。對于貸款業務審計主題,貸款方式、貸款用途、貸款期限、貸款機構、貸款對象、貸款時間等都是必要的數據支持,同時貸款金額、貸款利率、貸款利息等作為數據分析的度量指標。
審計數據模型設計是一項相當復雜的任務,也是審計工作中較為關鍵的步驟。
2.1.3確定數據源
根據確定的數據模型,進一步分析被審計單位的業務數據,確定數據源。
數據源的定位,可以根據審計主題逐步完成。比如金融審計時,先選擇那些與存款業務相關的數據,如會計報表、存/取款交易記錄、賬戶信息等,接著分析與貸款業務相關的數據等。
業務信息系統的多樣性導致了審計數據源的多樣性,它們以不同的數據庫存儲形式存在,如Oracle、DB2、SQL Server、Access等;可以是文本數據,如Text、Word文檔;可以是Excel表格;甚至可以是XML文檔等。因此,異構性數據是審計工作重點關注的問題,需要對其進行后文將要提到的數據預處理。
2.1.4選擇適當的數據倉庫技術和平臺
根據審計的實際需求,結合數據的特點,通過比較當前不同數據倉庫產品的優劣,選擇合適的產品作為審計數據倉庫。主要考慮的因素有:與業務系統集成的方便性、數據量、數據類型支持、數據組織策略等。
2.1.5從先前確定的數據源中抽取、凈化、轉換和集成數據,并且加載到審計數據倉庫
針對前面提到的數據源的多樣性,確定數據抽取策略、數據轉換機制,對于噪聲數據如缺值、數據單位不一致等,則要明確數據凈化方法,注意去掉重復記錄等,保證加載到數據倉庫中的數據是集成的、一致的。此類規則屬于元數據范疇,需要集中管理。
例如,選擇某大型數據庫廠商提供的數據倉庫產品做平臺,對于文本文件,可以使用特殊的分隔符(如Tab鍵)區分不同的屬性(值),換行符區分不用的記錄行,記錄屬性名稱的映射關系;針對數據存儲格式不一致等問題,則以數據倉庫的格式為目標進行轉換,實現數據的一致性;對于缺值問題,則可以取記錄的平均值或某個預定的默認值,或者作為特殊數據單獨管理;進行必要的數據集成,以滿足分析的需求等。
數據抽取轉換是審計實施的關鍵步驟,計算機審計軟件也不例外,但是現有的抽取轉換機制具有一定的局限性,需要不斷完善,不斷強大其功能。另外,只有被審計單位提供了真實的數據,才能保證凈化、轉換、加載到數據倉庫中的數據的有效性。對于有加密機制的數據,則需要被審計單位提供解密機制或者解密之后的數據。
2.1.6管理元數據
元數據有兩類:a)數據倉庫的設計和管理人員用于開發和日常管理數據倉庫時用的數據。包括數據源信息、數據轉換的描述、數據倉庫內對象和數據結構的定義、數據清理和數據更新時用的規則、源數據到目的數據的映射、數據導入歷史記錄等; b)從業務角度描述的數據倉庫中的數據。包括主題描述及其包含的數據、查詢、報表等。
2.1.7組織管理加載到數據倉庫中的數據
審計數據模型及審計目標是數據組織與管理的依據,采用先進的技術,如索引優化、OLAP等技術對數據倉庫中的數據進行有效的組織管理,以提供快速高效的數據訪問接口。
在數據倉庫的基礎上,使用OLAP工具,采用合理的多維數據模型,完成事實表、維表等的設計,方便多維分析。例如在銀行存款業務審計時,對存款金額、利息等作為事實表屬性,而維度可以選擇存款機構、存款賬戶、存款時間等。
2.1.8錄入其他相關資料
與審計相關的法律、法規、審計業務知識可以錄入數據倉庫,以供查閱。
比較成熟的審計理論、審計經驗也可以規則的形式錄入數據倉庫,與后面將要提到的數據挖掘發現的審計規則相結合,指導審計人員快速發現審計線索,提高審計效率。
2.2審計數據分析
在審計數據倉庫的基礎上,通過數據分析發現審計線索,挖掘隱藏的審計知識。
2.2.1簡單分析
選擇適當的報表、分析工具,借鑒先進的查詢、統計技術(也可以自己編程實現),對數據進行一般性分析。
感觀的認識往往更能給人留下深刻的印象,因此可以借鑒數據可視化技術及統計分析圖如柱狀圖、餅狀圖、直方圖等來直觀地表現數據分析結果。另外,在涉及到有地域信息的數據時,可以借鑒GIS相關技術,將數據信息在地域中體現,進行空間數據挖掘,有助于數據分析。同時,在確定審計目標數據后,可以跟蹤位置信息,如跟蹤某個客戶活動的地域范圍信息等。
通常的審計軟件只提供普通的報表分析工具,且此類分析是在審計經驗的指導下完成的,具有一定的盲目性,猶如盲人摸象,效率很低。
本文提到的審計數據倉庫模型還引入其他一些先進的分析、挖掘技術,可以大大提高審計效率,這些技術在傳統審計軟件中是沒有的。
2.2.2多維分析
使用OLAP工具,多維多角度分析數據。可以借助切片、切塊、上卷、下鉆等操作多維分析數據倉庫中的數據,異常數據容易被發現,而通常此類信息憑經驗是很難發現的。比如在銀行存款業務審計時,分析該行某一年的存款數額及利息關系,以時間作為分析的維度,發現某一季度存款額提高,但是利息收入卻在下降,因而懷疑該季度有異常存款發生,審計人員繼續深入調查該季度的存款數據,通過下鉆操作,分析該季度下每個月份的數據,確定是否有異常存款存在。
2.2.3有指導分析
使用數據挖掘工具發現審計規則,積累審計經驗,并且利用審計規則指導審計操作。
數據挖掘可以在任何類型的數據存儲上進行,本模型指數據倉庫基礎上的數據挖掘,通常數據挖掘過程需要的數據提取、數據清洗、數據轉換等操作已經在數據倉庫建設階段完成,數據倉庫中的數據是沒有噪聲的、一致的、高質量的數據,為后續的數據挖掘提供了諸多的便利。盡管如此,進行特定的數據挖掘之前,仍需深入地分析。例如在選擇某種數據挖掘算法后,要根據需求,篩選出感興趣的屬性,或者對不同的屬性賦予不同的權值等。
挖掘審計規則:如圖3所示,從數據倉庫中抽樣提取部分數據,作為樣本集數據,采用一定的數據挖掘算法,發現某些隱含的規則,將那些有價值的規則更新到審計規則庫中。此外,發現規則的過程可以采用多種數據挖掘算法相結合的方式,追求規則盡量準確、完善。
規則指導審計:審計規則庫中的規則是審計人員積累的審計經驗以及通過數據挖掘發現的具有一定可信度的審計規則的集合,它們可以用來指導審計,以快速發現審計線索,進而重點審計。這樣,一方面提高了審計的效率;另一方面,審計規則庫不斷擴大,審計經驗得到積累,并且實現了共享,提高了審計的質量。
現行的貸款五級分類制度將貸款分為正常貸款、關注貸款、次級貸款、可疑貸款和損失貸款。對商業銀行貸款業務進行審計時,可以利用數據挖掘技術,發現合理的貸款分類規則,快速定位可疑的不良貸款,進而追蹤審計。例如利用決策樹方法發現信用貸款占不良貸款的多數,這樣審計人員可以明確審計重點,提高審計效率。
2.3審計深入開展
在前面數據分析的基礎上,定位重點審計對象,利用先進的計算機技術或其他方式追蹤線索,重點審計該類數據,分析審計結果,提出審計報告。
3結束語
本文提出的新型的審計模型——審計數據倉庫模型,可以指導審計人員高效地開展審計工作。該模型利用數據倉庫技術,有效地解決了面向海量數據的審計;利用OLAP、數據可視化等技術,多維、方便、快捷、直觀地分析數據,快速發現異常數據,提供審計線索,提高了審計效率;并且利用數據挖掘等技術發現有價值的審計模式,結合審計人員的經驗,實現了審計經驗知識的積累與共享,并指導審計人員快速定位審計重點,提高了審計的效率及質量。
該模型的提出,為審計軟件今后的發展提供了思路,同時對智能審計作了初步探索,智能審計未來的發展需要借鑒數據挖掘、人工智能等先進技術的發展,有待進一步的研究。
參考文獻:
[1]胡榮,陳月昆.數據挖掘——現代審計處理數據的新方法[J].中國審計, 2004(7):38-40.
[2]陳明秀.淺議數據倉庫[J].科技資訊, 2006(12):247-248.
[3]INMON W H.Building the data warehouse[M].2nd ed.王志海,等譯.北京:機械工業出版社, 2000:1-214.
[4]梅偉恒,康曉東,江玉彬.基于數據倉庫的OLAP技術的研究綜述[J].中國科技信息,2006(14):134135,138.
[5]張麗.數據倉庫與數據挖掘[J]. 貴州民族學院學報:哲學社會科學版,2006(2):204-206.
[6]SIRIKULVADHANA S.Data mining as a financial auditing tool [D].[S.l.]:The Swedish School of Economics and Business Administration, 2002.
[7]KOTSIANTIS S,KOUMANAKOS E,TZELEPIS D,et al.Forecasting fraudulent financial statements using data mining [J].International Journal of Computational Intelligence,2006,
3(2):104109.
[8]HAN Jiawei,MICHELINE K.Data mining concepts and techniques[M].范明,夢小峰,等譯.北京: 機械工業出版社, 2001:1-332.
[9]WRITTEN I H,FRANK E.Data mining practical machine learning tools and techniques [M].2nd ed.北京: 機械工業出版社, 2005:1-483.
[10]王春梅.基于數據倉庫的數據挖掘技術[J].西安郵電學院學報, 2006,11(5):99100.
[11]景波,劉瑩,文巨峰.關聯規則在計算機輔助審計中的應用[J].計算機工程與應用,2006,42(25):210-212.
[12][EB/OL].[2007-0119].http://blog.csdn.net/truexf/archive/2006/09/05/1180313.aspx.
[13]黃松英,何紹木.金融審計OLAP模型技術分析與設計[J].現代計算機:專業版,2004(5):46-49.
[14]王忠,武哲.數據挖掘在審計信息分析中的應用[J].計算機應用研究,2005,22(2):167169,193.
[15]易仁萍,陳耿,楊明,等.數據挖掘技術及其在審計風險管理中的應用[J].審計與經濟研究,2003,18(1):3-6.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”