敬智勇
[摘要]本文從數據挖掘技術輔助審計人員進行審計數據分析、降低審計風險出發,以聚類分析在某通信公司寬帶收入真實性審計項目中的應用為例,探索如何利用數據挖掘技術從海量數據中獲取有用的審計線索,通過模型訓練構建出相關的數據模型,從而提升審計人員的數據分析能力,提高審計效率和質量。
[關鍵詞]數據挖掘 通信行業 審計 聚類分析 模型
基于技術進步的大數據時代已經來臨,通信行
業是較早運用大數據技術的行業之一,數據挖掘技術在客戶分群、流失預測、資費預演等經營領域得到大量應用的同時,也逐步應用到審計領域,輔助審計人員進行審計數據分析,降低審計風險。
數據挖掘與傳統數據分析技術的不同點主要在于基于數據發現的方法不同。傳統的審計分析方法側重于推理驗證,數據挖掘更側重于運用模型算法來發現審計數據之間隱藏的重要內部聯系。
一、相關概念
(一)數據挖掘
數據挖掘指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取出隱藏的、不為人知的卻潛在有用的信息和知識的過程。
(二)聚類分析
聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個群組的分析過程,是研究“物以類聚”的一種科學有效的方法。
(三)孤立點分析
孤立點又稱離群點,是一組數據中不符合一般模型特征的另類對象。對此,Hawkins給出了其本質性定義:孤立點是數據集中與眾不同的數據,使人懷疑這些數據并非隨機偏差,而是產生于完全不同的機制。
(四)DIKW模型
DIKW模型將數據、信息、知識、智慧納入金字塔形的層次體系,每一層比下一層多賦予一些特質,如圖1所示。數據是對現實生產和生活的客觀描述,最大限度從數值上反映現實世界;根據觀察和記錄采集到原始數據,分析數據間的關系獲得了信息;知識是對信息加工后得到的有用資料;智慧是高等生物所特有的一種能力,是分析判斷、發明創造、解決問題、預知未來的能力,主要表現為獲取、加工、應用、傳播知識的能力。
二、通信公司內部審計存在的問題及數據挖掘基本框架設計
(一)存在問題
目前通信行業內部審計工作存在的主要問題有以下幾點:
1.審計效率低。目前傳統的審計方式,更多依靠審計人員的業務經驗,在現場進行數據的比對、排查、分析、確認工作,因此效率極低。
2.審計輸出質量較低。當前的審計方式,以審計成果(底稿)為導向,審計完成后,輸出結果通常為審計底稿,對同類問題的擴展延伸發現不能起到較好的作用,更不能形成成熟可用的審計模型,無法完成從經驗到模型(智慧)的轉化。
3.存在問題覆蓋不完整的風險。受限于大數據處理能力較差,當前的審計方式中符合性驗證居多,抽樣率較低,并且現場審計時間有限,實際執行中可能存在審計計劃中的風險問題未完全覆蓋的風險。
4.審計結果差異大。因審計人員的經驗不同,抽樣隨機性較大,因此,不同的審計人員對相同項目的審計可能出現不同的審計結論。
(二)數據挖掘審計方法的基本框架設計
為最大限度避免出現以上問題,筆者基于DIKW模型,利用數據挖掘技術,進行數據挖掘審計方法的基本框架設計,如圖2所示。
1.數據采集環節。根據審計項目計劃和風險點列表,采集被審計單位的海量電子數據和其他資料,包括財報、賬單、會計憑證、合同以及其他各種性質的生產數據資料等。
2.數據整理環節。也叫數據清洗環節,就是把“臟”的數據“洗干凈”,發現數據文件中存在的可識別的、不能反映事物真實狀態的數據,如拼寫錯誤、格式錯誤、重復錯誤、一致性錯誤等,并對這些錯誤數據進行糾正、刪除、轉換等處理,達到提高數據可靠性的目的。
3.數據挖掘環節。即透過數據的表象找到隱藏的規律及聯系,以此來洞察未來(規范性),進而幫助審計人員對被審計單位海量電子數據(財務報表、賬單、會計憑證、合同以及其他各種性質的生產數據資料)進行深層次的研究分析,獲得審計線索,發現審計疑點。
4.構建模型環節。數據挖掘技術是用數據來產生模型,通過不斷的數據訓練來優化模型,再用數據去檢驗模型,模型的構造是從特殊到一般的歸納過程,從而擺脫了前提假設的束縛和主觀因素的干擾,使結果更加真實、客觀。
三、聚類分析在異常檢測中的具體應用
(一)聚類方法的分類與作用
聚類分析己經被廣泛應用于各種領域,在研究應用過程中,產生了各種不同的聚類方法,主要包括:基于模型的聚類方法、孤立點分析、層次方法、基于密度的方法、基于網格的方法、劃分方法等。
在審計數據分析中,審計人員都會檢查數據異常值,這些異常值就是孤立點,通常是審計工作中需要關注的重點。運用聚類分析孤立點檢測算法,可以發現審計中的異常數據,從而發現隱藏的問題線索和違規行為。
(二)孤立點分析具體應用
在對某通信公司進行收入真實性審計時,抽查了2016年1月至2017年10月的列賬情況,調取了“用戶ID、用戶號碼、地市編碼、地市名稱、證件號碼、證件類型、網別編碼、網別名稱、產品套餐編碼、產品套餐名稱、用戶狀態、開戶時間、FEE1704、FEE1705、FEE1706、FEE1707、FEE1708、FEE1709、FEE1710、最大值、最小值、均值、方差、標準方差、在網時長、資費名稱、融合是否在用”等字段,旨在發現某一類用戶的異常數據。
首先進行數據清洗工作,將非此區間入網的用戶及符合紅名單審批流程的欠費用戶、公免用戶剔除。
然后將此用戶清單導入數據挖掘工具RapidMiner中,選擇DBscan算法,進行異常用戶檢測。通過不斷的訓練數據,發現期間收入標準方差大于49.3的用戶極為集中,這部分用戶均為2016年7月份以后入網或者重入網的,共有8000余戶。
通過進一步分析發現,被審計單位在2016年8月份以后發展用戶時,將部分用戶一次性繳納的終端款在開戶當月列入。
按照基于DIKW模型的數據挖掘審計應用基本框架要求,將以上訓練模型調整為固定模型,對該審計單位的兄弟單位進行模型應用,亦發現了同類問題。
四、結論
通過對數據挖掘技術在通信行業審計工作中的應用研究,以及對研究過程的分析和理解,可以從中得出一些有意義的結論。
(一)通信行業大數據特征適合審計數據挖掘應用
國內各通信公司當前的運營主要存在入網離網用戶量大、政策和產品多樣、信息孤島等情況,各系統應用數據管理較為嚴格、真實性強,導致其生產的數據極為符合IBM提出的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。因此,數據挖掘技術在通信公司內部審計中的應用必將成為眾多內審人員研究的重點。
(二)數據挖掘宜通過DIKW模型進行知識管理
目前,通信行業雖然在逐步嘗試數據挖掘技術在審計工作中的應用,但應用范圍不廣、研究不深,尚未形成眾多成熟的審計模型。廣大審計人員仍然通過報表分析、抽樣比對等傳統審計方式進行問題的鎖定,急需轉化為通過成熟數據挖掘模型庫的方式發現線索。
(三)成熟的數據挖掘算法可輔助發現未知問題
審計人員可通過學習成熟的數據挖掘算法,對模型進行優化訓練,從而從大量數據中快速地提取有用的知識,發現隱藏在大量數據后面未知領域的審計線索。
(四)使用的數據挖掘工具符合成本效益原則
目前市場上通用型數據挖掘軟件較多,可適用于多種行業。當前,在線審計和審前數據分析是審計過程的主要工作,占用了大量審計資源。利用數據挖掘技術,可以大大降低審計人力資本,減少審計資源占用,提高審計質量和效率,符合審計工作的成本效益原則。
(作者單位:中國聯通河北省分公司,郵政編碼:050011,電子郵箱:jingzhiyongcn@163.com)