張露
[提要] 在大數據審計面臨著諸多機遇和挑戰的大背景下,有效清晰的數據在審計過程中發揮著重大作用,本文分析不同的審計數據的特點以及采集審計數據的方法。在傳統數據采集方法基礎上研究如何基于Python利用網絡爬蟲采集審計數據,以為大數據審計技術的發展提供支持。
關鍵詞:網絡爬蟲;數據采集;審計分析;Python
本文為2017年安徽財貿職業學院“內涵提升全員行動計劃”科學研究項目(人文社科):“大數據在審計分析程序中的運用研究”(項目編號:2017nhrwc15)
中圖分類號:F239 文獻標識碼:A
收錄日期:2019年1月18日
一、引言
無論是國家審計還是民間審計,在當今社會經濟發展過程中都起到了十分重要的作用,為經濟發展“保駕護航”。大數據目前也是各國研究的重點和熱點,并將大數據的研究和應用上升到了戰略層次。美國注冊會計師協會(AICPA)在2014年就對大數據可能對審計產生的影響進行了分析。在全球信息化的大背景下,如何利用大數據降低審計風險,提高審計效率仍然是一個非常重要的命題。2015年中共中央辦公廳、國務院辦公廳《關于完善審計制度若干重大問題的框架意見》及配套文件中明確提出“構建大數據審計工作模式,構建國家審計數據系統和數字化審計平臺,探索建立審計實時監督系統,實施聯網審計”。劉國城、王會金(2017)將大數據審計平臺分拆為采集、預處理、分析和可視化四個子平臺,基于方法支撐、過程建模和運行機理等方面對各個子平臺作以專項研究,旨在為大數據審計實踐提供建設性思路。秦榮生(2014)指出大數據、云計算技術的產生和發展,正在逐漸影響審計技術和方法的發展。
大數據具有數據體量巨大、處理速度快、數量種類多和商業價值高的特點。被審計對象的信息化促使審計人員在審計方法上更加的信息化,如果將這些大量的、散落的、無序的數據進行集中化、結構化,將其變成能夠方便獲得可讀取的審計數據,并通過審計分析程序發現更加有效和清晰的審計線索,那么大數據將會發揮重大的商業價值。由此可見,數據是審計分析的重要前提,獲取高質量數據往往能夠幫助審計人員快速發現風險點進行應對,大大提高審計的效率和效果。目前,尚未有成熟的審計大數據收集與整理技術,這影響了大數據在審計中使用的效率。本文將基于目前大數據的研究現狀,主要探討審計人員應當如何利用網絡爬蟲技術從網絡渠道獲取所需審計數據,從而擴充審計數據的范圍,獲得更多的審計線索,提高審計分析效果。
二、審計大數據采集分析
(一)審計大數據類型。大數據審計區別于傳統的審計模式,傳統審計模式傾向于依據被審計單位提供的相關資料去鑒證其是否真實可靠。而大數據審計是一種實時審計,強調審計人員應當主動地去獲取企業內部和企業外部的數據,企業內部的業務數據主要依靠被審計單位提供,而外部數據,比如法律、銀行、稅務、供應商、客戶、物流等其他數據需要審計人員去挖掘和分析。從目前來看,審計大數據可以分為兩類:一類是結構化數據,它由明確定義的數據類型組成,比如數字、貨幣、日期等,其模式可以使其易于搜索。這種數據一般儲存在數據庫里,比如企業ERP系統中的銷售數據、生產數據、財務數據等;另一類是非結構化數據,是指那些不方便用數據庫二維邏輯來表現的數據,如辦公文檔、文本、圖片、HTML圖像等,審計人員需要的外部數據以非結構化數據類型居多。

(二)審計大數據采集方法
1、直接拷貝讀取。審計人員首先判斷出自己需要的審計數據,然后根據被審計單位使用的財務軟件(如金蝶、用友)的使用特點,利用軟件數據庫已經預設好的指令去提取轉換審計人員所需要的數據,并將其保存為Excel等格式。
2、開放數據互聯(ODBC)。如果被審計單位與審計人員使用的是可以對接的數據庫,可以通過相關的數據訪問接口訪問被審計單位所使用的業務系統數據庫,并將數據進行還原后轉出,成為審計人員可以直接利用的數據。
3、中間文件采集。指審計人員與被審計單位約定好數據的格式,被審計單位按照要求將自己的相關數據轉換成約定的格式,比如說文本文件格式,這種大部分數據庫都能夠直接讀取的格式,從而省去了兩種不同數據庫對接的問題。
4、網上采集。除了被審計單位或者上級審計機關提供的相關數據以外,審計人員仍然需要從被審計單位外部獲得相關的工商、稅務、行業、媒體等公開數據以進行多方面的審計分析,這些數據并不是被直接提供的結構化數據,需要審計人員采用一定的方法從網上進行采集。
目前,審計數據采集大部分采用的是上述的前三種方法,往往依托一定的數據庫基礎,能夠獲得的信息大多基于被審計單位,最后一種網上采集數據的方法由于沒有統一的方法和技術,耗費大量時間和經歷,往往難以實現,這大大限制了審計人員進行審計分析的范圍,同時也使審計的取證率難以達到預期,從某種程度上提高了審計風險。在大數據審計背景下,審計人員執行分析程序不能僅僅將眼光局限于內部數據,更應當從網絡公開數據中獲取更加全面的信息,但是這些信息大多以網頁等格式存在,難以被審計人員直接用于分析,所以本文提出可以利用網絡爬蟲技術抓取網頁上的信息,并整理成一定的格式,方便審計人員從海量數據中發現審計線索,使審計分析程序發揮更大的效用。
