數據時代,數據來源多渠道,數據格式多樣化,各種數據處理和分析技術不斷應用于審計。本文以常見的房屋出租租金審計事項為例,介紹如何利用網絡爬蟲插件抓取房屋出租類垂直網站某地段房屋出租信息,再進行整理分析,得出審計所需房屋出租價格等信息。
我們常見的數據來源有被審計單位提供的數據、審計機關積累的歷史數據和互聯網公開的數據。審計中需要根據具體項目,并考慮條件及技術可能性,提出細化到核心字段的明確需求,為下一步分析數據做好鋪墊。就本文而言,要識別審計對象出租房屋租金是否合理,就需要有相對可比性的價格做參考。常見思路是與同一地段、同一類型房屋出租價格進行比較。明確了這個需求之后,開始網絡搜索,查詢房屋出租行業排名靠前的幾個網站,特別是當地實體門店較多的網站。抓取的數據均為寫字樓等辦公用房,根據地理位置,對同一樓盤、相近樓分類整理,去掉每一類網站的最高值和最低值,再進行簡單的求平均。也可根據需要,對數據進行更為復雜的清洗整理,得到更為準確的參考信息,為下一步延伸審計鎖定方向。
本文以介紹抓取“房天下”辦公用房出租房信息為例,說明如何取得網絡數據。
第一步:計算機軟件工具準備。本方法需要用到Google Chrome瀏覽器和Web Scraper插件,兩種軟件都是免費的,可以在互聯網下載并安裝。
第二步:確定要抓取的信息。進入網“房天下”站首頁,點擊“寫字樓”標簽,“房天下”網站列出有100頁近6000條辦公用房出租信息,為提高效率,本例選擇“東湖高新”區域,數據縮減為29頁1713條辦公用房出租信息。實際應用中根據情況取舍,定位越準,搜索的結果可比較性更強,但相應的數據量少,可信度也會降低。本案例的抓取網站首頁地址確定為:
https://wuhan.office.fang.com/zu/house-a013126/
根據審計需要,抓取的信息包括出租房源標題、租金、出租房源地址、出租房源樓盤名稱、房源等級和裝修標準和物業費等信息。
第三步:分析站點結構。分析該網站網頁層次,頁面分割標記等內容,確定Web Scraper抓取所需要的參數。
打開Web Scraper,設置相關參數。本案例的主要參數設置如下:
(1)設計抓取結構圖(圖1)

圖1
(2)抓取項目名稱及地址
Sitemap name:example_fang(可隨意命名)
StartURL:https://wuhan.office.fang.com/zu/house-a0131 26/?i3[2-29:1]
(3)Jump跳轉頁面參數
Type:Link
Selector:.title a
Multiple:√(打勾)
(4)數據抓取頁面主要參數如圖2示

圖2
第四步:測試運行,抓取數據。數據不符合要求時調整相關參數,直至抓取的數據符合要求為止,抓取的數據另存為csv格式文件,再在Excel中處理。另外抓取腳本也可以導出分享他人使用,參數無需再次設置。
第五步:整理分析已保存的Excel數據。本案例根據位置信息,對抓取數據的先進行篩選,再進行了簡單地去掉最高值和最低值、求平均操作。本案例抓起的數據,還可以根據出租租房源樓盤名稱、房源等級和裝修標準等進行更為細致的分析。
抓取租房網站的公開數據,數據來源廣,數據量大,相較傳統到現場到房屋中介走訪調查和其他租戶交談等方式取得的參考價格可信度更高,也更為快捷。需要說明的是,互聯網公開數據,一方面透明度相對較高,另一方面數據來源參差不齊,質量不高,審計人員可通過多收集類似網站的數據,擴大數據來源渠道和數據量來克服數據質量不高的問題。
本文介紹的方法也較容易拓展其他審計應用。諸如政府購房服務的價格,在審計實踐中難以判斷高低,通過查詢抓取各地政府類似購買服務中標公告,再進行簡單的數據整理,也可以得出非常有價值參考數據。再如在涉及民生的審計項目中,可以抓取一些網站投訴類信息,從中尋找審計線索,迅速打開審計突破口。需要注意的是,網絡抓取的數據具備參考價值,但要作為審計發現問題證據,需要進一步核實。