999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Python技術在大數據審計中的應用

2021-05-26 00:49:28羅苑瑋李春友邱晨煒
企業科技與發展 2021年4期
關鍵詞:數據挖掘

羅苑瑋 李春友 邱晨煒

【摘 要】大數據時代,數據分析和數據挖掘技術應用于各行各業已成為趨勢。為提高審計工作的效率和質量,有效且清晰的數據信息顯得尤為重要。因此,文章探討如何利用Python技術在大數據分析中的各種優勢,實現審計數據的采集并快速分析數據結果。同時,為進一步展示數據挖掘的實際應用效果,文章以對數字資產進行審查的相關工作為案例,為研究大數據審計的應用與發展提供支持。

【關鍵詞】python;大數據審計;數據挖掘

【中圖分類號】TP311.13 【文獻標識碼】A 【文章編號】1674-0688(2021)04-0086-03

0 引言

大數據時代的到來,使各行業的發展走向信息化,審計工作涉及行業廣泛,被審計單位的運行越來越依賴于信息化,審計工作也由原來傳統的以賬簿查賬為主的方式逐步向數據化、信息化、無紙化方向發展。大數據時代如何提高審計效率、降低審計風險是一個非常重要的命題。近年來,國家出臺了相關的政策,2015年中共中央辦公廳、國務院辦公廳正式印發《關于完善審計制度若干重大問題的框架意見》及配套文件中明確提出“構建大數據審計工作模式,構建國家審計數據系統和數字化審計平臺,探索建立審計實時監督系統,實施聯網審計”。“加大大數據技術的應用,創新審計方法,更好地發揮審計作用”的觀點,也在2016年金磚國家最高審計機關領導人會議上被提出。2018年,習近平總書記也在中央審計委員會第一次會議上指出,要堅持科技強審,加強審計信息化建設。

在這樣的背景下,如何與時俱進地改變現有審計模式,在審計過程中通過大數據技術獲取相關審計數據深入分析,降低審計風險是審計部門和審計機構面臨的挑戰之一。大數據時代,如果能將被審計對象原有無序的、零散的、體量巨大的數據以數據清洗和數據整理的方式將其結構化、集中化,讓其成為易于讀取的審計信息,最后通過審計程序發現數據中更加清晰和有效的線索。獲取高質量數據可以更有效率地幫助審計師發現風險點,提高審計效率。目前,基于數據挖掘的審計盡管有專家學者提出了相關概念,但是沒有形成既定的理論體系,而實務中的應用并未廣泛展開,但是基于審計技術發展的迫切需求,該領域無論是在大數據審計分析框架、多種技術應用于審計方法等方面都仍然有很多值得深入研究的方向。Python開源式語言的出現,使得數據挖掘更具效率。本文將從Python語言的視角入手,探索Python在大數據審計中的應用,對大數據時代下提高審計監督職能和審計工作效率具有重要的理論意義和社會價值。

1 大數據審計的特征分析

大數據的概念于2008年首次在《Nature》雜志上被提出。麥肯錫(2011)將大數據定義為大小超出常規數據庫工具獲取、存儲、管理和分析能力的數據集,并認為大數據包含大量、迅捷、多樣性和真實性幾個特點[1]。在眾多關于大數據審計的研究成果中,大多數的研究學者認為大數據審計是大數據技術在審計方式方面的延伸和創新,主要包括兩個方面:電子數據審計和計算機信息系統審計。王會金、劉國城(2017)提出了大數據審計的構建思路,按照采集、預處理、分析和可視化4個子平臺組成大數據審計平臺。在大數據環境下,被審計單位有大量非格式化數據,如何處理這些非格式化數據并在這些非結構化數據中尋找疑點信息,是眾多研究的重點。大數據的4大特點給大數據審計帶來新的審計思路和審計方法,同時也帶來一些新的挑戰。

在數據來源方面,在如今的審計過程中,雖然被審計單位提供的數據類型主要是以結構化的數據為主,但是半結構化數據和非結構化數據的占比也在不斷增加。不易于分析的半結構化數據、非結構化數據與結構化數據相比,具有高價值、大體量、多樣化等特點,這就對審計模型的處理能力提出了更高的要求。

在數據采集方面,主流的大數據的采集方法包括直接拷貝讀取、開放數據互聯、中間文件采集等,但是這些用于挖掘和收集大數據的方法,要求被審計單位有一定的數據庫基礎,并且所獲得的這些數據也大多來自被審計單位。在大數據審計的環境下,審計人員的目光不能僅限于被審計單位的內部,還應該更多地關注網絡中公開的海量信息,只有這樣,才能更加全面且完整地了解被審計單位。所以,為了獲取高質量的審計數據,對審計手段的多樣化提出了更高要求。

在應用實踐方面,深度挖掘審計線索是具體的表現之一,對跨部門、多行業、深層次采集到的海量數據進行清理轉化,以審計業務需求為導向,依托清理轉化后的信息數據,構建標準化和可操作的審計分析模型,進而在模型中發現審計疑點,最終通過核查這些疑點得出審計結論。

大數據技術在助推實現審計全覆蓋的同時也推進了現行制度的完善和改革,即通過挖掘某種社會現象的潛在規律,作為政策制定的依據,針對問題進行大數據分析、不斷完善政策,推動國家治理現代化[2]。

2 Python技術的工作原理與優勢

2.1 Python的工作原理

Python是一種面向對象的計算機程序設計語言,它具有簡單、解釋型、交互式和可移植的特點。Python最大的功能是可以按照程序員設計的程序或者腳本自動抓取語言。意味著可以從網絡上標準資源額地址中,以匹配的方法實現網頁中信息的抓取,使用戶持續不斷地獲得自己想搜索的信息。

在審計過程中Python可以切入被審單位的數據庫,通過Python爬蟲技術爬取底層數據,比如發票、合同等原始憑證信息,探究被審單位各項財務數據的真實性;還可以利用當今強大的大數據關聯信息,從外部網站獲取第三方證據,如“瑞幸咖啡事件”中,調查人員利用了大數據信息搜集瑞幸咖啡所有門店的日流量以作為調查結論的佐證。從被審計單位外部獲取的審計數據,相比于被審計單位提供的更充分、可靠,能幫助審計人員獲得更高質量的審計證據。

審計人員可以利用Python的爬蟲技術獲取各類相關審計數據,主要有如下幾個步驟:?譹?訛確定目標,根據審計目標確定想要獲取的目標數據,明確數據所分布的url網頁位置。?譺?訛網頁分析,主要對目標網頁的數據訪問路徑和邏輯進行分析。?譻?訛獲取數據,基于對網頁的結構分析,抓取數據。?譼?訛數據的篩選和清洗,對所獲得的數據進行可視化的呈現,通過編輯建模分析語言,可以呈現出Excel分析結果,同時借助SQL查詢,獲取最終的審計數據。

2.2 優勢

盡管能應用于大數據挖掘與分析的軟件有很多,但是Python編程語言的通用性、擴展庫開源性及使用的簡便度相較于其他軟件具有一定的優勢。對于審計數據的基礎工作,Python都可勝任。

Python相比其他的數據分析軟件,具有如下優勢(如圖1所示)。

2.2.1 語法簡單,功能強大

Python語言最大的優勢之一就是語法簡單清晰,通俗易懂,對軟件使用者的編程水平門檻較低,操作人員能很快學會使用,獲得想要的結果。Python還具有強大的語法功能,由于Python內置中有很多常見網絡協議,能夠支持Socket、urllib等端口,兼容性較強,因此可以應用到圖形處理、數據挖掘、網絡開發等應用控制中。Python數據分析及信息獲取中具有較強的資源優勢,并進行信息分析和利用。

我們在審計過程中經常需要從Word、Excel文件中獲取指定的內容,應用Python內置函數讀取文件內容可以實現對既定要求的數據和文本的準確抓取。Python的數據庫接口適用性較強,審計人員可以鏈接底層數據庫,根據需求下載不同的數據包,通過執行SQL語句等方式完成數據查找和存儲。例如:Pandas是Python的一個數據包,只需要不到 10 s即可完成審計數據的函數處理和數據分析。

2.2.2 開源通用

由于考慮到成本問題,很多軟件并非開源,因此限制了軟件的可使用范圍,使得軟件應用的廣泛性受到影響。Python的開源特性使得多個計算平臺和操作系統都可以兼容Python編寫的數據分析代碼。例如:Windows、MacOS、Linux、Andorid、iOS等。并且,在云服務平臺中,Python能夠與C語言很好地兼容,能在各類庫工具中快速滿足平臺服務的要求,減少項目開發周期及成本,從數據抽取、數據收集整理、數據分析挖掘到數據展示的整個過程中,不需要其他輔助工具或資源庫的幫助[3]。

Python是一門真正的通用設計語言,很多數據分析軟件設計的初衷是為交互使用,想要這些數據分析軟件實現完全自動化是不太適合的,但Python的代碼可用于整個數據分析過程,實現完全自動化,可以不受限制地重復使用。相比JAVA、C+、Matlab等軟件,Python的腳本語言應用更廣;可以加載很多組件和擴展包;能兼容多個平臺的操作系統;并且,軟件所占空間小,在一個簡單的編輯器上就能完成操作。

2.2.3 兼容性較強,可快速實現數據可視化

Python具備人工智能、神經網絡等各種資源,在數據調取、挖掘、整理和分析整個過程,能在Python中一并完成,無須其他輔助工具。這就避免了開發程序的切換和數據分析轉化,提高了數據分析的效率。相比傳統的開發語言,Python具有較強的學習能力,使網頁運轉系統建設和程序開發的效率大大提升。除此之外,Python還能實現可視化,無論是2D還是3D圖表,使得數據結果可以更科學、直觀地呈現出來。例如:Matplotlib可視化模塊就能很好地運用在審計過程中。審計人員可以利用該模塊,繪制象散點圖、柱狀圖等二維圖片,把復雜的數據轉化成直觀的圖片分析數據,提高信息使用者決策的速度。

在大數據審計中,Python一般會應用Pandas、Matplotlib、Numpy等模塊。Pandas主要用于金融和財務數據分析;Matplotlib用于實現數據可視化;而Numpy是一個提供矩陣運算的科學計算庫,適合進行數據清洗和整理。對于大數據審計,Python完全能滿足大數據審計數據挖掘和分析中對軟件的需求且極具推廣性。

3 基于Python技術的大數據審計案例與應用

對于各大娛樂公司來說,流量明星自帶的“流量”,即在各社交媒體中的粉絲數量和發出動態后所獲得的點贊和評論數量,其實也是公司的數字資產。一位熱度高的流量明星除了能獲取更高的知名度、廣告代言費用和片酬,還能夠給其經紀公司帶來豐厚的經濟利益。所以,各大經紀公司投資方、廣告商、電影或電視劇的出品方,甚至是部分粉絲,就會利用一些技術手段對大量點贊和評論的數據進行造假。海量的粉絲與評論數據難以被傳統的方式所記錄,更是難以用傳統的審查手段對“流量”資產進行全面或抽樣驗證。數字資產的出現,使審計內容與模式發生改變。

3.1 審查方法設計

流量明星在登上微博熱搜或在微博發表動態后,其大部分的真實粉絲都會進行評論、轉發或點贊;而另一部分的評論(通過非常規渠道購買的評論數),在每條微博下多數會使用重復ID多次評論;通過分析重復用戶ID的情況,作為虛假流量而去除,這樣就可以辨別真實粉絲的數量和實際評論和點贊量。

通過使用爬蟲軟件,選取微博某流量明星的3個熱搜事件的微博(A、B、C)進行相互對比分析。為盡量避免用戶反復進行評論提高熱度行為,使用Python軟件分別剔除掉微博評論下一級與次級評論重復的用戶,就能得出實際評論的用戶;再將經過篩選的結果與相對應的3條微博下的非重復評論用戶進行對比,最終得出重復活躍的用戶數量。

3.2 實施步驟

隨機抽取某流量明星2020年1月至12月的3條高熱度微博,分別命名為A、B、C。代碼設置隨機爬取該微博下的一級評論和次級評論,爬取數量分別設置為1 000。引用Pandas數據集,進行數據篩選。根據篩選結果,所爬取的A微博下的“一級+次級”評論中,在剔除重復評論的用戶后,實際有效用戶占所有用戶的比重約77%。用相同方法分別爬取B微博與C微博下的評論后,所得出的結果分別約62%和69%。總計評論的非重復用戶占總評論用戶的比重約75%;而重復活躍的用戶數占審查總用戶數的比重約7%。

3.3 結果與分析

通過上述的對比可看出,在統籌隨機抽取流量明星所發的熱門事件的3條微博下的用戶評論數后,到設定的審查截止時間期間,通過數據爬取與分析,出現的總有效用戶數占總評論用戶比重約75%;重復活躍的用戶數占審查總用戶數的比重約7%。管中窺豹,可見一斑。可以設想,在眾多社交媒體上坐擁千萬粉絲的流量明星,也許其背后真實的活躍粉絲數遠低于其平臺上所反映的粉絲數量,其背后的網絡流量是否與其背后的數字資產價值相等也許也要打上一個問號。流量明星作為互聯網時代的“熱銷商品”,他們本身也是公司的資產,在眾多互聯網、娛樂公司中也有著顯著的商業意義,對于會計、審計而言,如何監督并識別這些資產十分必要[4]。

4 結語

本文通過分析大數據審計的特征,針對Python的工作原理和優勢,引入案例研究Python在大數據審計的應用,為大數據審計中的應用技術研究提供了支持。不同于以往的審計模式,Python技術使審計從驗證性分析變為挖掘性分析,提高了數據搜集的效率,彌補了數據收集的缺陷;有利于風險預判,使審計從事后控制轉向了全過程控制。但是,Python在使用過程中也存在一些技術壁壘,需要審計人員加強自身學習,更新審計技術與方法。大數據的運用必將是未來趨勢。大數據不僅代表的是數據集、是技術的革新,更是一種新的思維方式。審計人員不僅要對數據技術充分利用,更應具備大數據思維,才能在審計過程中發現數據的價值,提升審計質量。

參 考 文 獻

[1]陽秋林,唐倩倩.大數據環境下對審計的探究[J].中國管理信息化,2020(1):72-75.

[2]孫夢蝶.基于Python的大數據審計方法探討[J].現代企業,2018(4):38-39.

[3]胡曉燕.基于Python的可視化數據分析平臺設計與實現[J].信息與電腦,2018(17):96-97.

[4]杜云.基于python的流量明星數字資產真實性審查方法初探[J].全國流通經濟,2020(29):165-167.

猜你喜歡
數據挖掘
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 啪啪免费视频一区二区| 国产拍揄自揄精品视频网站| 色九九视频| 欧美笫一页| 又爽又大又光又色的午夜视频| 国产成熟女人性满足视频| 国产91高清视频| 9啪在线视频| 亚洲AⅤ波多系列中文字幕| 国产精品欧美在线观看| 伊人AV天堂| 成人91在线| 伊人91在线| 狠狠做深爱婷婷久久一区| 国产精品女熟高潮视频| 欧美在线综合视频| 福利片91| 久久久亚洲色| 欧美日韩中文字幕在线| 欧美日韩理论| 欧美日韩亚洲综合在线观看| 亚洲午夜久久久精品电影院| 亚洲国产看片基地久久1024| 亚洲综合经典在线一区二区| 亚洲男人天堂2020| 国产一级裸网站| 最新痴汉在线无码AV| 手机在线看片不卡中文字幕| 国产精品污污在线观看网站| 97精品国产高清久久久久蜜芽| 亚洲精品第一页不卡| 欧美日韩精品在线播放| 精品一区二区久久久久网站| 久久久噜噜噜| www精品久久| 亚洲日韩久久综合中文字幕| 国产91全国探花系列在线播放| 国产又色又爽又黄| 爱做久久久久久| 午夜一区二区三区| 精品自拍视频在线观看| 久久人妻xunleige无码| 亚洲最大综合网| 毛片久久久| 亚洲精品无码AⅤ片青青在线观看| 一级在线毛片| 国产va欧美va在线观看| 日韩二区三区无| 搞黄网站免费观看| 制服无码网站| 国产精品lululu在线观看| 国产乱子精品一区二区在线观看| 久久毛片免费基地| 国产午夜福利片在线观看| 国产精品欧美激情| 久久亚洲综合伊人| 狠狠做深爱婷婷久久一区| 欧美一级夜夜爽| 国产97视频在线观看| 在线欧美国产| 美臀人妻中出中文字幕在线| 97人妻精品专区久久久久| 中文字幕欧美成人免费| julia中文字幕久久亚洲| 亚洲成人免费在线| 久草视频精品| 亚洲国产天堂久久九九九| 亚洲第一视频区| 国产麻豆91网在线看| 国内精品一区二区在线观看| 中字无码av在线电影| 日本一本正道综合久久dvd| 日韩视频福利| 成人综合久久综合| 无码电影在线观看| 久久亚洲精少妇毛片午夜无码| 欧美午夜在线观看| 国产精品白浆在线播放| 午夜无码一区二区三区| 夜夜操狠狠操| 乱人伦视频中文字幕在线| 久久久久青草线综合超碰|