999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下商業銀行審計非結構化數據研究

2017-03-25 02:21:03呂勁松王志成王秦輝
軟科學 2017年1期
關鍵詞:商業銀行大數據

呂勁松 王志成 王秦輝

摘要:在分析大數據環境下商業銀行審計非結構化數據特點的基礎上,結合當前大數據領域處理和分析非結構化數據的主流技術,提出商業銀行審計云平臺構建過程中在非結構化數據應用分類、采集存儲、處理分析等方面的數據規劃標準,為大數據環境下規范商業銀行非結構化數據審計提供參考。

關鍵詞:大數據;審計;商業銀行;非結構化數據

DOI:10.13956/j.ss.1001-8409.2017.01.30

中圖分類號:F239文獻標識碼:A 文章編號:1001-8409(2017)01-0141-04

Abstract: This paper analyzes the characteristics of unstructured data of commercial bank auditing in big data environments, combined with the mainstream technology of processing and analyzing unstructured data in the current field of big data, and proposes the data planning standards of application, classification, acquisition, storage, processing and analysis of unstructured data in the process of constructing the cloud platform of commercial bank auditing. In the end, it provides reference for standardizing the unstructured data audit of commercial bank in big data environments.

Key words:big data; audit; commercial bank; unstructured data

當前商業銀行審計中對數據的研究和分析仍以結構化數據為主,隋學深等構建了基于支持向量機的銀行貸款風險等級分類模型來識別貸款風險等級分類的真實性[1],呂勁松等構建了商業銀行信貸資產質量審計的數據挖掘算法體系[2],隨著國家審計不斷推進大數據環境下的數據審計建設,呂勁松等提出依托商業銀行建立審計數據分析平臺,形成“總體分析、發現疑點、分散核查、系統研究”的審計模式[3],陳偉等探討了大數據環境下電子數據審計的方法,給出了大數據環境下開展電子數據審計的相關建議[4]。然而大數據的激增更多地來自非結構化數據,國家審計對非結構化數據的研究和運用還處于簡單的文本檢索階段[5],在大數據環境下,尚未有系統性地對非結構化數據進行綜合利用和審計分析的研究。國家審計在構建商業銀行審計云平臺的過程中,深刻認識到僅包含結構化數據構建標準的云平臺是不完整的,因此,在構建商業銀行審計云平臺的背景下研究大數據環境下非結構化數據規劃具有重要意義。

1大數據環境下商業銀行非結構化數據特點

大數據是指無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合[6]。商業銀行本身就是生產大量數據的傳統行業,隨著其各類業務虛擬渠道的拓展和交易實時性的需求增長,商業銀行數據更加凸顯出海量性(Volume)、多樣性(Variety)、價值密度低(Value)和高速性(Velocity)的四V特征,其中占絕大多數的是非結構化數據[7]。

非結構化數據是數據結構不固定,沒有預定義的數據模型,無法用數據庫二維邏輯表來表現的數據,非結構化數據種類繁多,商業銀行基本上擁有涵蓋所有類型的非結構化數據,既包括系統自己產生的,也包括與客戶交換產生的,也有通過爬網、購買等手段獲取的,這些數據按照格式分為電子文檔、圖像、音頻、視頻、XML或HTML等類別。

非結構化數據類型多樣,各家商業銀行同種類型的非結構化數據也有很大的差異,為了能夠在整合各家商業銀行非結構化數據的基礎上進行數據分析挖掘,實現各審計場景對非結構化數據的利用,需要在對非結構化數據應用、采集、存儲和處理分析等方面構建利于審計實現的標準。

2商業銀行審計非結構化數據應用與分類標準

在審計過程中,結構化數據和非結構化數據的應用一直是相輔相成的,通過對被審計單位的非結構化數據進行分析,有助于正確評價被審計單位內部控制的健全性、合理性和有效性;評估被審計單位控制風險水平;掌握被審計單位重大經濟決策情況,發現違法違紀線索,確定審計重點。

對電子文檔類數據,如業務審批文件、規章制度、會議紀要及記錄等,在審計大數據云平臺架構下,通過構建統一的檢索平臺,實現對所有數據資源的智能化檢索,有助于全面掌握相關信息,打開思路進行關聯分析;通過對所有文本進行挖掘分析,獲得文本內容的摘要,并對重要信息進行提示,提高對文本類數據進行分析的效率;通過文本去重技術,能夠快速識別相似文本,鎖定疑點范圍。

對系統日志、應用日志類文件進行分析,可以追溯可疑的系統操作,借助關鍵字告警、信息分析統計,模式識別等技術,在海量日志信息中挖掘潛在的安全風險、及時發現安全隱患及系統違規操作,發現疑點。

對網絡信息,包括新聞資訊、博客論壇、社交媒體等渠道的數據進行輿情監控,通過語義分析,自動識別相關負面信息,結合審計事項,為判斷疑點提供數據支持。

對圖片、圖像、音頻、視頻等多媒體數據的分析,主要用于真偽鑒別、身份鑒定等方面,比如通過語音識別技術,將會議錄音轉換為文本進行挖掘處理;通過印章、筆跡圖像的自動提取和比對,發現偽造的文書、合同;通過聲音識別、人臉識別等技術鑒定人員身份等。

3商業銀行審計非結構化數據采集與存儲標準

31采集標準

商業銀行審計中,面對的非結構化數據主要來自被審計單位生成、采集或購買的數據,以及一些必要的外部數據,比如來自互聯網的相關信息等。對于已有的商業銀行非結構化數據,審計可以利用系統接口傳輸或者批量復制數據的方式進行數據采集,對于來自互聯網的外部數據,可以采用網絡爬取的方式采集數據。

(1)建立特定系統接口傳輸數據。對于商業銀行的信息系統產生的非結構化數據,在保密性要求不高的情況下,可以考慮在該信息系統中設置特定的接口供審計云平臺連接和訪問,便于根據審計需求,按照一定的頻度、內容、范圍等限定條件,實現非結構化數據的自動采集。

(2)批量復制。在保密性要求很高的情況下,出于數據安全考慮,對于此類非結構化數據,可以采用批量復制到移動存儲設備中,再從移動存儲設備復制到審計云平臺中對應的商業銀行子云的方式實現數據采集。

(3)網絡爬取。對于外部網絡資源數據,可以采用爬網技術,例如使用Nutch、Heritrix等工具,通過網絡爬蟲或網站公開API等方式,根據設置好的爬網作業從指定的網站將非結構化數據抽取出來,通過相應的轉換處理,以結構化的方式存儲到審計云平臺中[8]。此種方式也支持圖片、音頻、視頻等文件或附件的采集,并將附件與正文進行自動關聯。

32存儲標準

早期的非結構化數據主要存儲在數據庫表的大對象字段或者以文件的方式存儲在文件系統中,為了解決非結構化數據增長帶來的問題與挑戰,目前基本上都采用分布式系統來實現面向查詢、分析的海量非結構數據存儲,比如分布式文件系統[9]、分布式鍵值系統[10]等。

圖1是商業銀行審計云平臺系統架構規劃,該平臺將系統和數據進行集中,提供統一的存儲環境,從而為跨行,甚至今后的跨專業數據分析和深度挖掘提供支撐條件。在這個架構中各商業銀行仍然存儲本行的數據,其數據庫可以是同構的,也可以是異構的,審計云平臺通過數據抽取、轉換、加載后,將結構化數據及非結構化數據分別存儲到不同的存儲平臺,并按照不同銀行,或者不同業務品種(如個人貸款、對公貸款等)來建立集群。在應用層,除了可以通過聯機方式向審計集群進行數據查詢并展現查詢結果外,還可以將數據進行抽取并加載到分析挖掘環境,提供分析挖掘功能。此外,通過報表平臺將分析或挖掘結果加工形成報表,傳輸給管理層駕駛倉可以為管理決策者提供直觀易覽的圖形化結果。

審計云平臺中,非結構化數據的存儲采用Hadoop[11]分布式處理架構,該架構結合了MapReduce(并行處理)[12]、YARN(作業調度)[13]和HDFS(分布式文件系統)[9]。HDFS為海量的數據提供了存儲,MapReduce為海量的數據提供了計算,該架構實現對商業銀行海量業務數據的PB級數據存儲。

文本類非結構化數據常以二進制大對象字段存儲在數據庫中,便于管理;對于規模巨大的商業銀行非結構化歷史性數據,如電子影像文檔等,一般采用磁盤文件、光盤、數據庫(存放索引)等多種技術平臺實現該類數據的存儲與查詢訪問。

4商業銀行審計非結構化數據處理與分析標準

41處理標準

非結構化數據處理的目的主要是構建干凈完整的非結構化數據集,剔除垃圾數據。對于純粹的非結構化數據,例如影像、圖片等,無法簡單地從存儲內容中提取有用信息,一般對其進行的處理是提取相應的元數據;對于大量的半結構化數據,如系統日志等,因其具有一定的結構,可以通過特定方法和工具將其轉換為結構化數據。

411四面體模型

為了對不同類型的非結構化數據進行處理,需要對這些非結構化數據進行統一描述,基于描述性信息實現對非結構化數據內容的管理和操作。對非結構化數據的描述分為三類,分別是基于關鍵字的語義描述、基于底層特征的描述和基于概念的語義描述。所以非結構化數據可以由基本屬性、語義特征、底層特征以及原始數據四部分構成,而且這四部分的數據之間存在各種聯系,稱為非結構化數據的四面體數據模型[14],如圖2所示。審計云平臺通過構建四面體模型抽取出非結構化數據的語義特征、基本屬性、底層特征等元數據進行存儲。

(1)語義特征:以文字表達的非結構化數據特有的語義屬性。如對會議紀要、規章制度等數據而言,語義特征一般指內容摘要、主題說明等。該屬性非必備屬性。

(2)基本屬性:指非結構化數據都具有的一般屬性,這些屬性不涉及數據的語義。包括名稱、類型、創建者、創建時間等。

(3)底層特征:通過各種專用處理技術(如圖像、語音、視頻等處理技術)獲得的非結構化數據特性。例如電話錄音的格式、時長要求、比特率等相關技術屬性。

(4)原始數據:非結構化數據的原生態文件。

412中間層模型建設標準

根據上述四面體模型對商業銀行各類非結構化數據構建統一的數據管理模型標準,從語義特征、基本屬性、底層特征幾個方面來刻畫所有非結構化數據所具有的特征,實現對來自不同銀行、不同類型的非結構化數據的統一存儲與處理,該非結構化數據中間層模型如表1所示。

在此標準下,將不同類別的非結構化數據的特征抽取出來,實現對所有非結構化數據以統一的數據模式進行存儲和處理,例如,對于某文本類數據“某行第二次行長辦公會議紀要.doc”可抽取出如表2所示特征,形成四面體結構。

四面體模型的特點在于語義特征與底層特征進行一體化表達的集成性;圖像、文本、視頻、音頻等多種異構數據表達的統一性;支持語義特征、底層特征動態變化的可擴展性和簡單性。基于四面體模型構建的非結構化數據管理模型,能夠實現異構數據的統一存儲與關聯操作,從而更好地支持大數據的深度處理。

42分析標準

由于非結構化數據的形式多樣、格式多樣,必要的算法和工具是挖掘非結構化數據價值所不可或缺的。目前較多應用是對文檔、網頁等其中蘊含的文字說明進行分析,對于如影像、語音等數據進行深度分析挖掘的應用較少(即使挖掘,一般也是先轉換為可識別的文字描述)。在此以文本類數據作為重點進行分析。

要實現對文本的處理分析,首先前提是對文本進行預處理,預處理包含分詞和去重。分詞是將文本切分成詞匯的組合,結合補充了審計專業詞匯的詞庫,對詞匯進行統計分析,在對詞匯的含義及詞匯間關系分析的基礎上,實現語義分析,使得機器能夠更好地理解詞匯組成的文本;去重是去除相似文本,減少后續文本分析過程中不必要的重復分析成本,避免統計分析時重復統計導致誤差,去重可以通過相似哈希算法快速對海量文本相似程度進行計算,找出內容相同或者相似的文本。

預處理后,再對文本利用詞頻統計、語義分析、文本特征提取等技術進行處理,實現對文本的相似性檢索等操作。此外通過文本主題分析模型、關聯關系分析模型、文本分類分析模型、情感分析模型等多種語義模型的組合分析,能夠深度挖掘文本信息中的價值。

文本主題分析模型:從文本中提取主題預測能力最強(TF-IDF值最大)的若干特征詞作為主題詞來描述文本的主題[15]。其中TF-IDF值表示特征詞在文檔中的權重(TF表示特征詞在當前文檔中出現的頻率,出現得越多,權重越大;IDF代表特征詞在所有文檔中出現的頻率,出現得越少,說明特征詞的區分度越大,權重越大)。以某銀行一篇文章的內容“關于借記卡小額賬戶管理費的一點建議”為例,其中“借記卡”“小額賬戶”“管理費”在文中出現次數較多,且在所有文本中出現的次數較少,將成為該文本的主題詞。

文本關聯分析模型:通過文本關聯分析,找出文本之間、特征詞之間的潛在語義關聯。方法為建立文本-特征詞矩陣,其值為特征詞在文本中根據TF-IDF方法計算得到的權重值,之后根據文本-特征詞矩陣,以特征詞為維度建立多維向量空間模型[16],通過在多維空間中構建文本特征向量,向量的長度代表文本長度,方向代表了文本主題特征,計算兩個文本向量的夾角余弦值(余弦值為1,兩文本方向一致,主題一致;余弦值為0,兩文本方向垂直,主題無關),代表語義關聯度,從而得到主題相關聯的文章集。

文本情感分析模型:建立情感詞典,目前互聯網上已有不少公開資源,主要分為正面詞、負面詞、程度詞等。從文本中提取情感詞匯,根據詞匯的出現頻率、在所有文檔中的區分度及情感程度,計算情感詞在文本中的權重。將各情感詞的權重累加即可得到文檔的情感傾向數值。

文本分類模型:通過樸素貝葉斯方法構建具有學習能力的自動分類器[17]。人工對一定數量的文本進行分類,用已標注分類的文本對分類器進行訓練,統計文本中的特征詞在分類中出現的概率,基于貝葉斯定理計算一篇文檔屬于一個分類的概率,通過比較概率,最終判定文檔的分類歸屬。

對XML數據可以將其轉換為結構化數據進行分析,對圖像、音頻、視頻等類型數據主要通過相應的識別技術,提取其原始特征、物理特征或者語義特征作進一步的分析應用。

5結論與研究展望

大數據環境下,為了構建商業銀行審計云平臺,實現對海量非結構化數據的高效處理和挖掘分析,本文較全面分析了商業銀行審計中可能應用到的非結構化數據類型和場景,從審計工作需要角度,結合當前大數據處理的主流技術,提出以四面體為基本存儲模型、以Hadoop為基本存儲架構、以文本挖掘為基本分析方法的商業銀行審計非結構化數據采集、存儲、處理、分析的數據規劃標準,為大數據環境下商業銀行審計對非結構化數據的處理和分析提供參考。

本文為商業銀行審計云平臺構建提出了非結構化數據規劃標準建設的思路和框架,尚未進行實證研究,具有一定的局限性。對該框架的實現和驗證是接下來的一項核心工作,此外建設大數據審計云平臺,充分拓展非結構化數據尤其是多媒體數據的分析應用領域,推進數據規劃標準建設從理論到實踐仍需進一步深入研究。

參考文獻:

[1]隋學深,喬鵬,等. 基于支持向量機的貸款風險等級分類真實性審計研究[J].審計研究,2014(3):21-25.

[2]呂勁松,王志成,等.基于數據挖掘的商業銀行對公信貸資產質量審計研究[J].金融研究,2016(7):150-159.

[3]呂勁松,王忠.金融審計中的數據分析[J].審計研究, 2014(5):26-31.

[4]陳偉,SMIELIAUSKAS Wally.大數據環境下的電子數據審計:機遇、挑戰與方法[J].計算機科學, 2016, 43(1):8-13.

[5]趙輝,范志城,許永池.基于關鍵字檢查的方法在非結構化審計數據分析中的運用[J].中國內部審計,2010(10):58-61.

[6]Manyika J, Chui M, Brown B, et al. Big Data: The Next Frontier for Innovation, Competition, and Productivity[R]. McKinsey Global Institute, 2011.

[7]Overpeck J T, Meehl G A, Beny S, et al. Dealing with Data[J]. Science, 2011,331(6018):639-806.

[8]Pesaranghader A, Mustapha N. Web Focused Crawlers[M]. LAP LAMBERT Academic Publishing, 2013.

[9]K Shvachko, et al. The Hadoop Distributed File System[C]. 26th IEEE (MSST2010) Symposium on Massive Storage Systems and Technologies, New York, USA, 2010. 1-10.

[10]Zhu H, Zhou M, Xia F, et al. Efficient Star Join for Column-oriented Data Store in the MapReduce Environment[C]. Washington DC, USA: Web Information Systems and Applications Conference(WISA), 2011 Eighth. IEEE, 2011.13-18.

[11]Borthakur D. The Hadoop Distributed File System: Architecture and Design[J]. Hadoop Project Website, 2007, 11(11):1-10.

[12]Wikipedia. Map Reduce[EB/OL]. http://en.wikipedia.org/wiki/Map Reduce, 2016-6-5.

[13]Vinod Kumar Vavilapalli, Arun C Murthy, Chris Douglas, et al. Apache Hadoop YARN:Yet Another Resource Negotiator[C].Santa Clara, CA, USA: The Fourth ACM Symposium on Cloud Computing,2013.1-16.

[14]Li W, Lang B. A Tetrahedral Data Model for Unstructured Data Management[J]. Science China Information Sciences, 2010, 53(8): 1497-1510.

[15]Anil K, Probal C. On Visualization and Aggregation of Nearest Neighbor Classifiers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1592-1602.

[16]張東禮,汪東升,鄭緯民. 基于VSM的中文文本分類系統的設計與實現[J].清華大學學報(自然科學版),2003,43(9):1255-1291.

[17]Levent K, Thomas A, Hahram S. A Network Intrusion Detection System Based on a Hidden Naive Bayes Multiclass Classifier [J]. Expert Systems with Application, 2012, 39(18):13492-13500.

(責任編輯:石琳娜)

猜你喜歡
商業銀行大數據
商業銀行資金管理的探索與思考
關于加強控制商業銀行不良貸款探討
消費導刊(2017年20期)2018-01-03 06:27:21
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
國有商業銀行金融風險防范策略
我國商業銀行海外并購績效的實證研究
我國商業銀行風險管理研究
當代經濟(2015年4期)2015-04-16 05:57:02
發達國家商業銀行操作風險管理的經驗借鑒
現代企業(2015年6期)2015-02-28 18:52:13
主站蜘蛛池模板: 香蕉在线视频网站| 久久毛片网| 国产成人麻豆精品| 亚亚洲乱码一二三四区| 97se综合| 热99精品视频| 亚洲一区无码在线| 国产精品毛片一区| 8090午夜无码专区| 伊人久久综在合线亚洲91| AV色爱天堂网| 在线不卡免费视频| 九色视频在线免费观看| 久久久久免费看成人影片| 亚洲国产日韩在线成人蜜芽| 高h视频在线| 精品视频一区在线观看| 婷婷激情亚洲| yjizz视频最新网站在线| 特级aaaaaaaaa毛片免费视频 | 嫩草在线视频| 成人精品免费视频| 91激情视频| 久久久久青草大香线综合精品| 伊人五月丁香综合AⅤ| 91久久偷偷做嫩草影院| 黄色免费在线网址| 亚洲人成网7777777国产| 中文字幕亚洲无线码一区女同| 国产免费怡红院视频| 五月婷婷综合色| 日本人妻一区二区三区不卡影院 | 第一页亚洲| 特级欧美视频aaaaaa| 老司机精品久久| 亚洲天堂在线免费| 亚洲男人的天堂网| 国产91高清视频| 日本欧美一二三区色视频| 成人无码一区二区三区视频在线观看 | 亚洲天堂成人| 亚洲最大福利网站| 国产精品视频白浆免费视频| 欧美高清三区| 毛片一级在线| 亚洲第一精品福利| 99偷拍视频精品一区二区| 国产福利小视频高清在线观看| 精品国产99久久| 一本大道在线一本久道| 亚洲欧洲日产国产无码AV| 91精品专区国产盗摄| 婷婷亚洲天堂| 日韩高清一区 | 人人91人人澡人人妻人人爽| 国产欧美日本在线观看| 国产成人禁片在线观看| 九九热精品视频在线| 国产成人综合网| 亚洲成a人片77777在线播放| 国产黄在线免费观看| 狠狠色成人综合首页| 99精品免费在线| 人妻中文久热无码丝袜| 欧美午夜性视频| 日本www色视频| 久久国产精品麻豆系列| 99精品国产自在现线观看| 色天堂无毒不卡| 色综合综合网| 伊人久久婷婷| 亚洲欧美另类久久久精品播放的| 国产成人做受免费视频| 精品剧情v国产在线观看| 国产一区二区三区日韩精品| 国产精品一区二区不卡的视频| 在线观看国产小视频| 欧美不卡视频一区发布| 国产精品区视频中文字幕| 中国特黄美女一级视频| 国产福利一区在线| 男人天堂亚洲天堂|