胡志達(dá)



【摘 ?要】
針對云環(huán)境下數(shù)據(jù)安全和數(shù)據(jù)集敏感元素?zé)o法自動識別、自動動態(tài)分級的問題,提出一種面向文檔級別的敏感元素自動化識別與動態(tài)分級算法,利用大數(shù)據(jù)語義識別技術(shù),對各類文檔的數(shù)據(jù)價值元素進(jìn)行自動化提取,采用向量化處理的方式得到文檔的特征向量,結(jié)合特征向量相似度量化文檔的敏感度從而實(shí)現(xiàn)文檔的自動分類分級。實(shí)驗(yàn)表明,該算法能夠比較準(zhǔn)確地識別并分類任意規(guī)模、非結(jié)構(gòu)化的文檔敏感元素,該算法無須提前知道文檔敏感元素的特征,敏感特征字典,兼顧了平臺存儲安全的效率和安全性。
【關(guān)鍵詞】數(shù)據(jù)敏感性;語義識別;價值元素;存儲安全
[Abstract]
In order to solve the problems of the inability to automatically identify and dynamically classify the data security and sensitive elements of data sets in cloud environment, this paper presents a document-oriented algorithm for automatic identification and dynamic classification of sensitive elements. Specifically, the big data semantic recognition technology is used to automatically extract the data value elements of various documents, and the feature vector of the document is obtained by vectorization methods, and the sensitivity of the document is quantified by combining the similarity of the feature vector to realize the automatic classification and grading of documents. Experimental results show that the algorithm can accurately identify and classify the sensitive elements of unstructured documents with any scale. The algorithm does not need to know the characteristics of sensitive elements and sensitive feature dictionary in advance, which balances the efficiency and security of platform storage security.
[Key words]data sensitivity; semantic recognition; value element; storage security
0 ? 引言
多租戶和虛擬化技術(shù)在促進(jìn)了云計算快速發(fā)展的同時,也面臨著數(shù)據(jù)存儲的安全問題。2009年谷歌大批用戶隱私文件泄露問題;2012年亞馬遜的數(shù)據(jù)丟失;2014年iCloud泄露的明星隱私照片問題。上述問題加劇了用戶對云計算存儲安全的擔(dān)憂。當(dāng)前已經(jīng)有很多學(xué)者針對數(shù)據(jù)敏感信息的安全存儲方法進(jìn)行了大量的研究。Shaikh等人[1]針對數(shù)據(jù)敏感屬性提出了基于數(shù)據(jù)安全需求的分級模型。何文竹等人[2]提出一種面向結(jié)構(gòu)化數(shù)據(jù)集的敏感屬性識別與分級方法,但是該方法僅針對結(jié)構(gòu)化數(shù)據(jù)集實(shí)現(xiàn),而且敏感性屬性也是提前設(shè)置的,因此不適用于云計算各種半結(jié)構(gòu)化或者結(jié)構(gòu)化數(shù)據(jù)的敏感識別與分級。馬曉亭[3]提出大數(shù)據(jù)環(huán)境下圖書館敏感數(shù)據(jù)的識別與保護(hù),采用大數(shù)據(jù)語義識別技術(shù)來構(gòu)建敏感數(shù)據(jù)挖掘模型,實(shí)現(xiàn)敏感信息的解析和內(nèi)容的分類。周晨煒[4]針對大數(shù)據(jù)時代的隱私保護(hù)問題,提出一種對敏感屬性約束的分級量化匿名模型。程永新等人[5]提出一種敏感數(shù)據(jù)字典和正在表達(dá)式匹配的敏感數(shù)據(jù)識別算法。王雷等人[6]提出一種基于數(shù)據(jù)字典的敏感數(shù)據(jù)識別方法。本文針對當(dāng)前的敏感數(shù)據(jù)分級分類方法不適用于實(shí)際生產(chǎn)環(huán)境的敏感元素識別及分類等問題,提出一種面向文檔級別的非結(jié)構(gòu)化數(shù)據(jù)集敏感元素自動識別與分類方法。該方法采用大數(shù)據(jù)語義技術(shù)提取各類文檔的價值元素,以文檔價值元素為對象,采用特征向量相似度的方法實(shí)現(xiàn)敏感數(shù)據(jù)的自動識別與分析。與傳統(tǒng)方法相比,該方法無須預(yù)知文檔數(shù)據(jù)的內(nèi)容屬性、敏感字典、匹配規(guī)則,能夠?qū)崿F(xiàn)任意規(guī)模非結(jié)構(gòu)化數(shù)據(jù)集的敏感元素識別和分類。
1 ? 基于數(shù)據(jù)敏感性的大數(shù)據(jù)存儲安全模型
基于數(shù)據(jù)敏感性的大數(shù)據(jù)存儲安全模型包含的各個模塊如圖1所示:
1.1 ?大數(shù)據(jù)語義識別器
大數(shù)據(jù)語義識別器包含兩個模塊:知識庫構(gòu)建和文本語義解析。
知識庫構(gòu)建包括知識抽取、知識融合和知識推理。
知識抽取就是針對文本信息對文本進(jìn)行實(shí)體抽取、關(guān)系抽取和屬性抽取。實(shí)體抽取結(jié)果包括:人名、地名、機(jī)構(gòu)名、媒體、作者及文本的主題關(guān)鍵詞;關(guān)系抽取是指從文本中抽取兩個或者多個實(shí)體之間的語義關(guān)系;屬性抽取,又稱為事件抽取,包括事件發(fā)生的時間、地點(diǎn)以及參與事件的人物等。
知識融合就是通過消除實(shí)體、關(guān)系、屬性之間的歧義,形成高質(zhì)量的知識庫。
知識推理的主要作用是對原有知識庫的擴(kuò)展和修正。也就是針對現(xiàn)有知識庫和已抽取知識的關(guān)系進(jìn)行推理,從而發(fā)現(xiàn)原有知識中隱含知識,從而實(shí)現(xiàn)知識庫的自我更新。
文本語義解析就是將文本轉(zhuǎn)化為一種能知識庫“看懂”的語義表示。語義解析分為語義映射和語義構(gòu)建。
語義映射就是將單個自然語言短語或者術(shù)語映射到知識庫實(shí)體或者知識庫實(shí)體關(guān)系所對應(yīng)的邏輯形式,也就是構(gòu)造語法樹節(jié)點(diǎn)。
語義構(gòu)建就是構(gòu)建語法樹,本質(zhì)就是自底向上對樹的節(jié)點(diǎn)進(jìn)行合并,最終生成語法樹根節(jié)點(diǎn),最終提取文本的語義信息。
通過上述兩個模塊,大數(shù)據(jù)語義識別器能夠提取文檔中隱含的、準(zhǔn)確的、有用的信息,以便識別出該文檔的數(shù)據(jù)質(zhì)量和價值信息?;诖髷?shù)據(jù)容器提取的價值元素包括:數(shù)據(jù)來源、信息生產(chǎn)者、標(biāo)題、關(guān)鍵詞、摘要、創(chuàng)建時間、使用語言種類、格式、瀏覽次數(shù)等等。價值元素作為一個非結(jié)構(gòu)化的數(shù)據(jù)集,需要采用實(shí)體內(nèi)嵌表示的方法實(shí)現(xiàn)價值元素向量化,以便在后續(xù)方便提供不同類別之間的距離信息。
1.2 ?敏感價值元素識別器
敏感元素價值識別器針對大數(shù)據(jù)語義識別器提取高維度的語義信息提出的。如何解決語義信息高維度產(chǎn)生的災(zāi)難問題,是數(shù)據(jù)存儲安全的研究難點(diǎn)。為了解決這一個問題,特征選擇應(yīng)該被應(yīng)用到敏感價值元素識別器中,也就是如何在眾多的語義信息中,提取或者變換出對價值元素識別有利的特征,以降低特征維度,提升數(shù)據(jù)安全識別的效果和性能。特征貢獻(xiàn)度通常用于特征選擇、優(yōu)化特征分類空間,采用簡單的數(shù)據(jù)統(tǒng)計和歸納方法獲得重要特征,具有減人工干預(yù)、適用于面向?qū)ο筇卣魍诰虻膬?yōu)勢[13]。因此,本文考慮了語義信息的特點(diǎn),采用特征貢獻(xiàn)度作為敏感價值元素識別器識別價值元素的關(guān)鍵方法。
特征貢獻(xiàn)度(Feature Contribution Degree, FCD)作為一種特征選擇的方法,是用于識別特征對類別之間區(qū)分能力的貢獻(xiàn)度。本文基于價值元素向量分布情況,采用特征貢獻(xiàn)度的方法對關(guān)鍵價值元素進(jìn)行選擇,降低敏感性計算的復(fù)雜度。
其中,m為平臺數(shù)據(jù)集的類別數(shù),一般分為敏感性和非敏感性兩類,df(t, ci)表示價值元素t在ci類文檔中出現(xiàn)的文檔數(shù),表示價值元素t在其余文檔中出現(xiàn)的文檔總數(shù)。
顯然,F(xiàn)CD很好衡量了某些價值元素在敏感性文檔和非敏感性文檔的區(qū)別程度。一般來說,F(xiàn)CD的取值范圍在[0, 1]范圍內(nèi),F(xiàn)CD越大,則說明某個價值元素對敏感性/非敏感性文檔的區(qū)分貢獻(xiàn)度越大,對于敏感性/非敏感性文檔的區(qū)分的指導(dǎo)意義越大。
1.3 ?價值元素向量相似性分析器
價值元素向量相似性分析器是用距離函數(shù)對價值元素特征向量進(jìn)行相似度度量,進(jìn)而實(shí)現(xiàn)待識別文檔的價值元素向量與數(shù)據(jù)庫特定文檔集價值元素的相似性。
通過價值元素識別,提取貢獻(xiàn)度較大的m個價值元素向量,在向量拼接的基礎(chǔ)上計算待識別文檔價值元素向量與數(shù)據(jù)庫特定文檔集價值元素向量的相似性,結(jié)合相似度閾值判斷待識別文檔是否具有敏感性。
1.4 ?數(shù)據(jù)敏感性評估器
數(shù)據(jù)敏感性評估器是通過對數(shù)據(jù)使用頻繁程度、數(shù)據(jù)被訪問次數(shù)以及數(shù)據(jù)來源的可靠程度等敏感性內(nèi)容進(jìn)行采集,然后采用離散隨機(jī)變量信息熵來評估數(shù)據(jù)的敏感度。
數(shù)據(jù)的敏感性取決于多種元素,一般來說,數(shù)據(jù)使用的越頻繁,那么它被濫用的可能性越多,數(shù)據(jù)越敏感;數(shù)據(jù)質(zhì)量越高,數(shù)據(jù)來源越可靠,數(shù)據(jù)越敏感,數(shù)據(jù)質(zhì)量一般從文檔元數(shù)據(jù)獲取;價值元素向量相似性越高,數(shù)據(jù)越敏感?;谏鲜鋈齻€元素,采用離散隨機(jī)變量信息熵評估敏感數(shù)據(jù)敏感度。
其中,表示文檔的敏感度,表示平臺全部文檔的熵,表示某個文檔的熵。的取值范圍從0到1,數(shù)值接近0表示文檔最敏感,數(shù)據(jù)接近1表示文檔不敏感。
1.5 ?數(shù)據(jù)敏感性分級
基于敏感性評估器得到的文檔敏感性對文檔進(jìn)行分級,分級結(jié)果如表1所示:
2 ? 實(shí)驗(yàn)與分析
為了驗(yàn)證模型處理非結(jié)構(gòu)化數(shù)據(jù)的處理能力,分別對多個規(guī)模的文檔進(jìn)行了實(shí)驗(yàn)對比,文檔的大小分別是2G、4G、6G。本文將計算使用該模型計算文檔的敏感性后,利用存儲策略文檔進(jìn)行文檔的存儲所需要額外的開銷、敏感數(shù)據(jù)識別率進(jìn)行對比,以此證明該模型是否具有一定的實(shí)用性。
從圖2可知,本文通過數(shù)據(jù)敏感度評估器獲得文檔的敏感度,在基于數(shù)據(jù)敏感分級的基礎(chǔ)上,利用存儲策略文檔實(shí)現(xiàn)存儲安全的控制,根據(jù)實(shí)驗(yàn)結(jié)果表明,模型與數(shù)據(jù)集合并時,會額外增加約15%的開銷。
圖3說明了基于人工識別和文本模型的數(shù)據(jù)敏感度對比。人工識別是通過隨機(jī)抽取10名志愿者,每個志愿者隨機(jī)抽取的20個文檔進(jìn)行敏感度識別;本文模型識別是利用本文提出的算法每次對隨機(jī)抽取的20個文檔進(jìn)行敏感度識別。上述兩種識別結(jié)果都需要與知識工程師對文檔打標(biāo)簽的結(jié)果進(jìn)行對比,最終得到數(shù)據(jù)敏感度識別率。本文提出的數(shù)據(jù)敏感度識別準(zhǔn)確率平均值為81%,誤報率平均值為14%,漏報率為7%;而利用人工的方法對數(shù)據(jù)敏感度識別準(zhǔn)確率平均值為59%,誤報率為20%,漏報率為21%。除此之外,人工方法對數(shù)據(jù)敏感度識別準(zhǔn)確率波動較大。基于上述的結(jié)果分析可知,本文提出的基于數(shù)據(jù)敏感性的大數(shù)據(jù)存儲安全模型具有一定的應(yīng)用價值。
3 ? 結(jié)束語
針對當(dāng)前云計算安全存儲技術(shù)的不足,本文提出一種基于數(shù)據(jù)敏感性的大數(shù)據(jù)安全技術(shù),通過對文檔數(shù)據(jù)價值元素的自動化識別,采用敏感性評估器對數(shù)據(jù)的敏感性進(jìn)行評估,實(shí)現(xiàn)文檔安全等級的劃分,結(jié)合存儲策略文檔,實(shí)現(xiàn)文檔的安全存儲。實(shí)驗(yàn)表明,本文提出的模型能夠針對云平臺不同文檔進(jìn)行自動化、動態(tài)存儲,能夠有效保護(hù)云平臺中的敏感數(shù)據(jù)。在后續(xù)工作中,將繼續(xù)研究敏感度評估器各組件的性能,進(jìn)一步優(yōu)化模型的性能,降低模型的時間開銷,將敏感度評估信息進(jìn)一步修正,以方便網(wǎng)絡(luò)管理員針對存儲策略文檔制定差異性的存儲策略,提升云平臺的存儲安全技術(shù)水平。
參考文獻(xiàn):
[1] ? ?SHAIKH R, SASIKUMAR M. Data classification for achieving security in cloud computing [J]. Procedia computer science, 2015,45: 493-498.
[2] ? ?何文竹,彭長根,王毛妮,等. 面向結(jié)構(gòu)化數(shù)據(jù)集的敏感屬性識別與分級算法[J]. 計算機(jī)應(yīng)用研究, 2019,37(10): 1-7.
[3] ? ?馬曉亭. 大數(shù)據(jù)環(huán)境下圖書館敏感數(shù)據(jù)的識別與保護(hù)[J]. 圖書館論壇, 2017,37(4): 129-136.
[4] ? ?周晨煒. 基于敏感度分級量化的微數(shù)據(jù)匿名模型研究[D]. 西安: 西安電子科技大學(xué), 2018.
[5] ? ?程永新,胡永,郭振宇. 一種數(shù)據(jù)庫敏感數(shù)據(jù)自動識別方法[P]. 中國專利, CN104794204A, 2015-07-22.
[6] ? ?王雷,林素標(biāo). 一種敏感數(shù)據(jù)自動識別與分類的方法[P]. 中國專利, CN104933443A, 2015-09-23.
[7] ? ?李海峰,章寧,朱建明,等. 時間敏感數(shù)據(jù)流上的頻繁項集挖掘算法[J]. 計算機(jī)學(xué)報, 2012(11): 71-81.
[8] ? ? 馬良玉. 云平臺中網(wǎng)絡(luò)信息安全存儲方法仿真研究[J]. 計算機(jī)仿真, 2018,35(12): 240-244.
[9] ? ? 田立偉,樊勇. 大數(shù)據(jù)環(huán)境下云存儲平臺安全機(jī)制研究[J]. 科技視界, 2016(15): 84.
[10] ? 許青林,覃國民,姜文超,等. 敏感數(shù)據(jù)自主可控的云存儲平臺元數(shù)據(jù)管理[J]. 廣東工業(yè)大學(xué)學(xué)報, 2014(4): 46-53.
[11] ? ?張曉陽. 海洋環(huán)境信息云平臺數(shù)據(jù)安全等級自動劃分的研究[D]. 青島: 中國海洋大學(xué), 2015.
[12] ? 瞿飛. 基于云平臺的企業(yè)數(shù)據(jù)安全研究與保護(hù)[D]. 南京: 南京大學(xué), 2014.
[13] ? 孫俊嬌,王萍,張英,等. 特征貢獻(xiàn)度與PCA結(jié)合的遙感影像分類特征選擇優(yōu)化方法研究[J]. 測繪與空間地理信息, 2018,41(1): 49-54.