許 杰,聶大成,李明桂,李春林
(中國電子科技集團公司第三十研究所,四川 成都 610041)
?
基于幾何變形的大數據安全隱私保護方法*
許 杰,聶大成,李明桂,李春林
(中國電子科技集團公司第三十研究所,四川 成都 610041)
隱私保護已經成為大數據安全的重要研究內容之一。在分析了影響大數據安全隱私三個方面的基礎上,提出了一種基于幾何變形的大數據安全隱私保護方法。該方法從數據源的角度出發,使用幾何變形的方法對數據進行干擾,使得數據聚類算法失效或分析得出錯誤的結果,從而達到大數據安全隱私保護的目的。在實際使用中,該方法效果良好。
大數據; 幾何變形; 隱私保護
隨著信息安全上升到國家安全層面,人們對個人隱私問題也越來越重視。大數據隱含價值在被挖掘的同時,隱私保護已經成為大數據安全的重要研究內容之一[1-4]。
大數據具有數據量大、數據形式多樣性的特點[5],通過對大數據的挖掘,能為科學家、企業家、產品經理、銷售人員等在計劃制定和決策輔助上提供幫助,能為科學研究、企業發展和工業生產提供巨大的機會進行優化和創新。因此,大數據受到了全球各行各業的重視和追捧。但在大數據為我們帶來巨大價值的同時,也應該意識到如果數據沒有合理的安全保障和加密措施,大數據將意味著重大隱私安全問題。
對于大數據的隱私安全問題,可以從以下3個方面來理解:
(1)數據源:這是最能充分完全挖掘大數據價值的部分。數據源包括了來自多源異構的應用設備和數據庫的結構化數據、來自網頁的半結構化數據和來自多種不同類型文件的非結構化數據。這些數據包括了視頻、電子表格、社會媒體信息等,而且,每天都有各種新數據源加入,這就使得系統必須具備處理多樣性數據的能力。令人擔憂的是這些數據中包含的大量的個人身份信息、信用卡信息、知識產權信息、健康醫療信息等重要信息,這些信息都涉及到個人和企業隱私問題,如果沒有有效的安全策略進行保護,將直接導致隱私泄露。
(2)大數據框架:大數據環境不管是基于Hadoop、MongoDB、NoSQL、Teradata等開源大數據生態系統構建還是其他系統構建,都必須隨時對大量的敏感數據進行管理,這些敏感數據不僅僅是保存在大數據節點上的數據,也可能來自系統日志、配置文件、錯誤日志及其他大數據自身產生的數據。若管理不當,將直接導致數據的安全問題。
(3)數據分析:大數據最大的成就在于輸出的數據分析結果。這些輸出的結果可以幫助企業進行優化和創新,可以幫助科學家進行深度的分析和研究。這些信息可以通過儀表盤和報告的形式,通過可視化技術為用戶呈現,并可根據需要進行查詢。對于一些大企業來說,大數據分析結果會呈現企業最敏感的全部資產數據。如果這些數據落入對手的手中,后果將不堪設想。
從上述的三個方面可以看出,如果從數據源就開始考慮對數據進行有效的隱私保護,不僅可以有效的防止數據分析導致的隱私泄露,同時也減輕了大數據框架在安全防護上的壓力,從而可以達到從整體上對大數據安全隱私進行有效的保護和防護的目的。因此,本文提出了一種基于對數據進行幾何變形的大數據安全隱私保護方法。該方法通過幾何變形擾亂數據間固有的聚類關系,使得后續的數據分析無法從原始數據中挖掘出有價值的信息,或者得出錯誤的聚類分析結果,從而達到隱私保護的目的。
大數據安全隱私保護系統整體架構如圖1所示。

圖1 大數據安全隱私保護系統架構
整體架構基于開源工具搭建,安全隱私保護模塊貫穿于整個大數據處理過程,從數據的采集、傳輸、分析到可視化呈現。本文提出的方法主要涉及到數據的采集、傳輸和分析過程。其過程說明如下:
首先,對數據源收集的數據經過安全隱私保護模塊使用幾何變形進行數據干擾,將干擾后的數據存入大數據存儲系統;
其次,在大數據處理分析平臺中對數據的訪問和分析處理,必須通過安全隱私保護模塊,先通過授權,然后對數據進行逆向幾何變形還原后進行。
通過上述的過程可以看出,如果系統中授權出現問題,導致非法用戶在沒有經過授權的情況下也可以直接訪問數據,那么得到的也是經過幾何變形的數據,而非真正的原始數據,從而達到了隱私保護的目的。
在計算機視覺中,視頻中相鄰兩幅圖像間的運動關系可以由矩陣變換來表示,這種矩陣變換描述了圖像間的二維變換關系,也可以看成是圖像中的像素點通過幾何變換后投影到另一幅圖像上[6]。基本的二維變換關系有平移、旋轉、縮放和切變。通過這些基本的二維變換關系的組合,可以得到數據的平移變換(translation)、歐氏變換(Euclidean)、相似變換(similarity)、仿射變換(affine)和投影變換(projective),如圖2所示。

圖2 二維圖像變換
下面以相似變換(similarity)為例說明其變換原理。相似變換可以描述圖像的平移、旋轉和縮放。即可對數據進行平移、旋轉和縮放的變換。其變換形式表示如下:
(1)
式中,Xt=[xt,yt]T,表示第t幀圖像中像素點的坐標,θ旋轉角度,tx和ty為水平方向和垂直方向的平移量,標量s表示均勻縮放。該公式的物理描述為:在第t-1幀圖像中的像素點X,經過平移、旋轉和縮放的幾何變形后,被投影到第t幀圖像中,使其改變了在第t-1幀中的位置。而該平移、旋轉和縮放矩陣也描述了該像素在兩幅圖像間的變換關系。如圖3所示,左邊圖像中的點可以在右邊圖像中找到相對應的點,這些點經過相似變換(平移、旋轉和縮放)后位置發生了變化,從左邊圖像映射到右邊圖像中。

圖3 相似變換
大數據系統中收集的數據具有不同的屬性,每個屬性涉及的隱私信息程度不同,可根據實際的需要,賦予不同屬性不同的安全等級。在幾何變形中也只需對其中幾個重要的屬性進行幾何變形即可,這樣在實現隱私保護的同時,也保證了整個系統不會因為過度的數據干擾處理而影響性能。下面分別說明使用平移、旋轉和縮放的幾何變形進行數據干擾。
3.1 平移數據干擾
平移數據干擾可以看成對原始數據添加了加性噪聲,這些噪聲分別被添加到隱私屬性的數值中,噪聲值是一個常量,其值可以為正,也可為負。算法過程說明如下:
Input:隱私屬性集V,噪聲集TNadd
Output:干擾后隱私屬性集V′
Step1:for 每一個隱私屬性Aj∈V
選擇兩個隱私屬性Aj,Aj+k,k為預先設定值;
選擇一個加性噪聲項ej∈TNadd
Step2:將選擇的隱私屬性對Aj,Aj+k,和加性噪聲項ej組裝成矩陣;
Step3:進行幾何變形計算:
V′←transform(V ,TNadd)
End
為了更清晰的描述數據是如何經過幾何變形被干擾的,我們在數據庫中挑選一些簡單的屬性進行說明。數據如表1所示。

表1 例子數據
在本例中對年齡和收入進行干擾,加性噪聲參數取值為(-3,1 000),經過幾何變形后的結果如表2所示。

表2 平移干擾后的數據
3.2 縮放數據干擾
縮放數據干擾可以看成對原始數據添加了乘性噪聲,該噪聲是一個預先設定的常量,其值可以為正,也可為負。該干擾算法與3.1中平移數據干擾類似,只是在計算時將加法操作變成乘法操作。此處仍以表1數據為例,選擇年齡和收入進行干擾,乘性噪聲參數取值為(0.8,1.1),計算結果如表3所示。

表3 縮放干擾后的數據
3.3 旋轉數據干擾
旋轉干擾可以看成是一個特殊的乘性噪聲,只是其噪聲參數是一個角度值θ,該θ值可正可負。以表1數據為例,此處旋轉噪聲參數為(cos30,sin30)計算結果如表4所示。

表4 旋轉干擾后的數據
從上面的計算結果中可以看出,每個不同數據擾亂方法的結果都不一樣,但都能達到影響數據挖掘聚類算法的目的,使算法得到錯誤的分析結果,從而達到了隱私保護的目的。上述的算法也可以進行混合干擾,如本文第二部分中講述幾何變形原理中的相似變換,就是將平移、縮放和旋轉進行了混合。在實際的隱私保護過程中,應根據需要選擇數據干擾算法,因為每個算法的效率不一樣,干擾的效果也有差別。根據經驗來看,對于隱私度較低的屬性值可以使用單一的干擾算法,如:平移、旋轉或縮放。而對于隱私度較高的屬性可以使用干擾力度較大的混合算法,如:歐式變換、相似變化或仿射變換。投影變換由于計算復雜度較高,對效率影響較大,故不推薦在大數據隱私保護系統中使用。
效果評價及分析包括兩方面:不同幾何變形算法效果評價和異值點(outlier)數量。評價數據采用KDD CUP 99數據庫的結構化數據進行測試。
4.1 幾何變形算法效果比較
本文提出的幾何變形數據干擾方法主要是影響聚類算法的效果,因此,采用經典的K-Means對幾種幾何變形算法進行測試。評價方法:通過對原始數據和干擾后的數據分別進行聚類,對結果中的每個聚類集中數據點個數進行比較,其差值即表示對數據進行了干擾,差值的大小也可以在一定程度上說明干擾程度。其計算公式如下:
(2)
式中,N表示數據庫中數據點個數,k是聚類產生的數據集個數,|Clusteri(D)|表示數據集中數據點個數。采用K-Means比較后的結果如表5所示。

表5 K-Means比較結果
通過表5中的結果可以看出,每個方法在不同k值下的差值不同,說明了這些方法在干擾上存在差異,其中,旋轉干擾的差異最大,相似干擾略低于它。從差值上看,旋轉干擾應該干擾力度最大。
為了進一步說明問題,本文從另一方面對干擾程度進行評價。對于聚類算法來說,異值點對聚類結果影響很大,甚至會導致聚類失敗。因此,對幾種幾何變形方法產生的異值點也進行了評價,結果如表6所示。

表6 異值點
從表6中可以看出,相似干擾出現的異值點數量最多,異值點不僅會使聚類算法計算時間增長,也會導致聚類的效果下降。因此,從綜合結果來看相似干擾在評價的幾種方法中對聚類算法的影響最大,隱私保護程度最高。
4.2 與其他算法之間優缺點的比較
文獻[7]提出了k項匿名的隱私保護方法,該方法用于公布的數據預處理后,任意記錄的各屬性值的組合形式在整個數據集中出現k次,即對于任意記錄,至少存在k個與之相同的記錄,該記錄在這些記錄中不可辨識,從而達到隱私保護的目的。k匿名主要通過泛化技術實現,在泛化的過程中會導致信息丟失,泛化程度與隱私保護是一對永久的矛盾,泛化程度越高,隱私保護力度越大,但數據細節丟失也越多。
本文提出的方法不存在數據丟失的問題,而且計算上較之更簡單,效率更高,更適合在大數據環境下進行隱私保護。
本文重點分析了影響大數據安全隱私的三個重要因素,并提出了使用計算機視覺中計算圖像間幾何變換關系的方法對數據進行干擾來達到隱私保護的目的。該方法從系統最底層的數據源出發對數據進行干擾,干擾后的數據不僅使得在分析階段對數據進行聚類分析失效或得到錯誤結果,而且,也對大數據系統整體的數據安全隱私起到了有效的保護。實現了從局部到整體的安全隱私保護。在實際使用中,該方法數據的隱私保護表現良好。
[1] 馮登國,張敏,李昊.大數據安全與隱私保護[J].計算機學報, 2014,37(01):246-258. FENG Deng-guo, ZHANG Min, LI Hao.Big Data Security and Privacy Protection [J]. Chinese Journal of Computers, 2014, 37(01): 246-258.
[2] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(01):146-169. MENG Xiao-feng, CI Xiang. Big Data Management: Concepts, Techniques and Challenges. Journal ofComputer Research and Development, 2013, 50(01):146-169.
[3] AGRAWAL R, SRIKANT R. Privacy-preserving data mining[C]//ACM Sigmod Record. ACM, 2000, 29(2): 439-450.
[4] VERYKIOS V S, BERTINO E, FOVINO I N, et al. State-of-the-art in Privacy Preserving DataMining[J]. ACM Sigmod Record, 2004, 33(1): 50-57.
[5] 張鋒軍.大數據技術研究綜述[J].通信技術,2014,47(11):1240-1248. ZHANG Feng-jun. Overview on Big Data Technology [J]. Communications Technology, 2014, 47 (11): 1240-1248.
[6] RICHAR S. Computer Vision: Algorithms and Applications[M], Springer, 2010.
[7] SAMARATI P, SWEENEY L.Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression[C]//Proceedings of the IEEE Symposium on Research in Security and Privacy.[s.l.]:IEEE,1998, 1-19.
Privacy Protection of Big Data Security based on Geometric Transformation
XU Jie, Nie Da-cheng, LI Ming-gui, LI Chun-lin
(No.30 Institute of CETC, Chengdu Sichuan 610041, China)
Privacy protection becomes an important research topic of big data security. This paper firstly analyzes the three factors of big data security, and then proposes a privacy protection method of big data security based on geometric transformation. This method, from the perspective of data source,and with geometric transformation technique,interferes with the data, thus to make the clustering algorithm lose efficacy or acquire inaccurate results,and further to achieve privacy protection of big data security.The practical application indicates that the proposed method is feasible and effective.
big data; geometric transformation; privacy protection
10.3969/j.issn.1002-0802.2015.05.019
2014-11-21;
2015-03-16 Received date:2014-11-21;Revised date:2015-03-16
國家自然科學基金項目(No.61202043)
Foundation Item:National Natural Science Foundation Project (No. 61202043)
TP309
A
1002-0802(2015)05-0602-05

許 杰(1978—),男,博士,工程師,主要研究方向為信息安全與大數據;
聶大成(1986—),男,博士,主要研究方向為數據挖掘與異常檢測;
李明桂(1989—),男,碩士研究生,主要研究方向為信息安全與大數據;
李春林(1984—),男,博士研究生,主要研究方向為信息安全。