999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于差分隱私的RDPk—means聚類方法

2018-10-29 11:09:14馬哲鹿方凱
軟件導刊 2018年8期

馬哲 鹿方凱

摘要:為解決k-means聚類算法在聚類過程中隱私泄露風險,在滿足ε-差分隱私保護前提下,提出一種隱私保護的RDPk-means聚類方法。該方法與傳統隨機選取初始點方式不同,采取基于網格密度的方式選取初始聚類中心,并在UCI數據集中進行有效性驗證。采用543條數據生成2個聚類簇和19 020條數據生成3個聚類簇分別進行實驗。結果表明,該聚類方法在不同的數據規模和維數情況下可以很好地保護數據隱私,能保證聚類結果的可用性。

關鍵詞:k-means算法;差分隱私;隱私保護

DOIDOI:10.11907/rjdk.181386

中圖分類號:TP309

文獻標識碼:A 文章編號:1672-7800(2018)008-0205-03

英文摘要Abstract:In order to solve the risk of privacy leakage in the clustering process of k-means clustering algorithm,under the premise of satisfying ε-difference privacy protection,this paper proposes a privacy-preserving RDPk-means clustering method.This method is different from the traditional random selection of initial points and it is based on the grid density approach to select the initial poly Class Center to verify validity in UCI's real data set.Two experiments were performed using 543 data sets to generate 2 clusters and 19,020 data sets to generate 3 clusters.The experimental results show that the proposed clustering method can still protect data privacy with different data sizes and dimensions,and also guarantee the availability of clustering results.

英文關鍵詞Key Words:k-means algorithm; differential privacy; privacy protect

0 引言

大數據時代,隨著數據量的急劇增長,全球范圍內出現了對信息隱私的擔憂[1]。由于互聯網可以輕松地將數據自動收集并添加到數據庫中,因此隱私問題進一步惡化。對大量數據收集的擔憂已經延伸到應用于數據的分析工具。數據挖掘是當前對數據進行分析和處理的有效技術,可從大型數據庫中發現有潛在價值的信息。但與此同時,敏感信息的泄露也給用戶帶來了不可估量的損失[2-4]。因此,對聚類分析中的隱私數據進行有效保護,成為數據隱私保護領域亟待解決的問題[5-6]。

針對上述問題已經有許多隱私保護方法,如文獻[7-10]中描述的模型,但這些隱私保護模型需要不斷改進以抵御新的攻擊,如背景知識攻擊[8]和合成攻擊[9],其中一些并不能很好地解決數據可用性和隱私保護之間的平衡。因此,本文提出了一種在聚類分析中用于隱私數據保護的RDPk-means聚類算法。RDPk-means算法在k-means聚類算法的迭代過程中增加滿足特定分布的適當隨機噪聲,使聚類結果在一定程度上失真,達到隱私保護目的,同時保證數據的可用性。

1 隱私保護研究現狀

當前的隱私保護技術大致分為數據加密、限制發布和數據失真3類 [11]。數據加密是通過加密算法對數據加密,對數據進行有效保護;限制發布主要是在發布數據前對數據提前加密;數據失真是對數據添加噪聲使數據失真,進而對數據隱私進行保護。

1.1 基于數據加密的隱私保護技術

1.1.1 對稱加密算法技術

對稱加密算法是最古老和使用最多的加密方法。在對稱加密算法中,解密密文的密鑰與加密明文密鑰相同。這種加密算法現在被廣泛使用,但是這種方法存在一定缺陷,即隨著密鑰數量的增加,用戶對密鑰的管理會變得很困難。

1.1.2 非對稱加密算法技術

與對稱加密算法不同,非對稱加密算法使用兩個密鑰:一個密鑰即私鑰,只有一個人知道,另一個密鑰即公鑰,每個人都可以使用。這兩個值在數學上相互關聯,但從一個值得出另一個值是不可能的。該方法在數字簽名和身份認證領域應用較廣,但它的缺點是算法復雜,數據加密效率較低。

1.2 基于限制發布的隱私保護技術

1.2.1 K-匿名技術

K-匿名[12]是一種經典的匿名化方法,這種方法首先將所要發布的關系數據劃分為多個等價類,每個等價類必須包含不少于K條相似數據,也就是說,在等價類中,任意一條數據都無法和其它K-1條數據區分[13],這使得滿足k-匿名的數據具有較好的隱私保護能力。但是K匿名的缺陷也很明顯,敏感屬性是等價類中的重要因素[14],因為K-匿名并沒有對此進行限制,所以當某個等價類的敏感屬性取值相同時這種技術便會失效。

1.2.2 L-diversity技術

L-diversity[15]是基于K-匿名改進的技術,因為在k-匿名中雖然攻擊者無法確定某個人到底是等價類中的哪條數據,但如果等價類中某項敏感屬性值出現的頻率過高,那么攻擊者很有可能將這個人和這個屬性值聯系起來。所以L-diversity要求在同一個等價類中,某一項屬性值的出現概率不能超過1/L,這樣攻擊者就不太可能將某個人和某個敏感屬性值聯系起來。但如果數據中敏感屬性值比例過大,攻擊者仍然有可能獲得個人隱私。

1.3 基于數據失真的隱私保護技術

差分隱私[16-18]近年來被引入數據發布中的隱私保護,隱私保護模型旨在確保所有幾乎相同的輸入數據集之間的任何已發布數據具有相等概率,它保證了所有輸出對個體不敏感。除此之外,即使攻擊者擁有一定的背景知識,該模型也能使記錄的隱私性得到有效保護[19]。

3 實現方法

通過數據實驗對RDPk-means算法的可用性進行分析和說明。實驗環境為:Inter(R) Core(TM) i3-2328M CPU@2.20GHz,8G內存,Windows7 64位操作系統,實驗使用Java語言實現,采用的IDE開發工具為Eclipse,版本為Mars.2 Release (4.5.2)。算法中用到的數據來自于UCI Knowledge Discovery Archive database,具體信息如表1所示。

4 實驗結果

本實驗用RDPk-means和DPk-means對每個數據集進行聚類分析。由于添加的拉普拉斯噪聲是隨機的,所以實驗可能會產生一定誤差。為減少誤差,在不同的數據集上調用RDPk-means算法30次后取CH值的平均值。CH比率越接近1,說明兩種算法聚類后的有效性越接近,結果如圖1、圖2所示。

從圖1、圖2可知,隨著ε值的不斷增大,CH的值最后也大大提高。這是因為通過改變初始點選擇,提升了聚類中心精度,從而使聚類結果的偏差變小。尤其是當ε值較小、噪聲較大時,RDPk-means算法聚類可用性提高;當ε值較大、添加噪聲減少時,顯示數據可用性逐漸接近原始K均值算法的聚類,這表明了RDPk-means算法的優越性。

5 結語

為解決現有DPk-means算法中聚類結果效率不高問題,本文提出一種新的RDPk-means算法。通過對原始數據集進行基于網格密度的劃分,明顯減少了異常值對結果的影響。另外,該算法通過劃分每個維度的數據生成初始聚類中心,改善了初始聚類中心的選擇及聚類效果。

參考文獻:

[1] 賀瑤,王文慶,薛飛.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013,23(2):69-72.

[2] 閆蒲.互聯網社交大數據下行為研究的機遇與挑戰[J].中國統計,2016(3):15-17.

[3] 劉雅輝,張鐵贏,靳小龍,等.大數據時代的個人隱私保護[J].計算機研究與發展,2015,52(1):229-247.

[4] 王璐,孟小峰.位置大數據隱私保護研究綜述[J].軟件學報,2014,25(4):693-712.

[5] 王保義,胡恒,張少敏.差分隱私保護下面向海量用戶的用電數據聚類分析[J].電力系統自動化,2018,42(2):121-127.

[6] 李黎明.基于網格的隱私保護聚類挖掘算法研究[D].福州:福州大學,2010.

[7] 闞瑩瑩,曹天杰.一種增強的隱私保護K-匿名模型——(α,L)多樣化K-匿名[J].計算機工程與應用,2010,46(21):148-151,180.

[8] 谷汪峰,饒若楠.一種基于k-anonymity模型的數據隱私保護算法[J].計算機應用與軟件,2008(8):65-67.

[9] 焦佳.社會網絡數據中一種基于k-degree-l-diversity匿名的個性化隱私保護方法[J].現代計算機:專業版,2016(29):45-47,60.

[10] 張健沛,謝靜,楊靜,等.基于敏感屬性值語義桶分組的t-closeness隱私模型[J].計算機研究與發展,2014,51(1):126-137.

[11] 周水庚,李豐,陶宇飛,等.面向數據庫應用的隱私保護研究綜述[J].計算機學報,2009,32(5):847-861.

[12] SWEENEY L.k-anonymity:A model for protecting privacy[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2002,10(5):557-570.

[13] SWEENEY L.Achieving k-anonymity privacy protection using generalization and suppression[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2002,10(5):571-588.

[14] Li N,Li T,VENKATASUBRAMANIAN S.t-closeness:privacy beyond k-anonymity and l-diversity[C].Data Engineering,2007.ICDE2007.IEEE 23rd International Conference on.IEEE,2007:106-115.

[15] MACHANAVAJJHALA A. l-diversity: Privacy beyond k-anonymity [C].Data Engineering,2006.ICDE'06.Proceedings of the 22nd International Conference on.IEEE,2006:24-24.

[16] DWORK C.Differential privacy in the 40th international colloquium on automata.Languages and Programming,2006.Dwork C.Differential privacy:a survey of results[C].International Conference on Theory and Applications of Models of Computation.Springer,Berlin,Heidelberg,2008:1-19.

[17] DWORK C,NAOR M,PITASSI T,et al.Pan-private streaming algorithms[C].ICS.2010:66-80.

[18] DWORK C.Differential privacy under continual observation[C].Proceedings of the forty-second ACM symposium on Theory of computing.ACM,2010:715-724.

[19] 李楊,溫雯,謝光強.差分隱私保護研究綜述[J].計算機應用研究,2012,29(9):3201-3205,3211.

[20] DWORK C.The differential privacy frontier[J].Tcc.2009(54 44):496-502.

[21] 李楊,郝志峰,溫雯,謝光強.差分隱私保護k-means聚類方法研究[J].計算機科學,2013,40(3):287-290.

[22] CALISKI T,HARABASZ J.A dendrite method for cluster analysis[J].Communications in Statistics-theory and Methods,1974,3(1):1-27.

(責任編輯:杜能鋼)

主站蜘蛛池模板: 亚洲三级色| 日本免费福利视频| 成人第一页| 亚洲欧美日韩久久精品| 九月婷婷亚洲综合在线| 欧美高清三区| 亚洲国产中文精品va在线播放| 精品伊人久久久久7777人| 国产精品视频猛进猛出| 青青草国产精品久久久久| 99视频在线观看免费| 伊人激情综合网| 狠狠亚洲五月天| 国产中文在线亚洲精品官网| 欧美不卡在线视频| 美女毛片在线| 日韩人妻无码制服丝袜视频| 国产第二十一页| 国产日韩欧美成人| 国产免费网址| 亚洲第一色视频| 福利一区在线| 日本不卡在线播放| 免费人成在线观看成人片| 色噜噜狠狠狠综合曰曰曰| 久久精品国产一区二区小说| 欧美亚洲一二三区| 欧美精品啪啪| 国产农村1级毛片| 亚洲精品在线影院| 国产门事件在线| 四虎影视无码永久免费观看| 亚洲欧美精品一中文字幕| 亚洲综合色婷婷中文字幕| 国产麻豆精品在线观看| 欧美在线国产| 91日本在线观看亚洲精品| 四虎永久免费在线| 国产黑人在线| 免费又黄又爽又猛大片午夜| 亚洲国产精品无码久久一线| 国产视频入口| 欧美国产精品不卡在线观看 | 国产在线视频福利资源站| 国产成人无码综合亚洲日韩不卡| 亚洲日韩每日更新| 狠狠干欧美| 亚洲91精品视频| 最新国语自产精品视频在| 欧美在线导航| 日韩AV无码一区| 全免费a级毛片免费看不卡| 国产成人AV综合久久| 在线va视频| 亚洲天堂网视频| 亚洲精品午夜无码电影网| 亚洲综合在线最大成人| 日韩久草视频| 亚洲人成网站在线观看播放不卡| 精品国产一区91在线| 国产爽妇精品| 日韩毛片免费观看| 国产三级国产精品国产普男人 | 国产黄色视频综合| 亚洲第一视频网| 亚洲成A人V欧美综合| 免费全部高H视频无码无遮掩| 一本视频精品中文字幕| 国产精品亚洲天堂| 日韩天堂网| 国产精品天干天干在线观看 | 国产农村妇女精品一二区| 多人乱p欧美在线观看| 久久人午夜亚洲精品无码区| 亚洲综合狠狠| 久久综合色天堂av| 在线视频精品一区| 国产在线精品人成导航| 欧美区一区二区三| 日本精品中文字幕在线不卡| 四虎精品国产永久在线观看| 日韩成人午夜|