謝 榮, 溫 蜜
(上海電力大學 計算機科學與技術學院, 上海 200090)
數據挖掘是一種從大量含有潛在知識的數據中發現有用信息的技術。但大量的數據包含隱私敏感信息,數據挖掘可能導致隱私信息的泄露。在不影響數據挖掘準確性的前提下,保護數據隱私是一個關鍵的挑戰。近年來,敏感數據的保護引起了社會的廣泛關注[1],其主要研究方向為隱私保護數據挖掘(Privacy-preserving Data Mining,PPDM)。PPDM既能提供數據挖掘技術,又能保護數據庫中用戶的隱私。然而,PPDM的主要挑戰是抵抗熟練敵手的攻擊[2-3]。為了克服這一挑戰,PPDM使用數據擾動[4]和加密技術[5]進行敏感數據的保護。基于加密的隱私保護數據挖掘技術提供了良好的安全性和準確性,但因其具有較高的計算復雜度,使得加密技術不適合大規模的數據挖掘[6]。與加密技術相比,數據擾動擁有較低的計算復雜度,使得它對大數據挖掘更有效[7]。噪聲添加、幾何變換、隨機化、數據壓縮、混合擾動是數據擾動的相關技術[8]。一個隱私模型定義了特定擾動機制的隱私信息保護和泄漏的限制[9],其中早期的隱私模型包括k-匿名,l-多樣性,t-closeness[10-11]等。研究表明,這些模型容易受到不同的攻擊,如最小攻擊[12]、基于合成的攻擊[13]和背景知識攻擊[14],而這些攻擊能利用擾動后的數據來重建隱私信息。差分隱私(Differential Privacy,DP)是一種強大的隱私模型,與以前的隱私模型相比,可以為PPDM提供更好的隱私保護[15-16]。
近年來,差分隱私技術大致可分為兩種:中心化差分隱私(Centralized Differential Privacy,CDP)和本地化差分隱私(Local Differential Privacy,LDP)[17-18],主要區別在于是否具有可信的第三方。……