李森有,季新生,游偉
基于置信度分析的差分隱私保護參數配置方法研究
李森有,季新生,游偉
(國家數字交換系統工程技術研究中心,河南 鄭州 450002)

差分隱私;置信度分析;概率推理攻擊模型;隱私保護
近年來,隨著信息技術的迅猛發展,用戶數據爆炸式增長[1]。通過數據挖掘和信息收集提取的個人信息成為各類研究機構、組織和政府部門等研究和決策的寶貴資源。海量用戶數據的分析和使用在給人們生活帶來便利的同時也給用戶隱私保護帶來巨大的威脅。20世紀以來,如何在數據發布過程中保護個人隱私數據以抵御統計披露攻擊成為隱私保護領域的研究重點[2]。早期的基于數據失真、基于數據加密以及基于限制發布的隱私保護技術通過-anonymity、-diversity以及-closeness等方法[3-5]泛化敏感信息的標志屬性在一定程度上能夠抵抗部分攻擊,但是對于一些新的攻擊模型(如背景知識攻擊、相似性攻擊和傾斜攻擊等)仍會面臨隱私數據泄露的威脅。
差分隱私[6-8]是Dwork針對統計數據庫的隱私泄露問題提出的一種新的基于嚴格數學背景的隱私保護機制,通過使用輸出擾動技術對查詢輸出進行添加隨機噪聲處理,使單個記錄在數據集中或者不在數據集中,對計算結果的影響微乎其微。即使在攻擊者擁有最大背景知識的條件下,也能夠保證攻擊者無法通過觀察計算結果獲取準確的個體信息。同時為隱私保護度量提供了量化評估方法,使不同隱私保護參數下的隱私保護水平具有可比較性[9]。

本文參考文獻[15]對差分隱私保護機制中攻擊者推斷成功概率研究,對差分隱私保護中攻擊者置信度進行分析,設置隱私保護概率閾值以實現對隱私披露概率的控制,提出了一種基于置信度分析的差分隱私保護參數配置方法。首先,根據攻擊者概率推理攻擊模型對不同置信區間、噪聲分布的位置參數以及尺度參數下的攻擊者置信度進行分析;然后,根據所查詢數據的隱私保護屬性設置隱私保護概率閾值,在配置隱私保護參數時保證攻擊者置信度不高于所設置的隱私保護概率閾值;最后,針對不同查詢用戶查詢權限的差異,研究用戶查詢權限對隱私保護參數配置的影響,從而配置更加合理的隱私保護參數。同時在差分隱私保護模型中引入可用性評估模塊,在保護隱私的同時對數據的可用性進行分析,實現了可控的敏感數據隱私性和可用性保護,大大降低了隱私泄露的危險。
本節介紹一些差分隱私的定義和相關概念。
定義1[17]差分隱私


定義2 函數敏感度[18]

函數敏感度是決定在查詢函數的返回值中添加噪聲量大小的重要參數,僅和查詢函數本身性質相關,是指在數據集中刪除或添加任意一條記錄后對輸出結果產生的最大影響。




定義3 差分攻擊


定義4 基于置信區間分析的概率推理攻擊
概率推理攻擊意味著攻擊者能夠從查詢返回結果中通過使用噪聲分布規律結合其置信區間設定推斷查詢的真實結果。概率推理攻擊過程如下。

Laplace概率密度曲線如圖1所示,服從Laplace分布的隨機變量x的概率密度函數為

其中,位置參數和尺度參數直接影響數據的分布情況。當尺度參數b取值較小時,服從Laplace分布的數據大多集中在位置參數附近。當攻擊者對數據庫進行計數查詢請求時,其使用差分攻擊和概率推理攻擊得到噪聲x集中分布在置信區間[?0.5, 0.5]時(如圖1所示各分布曲線陰影區域),攻擊者可以很容易得出所查詢問題的真實值,進而分析得出所攻擊對象的隱私信息。在這種情況下,攻擊者的置信區間選取以及噪聲分布情況反映了攻擊者獲取某個具體記錄隱私信息的難易程度。
為了防止差分隱私概率推理攻擊,本文提出了一種基于置信度分析的差分隱私保護參數配置方法,在保持數據效用的條件下,在所提出的差分隱私保護框架下,通過配置合理的隱私保護參數添加適量的噪聲達到隱私保護的目的。

表1 符號列表
如圖2所示,本文提出一種基于置信度分析的差分隱私保護參數配置方法。為了防止攻擊者通過差分攻擊和概率推理攻擊,對決定所添加噪音幅度的隱私保護參數的配置方法進行研究。首先分析攻擊者的查詢請求及其查詢權限,根據這個結果可以做出一個概率推理模型分析攻擊者獲取真實結果的把握,即置信度(由置信區間決定)。然后,根據數據的隱私保護屬性確定隱私保護概率閾值,確保攻擊者獲取真實結果的置信度不超過所設定的概率閾值,從而推導出差分隱私保護參數配置的數學表達式。最后,當數據查詢者提出一個查詢請求時,它會得到根據導出參數添加噪聲的不精確信息。同時,在保護模型中添加可用性評估模塊,衡量差分隱私處理后的數據可用性,實現可控的敏感數據隱私性和可用性保護,能夠有效防止惡意攻擊者通過信息查詢獲取用戶隱私信息,在降低隱私泄露的前提下大大提高發布數據的有效使用率。
4.2.1 隱私性分析



圖2 基于置信度分析的噪聲參數配置方法
4.2.2 可用性分析
在本文的研究中,筆者在差分隱私保護框架中添加可用性分析模塊來衡量差分隱私保護算法中所添加噪聲對數據可用性的影響。從理論角度,通常采用(,)useful[7,19]技術。
(,)useful:對于差分隱私算法,設是一組查詢函數,是數據域。如果對于任何項數據庫,對于和,若滿足式(7),則算法滿足(,)。

在具體的實際應用中,常根據不同的使用場景選擇不同的差度量方法,如相對誤差、絕對誤差、歐拉函數以及F-measure等。根據需要可以選擇平均相對誤差作為數據庫處理前后數據可用性分析的標準。

可用性分析模塊可以判斷差分隱私保護查詢返回結果的數據的隱私性和可用性是否滿足用戶的需求,向隱私保護模型反饋誤差信息。當查詢處理結果的數據可用性低于用戶隱私要求或隱私保護程度不滿足隱私保護概況閾值設定時,則重新進行添加噪聲處理,直至得到滿足要求的結果。
4.2.3 置信度分析




通過以上的分析,為了滿足隱私保護要求,查詢者通過概率推理攻擊獲取真實結果的置信度應滿足數據隱私概率閾值,因此尺度參數應滿足如下方程

4.3.1 尺度參數分析














步驟1 提取查詢用戶的查詢屬性。對于每一個提交查詢的查詢用戶計算其查詢等級以及其查詢函數的敏感度。


圖3 不同位置參數下的攻擊者置信度

圖4 不同置信區間下的攻擊者置信度


圖5 不同查詢權限下的攻擊者置信度
雖然差分隱私受到了廣泛關注,但如何配置合適的隱私保護參數仍然是個問題。本文證明了攻擊者基于置信區間分析的概率推理攻擊使攻擊者能夠從查詢返回結果中通過使用噪聲分布規律結合其置信區間設定推斷查詢的真實結果。為了解決上述問題,本文通過對不同置信區間、噪聲分布的位置參數以及尺度參數下的攻擊者置信度進行分析,設置隱私保護概率閾值以實現對隱私披露概率的控制,設計了一種基于置信度分析的差分隱私保護參數配置方法。從數學實驗分析來看,所提出的參數配置方法能夠根據攻擊者的置信度靈活地選取合適的隱私保護參數,保證不同查詢權限的查詢者獲取不同準確性的結果,很好地解決了查詢權限差異性帶來的隱形披露問題。
[1] LIANG F, YU W, AN D, et al. A survey on big data market: pricing, trading and protection[J]. IEEE Access, 2018, 6:15132-15154.
[2] INAN A, GURSOY M E, SAYGIN Y. Sensitivity analysis for non-interactive differential privacy: bounds and efficient algorithms[J]. IEEE Transactions on Dependable & Secure Computing, 2017, (99):1-1.
[3] LATANYA S. k-anonymity: a model for protecting privacy[J]. International Journal on Uncertainty, Fuzziness and Knowledge based Systems. 2002,10(5):557-570.
[4] ASHWIN M, JOHANNES G, DANIEL K. ?-diversity: privacy beyond-anonymity[C]. International Conference on Data Engineering. 2006,1(1): 24-35.
[5] LI N H, LI T C, SURESH V. T-closeness: privacy beyond-anonymity and l-diversity[C]. IEEE International Conference on Data Engineering. 2007:106-115.
[6] DWORK C, ROTH A. The algorithmic foundations of differential privacy [M]. Now Publishers Inc. 2014.
[7] ZHU T Q, LI G, ZHOU W, et al. Differentially private data publishing and analysis: a survey [J]. IEEE Transactions on Knowledge & Data Engineering, 2017, 29(8):1619-1638.
[8] DWORK C. Calibrating noise to sensitivity in private data analysis [J]. Lecture Notes in Computer Science, 2012, 3876(8):265-284.
[9] 熊平, 朱天清, 王曉峰. 差分隱私保護及其應用[J]. 計算機學報, 2014, 37(1):101-122.
XIONG P, ZHU T Q, WANG X F. A survey on differential privacy protection and application[J] Chinese Journal of Computers, 2014, 37(1):101-122.
[10] LI Q, LI Y, ZENG G, et al. Differential privacy data publishing method based on cell merging[C]// IEEE International Conference on Networking, Sensing and Control. 2017:778-782.
[11] SORUIA-COMAS J, DOMINGO-FERRER J, SANCHEZ D, et al. Individual differential privacy: a utility-preserving formulation of differential privacy guarantees [J]. IEEE Transactions on Information Forensics & Security, 2017, 12(6):1418-1429.
[12] SMITH M, LOPEZ MAA, ZWIESSELE M, et al. Differentially private regression with Gaussian processes[C]// International Conference on Artificial Intelligence and Statistics. 2018.
[13] HSU J , GABOARDI M , HAEBERLEN A, et al. Differential privacy: an economic method for choosing epsilon[C]//2014 IEEE 27th Computer Security Foundations Symposium. 2014: 398-410.
[14] LEE J, CLIFTON C. How much is enough? choosingfor differential privacy[C]//International Conference on Information Security. 2011: 325-340.
[15] 何賢芒, 王曉陽, 陳華輝. 差分隱私保護參數的選取研究[J]. 通信學報, 2015, 36(12):124-130.
HE X M, WANG X Y, CHEN H H. Study on choosing the parameterin differential privacy[J] .Journal on Communications, 2015, 36(12):124-130.
[16] 郝晨艷, 彭長根, 張盼盼. 重復攻擊下差分隱私保護參數的選取方法[J]. 計算機工程, 2018, 44(7): 151-155.
HAO Y C, PENG C G, ZHANG P P. Selection method of differential privacy protection parameterunder repeated attack[J]. Computer Engineering, 2018, 44(7): 151-155.
[17] DWORK C. Differential privacy[J]. Encyclopedia of Cryptography and Security, 2011: 338-340.
[18] DWORK C, ROTH A. The algorithmic foundations of differential privacy[J]. Foundations and Trends in Theoretical Computer Science, 2014, 9(3-4): 211-407.
[19] BONOMI L, XIONG L. A two-phase algorithm for mining sequential patterns with differential privacy[C]// The 22nd ACM International Conference on Information & Knowledge Management. 2013: 269-278.
Research on differential privacy protection parameter configuration method based on confidence level
LI Senyou, JI Xinsheng, YOU Wei
National Digital Switching System Engineering & Technological Research Center, Zhengzhou 450002, China
In order to solve the problem that the user's real data information is disclosed during the data release and analysis process, and reduce the probability of an attacker gaining real results through differential attacks and probabilistic inference attacks, a differential privacy protection parameter configuration method based on confidence level is proposed. Analysis of attacker confidence under attacker probabilistic inference attack model and make it no higher than the privacy probability threshold set according to the data privacy attribute. The proposed method can configure more reasonable privacy protection parameters for different query privilege of query users, and avoids the risk of privacy disclosure. The experimental analysis shows that the proposed method analyzes the correspondence between attacker confidence level and privacy protection parameters based on query privilege, noise distribution characteristics and data privacy attributes, and derives the configuration formula of privacy protection parameters, which configure the appropriate parameters without violating the privacy protection probability threshold.
differential privacy, confidence level, probability inference attack model, privacy protection
s:The National Natural Science Foundation for Creative Research Groups of China (No.61521003,No.61801515), The National Key R&D Program of China (No.2016YFB0801605)
TP309.2
A
10.11959/j.issn.2096?109x.2019036
李森有(1993? ),河南駐馬店人,國家數字交換系統工程技術研究中心碩士生,主要研究方向為新一代移動通信技術、移動通信安全、隱私保護。

季新生(1968? ),男,河南駐馬店人,國家數字交換系統工程技術研究中心教授、博士生導師,主要研究方向為網絡空間安全、移動通信網絡安全、擬態安全。
游偉(1984? ),男,山東青島人,國家數字交換系統工程技術研究中心講師,主要研究方向為新一代移動通信網絡技術、移動通信網絡安全。
2019?03?20;
2019?06?06
李森有,lisenyou1993@163.com
國家自然科學基金創新研究群體資助項目(No.61521003,No.61801515);國家重點研發計劃基金資助項目(No.2016YFB0801605)
李森有, 季新生, 游偉. 基于置信度分析的差分隱私保護參數配置方法研究[J]. 網絡與信息安全學報, 2019, 5(4): 29-39.
LI S Y, JI X S, YOU W. Research on differential privacy protection parameter configuration method based on confidence level[J]. Chinese Journal of Network and Information Security, 2019, 5(4): 29-39.