滿足本地差分隱私的分類變換擾動(dòng)機(jī)制

2022-02-11 14:11:04朱素霞孫廣路

計(jì)算機(jī)研究與發(fā)展 2022年2期

朱素霞王蕾孫廣路

(哈爾濱理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院哈爾濱 150080) (哈爾濱理工大學(xué)信息安全與智能技術(shù)研究中心哈爾濱 150080)

隨著云計(jì)算和大數(shù)據(jù)技術(shù)的發(fā)展，用戶端產(chǎn)生的海量數(shù)據(jù)被服務(wù)器收集起來進(jìn)行各種數(shù)據(jù)分析任務(wù).雖然對(duì)這些數(shù)據(jù)進(jìn)行分析可以為人們帶來可觀的效益，但是卻造成了用戶隱私暴露的問題.差分隱私由于其強(qiáng)大的隱私保障已經(jīng)成為了一種標(biāo)準(zhǔn)的隱私保護(hù)模型.隨著差分隱私的廣泛使用，服務(wù)器變得越來越重要.然而，在真實(shí)世界中保證所有服務(wù)器都是可信的是不實(shí)際的，而不可信的服務(wù)器可能會(huì)因?yàn)槟承┰蛐孤队脩舻碾[私.為了解決這一問題，本地差分隱私作為一種新的隱私保護(hù)技術(shù)被提出用來保護(hù)用戶的隱私，其最典型的擾動(dòng)機(jī)制是隨機(jī)響應(yīng)機(jī)制.在本地差分隱私中，服務(wù)器假設(shè)是不可信的，每個(gè)用戶端對(duì)本地?cái)?shù)據(jù)進(jìn)行擾動(dòng)使其滿足本地差分隱私，然后再將擾動(dòng)后的數(shù)據(jù)發(fā)送給服務(wù)器.服務(wù)器對(duì)收集的噪聲數(shù)據(jù)進(jìn)行計(jì)算，得到所需的統(tǒng)計(jì)信息.本地差分隱私方法可以在獲得較為準(zhǔn)確的統(tǒng)計(jì)信息的同時(shí)有效地對(duì)用戶的數(shù)據(jù)進(jìn)行保護(hù)，從而避免了用戶隱私泄露的問題.

本地差分隱私由于其強(qiáng)大的隱私保證，已經(jīng)被運(yùn)用到很多實(shí)際的工作任務(wù)中.例如谷歌的Chrome瀏覽器使用的RAPPOR(randomized aggregatable privacy-preserving ordinal response)方法以及微軟的遙測數(shù)據(jù)采集.這些方法使得在保護(hù)用戶隱私的同時(shí)，可以利用用戶的數(shù)據(jù)進(jìn)行分析得到有效的統(tǒng)計(jì)結(jié)果.人們針對(duì)不同的數(shù)據(jù)類型提出了適用于不同計(jì)算任務(wù)的本地差分隱私框架，目前主要研究的統(tǒng)計(jì)任務(wù)有均值估計(jì)和頻率估計(jì).例如，谷歌Chrome使用的RAPPOR方法是針對(duì)分類型數(shù)據(jù)的頻率估計(jì)，Nguyên等人提出了針對(duì)離散型數(shù)據(jù)的均值估計(jì)的擾動(dòng)方法Harmony. Ye等人針對(duì)鍵值數(shù)據(jù)類型提出了PrivKVM方法，可以在滿足本地差分隱私的同時(shí)估計(jì)鍵的頻率以及鍵對(duì)應(yīng)的所有值的均值.針對(duì)連續(xù)型數(shù)值數(shù)據(jù)的均值估計(jì)，Duchi等人的方法對(duì)數(shù)據(jù)進(jìn)行擾動(dòng)之后一共有2種可能得到的擾動(dòng)值.由于這2種擾動(dòng)值的絕對(duì)值都大于1，即不管隱私預(yù)算如何變化，其方差始終大于1.所以當(dāng)隱私預(yù)算比較大時(shí)，該方法得到的均值估計(jì)的準(zhǔn)確性相比于拉普拉斯方法要更差.隨后，Wang等人針對(duì)Duchi方法的缺點(diǎn)，提出了分段機(jī)制(piecewise mechanism, PM).該機(jī)制不同的是，其擾動(dòng)輸出為一段連續(xù)值，且這段連續(xù)值的中間部分有更高的概率輸出.雖然分段機(jī)制改善了Duchi方法中存在的問題，但是當(dāng)隱私預(yù)算較小時(shí)，該方法并沒有很好地提高均值估計(jì)的準(zhǔn)確性，其最壞情況下噪聲方差仍與Duchi方法接近.

除此之外，機(jī)器學(xué)習(xí)作為當(dāng)前比較熱門的學(xué)習(xí)領(lǐng)域，其中也涉及了大量用戶的隱私保護(hù)問題.為了更好地保護(hù)用戶的隱私，可以將其與本地差分隱私的相關(guān)擾動(dòng)機(jī)制結(jié)合使用.目前，機(jī)器學(xué)習(xí)中較常使用的隱私保護(hù)方式是在模型訓(xùn)練時(shí)對(duì)用戶梯度進(jìn)行擾動(dòng)，服務(wù)器收集擾動(dòng)后的梯度進(jìn)行更新.例如，Nguyên等人將Harmony運(yùn)用到了隨機(jī)梯度下降中，對(duì)每次迭代的梯度進(jìn)行擾動(dòng)，并且證明了本地差分隱私下的小批量梯度下降要優(yōu)于隨機(jī)梯度下降.Wang等人則利用多維數(shù)據(jù)擾動(dòng)的方式，將分段機(jī)制用于迭代中的梯度擾動(dòng).這些方法雖然在機(jī)器學(xué)習(xí)訓(xùn)練過程中保護(hù)了用戶的隱私，但由于機(jī)制本身的缺點(diǎn)，其訓(xùn)練結(jié)果的準(zhǔn)確性仍然具有提升空間.

為了改善已有擾動(dòng)方法引入的準(zhǔn)確性問題，論文針對(duì)連續(xù)型數(shù)值數(shù)據(jù)，提出了一種滿足本地差分隱私的分類變換擾動(dòng)機(jī)制(differential classified transformation, DCT).跟已有的方法直接對(duì)所屬數(shù)據(jù)類型使用對(duì)應(yīng)的擾動(dòng)方法進(jìn)行擾動(dòng)不同，本文提出的方法首先對(duì)數(shù)據(jù)類型進(jìn)行了轉(zhuǎn)換，將數(shù)值型數(shù)據(jù)轉(zhuǎn)換為了1維二元分類數(shù)據(jù)，再對(duì)分類數(shù)據(jù)進(jìn)行擾動(dòng).在真實(shí)數(shù)據(jù)以及合成數(shù)據(jù)中使用該方法進(jìn)行均值估計(jì)，與已有的方法進(jìn)行對(duì)比，可以得到一個(gè)更為準(zhǔn)確的估計(jì)結(jié)果.在機(jī)器學(xué)習(xí)的隱私保護(hù)中，考慮到本地差分隱私中隱私預(yù)算的分配問題，為了在訓(xùn)練中得到更為準(zhǔn)確的結(jié)果，論文將提出的分類變換機(jī)制用于構(gòu)建滿足本地差分隱私的小批量梯度下降，并在該框架下進(jìn)行線性回歸的學(xué)習(xí)任務(wù).

總的來說，本文主要貢獻(xiàn)如下：

1) 提出了一種數(shù)據(jù)變換擾動(dòng)方法，并且得到了較好的結(jié)果，這給本地差分隱私的擾動(dòng)提供了一個(gè)新方向，可以通過變換數(shù)據(jù)，使其在提高數(shù)據(jù)的可用性的同時(shí)又保障了用戶的隱私；

2) 提出的分類變換機(jī)制具有良好的性能，在滿足本地差分隱私保證的同時(shí)，在均值估計(jì)方面可以得到更為準(zhǔn)確的結(jié)果；

3) 將提出的方法用于構(gòu)建小批量梯度下降算法，并用該算法完成線性回歸的學(xué)習(xí)任務(wù)，使得參與用戶的數(shù)據(jù)受到良好保護(hù)的同時(shí)，可以得到一個(gè)較為準(zhǔn)確的模型結(jié)果；

4) 在真實(shí)的數(shù)據(jù)集以及合成的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，以對(duì)提出的機(jī)制進(jìn)行評(píng)估.實(shí)驗(yàn)結(jié)果表明，不管是在均值估計(jì)還是在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化任務(wù)中，使用分類變換擾動(dòng)機(jī)制得到的結(jié)果誤差要小于已有的方法.

1 相關(guān)定義

1.1 本地差分隱私

在本地差分隱私中，服務(wù)器收集各個(gè)用戶的數(shù)據(jù)，并利用數(shù)據(jù)計(jì)算得到所需的統(tǒng)計(jì)信息.用戶在將數(shù)據(jù)發(fā)送給服務(wù)器前，先對(duì)本地的數(shù)據(jù)進(jìn)行擾動(dòng)，再將擾動(dòng)后的數(shù)據(jù)發(fā)送給服務(wù)器.服務(wù)器無法根據(jù)收集的噪聲數(shù)據(jù)來獲得用戶的隱私信息.隱私預(yù)算的大小代表了用戶隱私保護(hù)程度的強(qiáng)弱，其控制了隱私和效用之間的平衡，一個(gè)更小的隱私預(yù)算代表了更強(qiáng)的隱私保護(hù)程度.本地差分隱私的定義如下：

定義1.

-本地差分隱私

隨機(jī)函數(shù)

滿足

-本地差分隱私當(dāng)且僅當(dāng)域

中的任意2個(gè)輸入

′以及對(duì)于

中的任意可能的輸出

，有：

(

)≤e×

(

′)=

(1)

其中

(·)代表概率

本地差分隱私作為差分隱私的分支，提供了比差分隱私還要強(qiáng)大的隱私保障

根據(jù)上面的隱私定義，服務(wù)器無論具備怎樣的背景知識(shí)，都無法以高概率從接收到的用戶的擾動(dòng)元組

來判斷用戶的真實(shí)值是

還是

′

本地差分隱私中最經(jīng)典的方法是隨機(jī)響應(yīng)機(jī)制，該方法主要用來收集用戶的敏感數(shù)據(jù)以獲得準(zhǔn)確的統(tǒng)計(jì)信息，下面舉例來介紹這個(gè)機(jī)制

假設(shè)服務(wù)器想知道有多少個(gè)用戶是抽煙的，它會(huì)向每個(gè)用戶發(fā)送問題“你抽煙嗎？”用戶接受到問題后采用拋硬幣的方法來決定它的答案

假如硬幣的正面朝上，那么用戶將真實(shí)答案告訴服務(wù)器，否則的話它將告訴服務(wù)器一個(gè)相反的答案

使用該方法，服務(wù)器可以根據(jù)所有用戶的回答得到一個(gè)無偏估計(jì)

假設(shè)每個(gè)用戶拋硬幣正面朝上的概率為

，即用戶正確回答服務(wù)器的概率為

，則其提供錯(cuò)誤答案的概率為1-

為了使該方法滿足

-本地差分隱私，概率

應(yīng)滿足式(2)：

(2)

1.2 問題定義

論文主要研究的問題是連續(xù)型數(shù)值的均值估計(jì)，為了后續(xù)研究方便，這里簡單假設(shè)每個(gè)用戶

都有1個(gè)數(shù)值型數(shù)據(jù)

，本文所有使用到的符號(hào)如表1所示:

Table 1 Symbol Definition表1 符號(hào)定義

在本地差分隱私中，不同用戶可以根據(jù)需求使用不同的隱私預(yù)算

來保護(hù)自己的隱私

在本文中，為了便于分析，假設(shè)了一個(gè)統(tǒng)一的隱私預(yù)算參數(shù)值

，目標(biāo)是在滿足

-本地差分隱私的條件下完成下列2種類型的分析任務(wù)：

2) 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化

論文中主要將線性回歸及小批量梯度下降結(jié)合使用，并計(jì)算模型訓(xùn)練結(jié)果的均方誤差來評(píng)估方法性能

2 數(shù)值數(shù)據(jù)的均值估計(jì)

均值估計(jì)是目前本地差分隱私中主要進(jìn)行研究的統(tǒng)計(jì)任務(wù)之一，它在統(tǒng)計(jì)分析中具有重要作用.本節(jié)主要討論在滿足

-本地差分隱私的條件下收集用戶的數(shù)據(jù)進(jìn)行數(shù)值屬性均值估計(jì)的問題，對(duì)2種已有的方法進(jìn)行介紹.

1) Duchi方法

Duchi等人提出了在本地差分隱私下用來擾動(dòng)1維數(shù)值型數(shù)據(jù)的方法，如算法1所示:

算法1.

Duchi等人的1維數(shù)值數(shù)據(jù)擾動(dòng)方法.輸入：

∈[-1,1]、隱私預(yù)算

;

② if

④ else

⑥ endif

2) PM

Wang等人提出的分段機(jī)制PM是另一種在本地差分隱私下進(jìn)行均值估計(jì)的擾動(dòng)方法.與Duchi方法不同，PM分段抽取輸入數(shù)值的擾動(dòng)值.算法2描述了PM方法:

算法2.

PM數(shù)值擾動(dòng)方法.輸入：

∈[-1,1]、隱私預(yù)算

;

① 從[0,1]中均勻隨機(jī)抽取

；

④ else

⑥ endif

(3)

其中

Wang等人證明了分段方法得到的擾動(dòng)輸出值為輸入的無偏估計(jì)，并且將該方法用于均值估計(jì)能夠得到比其他現(xiàn)有方法更為準(zhǔn)確的結(jié)果.分段機(jī)制雖然改善了Duchi方法的缺點(diǎn)，當(dāng)隱私預(yù)算較大時(shí)可以得到更為準(zhǔn)確的結(jié)果.但是當(dāng)隱私預(yù)算較小時(shí)，其最壞情況下的方差與Duchi方法的相近，準(zhǔn)確性沒有得到很好的提高.

雖然這2種方法對(duì)已有的方法進(jìn)行了改善，一定程度上提高了連續(xù)數(shù)值型數(shù)據(jù)均值估計(jì)的準(zhǔn)確性，但是仍然存在缺點(diǎn)，準(zhǔn)確性仍具有較大的改善空間.如Duchi方法由于輸出的擾動(dòng)值的絕對(duì)值都大于1，所以在隱私預(yù)算較大時(shí)性能較差；而分段機(jī)制雖然對(duì)Duchi方法進(jìn)行了改良，但是由于提出的分段機(jī)制在隱私預(yù)算較小時(shí)的最壞情況下方差與Duchi方法的接近，所以準(zhǔn)確性在隱私預(yù)算較小時(shí)沒有得到提升.

3 分類變換擾動(dòng)機(jī)制

為進(jìn)一步提高均值估計(jì)的準(zhǔn)確性，本文提出了滿足本地差分隱私的分類變換擾動(dòng)機(jī)制，即DCT.與Duchi和PM直接根據(jù)無偏估計(jì)得到較為準(zhǔn)確的結(jié)果不同，論文提出使用數(shù)據(jù)變換的方法使得在滿足本地差分隱私的條件下可以得到更為準(zhǔn)確的估計(jì)值.該機(jī)制不對(duì)原數(shù)據(jù)進(jìn)行擾動(dòng)，而是將數(shù)據(jù)先進(jìn)行分類變換，對(duì)其轉(zhuǎn)換后得到的1維二元分類數(shù)據(jù)進(jìn)行擾動(dòng).對(duì)于分類變換擾動(dòng)機(jī)制，其輸入值

∈[-1,1]，擾動(dòng)值的輸出范圍為[-

]，其中

=1+

該機(jī)制主要分成3個(gè)階段，分別是分類變換、分類擾動(dòng)以及分類逆變換

3.1 分類變換

變換前需要對(duì)用戶數(shù)據(jù)進(jìn)行預(yù)處理，這里假設(shè)用戶擁有的數(shù)據(jù)為浮點(diǎn)數(shù)

為了減少實(shí)驗(yàn)時(shí)的計(jì)算開銷，方便后續(xù)的數(shù)據(jù)分析，將用戶數(shù)據(jù)

標(biāo)準(zhǔn)化到[-1,1]

一般情況下，假設(shè)該屬性的值域?yàn)閇

]，式(4)給出了用戶計(jì)算方式：

(4)

(5)

其中

′-

′+

由于該數(shù)值位于擾動(dòng)范圍中心，所以在對(duì)數(shù)值型數(shù)據(jù)進(jìn)行二值化時(shí)采用隨機(jī)抽取的方式取值，即該數(shù)值對(duì)應(yīng)的分類數(shù)值可能為1也可能為0

3.2 分類擾動(dòng)

用戶

的數(shù)據(jù)

已經(jīng)轉(zhuǎn)換為了1維二元分類數(shù)據(jù)，可以在本地直接使用隨機(jī)擾動(dòng)機(jī)制來對(duì)數(shù)據(jù)進(jìn)行擾動(dòng)

這里采用Xia等人提出的對(duì)單個(gè)位進(jìn)行擾動(dòng)的方法，式(6)給出了具體的擾動(dòng)規(guī)則：

(6)

(7)

證明

根據(jù)式(6)，可以推得

(8)

(9)

(10)

(11)

(12)

證畢

3.3 分類逆變換

對(duì)二元分類數(shù)據(jù)進(jìn)行擾動(dòng)之后，對(duì)其擾動(dòng)輸出值進(jìn)行分類逆變換操作，輸出數(shù)值型數(shù)據(jù)

轉(zhuǎn)換規(guī)則為

(13)

如果擾動(dòng)后分類數(shù)據(jù)為1，則將其轉(zhuǎn)換回?cái)?shù)值數(shù)據(jù)時(shí)從中間的2段距離中隨機(jī)均勻抽取1個(gè)值作為其轉(zhuǎn)換后的值，如果分類數(shù)據(jù)為0則從兩端的2段數(shù)據(jù)中進(jìn)行均勻抽取

算法3.

分類變換擾動(dòng)機(jī)制

輸入：

∈[-1,1]、隱私預(yù)算

;

① 從[0,1]隨機(jī)均勻抽取

；② if

④ else

⑥ endif

⑦ 從[0,1]中隨機(jī)均勻抽取

;

⑩ else

引理1.

算法3滿足

-本地差分隱私

(14)

證畢

4 本地差分隱私下的小批量梯度下降

本節(jié)主要研究構(gòu)建滿足

-本地差分隱私下的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的機(jī)器學(xué)習(xí)模型，使用梯度下降法實(shí)現(xiàn)

參照Nguyên等人的對(duì)比實(shí)驗(yàn)結(jié)果，使用小批量梯度下降可以得到比隨機(jī)梯度下降法更為準(zhǔn)確的結(jié)果，所以論文使用小批量梯度下降法實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化

構(gòu)建了滿足本地差分隱私的小批量梯度下降法之后，使用其完成線性回歸任務(wù)來驗(yàn)證該框架性能

(15)

其中

為正則化因子

在本文中，主要考慮線性回歸的損失函數(shù)，損失函數(shù)如式(16)所示：

(16)

在機(jī)器學(xué)習(xí)中，獲得的最普遍的計(jì)算方式是使用隨機(jī)梯度下降法

使用該方法時(shí)，首先初始化一組向量，然后進(jìn)行迭代更新，得到新的向量,,…,使用式(17)實(shí)現(xiàn)迭代更新：+1=-

×?(;,),

(17)

與非隱私狀態(tài)下不同的是，在本地差分隱私的條件下，?不會(huì)被用戶端直接發(fā)送給聚合器，而是以隱私的方式進(jìn)行收集

基于這個(gè)原因，已有的工作提出聚合器可以在每次迭代中收集用戶加噪之后的?

因?yàn)槊看蔚械奶荻榷际菙?shù)值型數(shù)據(jù)，所以可以使用針對(duì)數(shù)值型數(shù)據(jù)的本地差分隱私擾動(dòng)方法來對(duì)梯度進(jìn)行擾動(dòng)，本文使用算法3對(duì)梯度進(jìn)行擾動(dòng)

考慮到本地差分隱私中的隱私分配問題，如果使用隨機(jī)梯度下降進(jìn)行計(jì)算的話會(huì)導(dǎo)致加入的噪聲過多，從而導(dǎo)致結(jié)果偏差較大，準(zhǔn)確性較低

所以，這里使用的是小批量梯度下降法

也就是說，在每一次迭代中，隨機(jī)選取一組用戶

，

中每一個(gè)用戶都提交擾動(dòng)后的梯度給服務(wù)器，服務(wù)器再將梯度更新為這組用戶提交的梯度的均值，式(18)給出了梯度更新的公式：

(18)

5 實(shí) 驗(yàn)

為了更好地評(píng)估論文中提出的方法的性能，論文使用了多種真實(shí)數(shù)據(jù)以及合成數(shù)據(jù)對(duì)該方法進(jìn)行實(shí)驗(yàn).

對(duì)于真實(shí)數(shù)據(jù)，使用了：1)從Integrated Public Use Microdata Series抽取的2個(gè)公共數(shù)據(jù)集，BR和MX，它們分別是巴西和墨西哥的人口普查記錄.BR包含了16種屬性，其中6種為數(shù)值型屬性，10種為分類型屬性.MX則包含19種屬性，分別為5種數(shù)值型屬性以及14種分類型屬性.2)人類活動(dòng)識(shí)別數(shù)據(jù)集WISDM,這是來自35名參與者在安卓手機(jī)上的加速度計(jì)數(shù)數(shù)據(jù)，將其中的時(shí)間戳一列數(shù)據(jù)刪除，剩下包含3種數(shù)值型數(shù)據(jù)以及2種分類型屬性在內(nèi)的5種屬性.3)抽取了ADULT數(shù)據(jù)集中屬性Age一列.將這4種真實(shí)數(shù)據(jù)集的數(shù)值型屬性域都規(guī)范到[-1,1].

除了真實(shí)數(shù)據(jù)集之外，論文還使用了合成數(shù)據(jù)集，分別是：1)服從高斯分布的GAUSS數(shù)據(jù)集，其中設(shè)置數(shù)據(jù)均值為0，標(biāo)準(zhǔn)差為0.25. 2)服從指數(shù)分布的EXP數(shù)據(jù)集，將標(biāo)準(zhǔn)差設(shè)置為0.5. 3)服從均勻分布的UNIFORM數(shù)據(jù)集.在均值估計(jì)實(shí)驗(yàn)中，為了消除誤差影響，每種方法重復(fù)運(yùn)行了100次取其平均值.

5.1 參數(shù)α的影響

(19)

其中,

代表運(yùn)行的次數(shù)，

代表真實(shí)的均值，

*代表均值的估計(jì)值

Fig. 1 The influence of different α on the mean estimation圖1 不同α值對(duì)均值估計(jì)的影響

5.2 不同數(shù)據(jù)集的AE值對(duì)比

為評(píng)估分類變換擾動(dòng)機(jī)制的性能，論文計(jì)算不同機(jī)制擾動(dòng)后均值估計(jì)的絕對(duì)誤差進(jìn)行對(duì)比.每個(gè)用戶對(duì)本地?cái)?shù)據(jù)進(jìn)行擾動(dòng)，服務(wù)器收集用戶擾動(dòng)后的數(shù)據(jù)之后計(jì)算數(shù)值屬性的均值.除了使用論文中提出的機(jī)制，還使用了已有的較新的擾動(dòng)方法來進(jìn)行比較，包括Wang等人提出的方法PM(如算法2所示)和Duchi等人的方法(如算法1所示)，這也是目前連續(xù)數(shù)值型數(shù)據(jù)擾動(dòng)比較有代表性的方法.為了使結(jié)果更加的真實(shí)可靠，論文在1個(gè)真實(shí)數(shù)據(jù)ADULT和3個(gè)合成數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn).

由圖2中不同類型數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果可看出，絕對(duì)誤差隨著隱私預(yù)算的增大而減少.由于Duchi方法的最壞情況下誤差方差在隱私預(yù)算較小時(shí)與PM接近，所以當(dāng)隱私預(yù)算小于1時(shí)，Duchi和PM方法的結(jié)果較為接近.而論文中提出的分類變換擾動(dòng)機(jī)制的絕對(duì)誤差則要比這2種方法的誤差小的多，不管隱私預(yù)算如何變換，該機(jī)制的絕對(duì)誤差比其他2種方法要小幾乎1個(gè)數(shù)量級(jí).也就是說，論文中提出的方法在均值估計(jì)中的準(zhǔn)確性得到了明顯的改善.

Fig. 2 The mean estimate of different datasets圖2 不同數(shù)據(jù)集的均值估計(jì)

5.3 數(shù)據(jù)量的影響

在統(tǒng)計(jì)任務(wù)分析中，數(shù)據(jù)量的大小通常會(huì)影響最終結(jié)果的準(zhǔn)確性，這里將論文中提出的機(jī)制與現(xiàn)有機(jī)制的性能受數(shù)據(jù)集大小影響進(jìn)行對(duì)比.為更好地對(duì)比數(shù)據(jù)量變化對(duì)算法性能影響，使用不同大小的高斯數(shù)據(jù)集進(jìn)行均值估計(jì)，最后比較其絕對(duì)誤差的值.從圖3的實(shí)驗(yàn)結(jié)果可以看出，絕對(duì)誤差隨著數(shù)據(jù)集的增大呈下降趨勢，也就是說數(shù)據(jù)量越大結(jié)果往往越準(zhǔn)確.PM方法的絕對(duì)誤差和Duchi方法的比較接近，而分類變換擾動(dòng)機(jī)制的誤差始終要比PM方法以及Duchi方法的要更小.在不同的數(shù)據(jù)集大小中，分類變換擾動(dòng)機(jī)制均體現(xiàn)出更好的性能，這主要是因?yàn)樵摍C(jī)制使用了數(shù)據(jù)變換的方法，使得擾動(dòng)滿足本地差分隱私的同時(shí)數(shù)據(jù)能獲得更高的準(zhǔn)確性.

Fig. 3 The impact of dataset size圖3 數(shù)據(jù)集大小的影響

5.4 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化

在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化實(shí)驗(yàn)中，采用小批量梯度下降算法完成線性回歸的學(xué)習(xí)任務(wù)，將用戶無放回的進(jìn)行分組，同時(shí)為降低迭代過程中的噪聲，將訓(xùn)練輪數(shù)設(shè)置為訓(xùn)練集長度除以每組人數(shù)的向下取整的值，使得用戶最多參與1次訓(xùn)練.對(duì)于數(shù)據(jù)集BR和MX，將“totalincome”數(shù)值屬性作為因變量，其他所有屬性作為自變量.對(duì)于WISDM數(shù)據(jù)集，將最后1個(gè)數(shù)值屬性作為因變量，其他所有屬性作為自變量.對(duì)于數(shù)據(jù)集中的分類屬性，其處理方式與文獻(xiàn)[8]中的方法一樣.將每個(gè)具有

種值的分類型屬性

轉(zhuǎn)換成

-1元屬性，每一個(gè)屬性的值域?yàn)閧0,1}，使得：1)

中的值如為第

個(gè)值(

)則第

元屬性會(huì)被設(shè)置為1，其余的

-2個(gè)屬性會(huì)被設(shè)置為0

中的值如為第

個(gè)值則其轉(zhuǎn)換的屬性所有的值都為0

轉(zhuǎn)換之后，BR的維度為90，MX的維度為94，WISDM的維度為43.論文中使用的是小批量梯度下降算法，每一次迭代中抽取1組用戶，該組中的用戶對(duì)梯度進(jìn)行擾動(dòng).用戶將擾動(dòng)后的梯度發(fā)送給服務(wù)器，服務(wù)器根據(jù)接收到的用戶的梯度進(jìn)行梯度更新后返回給用戶.該實(shí)驗(yàn)包含了3種方法：DCT，PM，Duchi.對(duì)于所有的方法，都將正則化因子設(shè)置為

=10.對(duì)于每一個(gè)數(shù)據(jù)集，使用5折交叉驗(yàn)證5次來評(píng)估每種方法的性能.使用均方誤差(mean square error,

MSE

)比較使用不同擾動(dòng)機(jī)制構(gòu)建的小批量梯度下降算法的優(yōu)劣.

Fig. 4 Linear regression using different perturbation mechanisms圖4 使用不同擾動(dòng)機(jī)制的線性回歸

圖4描述了在不同的隱私預(yù)算下，每一種機(jī)制在不同數(shù)據(jù)下的線性回歸模型的均方誤差.可從實(shí)驗(yàn)結(jié)果看出，PM方法和Duchi方法構(gòu)建的滿足本地差分隱私的小批量梯度下降模型的訓(xùn)練效果更為接近，論文中提出的分類變換擾動(dòng)機(jī)制計(jì)算出的均方誤差要小于這2種機(jī)制，獲得的模型準(zhǔn)確度更高，性能要更優(yōu).總的來說，所有實(shí)驗(yàn)結(jié)果表明，不管是在均值估計(jì)中還是在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的任務(wù)中，分類擾動(dòng)機(jī)制的性能都要優(yōu)于現(xiàn)有的本地差分隱私的解決方法，其在簡單和復(fù)雜的數(shù)據(jù)分析任務(wù)中均能獲得較高的準(zhǔn)確性.

6 結(jié) 論

為了防止用戶隱私泄露，論文提出了滿足本地差分隱私的分類變換擾動(dòng)機(jī)制.該機(jī)制將數(shù)值型數(shù)據(jù)的擾動(dòng)與分類型數(shù)據(jù)的擾動(dòng)進(jìn)行結(jié)合，提高了均值估計(jì)的準(zhǔn)確性.同時(shí)，將該機(jī)制用于梯度下降中的每次迭代的梯度擾動(dòng)，保護(hù)了訓(xùn)練過程中用戶隱私的同時(shí)得到了一個(gè)較為準(zhǔn)確的模型.而且，本文也從本地差分隱私定義的角度，理論證明了提出的方法滿足ε-本地差分隱私.最后通過多組真實(shí)數(shù)據(jù)集以及合成數(shù)據(jù)集驗(yàn)證了分類變換擾動(dòng)機(jī)制的性能，證明了其在相同條件下要優(yōu)于現(xiàn)有的同類方法.下一步工作將研究如何在更為復(fù)雜的數(shù)據(jù)分析中實(shí)現(xiàn)隱私保護(hù)并提高準(zhǔn)確性.

作者貢獻(xiàn)聲明

：朱素霞對(duì)研究思路提供指導(dǎo)意見，協(xié)助設(shè)計(jì)論文框架，并對(duì)論文初稿、修改稿等提供審閱意見；王蕾提出研究思路,設(shè)計(jì)研究方案,進(jìn)行實(shí)驗(yàn)和數(shù)據(jù)分析,并撰寫論文;孫廣路對(duì)研究思路提供指導(dǎo)意見，并對(duì)論文初稿、修改稿等提供審閱意見.