999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

滿足本地差分隱私的分類變換擾動(dòng)機(jī)制

2022-02-11 14:11:04朱素霞孫廣路
關(guān)鍵詞:分類機(jī)制用戶

朱素霞 王 蕾 孫廣路

(哈爾濱理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 哈爾濱 150080) (哈爾濱理工大學(xué)信息安全與智能技術(shù)研究中心 哈爾濱 150080)

隨著云計(jì)算和大數(shù)據(jù)技術(shù)的發(fā)展,用戶端產(chǎn)生的海量數(shù)據(jù)被服務(wù)器收集起來進(jìn)行各種數(shù)據(jù)分析任務(wù).雖然對(duì)這些數(shù)據(jù)進(jìn)行分析可以為人們帶來可觀的效益,但是卻造成了用戶隱私暴露的問題.差分隱私由于其強(qiáng)大的隱私保障已經(jīng)成為了一種標(biāo)準(zhǔn)的隱私保護(hù)模型.隨著差分隱私的廣泛使用,服務(wù)器變得越來越重要.然而,在真實(shí)世界中保證所有服務(wù)器都是可信的是不實(shí)際的,而不可信的服務(wù)器可能會(huì)因?yàn)槟承┰蛐孤队脩舻碾[私.為了解決這一問題,本地差分隱私作為一種新的隱私保護(hù)技術(shù)被提出用來保護(hù)用戶的隱私,其最典型的擾動(dòng)機(jī)制是隨機(jī)響應(yīng)機(jī)制.在本地差分隱私中,服務(wù)器假設(shè)是不可信的,每個(gè)用戶端對(duì)本地?cái)?shù)據(jù)進(jìn)行擾動(dòng)使其滿足本地差分隱私,然后再將擾動(dòng)后的數(shù)據(jù)發(fā)送給服務(wù)器.服務(wù)器對(duì)收集的噪聲數(shù)據(jù)進(jìn)行計(jì)算,得到所需的統(tǒng)計(jì)信息.本地差分隱私方法可以在獲得較為準(zhǔn)確的統(tǒng)計(jì)信息的同時(shí)有效地對(duì)用戶的數(shù)據(jù)進(jìn)行保護(hù),從而避免了用戶隱私泄露的問題.

本地差分隱私由于其強(qiáng)大的隱私保證,已經(jīng)被運(yùn)用到很多實(shí)際的工作任務(wù)中.例如谷歌的Chrome瀏覽器使用的RAPPOR(randomized aggregatable privacy-preserving ordinal response)方法以及微軟的遙測數(shù)據(jù)采集.這些方法使得在保護(hù)用戶隱私的同時(shí),可以利用用戶的數(shù)據(jù)進(jìn)行分析得到有效的統(tǒng)計(jì)結(jié)果.人們針對(duì)不同的數(shù)據(jù)類型提出了適用于不同計(jì)算任務(wù)的本地差分隱私框架,目前主要研究的統(tǒng)計(jì)任務(wù)有均值估計(jì)和頻率估計(jì).例如,谷歌Chrome使用的RAPPOR方法是針對(duì)分類型數(shù)據(jù)的頻率估計(jì),Nguyên等人提出了針對(duì)離散型數(shù)據(jù)的均值估計(jì)的擾動(dòng)方法Harmony. Ye等人針對(duì)鍵值數(shù)據(jù)類型提出了PrivKVM方法,可以在滿足本地差分隱私的同時(shí)估計(jì)鍵的頻率以及鍵對(duì)應(yīng)的所有值的均值.針對(duì)連續(xù)型數(shù)值數(shù)據(jù)的均值估計(jì),Duchi等人的方法對(duì)數(shù)據(jù)進(jìn)行擾動(dòng)之后一共有2種可能得到的擾動(dòng)值.由于這2種擾動(dòng)值的絕對(duì)值都大于1,即不管隱私預(yù)算如何變化,其方差始終大于1.所以當(dāng)隱私預(yù)算比較大時(shí),該方法得到的均值估計(jì)的準(zhǔn)確性相比于拉普拉斯方法要更差.隨后,Wang等人針對(duì)Duchi方法的缺點(diǎn),提出了分段機(jī)制(piecewise mechanism, PM).該機(jī)制不同的是,其擾動(dòng)輸出為一段連續(xù)值,且這段連續(xù)值的中間部分有更高的概率輸出.雖然分段機(jī)制改善了Duchi方法中存在的問題,但是當(dāng)隱私預(yù)算較小時(shí),該方法并沒有很好地提高均值估計(jì)的準(zhǔn)確性,其最壞情況下噪聲方差仍與Duchi方法接近.

除此之外,機(jī)器學(xué)習(xí)作為當(dāng)前比較熱門的學(xué)習(xí)領(lǐng)域,其中也涉及了大量用戶的隱私保護(hù)問題.為了更好地保護(hù)用戶的隱私,可以將其與本地差分隱私的相關(guān)擾動(dòng)機(jī)制結(jié)合使用.目前,機(jī)器學(xué)習(xí)中較常使用的隱私保護(hù)方式是在模型訓(xùn)練時(shí)對(duì)用戶梯度進(jìn)行擾動(dòng),服務(wù)器收集擾動(dòng)后的梯度進(jìn)行更新.例如,Nguyên等人將Harmony運(yùn)用到了隨機(jī)梯度下降中,對(duì)每次迭代的梯度進(jìn)行擾動(dòng),并且證明了本地差分隱私下的小批量梯度下降要優(yōu)于隨機(jī)梯度下降.Wang等人則利用多維數(shù)據(jù)擾動(dòng)的方式,將分段機(jī)制用于迭代中的梯度擾動(dòng).這些方法雖然在機(jī)器學(xué)習(xí)訓(xùn)練過程中保護(hù)了用戶的隱私,但由于機(jī)制本身的缺點(diǎn),其訓(xùn)練結(jié)果的準(zhǔn)確性仍然具有提升空間.

為了改善已有擾動(dòng)方法引入的準(zhǔn)確性問題,論文針對(duì)連續(xù)型數(shù)值數(shù)據(jù),提出了一種滿足本地差分隱私的分類變換擾動(dòng)機(jī)制(differential classified transformation, DCT).跟已有的方法直接對(duì)所屬數(shù)據(jù)類型使用對(duì)應(yīng)的擾動(dòng)方法進(jìn)行擾動(dòng)不同,本文提出的方法首先對(duì)數(shù)據(jù)類型進(jìn)行了轉(zhuǎn)換,將數(shù)值型數(shù)據(jù)轉(zhuǎn)換為了1維二元分類數(shù)據(jù),再對(duì)分類數(shù)據(jù)進(jìn)行擾動(dòng).在真實(shí)數(shù)據(jù)以及合成數(shù)據(jù)中使用該方法進(jìn)行均值估計(jì),與已有的方法進(jìn)行對(duì)比,可以得到一個(gè)更為準(zhǔn)確的估計(jì)結(jié)果.在機(jī)器學(xué)習(xí)的隱私保護(hù)中,考慮到本地差分隱私中隱私預(yù)算的分配問題,為了在訓(xùn)練中得到更為準(zhǔn)確的結(jié)果,論文將提出的分類變換機(jī)制用于構(gòu)建滿足本地差分隱私的小批量梯度下降,并在該框架下進(jìn)行線性回歸的學(xué)習(xí)任務(wù).

總的來說,本文主要貢獻(xiàn)如下:

1) 提出了一種數(shù)據(jù)變換擾動(dòng)方法,并且得到了較好的結(jié)果,這給本地差分隱私的擾動(dòng)提供了一個(gè)新方向,可以通過變換數(shù)據(jù),使其在提高數(shù)據(jù)的可用性的同時(shí)又保障了用戶的隱私;

2) 提出的分類變換機(jī)制具有良好的性能,在滿足本地差分隱私保證的同時(shí),在均值估計(jì)方面可以得到更為準(zhǔn)確的結(jié)果;

3) 將提出的方法用于構(gòu)建小批量梯度下降算法,并用該算法完成線性回歸的學(xué)習(xí)任務(wù),使得參與用戶的數(shù)據(jù)受到良好保護(hù)的同時(shí),可以得到一個(gè)較為準(zhǔn)確的模型結(jié)果;

4) 在真實(shí)的數(shù)據(jù)集以及合成的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以對(duì)提出的機(jī)制進(jìn)行評(píng)估.實(shí)驗(yàn)結(jié)果表明,不管是在均值估計(jì)還是在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化任務(wù)中,使用分類變換擾動(dòng)機(jī)制得到的結(jié)果誤差要小于已有的方法.

1 相關(guān)定義

1.1 本地差分隱私

在本地差分隱私中,服務(wù)器收集各個(gè)用戶的數(shù)據(jù),并利用數(shù)據(jù)計(jì)算得到所需的統(tǒng)計(jì)信息.用戶在將數(shù)據(jù)發(fā)送給服務(wù)器前,先對(duì)本地的數(shù)據(jù)進(jìn)行擾動(dòng),再將擾動(dòng)后的數(shù)據(jù)發(fā)送給服務(wù)器.服務(wù)器無法根據(jù)收集的噪聲數(shù)據(jù)來獲得用戶的隱私信息.隱私預(yù)算的大小代表了用戶隱私保護(hù)程度的強(qiáng)弱,其控制了隱私和效用之間的平衡,一個(gè)更小的隱私預(yù)算代表了更強(qiáng)的隱私保護(hù)程度.本地差分隱私的定義如下:

定義1.

ε

-本地差分隱私

.

隨機(jī)函數(shù)

M

滿足

ε

-本地差分隱私當(dāng)且僅當(dāng)域

M

中的任意2個(gè)輸入

t

,

t

′以及對(duì)于

M

中的任意可能的輸出

t

,有:

Pr

(

M

(

t

)=

t

)≤e×

Pr

(

M

(

t

′)=

t

),

(1)

其中

Pr

(·)代表概率

.

本地差分隱私作為差分隱私的分支,提供了比差分隱私還要強(qiáng)大的隱私保障

.

根據(jù)上面的隱私定義,服務(wù)器無論具備怎樣的背景知識(shí),都無法以高概率從接收到的用戶的擾動(dòng)元組

t

來判斷用戶的真實(shí)值是

t

還是

t

.

本地差分隱私中最經(jīng)典的方法是隨機(jī)響應(yīng)機(jī)制,該方法主要用來收集用戶的敏感數(shù)據(jù)以獲得準(zhǔn)確的統(tǒng)計(jì)信息,下面舉例來介紹這個(gè)機(jī)制

.

假設(shè)服務(wù)器想知道有多少個(gè)用戶是抽煙的,它會(huì)向每個(gè)用戶發(fā)送問題“你抽煙嗎?”用戶接受到問題后采用拋硬幣的方法來決定它的答案

.

假如硬幣的正面朝上,那么用戶將真實(shí)答案告訴服務(wù)器,否則的話它將告訴服務(wù)器一個(gè)相反的答案

.

使用該方法,服務(wù)器可以根據(jù)所有用戶的回答得到一個(gè)無偏估計(jì)

.

假設(shè)每個(gè)用戶拋硬幣正面朝上的概率為

p

,即用戶正確回答服務(wù)器的概率為

p

,則其提供錯(cuò)誤答案的概率為1-

p.

為了使該方法滿足

ε

-本地差分隱私,概率

p

應(yīng)滿足式(2):

(2)

1.2 問題定義

論文主要研究的問題是連續(xù)型數(shù)值的均值估計(jì),為了后續(xù)研究方便,這里簡單假設(shè)每個(gè)用戶

u

都有1個(gè)數(shù)值型數(shù)據(jù)

v

,本文所有使用到的符號(hào)如表1所示:

Table 1 Symbol Definition表1 符號(hào)定義

在本地差分隱私中,不同用戶可以根據(jù)需求使用不同的隱私預(yù)算

ε

來保護(hù)自己的隱私

.

在本文中,為了便于分析,假設(shè)了一個(gè)統(tǒng)一的隱私預(yù)算參數(shù)值

ε

,目標(biāo)是在滿足

ε

-本地差分隱私的條件下完成下列2種類型的分析任務(wù):

2) 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化

.

論文中主要將線性回歸及小批量梯度下降結(jié)合使用,并計(jì)算模型訓(xùn)練結(jié)果的均方誤差來評(píng)估方法性能

.

2 數(shù)值數(shù)據(jù)的均值估計(jì)

均值估計(jì)是目前本地差分隱私中主要進(jìn)行研究的統(tǒng)計(jì)任務(wù)之一,它在統(tǒng)計(jì)分析中具有重要作用.本節(jié)主要討論在滿足

ε

-本地差分隱私的條件下收集用戶的數(shù)據(jù)進(jìn)行數(shù)值屬性均值估計(jì)的問題,對(duì)2種已有的方法進(jìn)行介紹.

1) Duchi方法

Duchi等人提出了在本地差分隱私下用來擾動(dòng)1維數(shù)值型數(shù)據(jù)的方法,如算法1所示:

算法1.

Duchi等人的1維數(shù)值數(shù)據(jù)擾動(dòng)方法.輸入:

v

∈[-1,1]、隱私預(yù)算

ε

;

② if

u

=1

④ else

⑥ endif

2) PM

Wang等人提出的分段機(jī)制PM是另一種在本地差分隱私下進(jìn)行均值估計(jì)的擾動(dòng)方法.與Duchi方法不同,PM分段抽取輸入數(shù)值的擾動(dòng)值.算法2描述了PM方法:

算法2.

PM數(shù)值擾動(dòng)方法.輸入:

v

∈[-1,1]、隱私預(yù)算

ε

;

① 從[0,1]中均勻隨機(jī)抽取

x

④ else

⑥ endif

(3)

其中

Wang等人證明了分段方法得到的擾動(dòng)輸出值為輸入的無偏估計(jì),并且將該方法用于均值估計(jì)能夠得到比其他現(xiàn)有方法更為準(zhǔn)確的結(jié)果.分段機(jī)制雖然改善了Duchi方法的缺點(diǎn),當(dāng)隱私預(yù)算較大時(shí)可以得到更為準(zhǔn)確的結(jié)果.但是當(dāng)隱私預(yù)算較小時(shí),其最壞情況下的方差與Duchi方法的相近,準(zhǔn)確性沒有得到很好的提高.

雖然這2種方法對(duì)已有的方法進(jìn)行了改善,一定程度上提高了連續(xù)數(shù)值型數(shù)據(jù)均值估計(jì)的準(zhǔn)確性,但是仍然存在缺點(diǎn),準(zhǔn)確性仍具有較大的改善空間.如Duchi方法由于輸出的擾動(dòng)值的絕對(duì)值都大于1,所以在隱私預(yù)算較大時(shí)性能較差;而分段機(jī)制雖然對(duì)Duchi方法進(jìn)行了改良,但是由于提出的分段機(jī)制在隱私預(yù)算較小時(shí)的最壞情況下方差與Duchi方法的接近,所以準(zhǔn)確性在隱私預(yù)算較小時(shí)沒有得到提升.

3 分類變換擾動(dòng)機(jī)制

為進(jìn)一步提高均值估計(jì)的準(zhǔn)確性,本文提出了滿足本地差分隱私的分類變換擾動(dòng)機(jī)制,即DCT.與Duchi和PM直接根據(jù)無偏估計(jì)得到較為準(zhǔn)確的結(jié)果不同,論文提出使用數(shù)據(jù)變換的方法使得在滿足本地差分隱私的條件下可以得到更為準(zhǔn)確的估計(jì)值.該機(jī)制不對(duì)原數(shù)據(jù)進(jìn)行擾動(dòng),而是將數(shù)據(jù)先進(jìn)行分類變換,對(duì)其轉(zhuǎn)換后得到的1維二元分類數(shù)據(jù)進(jìn)行擾動(dòng).對(duì)于分類變換擾動(dòng)機(jī)制,其輸入值

v

∈[-1,1],擾動(dòng)值的輸出范圍為[-

A

,

A

],其中

A

=1+

d.

該機(jī)制主要分成3個(gè)階段,分別是分類變換、分類擾動(dòng)以及分類逆變換

.

3.1 分類變換

變換前需要對(duì)用戶數(shù)據(jù)進(jìn)行預(yù)處理,這里假設(shè)用戶擁有的數(shù)據(jù)為浮點(diǎn)數(shù)

.

為了減少實(shí)驗(yàn)時(shí)的計(jì)算開銷,方便后續(xù)的數(shù)據(jù)分析,將用戶數(shù)據(jù)

v

標(biāo)準(zhǔn)化到[-1,1]

.

一般情況下,假設(shè)該屬性的值域?yàn)閇

L

,

U

],式(4)給出了用戶計(jì)算方式:

(4)

(5)

其中

l

=

v

′-

d

,

l

=

v

′-

m

,

R

=

v

′+

m

,

R

=

v

′+

d.

由于該數(shù)值位于擾動(dòng)范圍中心,所以在對(duì)數(shù)值型數(shù)據(jù)進(jìn)行二值化時(shí)采用隨機(jī)抽取的方式取值,即該數(shù)值對(duì)應(yīng)的分類數(shù)值可能為1也可能為0

.

3.2 分類擾動(dòng)

用戶

u

的數(shù)據(jù)

v

已經(jīng)轉(zhuǎn)換為了1維二元分類數(shù)據(jù),可以在本地直接使用隨機(jī)擾動(dòng)機(jī)制來對(duì)數(shù)據(jù)進(jìn)行擾動(dòng)

.

這里采用Xia等人提出的對(duì)單個(gè)位進(jìn)行擾動(dòng)的方法,式(6)給出了具體的擾動(dòng)規(guī)則:

(6)

(7)

證明

.

根據(jù)式(6),可以推得

(8)

(9)

(10)

(11)

(12)

證畢

.

3.3 分類逆變換

對(duì)二元分類數(shù)據(jù)進(jìn)行擾動(dòng)之后,對(duì)其擾動(dòng)輸出值進(jìn)行分類逆變換操作,輸出數(shù)值型數(shù)據(jù)

.

轉(zhuǎn)換規(guī)則為

(13)

如果擾動(dòng)后分類數(shù)據(jù)為1,則將其轉(zhuǎn)換回?cái)?shù)值數(shù)據(jù)時(shí)從中間的2段距離中隨機(jī)均勻抽取1個(gè)值作為其轉(zhuǎn)換后的值,如果分類數(shù)據(jù)為0則從兩端的2段數(shù)據(jù)中進(jìn)行均勻抽取

.

算法3.

分類變換擾動(dòng)機(jī)制

.

輸入:

v

∈[-1,1]、隱私預(yù)算

ε

;

① 從[0,1]隨機(jī)均勻抽取

u

;② if

u

<0

.

5

④ else

⑥ endif

⑦ 從[0,1]中隨機(jī)均勻抽取

x

;

⑩ else

引理1.

算法3滿足

ε

-本地差分隱私

.

(14)

證畢

.

4 本地差分隱私下的小批量梯度下降

本節(jié)主要研究構(gòu)建滿足

ε

-本地差分隱私下的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的機(jī)器學(xué)習(xí)模型,使用梯度下降法實(shí)現(xiàn)

.

參照Nguyên等人的對(duì)比實(shí)驗(yàn)結(jié)果,使用小批量梯度下降可以得到比隨機(jī)梯度下降法更為準(zhǔn)確的結(jié)果,所以論文使用小批量梯度下降法實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化

.

構(gòu)建了滿足本地差分隱私的小批量梯度下降法之后,使用其完成線性回歸任務(wù)來驗(yàn)證該框架性能

.

(15)

其中

λ

為正則化因子

.

在本文中,主要考慮線性回歸的損失函數(shù),損失函數(shù)如式(16)所示:

(16)

在機(jī)器學(xué)習(xí)中,獲得的最普遍的計(jì)算方式是使用隨機(jī)梯度下降法

.

使用該方法時(shí),首先初始化一組向量,然后進(jìn)行迭代更新,得到新的向量,,…,使用式(17)實(shí)現(xiàn)迭代更新:+1=-

γ

×?(;,),

(17)

與非隱私狀態(tài)下不同的是,在本地差分隱私的條件下,?不會(huì)被用戶端直接發(fā)送給聚合器,而是以隱私的方式進(jìn)行收集

.

基于這個(gè)原因,已有的工作提出聚合器可以在每次迭代中收集用戶加噪之后的?

.

因?yàn)槊看蔚械奶荻榷际菙?shù)值型數(shù)據(jù),所以可以使用針對(duì)數(shù)值型數(shù)據(jù)的本地差分隱私擾動(dòng)方法來對(duì)梯度進(jìn)行擾動(dòng),本文使用算法3對(duì)梯度進(jìn)行擾動(dòng)

.

考慮到本地差分隱私中的隱私分配問題,如果使用隨機(jī)梯度下降進(jìn)行計(jì)算的話會(huì)導(dǎo)致加入的噪聲過多,從而導(dǎo)致結(jié)果偏差較大,準(zhǔn)確性較低

.

所以,這里使用的是小批量梯度下降法

.

也就是說,在每一次迭代中,隨機(jī)選取一組用戶

G

G

中每一個(gè)用戶都提交擾動(dòng)后的梯度給服務(wù)器,服務(wù)器再將梯度更新為這組用戶提交的梯度的均值,式(18)給出了梯度更新的公式:

(18)

5 實(shí) 驗(yàn)

為了更好地評(píng)估論文中提出的方法的性能,論文使用了多種真實(shí)數(shù)據(jù)以及合成數(shù)據(jù)對(duì)該方法進(jìn)行實(shí)驗(yàn).

對(duì)于真實(shí)數(shù)據(jù),使用了:1)從Integrated Public Use Microdata Series抽取的2個(gè)公共數(shù)據(jù)集,BR和MX,它們分別是巴西和墨西哥的人口普查記錄.BR包含了16種屬性,其中6種為數(shù)值型屬性,10種為分類型屬性.MX則包含19種屬性,分別為5種數(shù)值型屬性以及14種分類型屬性.2)人類活動(dòng)識(shí)別數(shù)據(jù)集WISDM,這是來自35名參與者在安卓手機(jī)上的加速度計(jì)數(shù)數(shù)據(jù),將其中的時(shí)間戳一列數(shù)據(jù)刪除,剩下包含3種數(shù)值型數(shù)據(jù)以及2種分類型屬性在內(nèi)的5種屬性.3)抽取了ADULT數(shù)據(jù)集中屬性Age一列.將這4種真實(shí)數(shù)據(jù)集的數(shù)值型屬性域都規(guī)范到[-1,1].

除了真實(shí)數(shù)據(jù)集之外,論文還使用了合成數(shù)據(jù)集,分別是:1)服從高斯分布的GAUSS數(shù)據(jù)集,其中設(shè)置數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為0.25. 2)服從指數(shù)分布的EXP數(shù)據(jù)集,將標(biāo)準(zhǔn)差設(shè)置為0.5. 3)服從均勻分布的UNIFORM數(shù)據(jù)集.在均值估計(jì)實(shí)驗(yàn)中,為了消除誤差影響,每種方法重復(fù)運(yùn)行了100次取其平均值.

5.1 參數(shù)α的影響

(19)

其中,

T

代表運(yùn)行的次數(shù),

m

代表真實(shí)的均值,

m

*代表均值的估計(jì)值

.

Fig. 1 The influence of different α on the mean estimation圖1 不同α值對(duì)均值估計(jì)的影響

5.2 不同數(shù)據(jù)集的AE值對(duì)比

為評(píng)估分類變換擾動(dòng)機(jī)制的性能,論文計(jì)算不同機(jī)制擾動(dòng)后均值估計(jì)的絕對(duì)誤差進(jìn)行對(duì)比.每個(gè)用戶對(duì)本地?cái)?shù)據(jù)進(jìn)行擾動(dòng),服務(wù)器收集用戶擾動(dòng)后的數(shù)據(jù)之后計(jì)算數(shù)值屬性的均值.除了使用論文中提出的機(jī)制,還使用了已有的較新的擾動(dòng)方法來進(jìn)行比較,包括Wang等人提出的方法PM(如算法2所示)和Duchi等人的方法(如算法1所示),這也是目前連續(xù)數(shù)值型數(shù)據(jù)擾動(dòng)比較有代表性的方法.為了使結(jié)果更加的真實(shí)可靠,論文在1個(gè)真實(shí)數(shù)據(jù)ADULT和3個(gè)合成數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn).

由圖2中不同類型數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果可看出,絕對(duì)誤差隨著隱私預(yù)算的增大而減少.由于Duchi方法的最壞情況下誤差方差在隱私預(yù)算較小時(shí)與PM接近,所以當(dāng)隱私預(yù)算小于1時(shí),Duchi和PM方法的結(jié)果較為接近.而論文中提出的分類變換擾動(dòng)機(jī)制的絕對(duì)誤差則要比這2種方法的誤差小的多,不管隱私預(yù)算如何變換,該機(jī)制的絕對(duì)誤差比其他2種方法要小幾乎1個(gè)數(shù)量級(jí).也就是說,論文中提出的方法在均值估計(jì)中的準(zhǔn)確性得到了明顯的改善.

Fig. 2 The mean estimate of different datasets圖2 不同數(shù)據(jù)集的均值估計(jì)

5.3 數(shù)據(jù)量的影響

在統(tǒng)計(jì)任務(wù)分析中,數(shù)據(jù)量的大小通常會(huì)影響最終結(jié)果的準(zhǔn)確性,這里將論文中提出的機(jī)制與現(xiàn)有機(jī)制的性能受數(shù)據(jù)集大小影響進(jìn)行對(duì)比.為更好地對(duì)比數(shù)據(jù)量變化對(duì)算法性能影響,使用不同大小的高斯數(shù)據(jù)集進(jìn)行均值估計(jì),最后比較其絕對(duì)誤差的值.從圖3的實(shí)驗(yàn)結(jié)果可以看出,絕對(duì)誤差隨著數(shù)據(jù)集的增大呈下降趨勢,也就是說數(shù)據(jù)量越大結(jié)果往往越準(zhǔn)確.PM方法的絕對(duì)誤差和Duchi方法的比較接近,而分類變換擾動(dòng)機(jī)制的誤差始終要比PM方法以及Duchi方法的要更小.在不同的數(shù)據(jù)集大小中,分類變換擾動(dòng)機(jī)制均體現(xiàn)出更好的性能,這主要是因?yàn)樵摍C(jī)制使用了數(shù)據(jù)變換的方法,使得擾動(dòng)滿足本地差分隱私的同時(shí)數(shù)據(jù)能獲得更高的準(zhǔn)確性.

Fig. 3 The impact of dataset size圖3 數(shù)據(jù)集大小的影響

5.4 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化

在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化實(shí)驗(yàn)中,采用小批量梯度下降算法完成線性回歸的學(xué)習(xí)任務(wù),將用戶無放回的進(jìn)行分組,同時(shí)為降低迭代過程中的噪聲,將訓(xùn)練輪數(shù)設(shè)置為訓(xùn)練集長度除以每組人數(shù)的向下取整的值,使得用戶最多參與1次訓(xùn)練.對(duì)于數(shù)據(jù)集BR和MX,將“totalincome”數(shù)值屬性作為因變量,其他所有屬性作為自變量.對(duì)于WISDM數(shù)據(jù)集,將最后1個(gè)數(shù)值屬性作為因變量,其他所有屬性作為自變量.對(duì)于數(shù)據(jù)集中的分類屬性,其處理方式與文獻(xiàn)[8]中的方法一樣.將每個(gè)具有

k

種值的分類型屬性

A

轉(zhuǎn)換成

k

-1元屬性,每一個(gè)屬性的值域?yàn)閧0,1},使得:1)

A

中的值如為第

i

個(gè)值(

i

<

k

)則第

i

元屬性會(huì)被設(shè)置為1,其余的

k

-2個(gè)屬性會(huì)被設(shè)置為0

.

2)

A

中的值如為第

k

個(gè)值則其轉(zhuǎn)換的屬性所有的值都為0

.

轉(zhuǎn)換之后,BR的維度為90,MX的維度為94,WISDM的維度為43.論文中使用的是小批量梯度下降算法,每一次迭代中抽取1組用戶,該組中的用戶對(duì)梯度進(jìn)行擾動(dòng).用戶將擾動(dòng)后的梯度發(fā)送給服務(wù)器,服務(wù)器根據(jù)接收到的用戶的梯度進(jìn)行梯度更新后返回給用戶.該實(shí)驗(yàn)包含了3種方法:DCT,PM,Duchi.對(duì)于所有的方法,都將正則化因子設(shè)置為

λ

=10.對(duì)于每一個(gè)數(shù)據(jù)集,使用5折交叉驗(yàn)證5次來評(píng)估每種方法的性能.使用均方誤差(mean square error,

MSE

)比較使用不同擾動(dòng)機(jī)制構(gòu)建的小批量梯度下降算法的優(yōu)劣.

Fig. 4 Linear regression using different perturbation mechanisms圖4 使用不同擾動(dòng)機(jī)制的線性回歸

圖4描述了在不同的隱私預(yù)算下,每一種機(jī)制在不同數(shù)據(jù)下的線性回歸模型的均方誤差.可從實(shí)驗(yàn)結(jié)果看出,PM方法和Duchi方法構(gòu)建的滿足本地差分隱私的小批量梯度下降模型的訓(xùn)練效果更為接近,論文中提出的分類變換擾動(dòng)機(jī)制計(jì)算出的均方誤差要小于這2種機(jī)制,獲得的模型準(zhǔn)確度更高,性能要更優(yōu).總的來說,所有實(shí)驗(yàn)結(jié)果表明,不管是在均值估計(jì)中還是在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的任務(wù)中,分類擾動(dòng)機(jī)制的性能都要優(yōu)于現(xiàn)有的本地差分隱私的解決方法,其在簡單和復(fù)雜的數(shù)據(jù)分析任務(wù)中均能獲得較高的準(zhǔn)確性.

6 結(jié) 論

為了防止用戶隱私泄露,論文提出了滿足本地差分隱私的分類變換擾動(dòng)機(jī)制.該機(jī)制將數(shù)值型數(shù)據(jù)的擾動(dòng)與分類型數(shù)據(jù)的擾動(dòng)進(jìn)行結(jié)合,提高了均值估計(jì)的準(zhǔn)確性.同時(shí),將該機(jī)制用于梯度下降中的每次迭代的梯度擾動(dòng),保護(hù)了訓(xùn)練過程中用戶隱私的同時(shí)得到了一個(gè)較為準(zhǔn)確的模型.而且,本文也從本地差分隱私定義的角度,理論證明了提出的方法滿足ε-本地差分隱私.最后通過多組真實(shí)數(shù)據(jù)集以及合成數(shù)據(jù)集驗(yàn)證了分類變換擾動(dòng)機(jī)制的性能,證明了其在相同條件下要優(yōu)于現(xiàn)有的同類方法.下一步工作將研究如何在更為復(fù)雜的數(shù)據(jù)分析中實(shí)現(xiàn)隱私保護(hù)并提高準(zhǔn)確性.

作者貢獻(xiàn)聲明

:朱素霞對(duì)研究思路提供指導(dǎo)意見,協(xié)助設(shè)計(jì)論文框架,并對(duì)論文初稿、修改稿等提供審閱意見;王蕾提出研究思路,設(shè)計(jì)研究方案,進(jìn)行實(shí)驗(yàn)和數(shù)據(jù)分析,并撰寫論文;孫廣路對(duì)研究思路提供指導(dǎo)意見,并對(duì)論文初稿、修改稿等提供審閱意見.

猜你喜歡
分類機(jī)制用戶
分類算一算
分類討論求坐標(biāo)
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
破除舊機(jī)制要分步推進(jìn)
如何獲取一億海外用戶
主站蜘蛛池模板: 91九色国产在线| 色天天综合| 国产91精选在线观看| 精品1区2区3区| 欧美综合区自拍亚洲综合天堂| 亚洲色图另类| 色香蕉影院| 最新亚洲人成网站在线观看| 少妇极品熟妇人妻专区视频| 日韩av手机在线| 99re热精品视频中文字幕不卡| 日韩第一页在线| 波多野衣结在线精品二区| 精品国产成人a在线观看| 久久精品女人天堂aaa| 夜色爽爽影院18禁妓女影院| 精品日韩亚洲欧美高清a | h视频在线播放| 色网站在线免费观看| 欧美中文字幕一区二区三区| 色综合手机在线| 欧洲精品视频在线观看| 国产无码高清视频不卡| 国产精品妖精视频| 成人免费视频一区| 国产va在线观看免费| 亚洲国产欧美国产综合久久 | 中文字幕波多野不卡一区| 久久网欧美| 免费亚洲成人| 色综合久久综合网| 亚洲国产成熟视频在线多多| 91口爆吞精国产对白第三集| 久久黄色毛片| 四虎影视库国产精品一区| 国产精品视频a| 国产成人狂喷潮在线观看2345| 在线免费观看AV| 任我操在线视频| 国产精品lululu在线观看| 麻豆国产精品视频| 精品视频在线一区| 婷婷综合在线观看丁香| 国产精品丝袜在线| 国产一区二区丝袜高跟鞋| 啊嗯不日本网站| 亚洲 欧美 偷自乱 图片 | 国产欧美视频综合二区 | 色综合五月婷婷| 国产成人禁片在线观看| 国产人人乐人人爱| 91蝌蚪视频在线观看| 又爽又黄又无遮挡网站| 国产精品极品美女自在线看免费一区二区| 国产v精品成人免费视频71pao| 成人精品在线观看| 四虎国产永久在线观看| 国产精品亚洲天堂| 国产高清在线观看| 秘书高跟黑色丝袜国产91在线 | 免费国产好深啊好涨好硬视频| 亚洲无码高清免费视频亚洲| 亚洲AV人人澡人人双人| 亚洲欧美国产高清va在线播放| 1024国产在线| www.99在线观看| 亚洲黄色网站视频| a级毛片免费网站| 一区二区偷拍美女撒尿视频| 少妇精品网站| 免费jizz在线播放| 自拍偷拍欧美| 狠狠色婷婷丁香综合久久韩国| 亚洲性色永久网址| 美女被操91视频| 欧美一区二区人人喊爽| 制服丝袜亚洲| 国产欧美视频在线观看| v天堂中文在线| 一本色道久久88综合日韩精品| 国产无码性爱一区二区三区| 九九热视频精品在线|