潘旭東 張 謐 楊 珉
(復旦大學計算機科學技術學院 上海 200438)
隨著聯邦學習(federated learning)[1-3]、協同訓練(collaborative training)[4-5]等開放網絡下分布式深度學習系統在商業場景(如金融[6]、醫療[7]等)中的興起,深度學習模型中間計算結果(如特征、梯度等)逐漸成為服務節點、計算節點和終端設備之間的主要傳輸內容.由于模型中間計算結果本質上是模型與數據共同計算的產物,那么其中將包含大量參與計算的數據信息.然而,現行數據保護規范大多未限制或明確給出對深度學習模型中間結果的保護標準[8],這也給潛伏在開放網絡中的攻擊者或不誠實的第三方服務節點帶來可乘之機:利用新型攻擊算法,從截獲的明文的中間計算結果中,推斷原始數據中的敏感信息.例如,Pan等人[9-10]指出,當一個開放網絡中的攻擊者截獲通用語言模型(如Google的BERT[11]等)產生的深度文本編碼后,可在幾乎無先決條件的情況下,以接近100%的準確度逆向推斷原始文本中是否存在目標關鍵詞;而Melis等人[12]則發現攻擊者可以從模型梯度中推斷出訓練樣本的敏感屬性信息.
本文針對分布式深度學習模型構建過程最重要的中間計算結果——模型平均梯度(簡稱“梯度”),對其數據泄露風險開展研究.如圖1所示,在典型的分布式模型構建過程中,多個客戶端(client)在服務器(server)的協調下,利用各自的本地數據,共同參與訓練一個全局模型[13].具體地,每一輪訓練過程為
1)服務器下發當前版本的全局模型給各個客戶端(步驟1);
2)各客戶端接收全局模型,復制到本地模型中,并根據該模型參數在一個本地訓練批次(mini-batch)上計算模型梯度并上傳(步驟2);
3)服務器聚合接收到的各客戶端的梯度,并更新全局模型(步驟3).
由于在聯邦學習等場景下,客戶端節點往往由用戶或商業機構扮演,其參與訓練的本地訓練批次也往往包含大量敏感信息,這將誘使潛在攻擊者嘗試非法獲取梯度,從中推斷原始數據中的敏感信息,乃至披露原始數據本身.
本文聚焦基于平均梯度重建一個訓練批次中各個原始數據樣本的攻擊場景,稱作數據重建攻擊(data reconstruction attack).如圖1所示,當潛在攻擊者通過中間人攻擊或偽裝成第三方服務器截獲目標人臉識別模型時,在構建過程中無意泄露梯度信息后,數據重建攻擊能被利用于恢復原始訓練批次中的每張隱私人臉數據及相應標簽.由于數據重建攻擊造成的隱私泄露程度較大,Lyu等人[14]將數據重建攻擊列為開放網絡下分布式學習系統的重大安全威脅之一.
盡管此前數據重建攻擊在大型深層神經網絡和小訓練批次的情況下已取得顯著的攻擊效果[15-18],這些工作大多僅停留在攻擊方法設計和實驗驗證層面,對數據重建攻擊中下述重要實驗現象缺乏深層機理分析:
1)現有攻擊僅能恢復少量樣本組成的訓練批次
Zhu等人[15]在實驗過程中發現,隨著訓練批次的增大,提出的基于優化的攻擊過程收斂緩慢.例如,當訓練批次大小從1增加到8,攻擊執行時間將從270 s快速增長至2 711 s(時間開銷增加了9倍以上),仍無法保證在攻擊不同訓練批次時均能達到收斂.而Geiping等人[17]報告當利用基于優化的攻擊算法嘗試恢復大小為48的CIFAR-10圖像訓練批次時,其恢復圖像中80%以上圖像會模糊且無法辨識.
2)網絡結構變淺變窄弱化現有攻擊效果
在本文初步實驗中發現,當目標模型神經網絡層數減少為3層或層寬降低至100個神經元以下,現有基于優化梯度匹配目標的攻擊效果出現明顯下降,即在較淺的深度學習模型上已有的數據重建攻擊遠遠無法達到在大型深層網絡上的類似攻擊效果,并同時伴隨由于計算損失函數2階微分帶來的梯度匹配目標最小化過程的數值不穩定的情況.近期,文獻[19]提出神經元激活獨占性(neuron activation exclusivity),發現滿足特定激活獨占性條件的任意大小的訓練數據批次能被攻擊者從訓練梯度中像素級重建,并遠超此前工作的重建效果.然而,本文通過實證分析表明,在實際訓練過程和設定中滿足該條件的訓練數據批次出現概率較低,較難造成實際泄露威脅.
本文主要做出4個方面的貢獻:
1)對文獻[19]中提出的基于神經元激活模式的新型數據重建攻擊算法進行了系統化的機理剖析和復雜度分析,并披露了更多的理論和實現細節;
2)提出神經元激活模式控制算法,對給定多層全連接神經網絡建立線性規劃問題,從而為給定訓練批次中的各訓練樣本求解微小擾動,以精確滿足指定的神經元激活模式;
3)提出特定的神經元激活模式組合構造方法,通過在分布式訓練端側節點執行上述控制算法,主動誘導受害者的本地訓練批次的平均梯度滿足理論可重建性,從而有效松弛了文獻[19]提出的攻擊算法應用條件;
4)提出并行化策略優化了文獻[19]的重建攻擊算法的時間開銷,速度提升近10倍.在5個涵蓋智慧醫療、人臉識別等應用場景的數據集上的實驗表明,本文提出的攻擊流程優化方法將可重建訓練批次大小從8張提升至實際應用的64張,且重建數據的均方誤差與信噪比均與原始攻擊算法持平.
1.1.1 相關記號
在過去10年里,深度神經網絡(deep neural net-work, DNN)已在包括圖像、文本、音頻等的各類重要場景中得到廣泛應用.直觀地說,深度神經網絡是一種逐層計算的機器學習模型.記一個用于K分類任務的H層的深度神經網絡為f(·,θ):X(?d)→Y,它通常具有如下的計算形式:
f(x;θ)=fH(σ(fH-1…σ(f1(x)))),
(1)
其中,f1,f2,…,fH表示第1到第H層神經網絡,通常為包括全連接層(fully-connected layer)和卷積層(convolutional layer)在內的標準化神經網絡組件,σ表示神經網絡所采用的激活函數,θ表示神經網絡中所有可學習的參數構成的集合.
沿著文獻[19]的設定,本文同樣以如下定義的多層全連接神經網絡(multilayer fully-connected neural network)為主要的理論分析和攻擊對象:
f(x)=WH(σ(WH-1…σ(W1x+b1)+bH-1))+bH,
(2)
其中,Wi∈di×di-1,bi∈di分別表示第i個全連接層的權重(weight)矩陣和偏置(bias)向量,且滿足dH=K和d0=d,即輸入空間的維度.特別地,本文后續分析主要覆蓋式(2)中激活函數σ為ReLU(rectified linear unit)函數的深度學習模型.
1.1.2 ReLU神經網絡的前向計算性質
由于ReLU函數具有數值穩定性好和計算效率高等優勢,目前ReLU函數已普遍應用于各種工業級的深度學習模型結構(例如ResNet,Inception等核心機器視覺模型).具體地,ReLU函數定義為
(3)
從式(3)可知,ReLU函數可被視作一種二值門控單元:當所屬神經元輸出到該ReLU函數的值a為非負數,則該輸出值將被恒等地傳遞到下一層網絡的計算中;否則,該輸出值將被置為零.本文定義前者情形為該ReLU函數的所屬神經元的激活態;后者情形為所屬神經元的休眠態.
當整體考慮同層網絡結構中包含的所有神經元,可將1.1.1節中式(2)給出的多層全連接神經網絡的形式等價轉化為
f(x)=WHDH-1(WH-1(…D1(W1x+b1)+
bH-1)+bH,
其中二值對角方陣Di∈刻畫第i層全連接網絡中的各個神經元的激活狀態.例如,當Di中的第j個對角元素的值為1,則表示該層中的第j個神經元在x的輸入下激活;反之,該神經元在x的輸入下休眠.因此,本文稱Di為輸入x在第i層的激活狀態矩陣.當輸入x在神經網絡中完成一次前向傳播,收集每一層的各神經元的激活狀態矩陣,得到該輸入在神經網絡中的激活模式圖2展示了在一個大小為2的ReLU隱藏層中輸入數據x1,x2對應的2種不同的激活模式.
1.1.3 ReLU神經網絡的后向傳播性質
由1.1.2節中ReLU函數定義可知,ReLU函數在反向傳播過程中滿足:
(4)
由式(4)可推得,激活狀態矩陣Di與求導算子?θ具有對易性(commutability):?θDiWi=Di?θWi,即激活狀態矩陣在反向傳播的計算中保持不變.在神經元層面,這意味著如下的重要現象:反向傳播的損失函數信號僅在前向傳播激活的路徑上非零.該現象是理解并提升文獻[19]中提出具有理論保證的攻擊算法的核心環節.
記模型訓練過程中在樣本(x,y)上損失函數為(f(x;θ),y).在分類任務中,通常被定義為交叉熵損失函數-logpy,其中py表示概率向量(p1,p2,…,pK)中真實類標簽y對應的概率值,而該概率向量通常為經過softmax函數的模型輸出,有對于一個訓練批次模型在第i層的平均梯度為

(5)
其中M表示訓練批次的大小,在實際訓練中通常M≥32.
在2019年,Zhu等人[15]提出了基于平均梯度的數據重建攻擊方法DLG,其演示的攻擊效果表明,DLG在已知模型參數的條件下,能從殘差神經網絡ResNet的平均梯度中即可近乎無損地恢復一個大小為8的訓練數據批次中的各個樣本.從攻擊設計上看,DLG是一種基于優化的攻擊技術,將待重建的各訓練樣本和標簽當作可訓練參數(trainable parameters),利用模型參數計算在這些待恢復樣本和標簽上的梯度,計算和實際梯度之間的均方誤差作為損失函數(稱作“梯度匹配目標”),損失函數具體形式為
(6)
在上述梯度匹配目標下,DLG通過反向傳播更新優化待解的訓練樣本和標簽,試圖恢復原始樣本.在文獻[15]提出的基于優化的攻擊框架下,后續工作[16-18]通過改進梯度匹配過程中的損失函數,如Geiping等人[17]提出了基于余弦相似度的梯度匹配目標,根據模型梯度的解析性質預先確定部分/全部樣本的標簽,如Zhao等人[16]提出根據模型最后一層偏置向量的梯度的正負號推斷單張圖片的標簽,并引入相應的正則化項約束恢復圖像的先驗分布,如Yin等人[18]提出了利用批正則化層均值和方差的正則化項,進一步優化了文獻[15]的恢復效果.
然而,已有數據重建攻擊大多僅停留在攻擊方法設計和實驗驗證層面,對數據重建攻擊中重要實驗現象缺乏深層機理分析.直觀來看,數據重建攻擊所依賴的平均梯度包含的信息量主要受到模型大小和訓練批次大小2個因素的影響.本文通過實驗研究發現,已有數據重建攻擊將會隨著訓練批次擴大或模型尺寸縮小而弱化.例如,圖3展示了在CIFAR-10訓練集上進行訓練的3層全連接網絡上應用現有重建攻擊的實驗結果,其中網絡結構為(3072,512,10),目標訓練批次大小為8,攻擊實現均為文獻[15]給出的原始實現.可以看到,現有攻擊算法均在攻擊小型神經網絡模型時存在瓶頸,導致圖像重建效果顯著下降.
現有攻擊算法的瓶頸主要由于,DLG以及后續基于優化的數據重建均依賴優化算法迭代求解能滿足真實平均梯度的訓練批次.該過程并未設法分析各個訓練樣本從平均梯度中的可分離性,也未能化簡神經網絡的非線性,導致這類方法所需求解的梯度匹配優化目標具有很高的復雜性,優化過程很容易產生數值不穩定或陷入局部最優解.本文提出的攻擊算法則通過將數據重建問題歸約為訓練批次中個體樣本的激活模式差異,實現具有理論保證的數據重建攻擊.
由于梯度信息在開放網絡下的分布式學習系統中易被攻擊者獲取,近年來已有一些研究工作開始著眼于梯度信息可能造成的用戶敏感數據泄露問題.例如,Melis等人[12]發現,攻擊者能通過模型梯度推斷訓練集樣本是否包含特定的屬性(例如,人臉樣本是否佩戴眼鏡).Hitaj等人[20]則利用分布式訓練過程中傳輸的梯度信息訓練生成對抗式網絡(generative adversarial nets,GAN),從而推斷端側節點私有數據集中每一類樣本的類平均(例如,平均臉).Nasr等人[21]則根據梯度信息進行成員推理攻擊(membership inference attack),即推斷給定目標樣本是否屬于用戶的私有訓練集.除文獻[12,20-21]所述的這些利用梯度信息威脅訓練樣本私密性的研究進展,研究者也已嘗試其他不同的信息泄露源實現隱私數據竊取.Ganju等人[22]和Carlini等人[23]提出利用模型參數推斷訓練集的全局隱私屬性(例如,特定類樣本占比).Fredrikson等人[24-25]和Pan等人[9-10]則利用數據深層表征分別重建類平均和推斷對應樣本的隱私屬性,而Shokri等人[26]則提出利用模型可解釋性輸出結果,包括影響函數(influence function)等,進行成員推理攻擊.不同于對全局數據集特征、個體數據的敏感屬性或成員屬性等進行推斷,本文關注的數據重建攻擊作為一種更具威脅性的深度學習數據隱私攻擊,以直接恢復個體樣本中盡可能多的原始數據為目標,造成更為嚴重的隱私泄露風險.與此同時,由于在相同或更弱的攻擊假設下,數據重建攻擊需要從幾乎相同的信息源中破解更多的信息,因而帶來了額外的技術挑戰.
對于深度學習數據隱私的研究也不僅局限于訓練集隱私,此前研究工作也已揭示了深度學習模型在測試時數據成員信息[27]、模型參數[28]、訓練超參[29]、模型結構[30]以及模型功能[31]等層面的威脅.
本節介紹了如何通過操控神經元激活模式主動滿足獨占性條件,以提升現有數據重建攻擊的可重建訓練批次大小和攻擊效果,并介紹相應的系統層優化技術提升現有數據重建的攻擊效率.首先給出本文所基于的威脅場景與攻擊假設.
2.1.1 威脅場景

2.1.2 攻擊假設
具體地,本文假定攻擊者擁有3方面的能力:
1)假設A.攻擊者獲得了目標訓練批次上的明文平均梯度.
2)假設B.攻擊者已知本地計算節點上的模型結構和參數.
3)假設C.攻擊者能修改本地計算節點上的數據預處理算法.
假設A主要為攻擊者準備了相應的攻擊信道,即本地節點向服務器提交的平均梯度信息被攻擊者獲得.對于半誠實的服務提供方而言,滿足假設A是簡單的;而對于進行網絡嗅探的中間人攻擊而言,也可利用傳輸層漏洞等對網絡包進行破解以獲得明文平均梯度.假設B為攻擊者分析平均梯度提供了基礎,這是因為平均梯度正是在當前模型參數和模型結構上通過損失函數的反向傳播而產生的,因而不論是類似于文獻[15-18]中基于梯度匹配目標的數據重建攻擊,還是文獻[19]中基于獨占性分析和線性方程求解的攻擊算法,都需要依賴于模型參數和結構建立優化問題或目標方程組.假設B在實際中是合理的:在引言部分介紹的典型分布式深度學習系統協議下,各個參與節點和服務提供方均共享同樣的模型結構,并在每輪的參數聚合、分發和同步的過程中,無論是作為服務提供方或者偽裝成另一個參與訓練的嗅探方,攻擊者都能同步并獲得目標訓練批次所屬的計算節點上的模型參數和結構.假設C為本文首次在數據重建攻擊場景中引入,此前主要出現在針對分布式深度學習系統的屬性推斷攻擊中[12].假設C的合理性在于,在現行的工業級分布式學習框架中(例如Tensorflow-Federated[32],PySyft[33]等),服務器在訓練開始時,往往需要給端側節點推送訓練代碼.因此一個半誠實的服務器即使在無法訪問端側節點本地數據的情況下,也可以給目標工作節點注入相應的惡意預訓練處理算法.而由于深度學習訓練流程往往涉及多種調參技術,實現邏輯較為復雜,也易于在不被用戶察覺的情況下被攻擊者操縱[34].
2.2.1 神經元激活獨占性

(7)

不同于此前基于優化的攻擊算法,本文及文獻[19]提出的數據重建攻擊并非是經驗性的攻擊算法,而是將模型平均梯度能夠泄露訓練批次中的每個個體訓練數據歸結為訓練批次中個體數據的神經元激活模式的獨占性.從原理層面看,神經元獨占性代表了平均梯度中個體樣本的可分離性,即在前向和后向計算過程中,該訓練批次中的樣本單獨占有至少一條或多條計算路徑.2.2.2節表明,這類獨有的計算路徑的存在性保障了攻擊者可在具有理論保證的精度誤差下重建訓練批次中的每個樣本.
2.2.2 充分獨占性條件下的重建算法
文獻[19]基于獨占性的概念,發現一種充分獨占性條件(sufficient exclusivity condition):1個訓練批次中的每個樣本在多層全連接網絡最后1個ReLU層都具有至少2個ExAN,而在其余層擁有至少1個ExAN.在充分獨占性條件下,該工作構造攻擊算法證明這樣的訓練批次中的每個樣本可被幾乎無損地從平均梯度中重建.歸納來看,Pan等人[19]構造的攻擊算法主要由3個關鍵步驟組成.
1)推斷樣本標簽和概率向量.根據最后1層的平均梯度信息,攻擊算法通過對最后1層權重的梯度矩陣(即GH∈K×dH-1)進行逐行的求比值操作,尋找每1行中具有重復值的位置.根據充分獨占性條件中對于最后1層的假設,可證明具有重復值的位置索引對應的神經元為訓練批次中某一樣本的獨占神經元,且當行索引中不包含該樣本的真實標簽對應的索引時,該重復值為其概率向量中對應類別概率之間的比值,因此恒為正值;否則,當分子(分母)行索引對應該樣本的真實標簽時,該重復值對應的分式中分子(分母)為對應概率減1,分母(分子)為相應的概率值,因此恒為負值.利用上述性質,攻擊者可利用比值關系和概率歸一化條件求解對應樣本的概率向量,并通過對應重復值的正負性確定樣本的標簽.
2)推斷各樣本的激活模式.在步驟1)中攻擊者求解得到最后一層中每個訓練樣本對應的ExAN,于是,利用在本文1.1.3節中介紹的ReLU神經網絡后向傳播的重要性質,即“后向傳播的損失函數信號僅在前向傳播激活的路徑上非零”,可根據每個樣本對應的最后一層獨占神經元連接前層的參數梯度是否為0,確定前一層中相應的獨占神經元.根據充分獨占性條件中假設的其余層擁有至少1個ExAN,上述過程可遞推地求得每個樣本在各個ReLU層上的激活模式.

(8)
其中,Pjk表示經過權重[W1]jk的所有路徑端點的集合,c為輸出層神經元的索引,i為符號化輸入的索引,xm=(xm1,xm2,…,xmd).
2.2.3 充分獨占性條件的嚴格性
從2.2.2節中充分獨占性條件的表述可知,該條件直觀上對于訓練批次的要求較為嚴格,因而實際該重建攻擊的應用面有限.為了進一步驗證上述觀點,本文統計了在CIFAR-10數據集上不同訓練批次大小和不同隱藏層寬度的3層全連接網絡中滿足充分獨占性條件的訓練批次占比,相應結果在圖5中展示.
從圖5中可以看到,一方面,隨著訓練批次大小M從2擴大到10,能滿足充分獨占性條件的批次比例從原來的接近100%快速衰減到不超過1%,如圖5(a)所示;另一方面,當固定訓練批次的大小為8,隨著3層全連接網絡中的隱藏層寬度從700個神經元縮小至300個神經元,能滿足充分獨占性條件的批次比例也從6%下降到不足1%.該實驗現象表明,對于實際應用中的訓練批次大小(如32,64等),一個訓練批次滿足充分獨占性條件的概率非常低.因此,盡管Pan等人[19]提出的新型攻擊算法對滿足充分獨占性條件的訓練批次具有幾乎無損的重建效果,該攻擊在重建實際大小的訓練批次時同樣面臨問題:一旦不滿足充分獨占性條件,2.2.2節中介紹的重建算法幾乎無法執行.更一般地,圖5展示的現象也為此前基于優化的數據重建攻擊對大模型和小訓練批次的強依賴提供了一種合理的解釋:模型尺寸的縮小和訓練批次的擴大均會導致批次滿足充分獨占性條件的概率降低,即同一批次中數據的獨占性減弱,從而難以從平均化的梯度信息中分離.
2.3.1 算法概述
為擴大2.2節中具有理論保證的數據重建算法的應用范圍,同時松弛其對于訓練批次的嚴格假設,2.3~2.4節進一步提出利用攻擊者能夠操控端側節點的訓練數據預處理算法這一環節,為一個本不滿足充分獨占性條件的訓練批次生成微小的像素層面擾動,誘使該擾動后的訓練批次滿足充分獨占性條件,從而結合2.2節的攻擊算法,從平均梯度中對該訓練批次的擾動版本實施破解.由于添加的擾動較小,攻擊者因而仍能從重建的擾動數據中獲得端側節點的隱私信息.本節首先介紹作為本文提出攻擊方法核心模塊的算法SOW(Sleep-Or-Wake),即一種基于線性規劃的神經元激活模式控制算法.
如圖6所示,當攻擊者指定當前訓練樣本x(例如,圖6上部的實線樣本)所需的神經元激活模式(例如,第1個隱藏層的激活模式為(0,1,0,0,1)),SOW算法會相應地建立線性規劃問題,求解擾動規模最小的像素層面擾動Δ,使得擾動后樣本x+Δ在網絡前向傳播過程中的確呈現指定的激活模式.具體地,本節后續將分別介紹單層激活模式控制和多層激活模式控制2部分.
2.3.2 單層激活模式控制

(9)
(10)
(11)

至此,本節已將約束集合中的各個約束轉化為標準線性規劃問題中關于自變量Δ的線性不等式形式.最后,本節將繼續對目標函數中的絕對值形式進行松弛變換,以適配標準線性規劃問題形式.
為此,參考文獻[35],本文引入額外非負變量組Δabs∈[0,1]d和額外約束條件:
-Δabs?Δ?Δabs,
(12)

綜上所述,下面給出SOW算法在控制單層神經元激活模式情形下構建的線性規劃問題:
(13)
(14)
x+Δ∈[-1,1]d,-Δabs?Δ?Δabs.
(15)
在3.1節中,本文將通過實驗驗證上述松弛策略的有效性.
2.3.3 多層激活模式控制
在2.3.2節中構造的單層激活模式控制算法的基礎上,本節進一步提出多層激活模式控制算法,從而能用于有效控制單張樣本在多層全連接網絡中每個ReLU層的激活模式,從而便于滿足后續攻擊所需的充分獨占性條件.
從宏觀上看,激活模式控制的關鍵在于約束每一個被指定激活狀態的神經元的激活前輸出值.因此,借鑒2.2.2節中所述的建立線性梯度方程的方法,本文提出將輸入樣本x+Δ符號化,從神經網絡模型的輸入層開始逐層向后傳播.當傳播路徑上數據流遇到ReLU函數單元,則根據攻擊者指定的0/1激活狀態,收集相應的線性不等式約束.具體地,若當前ReLU函數單元的輸入表達式為a,指定的激活狀態為α∈{0,1},則收集的線性不等式約束為(2α-1)a≥ε.同時,若指定激活狀態為1,則將輸入表達式恒等地向下一層計算單元傳遞;否則,若指定激活狀態為0,則向下一層計算單元傳遞0.執行上述步驟至完成最后一個ReLU層的不等式收集,攻擊者可類似2.3.2節中建立關于輸入擾動Δ的規劃問題.最后,通過引入非負變量組Δabs∈[0,1]d和額外約束條件,可將多層激活模式控制問題轉化為標準線性規劃問題.在實現中,本文選用開源線性規劃求解器PuLP[36]建立線性規劃問題和進行求解.
2.4.1 攻擊部署模式
當利用SOW算法對給定樣本生成微小擾動以操控該樣本在目標網絡中的神經元激活模式后,攻擊者將實施3個攻擊部署:
1)替換端側數據預處理模塊.首先,攻擊者在其目標的端側節點的訓練過程中添加額外的SOW算法模塊.具體地,該模塊位于訓練批次進入神經網絡模型計算之前.
2)構造充分獨占性的激活模式組合.SOW模塊將自動構造滿足充分獨占性條件的激活模式集合.例如,在圖6中,原本實線框樣本和虛線框樣本在最后1個ReLU層的激活模式分別為(0,1,1,0,1)和(0,1,1,1,1),不滿足充分獨占性條件中對于各樣本均包含至少2個ExAN的要求.為此,該步驟將根據各正常樣本的初始激活模式,構造修改神經元激活狀態個數最少且滿足充分獨占性的激活模式集合.仍以圖6為例,相應的激活模式為(0,1,0,0,1),(0,0,1,1,0).
3)執行SOW算法添加樣本擾動.在這一步中,攻擊者指定上一步中構造的激活模式,為訓練批次中的每個樣本執行SOW算法,尋找最優擾動以滿足激活模式約束.隨后,這些帶擾動的樣本將進入神經網絡模塊執行正常前向計算流程,產生平均損失值,反向傳播獲得平均梯度,最后提交至分布式訓練服務提供方.
借助上述3個攻擊部署,傳輸的平均梯度確保滿足充分獨占性條件,因而可被攻擊者應用文獻[19]的重建算法進行無損重建,恢復帶擾動的私有訓練樣本.在實驗中,本文將一并衡量重建樣本和原始訓練批次樣本與帶擾動的訓練批次樣本之間的誤差,以評估本文提出的攻擊部署造成的隱私泄露程度.
2.4.2 獨占激活模式構造方式




2.6.1 數據集簡介
1)CIFAR-10[37].該數據集包含了60 000張來自10個不同類別(如狗、貓等)的日常事物圖像,由Krizhevsky于2009年提出,被廣泛應用于圖像相關的深度學習研究.其中,每張圖像均包含RGB通道,分辨率為32×32.
2)MedMNIST數據庫[38].MedMNIST數據庫包含了視網膜、皮膚腫瘤、組織切片等10余類醫療影像數據,由Yang等人于2014年從多家公開醫療數據庫中分類收集,主要用于醫療智能診斷算法的評估.其中,不同類型的圖像可能為灰度或RGB通道,分辨率統一為28×28.本文實驗包含該數據庫中的視網膜(RetinaMNIST)、皮膚腫瘤(DermaMNIST)、組織切片(OrganMNIST)數據集.
3)Facescrub數據集[39].Facescrub數據集包含530位男性和女性知名人物來自互聯網的公開照片,共計10萬以上.該數據集主要用于人臉識別模型的訓練與評估.本文實驗對Facescrub數據集降采樣為20類分類任務,圖像均包含RGB通道,像素大小縮放為32×32.
2.6.2 模型選取
為保持與文獻[19]中原始實驗設置相同,本文選取受害者的神經網絡模型結構為(d,512,512,K)的4層全連接神經網絡,其中d為輸入圖像的標量維度,K為類個數,該模型中包含2層神經元數目為512的隱藏層.
2.6.3 評估指標

(16)
特別地,PSNR能較好地反映重建圖像的清晰程度,當PSNR≥20,則重建圖像與真實圖像在肉眼上幾乎不存在差異[19].實驗結果將以匯報數據重建攻擊在目標訓練批次上的平均重建信噪比為主,輔以可視化結果.
2)標簽重建準確度(LAcc).此外,本文衡量重建樣本和訓練樣本的標簽一致性.具體地,定義數據重建算法的標簽重建準確度為
(17)
本節首先給出基于2.3節的神經元控制算法的激活模式控制準確度,并給出相應的平均圖像擾動大小和可視化結果;隨后給出激活模式控制下恢復實際大小訓練批次樣本時的重建效果,并給出可視化;最后給出經過優化前后的數據重建攻擊的時間和空間開銷對比.

如表1所示,在5個圖像數據集上,本文提出的神經元激活模式控制算法能夠精確地操控數據樣本在目標神經網絡中的激活模式,在2個隱藏層上,擾動后樣本的激活模式和指定的激活模式完全一致(即BER指標為0%,每個激活狀態均匹配),這得益于本文將激活模式的控制問題轉化為具有嚴格性的線性規劃問題,因此得以精確求解.同時,由于在激活模式控制過程中,原始樣本上所添加的擾動大小為線性規劃問題的最小化目標,因此在完成激活模式控制的同時,擾動前后樣本間的平均像素差異也被控制得較小.例如,在Facescrub上,均方誤差(MSE)僅為0.006 3.為了提供給讀者更為直觀的體會,圖7展示了在Facescrub數據集上擾動前后的訓練批次中隨機采樣的4組對應樣本.可以看到,本文的激活模式控制算法為每張樣本添加散點狀的微小擾動,不影響辨別原圖所包含的人像,這也保證了后續通過從平均梯度中像素級重建擾動后樣本,能實現對于原始訓練樣本的隱私竊取.

Table 1 Bit Error Rate of the Neuron Activation Pattern of the Perturbed Data Samples
基于3.1節介紹的激活模式控制結果,本節進一步結合經優化后的文獻[19]提出的攻擊算法,對于擾動后的訓練批次所計算產生的平均訓練梯度進行數據重建攻擊.具體地,本節同樣設置訓練批次大小M=64,先經過激活模式控制算法將訓練批次擾動至滿足充分獨占性條件.在實際場景中,這些經由惡意預處理的樣本將進入目標神經網絡的學習過程,產生平均梯度并提交給服務器.通過截獲該平均梯度,以文獻[19]中同樣的最優參數破解該梯度信息,獲得重建后訓練批次.本節以重建信噪比和標簽重建準確度為評價指標,衡量重建后訓練批次與擾動后訓練批次(代表重建算法性能),以及與原始訓練批次間的差異(代表實際隱私泄露程度).同時,對比基于優化的數據重建算法Inverting[17].需要注意的是,由于文獻[19]的攻擊算法在目標訓練批次不滿足充分獨占性條件的情況而無法執行,因此不作為本節的基準方法進行對比實驗.
從表2可知,首先激活模式控制算法使得文獻[19]提出的數據重建算法得以重新應用于大小為64的實際訓練批次,這是因為根據實驗中間結果(如圖5所示),這些原始訓練批次均不滿足該算法所要求的充分獨占性條件,因此該數據重建算法將由于無法從最后1層的梯度信息中推斷各個樣本的獨占神經元、概率向量和標簽信息,從而導致后續重建步驟無法執行.相比之下,利用本文提出的激活模式控制算法,重建算法能有效破解包含64張圖片的擾動后訓練批次,得到與實際擾動后樣本幾乎無差異的重建結果.例如,在DermaMNIST皮膚病數據集上,64張重建后的圖像與真實擾動后的訓練樣本的平均重建信噪比高達48.11(>20),意味著像素級重建.同時,表2中還進一步衡量了重建后樣本與原始訓練批次中的真實圖片之間的差異,可以看到各個數據集上相應的PSNR也達到18以上,相較于此前基于優化的數據重建方法提升近1~4倍不等.這意味著,盡管激活模式控制算法為原始數據樣本添加了微小擾動以使得文獻[19]的重建算法得以應用,這樣的代價是合理且具有實際意義的:一方面,重建的擾動后樣本仍相比Inverting方法在真實梯度上的重建結果更接近原始數據;另一方面,這些擾動并不影響攻擊者辨認私密數據中所包含的隱私信息(圖7).為進一步直觀地體現本文的攻擊效果,圖8展示了在Facescrub數據集上重建訓練批次中隨機采樣的8張對應樣本,并給出了相應的擾動后和原始的真實樣本,從可視化的角度佐證了上述的分析和量化實驗結果.

Table 2 Performance of Data Reconstruction Attacks Under Activation Pattern Manipulation
本節對比同時開啟網絡預熱機制和并行化策略前后的數據重建算法運行效率.具體地,本節將以重建時間開銷和內存開銷作為衡量攻擊效率的2個方面.本文的實驗環境為1臺安裝Ubuntu 18.04操作系統的Linux服務器,CPU型號為AMD Ryzen Threadripper 2990WX(32線程),并配有2張NVIDIA GTX RTX2080顯卡.以CIFAR-10數據集為例,本節將重建樣本數從8張不斷翻倍擴大至64張,在相同環境中分別重復運行重建算法10次,用Python time模塊和memory_profiler模塊監測優化前后算法的運行過程時間開銷和空間開銷.優化后的重建算法線程池大小設置為32.特別地,表2和圖8的重建結果均為并行化優化后的實驗結果,從實驗層面證明了并行化策略的正確性.
圖9對比了優化前后重建算法隨著所需重建的訓練批次擴大的時間開銷和空間開銷的增長情況.可以看到,本文優化后的數據重建攻擊算法較先前在攻擊所需時間開銷層面具有顯著降低,而空間開銷維持相對接近.例如,當訓練批次大小為64時,在僅增長約10%的內存空間開銷的代價下,優化后的數據重建攻擊的時間開銷相較原始實現降低近90%.同時,隨著訓練批次的大小增加,得益于本文所實現的并行化策略,優化后算法的時間開銷的增速遠小于優化前算法,接近次線性增長.這也意味著,在同樣的攻擊時長下,本文優化后的數據重建攻擊能破解更多的訓練樣本,因而造成更大的實際隱私風險.
聯邦學習、共享學習等新型分布式訓練算法的出現,使得訓練梯度、深度表征等模型中間計算結果成為在開放網絡中傳輸的主要媒介.在連接著數據孤島、溝通多個深度學習模型的訓練過程的同時,模型中間計算結果卻無可避免地攜帶著模型、數據相關的私密信息,因此也極有可能成為中間人攻擊和半誠實服務器覬覦的對象,用于破解端側隱私數據.本文所研究的數據重建攻擊,正是考慮在攻擊者截獲分布式訓練過程中傳遞的平均訓練梯度信息的情況下,如何從梯度中破解所涉及的訓練批次中的每個私有樣本及其標簽的過程.本文創新性地提出了神經元激活模式控制算法,添加微小數據擾動以誘導端側數據節點滿足可重建性完備條件,即充分獨占性條件,首次實現具有實際應用場景大小的訓練批次的重建攻擊.在實質性地擴大了文獻[19]提出的攻擊算法的應用范圍的同時,算法的數據重建效果與原方法持平,從而能有效實現對于端側隱私數據的破解.此外,本文利用網絡預熱和并行化策略將該重建算法的攻擊效率提升10倍以上,有效增加了在相同時間內的數據破解效率.后續工作一方面可考慮將本文及文獻[19]所提出的方法進一步擴展至更為復雜的卷積神經網絡,以及具有殘差連接的現代神經網絡結構;另一方面,也可考慮將激活模式控制算法和神經元獨占性分析技術應用于其他應用領域(如自然語言處理、語音識別)并結合其他攻擊場景下的已有攻擊算法(如模型竊取攻擊等),用以松弛相應攻擊條件,從而幫助模型使用者更為準確地把握這類攻擊的實際威脅.同時,也希望后續研究者能夠加緊研究如何有效反制這類具有嚴重危害的數據重建攻擊(如通過梯度混淆、差分隱私等機制),在盡可能不影響分布式訓練過程效能的情況下,降低乃至消除從平均梯度中恢復個體私有信息的可能性.
作者貢獻聲明:潘旭東負責思路提出、論文初稿撰寫和實驗設計;張謐和楊珉負責思路討論、實驗結果討論和論文修改.