◆趙永泉
基于擬合決策邊界表達式的對抗攻擊方法
◆趙永泉
(云南電網有限責任公司西雙版納供電局 云南 666100)
基于深度學習的圖像分類器已經被廣泛使用,由于模型魯棒性問題導致其不能正確分類,進而增加微小擾動的樣本,稱之為對抗攻擊。現有黑盒攻擊算法難以在較低的訪問次數下獲得準確決策邊界信息,本文提出基于擬合決策邊界表達式的對抗攻擊方法。該方法定義根據目標函數以及決策邊界的定義,推導出決策邊界表達式,并利用投影操作尋找決策邊界附近的對抗樣本。試驗結果標明,該方法相比現有的黑盒攻擊方法具有更高的攻擊成功率。
對抗攻擊;計算機視覺;深度學習
對抗攻擊指的是在原始樣本中加入擾動,以獲得一個可以欺騙目標深度學習分類器的樣本。文獻[1]首次發現深度學習模型易受攻擊的特點,進而提出框約束L-BFGS算法進行迭代對抗攻擊。L-BFGS算法針對特定的原始圖像隨機添加擾動生成對抗樣本。文獻[2]提出的生成方法基于隱空間聚類。文獻[3]提出了一種基于快速邊界攻擊的有目標攻擊樣本生成方法,將搜索拆分為面上和線上兩部分,并通過二分法減少搜索規模。文獻[4]提出了基于AE-WGAN的定向對抗樣本生成方法,通過高質量映射轉換和隱層編碼遷移算法生成指定標簽的對抗樣本。文獻[5]提出的ZOO方法通過目標模型的輸出來擬合模型梯度,其在攻擊成功率和擾動大小兩個指標上都很優秀。本文通過轉換模型擬合目標函數構建決策邊界近似表達式,根據決策邊界近似的表達式,利用投影操作進行對抗樣本生成,提升攻擊成功率。
在對抗攻擊的過程中,根據攻擊目標的不同,可以分為有目標攻擊和無目標攻擊,其形式化定義如公式(1)所示:

其中,C代表可以對樣本進行分類的深度學習模型(目標模型),是模型參數。y為目標模型對x的分類結果,是原始樣本的正確類別。在有目標攻擊中,目標模型將x分類到攻擊者指定的類別。在無目標攻擊中,目標模型將對抗樣本分類到樣本正確類別外的其他類別(不指定誤分類的類別)。
Croce等人[6]嘗試尋找目標模型的決策邊界,通過使用目標模型的梯度信息、模型的結構與模型的參數,精確地將樣本投影在目標模型決策邊界附近,從而獲得性能良好的對抗樣本。

在獲得決策邊界近似的表達式后,Croce等人根據決策邊界的平面表達式,計算樣本到決策邊界的距離,如式(3)所示:

受到Croce等人[6]在白盒攻擊中利用模型的決策邊界信息進行對抗攻擊(FAB算法)的啟發,本文提出一種在黑盒場景下,基于擬合決策邊界的對抗攻擊方法,結構如圖1所示。

圖1 算法框架
在黑盒場景中進行對抗攻擊,攻擊者不能獲得目標模型的結構以及參數信息,即模型的內部信息,本文通過定義含有決策邊界的目標函數,并利用轉換模型擬合目標函數,求解決策邊界表達式,在黑盒場景中利用決策邊界信息進行對抗攻擊。此方法與已有的基于替代模型的攻擊方法相似,但基于替代模型的攻擊方法在擬合替代模型時,考慮訓練樣本與所有類別之間的關聯,根據目標模型關于所有類別預測概率對替代模型進行擬合,目的是使替代模型學習到目標模型對樣本每個類別的預測概率,并擬合目標模型中所有類別之間的決策邊界,使替代模型分類的性能接近目標模型,之后通過對替代模型進行白盒攻擊獲得對抗樣本,最終利用得到的對抗樣本對目標模型進行攻擊。與替代模型相比,本文提出的基于擬合決策邊界的攻擊方法,方法框架如圖2所示,首先根據對抗攻擊的目的,構建相應的模型。在模型擬合的過程中,本方法只針對與攻擊相關的兩個類別的信息進行擬合,在迭代過程中忽略與攻擊目標無關的類別,相比于替代模型方法,能夠更有針對性的擬合在攻擊過程中所需的目標模型的內部信息。在進行對抗攻擊時,本方法利用擬合模型的信息生成對抗樣本進行攻擊,并且在對抗樣本生成過程的同時,利用目標模型對對抗樣本的分類概率指導轉換模型的擬合。此外,在利用模型的分類概率擬合替代模型時,替代模型方法希望擬合每一個類別的輸出概率,而本方法只需要擬合兩個類別概率之間的差值,并且在兩個類別的預測概率不同的情況下,預測概率之間的差值也可能相同,因此本方法需要擬合的目標模型信息少于替代模型方法,在相同的訪問次數情況下,本方法擬合的信息更接近對抗攻擊所需的目標模型的內部信息,使得其在進行對抗攻擊時,可獲得比替代模型方法更好的效果。

(5)






圖2 轉換模型構建框架
擬合構建的轉換模型由標簽映射模塊以及轉換模型的訓練模塊組合。由于在白盒場景中,攻擊者可以獲得目標模型的內部信息,因此可以分別計算關于兩個類別的梯度信息獲取決策邊界表達式中需要的梯度信息。但是在黑盒場景中,只能獲取到目標模型的輸出結果,構建的目標函數擬合的信息為兩個類別分類概率之間的差值,所以決策邊界表達式中的導數求解過程由分別計算兩個輸出概率的梯度信息,并將它們轉換為利用轉換模型的一個位置的輸出信息計算目標函數的梯度信息。因此,在進行目標函數擬合過程前,本方法需要對原始樣本的初始類別以及攻擊的目標類別進行標簽映射,將兩個類別的標簽映射為轉換模型的一個類別,使獲取的目標模型的輸出結果對轉換模型的訓練有指導意義,從而擬合轉換模型,標簽轉換過程如圖3所示。
在標簽轉換過程中,根據原始類別的標簽以及目標類別的標簽的組合進行映射,將每兩個類別的組合映射到新標簽中的一個位置,獲得圖中所示的映射矩陣,對應位置的值的計算如式(9)所示:

根據標簽轉換矩陣每個位置值的計算方式,本方法獲得的映射矩陣是關于主對角線反對稱的矩陣,因此在計算標簽映射過程只考慮映射矩陣對角線上半部分的映射,并通過構建因子(Negative-Positive Factor)表示主對角線下半部分的標簽,因子計算公式如式(10)所示:






在完成迭代搜索后,對生成的對抗樣本進行微調,進一步降低對抗樣本的平均擾動,獲得滿足攻擊條件的對抗樣本。
數據源采用的是圖像識別領域經典的數據集, 包含十個類別的手寫數字(0-9)的圖像信息,每一張圖片的大小為28x28,并且每一個像素點只由一個灰度值進行表示,圖像的維度是784。
硬件環境:處理器i9-9820X、顯卡2080Ti、服務器內存64GB。
軟件環境:Ubuntu 16.04 64位,編程語言Python3.5,框架tensorflow 1.13.1,CUDA版本:10.0.130。
本文為研究決策邊界信息在對抗攻擊中的作用,提出了基于擬合決策邊界表達式的攻擊方法,使用MNIST數據集驗證算法性能。同時根據黑盒攻擊常用的攻擊成功率、平均擾動以及平均訪問次數三個評價指標[7],與ZOO算法、隱空間聚類方法以及AdvGAN算法[8]進行對比。平均訪問次數影響了目標模型是否能覺察到攻擊的存在,因此越低的訪問次數對應著越好的攻擊性能。實驗結果如表1所示。

表1 無目標攻擊結果

表2 有目標攻擊結果
通過實驗結果可以看出,無論是有目標攻擊還是無目標攻擊,本方法在對目標模型查詢次數不高于其他方法的條件下,本方法在攻擊成功率上要優于其他方法。此外,本方法生成的對抗樣本的擾動大小無目標攻擊下與其他方法大致相當,而在有目標攻擊中優于其他方法。
為在黑盒場景中獲得決策邊界表達式,本文提出基于擬合決策邊界信息的對抗攻擊方法,構建與決策邊界相關的目標函數,通過目標模型的輸出信息,利用轉換模型對目標函數進行擬合,根據擬合后的轉換模型與構建的決策邊界信息,對原始樣本進行投影操作,進而生成對抗樣本。并且在MNIST數據集上進行驗證,利用決策邊界的信息生成對抗樣本,生成性能較好的對抗樣本,減少對目標模型的訪問次數。
[1]Szegedy C,Zaremba W,Sutskever I, et al. Intriguing Properties of Neural Networks[C]//International Conference on Learning Representations. 2014.
[2]周世杰,張準,劉啟和,等. 一種基于隱空間聚類的黑盒對抗樣本生成算法,CN111191717A[P],2020.
[3]郭書杰. 基于快速邊界攻擊的黑盒對抗樣本生成方法[J].計算機系統應用,2020.
[4]張潔,張志昊. 基于AE-WGAN的定向對抗樣本生成及利用[J].南京郵電大學學報(自然科學版),2020.
[5]Chen P-Y, Zhang H, Sharma Y, et al. Zoo: Zeroth Order Optimization based Black-box Attacks to Deep Neural Networks without Training Substitute Models[C]//Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security. 2017.
[6]Croce F,Hein M. Minimally distorted Adversarial Examples with a Fast Adaptive Boundary Attack[C]//Proceedings of the International Conference on Machine Learning,2020.
[7]Papernot N,McDaniel P,Goodfellow I,et al. Practical Black-box Attacks against Machine Learning[C]//Proceedings of the ACM on Asia Conference on Computer and Communications Security,2017.
[8]Xiao C,Li B,Zhu J-Y,et al. Generating Adversarial Examples with Adversarial Networks[C]//International Conference on Learning Representations,2018.