王曙燕,侯則昱,孫家澤
(西安郵電大學可信軟件實驗室,西安 710121)
深度學習技術在計算機視覺[1-2]、自然語言處理[3]等領域的應用發展迅速,將深度神經網絡應用于諸如人臉識別系統[4]、自動駕駛系統[5-6]及惡意軟件檢測等關鍵系統的趨勢不斷增長。深度學習模型的核心工作原理是依賴人準備和篩選的訓練樣本數據,基于多隱藏層的非線性變換來校準、刻畫和記憶數據,但距離在多領域通用的“AI 核心”還存在著較大差距[7]。目前,工業上更關注于模型的性能以及訓練效率,即盡可能最大化資源利用率以提升深度模型的訓練精度,與此同時,往往卻忽視了深度模型的魯棒性[8-9]以及安全性問題,即一個高精度的深度模型在受到惡意攻擊時,是否仍能做出準確的判斷。因此,特別是在許多涉及安全性的關鍵場景中,模型系統內部結構與魯棒性的關系[10]以及模型受到惡意攻擊時是否魯棒的問題也受到了眾多專家與學者的廣泛關注與探究[11-12]。
在以上背景下,對于對抗攻擊的相關研究大量涌現。對抗攻擊的關鍵在于對抗樣本攻擊[13-14],“對抗樣本(adversarial sample)”這一概念最早由Szegedy 等[15]提出,是一種能夠欺騙深度學習系統模型做出錯誤判斷的一類樣本,即在輸入端樣本數據中添加人類肉眼無法識別的細微擾動得到的新樣本,能使模型以極高的置信度做出錯誤的判斷。在此之后,對抗樣本產生方式的研究也層出不窮,Goodfellow等[16]證明了深度學習系統模型內部結構的高維線性是導致其能夠被對抗樣本攻擊的根本原因,并提出了一種基于損失函數訓練梯度的攻擊方法——快速梯度符號標記法(Fast Gradient Sign Method,FGSM)。Papernot 等[17]提出了基于功能函數Jacobian 矩陣生成前向導數的對抗樣本生成方法,其原理是取得所有顯著值最大的輸入特征來調整輸入樣本。此外,Carlini 等[18]提出了一種基于目標函數置信度攻擊——C&W Attacks 方法,這類對抗攻擊的特點是可以在不知道模型參數的條件下,依然能夠誤導模型做出錯誤判斷,適用于蒸餾模型。
上述研究者們提出的對抗樣本攻擊方法展示了對抗樣本攻擊的多樣性與高效性,從深度學習系統安全性與防御角度而言[19],目前對于對抗樣本檢測的全面性表現不足,具體地,現階段對于對抗樣本的檢測仍處于是否導致模型“誤判”的檢測階段,即一個對抗樣本數據若使系統模型產生錯誤的判斷,在測試時即可判定為對抗樣本,之后,通過對抗性訓練以提高模型的魯棒性[20]。而在面臨多種類對抗樣本與大量原始數據進入系統時,對于對抗樣本間的檢測缺乏多樣性,且檢測成本較高,效率不足。本文提出了一種對抗樣本差異性檢測方法,構建對抗樣本的差異性檢測系統模型,主體分為三個方面的差異性能檢測:1)置信度檢測包含對抗樣本的平均真實類置信度(Average Confidence of True Class,ACTC)檢測以及平均對抗類置信度(Average Confidence of Adversarial Class,ACAC)檢測;2)感知度檢測系統包含對抗樣本的平均Lp失真率(AverageLpDistortion,ALDp)檢測以及結構相似度(Structural SIMilarity,SSIM)檢測;3)抗干擾度檢測系統包含樣本噪聲容忍度(Noise Tolerance Estimation,NTE)檢測、抗高斯模糊干擾度(Robustness to Gaussian Blur,RGB)檢測以及抗圖像壓縮干擾度(Robustness to Image Compression,RIC)檢測。
本文在MNIST 和Cifar-10 數據集上進行了多種類對抗樣本差異性檢測的實證研究,結果表明,不同對抗攻擊下的對抗樣本在各項檢測結果上均呈現明顯差異,并且在兩類數據集上表現出差異的一致性,可以通過樣本的差異化特性更有效地檢測與定位對抗樣本攻擊。本文對抗樣本差異性檢測方法提升了模型對對抗樣本檢測的多樣性、全面性以及檢測效率。
對于“對抗樣本”這一概念的提出揭示了高置信度的深度學習模型依然具有極大的脆弱性,容易受到對抗攻擊的威脅,早在2014年Goodfellow 等[16]指明了深度神經網絡在高維空間中的線性特性已經足以產生對抗樣本攻擊的行為,揭示了對抗樣本存在的根本原因。
對抗樣本是指在原始數據集上通過人為添加經過處理且難以察覺的擾動所形成的一類樣本,此類樣本會導致系統模型以較高的置信度做出與原始樣本相悖的分類輸出。模型受到對抗樣本攻擊的過程可以通過以下步驟完成,如圖1所示:

圖1 對抗樣本攻擊示意圖Fig.1 Schematic diagram of adversarial sample attack
1)若有一個深度學習系統模型M和干凈樣本C(未添加任何噪聲),假定C輸入M后被系統模型正確分類,即M(C)=ytrue;
2)在原始樣本圖片C中加入擾動ε后得到樣本D;
3)將樣本D作為輸入通過同一個系統模型M,使得M(D) ≠ytrue,這樣的樣本D稱之為對抗樣本,此類操作稱之為對抗樣本攻擊。
1.2.1 FGSM
文獻[16]中提出的快速梯度符號標記法FGSM 是非定向類生成對抗樣本最高效的方法之一,核心是通過樣本損失的梯度來最大化樣本原始標簽概率的變化。
FGSM 通過最大限度地改變輸入樣本的分類最大值以改變分類標簽的概率,分類的最大值本身是由輸入樣本與真實類之間的梯度來表示,即通過將代價函數相對于輸入的梯度與輸入進行符號相加,得到的樣本只要使得模型分類出不同于真實類的對抗類,即為對抗樣本。FGSM 擬得到潛在對抗樣本的公式如式(1)、(2):

其中:x∈Rm是輸入圖像;y是輸入x對應的類標簽;θ是模型變量參數;η是擾動步長;ε是所選的超參數;J是系統模型訓練的損失函數。
1.2.2 C&W Attacks方法
C&W Attacks 是一組基于三個距離度量的定向類攻擊方法,在范數L0、L2和L∞上均有較為明顯的改善。其核心思想是解決一個目標函數的優化問題,使施加在正常樣本上的擾動(具有一定的距離度量)最小化,并使目標類標簽的概率最大化。即將對抗樣本視為一個變量,那么現在如果要使攻擊成功就要滿足兩個條件:
1)對抗樣本與對應的原始樣本的擾動越小越好;
2)此類對抗樣本應使得模型分類判斷錯誤,且錯的那一類的置信度區間越大越好。
C&W Attacks方法的核心目標函數如式(3):

式中:Δx表示距離度量通過Lp范數的實例化對象,例如歐氏距離等;x表示為目標對抗樣本圖像;t定義為目標類;c為超參數設定,實際是為對抗樣本設計一個規定函數,使每個像素的變化值不超過規定范圍。式(4)、(5)分別為得到的規定函數和最佳損失函數:

其中:Z(x)表示的是樣本圖像x通過模型但未經過softmax 層的輸出向量;t定義為目標類;式中的k為置信度范圍。該方法在不知道系統模型相關參數的條件下,仍能實現對抗攻擊的效果。
本文提出了一種針對對抗樣本差異性的檢測方法,目的是提升模型對多種類對抗樣本間檢測的多樣性、全面性以及檢測效率。
基于深度學習的對抗樣本差異性檢測包含3個階段。
階段1 進行深度學習系統模型的搭建,利用原始數據集樣本對模型進行訓練,擬達到較高的分類精度要求。本文實驗研究部分選擇了工業上廣泛應用的ResNet 殘差神經網絡模型,具體細節見第3.2節。
階段2 利用多種對抗樣本生成方式攻擊高精度的深度學習模型得到對抗樣本組,并對得到的對抗樣本數據集進行各標簽下的整理,分析其對抗性以及視覺效果,具體操作細節見3.3節實證研究實驗部分。
階段3 構建樣本差異性檢測系統,該系統包含置信度檢測、感知度檢測及抗干擾度檢測三個子檢測系統,如圖2 所示,共7 項檢測方法,將獲取到的對抗樣本組輸入檢測系統,統計獲取各項性能檢測結果,對檢測數據進行樣本間的差異化特性分析。具體檢測方法見2.2節。

圖2 樣本差異性檢測系統示意圖Fig.2 Schematic diagram of sample difference detection system
2.2.1 置信度
置信度檢測是本文對對抗樣本檢測的重要方法之一,也是對抗樣本間差異性檢測最直接的方法。主要方法分為以下兩方面的檢測:
1)對抗類的平均置信度(ACAC),其定義為系統模型受對抗樣本攻擊時,在檢測中是否依然會將此樣本視作對抗類樣本的信任程度。具體如式(6)所示:

其中:n表示攻擊誤分類的對抗樣本數;Xa為對抗類樣本;P表示為對抗類的概率函數。
2)真實類平均置信度(ACTC),其定義為模型在對樣本的檢測中將樣本按正確類分類的置信程度,該檢測方法也可用來進一步反映對抗樣本攻擊準確率缺陷。具體如式(7)所示:

其中:n表示對抗樣本數;Xa為對抗類樣本;y定義為正確類標簽;P表示為真實類的概率函數。
2.2.2 感知度
本文進一步將感知度檢測作為對抗樣本差異性檢測的重要方法,樣本間感知度的各項指標差異能更有效地反映出對抗樣本在檢測時的敏感程度。利用計算機視覺的相關技術將主要方法分為以下兩項:
1)平均Lp失真率(AverageLpDistortion)。
對于大多數對深度學習系統模型的對抗樣本攻擊都采用Lp范數距離(p=0,2,∞):L0表示微擾后改變的像素個數;L2計算原例與擾動例之間的歐氏距離;L∞表示對抗樣本各維度的最大變化量。本文實驗將平均Lp失真率定義為對抗攻擊樣本圖像像素上的平均歸一化Lp失真,如式(8)所示:

其中:Xa是通過像素擾動后的樣本,X為未經擾動的原始樣本;參數p=0,2,∞。本文在下一節實證研究方面選取L2歐氏距離作為檢測參數,具體細節見3.3節。
2)結構相似度(SSIM)。
本文將SSIM[21]作為一種量化樣本間圖像相似度的檢測量化方法,是對于平均Lp失真檢測更直接的反映,將ASS定義為原始樣本與對抗樣本間SSIM:

式中:Xa通過擾動后的對抗樣本,X為未經擾動的原始樣本。本文實驗部分用SSIM 的量化值來比較樣本間感知度的差異性結果。
2.2.3 抗干擾度
對于樣本檢測中的抗干擾度檢測,本文引入了噪聲容忍度、高斯模糊抗干擾度以及圖像壓縮抗干擾度三個方面的檢測方法,旨在對對抗樣本檢測加入一定量噪聲或人為圖像變換后是否依然能被檢測出對抗性,其結果的差異特性表現是對對抗樣本間差異性檢測的主要方面之一。
1)噪聲容忍度。
噪聲容忍度可定義為:在樣本檢測時以保證對抗樣本攻擊深度模型誤分類不變的情況下,衡量樣本對單一來源噪聲的容忍量,如式(10)所示:

式中:P為分類概率函數;Xa為對抗類樣本;j表示除真實類之外的其他類。通過如式(10),噪聲容忍程度的核心是計算對抗類概率與其他類的最大概率之間的差距。
2)高斯模糊抗干擾度。
高斯模糊(Gaussian blur)是計算機視覺算法中廣泛使用的一種預處理手段,在深度學習中一般用于圖像樣本的預處理階段。本文預先對對抗樣本間進行高斯模糊處理,通過樣本對高斯模糊抗干擾度的測量來反映對抗樣本間差異性。方法如式(11)所示:

其中:y為真實類標簽;GB定義為高斯模糊函數;Xa為對抗樣本。
3)圖像壓縮抗干擾度。
圖像壓縮(image compression)是深度學習中對于圖像樣本預處理的手段之一。本文對樣本進行圖像壓縮變換后進行檢測,統計測量值以反映對抗樣本對于圖像壓縮的抗干擾程度,如式(12)所示:

其中:y為真實類標簽;IC定義為圖像壓縮函數;Xa為對抗樣本。
為了驗證本方法的有效性,本文給出了如下三個方面的問題來指導研究實驗的設定:
1)對抗樣本的差異性檢測方法是否能夠在多種類對抗樣本間的各項檢測中呈現出較為明顯的差異化特性;
2)在不同的數據集上,本文方法對樣本的差異化特性檢測結果是否具備一致性;
3)相比以往的對抗樣本檢測,是否可以通過樣本檢測的差異化特性對其進行對抗攻擊類別的判斷。
本文在實驗研究中使用了兩部分的數據集數據,目的是針對研究實驗的問題,加深實驗的嚴謹性。
MNIST 數據集由美國國家標準與技術研究所開發,樣本圖片以字節形式由250 個人手寫的0~9 的手寫數字組成。MNIST 數據集作為深度學習研究中最直接的數據集,其數據集圖片均以黑白成像(像素為28×28,灰度為0~255 范圍內),且構造相對容易,0~9標簽分類清晰。該數據集由4個部分組成:①47 MB 的60 000 張訓練圖片;②60 KB 的0~9 訓練集圖片標簽;③7.8 MB 的10 000張測試集圖片;④10 KB 的測試集圖片標簽。圖3為MNIST數據集的部分樣本。

圖3 MNIST數據集示例Fig.3 Examples of MNIST dataset
Cifar-10 數據集是本文針對研究問題所用的一類像素大小為32×32的彩色圖片數據集。共有60 000張10個標簽類的彩色圖片,每個類6 000 張,其中50 000 張32×32 的彩色圖片為構成5個批次的訓練數據集,剩下的10 000張為32×32的彩色圖片測試數據集,圖像數據以numpy 數組的形式保存,每1 024個數字代表顏色通道。圖4為Cifar-10數據集部分樣本。

圖4 Cifar-10數據集示例Fig.4 Examples of Cifar-10 dataset
本文基于開源深度學習框架Tensorflow1.4對實驗研究所需的深度模型進行了構建以及不同迭代周期的訓練。
3.2.1 ResNet-50殘差神經網絡模型
實驗所用的深度模型為工業上常見的殘差網絡模型[22],擬解決在不斷增加神經網絡層數深度時出現的準確率退化問題。其結構特點是引入了殘差網絡單元,如圖5 所示,假定某段神經網絡的輸入是x,期望輸出是H(x),現將輸入x傳到輸出作為初始結果,那么此時需要學習的目標就是F(x)=H(x)-x,殘差即為H(x)-x。輸入和輸出的一個線性加疊并不會給網絡增加額外的參數,同時卻可以大大增加模型的訓練效率、提升訓練精度。本實驗構建殘差網絡的目的是提升不同訓練周期下模型的分類精度以及收斂速度,貼近工業化生產需求。

圖5 ResNet殘差單元Fig.5 ResNet residual unit
3.2.2 模型訓練
本文對MNIST 數據集與Cifar-10 數據集上進行了不同訓練周期下6 組ResNet-50 模型的訓練,保存模型ckpt 文件作為對抗樣本攻擊以及差異性檢測實驗的實驗模型。
首先在MNIST 數據集上依次進行10 epoch、25 epoch 與50 epoch 周期的訓練,調整模型訓練參數及批標準化參數,保證符合模型訓練精度的要求,訓練完畢后的三組模型分類準確率對應依次為98.86%、99.06%與99.36%;之后在Cifar-10數據集上同樣設置了以上的三組模型訓練,達到符合實驗要求的模型分類準確率依次為95.15%、97.16與98.91%;最后,保存訓練好的模型文件,不同數據集下,相同訓練周期的模型為對抗攻擊模型組。
利用快速梯度符號標記法FGSM 與C&W Attacks 法作為對抗攻擊生成對抗樣本的方法(具體方法參考1.2 節)分別在MNIST 和Cifar-10 數據集上對3.2.2 節得到的訓練好的深度模型進行對抗攻擊,生成對抗樣本。
MNIST數據集上,FGSM攻擊訓練完畢ResNet-50模型,在10 epoch、25 epoch 與50 epoch 周期下生成的對抗樣本數量(所有目標分類標簽下共計的數量)依次為3 940、6 108、6 588;而C&W 攻擊深度模型生成的對抗樣本數量依次為4 564、6 947、7 012。
Cifar-10 數據集上,FGSM 攻擊訓練完畢ResNet-50 模型,在10 epoch、25 epoch 與50 epoch 周期下生成的對抗樣本數量(所有目標分類標簽下共計的數量)依次為4 408、6 545、7 369;而C&W 攻擊的對抗樣本數量依次為4 018、6 556、6 882。
實驗在所有得到的對抗樣本組中進行了各分類標簽下的樣本均衡[23]操作,目的是為在進一步的樣本差異性檢測實驗中,不會因為各標簽下樣本數量權重的差異而影響實驗檢測結果。此外,對于生成得到的對抗樣本進行了各分類標簽下肉眼視覺的敏感度對比,確保在樣本圖像不失真的情況下仍具備強對抗性,利用MNIST 對抗樣本中一組數字“0”的樣本為例,圖6、7 分別代表FGSM 攻擊以及C&W 攻擊得到的數字“0”的對抗樣本。

圖6 FGSM攻擊得到的數字“0”對抗樣本Fig.6 “0”adversarial samples obtained by FGSM attack
由圖6、7 可知,對于上述兩類對抗攻擊分別生成的數字“0”樣本,從肉眼視覺角度上觀察,并未出現圖像失真、無法辨析的情況,具體地,圖6、7 中第一行樣本為原始樣本,每張圖片的參數分別代表原始標簽類別t、對抗類別a 以及深度模型誤分類的類別概率標簽p,除第一行外的數字圖片均為實驗生成的對抗樣本(不同對抗類別標簽)。由此可見,本文實驗得到的對抗樣本圖像在不發生失真且肉眼可清楚辨析的情況下仍具備對抗性。
為了探究實驗所提出的問題,本文運用第2 章所提出的對抗樣本間的差異性檢測系統方法對實驗所獲取的幾組對抗樣本進行檢測,這也是該實證研究實驗的核心關鍵。

圖7 C&W攻擊得到的數字“0”對抗樣本Fig.7 “0”adversarial samples obtained by C&W attack
本實驗基于深度學習框架Tensorflow1.4 環境下利用Python3 代碼實現了2.1 節設計的對抗樣本差異性檢測系統。整體的檢測系統包含三個子系統,分別是:樣本置信度檢測系統、樣本感知度檢測系統以及樣本抗干擾度檢測系統,一共7項對抗樣本的檢測指標,其中:置信度系統檢測包含樣本對抗類的平均置信度(ACAC)以及對真實類的平均置信度(ACTC);感知度檢測系統包含對抗樣本平均Lp失真(ALDp)檢測以及平均SSIM 檢測;此外,抗干擾度檢測系統包含樣本的噪聲容忍度(NTE)檢測、抗高斯干擾(RGB)檢測以及圖像壓縮抗干擾(RIC)檢測,各檢測方法詳見本文2.2節。相較于以往的檢測方法(誤分類率檢測),本方法將對抗樣本的差異性檢測細化并歸類研究,充分增加了檢測的全面性。該部分實驗將3.3節得到的各組對抗樣本的檢測分為以下步驟:
1)Cifar-10數據集對抗樣本差異性檢測。
首先預加載三組對抗樣本生成時的ResNet-50 模型(10 epoch、25 epoch、50 epoch 訓練周期)作為樣本差異性檢測的深度系統模型,將3.3 節通過對抗攻擊(FGSM 攻擊與C&W攻擊)生成的不同周期下的對抗樣本組進行劃分,如G1 組為10 epoch 周期下FGSM 對抗樣本4 408 張與C&W 對抗樣本4 018 張,G2 組為25 epoch 下的6 545 張與6 556 張樣本,G3 組則為50 epoch下的7 369張與6 882張樣本;然后將G1、G2、G3作為輸入至差異性檢測系統,依次進行上述檢測系統中各項指標檢測;最后對各組對抗樣本間的檢測結果進行規范化處理,比對并分析其差異化特性。
2)MNIST數據集對抗樣本差異性檢測。
對于MNIST 0~9手寫數字圖片的對抗樣本間的差異性檢測同樣分為模型加載、對抗樣本組分別作為輸入至系統進行檢測以及差異性分析三個階段的工作。根據本文研究實驗開始所提出的問題,通過對不同數據集的對抗樣本進行檢測,其目的是驗證對抗樣本間差異化特性的一致性。
針對研究實驗的問題,本文對MNIST數據集以及Cifar-10數據集上對抗樣本的差異性檢測實驗結果進行了研究分析,將各檢測系統對應的指標結果以規范化的形式進行數據對比,分析完成本文實驗的研究結論。
實驗在MNIST 與Cifar-10 數據集下的各組對抗樣本間進行了樣本置信度的差異性檢測,結果如表1所示。從表1可以發現,屬于C&W attack 方法以及FGSM 攻擊方法所生成的對抗樣本,在對抗類置信度ACAC與真實類置信度ACTC檢測上差異性明顯。對于ACAC 來說,其檢測數值越高,表明樣本在該指標檢測性能越好,ACTC 則反之。不難看出,無論是MNIST 手寫數字集或是Cifar-10 彩色圖片數據集,對于不同ResNet-50 模型訓練周期epoch 下的檢測,FGSM 對抗樣本在ACAC 與ACTC 上的數值明顯優于C&W 對抗樣本,例如表中ACAC 的檢測,FGSM 樣本的實驗結果在87.20%~97.29%,而C&W 樣本僅為50%上下;同時由表中ACTC 的數值可知,FGSM對抗樣本的結果是C&W對抗樣本的4~32倍。
進一步地,對表1 中的所有對抗樣本組進行感知度系統的各項檢測,實驗包含平均Lp失真率檢測以及平均SSIM 檢測,表2所示為Cifar-10和MNIST 數據集下對于各組對抗樣本間的感知度差異性檢測實驗結果。從表2 可以發現,C&W 對抗樣本與FGSM 對抗樣本在平均L2失真率(實驗選取p=2 的歐氏距離作為檢測平均Lp失真率的像素灰度間的距離度量)以及平均SSIM 檢測上同樣差異性較為明顯。對于平均L2失真率而言,其數據越小,表明樣本越不容易失真;而SSIM 結構相似的數據越高,表明對抗樣本越不容易被察覺。但這里的樣本感知度差異性檢測結果不同于置信度檢測結果,無論是Cifar-10 數據集或是MNIST 數據集,對于不同ResNet-50 模型訓練周期epoch 下的檢測,C&W 對抗樣本在平均L2失真率以及SSIM 上反而優于FGSM 對抗樣本,平均L2失真率的檢測結果中,FGSM 對抗樣本與C&W 對抗樣本的失真率數值差距較大;同時,SSIM 檢測中,C&W 對抗樣本在兩類數據集上的檢測結果均達到至95%~100%的范圍,幾乎無失真。

表1 對抗樣本置信度差異性檢測結果Tab.1 Difference detection results in confidence of adversarial samples

表2 Cifar-10和MNIST數據集上對抗樣本感知度差異性檢測結果Tab.2 Difference detection results in perception of adversarial samples on Cifar-10 and MNIST datasets
同樣地,本文實驗最后一環是將各組對抗樣本輸入至抗干擾度檢測系統中,包含樣本的噪聲容忍度檢測NTE、抗高斯干擾度檢測RGB以及抗圖像壓縮干擾度檢測RIC三項差異性檢測實驗。表3 為Cifar-10 和MNIST 數據集下對于各組對抗樣本間的抗干擾度差異性檢測實驗結果,其中,在樣本抗高斯干擾度檢測實驗中,對每組不同數據集的對抗樣本均加入統一規范化處理的高斯噪聲數據,經過大量實驗,本文選取了一類正則高斯噪聲作為樣本圖像的預處理,當中的參數μ=0,方差σ2=0.25,這樣加入的高斯平滑噪聲不會使檢測樣本發生較大失真現象,并接近于此臨界狀態,提升了該項指標檢測的充分性。在樣本抗圖像壓縮干擾度檢測中,實驗采用了工業化常見的預處理標準,在保證不失真的情況下,對圖像進行90%的壓縮預處理。

表3 Cifar-10和MNIST數據集上對抗樣本抗干擾度差異性檢測結果Tab.3 Difference detection results in anti-interference degree of adversarial samples on Cifar-10 and MNIST datasets
從表3 可以發現,FGSM 對抗樣本與C&W 對抗樣本在Cifar-10 和MNIST 數據集上的檢測,其噪聲容忍度、抗高斯模糊程度以及抗圖像壓縮程度檢測上具備較為明顯的特性差異化,對于噪聲容忍度NTE 而言,規范化處理后的實驗數據越高,表明樣本的穩定性越好;同樣地,抗高斯模糊與抗圖像壓縮容忍度實驗數據越高,代表在對抗樣本檢測時穩定性越強,更具備一定程度上的抗干擾攻擊能力。而通過檢測數據橫向對比發現,FGSM 對抗樣本對于噪聲的容忍度要高于C&W 對抗樣本,其差異在MNIST 數據集上更為明顯;同時對于抗高斯模糊以及抗圖像壓縮的檢測結果,FGSM 樣本也相比C&W樣本具有明顯的優勢。例如,在Cifar-10數據集上的抗高斯模糊檢測中,對于不同模型訓練周期下生成的對抗樣本組(10 epoch、25 epoch、50 epoch)的樣本間檢測,FGSM 樣本檢測標準化數據依次為76.32%、88.90%及89.04%,而C&W 樣本僅為52.39%、49.12%及39.86%。
結合對以上所有樣本差異性檢測的標準化結果進行分析,并對應研究實驗開始所提出的方法有效性問題,本文同樣給出了以下三個方面的分析研究結論:
1)通過對所有對抗樣本組間進行的包含置信度檢測、感知度檢測以及抗干擾度檢測發現:屬于不同方式的對抗攻擊方法攻擊深度模型產生的對抗樣本,在樣本檢測的實驗中,各項指標均存在較為明顯的差異化特性;同時,從各項標準化檢測結果差異程度上分析,對于同樣具備強對抗性的對抗樣本組,應從多元化的角度對樣本進行檢測。
2)在本文的對抗樣本差異性檢測實證研究實驗中,分別對Cifar-10 彩色圖片數據集以及MNIST 手寫數字數據集生成的對抗樣本組進行了各項指標的差異性檢測,通過分析標準化實驗結果可知,不論是在Cifar-10 數據集還是MNIST 數據集,其各項指標檢測結果均存在明顯的特性差異,且該特性差異在兩類數據集上具備一致性。
3)相較于以往的對抗樣本檢測(誤分類率),本文通過以上研究實驗的標準化結果分析得知,無論Cifar-10數據集對抗樣本組或是MNIST 數據集對抗樣本組,其各項指標的差異性結果在C&W 對抗樣本以及FGSM 對抗樣本間存在性能上的優劣:FGSM 對抗樣本在置信度與抗干擾度的檢測結果要優于C&W 對抗樣本;而C&W 對抗樣本在感知度的檢測卻遠優于FGSM 樣本,不可感知程度更強。通過樣本檢測結果的多樣性分析,可以利用各項檢測指標存在的差異判斷對抗攻擊的方式,指導模型針對性的防御。
本文提出了面向深度學習的對抗樣本差異性檢測方法,并在Cifar-10 彩色圖片數據集以及MNIST 手寫數字數據集上進行了大量的實證研究實驗,同時對實驗結果進行標準化分析。該方法提升了對抗樣本檢測的全面性,不再是僅針對誤分類率來檢測對抗樣本間的差異,本次研究揭示了對抗樣本間存在包含置信度、感知度以及抗干擾度的各項性能的差異,也驗證了在不同規模的數據集上特性差異的一致性。在未來的工作中,如何約減對抗攻擊樣本間性能的差異,生成更具攻擊性的對抗樣本以及提升模型的防御能力依然是下一步繼續研究的方向。
本文屬于深度學習系統模型攻防檢測中對抗樣本攻擊檢測初步研究階段,因此還存在一定程度的提升空間。本文最后在對抗樣本差異性檢測研究的基礎上進行了進一步的討論,本文方法是針對對抗樣本間的性能差異展開的研究實驗,適用于定向攻擊樣本以及非定向攻擊樣本、白盒攻擊以及黑盒攻擊。下一步的計劃依然會從對抗樣本攻擊的角度出發,通過用模型變異以及圖像對抗樣本變異的手段進一步地嘗試縮小多類對抗樣本間的各項檢測性能差異,生成更具攻擊性的對抗樣本。