

















摘要深度神經(jīng)網(wǎng)絡(luò)(DNNs)對經(jīng)過特殊設(shè)計的對抗樣本存在脆弱性,容易受到欺騙.目前的檢測技術(shù)雖能識別一些惡意輸入,但在對抗復(fù)雜攻擊手段時,其保護(hù)能力仍顯不足.本文基于無標(biāo)記數(shù)據(jù)提出一種新型無監(jiān)督對抗樣本檢測方法,其核心思想是通過特征的構(gòu)建與融合,將對抗樣本檢測問題轉(zhuǎn)化為異常檢測問題,為此設(shè)計了圖像變換、神經(jīng)網(wǎng)絡(luò)分類器、熱力圖繪制、距離計算以及異常檢測器5個核心部分.先對原始圖像進(jìn)行變換處理,將變換前后的圖像分別輸入神經(jīng)網(wǎng)絡(luò)分類器,提取預(yù)測概率數(shù)組與卷積層特征繪制熱力圖,并將檢測器從單純關(guān)注模型輸出層拓展到輸入層特征,增強(qiáng)檢測器對對抗樣本和正常樣本差異的建模和度量能力,進(jìn)而計算變換前后圖像的概率數(shù)組KL距離與熱力圖關(guān)注點(diǎn)變化距離,將距離特征輸入異常檢測器判斷是否為對抗樣本.在大尺寸高質(zhì)量圖像數(shù)據(jù)集 ImageNet上進(jìn)行實驗,本檢測器面向5種不同類型攻擊取得的平均AUC值為0.77,展現(xiàn)出良好的檢測性能.與其他前沿的無監(jiān)督對抗樣本檢測器相比,本檢測器在保持相近的誤報率的情況下TPR大幅領(lǐng)先,檢測能力具有明顯優(yōu)勢.
關(guān)鍵詞對抗樣本檢測;無監(jiān)督學(xué)習(xí);對抗攻擊;深度神經(jīng)網(wǎng)絡(luò);圖像變換
中圖分類號TP391.4
文獻(xiàn)標(biāo)志碼A
0 引言
深度學(xué)習(xí)作為當(dāng)今科技領(lǐng)域內(nèi)最具活力的研究分支之一,已在眾多領(lǐng)域取得了突破性進(jìn)展,特別是在圖像識別、目標(biāo)檢測、文本分析和推薦系統(tǒng)等方面的成就尤為顯著.然而,隨著這些技術(shù)的廣泛部署,相應(yīng)的安全隱患也逐漸顯現(xiàn).2015年,Goodfellow等 [1]首次揭示了對抗樣本的存在,即通過向圖像中添加細(xì)微的、人眼難以察覺的擾動,可以使得深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)誤分類,且常常以高置信度給出錯誤預(yù)測.這一發(fā)現(xiàn)凸顯了深度學(xué)習(xí)模型在抵御惡意攻擊方面的脆弱性,從而引發(fā)人們對用戶安全和隱私保護(hù)的嚴(yán)重關(guān)切.
在基于圖像的對抗樣本檢測領(lǐng)域,研究人員已經(jīng)提出很多檢測方法.Tian 等[2]發(fā)現(xiàn)對抗樣本通常對某些圖像變換操作很敏感,比如旋轉(zhuǎn)和移動,相比之下正常圖像一般不受這種操作的影響.基于這一現(xiàn)象,他們利用正常樣本變換后的Softmax 分布和對抗樣本變換后的Softmax分布訓(xùn)練一個二分類模型來檢測對抗樣本.該方法對某些攻擊類型如CW攻擊敏感,但對其他不同的攻擊方法(如BIM、PGD)效果不佳.Agarwal 等[3]提出一種利用圖像離散余弦變換和離散小波變換,通過計算多尺度和多方向梯度來編碼邊緣信息的檢測方法,該方法對高級的對抗攻擊,尤其是規(guī)避變換檢測的攻擊效果不明顯.Xu等[4]提出一種特征擠壓(Feature Squeezing,F(xiàn)S)方法,通過減少輸入數(shù)據(jù)的顏色位深度和空間平滑濾波,來減少對抗樣本中細(xì)微擾動的效果,從而降低其對模型的影響,但對高度精細(xì)的對抗攻擊可能仍然不夠魯棒.上述方法存在對產(chǎn)生對抗樣本的攻擊類型檢測不足和性能有待提升的問題.
為了對多種攻擊類型產(chǎn)生的對抗樣本進(jìn)行檢測,更有效地幫助圖像分類模型防御對抗樣本的攻擊,本文在傳統(tǒng)基于圖像變換的對抗樣本檢測技術(shù)基礎(chǔ)上,設(shè)計了一種實用的無監(jiān)督對抗樣本檢測器.無監(jiān)督對抗樣本檢測器在構(gòu)建過程中不依賴于對抗樣本的特征,因此其泛化性具有潛在優(yōu)勢.本文的主要工作如下:
1)提出一種基于圖像特征融合的無監(jiān)督對抗樣本檢測方法,其包含圖像變換、神經(jīng)網(wǎng)絡(luò)分類器、熱力圖繪制、距離計算以及異常檢測器5個互相依賴的模塊,具備良好的實用性與可擴(kuò)展性.具體而言,在圖像變換模塊,采用9種具有明確意義的圖像變換策略,如旋轉(zhuǎn)、錯切、縮放等變換,放大了潛在的對抗擾動與原始圖像間的差異,為后續(xù)特征分析提供了具有代表性的新視角.分別提取原始圖像和經(jīng)過變換的圖像在分類器輸出層的差異,一方面利用KL散度等方法度量Softmax概率輸出的分布差異,另一方面引入Grad-CAM[5]技術(shù),通過可視化模型關(guān)注區(qū)域并量化熱力圖的偏移量,測量空間注意力的差異性.在異常判別模塊,通過融合互補(bǔ)的概率分布差異特征和空間注意力差異特征,并采用多種高效的無監(jiān)督異常檢測算法進(jìn)行對抗樣本檢測,包括孤立森林[6]、One-Class SVM[7]、LOF[8]等.在這些模塊的有機(jī)結(jié)合下,以較低的樣本復(fù)雜度與計算復(fù)雜度實現(xiàn)了高性能的對抗樣本檢測,為提升深度學(xué)習(xí)模型的魯棒性提供了新的解決思路.
2)采用大型、高分辨率的ImageNet數(shù)據(jù)集進(jìn)行測試,其中包含高清晰度的彩色圖像,更符合真實世界中常見的圖像規(guī)格,從而增強(qiáng)了對抗樣本檢測器在現(xiàn)實應(yīng)用中的適用性和實用價值.
1 相關(guān)工作
1.1 對抗攻擊
1.1.1 基本介紹
對抗攻擊(Adversarial Attacks)是指通過對輸入數(shù)據(jù)進(jìn)行微小的、有針對性的修改,從而欺騙機(jī)器學(xué)習(xí)模型的行為.這些修改通常不會改變?nèi)搜塾^察的圖像或樣本的本質(zhì),但足以使模型產(chǎn)生錯誤的預(yù)測.對抗攻擊可能會對機(jī)器學(xué)習(xí)模型的安全性和可信度造成威脅,尤其是在涉及安全關(guān)鍵領(lǐng)域,如圖像識別、人臉識別、自動駕駛等.對抗攻擊[9]的基本流程如圖1所示.
1.1.2 常見的對抗攻擊方法
Goodfellow等[1]提出的FGSM(Fast Gradient Sign Method)攻擊通過模型梯度生成對抗樣本,擾動量由超參數(shù)ε控制.BIM攻擊[10]是FGSM的迭代版,它通過多步迭代微擾輸入樣本,逐步達(dá)到攻擊目的,每步都重新計算梯度.CW攻擊[11]是由Carlini和Wagner提出的一種針對機(jī)器學(xué)習(xí)模型的對抗樣本生成方法,旨在最小化目標(biāo)函數(shù)生成最佳擾動,主要有兩種方法:基于L0的CW0和更常用、基于L2的CW2,后者因平滑性更適合實際優(yōu)化.
基于解析幾何原理,Moosavi-Dezfooli等[12]提出了DeepFool攻擊方法,通過計算最小擾動改變樣本標(biāo)簽,通過迭代將樣本推向決策邊界,直至越界,其L2范數(shù)衡量的擾動量小于FGSM.PGD攻擊[13]采用與BIM類似的迭代方法,通過多次迭代修改輸入數(shù)據(jù),每次迭代將擾動限制在規(guī)定范圍內(nèi),從而生成能夠誤導(dǎo)模型的輸入樣本.
1.2 對抗樣本檢測
對抗樣本檢測技術(shù)旨在檢測圖像中的對抗樣本,即經(jīng)過有意設(shè)計的對深度學(xué)習(xí)模型具有誤導(dǎo)性的圖像輸入.它在提高模型魯棒性、增強(qiáng)模型安全性、降低數(shù)據(jù)不確定性、提高模型可解釋性以及輔助對抗樣本生成等方面具有重要的優(yōu)勢,對深度學(xué)習(xí)模型的應(yīng)用和研究具有重要意義.對抗樣本檢測技術(shù)一般被劃分為以下4類:基于統(tǒng)計方法的對抗樣本檢測技術(shù)、基于輔助模型的對抗樣本檢測技術(shù)、基于神經(jīng)網(wǎng)絡(luò)特性的對抗樣本檢測技術(shù)、基于降噪處理的對抗樣本檢測技術(shù).
1)基于統(tǒng)計方法的對抗樣本檢測技術(shù)的核心思想是利用對抗樣本與原始樣本的不同數(shù)字特征,通過檢測輸入是否符合正常樣本的分布,從而判斷輸入是否具有對抗性.
2)基于輔助模型的對抗樣本檢測技術(shù)核心思想是通過提取樣本的特征來訓(xùn)練一個二分類模型用于檢測正常樣本與對抗樣本.
3)基于神經(jīng)網(wǎng)絡(luò)特性的對抗樣本檢測技術(shù)的核心思想是通過觀察正常樣本與對抗樣本在神經(jīng)網(wǎng)絡(luò)中的表現(xiàn)或者行為,一般體現(xiàn)在利用神經(jīng)網(wǎng)絡(luò)內(nèi)部神經(jīng)元的激活值或者輸出值的特性來構(gòu)建檢測器檢測對抗樣本.
4)基于降噪處理的對抗樣本檢測技術(shù)主要思路是通過對輸入樣本進(jìn)行類似降噪的處理,探索降噪后正常樣本與對抗樣本之間的差異,因為對抗樣本本質(zhì)上可視為一種添加特殊噪聲的正常樣本,最后通過閾值或預(yù)測不一致的形式實現(xiàn)檢測.
2 無監(jiān)督的對抗樣本檢測方法
本文提出一種基于圖像特征融合的對抗樣本檢測框架,包含圖像變換、神經(jīng)網(wǎng)絡(luò)分類器、熱力圖繪制、距離計算以及異常檢測器5個互相依賴的模塊,充分利用了對抗樣本在多個圖像視角和特征空間呈現(xiàn)出的異常性質(zhì),具備良好的實用性與可擴(kuò)展性,整體架構(gòu)如圖2所示.首先對原始圖像x進(jìn)行變換處理,得到變換后的圖像x′.然后將x與x′分別輸入神經(jīng)網(wǎng)絡(luò)分類器,利用神經(jīng)網(wǎng)絡(luò)分類器提取x與x′的預(yù)測概率數(shù)組與卷積層特征繪制熱力圖.接下來計算圖像x和x′的概率數(shù)組的KL距離D1與熱力圖關(guān)注點(diǎn)變化距離H1,將距離特征(D1,H1)輸入異常檢測器,判斷樣本是否是對抗樣本.
2.1 圖像變換
數(shù)據(jù)處理主要是對輸入樣本的變換,包括加性噪聲、平滑濾波、位深度減少、去高頻、平移、翻轉(zhuǎn)、旋轉(zhuǎn)、錯切、縮放等方法.為確定最適合本研究的圖像變換技術(shù),本文對上述多種方法進(jìn)行了測試,最終選取效果最佳的一種作為主要的變換方法.常見的9種圖像變換的示例如圖3所示.
2.2 神經(jīng)網(wǎng)絡(luò)分類器
本文主要使用神經(jīng)網(wǎng)絡(luò)架構(gòu)VGG19[14]作為分類器.VGG19是一個經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在圖像分類任務(wù)上表現(xiàn)優(yōu)異.它的結(jié)構(gòu)簡單明了,包含連續(xù)的卷積層和池化層,最后接全連接層和Softmax輸出層.這種規(guī)整的結(jié)構(gòu)有助于在特征圖上應(yīng)用Grad-CAM算法,生成清晰的熱力圖.相比之下,一些更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)(如ResNet的殘差連接、Inception的并行模塊等)可能會干擾Grad-CAM的梯度回傳,影響熱力圖的質(zhì)量.
VGG19擁有較大的感受野和豐富的特征表示能力.它使用了一系列3×3的小卷積核,通過不斷加深網(wǎng)絡(luò)來擴(kuò)大感受野,能夠捕捉圖像中的局部和全局特征.這種多尺度的特征表示有助于在不同抽象層次上分析對抗樣本的擾動效應(yīng).相比之下,一些淺層網(wǎng)絡(luò)(如AlexNet)的特征表示能力相對有限,可能難以準(zhǔn)確刻畫對抗擾動的細(xì)微變化.
VGG19在圖像分類領(lǐng)域得到了廣泛應(yīng)用和驗證,預(yù)訓(xùn)練模型容易獲取,可以方便地在不同數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí),快速建立起魯棒的分類器.相比之下,一些專用的分類模型(如針對特定域的網(wǎng)絡(luò))可能缺乏可靠的預(yù)訓(xùn)練權(quán)重,需要從頭訓(xùn)練,影響實驗效率.
2.3 繪制熱力圖
為了洞察神經(jīng)網(wǎng)絡(luò)決策過程,本文使用Grad-CAM[5](Gradient-weighted Class Activation Mapping)繪制熱力圖.Grad-CAM是一種可解釋性圖像分類方法,用于可視化深度卷積神經(jīng)網(wǎng)絡(luò)中的注意力區(qū)域.
在執(zhí)行圖像分類任務(wù)時,卷積神經(jīng)網(wǎng)絡(luò)通過識別和學(xué)習(xí)圖像特征來進(jìn)行分類判斷.Grad-CAM利用網(wǎng)絡(luò)的梯度信息來確定每個類別在卷積層特征圖中的重要性,進(jìn)而生成針對特定類別的熱力圖.這些熱力圖突出顯示了對分類決策至關(guān)重要的圖像區(qū)域.具體來說,Grad-CAM通過分析網(wǎng)絡(luò)最后一個卷積層的特征圖和相應(yīng)的輸出類別梯度,計算出對于特定類別預(yù)測貢獻(xiàn)最大的區(qū)域.然后,它將這些區(qū)域映射回輸入圖像,形成一張表征模型視覺注意力的熱力圖.Grad-CAM的可視化流程如圖4所示.
輸入圖像先被送入一個預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行前向傳播,以獲得網(wǎng)絡(luò)最后一個卷積層的特征圖和各個可能類別的預(yù)測概率.隨后,針對網(wǎng)絡(luò)預(yù)測的類別(目標(biāo)類別),將該類別的梯度設(shè)為1,而其他類別的梯度設(shè)為0.這樣做可以通過反向傳播計算得出目標(biāo)類別相對于最后一個卷積層輸出的特征圖的梯度,揭示出每個位置對于識別目標(biāo)類別的重要性.接著,對梯度值執(zhí)行全局平均池化操作,從而為每個特征通道生成一個權(quán)重值.這些權(quán)重揭示了每個通道在識別目標(biāo)類別時的重要性.每個特征通道的權(quán)重與對應(yīng)的特征圖相乘,并對所有通道的結(jié)果進(jìn)行逐通道求和,以生成代表類別激活的熱力圖.最后,該類別激活熱力圖會被疊加到原始輸入圖像上,創(chuàng)建出Grad-CAM的可視化結(jié)果,按照jet方式對熱力圖進(jìn)行顏色映射.數(shù)值越大的區(qū)域,對應(yīng)的顏色越亮,對于目標(biāo)類別的決策貢獻(xiàn)也越大.通過使用Grad-CAM,可以直觀地了解到,在進(jìn)行圖像分類時哪些區(qū)域是網(wǎng)絡(luò)關(guān)注的焦點(diǎn).圖5展示了正常樣本(良性樣本)與對應(yīng)的對抗樣本在經(jīng)歷變換前后的熱力圖對比.通過對比可以明顯看出,對抗樣本在變換后的熱力圖關(guān)注區(qū)域與良性樣本相比發(fā)生了顯著改變,表明對抗樣本通過圖像變換顯著改變了網(wǎng)絡(luò)關(guān)注的特征.
2.4 距離計算
2.4.1 概率數(shù)組距離計算
本文通過應(yīng)用KL散度來量化這種差異.KL散度是一種用于衡量兩個概率分布之間差異的指標(biāo),兩個分布之間的差異越顯著,KL散度的值越大,計算式為
2.4.2 熱力圖關(guān)注點(diǎn)距離計算
在繪制出的熱力圖中數(shù)值越大、顏色越亮的區(qū)域代表對分類結(jié)果的貢獻(xiàn)越大.本文選取原始值大于0.5的區(qū)域作為關(guān)注區(qū)域,計算區(qū)域中心點(diǎn)的坐標(biāo)作為關(guān)注點(diǎn).具體計算過程如下:
1)對于樣本xi,使用Grad-CAM技術(shù)繪制熱力圖進(jìn)行距離計算時,不需要覆蓋到原圖上進(jìn)行可視化處理.以VGG19為例,選取最后一個卷積層大小為7×7,繪制出的熱力圖與卷積層大小有關(guān),熱力圖大小為7×7×1,使用雙線性插值法將熱力圖放大為原圖尺寸.分別繪制出圖像變換前的熱力圖Mi與圖像變換后的熱力圖M′i,其中,所有元素都在0到1之間.
2)元素mij∈Mi,i=0,1,…,n,j=0,1,…,n.選出Mi與M′i中大于0.5的mij,每個選出的mij都有對應(yīng)索引(aij,bij),其中,aij表示元素在圖中的橫坐標(biāo),bij表示元素在圖中的縱坐標(biāo).最后得到k個大于0.5的mij索引,即k×2的數(shù)組.
3)分別計算所有aij與bij的平均值,得到Mi的關(guān)注區(qū)域中心坐標(biāo)mcenter,i.同理得到M′i的關(guān)注區(qū)域中心坐標(biāo)m′center,i.
4)計算圖像變換前后熱力圖關(guān)注區(qū)域中心點(diǎn)坐標(biāo)的歐氏距離Hi:
Hi=mcenter,i-m′center,i2.(2)
2.5 異常檢測器
無監(jiān)督學(xué)習(xí)的異常檢測算法適用于那些沒有標(biāo)簽的數(shù)據(jù)集,其中既包含良性樣本也包含對抗樣本.異常值檢測也被稱為離群值檢測,它不依賴于預(yù)先標(biāo)記的異常樣本.依托于數(shù)據(jù)本身的分布和特征,通過識別那些與大多數(shù)數(shù)據(jù)點(diǎn)顯著不同的觀測值來檢測異常.本文選取3種無監(jiān)督異常檢測方法進(jìn)行測試,并采用KL距離以及熱力圖關(guān)注點(diǎn)距離(Di,Hi)作為樣本的2個特征.
2.5.1 孤立森林
孤立森林(Isolation Forest)[6]是一種流行的無監(jiān)督異常檢測方法,它依靠隨機(jī)分割特征空間的方式來識別異常值.該算法通過隨機(jī)選擇特征并對數(shù)據(jù)進(jìn)行隨機(jī)劃分來構(gòu)建多棵決策樹.在這些樹中,數(shù)據(jù)被逐漸劃分成越來越小的子集,直至每個子集只包含單一樣本點(diǎn)或達(dá)到預(yù)設(shè)的樹的深度.在構(gòu)建過程中,樣本點(diǎn)從根節(jié)點(diǎn)到達(dá)葉節(jié)點(diǎn)的路徑長度被記錄下來.路徑越短,說明樣本點(diǎn)越容易被孤立出來,因而更有可能是異常.通過對多棵樹中的路徑長度求平均,可以計算出每個樣本的異常評分.評分越高的樣本越有可能是異常點(diǎn).最終,根據(jù)這些評分和預(yù)定的閾值來判定異常點(diǎn).
2.5.2 One-Class SVM
One-Class SVM(Support Vector Machine)是另一種常用的無監(jiān)督異常檢測方法[7].其主要思想是找到最能代表正常數(shù)據(jù)分布的模型,并將那些與此模型偏差較大的點(diǎn)視為異常.該算法首先將正常數(shù)據(jù)映射至一個高維特征空間,并試圖找到一個最大間隔超平面來包圍這些數(shù)據(jù)點(diǎn).這個超平面定義了數(shù)據(jù)的正常區(qū)域,與正常數(shù)據(jù)點(diǎn)之間的間隔被最大化.對于新的觀測點(diǎn),算法計算其到超平面的距離,距離較遠(yuǎn)的點(diǎn)更有可能被標(biāo)記為異常.
2.5.3 Local Outlier Factor
LOF(局部離群因子,Local Outlier Factor)[8],是一種基于鄰域密度差異的異常檢測方法.它通過比較一個點(diǎn)與其鄰近點(diǎn)的密度來鑒別異常.點(diǎn)與點(diǎn)之間的距離越遠(yuǎn),密度越低;距離越近,密度越高.LOF算法首先計算數(shù)據(jù)集中每個點(diǎn)的k最近鄰距離,然后利用這些距離來估算點(diǎn)的局部密度.每個點(diǎn)的局部可達(dá)密度是基于它到k個鄰近點(diǎn)的可達(dá)距離的平均值來計算的.最后,通過比較數(shù)據(jù)點(diǎn)的局部可達(dá)密度與其鄰近點(diǎn)的局部可達(dá)密度,計算出局部離群因子.當(dāng)LOF值高于某個閾值時,該點(diǎn)被認(rèn)為是離群點(diǎn).
3 實驗與結(jié)果
3.1 實驗設(shè)置
3.1.1 數(shù)據(jù)集
本文使用的是ImageNet LSVRC 2012驗證集[15],這個數(shù)據(jù)集包含的是高清晰度的大尺寸彩色圖像,更貼近現(xiàn)實世界中圖像的常見特征.ImageNet LSVRC 2012數(shù)據(jù)集擁有1 000個不同的類別,每個類別包含約120萬張彩色圖片,其中包括1 000張訓(xùn)練圖片和50張驗證圖片.圖片的清晰度參差不齊,但大多數(shù)圖片具有較高的質(zhì)量和豐富的細(xì)節(jié).本文中,ImageNet LSVRC 2012驗證集的每個類別都使用了50張圖片.為了適應(yīng)所使用的模型,所有的ImageNet圖片在輸入模型之前被統(tǒng)一處理成224×224像素的大小.
3.1.2 網(wǎng)絡(luò)模型
為了實現(xiàn)對ImageNet數(shù)據(jù)集的高效分類,本文采用預(yù)訓(xùn)練好的VGG19網(wǎng)絡(luò)模型.VGG19模型在ImageNet數(shù)據(jù)集上的表現(xiàn)非常出色,其Top-1準(zhǔn)確率達(dá)到71.3%,Top-5準(zhǔn)確率高達(dá)90%.
3.1.3 對抗樣本生成
在進(jìn)行異常檢測的實驗過程中,對抗樣本的生成是不可或缺的一環(huán).為評估模型的魯棒性,本文采用5種常見的對抗攻擊方法,使用CleverHans工具[16]生成不同攻擊方式下不同強(qiáng)度的對抗樣本.具體的參數(shù)設(shè)置如表1所示.
3.1.4 評價指標(biāo)
為了全面評估模型對于對抗樣本的檢測效果,本文選取檢測查準(zhǔn)率、查全率、準(zhǔn)確率、ROC(Receiver Operating Characteristic)曲線與AUC(Area Under the ROC Curve)作為評價指標(biāo).
1)查準(zhǔn)率(True Negative Rate,TNR):表示正確識別為良性樣本的比例.TNR的值越大,說明模型識別良性樣本的能力越強(qiáng).
2)查全率(True Positive Rate,TPR):表示正確識別為對抗樣本的比例.TPR的值越大,說明模型識別對抗樣本的能力越強(qiáng).
TNR與TPR的計算方式如下:
TNR=TN/(TN+FP),
TPR=TP/(TP+FN).(3)
其中:TP表示真正例,即正確分類為對抗樣本的樣本;TN表示假反例,即錯誤分類為良性樣本的對抗樣本;FP表示假正例,即錯誤分類為對抗樣本的良性樣本;FN表示真反例,即正確分類為良性樣本的樣本
3)準(zhǔn)確率(Accuracy,A):預(yù)測正確的樣本占所有測試樣本的比例,計算方式如下:
4)ROC曲線是一種用于評估分類模型性能的工具,尤其在二分類問題中廣泛應(yīng)用.它通過將真正例率(TPR)和假正例率(FPR)作為坐標(biāo),描繪分類器在不同閾值條件下的性能.其中,F(xiàn)PR=FP/(FP+TN).理想情況下,ROC曲線越靠近左上角表示模型性能越好,即在高TPR時保持低FPR.
5)AUC:本文還使用ROC曲線下的面積(AUC)作為重要的指標(biāo)來衡量架構(gòu)性能,其值介于0到1之間,值越接近1表示模型性能越好.
3.2 實驗結(jié)果
3.2.1 檢測性能評估
1)孤立森林
在使用孤立森林異常檢測器時,不同圖像變換方式的ROC曲線如圖6a所示.在所有考慮的圖像變換方式中,平移和翻轉(zhuǎn)展現(xiàn)出較好的檢測效果,而過濾高頻信息和去噪表現(xiàn)最差.平移和翻轉(zhuǎn)操作雖然簡單,卻能夠破壞對抗擾動的空間相關(guān)性,使得對抗樣本在特征空間中與正常樣本拉開距離.反之,過濾高頻信息和去噪?yún)s可能削弱對抗擾動的影響,導(dǎo)致異常檢測器難以捕捉到兩類樣本的區(qū)別.鑒于平移變換的ROC曲線更加平滑,本文確定使用平移作為孤立森林異常檢測器的圖像變換手段.進(jìn)一步地,本文探究了7種不同的平移強(qiáng)度——將圖像平移1至7像素,并記錄結(jié)果(圖6b).根據(jù)圖6的展示,不同平移強(qiáng)度所得的效果相差較小.這意味著即使較小幅度的平移也足以揭示對抗樣本的異常特征,而過大的平移強(qiáng)度可能損害圖像的語義信息,導(dǎo)致關(guān)鍵特征的丟失.因此,在權(quán)衡平移強(qiáng)度過大可能導(dǎo)致圖像丟失關(guān)鍵特征細(xì)節(jié)的風(fēng)險之后,本文決定選用1像素的平移強(qiáng)度作為孤立森林檢測器的標(biāo)準(zhǔn)設(shè)置.
2)One-Class SVM
One-Class SVM在不同圖像變換方式下的ROC曲線如圖7a所示.其中,平移和旋轉(zhuǎn)的檢測效果較為突出.這表明平移和旋轉(zhuǎn)變換能夠有效地放大對抗樣本與正常樣本的差異,使得One-Class SVM更容易將它們區(qū)分開來.考慮到孤立森林異常檢測器在平移變換上的良好表現(xiàn),為了一致性,本文同樣選擇平移作為One-Class SVM的圖像變換方式.圖7b表明,One-Class SVM在不同平移強(qiáng)度下的表現(xiàn)差異不顯著,因此本文決定同樣選用1像素的平移強(qiáng)度.
3)LOF
局部異常因子(LOF)分析在不同圖像變換方式下的ROC曲線如圖8a所示,其中平移變換的表現(xiàn)較為優(yōu)秀.這表明對于LOF檢測器而言,平移變換是最有效的圖像擾動方式,能夠最大程度地放大對抗樣本與正常樣本在特征空間的差異,使得基于密度分析的LOF算法更容易將它們區(qū)分開來.因此,本文選定平移作為LOF的圖像變換手段.圖8b展示了不同平移強(qiáng)度下的檢測效果.為了保持與前述異常檢測器的一致性,也選擇了1像素作為平移強(qiáng)度.
4)異常檢測器比較
本文選擇圖像在ImageNet數(shù)據(jù)集上平移1像素作為最終的圖像變換方式.為了篩選出最佳的異常檢測器,將相同的對抗攻擊樣本應(yīng)用于平移變換,并對不同的異常檢測器進(jìn)行了測試.測試結(jié)果如圖9所示.由圖9可以看出,3種異常檢測器的ROC曲線都比較平滑,并且它們的AUC值相差不大.具體的測試結(jié)果如表2所示,結(jié)果顯示孤立森林異常檢測器較為優(yōu)秀,因此選擇孤立森林作為最終的異常檢測器.
圖10顯示了孤立森林異常檢測器在5種不同攻擊方法下的ROC曲線.從圖中可以推斷,檢測PGD對抗樣本的效果最佳,而檢測BIM對抗樣本的效果相對較差.平均AUC值為0.77,這表明孤立森林檢測器在多種類型攻擊下展示出較好的魯棒性.
3.2.2 架構(gòu)計算效率
1)孤立森林異常檢測器訓(xùn)練.使用100張圖像對應(yīng)的距離特征進(jìn)行訓(xùn)練,時間為1.5 s.
2)圖像變換時間.100張圖像進(jìn)行圖像變換的時間為0.575 s.
3)距離計算時間.距離計算時間指圖像變換完畢之后,將圖像輸入樣本后,進(jìn)行距離計算,到異常檢測之前的時間,包括KL距離計算時間和熱力圖關(guān)注點(diǎn)距離計算時間.具體計算時間如表3所示.
4)整體推理時間.ImageNet2012驗證集使用的模型為VGG19,對于一張224×224×3的圖片,從數(shù)據(jù)讀取到完成距離計算最后異常檢測大約需要1.38 s.具體計算效率與資源占用情況如表4所示.
3.2.3 與其他對抗樣本檢測器對比
本文選擇了幾種效率較好的前沿的無監(jiān)督的對抗樣本檢測器,并在ImageNet數(shù)據(jù)集上進(jìn)行了性能對比.對比結(jié)果如表5所示.
本文提出的異常樣本檢測器在整體上表現(xiàn)優(yōu)于其他兩種無監(jiān)督對抗樣本檢測器.尤其對于BIM、CW、FGSM、PGD等對抗攻擊方法的檢測性能,本文提出的檢測器顯示了更強(qiáng)的性能,進(jìn)一步證明了其優(yōu)越性.
1)在BIM攻擊下,本文方法的TPR達(dá)到20.51%,顯著高于第二好的SFAD方法(TPR=8.02%),而FPR的差距相對較小(18.00%vs.16.38%).這表明本文方法在保證較低誤報率的同時,大幅提升了對BIM對抗樣本的檢測能力.
2)在CW攻擊下,本文方法的TPR達(dá)到58.16%,比SFAD方法(TPR=38.17%)大幅提高,且FPR差距依然不大(18.00%vs.16.38%).可見本文方法對CW對抗樣本的檢測效果也有明顯優(yōu)勢.
3)在DF攻擊下,SFAD方法取得了最高的TPR(72.23%),遠(yuǎn)超其他方法.本文方法的TPR為58.16%,雖然低于SFAD,但也明顯優(yōu)于FS方法(TPR=36.96%).SFAD之所以在DF攻擊下表現(xiàn)突出,一個可能的原因是相比其他攻擊方法,DF產(chǎn)生的擾動幅度更小,肉眼更難感知,本文方法的核心是利用圖像轉(zhuǎn)換、分類概率和Grad-CAM熱力圖的差異來檢測對抗樣本,但DF攻擊可能恰好針對這種機(jī)制,在圖像轉(zhuǎn)換后仍能保持一致的分類結(jié)果和關(guān)注區(qū)域,從而逃避檢測,體現(xiàn)了對抗攻防的博弈性.相比之下,SFAD利用了更多的特征視角,如模型不確定性、自編碼器重構(gòu)等,從更多維度刻畫對抗樣本的異常性,這種多視角集成的方式可能對DF攻擊更多魯棒.但本文方法的優(yōu)勢在于只需對變換圖像同時提取兩個距離特征,再用異常檢測器判別,計算開銷較小,更適合實時檢測場景.
4)在FGSM攻擊下,本文方法的TPR為57.40%,超過了SFAD方法(TPR=53.91%),且FPR差距不大(18.00%vs.16.38%).這表明本文方法對FGSM對抗樣本的檢測性能也略有優(yōu)勢.
5)在PGD攻擊下,本文方法的表現(xiàn)最為突出,TPR高達(dá)79.93%,明顯優(yōu)于第二好的FS方法(TPR=36.10%).這可能是因為PGD攻擊是一種強(qiáng)力的迭代攻擊,在尋找對抗樣本的過程中會引入更細(xì)微、更復(fù)雜的擾動,這種擾動更容易引起Grad-CAM熱力圖的變化,從而被本文方法所捕捉到.
6)在所有攻擊場景下,本文方法的平均TPR為54.83%,顯著高于SFAD方法(TPR=38.95%)和FS方法(TPR=28.75%),而平均FPR(18.00%)與SFAD、FS相當(dāng).這證明了本文方法在各種攻擊場景下的整體檢測性能最優(yōu),能夠在控制誤報率的同時實現(xiàn)較高的對抗樣本檢出率.
實驗結(jié)果表明,本文方法在多數(shù)攻擊場景下都取得了明顯的性能提升,在BIM、CW、PGD等攻擊下的表現(xiàn)尤為突出.這得益于Grad-CAM熱力圖對對抗擾動引起的細(xì)微特征變化的刻畫能力,以及與圖像變換、Softmax差異相結(jié)合形成的多角度異常檢測機(jī)制.雖然在DF攻擊下本文方法的TPR略遜于SFAD,但整體檢測性能仍然最優(yōu),并且具有更高的計算效率優(yōu)勢.
需要指出的是,F(xiàn)S與SFAD使用的數(shù)據(jù)集為MiniImageNet,其圖像尺寸和類別數(shù)量都遠(yuǎn)小于ImageNet數(shù)據(jù)集.而本文使用的是2個大尺寸高質(zhì)量的數(shù)據(jù)集,更符合常見的圖像規(guī)格要求,因此,本文的對抗樣本檢測器在實際應(yīng)用中具有更高的實用性.未來將挖掘Grad-CAM熱力圖的潛力,并結(jié)合適當(dāng)?shù)目缬蚍治霾呗裕型M(jìn)一步提升本方法對DF等攻擊的檢測能力.
4 總結(jié)
本文深入分析了對抗樣本攻擊的機(jī)制及現(xiàn)有的檢測方法,在此基礎(chǔ)上引入一種新型無監(jiān)督對抗樣本檢測技術(shù),其核心思想是從多個視角提取對抗樣本的異常特征,并融合、利用這些不同特征進(jìn)行檢測,從而提高檢測的精度和魯棒性.該方法基于圖像經(jīng)過微小變換前后模型預(yù)測的概率分布差異以及使用Grad-CAM生成的熱力圖之間的差距,來有效地識別對抗樣本.將檢測器的關(guān)注點(diǎn)從單一的模型輸出層擴(kuò)展至輸入層特征,從而顯著增強(qiáng)了其對抗樣本與正常樣本之間差異的建模及評估能力.通過融合輸入層(以直觀的熱力圖形式展示)和輸出層(提供預(yù)測概率)的信息進(jìn)行聯(lián)合決策,不僅顯著提升了檢測效果,還深化了對對抗性擾動如何影響模型判別過程的認(rèn)識,可以在傳統(tǒng)方法所能檢測到的對抗樣本的基礎(chǔ)上,對更多種攻擊類型產(chǎn)生的對抗樣本進(jìn)行檢測.使用無監(jiān)督學(xué)習(xí)來訓(xùn)練最終的對抗樣本檢測模型,不需要獲取對抗樣本進(jìn)行訓(xùn)練,減少了時間和運(yùn)算成本.實驗結(jié)果表明,在符合常見圖像規(guī)格的大尺寸高質(zhì)量圖像數(shù)據(jù)集上進(jìn)行實驗,特別是針對BIM、CW、FGSM、PGD等常用對抗攻擊方法的檢測,彰顯了卓越的性能,也為未來對抗樣本檢測技術(shù)的研究與發(fā)展提供了寶貴的理論依據(jù)和實踐指導(dǎo).
參考文獻(xiàn)References
[1]Goodfellow I J,Shlens J,Szegedy C.Explaining and harnessing adversarial examples[C]// 3rd International Conference on Learning Representations.May 7-9,2015,San Diego,CA,USA.DBLP,2015:1-11
[2] Tian S X,Yang G L,Cai Y.Detecting adversarial examples through image transformation[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32(1):4139-4146
[3] Agarwal A,Singh R,Vatsa M,et al.Image transformation-based defense against adversarial perturbation on deep learning models[J].IEEE Transactions on Dependable and Secure Computing,2021,18(5):2106-2121
[4] Xu W,Evans D,Qi Y.Feature squeezing:detecting adversarial examples in deep neural networks[J].arXiv e-Print,2017,arXiv:1704.01155
[5] Selvaraju R R,Cogswell M,Das A,et al.Grad-CAM:visual explanations from deep networks via gradient-based localization[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:618-626
[6] Liu F T,Ting K M,Zhou Z H.Isolation forest[C]//2008 Eighth IEEE International Conference on Data Mining.December 15-19,2008,Pisa,Italy.IEEE,2008:413-422
[7] Schlkopf B,Platt J C,Shawe-Taylor J,et al.Estimating the support of a high-dimensional distribution[J].Neural Computation,2001,13(7):1443-1471
[8] Breunig M M,Kriegel H P,Ng R T,et al.LOF:identifying density-based local outliers[C]//Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data.May 15-18,2000,Dalla,TX,USA.ACM,2000:93-104
[9] 劉會,趙波,郭嘉寶,等.針對深度學(xué)習(xí)的對抗攻擊綜述[J].密碼學(xué)報,2021,8(2):202-214
LIU Hui,ZHAO Bo,GUO Jiabao,et al.Survey on adversarial attacks towards deep learning[J].Journal of Cryptologic Research,2021,8(2):202-214
[10] Kurakin A,Goodfellow I J,Bengio S.Adversarial examples in the physical world[J].arXiv e-Print,2016,arXiv:1607.02533
[11] Carlini N,Wagner D.Towards evaluating the robustness of neural networks[C]//2017 IEEE Symposium on Security and Privacy (SP).May 22-26,2017,San Jose,CA,USA.IEEE,2017:39-57
[12] Moosavi-Dezfooli S M,F(xiàn)awzi A,F(xiàn)rossard P.Deepfool:a simple and accurate method to fool deep neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2574-2582
[13] Madry A,Makelov A,Schmidt L,et al.Towards deep learning models resistant to adversarial attacks[C]//6th International Conference on Learning Representations(ICLR).April 30-May 3,2018,Vancouver,BC,Canada,2018:1-23
[14] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv e-Print,2014,arXiv:1409.1556
[15] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90
[16] Papernot N,F(xiàn)aghri F,Carlini N,et al.Technical report on the CleverHans v2.1.0 adversarial examples library[J].arXiv e-Print,2016,arXiv:1610.00768
[17] Aldahdooh A,Hamidouche W,Déforges O.Revisiting model’s uncertainty and confidences for adversarial example detection[J].Applied Intelligence,2023,53(1):509-531
Unsupervised adversarial example detection based on image transformation
Abstract Deep Neural Networks (DNNs) exhibit vulnerability to specially designed adversarial examples and are prone to deception.Although current detection techniques can identify some malicious inputs,their protective capabilities remain insufficient when confronted with complex attacks.This paper proposes a novel unsupervised adversarial example detection method based on unlabeled data.The core idea is to transform the adversarial example detection problem into an anomaly detection problem through feature construction and fusion.To this end,five core components are designed,including image transformation,neural network classifier,heatmap generation,distance calculation,and anomaly detector.Firstly,the original images are transformed,and the images before and after the transformation are input into the neural network classifier.The prediction probability array and convolutional layer features are extracted to generate a heatmap.The detector is extended from focusing solely on the model’s output layer to the input layer features,enhancing its ability to model and measure the disparities between adversarial and normal samples.Subsequently,the KL divergence of the probability arrays and the change distance of the heatmap focus points of the images before and after the transformation are calculated,and the distance features are then input into the anomaly detector to determine whether the example is adversarial.Experiments on the large-scale,high-quality image dataset ImageNet show that our detector achieves an average AUC (Area Under the ROC Curve) value of 0.77 against five different types of attacks,demonstrating robust detection performance.Compared with other cutting-edge unsupervised adversarial example detectors,our detector has a drastically enhanced TPR (True Positive Rate) while maintaining a comparable 1 alarm rate,indicating its significant advantage in detection capability.
Key words adversarial example detection;unsupervised learning;adversarial attack;deep neural networks(DNNs);image transformation