王燁奎,曹鐵勇,鄭云飛,3,4,方 正,王 楊,劉亞九,付炳陽,陳 雷
1.陸軍工程大學 指揮控制工程學院,南京210007
2.中國人民解放軍31401部隊
3.陸軍炮兵防空兵學院,南京211100
4.安徽省偏振成像與探測重點實驗室,合肥230031
深度神經網絡(DNNs)的優越性能推動了計算機視覺領域的快速發展,深度模型在圖像分類、目標檢測等任務上識別檢測目標的能力達到了與人類相當的水平。但研究表明這種深度神經網絡體系容易受對抗樣本影響,輸入一個微小的擾動就會導致模型出錯,給深度神經網絡的安全性能帶來了極大挑戰。
針對圖像分類網絡的對抗攻擊研究主要可分為兩類:一類是白盒攻擊,攻擊者可以訪問目標模型的所有信息,包括目標模型的網絡結構、參數、梯度信息等,可以充分利用模型信息來精心制作對抗樣本。FGSM[1]是基于梯度優化的經典白盒攻擊方法,BIM[2]、MI-FGSM[3]、DIM[4]、PGD[5]等以FGSM為基礎,對優化策略和梯度計算等方面進行改進,進一步提升了對抗攻擊能力。目前關于白盒攻擊的研究較為廣泛,因為這類方法針對模型構造和參數進行攻擊,有助于人們深入了解DNN模型的弱點。另一類方法稱為黑盒攻擊,攻擊者無法獲取目標模型的細節信息,與白盒攻擊相比,黑盒攻擊難度更大。因為現實中的攻擊模型一般都是黑盒模型,該類方法也更有研究的價值。替代黑盒攻擊[6](substitute blackbox attack,SBA)、零階優化[7](zeroth order optimization,ZOO)、邊界攻擊[8](boundary attack,BDA)等是常用的黑盒攻擊方法。
雖然對抗樣本在圖像分類網絡取得了巨大的成功,但目標檢測模型不同于分類網絡,攻擊檢測模型還存在以下三個方面困難:一是其網絡結構復雜,對對抗樣本的魯棒性更好,在分類網絡成功的攻擊方法在攻擊檢測模型時效果不佳;二是目標檢測模型種類較多且不同目標檢測模型之間結構差異較大,導致了生成的對抗樣本遷移性不強;三是目標檢測模型使用了特征金字塔(feature pyramid network,FPN)、非極大值抑制(nonmaximum suppression,NMS)等組件,能夠有效抑制噪聲干擾,進一步加大了攻擊的難度。
Xie等人和Li等人分別針對Faster-RCNN[9]提出了DAG[10](dense adversary generation)和RAP[11](robust adversarial perturbation)方法,Wang等人針對YOLO[12]提出了Daedalus[13]方法,Wei等人基于生成對抗網絡(generative adversarial network,GAN)框架提出了UEA[14](unified and efficient adversary)方法。這些對抗攻擊方法在攻擊目標檢測模型上取得了一定的效果,但這些攻擊方法大多針對某一類特定的檢測器進行攻擊,而不同目標檢測模型之間差異較大,導致對抗樣本遷移性不強。
綜上所述,本文提出了一種具有一定遷移能力的,能夠實時生成對抗樣本的目標檢測攻擊方法TEA(transferable and efficient adversary)。該方法采用GAN網絡框架,能夠實時生成對抗樣本;針對檢測模型中常用的NMS機制和與檢測模型預測目標相關的特征圖關注區域兩個方面設計了位置回歸攻擊損失,通過提升候選區域的置信度,減小其尺寸大小來保留更多的冗余框,使非極大值抑制機制失效,并基于梯度加權的類激活映射[15](gradient-weighted class activation mapping,Grad-CAM)方法獲取圖像的熱力圖,對其進行處理得到與模型預測目標相關的特征圖關注區域,減小候選區域與這些關注區域的IoU值,引導候選區域偏離關注區域,從而導致模型檢測失敗;引入特征圖損失進一步優化對抗樣本生成過程,較好地提高了對抗樣本的遷移能力。在VOC數據集上進行實驗,TEA能夠有效攻擊
Faster-RCNN(VGG16、Swin-Transformer)、YOLOv5、SSD300[16]、SSD512、RetinaNet[17](ResNet50、Swin-Transformer)、One-Net[18]等多種目標檢測模型,驗證了TEA具有較強的遷移能力。
近年來,隨著深度學習領域的不斷發展,目標檢測模型的檢測精度和速度均取得了顯著突破。目前,目標檢測模型已被廣泛應用于人臉識別、車輛檢測、無人駕駛等領域。
現有目標檢測模型根據是否進行候選框提取大致分為兩類:單階段算法和雙階段算法。RCNN[19]、Faster-RCNN、Cascade-RCNN[20]等算法是經典的雙階段算法,該類算法將檢測過程分為兩步,先進行候選框的提取,再對提取的候選框進行分類和位置回歸;單階段算法直接在特征圖上進行分類和回歸,SSD系列、YOLO系列、RetinaNet等算法是其典型代表。上述算法均使用了Anchor機制,又被稱為Anchor-based算法,Fcos[21]、Corner-Net[22]、One-Net[23]等Anchor-free算 法 舍 棄 了Anchor機制,在目標檢測領域也取得了不錯的效果。
根據使用主干網絡的不同,檢測方法又可分為基于CNN和基于Transformer兩類。隨著ViT[24]首次將Transformer從自然語言處理領域引入目標檢測領域,研究者們發現了Transformer在目標檢測領域的巨大潛力,并掀起了研究熱潮,以Swin-Transformer[25]為代表的基于Transformer的目標檢測方法相繼出現,并取得了優異的表現,如Swin-Transformer在coco數據集上取得了最佳性能。
綜上所述,目標檢測模型的種類繁多,發展迅速,不同類別之間的目標檢測模型的機制原理差異較大,同一類別模型所使用的組件也各有不同,這些差異給對抗樣本攻擊帶來了巨大挑戰。
假設原始輸入為x,在添加特定的擾動后生成對抗樣本x′,并將x′作為目標檢測模型的輸入,欺騙目標檢測器。與分類不同,攻擊目標檢測器的目標是使模型對輸入的類別判斷錯誤或預測的位置坐標與真實標簽的IoU值低于閾值。具體過程如公式(1)所示:

其中,p可取0、1、2、∞等值,在大部分方法中p取2,采用L2范數約束擾動,定義原始輸入x的預測輸出為B(x)=(Ci,bi),對抗樣本x′的預測輸出為和Ci分別為檢測模型對x′和x預測的類別標簽,b'i和bi分別為檢測模型對x′和x預測的矩形框,α為檢測閾值,一般取0.5。
Xie等人將對抗樣本從圖像分類擴展到更加困難的語義分割和目標檢測,針對Faster-RCNN提出DAG(dense adversary generation),保留所有RPN生成的被標記為正樣本的候選區域,并丟棄其余的候選區域,然后設定閾值條件,人工選取高質量的候選區域進行攻擊,為每個候選區域隨機分配一個錯誤標簽,導致模型錯誤分類;Li等人提出了RAP(robust adversarial perturbation),該方法設計了一種結合分類損失和位置損失的損失函數,通過破壞雙階段目標檢測模型特有的RPN網絡達到攻擊檢測器的目的;Liao等人[26]針對anchorfree目標檢測模型提出CA(category-wise attack),通過檢測器的熱力圖找到富含高級語義信息的關鍵像素區域,對其進行類別攻擊;Wang等人提出了一種破壞NMS的攻擊方法——Daedalus,該方法通過減小回歸框面積、增大不同框之間的距離使得NMS模塊失效,成功攻擊了YOLOv3等檢測模型。Wei等人基于生成對抗網絡框架提出了UEA(unified and efficient adversary)方法,該方法結合分類損失和特征損失聯合訓練生成對抗樣本,較好提升了對抗樣本生成速度,并對Faster-RCNN和SSD檢測器均能攻擊成功。
目前,針對目標檢測的對抗攻擊方法取得了一定的發展,但現有方法大多針對某一種或某一類特定的目標檢測模型進行攻擊,在白盒攻擊時取得了較好的攻擊效果,但在黑盒攻擊時,其生成對抗樣本的遷移能力較差。而在實際應用中,攻擊模型一般都是未知的,人們更加看重對抗攻擊方法的黑盒攻擊能力,因此如何提升目標檢測對抗攻擊方法的遷移能力是一個需要關注的問題。
Grad-CAM是一種基于梯度加權的類激活映射方法,可以對任何基于CNN的分類網絡進行可視化,用于定位圖像中與網絡預測相關的重要區域。如公式(2)、(3)所示,Grad-CAM使用CNN中卷積層的梯度信息來理解每個神經元對于類別識別的重要性,即Grad-CAM利用網絡反向傳播的梯度計算出特征圖中每一個通道的權重,將不同神經元的權重乘上各自的特征值,然后對所有神經元的對應值進行求和,并使用ReLU函數處理,保留對分類具有積極作用的像素值,抑制對分類具有消極作用的像素值,通過上述操作獲得該類別的定位熱圖。

式中,c表示類別,yc是該類別對應的logits(即還未經過Softmax的輸出值),A表示特征圖,k表示特征圖A的通道,i、j分別表示特征圖A的橫、縱坐標,Z表示特征圖A中長寬相乘之積。
現有的攻擊方法大都基于改變損失函數的梯度,通過反向傳播不斷迭代優化,直到達到一定的效果,所需迭代次數多,導致對抗樣本生成時間長。在圖像轉換(image-to-image translation)領域,不少研究者使用GAN框架來快速實現圖像到圖像的轉換,GAN由兩個“對抗性”模型組成:生成器G和判別器D,通過兩者之間的不斷對抗學習來生成指定圖像。對抗樣本生成本質上也是一個圖像到圖像的轉換問題,輸入干凈圖像,輸出對抗樣本。因此,TEA基于GAN框架來生成對抗樣本,這種訓練方式只需將前饋網絡訓練好,就可以對任何輸入實例產生對抗性擾動,而不需要再訪問模型本身,大大提升了對抗樣本生成速度。具體網絡結構如圖1所示。

圖1 TEA網絡結構Fig.1 Network structure of TEA
2.1.1 生成器
TEA基于文獻[27]構建生成器,在編碼器、解碼器結構基礎上,添加了瓶頸層,強化生成器的特征提取能力,其具體結構如圖2(a)所示:編碼器由3層卷積模塊構成,卷積模塊由卷積層、歸一化層、激活函數構成;瓶頸層共有4個殘差塊組成,每個殘差塊包含兩個卷積模塊;解碼器由3層反卷積模塊構成,前兩個反卷積模塊包含反卷積層、歸一化層和Relu激活函數,最后一個反卷積模塊由反卷積層和Tanh激活函數組成;其中,生成器的歸一化層均采用實例歸一化替代傳統的批量歸一化。
2.1.2 判別器
判別器用于區分輸入圖像是生成圖像還是真實圖像,監督生成器生成更加接近真實的圖像。其具體結構如圖2(b)所示,共由5個卷積模塊構成,第1個卷積模塊由卷積層和Relu激活函數構成;第2~4個卷積模塊由卷積層、歸一化層和Relu激活函數構成;第5個卷積模塊由卷積層和Sigmod函數構成。

圖2 GAN網絡結構Fig.2 Network structure of GAN
TEA使用生成器生成對抗樣本,然后使用判別器對生成的對抗樣本與真實圖像進行比較,鑒別真偽,通過判別結果對生成器進行優化,進一步提升生成器生成的圖像對判別器的欺騙能力,通過這種博弈來不斷提升生成對抗樣本的質量,其具體損失如公式(4)所示:

D為判別器,G為生成器,x為輸入的干凈樣本,G(x)為生成的擾動。
為了提高生成對抗樣本的攻擊成功率和遷移能力,并使生成的對抗樣本盡可能地接近真實圖像,TEA引入了擾動損失和UEA中的特征損失,并設計了一種位置回歸攻擊損失來優化對抗樣本。
2.2.1 擾動損失
為了減小對抗樣本與原始圖像的差異,TEA添加了擾動損失,如公式(5)所示,x為輸入的干凈樣本,x′為生成的對抗樣本,采用L2范數進行約束。

2.2.2 特征圖損失
DAG、RAP損失僅針對Faster-RCNN的結構特點設計,從而導致生成對抗樣本的遷移性較差,為了進一步提升對抗樣本的遷移能力,TEA引入了UEA中的特征圖損失,具體內容如公式(6)所示:

式中,Xf為特征網絡第f層提取的特征圖。Rf是預定的隨機特征圖,在訓練過程中是固定的。與UEA不同,TEA沒有擾動添加掩模,所以它的特征圖損失直接計算輸入對抗樣本獲得的特征圖與隨機特征圖之間的L2距離,通過特征損失,約束Xf盡可能接近Rf,使特征信息趨于隨機排列,減少對被攻擊模型的擬合程度,進而提升對抗樣本的遷移能力。在實驗中,選擇VGG16中conv3-3和conv4-2來進行操作。
2.2.3 位置回歸損失
引入特征圖損失后,一定程度上提升了TEA的攻擊遷移能力,但目標檢測模型中使用的主干特征網絡種類較多,不同種類的主干網絡差異較大。為了進一步提升遷移能力,TEA設計了一種位置回歸攻擊損失,該損失主要針對非極大值抑制(non-maximum suppression,NMS)機制和與模型預測相關的特征圖關注區域兩個方面進行攻擊。
NMS機制是現有目標檢測模型中普遍使用的一種后處理過程,可以消除同一個目標上的冗余預測框,提升模型檢測精度,其機制原理為先對置信度得分進行篩選,低于一定閾值的候選區域會被丟棄,然后選取得分最高的候選框,將其余候選框分別與得分最高的候選框計算IoU值,如果IoU值大于閾值,則將該候選框去除;重復這個過程,直到候選框為空。一旦NMS機制失效,許多冗余預測框就無法被消除,模型檢測結果中會出現很多錯誤預測。
Faster-RCNN模型分別在RPN網絡和預測輸出前使用了NMS機制,在TEA中主要針對RPN網絡的NMS進行了攻擊。為使NMS機制失效,保留更多的冗余候選框,NMS攻擊損失主要從兩個方面入手設計:一是提高候選框的包含目標的置信度得分,減少因置信度過低而被丟棄的候選框數量;二是減小候選框之間的IoU值,使其低于閾值,從而保留更多的候選框。但RPN網絡生成的候選框數目較多,兩兩計算IoU閾值需要耗費大量計算資源,因此TEA借鑒了Daedalus中的NMS損失,通過減小候選框的尺寸大小來達到降低候選框之間的IoU值的目的,這種優化方式所需計算資源很少,對設備的硬件要求不高,在實際應用中均能使用該策略來實現對NMS機制的攻擊。其具體內容如公式(7)所示:

式中,W、H分別為輸入圖像的長和寬;定義R={r1,r2,…,rn}是所有RPN生成的候選區域的集合,F(ri)=為第i個候選區域的信息,其中,Si、分別為候選框的得分、長和寬。
雖然NMS機制是現有目標檢測模型中應用最為廣泛的組件之一,但FCOS、One-Net等檢測模型舍棄了NMS處理,NMS損失可能無法對此類檢測模型造成有效攻擊。因此,為了進一步提升對抗樣本的遷移能力,TEA通過熱力圖捕獲與檢測模型預測相關的特征圖關注區域,引導候選區域偏離預測關注區域,導致模型預測錯誤。
Grad-CAM是一種基于梯度加權的類激活映射方法,它可以定位圖像中與CNN分類網絡預測相關的重要區域。但該方法無法直接用于檢測模型,TEA方法結合Faster-RCNN特點對其進行了改進,選取RPN網絡中得分排名前300位的候選區域,分別進行梯度加權激活映射計算權重值,并對獲取的權重值累加,得到檢測模型的關注區域熱力圖,然后選定一個合適的閾值對該熱力圖進行二值化處理,得到連通區域,再對該連通區域進行篩選,獲得模型預測相關的特征圖關注區域;最后,使用這些關鍵區域與RPN生成的候選區域分別進行IoU計算,引導候選區域偏離檢測模型預目標相關的特征圖關注區域,致使模型預測錯誤。其具體操作如公式(8)~(13)所示:

定義S={g1,g2,…,g300}為RPN網絡中得分排名前300位的候選區域的集合,gi為其中第i個候選區域,αif為特征圖A的第f個通道對第i個候選區域的權重,yi是第i個候選區域的包含目標的概率,Af為特征圖A的第f個通道,M為歸一化后得到的熱力圖;R={r1,r2,…,rn}為RPN網絡生成的所有候選區域的集合,ri為其中第i個候選區域,ε為選取的閾值系數,在本實驗中取0.15,Mmax為M中的最大像素值,threshold為閾值函數,對M進行二值化處理,大于εMmax的像素點其值取255,小于εMmax的像素點其值取0;regionprops為連通區域篩選函數,獲取G中的連通區域分布,得到特征圖關注區域。
如圖3所示,(a)為原始圖片,(b)為獲取的關注區域熱力圖,(c)為原始圖片和關注區域熱力圖的疊加。從圖中結果可得,改進的熱力圖獲取方式,無論是對單目標還是多目標,單一類別還是多種類別,均能有效捕獲檢測模型的關注區域熱力圖。

圖3 關注區域熱力圖Fig.3 Heatmap of concerned region
因此,最終的位置回歸攻擊損失由NMS攻擊損失和特征圖關注區域攻擊損失兩部分組成,其中λ為特征圖關注區域損失的權重,本實驗中λ=10,具體公式如下所示:

綜上所述,TEA算法的損失函數有GAN損失、擾動損失、特征圖損失和位置回歸攻擊損失四部分組成。GAN損失用于優化GAN網絡中的生成器和鑒別器;擾動損失用于約束擾動生成,確保生成的對抗樣本的圖片質量;特征圖損失使對抗樣本輸入模型得到的特征信息趨于隨機排列,減少對被攻擊模型的擬合程度,進而提升對抗樣本的遷移能力;位置回歸損失針對NMS機制和與模型預測相關的特征圖關注區域兩個方面進行攻擊,將對抗樣本適用的檢測模型類型進一步擴展,更好地提升了對抗樣本的遷移能力。具體內容如公式(15)所示:

α、β、γ分別為擾動損失、特征圖損失和位置回歸攻擊損失的權重,用于平衡各項損失。
整個攻擊方法采用生成器和訓練器輪流訓練更新的方式,先訓練生成器,固定判別器參數,然后再訓練判別器,固定生成器參數,采用Adam優化方式,具體流程如算法1所示。


本文使用目標檢測常用的VOC2007、VOC2012訓練集進行訓練,使用VOC2007測試集進行測試。VOC2007數據集共包含20個類別9 963張圖片。VOC2012數據集共包含20個類別11 540張圖片。
本實驗中,將攻擊如下模型:(1)白盒攻擊,Faster-RCNN(VGG16);(2)黑盒攻擊,SSD300、SSD512、Retinanet(ResNet50)、RetinaNet(Swin)、YOLOv5、One-Net、Faster-RCNN(Swin)。黑盒攻擊模型中,代碼均為Github上復現的pytorch版本代碼,對比算法均使用默認參數,SSD300、SSD512、Retinanet(ResNet50)的權重為官方開源版本,YOLOv5、One-Net、Faster-RCNN(Swin)、RetinaNet(Swin)的權重均在VOC2007、VOC2012訓練集進行訓練得到。
3.2.1 攻擊成功率
目標檢測常用的性能評價指標為平均準確度均值(mean average precision,mAP),所以把被攻擊檢測模型的mAP下降程度,即攻擊成功率(attack success rate,ASR)作為衡量攻擊算法的性能指標,ASR值越大表示目標檢測模型的mAP值下降越大,攻擊算法的性能越好,其具體計算方法如公式(16)所示:

其中,mAPadv為輸入對抗樣本時檢測模型的mAP值,mAPori為輸入原始圖片時檢測模型的mAP值,ASR值的范圍為0到1之間。
3.2.2 攻擊遷移性
使用攻擊轉移比率(attack transfer ratio,ATR)來作為衡量遷移性的指標,如公式(17)所示:

其中,ASRtarget是遷移目標攻擊成功率,ASRorigin是白盒模型攻擊成功率。
3.2.3 圖像質量評價指標
均方誤差(mean square error,MSE)、峰值信噪比(peak signal-to-noise ratio,PSNR)都是基于對應像素點間的誤差,是使用最廣泛的圖像客觀評價指標,具體計算方式如下所示:

文中算法在深度學習框架pytorch1.7.1上運行,工作站配置為Nvidia RTX 2080Ti 12G,Batch(批次)設置為1,迭代次數為9輪,圖像大小為300×300像素,初始學習率設置為0.1,使用Adam(adaptive moment estimation,自適應矩估計)優化方法,學習率衰減系數為0.001;mAP計算所用IoU閾值為0.5。
本節分別對不同參數設置對算法性能的影響、TEA的白盒攻擊能力、黑盒攻擊遷移性及位置回歸攻擊損失對提升攻擊遷移能力的效果進行了對比實驗。
3.4.1 參數對比實驗
本文通過實驗分析得到TEA損失函數中α、β、γ這3個參數對算法性能的影響,并為選擇合適的參數提供依據。
UEA中擾動損失和特征圖損失的權重分別為0.05和[0.000 1,0.000 2](分別為VGG16中conv3-3和conv4-2層的權重),TEA將該取值作為其擾動損失和特征圖損失的權重初始值,為了減少不同損失之間的數量級差異,將位置回歸損失權重初始值設為10。在上述初始值的上下區間分別取值,共設置了7組參數進行對比實驗,根據實驗結果選取最優參數值。實驗中設置的7組參數在3.1節中的數據集和攻擊模型上進行訓練測試,采用3.2節中的評價指標進行衡量對比。
為了確保對抗樣本的實用性,在選擇不同參數組合時,既要保證最后生成的對抗樣本具有較強的攻擊能力,也要確保其與原圖差異不要過大,保持一定的圖片質量,因此實驗首先對設置的7種參數組合生成的對抗樣本的PSNR、MSE進行了計算。具體結果如表1所示。

表1 對抗樣本的PSNR和MSETable 1 PSNR and MSE of adversarial examples
由表1結果可得,當α值過小或當β值過大時,特征圖損失占比過大,擾動損失占比過小,模型對擾動的約束不夠,導致最終生成的對抗樣本的圖片質量不高。根據結果,舍棄了圖片質量較差的三種參數組合,篩選PSNR大于25 dB的4種參數組合進一步進行遷移能力測試。具體結果如表2所示。
分析表2結果可得,模型在這4種權重參數組合下都取得了一定的效果,但仍存在一些差異。從整體來看,當參數α、β值選取一定時,適當增大γ值,對7種檢測模型的攻擊效果較好,表明在聯合損失中適當增大位置回歸攻擊損失的權重對模型效果有一定提升。

表2 參數對比實驗Table 2 Parameter comparison experiment
由上述實驗分析可得,在選取的7種參數設置中,當α=0.05,β=[0.000 01,0.000 02],γ=10時,對抗樣本在保持一定圖片質量的同時,取得了最佳的攻擊效果。在后續實驗中,均設置α=0.05,β=[0.000 01,0.000 02],γ=10。
3.4.2 白盒攻擊實驗
為了驗證該方法的白盒攻擊能力,在數據集VOC2007上進行實驗,使用TEA方法攻擊白盒模型Faster-RCNN,Faster-RCNN采用pytorch復現的代碼,主干網絡采用VGG16。預訓練好的Faster-RCNN對原始輸入的mAP值達到了0.7,經過9輪訓練之后,TEA對Faster-RCNN的攻擊效果達到了最大,mAP值降到了0.01。圖4為Faster-RCNN檢測VOC2007數據集中20個類別的mAP值,其中,藍色線條為原始輸入,紅色線條為對抗樣本。可以看到,經過TEA攻擊之后,各類別的精度值都有了大幅度下降。

圖4 各類別mAPFig.4 mAP of different categories
為進一步驗證TEA的白盒攻擊能力,選取了兩種經典的目標檢測對抗攻擊方法DAG、RAP進行對比實驗。采用相同的Faster-RCNN模型和數據集,DAG、RAP根據論文和官方代碼進行重新復現。采用ASR評價指標來衡量白盒攻擊性能,對比實驗結果如表3所示。

表3 白盒攻擊成功率對比Table 3 Comparison of white box attack success rate
從表中結果可得,DAG、RAP、TEA的AR指標分別為0.93、0.93、0.97,TEA的白盒攻擊率成功率最高,達到了0.97,有效欺騙了Faster-RCNN模型。
對比每張圖片的生成時間可得,TEA用時最短,僅需0.1 s,達到了實時生成對抗樣本;與其他兩種方法相比,TEA大幅縮短了對抗樣本生成時間,且具有更好的攻擊效果。
3.4.3 攻擊遷移能力實驗
為了進一步探索TEA方法的攻擊遷移能力,設置了黑盒模型攻擊實驗,選取了SSD300、SSD512、RetinaNet(ResNet50)、RetinaNet(Swin)、YOLOv5、One-Net、Faster-RCNN(Swin)7種應用廣泛的單階段和雙階段檢測模型作為黑盒模型,7種模型涵蓋了使用NMS和不使用NMS機制,主干網絡既有基于CNN結構的,也有基于Transformer結構的。采用ATR指標來衡量其攻擊遷移能力,值越大,表明其遷移能力越強。具體對比結果如表4所示。

表4 攻擊遷移能力對比Table 4 Comparison of attack transferability
由表中結果可得,DAG和RAP在攻擊SSD300、
SSD512、RetinaNet(ResNet50)、YOLOv5、One-Net、Faster-RCNN(Swin)、RetinaNet(Swin)7種黑盒模型時,其ASR和ATR指標均較低,遷移能力較差;TEA攻擊Faster-RCNN模型生成的對抗樣本在攻擊上述7種黑盒模型時均取得了較好的效果,ASR、ATR指標遠遠高于DAG和RAP,說明其遷移能力較DAG和RAP得到了大幅提升。One-Net是一種未使用NMS機制的Anchor-Free的檢測模型,在攻擊該模型時,TEA方法的ATR指標為0.693,驗證了該方法在攻擊結構差異較大的檢測模型也能取得較好的效果;在攻擊主干網絡為Swin-Transformer的Faster-RCNN和RetinaNet模型時,TEA方法的ATR指標分別為0.84、0.81,驗證了TEA對不同主干網絡檢測模型也具有較強的攻擊能力。綜上所述,TEA方法有效提升了目標檢測對抗攻擊方法的遷移能力,且該方法對不同主干網絡和不同結構的檢測模型均有攻擊效果。
3.4.4 消融實驗
為了深入分析TEA方法的不同損失對算法性能的影響,選擇使用GAN損失、擾動損失、特征圖損失作為基線模型,分別采用添加NMS損失,特征圖關注區域損失和將兩者結合的位置回歸攻擊損失3種策略進行消融實驗。表5為消融實驗結果。
由表5結果可得,僅添加NMS損失,除One-Net外,對其他6種使用NMS機制的黑盒模型的ATR指標均有所提升,表明針對Faster-RCNN的NMS機制進行攻擊得到的對抗樣本,對其他使用NMS機制的檢測模型也具有一定的攻擊效果;僅添加特征圖關注區域損失后,對7種黑盒模型的ATR指標均有所提升,且添加特征圖關注區域損失提升的幅度要大于NMS損失,表明基于特征圖關注區域的攻擊損失對各類檢測模型具有很好的遷移能力;而將兩者進行結合,添加位置回歸損失后,對7種黑盒攻擊模型的ATR指標均得到進一步提升,驗證了該損失對提升對抗樣本的遷移能力的作用。特別是在攻擊主干網絡為Swin-Transformer的Faster-RCNN、RetinaNet時,ATR指標變化更為明顯,分別提升了29.2%、50%,說明當主干網絡和結構差異相差較大時,位置回歸損失相較于特征圖損失在提升攻擊遷移能力上發揮了更好的作用,較好地提升了對抗樣本的泛化能力。

表5 不同損失函數的攻擊遷移能力對比Table 5 Comparison of attack transferability of different loss functions
如圖5所示,(a)、(b)、(c)、(d)、(e)分別為原始圖像,檢測模型對原始圖像和對抗樣本預測的關鍵區域及原始圖像和對抗樣本的檢測結果。由圖可得,經過本文的位置回歸損失攻擊之后,檢測網絡的特征圖關注區域較原始圖像有了較大的偏離,部分關注區域僅覆蓋少部分目標,或者關注區域沒有覆蓋真實目標,將背景識別為目標,甚至出現了特征圖關注區域消失的情況,無法有效感知目標;最終的檢測結果顯示,經過位置回歸損失攻擊后,模型預測出現了漏檢、無法檢測到目標的情況,進一步驗證了位置回歸攻擊損失的作用。

圖5 特征圖關注區域對比Fig.5 Comparison of focus area of feature maps
針對現有目標檢測對抗攻擊方法遷移能力較差的問題,本文提出了一種新的目標檢測攻擊方法TEA,該方法能夠實時生成對抗樣本,且生成的對抗樣本具有一定的遷移能力,能夠有效攻擊多種檢測模型。不同于DAG、RAP等方法,TEA沒有針對白盒攻擊模型的特點設計攻擊損失,而是針對檢測模型的通用組件NMS和深度神經網絡對圖像預測的關注區域設計了位置回歸攻擊損失,該損失能夠有效攻擊NMS機制,引導模型預測偏離關鍵區域從而導致其檢測目標失敗,最后生成的對抗樣本沒有過于擬合白盒攻擊模型,具有較好的泛化能力,能夠有效攻擊基于卷積和基于Transformer等多種類別的檢測模型。