段廣晗,馬春光,宋蕾,武朋
深度學(xué)習(xí)中對抗樣本的構(gòu)造及防御研究
段廣晗1,馬春光2,宋蕾1,武朋2
(1. 哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001;2. 山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590)
隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺、網(wǎng)絡(luò)安全、自然語言處理等領(lǐng)域的進(jìn)一步發(fā)展,深度學(xué)習(xí)技術(shù)逐漸暴露了一定的安全隱患。現(xiàn)有的深度學(xué)習(xí)算法無法有效描述數(shù)據(jù)本質(zhì)特征,導(dǎo)致算法面對惡意輸入時(shí)可能無法給出正確結(jié)果。以當(dāng)前深度學(xué)習(xí)面臨的安全威脅為出發(fā)點(diǎn),介紹了深度學(xué)習(xí)中的對抗樣本問題,梳理了現(xiàn)有的對抗樣本存在性解釋,回顧了經(jīng)典的對抗樣本構(gòu)造方法并對其進(jìn)行了分類,簡述了近年來部分對抗樣本在不同場景中的應(yīng)用實(shí)例,對比了若干對抗樣本防御技術(shù),最后歸納對抗樣本研究領(lǐng)域存在的問題并對這一領(lǐng)域的發(fā)展趨勢進(jìn)行了展望。
對抗樣本;深度學(xué)習(xí);安全威脅;防御技術(shù)
隨著算力的提升和數(shù)據(jù)量的增長,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺[1]、網(wǎng)絡(luò)分析[2]、自然語言處理[3]等領(lǐng)域獲得了廣泛的應(yīng)用。自動(dòng)駕駛[4]、藥物分析[5]等深度學(xué)習(xí)應(yīng)用的發(fā)展,將給人類社會(huì)帶來巨大變革。新技術(shù)在帶來新機(jī)遇的同時(shí)帶來了新的挑戰(zhàn),深度學(xué)習(xí)應(yīng)用的安全性和可用性逐漸引起了研究者的關(guān)注。以往深度學(xué)習(xí)的研究與實(shí)現(xiàn)對應(yīng)用場景和相應(yīng)數(shù)據(jù)集有一定的前提假設(shè),應(yīng)用場景比較純粹,相應(yīng)的數(shù)據(jù)集也經(jīng)過一定的預(yù)處理,缺乏對惡意場景和惡意數(shù)據(jù)的考慮。
2013年,Szegedy等[6]首次對輸入添加刻意構(gòu)造的擾動(dòng),使特定的深度學(xué)習(xí)模型產(chǎn)生錯(cuò)誤的分類,他們將其構(gòu)造的輸入稱為對抗樣本(adversarial example)。在此基礎(chǔ)上,研究者圍繞不同的深度學(xué)習(xí)應(yīng)用展開了對抗樣本的研究。2016年,Kurakin等[7]將手機(jī)攝像頭拍攝到的對抗樣本輸入Inception分類器,展示對抗樣本在物理世界場景中的潛在威脅。自然語言處理領(lǐng)域中,替換單個(gè)詞匯往往可以極大地改變文檔的語義,2018年,Alzantot等[8]僅通過少量詞匯的變動(dòng)就以97%和70%的成功率攻擊了情感分析和文本蘊(yùn)含模型;2019年,Qin等[9]構(gòu)造了人耳無法辨別的音頻對抗樣本,通過對真實(shí)環(huán)境的模擬,證明了對抗樣本對現(xiàn)有無線音頻技術(shù)的潛在威脅。深度學(xué)習(xí)所應(yīng)用的各個(gè)領(lǐng)域,如計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別等容易受到對抗樣本的影響。
鑒于對抗樣本研究的重要性及其在現(xiàn)實(shí)生活中的潛在威脅,本文給出對抗樣本這一領(lǐng)域的全景展望,本文的內(nèi)容包括:①針對日益增多的對抗樣本攻防研究,為對抗樣本構(gòu)造、防御技術(shù)給出了相應(yīng)的分類方法;②提供全面的對抗樣本研究概述,整理了現(xiàn)有對抗樣本存在原理的解釋,給出了代表性對抗樣本構(gòu)造方法和防御技術(shù)的詳細(xì)描述,同時(shí)展示了部分對抗樣本典型實(shí)例,并對相應(yīng)研究進(jìn)行了必要的比較與總結(jié);③總結(jié)分析了現(xiàn)有研究的局限性,并指出這一熱點(diǎn)領(lǐng)域可能的發(fā)展方向。
深度學(xué)習(xí)[10]是機(jī)器學(xué)習(xí)的一個(gè)分支,其主要目的是從數(shù)據(jù)中自動(dòng)學(xué)習(xí)有效的特征表示。深度學(xué)習(xí)模型通過訓(xùn)練學(xué)習(xí)不同的神經(jīng)網(wǎng)絡(luò),借助神經(jīng)網(wǎng)絡(luò)內(nèi)部層級之間的特征轉(zhuǎn)換,把原始數(shù)據(jù)抽象轉(zhuǎn)化為更高層次的特征表示。圖1給出了深度學(xué)習(xí)的數(shù)據(jù)處理流程。現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)主要有以下幾種:深度神經(jīng)網(wǎng)絡(luò)(DNN,deep neural network)、卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)、對抗生成網(wǎng)絡(luò)(GAN,generative adversarial network)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)、自動(dòng)編碼器(AE,auto encoder)等。

圖1 深度學(xué)習(xí)的數(shù)據(jù)處理流程
Figure 1 Data process for deep learning
參考之前研究人員的工作,對抗樣本是敵手設(shè)計(jì)導(dǎo)致深度學(xué)習(xí)模型產(chǎn)生錯(cuò)誤的輸入。經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型可以將原始輸入樣本正確分類為標(biāo)簽,敵手對原始輸入樣本添加擾動(dòng),使原始輸入樣本成為對抗樣本,其中,=+,即

方程式必須滿足的條件為

圖2 構(gòu)造對抗樣本的過程
Figure 2 The process of constructs adversarial samples
對抗樣本同時(shí)展示出了很強(qiáng)的遷移性(transferability)[11]。遷移性主要體現(xiàn)在兩點(diǎn):一部分對抗樣本在其他結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)上會(huì)被錯(cuò)誤分類;同時(shí)會(huì)被同一數(shù)據(jù)集不相交子集訓(xùn)練得到的網(wǎng)絡(luò)錯(cuò)誤分類。這一特性意味著深度學(xué)習(xí)模型普遍存在被黑盒攻擊的風(fēng)險(xiǎn),Papernot等[12]在目標(biāo)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、參數(shù)未知的情況下,首次對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行了黑盒攻擊。他們利用目標(biāo)深度神經(jīng)網(wǎng)絡(luò)的輸入以及輸出標(biāo)簽訓(xùn)練了替代神經(jīng)網(wǎng)絡(luò),然后針對替代神經(jīng)網(wǎng)絡(luò)生成對抗樣本,并成功地利用這些樣本攻擊了目標(biāo)深度神經(jīng)網(wǎng)絡(luò)。
對抗樣本的構(gòu)造以及防御過程中需要考慮敵手的知識(shí)和目標(biāo)等,本文通過對敵手目標(biāo)、能力、知識(shí)以及策略的描述,建立一般性的對抗樣本敵手模型[13]。
敵手目標(biāo)往往是破壞深度學(xué)習(xí)模型的完整性與可用性。敵手構(gòu)造對抗樣本,從而導(dǎo)致模型輸出錯(cuò)誤的結(jié)果以達(dá)到其目標(biāo)。在實(shí)踐中,敵手可能會(huì)導(dǎo)致置信度降低(confidence reduction)、無目標(biāo)攻擊(non-targeted attack)或有目標(biāo)攻擊(targeted attack)。其中,置信度降低主要指敵手構(gòu)造的樣本以較低的置信度被正確分類;無目標(biāo)攻擊指敵手構(gòu)造的樣本被預(yù)測為與正確結(jié)果不同的任何分類;有目標(biāo)攻擊則指敵手構(gòu)造的樣本被預(yù)測為敵手指定的特定分類。
在對抗樣本研究中,敵手往往具有最基本的數(shù)據(jù)操縱能力,即對預(yù)測數(shù)據(jù)進(jìn)行一定修改并輸入特定深度學(xué)習(xí)模型的能力。由于深度學(xué)習(xí)模型的構(gòu)建與強(qiáng)大的硬件緊密結(jié)合,攻擊者的能力可能受到無法訓(xùn)練大型模型的限制。本文假設(shè)排除了此限制,即敵手不受硬件限制約束。
深度神經(jīng)網(wǎng)絡(luò)中,敵手的可用信息主要包括訓(xùn)練數(shù)據(jù)、預(yù)測數(shù)據(jù)、網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)等。根據(jù)敵手的可用信息劃分攻擊場景為白盒場景、灰盒場景以及黑盒場景。在白盒場景中,敵手完全了解所使用的DNN(架構(gòu)、超參數(shù)、權(quán)重等),可以訪問訓(xùn)練數(shù)據(jù),敵手有能力完全復(fù)制受攻擊的模型。在灰盒場景中,敵手可以收集有關(guān)網(wǎng)絡(luò)架構(gòu)的部分信息(如了解基準(zhǔn)模型使用哪種開源架構(gòu)),了解受攻擊模型使用某種開源數(shù)據(jù)集進(jìn)行訓(xùn)練。信息既不完整也不確定,攻擊者具有部分模擬受攻擊模型的能力。黑盒場景中,攻擊者不知道受攻擊的模型,此時(shí)模型對于敵手相當(dāng)于諭言機(jī)。敵手可以提供有限的輸入并收集輸出信息。
敵手策略指敵手根據(jù)自身的目標(biāo)、能力以及知識(shí),采取合適具體的方法構(gòu)造對抗樣本,如利用梯度信息或使用生成對抗網(wǎng)絡(luò)等。
自對抗樣本發(fā)現(xiàn)以來,針對對抗攻擊的生成機(jī)理的研究成為人工智能領(lǐng)域研究的熱點(diǎn)和難點(diǎn)。對抗攻擊的生成機(jī)理缺乏共識(shí),目前針對對抗樣本生成機(jī)理主要有幾種假說,即盲區(qū)(pockets)假說、線性假說、邊界傾斜假說、決策面假說、流形假說。
2014年,Szegedy等[6]提出,對抗樣本存在于數(shù)據(jù)流中訪問較少的盲區(qū),然而,采樣的數(shù)據(jù)不足以覆蓋這些盲區(qū),分類器無法有效處理處于盲區(qū)的數(shù)據(jù)樣本,因此導(dǎo)致分類器泛化能力較差,出現(xiàn)錯(cuò)誤分類的現(xiàn)象。圖3中的對抗樣本可能存在于某些低概率訪問的區(qū)域。2014年,Gu等[14]研究了這類盲區(qū)的范圍,發(fā)現(xiàn)這類盲區(qū)普遍存在于輸入空間,并具有局部連續(xù)性。他們認(rèn)為對抗樣本的存在與訓(xùn)練過程和目標(biāo)函數(shù)有關(guān),與模型結(jié)構(gòu)無關(guān)。
Goodfellow等[15]反駁了上述觀點(diǎn),并給出了線性假說,他們認(rèn)為盡管深度學(xué)習(xí)模型具有大量的非線性轉(zhuǎn)換,但仍有許多線性行為。因此,對具有多維特征的數(shù)據(jù)輸入疊加微小擾動(dòng)可能會(huì)使分類器得出錯(cuò)誤結(jié)果。基于這一理論,Goodfellow等提出了可以有效生成對抗樣本的FGSM方法。文獻(xiàn)[16-18]給出了線性假說的經(jīng)驗(yàn)證據(jù),同時(shí)文獻(xiàn)[17]中指出,對抗樣本跨越了多維度連續(xù)子空間。不同模型的子空間部分重疊,使對抗樣本具有遷移性。2015年,Luo等[19]提出了線性假說的變體,深度神經(jīng)網(wǎng)絡(luò)在輸入流形的某些范圍內(nèi)存在線性行為,在其他范圍則存在非線性行為。

圖3 盲區(qū)假說中的對抗樣本分布
Figure 3 Adversarial example distribution in the blind zone hypothesis
Tanay等[20]認(rèn)為線性行為不足以解釋對抗樣本現(xiàn)象,并建立了對對抗樣本不敏感的線性模型。他們提出邊界傾斜假說,即對抗樣本存在于采樣數(shù)據(jù)子流形的分類邊界。由于該邊界無法完全與實(shí)際數(shù)據(jù)流形邊界保持一致,所以可能存在導(dǎo)致錯(cuò)誤輸出的對抗樣本。圖4中的對抗樣本存在于實(shí)際分類邊界與采樣數(shù)據(jù)子流形的分類邊界之間。他們認(rèn)為對抗樣本可能存在于數(shù)據(jù)方差分布較小的方向上,因此推測對抗樣本是一種局部過擬合的現(xiàn)象。

圖4 邊界傾斜示意
Figure 4 Boundary tilt example
Moosavi-Dezfooli等[21-22]發(fā)現(xiàn)存在可應(yīng)用于所有輸入的通用性擾動(dòng)并提出了決策面假說,他們假設(shè)可能存在一個(gè)低維子空間,它包含決策邊界的大多數(shù)法向量,并利用該子空間檢驗(yàn)了決策邊界曲率和對抗樣本的相關(guān)性。文獻(xiàn)[23]給出了決策面假說的實(shí)驗(yàn)證據(jù),2018年Moosavi- Dezfooli在文獻(xiàn)[24]中對決策面假說給出了進(jìn)一步的理論分析。
流形假說主要分為兩大類。文獻(xiàn)[25-28]認(rèn)為,對抗樣本偏離正常的數(shù)據(jù)流形,基于這一假說,上述文獻(xiàn)分別提出了不同的對抗樣本檢測方法。2018年,Gilmer等[29-30]則否認(rèn)了對抗樣本偏離數(shù)據(jù)流形的假設(shè),他們認(rèn)為對抗樣本由數(shù)據(jù)流形高維幾何結(jié)構(gòu)產(chǎn)生。Gilmer在文獻(xiàn)[29]中構(gòu)造了實(shí)驗(yàn)性的合成數(shù)據(jù)集,在文獻(xiàn)[30]中對對抗樣本與數(shù)據(jù)流形高維幾何結(jié)構(gòu)的關(guān)系進(jìn)行了分析。
目前,各種假說對于對抗樣本的生成機(jī)理缺乏共識(shí),由于深度學(xué)習(xí)模型的不可解釋性以及數(shù)據(jù)流形幾何結(jié)構(gòu)的高度復(fù)雜性,不同假說對于對抗樣本的生成機(jī)理研究具有不同的側(cè)重點(diǎn),缺乏數(shù)理完備的統(tǒng)一理論解釋。理論解釋的相對缺失意味著無法對現(xiàn)有深度學(xué)習(xí)應(yīng)用提供完備有效的驗(yàn)證和檢測手段,也制約了如自動(dòng)駕駛等安全敏感應(yīng)用的進(jìn)一步發(fā)展。
本節(jié)將介紹幾種典型的對抗樣本的構(gòu)造方法及其實(shí)際應(yīng)用實(shí)例。本文提取了對抗樣本生成方法的5類屬性,即生成特征、攻擊目標(biāo)、迭代次數(shù)、先驗(yàn)知識(shí)以及適用范圍。其中生成特征有3類,即利用優(yōu)化求解技術(shù)在輸入空間中搜索對抗樣本;利用敏感特征(如梯度信息)構(gòu)造對抗樣本;利用生成模型直接生成對抗樣本。攻擊目標(biāo)則根據(jù)是否導(dǎo)致模型出現(xiàn)特定類型的錯(cuò)誤來區(qū)分,即有目標(biāo)攻擊、無目標(biāo)攻擊。根據(jù)算法計(jì)算的迭代過程可分為單次迭代和多次迭代。單次迭代方法往往可以快速生成對抗樣本,可以用于對抗訓(xùn)練以提高模型穩(wěn)健性;多次迭代方法則需要更多的處理時(shí)間,但攻擊效果好且難以防范。根據(jù)對抗樣本的適用范圍,將攻擊分為針對特定模型的特定攻擊和針對多種模型的通用攻擊。表1給出了幾類典型對抗樣本構(gòu)造方法。

表1 典型對抗樣本構(gòu)造方法
(1) L-BFGS方法


方程式必須滿足的約束條件為

(2) Deep Fool方法


圖5 二分類模型中的最小擾動(dòng)距離
Figure 5 Minimum disturbance distance in a binary classification model
具體解析式為

方程式必須滿足的約束條件為
(3) 通用對抗擾動(dòng)攻擊(UAP,universal adversarial perturbations)
Moosavi-Dezfooli等[21]進(jìn)一步證明了存在跨越數(shù)據(jù)以及網(wǎng)絡(luò)架構(gòu)的通用對抗擾動(dòng)。這種擾動(dòng)可以導(dǎo)致不同圖片產(chǎn)生錯(cuò)誤分類并具有跨模型的泛化特性。該方法對訓(xùn)練集中所有圖片進(jìn)行迭代版的Deep Fool攻擊,直到找到一個(gè)可以欺騙大部分訓(xùn)練集的擾動(dòng)。形式上對于給定輸入滿足分布,算法搜索上限為的通用擾動(dòng)的計(jì)算如式(4)所示。

方程必須滿足的約束條件為


(4) FGSM(fast gradient sign method)

在非指定目標(biāo)攻擊場景中,沿著梯度方向添加像素值將會(huì)使原始類別標(biāo)簽的損失值增大,從而降低模型判定對抗樣本為原始類別的概率。文獻(xiàn)[15]在CIFAR-10數(shù)據(jù)集上訓(xùn)練卷積網(wǎng)絡(luò),得到了錯(cuò)誤率為87.15%的對抗樣本,圖6展示了FGSM構(gòu)造的對抗樣本,原本以57.7%置信度識(shí)別出的“熊貓”圖片添加擾動(dòng)后,以99.3%置信度被識(shí)別為“長臂猿”。

圖6 FGSM攻擊實(shí)例
Figure 6 FGSM attack example
FGSM能簡單有效地生成大量對抗樣本并可應(yīng)用于多種深度學(xué)習(xí)模型。2016年,Papernot等[33]利用改進(jìn)后的FGSM方法構(gòu)造了針對循環(huán)神經(jīng)網(wǎng)絡(luò)模型的對抗樣本,將對抗樣本從原有的連續(xù)網(wǎng)格數(shù)據(jù)推廣到序列數(shù)據(jù)。2017年,Papernot等[34]在上述工作的基礎(chǔ)上進(jìn)一步構(gòu)建了針對惡意代碼檢測模型的對抗樣本。
(5) BIM(basic iterative method)方法





(6) 迭代最小可能類(LLC,iterative least- likely class)方法


(7) JSMA(Jacobian-based saliency map attack)方法
Papernot等[36]提出JSMA方法使用雅可比矩陣來評估模型對每個(gè)輸入特征的敏感度,找到整幅圖片中有利于攻擊目標(biāo)實(shí)現(xiàn)的顯著像素點(diǎn)。這種方法通過計(jì)算正向?qū)?shù)(雅可比矩陣)來尋找顯著點(diǎn),以求找到導(dǎo)致DNN輸出發(fā)生重大變化的輸入特征。與FGSM計(jì)算反向梯度形成對比,該算法每次修改一個(gè)原始的圖像像素,并監(jiān)控變化對分類結(jié)果的影響。通過使用網(wǎng)絡(luò)層輸出的梯度來計(jì)算顯著性列表。一旦計(jì)算出顯著性列表,該算法就會(huì)選擇最有效的像素來欺騙網(wǎng)絡(luò)。JSMA方法對原始輸入修改較少,同時(shí)由于JSMA方法采用正向傳播計(jì)算顯著點(diǎn),計(jì)算過程相對較為簡單。
(8) 實(shí)用的黑盒攻擊(PBA,practical black-box attacks)
Papernot等[37]首次在黑盒的情況下,攻擊了遠(yuǎn)程托管的深度神經(jīng)網(wǎng)絡(luò)模型。敵手對神經(jīng)網(wǎng)絡(luò)模型的知識(shí)限定為深度學(xué)習(xí)模型的輸入與輸出。敵手將目標(biāo)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)視作諭言機(jī),為了訓(xùn)練替代模型,首先構(gòu)造了一批隨機(jī)數(shù)據(jù),通過詢問諭言機(jī)構(gòu)造出合成樣本。利用合成樣本,敵手訓(xùn)練替代模型F模擬原始神經(jīng)網(wǎng)絡(luò)的輸入與輸出,模仿原始模型的決策邊界。利用合成數(shù)據(jù)訓(xùn)練替代模型后,基于已有的替代模型,使用FGSM方法,產(chǎn)生對抗樣本,攻擊了由MetaMind、亞馬遜、谷歌托管的深度學(xué)習(xí)模型,并產(chǎn)生了超過80%的錯(cuò)誤分類。PBA方法的構(gòu)造相對復(fù)雜,但是相對其他構(gòu)造方法更加難以防御。2018年,Ilyas等[38]提出,現(xiàn)實(shí)世界中的對抗攻擊與黑盒攻擊相比存在更多限制,定義了3種更為貼近現(xiàn)實(shí)場景的威脅模型,并克服了查詢次數(shù)的現(xiàn)狀,成功地攻擊了谷歌托管的深度學(xué)習(xí)API。
(9) ATN(adversarial transformation network)
Baluja等[39]提出以自監(jiān)督學(xué)習(xí)方式訓(xùn)練對抗性轉(zhuǎn)換網(wǎng)絡(luò)的前饋神經(jīng)網(wǎng)絡(luò),將輸入轉(zhuǎn)換為對抗樣本。ATN在給定原始輸入的情況下最小化地修改分類器的輸出,同時(shí)約束新的分類以匹配對抗目標(biāo)類。文獻(xiàn)[39]展示了ATN在白盒、黑盒場景下的應(yīng)用,并分析了其針對各種分類器的有效性。
(10) 對抗樣本生成網(wǎng)絡(luò)(AdvGAN,generating adversarial examples with adversarial network)
Xiao等[40]提出對抗樣本生成網(wǎng)絡(luò),使用生成對抗網(wǎng)絡(luò)構(gòu)造對抗樣本,他們將提出的生成對抗網(wǎng)絡(luò)稱為AdvGAN。一旦訓(xùn)練了生成器,它就可以為任何實(shí)例有效地產(chǎn)生對抗性擾動(dòng),從而對潛在的防御性對抗訓(xùn)練進(jìn)行加速。文獻(xiàn)[40]在半白盒和黑盒攻擊設(shè)置中應(yīng)用AdvGAN。與傳統(tǒng)的白盒攻擊相比,半白盒攻擊在生成器訓(xùn)練之后不需要訪問原始目標(biāo)模型。在黑盒攻擊中,AdvGAN動(dòng)態(tài)訓(xùn)練黑盒模型相應(yīng)的蒸餾模型并優(yōu)化其生成器。與其他攻擊相比,AdvGAN在有防御情況下具有較高的攻擊成功率。
現(xiàn)有的對抗樣本防御方法主要有兩大類,分別為數(shù)據(jù)檢測及預(yù)處理、增強(qiáng)模型穩(wěn)健性,下面詳細(xì)介紹防御者抵御對抗攻擊的一些常見防御方法。
這類防御方法主要通過技術(shù)手段對輸入數(shù)據(jù)進(jìn)行檢測或清洗,預(yù)先發(fā)現(xiàn)對抗樣本或破壞某些構(gòu)成對抗樣本的關(guān)鍵結(jié)構(gòu)。
(1) 基于密鑰的模型檢測
2018年,Zhao等[41]提出基于密鑰的模型檢測機(jī)制,用于隱藏輸入對應(yīng)的標(biāo)簽。他們利用隨機(jī)選擇的標(biāo)簽集上多個(gè)二進(jìn)制分類器產(chǎn)生的二進(jìn)制代碼向量作為簽名,匹配正常圖像,拒絕對抗樣本;基于糾錯(cuò)輸出碼,實(shí)現(xiàn)對抗性樣本與正常樣本的區(qū)分。
為了檢測對抗樣本,可以驗(yàn)證輸入計(jì)算的代碼向量是否滿足以特定精度和某類的簽名匹配。如果輸出為否,則將輸入視為對抗性樣本。對于實(shí)際的黑盒和灰盒場景,攻擊者不知道編碼方案,很難設(shè)計(jì)出滿足相應(yīng)標(biāo)簽的對抗樣本。實(shí)驗(yàn)中,該方案對于迭代和自適應(yīng)攻擊具有良好的抵抗效果,但是該方法在實(shí)驗(yàn)中使用的數(shù)據(jù)集規(guī)模較小。
(2) MagNet
Meng等[42]于2017年提出名為MagNet的框架,通過逼近正常樣本的流形訓(xùn)練模型以檢測對抗樣本。MagNet由一個(gè)或多個(gè)獨(dú)立的檢測器網(wǎng)絡(luò)和一個(gè)重組器網(wǎng)絡(luò)組成。檢測器網(wǎng)絡(luò)測量給定測試樣本與正常流形之間的距離,如果距離超過閾值則拒絕該樣本。重組器網(wǎng)絡(luò)使用自動(dòng)編碼器將對抗樣本偏向流形,使之成為相似的合法樣本。MagNet不改變受保護(hù)的分類器,無須了解構(gòu)造對抗性樣本過程的相關(guān)知識(shí),因此具有相當(dāng)強(qiáng)的泛化能力。MagNet對于黑盒及灰盒攻擊具有較好的防御效果,在白盒攻擊的情況下,其性能會(huì)顯著下降。
(3) 特征擠壓
Xu等[43]提出采用特征擠壓,減少敵手可用搜索空間。這種防御背后的主要思想是降低表示數(shù)據(jù)的復(fù)雜程度,使對抗樣本由于較低的靈敏度消失。對于圖像數(shù)據(jù)集,文獻(xiàn)主要采用了兩種方法:降低像素級別的顏色深度,即使用較少的值對顏色進(jìn)行編碼;在圖像上使用平滑濾波器。因此,原始空間特征向量相對減少,這使模型獲得了抵抗噪聲和對抗樣本的能力,但是降低了模型的準(zhǔn)確率。
(4) 遷移性抑制
對抗樣本攻破諸多防御策略的重要原因是對抗樣本具有很強(qiáng)的遷移性,即在一個(gè)模型上生成的對抗樣本被另一個(gè)模型檢測也會(huì)生成同樣的錯(cuò)誤,攻擊者并不需要了解過多的先驗(yàn)知識(shí),就可以利用對抗樣本的遷移性攻擊可能的模型。Hossein等[44]于2017年提出了NULL標(biāo)記方法,阻止對抗樣本從一個(gè)網(wǎng)絡(luò)轉(zhuǎn)移到另一個(gè)網(wǎng)絡(luò)。該方法在輸出類集合中添加一個(gè)新的NULL標(biāo)簽,并訓(xùn)練模型將對抗樣本分類為NULL標(biāo)簽。遷移性抑制的優(yōu)點(diǎn)是將擾動(dòng)輸入標(biāo)記為NULL標(biāo)簽,而不是將它們分類為原始標(biāo)簽。這種方法可以準(zhǔn)確地區(qū)分出對抗性樣本,同時(shí)不會(huì)損害原始數(shù)據(jù)的準(zhǔn)確性。
(5) 膠囊神經(jīng)網(wǎng)絡(luò)
膠囊網(wǎng)絡(luò)[45]是Hinton于2017年提出的一種新的網(wǎng)絡(luò)構(gòu)架,膠囊網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)的標(biāo)量輸出替換為向量輸出。同時(shí)文獻(xiàn)[45]的研究表明,添加一個(gè)利用姿態(tài)參數(shù)和頂層膠囊特征重建輸入圖像的網(wǎng)絡(luò),可以提升膠囊網(wǎng)絡(luò)的判別性能。2018年,Nicholas等[46]訓(xùn)練膠囊網(wǎng)絡(luò)根據(jù)頂層膠囊的姿態(tài)參數(shù)和身份來重構(gòu)圖像。由于對抗樣本與目標(biāo)類典型成員具有相當(dāng)大的差異,因此從該類的頂層膠囊生成重構(gòu)圖像時(shí),它們會(huì)有更大的重構(gòu)誤差。通過設(shè)立合理的重構(gòu)誤差,文獻(xiàn)[46]提出名為DARCCC(detecting adversaries by reconstruction from class conditional capsules)的技術(shù)用于對抗樣本檢測。
大量文獻(xiàn)側(cè)重增強(qiáng)模型面對小擾動(dòng)的穩(wěn)健性,盡管觀察者無法察覺這些擾動(dòng),這種擾動(dòng)卻容易誤導(dǎo)深度學(xué)習(xí)網(wǎng)絡(luò)。在這種情況下,研究者通過改變或隱藏模型的某些結(jié)構(gòu),提高深度學(xué)習(xí)模型對小擾動(dòng)的穩(wěn)健性。
(1) 梯度隱藏
針對利用梯度信息構(gòu)造對抗樣本攻擊方法(FGSM、BIM等)的有效防御手段是梯度隱藏。如果模型是不可微分的(如決策樹、最近鄰分類器或隨機(jī)森林),那么基于梯度的攻擊變得無效。然而,文獻(xiàn)[47]中指出相當(dāng)一部分依賴于梯度隱藏機(jī)制的防御手段并不完善,通過文獻(xiàn)[35]中學(xué)習(xí)具有類似梯度的替代黑盒模型并對其構(gòu)造對抗樣本可以攻破這類防御。
(2) 梯度對抗訓(xùn)練
Sinha等[48]在2018年提出了一種新的訓(xùn)練框架,該框架提出梯度更新信息在統(tǒng)計(jì)上難以區(qū)分。因此,通過梯度正則化,可以去除可能導(dǎo)致對抗樣本的顯著信息。文獻(xiàn)[48]引入了輔助網(wǎng)絡(luò)處理梯度張量,同時(shí)主網(wǎng)絡(luò)作為輔助網(wǎng)絡(luò)的對手進(jìn)行對抗訓(xùn)練實(shí)驗(yàn)表明,其框架在訓(xùn)練過程中具有較好的穩(wěn)健性。
(3) 對抗訓(xùn)練

(4) 防御性蒸餾
2016年,Papernot等[50]在蒸餾(distillation)技術(shù)的基礎(chǔ)上提出了防御性蒸餾技術(shù)。蒸餾是一種模型訓(xùn)練方法,該方法用小型模型模仿大規(guī)模的、計(jì)算量大的模型,得到與原有模型相似的結(jié)果并盡量保留原有模型的準(zhǔn)確性[51]。防御性蒸餾并不改變模型的規(guī)模,它只是為了讓模型的輸出更平滑,穩(wěn)健性更高,對基于快速梯度標(biāo)志攻擊方法與基于顯著圖攻擊方法的抵抗力較強(qiáng),但是針對黑盒攻擊的抵抗能力較弱。
(5) 生成對抗網(wǎng)絡(luò)
2017年,Lee等[52]提出一種既可以檢測對抗樣本,也可以增強(qiáng)穩(wěn)健性的模型訓(xùn)練方法。利用生成對抗網(wǎng)絡(luò),他們采用兩個(gè)網(wǎng)絡(luò)交替進(jìn)行訓(xùn)練,一個(gè)網(wǎng)絡(luò)生成對抗樣本,另一個(gè)網(wǎng)絡(luò)嘗試進(jìn)行分類。通過兩個(gè)網(wǎng)絡(luò)之間的博弈,他們構(gòu)造的分類網(wǎng)絡(luò)具有更好的穩(wěn)健性。
現(xiàn)有的大部分對抗樣本防御方法缺乏統(tǒng)一的評估機(jī)制,相當(dāng)一部分方法僅通過小型數(shù)據(jù)集(如MNIST)測試其效果,防御強(qiáng)度無法得到嚴(yán)謹(jǐn)?shù)牧炕u估。同時(shí),現(xiàn)有的對抗樣本防御措施往往聚焦于深度學(xué)習(xí)算法的某一環(huán)節(jié),缺乏系統(tǒng)性的考量。實(shí)際上,由于基礎(chǔ)理論模型的限制,對抗樣本領(lǐng)域的防御研究滯后于攻擊,現(xiàn)有技術(shù)難以建立完備、可靠、安全的深度學(xué)習(xí)模型。
隨著深度學(xué)習(xí)在各種領(lǐng)域的進(jìn)一步推廣,深度學(xué)習(xí)技術(shù)逐漸成為驅(qū)動(dòng)經(jīng)濟(jì)社會(huì)各個(gè)領(lǐng)域從數(shù)字化、網(wǎng)絡(luò)化向智能化加速發(fā)展的重要引擎。面對對抗樣本帶來的潛在安全威脅,本文首先介紹了一系列對抗樣本相關(guān)概念及性質(zhì);然后,總結(jié)了現(xiàn)有對抗樣本存在性解釋,并歸納了存在的問題;接著,列出了經(jīng)典的對抗樣本構(gòu)造方法及其對抗樣本在不同領(lǐng)域的研究現(xiàn)狀;最后,梳理了一系列對抗樣本防御方法后給出總結(jié)并進(jìn)行展望。對抗樣本在深度學(xué)習(xí)實(shí)踐中是一種極大的威脅,現(xiàn)有的深度學(xué)習(xí)技術(shù)普遍面臨對抗樣本帶來的安全挑戰(zhàn)。進(jìn)一步深化研究對抗樣本機(jī)理,開拓更多領(lǐng)域應(yīng)用的對抗樣本研究,建設(shè)安全可信的深度學(xué)習(xí)模型,仍然存在大量亟須解決的問題。最大限度降低風(fēng)險(xiǎn),確保人工智能安全、可靠、可控發(fā)展具有重要的科學(xué)意義和應(yīng)用價(jià)值。
即將到來的5G網(wǎng)絡(luò)所產(chǎn)生的海量數(shù)據(jù)將進(jìn)一步促進(jìn)深度學(xué)習(xí)技術(shù)的發(fā)展。同時(shí),對抗樣本隨之帶來的安全問題受到了學(xué)術(shù)界和工業(yè)界的極大關(guān)注。結(jié)合目前對抗樣本研究領(lǐng)域亟待解決的問題,本文歸納并總結(jié)了以下幾個(gè)對抗樣本領(lǐng)域的研究方向。
1) 增強(qiáng)模型可解釋性。現(xiàn)有深度學(xué)習(xí)的不可解釋性帶來了更多的業(yè)務(wù)風(fēng)險(xiǎn),而增強(qiáng)深度學(xué)習(xí)系統(tǒng)的可解釋性有助于更好地分析深度學(xué)習(xí)系統(tǒng)的邏輯漏洞。因此,引入有效的數(shù)學(xué)工具對深度學(xué)習(xí)模型進(jìn)行分析,針對對抗樣本的成因構(gòu)造完備的理論模型是對抗樣本研究領(lǐng)域的重點(diǎn)。
2) 健全深度學(xué)習(xí)穩(wěn)健性評估體系。當(dāng)前對抗樣本的攻擊與防御缺乏統(tǒng)一完備的評價(jià)標(biāo)準(zhǔn),建立統(tǒng)一的測試數(shù)據(jù)集將是對抗樣本研究的有益補(bǔ)充。因此,圍繞模型的完整性和可用性構(gòu)建普適、健全的深度學(xué)習(xí)評估防御體系是現(xiàn)有對抗樣本研究亟待解決的問題。
3) 引入密碼學(xué)手段。數(shù)據(jù)安全與隱私保護(hù)是深度學(xué)習(xí)系統(tǒng)的重要組成部分,相應(yīng)地,密碼學(xué)技術(shù)可以為深度學(xué)習(xí)系統(tǒng)提供有力的補(bǔ)充與保障。因此,在兼顧效率的情況下,使用差分隱私保護(hù)、同態(tài)加密等密碼學(xué)技術(shù),保護(hù)用戶數(shù)據(jù)隱私,保障數(shù)據(jù)的完整與可用是對抗樣本研究中值得探索的方向。
4) 在實(shí)際應(yīng)用場景中開展對抗樣本研究。自動(dòng)駕駛等深度學(xué)習(xí)應(yīng)用往往具有更高的安全需求,在實(shí)際場景中開展對抗樣本研究具有更大的現(xiàn)實(shí)意義。同時(shí),不同領(lǐng)域的對抗樣本研究可以加深人們對深度學(xué)習(xí)技術(shù)的認(rèn)知,從而進(jìn)一步推動(dòng)深度學(xué)習(xí)發(fā)展,構(gòu)建可靠可信的深度學(xué)習(xí)模型。
[1] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//The IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2818-2826.
[2] TANG T A, MHAMDI L, MCLERNON D, et al. Deep learning approach for network intrusion detection in software defined networking[C]//2016 International Conference on Wireless Networks and Mobile Communications (WINCOM). 2016: 258-263.
[3] COLLOBERT R, WESTON J. A unified architecture for natural language processing: deep neural networks with multitask learning[C]//The 25th International Conference on Machine Learning. 2008: 160-167.
[4] CHEN C, SEFF A, KORNHAUSER A, et al. Deepdriving: learning affordance for direct perception in autonomous driving[C]//The IEEE International Conference on Computer Vision. 2015: 2722-2730.
[5] CHING T, HIMMELSTEIN D S, BEAULIEU-JONES B K, et al. Opportunities and obstacles for deep learning in biology and medicine[J]. Journal of The Royal Society Interface, 2018, 15(141).
[6] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.
[7] KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial examples in the physical world[J]. arXiv preprint arXiv:1607.02533, 2016.
[8] ALZANTOT M, SHARMA Y, ELGOHARY A, et al. Generating natural language adversarial examples[J]. arXiv preprint arXiv:1804.07998, 2018.
[9] QIN Y, CARLINI N, GOODFELLOW I, et al. Imperceptible, robust, and targeted adversarial examples for automatic speech recognition[J]. arXiv preprint arXiv:1903.10346, 2019.
[10] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436.
[11] PAPERNOT N, MCDANIEL P, GOODFELLOW I. Transferability in machine learning: from phenomena to black-box attacks using adversarial samples[J]. arXiv preprint arXiv:1605.07277, 2016.
[12] PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//The 1st IEEE European Symposium on Security and Privacy. 2016.
[13] 宋蕾, 馬春光, 段廣晗. 機(jī)器學(xué)習(xí)安全及隱私保護(hù)研究進(jìn)展[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2018, 4(8): 1-11. SONG L, MA C G, DUAN G H. Machine learning security and privacy: a survey[J]. Chinese Journal of Network and Information Security, 2018, 4(8): 1-11.
[14] GU S, RIGAZIO L. Towards deep neural network architectures robust to adversarial examples[J]. arXiv preprint arXiv:1412.5068, 2014.
[15] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[C]//2015 International Conference on Learning Representations. 2015: 1-10.
[16] TABACOF P, VALLE E. Exploring the space of adversarial images[J]. arXiv preprint arXiv:1510.05328, 2015.
[17] TRAM`ER F, PAPERNOT N, GOODFELLOW I, et al. The space of transferable adversarial examples[J]. arXiv preprint arXiv:1704.03453, 2017.
[18] KROTOV D, HOPFIELD J J. Dense associative memory is robust to adversarial inputs[J]. arXiv preprint arXiv:1701.00939, 2017.
[19] LUO Y, BOIX X, ROIG G, et al. Foveation-based mechanisms alleviate adversarial examples[J]. arXiv preprint arXiv:1511.06292, 2015.
[20] TANAY T, GRIFFIN L. A boundary tilting perspective on the phenomenon of adversarial examples[J]. arXiv preprint arXiv:1608. 07690, 2016.
[21] MOOSAVI-DEZFOOLI S M, FAWZI A, FAWZI O, et al. Universal adversarial perturbations[C]//The IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1765-1773.
[22] MOOSAVI-DEZFOOLI S M, FAWZI A, FAWZI O, et al. Analysis of universal adversarial perturbations[J]. arXiv preprint arXiv:1705.09554, 2017.
[23] TRAM`ER F, KURAKIN A, PAPERNOT N, et al. Ensemble adversarial training: attacks and defenses[J]. arXiv preprint arXiv:1705.07204, 2017.
[24] MOOSAVI-DEZFOOLI S M, FAWZI A, FAWZI O, et al. Robustness of classifiers to universal perturbations: a geometric perspective[C]//International Conference on Learning Representations. 2018.
[25] SONG Y, KIM T, NOWOZIN S, et al. Pixeldefend: leveraging generative models to understand and defend against adversarial examples[J]. arXiv preprint arXiv:1710.10766, 2017.
[26] MENG D, CHEN H. Magnet: a two-pronged defense against adversarial examples[C]//The 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 135-147.
[27] GHOSH P, LOSALKA A, BLACK M J. Resisting adversarial attacks using gaussian mixture variational autoencoders[J]. arXiv preprint arXiv:1806.00081, 2018.
[28] LEE H, HAN S, LEE J. Generative adversarial trainer: defense to adversarial perturbations with gan[J]. arXiv preprint arXiv:1705.03387, 2017.
[29] GILMER J, METZ L, FAGHRI F, et al. Adversarial spheres[J]. arXiv preprint arXiv:1801.02774, 2018.
[30] GILMER J, METZ L, FAGHRI F, et al. The relationship between high-dimensional geometry and adversarial examples[J]. arXiv:1801.02774v3, 2018.
[31] EYKHOLT K, EVTIMOV I, FERNANDES E, et al. Robust physical-world attacks on deep learning visual classification[C]//The IEEE Conference on Computer Vision and Pattern Recognition. 2018: 1625-1634.
[32] MOOSAVI-DEZFOOLI S M, FAWZI A, FROSSARD P. Deepfool: a simple and accurate method to fool deep neural networks[C]//The 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016.
[33] PAPERNOT N, MCDANIEL P, SWAMI A, et al. Crafting adversarial input sequences for recurrent neural networks[C]//MILCOM 2016-2016 IEEE Military Communications Conference. 2016: 49-54.
[34] GROSSE K, PAPERNOT N, MANOHARAN P, et al. Adversarial examples for malware detection[C]//European Symposium on Research in Computer Security. 2017: 62-79.
[35] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[36] PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//2016 IEEE European Symposium on Security and Privacy. 2016: 372-387.
[37] PAPERNOT N, MCDANIEL P, GOODFELLOW I, et al. Practical black-box attacks against machine learning[C]//The 2017 ACM on Asia Conference on Computer and Communications Security. 2017: 506-519.
[38] ILYAS A, ENGSTROM L, ATHALYE A, et al. Black-box adversarial attacks with limited queries and information[J]. arXiv preprint arXiv:1804.08598, 2018.
[39] BALUJA S, FISCHER I. Adversarial transformation networks: Learning to generate adversarial examples[J]. arXiv preprint arXiv:1703.09387, 2017.
[40] XIAO C, LI B, ZHU J Y, et al. Generating adversarial examples with adversarial networks[C]//The 27th International Joint on Artificial Intelligence Main track.2019: 3805-3911.
[41] ZHAO P, FU Z, HU Q, et al. Detecting adversarial examples via key-based network[J]. arXiv preprint arXiv:1806.00580, 2018.
[42] MENG D, CHEN H. Magnet: a two-pronged defense against adversarial examples[C]//The 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 135-147.
[43] XU W, EVANS D, QI Y. Feature squeezing: detecting adversarial examples in deep neural networks[J]. arXiv preprint arXiv:1704. 01155, 2017.
[44] HOSSEIN H, CHEN Y, KANNAN S, et al. Blocking transferability of adversarial examples in black-box learning systems[J]. arXiv:1703.04318, 2017.
[45] SABOUR S, NICHOLAS F, HINTON G E. Dynamic routing between capsules[C]//Neural Information Processing Systems. 2017.
[46] NICHOLAS F, SABOUR S, HINTON G. DARCCC: detecting adversaries by reconstruction from class conditional capsules[J]. arXiv preprint arXiv:1811.06969, 2018.
[47] TRAMèR F, KURAKIN A, PAPERNOT N, et al. Ensemble adversarial raining: attacks and defenses[J]. arXiv:1705.07204, 2017.
[48] SINHA A, CHEN Z, BADRINARAYANAN V, et al. Gradient adversarial training of neural networks[J]. arXiv preprint arXiv:1806.08028, 2018.
[49] KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial machine learning at scale[J]. arXiv preprint arXiv:1611.01236, 2016.
[50] PAPERNOT N, MCDANIEL P, WU X, et al. Distillation as a defense to adversarial perturbations against deep neural networks[C]//2016 IEEE Symposium on Security and Privacy. 2016: 582-597.
[51] HINTON G E, VINYALS O, DEAN J. Distilling the knowledge in a neural network[J]. arXiv:1503.02531.
[52] LEE H, HAN S, LEE J. Generative adversarial trainer: defense to adversarial perturbations with GAN[J]. arXiv preprint arXiv:1705. 03387, 2017.
Research on structure and defense of adversarialexampleindeeplearning
DUAN Guanghan1, MA Chunguang2, SONG Lei1, WU Peng2
1. College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China 2. College of Computer Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China
With the further promotion of deep learning technology in the fields of computer vision, network security and natural language processing, which has gradually exposed certain security risks. Existing deep learning algorithms can not effectively describe the essential characteristics of data or its inherent causal relationship. When the algorithm faces malicious input, it often fails to give correct judgment results. Based on the current security threats of deep learning, the adversarial example problem and its characteristics in deep learning applications were introduced, hypotheses on the existence of adversarial examples were summarized, classic adversarial example construction methods were reviewed and recent research status in different scenarios were summarized, several defense techniques in different processes were compared, and finally the development trend of adversarial example research were forecasted.
adversarial example, deep learning, security threat, defense technology
The National Natural Science Foundation of China (No.61472097, No.61932005, No.U1936112), The Natural Science Foundation of Heilongjiang Province (No.JJ2019LH1770)
TP309
A
10.11959/j.issn.2096?109x.2020016

段廣晗(1994– ),男,黑龍江海倫人,哈爾濱工程大學(xué)博士生,主要研究方向?yàn)樯疃葘W(xué)習(xí)、對抗樣本、機(jī)器學(xué)習(xí)。
馬春光(1974– ),男,黑龍江雙城人,山東科技大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)槊艽a學(xué)、數(shù)據(jù)安全與隱私、人工智能安全與隱私、區(qū)塊鏈技術(shù)與應(yīng)用。

宋蕾(1989– ),女,黑龍江牡丹江人,哈爾濱工程大學(xué)博士生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)安全與隱私保護(hù)、云計(jì)算、網(wǎng)絡(luò)安全。
武朋(1974– ),女,黑龍江齊齊哈爾人,山東科技大學(xué)講師,主要研究方向?yàn)榫W(wǎng)絡(luò)安全、隱私保護(hù)。
2019?05?16;
2019?08?20
馬春光,machunguang@sdust.edu.cn
國家自然科學(xué)基金資助項(xiàng)目(No.61472097, No.61932005, No.U1936112);黑龍江省自然科學(xué)基金資助項(xiàng)目(No.JJ2019LH1770)
論文引用格式:段廣晗, 馬春光, 宋蕾, 等. 深度學(xué)習(xí)中對抗樣本的構(gòu)造及防御研究[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2020, 6(2): 1-11.
DUAN G H, MA C G, SONG L, et al. Research on structure and defense of adversarial example in deep learning[J]. Chinese Journal of Network and Information Security, 2020, 6(2): 1-11.