999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向對抗樣本的深度神經網絡可解釋性分析

2022-02-17 10:47:12董胤蓬
自動化學報 2022年1期
關鍵詞:語義深度特征

董胤蓬 蘇 航 朱 軍

深度神經網絡(Deep neural networks,DNNs)[1]由于在語音識別、圖像分類、自然語言處理等諸多領域取得了很好的效果,近年來獲得了人們的廣泛關注.但是由于缺乏對其內部工作機理的理解與分析[2],深度神經網絡通常被看作“黑盒”模型,導致用戶只能觀察模型的預測結果,而不能了解模型產生決策的原因.深度神經網絡的不可解釋性也會極大地限制其發展與應用.例如,在諸如醫療、自動駕駛等許多實際的應用場景中,僅僅向用戶提供最終的預測結果而不解釋其原因并不能夠滿足用戶的需求.用戶需要獲取模型產生決策的原因來理解、認可、信任一個模型,并在模型出錯時修復模型的問題.因此,研究提升模型可解釋性的學習算法、使用戶可以理解信任模型、并與模型進行交互變得至關重要.

近些年來,有很多的方法嘗試去解決深度神經網絡的可解釋性問題.例如,一個模型對于圖像的分類結果可以歸因于圖像的關鍵性區域[3]或者其他類似圖像[4].同時,一系列的工作研究如何可視化深度神經網絡內部神經元學習到的特征[5?8].但是這些方法存在以下幾個問題:1)它們通常是在模型訓練結束后進行解釋,并不能在訓練的過程中約束其學習到一個可解釋的模型;2)它們僅僅關注模型對于正常樣本的預測進行解釋與分析,而忽視了模型在現實場景中可能遇到的對抗樣本(Adversarial examples)[9?14];3)它們并沒有解釋模型發生錯誤的原因,也不能讓用戶針對性地修復模型的問題.

本文針對圖像分類任務,利用對抗樣本檢驗深度神經網絡的內部特征表示.對抗樣本是指攻擊者通過向真實樣本(Real examples)中添加微小的、人眼不可察覺的擾動,導致模型發生預測錯誤的樣本.真實樣本和對抗樣本可以從正反兩方面研究深度神經網絡的行為,既可以通過真實樣本分析模型產生正確預測的原因,同時也可以通過對抗樣本分析模型發生錯誤的原因,以深入探究深度神經網絡的運行機制.雖然利用模型預測錯誤的真實樣本分析其產生錯誤的原因也是一種可行的方法,但是真實樣本中發生的錯誤往往是比較小的錯誤,相比于對抗樣本的預測錯誤可以忽略不計.例如,模型可能會將一個真實的公交車圖片錯分為客車,這種錯誤可以被接受;然而如果模型將一個對抗的公交車圖片錯分為飛機,則不能夠被我們所接受.通過將對抗樣本與真實樣本輸入到深度神經網絡中并檢驗其特征表示,我們發現深度神經網絡內部學習到的特征表示與人類所理解的語義概念之間存在著極大的不一致性.如圖1 所示,神經元學習到的特征通常用對其產生強響應的樣本所表示[8].當只使用真實樣本時,神經元會檢測某種語義概念.但是會存在其他的樣本 (例如藍色圓圈標記的對抗樣本) 也對神經元產生很強的響應,盡管這些樣本的語義概念十分不一致.這使得神經元學習得到的特征難以解釋.

圖1 語義概念與神經元學習到的特征存在不一致性的示意圖Fig.1 Demonstration of the inconsistency between a semantic concept and the learned features of a neuron

基于以上的分析,本文進一步提出了加入特征表示一致性損失的對抗訓練方式(Adversarial training with a consistent loss),其目標是在模型的訓練過程中學習到人類可解釋的特征表示.通過加入對抗樣本與真實樣本特征表示的距離作為一致性損失函數訓練深度神經網絡,可以使網絡在特征層面上消除掉對抗噪聲的干擾,使其對于對抗樣本的特征表示與真實樣本的特征表示盡量接近.如圖1所示,對于深度神經網絡內部的某個神經元,如果該神經元檢測到的特征與人類所理解的語義概念不一致時,意味著會存在藍色圓圈標記的對抗樣本對其產生很強的響應.然而這些對抗樣本所對應的真實樣本并不會對其產生很強的響應,這就導致了一致性損失很大.通過加入特征表示一致性的損失函數,可以使得該神經元學習到的特征與人類所理解的某個語義概念相關聯(如虛線所示).這個過程最終會使得深度神經網絡內部的神經元學習到可以抵抗對抗噪聲干擾的特征,從而在某個語義概念出現時產生響應、不出現時不產生響應.因此該方法可以提升深度神經網絡的可解釋性.實驗結果表明在一些可解釋性度量標準下,該訓練方式可以使深度神經網絡內部的特征表示與人類所理解的語義概念更加一致,得到可解釋性更好的深度神經網絡.

本文的主要貢獻有:1)提出利用對抗樣本分析深度神經網絡的可解釋性,并發現神經元學習到的特征表示與人類所理解的語義概念之間存在不一致性;2)提出了加入特征表示一致性損失的對抗訓練方式,可以極大地促進深度神經網絡的可解釋性.

1 相關工作

本節將介紹深度神經網絡的可解釋性、對抗樣本與對抗訓練的相關工作.

1.1 深度神經網絡的可解釋性

近年來有很多工作研究深度神經網絡的可解釋性.深度神經網絡內部的神經元可以被解釋為物體或者物體組成部分的檢測器.例如,神經元響應最大化(Activation maximization)[8]通過找到對某個神經元產生響應最強的一組圖片代表其學習的特征.包含反卷積神經網絡在內的一些基于梯度的算法[5?6]通過將模型的響應反向傳播到輸入空間中,并通過對其顯著區域可視化解釋模型的預測.Bau 等[15]提出通過比較神經元學習到的特征與語義概念之間一致性以度量深度神經網絡的可解釋性.此外,模型的預測還可以通過影響力函數(Influence function)[4]或者解釋圖模型(Explanatory graph)[16]等方式產生解釋.此外,還有許多方法在模型的訓練過程中提升其可解釋性.例如,從文本中提取出的語義主題可以通過可解釋性損失(Interpretive loss)[17]的方式加入到模型的訓練中.上下文相關可解釋網絡(Contexture explanation networks)[18]在預測的同時學習產生相應的解釋.膠囊網絡(Capsule networks)[19]將一組神經元作為一個膠囊用于表示某個語義概念.

盡管現有很多方法展示出深度神經網絡內部的神經元學習到的特征可以與人類所理解的語義概念相關聯,這些工作僅僅是利用真實數據進行分析.本文通過對抗樣本分析深度神經網絡學習的特征表示,發現了與之前的一些結論不一致的現象.

1.2 對抗樣本與對抗訓練

攻擊者向真實樣本中添加微小的、人眼不可察覺的擾動,可以構造出使得模型發生預測錯誤的對抗樣本[9?14].基于模型預測錯誤的不同表現形式,對抗樣本可以分為兩類.第1 類稱為無目標的對抗樣本,它們可以讓模型將其錯誤地預測為真實類別以外的任意類別.第2 類稱為有目標的對抗樣本,它們會被模型錯分為攻擊者所指定的目標類別,以達到攻擊者的特定目的.給定一個真實樣本x,其真實類別為y.同時給定一個基于深度神經網絡的分類器fθ(·),其中θ代表分類器的參數.一個對抗樣本x?通常會在真實樣本x的鄰域內進行尋找,使得x?看起來與x沒有任何差別,但是會被模型錯分.通常情況下,一個無目標的對抗樣本通過最大化網絡的損失函數L(fθ(x?),y) 產生,可以使得fθ(x?),其中L是分類網絡通常使用的交叉信息熵損失函數(Cross-entropy loss).而有目標的對抗樣本通過最小化網絡的損失函數L(fθ(x?),y?) 產生,使網絡將其錯分為目標類別y?,即fθ(x?)=y?.

有很多的攻擊方法可以解決上述的優化問題,以產生對抗樣本.其中快速梯度符號法(Fast gradient sign method,FGSM)[10]通過一步梯度迭代產生對抗樣本.對于無目標對抗攻擊,FGSM 可以表示為

其中,?是擾動的噪聲規模.FGSM 首先計算損失函數對于輸入的梯度,然后取梯度的符號將其歸一化,并乘以擾動規模?,可以使得對抗樣本與真實樣本的距離滿足∥x??x∥∞≤?.基于FGSM,基礎迭代法(Basic iterative method,BIM)[11]通過多步梯度迭代,可以產生攻擊效果更好的對抗樣本.基于優化的方法[12]直接求解

其中,第1 項減小對抗樣本與真實樣本的?2距離,第2 項最大化網絡的損失函數,λ是一個超參數.上述的幾種攻擊方法可以簡單地擴展到有目標攻擊上,通過將式(1)和式(2)中的損失函數L(fθ(x?),y)替換成?L(fθ(x?),y?) 即可.

由于對抗樣本對于深度神經網絡所帶來的安全隱患,有很多的防御方法期望抵抗對抗樣本的干擾,得到更加魯棒的模型.在這些防御方法中,對抗訓練(Adversarial training)[10,20?23]是一類典型且有效的算法.對抗訓練通過將對抗樣本加入到訓練過程中更新模型參數,使其可以抵抗對抗樣本的影響.具體地,對抗訓練可以被定義為一個最小最大化問題

其中,D是數據分布,S(x)是所允許的對抗樣本區域.上式中的內層最大化問題通常通過攻擊算法產生的對抗樣本近似,而外層最小化問題將對抗樣本作為訓練數據得到更加魯棒的模型.

本文說明了對抗樣本以及對抗訓練對于深度神經網絡可解釋性分析的作用.我們通過對抗樣本分析深度神經網絡的特征表示,并利用加入特征表示一致性損失的對抗訓練方式提升網絡的可解釋性.

2 面向對抗樣本的可解釋性分析

先前的工作認為深度神經網絡可以學習到對于圖像內容的解耦的特征表示[6,8],即其中的神經元會檢測人類所理解的語義概念,從而使整體的特征表示可以解釋.然而,在本節中展示了可以檢測語義概念(例如物體或者物理組成部分)的神經元可以很輕易地被對抗樣本所欺騙,展現出神經元學習到的特征和語義概念之間的不一致性.

為了檢驗深度神經網絡面對對抗樣本時的特征表示,我們首先利用基于優化的對抗攻擊算法產生有目標的對抗樣本.需要注意的是本節所展示的實驗結果并不僅僅局限于所采用的攻擊算法.與式(2)類似,通過求解以下的優化問題可以產生一個有目標的對抗樣本x?

給定對抗樣本x?和與之對應的真實樣本x,我們將它們輸入到深度神經網絡中,并通過神經元響應最大化算法(Activation maximization)[8]檢驗其特征表示.該方法對于每個神經元,找到對其產生響應最強的一組圖片代表該神經元學習到的特征,可以對其學習的特征進行可視化.

圖2 中展示了VGG-16[24]網絡中某些神經元學習到的特征的可視化結果.對于每個神經元,我們選取了對其產生響應最強的8 幅真實圖片和8 幅對抗圖片代表其學習到的特征.對于這些選取的圖片,我們利用差異圖(Discrepancy map)[8]觀測其中顯著的區域,可以更好地發現神經元檢測的特征的語義概念.從圖中可以看出,對每個神經元產生響應較強的真實圖片中具有明確的語義概念.比如圖2 (d)中展示了對第147 個神經元產生響應最強的8 幅真實圖片都是鳥的圖片,而高亮區域顯示出鳥頭的特征,所以此神經元可以被解釋為鳥頭的檢測器,這個結果也與之前的研究結論一致.這樣的現象對其他的神經元和模型同樣成立,可以看出真實圖片中的語義概念具有很好的一致性,其共同的語義概念可以解釋神經元學習到的特征.然而僅僅對真實圖片進行分析并不能完全了解神經元真正的行為,通過下面的分析將會發現,神經元并不具備檢測輸入圖像中語義信息的能力.

從另一個方面進行分析,可以發現對神經元產生響應較強的對抗圖片中的語義信息和真實圖片中的語義信息沒有任何關聯.在圖2 中所展示的任何一個神經元,對其產生響應較強的對抗圖片中沒有共同的特征,也與通過真實圖片發現的神經元的語義沒有任何關系.比如圖2 (d) 中的對抗圖片均沒有出現鳥,其中也沒有任何相似的特征.而包含鳥的對抗圖片反而沒有對此神經元產生很強的響應.這與通過真實圖片得到的結論嚴重不符,即該神經元對于對抗樣本并沒有檢測其學習到的特征.

為了探究產生此現象的原因,我們通過進一步分析神經元的行為,發現了以下的現象:在圖2 中由方框框起來的對抗圖片會被模型誤分為與對應的真實圖片中語義特征類似的類別.比如在圖2 (d)中,此神經元檢測真實圖片中鳥的概念,而方框中的對抗圖片同樣被VGG-16 模型誤分為不同類別的鳥.因此,我們認為神經元并不具備檢測圖像中高層次語義信息(物體或者物體組成部分)的能力,而是會對模型預測為特定類別的圖片產生較強的響應,無論圖片中是否會出現與此類別相關的物體.后續的定量實驗也會進一步證明此結論.本文中的顯著區域可視化并不局限于所采用的響應最大化和差異圖方法,其他類似方法也可以使用[25?26].

圖2 VGG-16 網絡中神經元(來自conv5_3 層)特征可視化Fig.2 The visualization results of the neuron (from the conv5_3 layer) features in VGG-16

3 基于特征一致性的對抗訓練

基于以上的分析,我們在本節提出了加入特征表示一致性損失的對抗訓練方式(Adversarial training with a consistent loss),可以在訓練深度神經網絡的過程中提升其學習的特征表示與人類所理解的語義概念之間的一致性.與之前的一些利用高層語義概念顯式地提升模型可解釋性的工作[17]不同,本節所提出的方法可以通過對抗訓練的方式隱式地提升模型可解釋性.對抗訓練通過指導深度神經網絡學習到對于對抗樣本和真實樣本更加接近的特征表示,去除掉噪聲對于其特征表示的干擾,從而使其內部的神經元在相關的語義概念出現時產生響應,而在語義概念不出現時不產生響應.這樣才能更好地解釋每個神經元學習到的特征.

為了達到上述的目標,我們引入特征表示一致性損失函數,并將其加入到對抗訓練的過程中.具體地,所提出的方法通過優化以下的目標函數訓練深度神經網絡的參數θ

其中,第1 項為分類損失函數,與式(3)類似地定義為

第2 項為特征一致性損失,定義為

其中,φθ(x) 返回網絡對于輸入x的特征表示向量,d為距離的度量函數,用于計算對抗樣本與真實樣本特征表示之間的距離.我們選取平方歐幾里得距離(Squared Euclidean distance)作為d.

為了求解訓練目標函數(5),需要首先求解內層的最大化問題找到對抗樣本,進而求解外層的最小化問題以訓練網絡參數.需要注意的是式(5)中包含兩個目標函數Lcls(θ,x)與Lcon(θ,x),是兩個不同的最大化問題.故而需要求解兩個內層最大化問題.為了簡化訓練方式,我們僅僅求解Lcls(θ,x) 找到一個對抗樣本x?,然后利用x?作為Lcon(θ,x) 的一個近似解,而不再具體求解Lcon(θ,x) .為了最大化Lcls(θ,x),有很多對抗攻擊算法都可以使用.在本文中我們選取FGSM方法產生對抗樣本.具體地,針對式(6)中的最大化問題,我們首先采用式(1)中的方法產生對抗樣本xFGSM.除了在對抗樣本xFGSM處優化網絡交叉信息熵損失函數外,我們還優化在真實樣本x處的損失函數,故而Lcls(θ,x) 具體表示為

其中,α為一個超參數,選取為0.5.Lcon(θ,x) 也通過產生的對抗樣本xFGSM定義特征層面的損失函數為

最后將式(8) 和式(9) 中定義的Lcls(θ,x) 和Lcon(θ,x)代入式(5)中訓練網絡的參數θ.訓練算法選用通常訓練深度神經網絡的隨機梯度下降法(Stochastic gradient descent,SGD).

本文所提出的加入特征表示一致性損失的對抗訓練方式與基于高層特征指導的去噪器防御對抗樣本的方法[27]有一定的相似性.兩個方法都用到了深度神經網絡特征表示一致性的損失函數作為訓練目標.但是這兩個方法在目標、訓練方式、以及最終結果上存在很大的區別:1)我們的方法目標是提升深度神經網絡的可解釋性,高層特征指導的去噪器目標是去除對抗樣本中的噪聲,提升模型魯棒性;2)我們利用對抗訓練的方式訓練模型,而高層特征指導的去噪器通過分類器的特征表示作為損失函數訓練去噪器,而不更新分類器的參數;3)在實驗結果中,我們的方法可以提升深度神經網絡的可解釋性,而高層特征指導的去噪器由于不更新模型的參數,所以模型的可解釋性沒有任何改變.

4 實驗與分析

本文在ImageNet[28]數據集上進行實驗.通過對抗樣本分析三個不同的深度神經網絡的可解釋性,并利用提出的加入特征一致性損失的對抗訓練方式提升這三個模型的可解釋性.實驗結果證明了通過該方法訓練得到的深度神經網絡的特征與人類所理解的語義概念之間的一致性更好.

4.1 實驗設定

本文選取AlexNet[29]、VGG-16[24]和ResNet-18[30]三個經典的網絡結構研究其可解釋性.對于正常訓練的模型,我們采用預訓練好的AlexNet 和VGG-16 模型,并重新訓練了一個ResNet-18 模型.ResNet-18 通過隨機梯度下降進行優化,其中超參數設置為:動量為0.9,權重衰減項為 5×10?5,批大小為100,初始學習率為0.05,每當模型損失函數在一段時間內停止下降時將學習率減小10 倍.該模型總共訓練了30 萬輪.ResNet-18 網絡中加入了批歸一化操作(Batch normalization)[31].由于對抗訓練的計算成本過高,我們通過微調的方式在這些訓練好的正常模型上進行對抗訓練.在對抗訓練的過程中需要利用FGSM 算法生成對抗樣本,我們將擾動的規模設置為? ∈[4,16] .我們將對抗訓練得到的三個同樣結構的模型表示為AlexNet-Adv、VGG-16-Adv 和ResNet-18-Adv.

在測試階段,我們選取兩個數據集用于測試.其中第1 個數據集是ImageNet 驗證集,包含5 萬幅圖片.為了使用對抗樣本驗證這些模型的可解釋性,我們利用Adam 優化器求解式(4),其中Adam的步長設置為5,總共優化10~ 20 輪.對于數據集中的每一幅真實圖片,為了產生有目標的對抗樣本,我們將目標類別設置為模型對真實圖片預測概率最小的類別,可以使得真實類別與目標類別的差異更加明顯.需要注意的是對于每一個模型,我們都針對該模型產生對抗樣本.第2 個測試數據集是Broden[15]數據集,提供了對于圖片中語義概念的細粒度標注,包括顏色、紋理、材質、場景、物體部分和物體等.該數據集用于定量地衡量深度神經網絡的可解釋性.對于該數據集,我們仍然采用前述的對抗樣本生成方式.給定這兩個數據集中的真實圖片和對其產生的對抗圖片,我們繼而定性以及定量地研究正常訓練的模型和用我們所提出的算法訓練的模型的可解釋性的優劣.

4.2 評估指標

本文采用兩個指標衡量深度神經網絡中神經元學習的特征與語義概念之間的一致性.第1 個指標是Bau 等[15]在2017 年提出的利用Broden 數據集計算的指標.該指標計算神經元學習到的特征與數據集標注的語義概念之間的一致性以解釋神經元的特征,并通過與不同層次語義概念相關聯的神經元的數量或比例度量深度神經網絡的可解釋性.具體來說,對于模型中的每一個神經元,首先通過整個數據集得到該神經元產生的響應的分布,然后通過這些響應值的上0.5%分位數確定一個閾值.該閾值用于掩膜每幅圖片對其產生的響應值.然后將該神經元特征的掩膜擴展到圖片大小,得到一個分割掩膜.最后,該分割掩膜與數據集中包含的語義概念真實的分割掩膜計算交并比大小.如果交并比很大,就說明該神經元產生響應的區域與圖像中包含某種語義概念的區域重合度很高,可以認為該神經元檢測此種語義概念.雖然這個指標可以得到每個神經元檢測的語義概念,但是它需要包含各種語義概念分割結果的數據集,而對于ImageNet 這種僅僅包含圖片分類標簽的數據集并不適用.因此我們提出了第2 個指標用于衡量深度神經網絡學習的特征與語義概念的一致性.

基于一些直觀的觀察,一般情況下低層次的語義信息(例如顏色、紋理)會在許多不同類別的圖片中出現,而高層次的語義信息(例如物體或者物理組成部分) 僅僅會在一些特定類別的圖片中出現.因此我們認為,如果一個神經元對某些特定類別的圖片產生較強的響應,那么它更有可能檢測高層次的語義信息;反之如果該神經元對多種類別的圖片都產生很強的響應,那么它更有可能檢測低層次的語義信息.基于此觀察,我們通過計算對每個神經元產生響應較強的圖片中的語義信息的多樣性衡量該神經元檢測語義信息的層次和一致性.

具體地,對于一個神經元ni,我們首先利用整個數據集計算其產生的響應,然后用前1%的圖片代表其學習的特征.我們令pi代表這些圖片的類別分布,即代表這些圖片中真實類別為j的圖片的比例,以指示該神經元傾向于檢測的類別.為了計算這些圖片類別分別的多樣性,一個簡單的方式是用pi的熵作為衡量指標,但是該指標忽視了類別之間的層次相關性.例如,相比于對貓和狗圖片都產生響應的神經元(其可能檢測動物皮毛),一個對不同類別的狗的圖片產生響應的神經元(其可能檢測狗臉)更有可能檢測更高層次的語義概念.

為了解決上述問題,我們通過WordNet[22]將各個類別之間的語義相關性進行度量.如圖3 所示,我們利用WordNet 樹結構中不同類別的距離作為語義相關性的度量,具體計算方式為

圖3 基于WordNet[32]衡量特征的層次與一致性示意Fig.3 Illustration for quantifying the level and consistency of features based on WordNet[32]

其中,wl,wm是第l和第m個類別的單詞,d(wl,wm)為它們在WordNet 樹結構中的距離.σ為一個超參數,設置為1.基于每兩個類別的語義相關性cl,m,我們將其組合成類別相關性矩陣C=[cl,m] .從而,將神經元ni檢測特征的層次和一致性定量地表示為

LC值更高則代表神經元檢測一個更高層次的語義概念或更關注于某些特定類別的圖片.

除了真實圖片外,我們也關注對每個神經元產生響應最強的前1%的對抗圖片.對于每個神經元,用p代表對其產生響應最強的前1%真實圖片的類別分布,同時用q代表對其產生響應最強的前1%對抗圖片的真實類別分布,并用代表對其產生響應最強的前1% 對抗圖片的目標類別分布.與式(11)中的定義類似,我們計算真實圖片語義概念與對抗圖片語義概念的相關性為

其中,CS1衡量真實圖片和對抗圖片中內容的相似度;CS2測量真實圖片類別和對抗圖片目標類別的相似度.

在極端情況下,CS1=1 意味著對抗圖片的真實類別與真實圖片的類別完全一致,說明神經元對于對抗圖片與真實圖片均檢測一致的語義概念,則其可解釋性更好.另一方面,CS2=1 意味著對抗圖片的目標類別與真實圖片的類別完全一致,而且內容完全不相關,說明該神經元可解釋性很差.值得注意的是CS1和CS2不可能同時很高,這是因為q和由于攻擊的存在差異明顯.

4.3 實驗結果

1) 可視化結果.我們首先采用響應最大化的方式觀測深度神經網絡內部神經元學習到的特征.對于每個神經元,在ImageNet 驗證集中找到對其產生響應最強的8 幅真實圖片和8 幅對抗圖片代表其學習到的特征.對于三個正常模型AlexNet,VGG-16 和ResNet-18 的可視化結果如圖4、圖2和圖5所示.正如在第2 節中所討論的,這些神經元并不會對對抗樣本中相關的語義概念產生響應,而僅對于模型錯分為相關類別的圖像產生響應,無論這些圖片中的語義概念是否相關聯.類似地,我們展示對三個通過我們所提出的對抗訓練方式得到的模型AlexNet-Adv、VGG-16-Adv 和 ResNet-18-Adv的可視化結果,如圖6~ 8 所示.通過對抗訓練,我們發現對抗圖片和真實圖片中的語義概念十分接近,表明這些網絡中的神經元更傾向于對語義概念產生響應.這就說明了通過我們所提出的對抗訓練方式,模型內部特征的可解釋性更強,更容易被人類所理解.后續的定量實驗也進一步驗證了此結論.

圖4 AlexNet 網絡中神經元(來自conv5 層)特征可視化Fig.4 The visualization results of the neuron (from the conv5 layer) features in AlexNet

圖5 ResNet-18 網絡中神經元(來自conv5b 層)特征可視化Fig.5 The visualization results of the neuron (from the conv5b layer) features in ResNet-18

圖6 AlexNet-Adv 網絡中神經元(來自conv5 層)特征可視化Fig.6 The visualization results of the neuron (from the conv5 layer) features in AlexNet-Adv

2) 定量結果.對于Broden 數據集,我們計算每個模型中和各類語義概念相關的神經元的比例,代表模型可解釋性的好壞.如果某個神經元產生響應的掩碼與一個語義概念的分割掩碼的交并比大于0.4,就認為它是一個可解釋的神經元.對于每個模型也同時計算該模型對于對抗圖片的可解釋神經元的比例.表1 中展示了實驗結果,共有 6 類不同的語義概念,分別為:顏色 (C)、紋理 (T)、材質 (M)、場景 (S)、物體組成部分 (P) 和物體 (O) .

圖7 VGG-16-Adv 網絡中神經元(來自conv5_3 層)特征可視化Fig.7 The visualization results of the neuron (from the conv5_3 layer) features in VGG-16-Adv

圖8 ResNet-18-Adv 網絡中神經元(來自conv5b 層)特征可視化Fig.8 The visualization results of the neuron (from the conv5b layer) features in ResNet-18-Adv

從表1 的實驗結果中可以看到,對于正常訓練的模型,和高層次語義概念相關聯的神經元在面向對抗樣本時會大幅度下降.這證實了這些神經元學習到的特征與語義概念之間存在不一致性.另一方面,通過對抗訓練得到的模型即使在對抗樣本存在時其中的神經元也會和語義概念有很好的關聯.這些結果也證明了利用本文提出的對抗訓練方式可以提升深度神經網絡特征表示與語義概念的一致性.

在表1 中,我們還對比了不加入特征一致性損失的對抗訓練方式[20]得到的模型,該模型是在Inception V3[33]結構上訓練得到,表示為Adv-Inc-v3.為了展示該方法對于模型可解釋性的提升,我們進一步選取正常訓練的Inception V3 模型進行比較,表示為Inc-v3.從表1 可以看到,采用不加入一致性損失的對抗訓練方式得到的模型相比于正常訓練的模型也能得到更好的可解釋性,這與之前的研究發現[34]相符,其原因是魯棒的模型會更加依賴可解釋的特征進行分類.然而,不加入特征表示一致性損失的對抗訓練對于可解釋性的提升不如加入一致性損失的對抗訓練明顯,這也說明了我們所提出方法的有效性.圖9 中也進一步對Adv-Inc-v3 模型內部的神經元學習到的特征進行了可視化.可以看到某些神經元展示出了比較好的可解釋性,對其產生響應較強的真實圖片與對抗圖片具有類似的語義概念,可以解釋該神經元學習到的特征.但是也存在某些神經元,如圖9(c) 所示,對其產生響應最強的8 幅對抗圖片中包含了不屬于該語義概念的圖片.

圖9 Adv-Inc-v3 網絡中神經元(來自最后一層)特征可視化Fig.9 The visualization results of the neuron (from the last layer) features in Adv-Inc-v3

表1 各個模型面對真實圖片和對抗圖片時其中與語義概念關聯的神經元的比例(%)Table 1 The ratio (%) of neurons that align with semantic concepts for each model when showing real and adversarial images respectively

此外,我們還進一步對比了[15]中所發現的可解釋性更好的模型VGG-16-Place.相對于在ImageNet 數據集上訓練的模型,該模型是在Place 數據集上訓練得到,具有更好的可解釋性.從表1 可以看到,雖然對于真實圖片VGG-16-Place 模型可解釋性更好,但是當對抗樣本存在時其可解釋性也會大幅下降.說明了該網絡中神經元學習到的特征與語義概念之間也存在不一致性.也進一步說明了利用加入特征表示一致性損失的對抗訓練方式提升模型可解釋性的必要.

對于ImageNet 驗證集,圖 10 中展示了CS1和CS2隨LC變化的曲線,對于一個給定的LC值,計算在該LC值附近的所有神經元的CS1和CS2的平均值,其中神經元來自于所有卷積層.對于正常訓練的模型,CS1隨著LC的增加而降低,這意味著面向真實圖片檢測高層次語義特征的神經元對于對抗圖片并沒有檢測相似的語義概念.而CS2隨著LC的增加而增加,說明了這些神經元只是對模型預測為某些類別的圖片產生較強的響應,而不考慮圖片中是否真正存在該類別的語義概念.另一方面對于對抗訓練的模型,CS1保持在很高的值,說明模型中的神經元對真實圖片和對抗圖片中的類似語義產生較強響應,證明了該方法可以提升模型中神經元學習的特征表示與語義概念的一致性,提升了模型的可解釋性.

圖10 CS1 和CS2 隨LC 的變化曲線Fig.10 The curves of CS1 and CS2 along with LC

3) 模型性能.表2 中展示了在本文中所采用的模型在ImageNet 驗證集及對其采用FGSM 方法產生的對抗樣本的分類準確率結果.可以看到經過對抗訓練,模型的準確率會下降1%~ 5%左右,但是也可以提升模型對于攻擊的魯棒性.我們認為對抗訓練方式可以在模型準確率和模型可解釋性以及魯棒性之間做出平衡.

表2 各個模型在ImageNet 驗證集及對于FGSM 攻擊的準確率(%) (擾動規模為 ?=4)Table 2 Accuracy (%) on the ImageNet validation set and adversarial examples generated by FGSM with ?=4

5 結論

本文利用對抗樣本從模型錯誤的角度檢驗深度神經網絡的的特征表示,并發現其中神經元學習到的特征與人類所理解語義概念存在不一致性.為了解決此問題以提升深度神經網絡的可解釋性,本文提出了加入特征表示一致性的對抗訓練方式.實驗結果證實了該訓練方法可以有效地提升神經元學習的特征與語義概念之間的一致性,得到可解釋性更好的深度神經網絡.

猜你喜歡
語義深度特征
深度理解一元一次方程
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 91精品国产综合久久不国产大片| 亚洲精品图区| 欧美亚洲国产视频| 在线播放精品一区二区啪视频| 亚洲精品在线91| 无码专区国产精品第一页| av无码一区二区三区在线| 5555国产在线观看| 免费看av在线网站网址| 日韩无码一二三区| 九九热免费在线视频| 日本午夜视频在线观看| jijzzizz老师出水喷水喷出| 国产在线自乱拍播放| 97狠狠操| 99久久精品国产自免费| 美女高潮全身流白浆福利区| 亚洲制服丝袜第一页| 欧美自慰一级看片免费| 99伊人精品| 日韩性网站| 九九香蕉视频| 日韩av在线直播| 日韩中文无码av超清| 国产真实自在自线免费精品| 国产精欧美一区二区三区| 欧美日韩国产成人在线观看| 亚洲精品成人福利在线电影| 亚洲国产第一区二区香蕉| 99精品免费欧美成人小视频| 国产精品女人呻吟在线观看| 99精品热视频这里只有精品7| 成人免费午夜视频| 久久不卡精品| 激情六月丁香婷婷| 国产精品浪潮Av| 亚洲第一视频区| 首页亚洲国产丝袜长腿综合| 热re99久久精品国99热| 国产亚洲美日韩AV中文字幕无码成人 | 无码丝袜人妻| 91久久夜色精品| 久久人人爽人人爽人人片aV东京热 | 久久这里只有精品66| 亚洲精品卡2卡3卡4卡5卡区| 久草国产在线观看| 狠狠色噜噜狠狠狠狠色综合久| 亚洲手机在线| 狠狠色噜噜狠狠狠狠色综合久| 1769国产精品免费视频| 免费精品一区二区h| 国产女人水多毛片18| 无码中文字幕乱码免费2| 国产在线精品人成导航| 欧美第二区| 五月天久久综合| 全部免费特黄特色大片视频| 色亚洲成人| 99人体免费视频| 一区二区自拍| 黄色在线网| 99这里只有精品6| 中文字幕中文字字幕码一二区| 欧美精品成人| 亚洲婷婷丁香| 幺女国产一级毛片| 国产在线视频福利资源站| 欧美一区国产| 国产精品亚洲精品爽爽| 久久青青草原亚洲av无码| 久久久久国色AV免费观看性色| 91在线精品麻豆欧美在线| 欧美黄色网站在线看| 在线欧美一区| 亚洲乱码精品久久久久..| 超碰精品无码一区二区| 澳门av无码| 亚洲v日韩v欧美在线观看| 麻豆精品国产自产在线| 久久精品亚洲热综合一区二区| 精品久久久久久中文字幕女| 欧美亚洲国产视频|