深度學習的可解釋性

2019-03-25 08:13:50吳飛廖彬兵韓亞洪

航空兵器 2019年1期

吳飛廖彬兵韓亞洪

摘要：深度學習已經成功運用在自然語言、多媒體、計算機視覺、語音和跨媒體等相關的特定領域。然而，這一架構在“端到端”模式下、通過標注大量數據來進行誤差后向傳播而優化參數的學習方法被比喻為一個“黑盒子”，解釋性較弱。可解釋性指算法要對特定任務給出清晰概括，并與人類世界中已定義的原則或原理聯結。在諸如自動駕駛、醫療和金融決策等“高風險”領域，利用深度學習進行重大決策時，往往需要知曉算法所給出結果的依據。因此，透明化深度學習的“黑盒子”，使其具有可解釋性，具有重要意義。圍繞深度學習可解釋性這一問題，本文從卷積神經網絡可視化、卷積神經網絡的特征分析、卷積神經網絡的缺陷及優化、利用傳統機器學習模型來解釋神經網絡和基于可解釋模塊的深度網絡學習這五個方面介紹現有研究工作。對近年來人工智能頂級會議上關于深度學習可解釋性的論文發表數量進行統計分析，發現深度學習的可解釋性是目前人工智能研究的一個熱點。最后，本文認為深度學習的可解釋性研究可從因果模型、推理、認知理論和模型、智能人機交互等方面著手，以構建出可解釋、更通用和適應性強的人工智能理論、模型和方法。

關鍵詞：深度學習;可解釋性;端到端;可視化;智能人機交互;人工智能

中圖分類號：TP18文獻標識碼：A文章編號：1673-5048（2019）01-0039-08[SQ0]

0引言

目前，深度學習[1-2]已經成功運用于自然語言、多媒體、計算機視覺、語音和跨媒體[3-7]等相關特定領域。然而，深度學習架構在“端到端”模型上，通過標注大量數據驅動的誤差后向傳播來不斷優化模型參數，這一學習過程猶如“黑盒子”：人們很難理解深度網絡中隱藏層數目、神經元個數和激活函數形式等會對結果產生怎樣的影響，使得深度學習大多依賴于大量的工程經驗和技巧。

于是，只要設計好模型結構，如網絡隱藏層數目、每個隱藏層中包含的神經元數目、激活函數類型（Sigmoid或ReLu激活函數）等，收集大量標注數據，應用能力強的計算架構，不斷優化模型參數，就可以訓練得到一個針對特定任務的神經網絡。

在這種“端到端”學習過程中，準備好數據、設計好模型結構即可，以“煉金術”方式不斷調整網絡隱藏層數目、每個隱藏層中包含的神經元數目、激活函數類型，來調整網絡參數，最終得到一個特定任務、特定場景的“最優”深度學習模型。

近年來，許多研究人員都意識到需要打破深度學習“黑盒子”之桎梏，建立深度學習可解釋性[8]的若干評價準則：

（1）算法結果的合理性。在諸如自動駕駛、醫療和金融決策等領域，進行重大決策時，需要知道算法所給出決策的合理依據。如果算法只是提供建議作為參考，也要知道算法建議的理由，才能評估算法結果是否值得參考。如在醫療上，曾發生過預測感染肺炎機率的算法因為歷史數據存在偏差，誤認為患有氣喘與心臟疾病的人死于肺炎的機率要小于一般健康的人。

（2）算法可被改進。如果模型具備可解釋性，則算法研發者可根據其輸出結果優劣的原因所在，對算法進行改良。如果算法不具備解釋性，則改良算法變得異常艱難，如設計一個深度學習算法要將所有熊貓的圖像分類出來，但是若在熊貓圖像中添加少許噪音，則該算法容易將熊貓圖像識別為其他物體。由于所設計算法不具有可解釋性，因此對算法的改進就無從下手。

（3）算法能提供學習的啟迪。當一個學習模型從海量數據中萃取出知識，則可使人類利用這些知識來提高能力。如AlphaGo[9]從浩瀚棋局中采樣得到人類棋手幾乎從未涉足的棋局，從而提高了棋手對圍棋的理解能力。但這往往需要人類弄清楚模型如何“下”出了如此奇招妙術。

（4）算法要符合法規要求。人工智能具有技術屬性和社會屬性高度融合的特點。隨著智能算法逐漸賦能社會，需要算法對執行結果具有解釋能力，并且符合法律法規要求，如《歐盟數據保護通用條例》（GeneralDataProtectionRegulation）就規定使用者有“要求解釋的權力”。

本文將分別介紹深度學習可解釋性研究的五個方向：卷積神經網絡的可視化、卷積神經網絡的特征分析、卷積神經網絡的缺陷及優化、利用傳統機器學習模型來解釋神經網絡、基于可解釋模塊的神經網絡學習，最后對深度學習可解釋性的進展進行總結并展望其發展趨勢。

1卷積神經網絡的可視化

1.1基于梯度的濾波器可視化

對卷積神經網絡（ConvolutionalNeuralNetworks，CNN）中學習得到的濾波器（filter）進行可視化是探索神經元內部模式最直接的方式。目前，研究人員已提出了許多卷積神經網絡可視化的方法。

基于梯度的方法[10-13]是卷積神經網絡可視化的主要方法。輸入一張圖像，這些方法計算圖像所對應的CNN中神經元的梯度，然后利用梯度來估計使神經元響應最大的圖像外觀。在神經網絡中，一個神經元將前序相連神經元給其的輸入信息進行加權累加，然后進行非線性變換，將變換結果以不同權重向后續相連神經元傳遞。文獻[10]提出了兩種卷積神經網絡可視化的方法，第一種是在計算輸入圖像的類別置信度梯度基礎上，生成一幅能夠最大化類別置信度的圖像，于是能對卷積神經網絡所學習到的該類別內在模式進行可視化。第二種是給定某幅輸入圖像及其類別標簽，計算其類別顯著性圖（saliencymap），這種顯著性圖可用來實現物體分割。文獻[11]提出了另外一種可視化方法，可幫助深入了解卷積神經網絡的中間特征層功能以及分類器的操作。該方法還分析了神經網絡中不同隱藏層在分類任務中所做出的不同貢獻。文獻[12]提出了一種通過深度學習所得結果來重建圖像的框架，分析了卷積神經網絡中不同隱藏層對原始圖像的幾何和光照等不變性特點。文獻[13]發現在不損失任務精度情況下，卷積網絡中最大池化層（maxpooling）可用卷積層來代替，只需要將卷積步幅增加即可。同時，文獻[13]還提出了一種反卷積網絡方法，可以用于可視化深度學習得到的特征。

航空兵器2019年第26卷第1期

吳飛，等：深度學習的可解釋性

1.2上卷積網絡

上卷積網絡[14]（upconvolutionalnetworks）是另一種可視化卷積神經網絡的技術。與CNN將圖像非映射到區別性特征相反，上卷積網絡將CNN學習得到特征反向映射到圖像。值得注意的是，文獻[14]發現圖像某些視覺屬性可通過靠近輸出端的激活函數甚至最后一層預測置信度大小來重建。

文獻[15]在生成對抗網絡（GenerativeAdversarialNetworks，GAN）中以隱式碼元（latentcode）形式引入了一個附加先驗，用來控制合成圖像的語義，從而提升訓練樣本的質量和多樣性。該方法由一個生成器網絡G和一個可替換條件網絡C組成，C既可以是一個用于圖像分類的網絡，也可以是一個用于圖像描述生成的網絡。

1.3圖像區域提取與顯示

圖像區域提取是另一類能夠可視化卷積神經網絡的方法，給定一幅帶標簽的圖像，該方法能直接提取和輸出對提高分類置信度起作用的圖像區域，達到解釋模型輸出的目的。

文獻[16-17]提出了將特征圖最終損失的梯度回傳到圖像平面的方法來估計圖像區域。文獻[18]提出了LIME模型，該模型通過在預測值局部的學習，從而以一種可解釋的且令人信服的方式解釋任意分類器的預測值，并將該方法用于提取對網絡輸出高度敏感的圖像區域。文獻[19-20]提出了能夠將輸入圖像中對CNN決策過程貢獻最大的區域進行可視化的方法。文獻[21]可對神經網絡在決策過程中注意區域以及與注意區域相關的主要類別進行可視化。文獻[22]提出了一種解釋神經網絡的啟發式方法，該方法通過計算Kullback-Leibler散度來選擇與預測值最相關的參數，并且將輸入圖像散度和CNN的分類預測結果繪制成熱度圖，為“圖像哪部分區域參與分類”提供了視覺解釋。文獻[23]提出了一種被稱為層級相關性傳播（layerwiserelevancepropagation）方法，可對非線性分類器的分類決策結果在像素級上找到解釋，得到每個像素參與分類決策的貢獻大小，繪制出熱度圖以供參考。

2卷積神經網絡的特征分析

2.1從全局進行CNN的特征分析

文獻[24]通過單元分析的方法，探索了每個濾波器的語義含義，發現神經網絡中高層所包含的語義信息與整個高層結構有關而跟單個高層單元無關。文獻[25]通過實驗量化了卷積神經網絡的中間層濾波器的遷移性，發現通過可遷移特征對網絡參數進行初始化可提高網絡泛化能力。文獻[26]使用大型3DCAD模型數據庫進行渲染，分析了CNN在識別不同場景過程中的重要因素。文獻[27]將兩種無監督降維學習算法PCA和ICA應用于預訓練CNN輸出上，通過內嵌（embedding）表示來揭示物體類別在視覺上的相似性。

2.2從局部進行CNN的對抗樣本學習

對抗機器學習（adversarialmachinelearning）[28]通過構建對抗樣本來探測深度學習模型的脆弱性，從而理解深度學習的可解釋性。文獻[29]通過探討卷積深度神經網絡中各隱藏層神經元在不同對抗樣本上被激活的差異，回溯判斷神經元對卷積深度神經網絡決策過程的影響。文獻[30]建立了一個逼近卷積深度神經網絡的線性替代模型（substitutemodel），并在結構更加清晰的替代模型上利用梯度信息構建對抗樣本，模擬深度模型對微小擾動的反應，以分析卷積深度神經網絡對輸入樣本變化的敏感性。文獻[31-32]提出了用于計算CNN對抗樣本的方法，這些研究旨在估計可以改變輸入圖像所對應最終預測結果的最小噪聲擾動。值得注意的是，文獻[32]提出了一種可用于計算對抗樣本的影響函數，這種影響函數還可以通過創建訓練樣本以攻擊CNN的學習、修復訓練集，并進一步調試CNN表示。

3卷積神經網絡的缺陷及優化

3.1卷積神經網絡的缺陷

文獻[33]發現了CNN會因數據集而引發潛在的偏差表示。具體來說，當利用CNN來估計圖像屬性的時候，若某個屬性經常與訓練圖像中的特定視覺特征共同出現時，CNN會趨向于使用共同出現特征來表示屬性。當某一屬性所對應特征在語義上與目標屬性本身無關時，可視為偏差表示。實際上，這種由于數據集偏差引起的表示缺陷是無法通過基于測試圖像這一傳統評估策略來發現，因為測試圖像也可能含有相同偏差。給定一個預訓練CNN，例如用于估計面部屬性的CNN，文獻[33]首先要求用戶去標記屬性之間真實存在的一些關系，如“唇膏”屬性與“濃妝”屬性之間是正相關，并與“黑發”屬性無關。然后，該方法挖掘CNN中卷積層輸出這些屬性的模式，并使用這些模式來計算編碼在CNN中的實際屬性關系。真實的屬性關系與挖掘出來的屬性關系之間的沖突表明，CNN的表示確實是有偏差的。

現實世界中的預測模型可能會給實例分配錯誤的標簽。這種錯誤或者未知模式來源于模型的不完備性，通常是由于訓練數據和測試數據不匹配造成的。給定一個預訓練好的用于物體分類的CNN，文獻[34]提出了一種以弱監督的方式來發現CNN知識盲點（未知模式）的方法。該方法通過預言（oracle）反饋自動發現和識別未知模式。這一方法根據實例特征相似度和預測模型給出的置信度將CNN整個特征空間中所有采樣點分類為數千個偽類別。假設一個性能良好的CNN能夠使用每個偽類別的子空間來表示特定物體類的子集。通過這種方式，該方法隨機展示了每個子空間內物體樣本，并利用探索-利用（explore-exploit）策略來揭示隱藏在預訓練CNN中的潛在表示缺陷。

3.2卷積神經網絡的優化

將神經網絡和結構化的邏輯規則相結合，利用邏輯規則的靈活性來提升神經網絡可解釋性是卷積神經網絡優化的一種方法。文獻[35]提出了一種能利用一階邏輯來優化神經網絡的方法。具體而言，該方法是一種迭代蒸餾的方法，將邏輯規則的結構化信息轉換為神經網絡的權重，并將基于該方法的卷積神經網絡和循環神經網絡分別應用于情感分析和命名實體識別。該方法以自然語言中直觀的邏輯規則作為損失函數，對網絡進行優化，從而獲得高性能的可解釋網絡表示。

文獻[36]通過利用豐富的語義信息來提升神經網絡的可解釋性。以視頻描述生成任務為例，文獻[36]先通過WarpLDA[37]提取一些覆蓋了大多數視覺概念的具有語義信息的主題，然后通過一個可解釋損失函數將其整合進模型中，利用一個預測誤差最大化算法來解釋每個神經元學到的特征。在視頻描述生成任務上的實驗驗證了該方法的有效性。不僅如此，將視頻描述生成任務中所學習得到的特征遷移到視頻動作識別任務中也依然有效。通過人機交互（humanintheloop）方式，用戶易于更正錯誤預測值，從而對神經網絡進行優化。

文獻[38]提出了一種基于采樣和強化學習的新型損失函數，通過該損失函數訓練的網絡不僅可以判別出圖像的屬性，還可以同時生成判別的依據。實驗結果表明，添加了新型損失函數的網絡比圖像描述生成的網絡具有更好的性能。

4利用傳統機器學習模型來解釋神經網絡

與前述神經網絡的可視化、特征分析、缺陷和優化相比，利用傳統機器學習模型也可解釋神經網絡。考慮到卷積網絡的卷積層中的每個濾波器都融合了某些物體部位的表示，Zhang等人[39-40]提出了一種解釋預訓練CNN的卷積層特征的方法，并使用可解釋圖（explanatorygraph）來揭示隱藏在CNN內的知識層次。該方法是一種無監督學習的方法，即不需要物體的部位標記信息。

圖1所示的可解釋圖揭示了CNN中隱藏的知識層次和濾波器所對應特征圖中組件模式（partpattern）的融合方式，并使用圖節點來表示一個部位：

（1）可解釋圖具有多層，每層對應于CNN的特定卷積層。

（2）可解釋圖中的每個節點表示一個具有高遷移性的組件模式，這些組件模式由數百或數千個不同圖像中相同物體組件所共享。因此，可以將節點用于物體定位。

（3）可解釋圖中，邊表示相鄰層中兩個節點之間相同激活關系及其對應組件的空間關系。

（4）每個輸入圖像只能觸發可解釋圖中的一小部分節點。

在可解釋圖的基礎上，Zhang等人[41]提出了一種通過決策樹來定量解釋卷積網絡的預測邏輯。該方法可以在CNN的高層卷積層中學習物體部位的顯示表示，同時在全連接層中挖掘潛在決策模式。決策樹通過一種由粗到細的方式對這些潛在決策模式進行重組，從而可以定量解釋CNN的預測邏輯。也就是說，給定輸入圖像，使用CNN來進行預測。決策樹將揭示卷積層中哪些濾波器會參與預測以及這些濾波器對預測結果的貢獻程度。

5基于可解釋模塊的神經網絡學習

上述方法幾乎都集中在對預訓練網絡的解釋上。本節將介紹基于可解釋模塊的神經網絡學習方法，這些神經網絡的中間層不再是黑盒子，而是具有明確的語義。與對預訓練好的網絡進行解釋相比，基于可解釋模塊的神經網絡學習帶來了更大的挑戰。目前，只有少數關于這方面的研究。

5.1可解釋的卷積神經網絡

文獻[42]提出了一種可解釋的卷積神經網絡，如圖2所示。該方法通過為卷積層中每個濾波器添加損失來獲得高層卷積層中可解釋表示。在可解釋卷積神經網絡中，每個濾波器所對應特征圖表

示某個物體組件。與此同時，該方法不需要標注任何物體組件或紋理來指導可解釋神經網絡學習。相反，該網絡會在“端到端”學習過程中自動為高層卷積層中每個濾波器分配一個物體組件。可解釋卷積網絡中的顯示知識表示可以幫助人們更好地理解卷積神經網絡中的邏輯。

5.2可解釋的區域卷積神經網絡

基于隱性結構學習和區域卷積網絡（RCNN）[43-45]，文獻[46]提出了一種用于物體檢測的可解釋區域卷積神經網絡。該方法是一種弱監督學習模型，可在物體檢測過程中自動展開物體組件的隱組件標記（partconfiguration），且不需要標注任何組件作為監督信息。文獻[46]使用了一種有向無環與或圖（AndOrGraph，AOG）模型，并利用該模型中的自上而下的層次和組合語法模型來模擬物體部位的隱標記，從而探索和展開興趣區域（RegionofInterest，RoI）的隱組件標記空間。與此同時，該方法提出了一種AOG解析運算符來替代RCNN中使用的興趣區域池化（RoIPooling）運算符。在物體檢測過程中，邊界框由AOG導出的最佳解析樹來解釋。該方法采用了一種折疊-展開的“端到端”的方法來訓練AOG和RCNN。

5.3膠囊網絡

文獻[47]提出了一種被稱為“膠囊”的新型神經單元，這種單元可代替傳統的神經單元以構建膠囊網絡。每個膠囊由一組神經元組成，這些神經元的活動向量（activityvector）表示某種實體類型的實例化參數。活動向量的長度表示實體出現概率，活動向量的方向表示實例化的參數。活躍的低層膠囊預測結果會通過轉移矩陣發送到相鄰更高層的膠囊之中。當多個預測信息一致時，高層膠囊會變得活躍。該方法使用協議路由（routingbyagreement）機制，該機制會為那些能更好擬合高層膠囊的實例化參數的低層膠囊分配更高權重。在MNIST[48]上的實驗表明，使用訓練膠囊網絡時，膠囊編碼了一個特定語義概念。膠囊活動向量的不同維度刻畫了不同特征，如（1）尺度和厚度;（2）局部部位;（3）筆畫粗細;（4）局部偏斜;（5）寬度和平移。

6發展趨勢與展望

6.1發展趨勢

關于深度學習的可解釋性的發展趨勢，對近5年（2014～2018年）發表在機器學習與人工智能相關的國際頂級會議（ICML，NeurIPS，AAAI，IJCAI，CVPR，ICCV/ECCV）上的論文進行調研，統計分析了題目包含“explain”或“interpret”的深度學習相關的論文，統計結果如表1所示。

近5年來，總共有101篇關于深度學習的可解釋性的論文發表在上述的關于機器學習和人工智能的七大國際頂級會議中，統計調查后發現：

（1）總體來講，深度學習的可解釋性是當前的一個研究熱點。關于深度學習可解釋性的論文在2014～2015年幾乎沒有，在2016年只有11篇，但在2018年卻增長到了62篇。

（2）關于深度學習的可解釋性的研究呈現出快速增長趨勢，且增長速度越來越快。2014～2015年的時候幾乎沒有關于深度學習的可解釋性的研究，但隨后以每年10余篇左右的增長趨勢增長，2018年關于深度學習的可解釋性的研究已經達到62篇。可以預見，之后兩年關于深度學習的可解釋性的研究會越來越多。

（3）上述各大機器學習與人工智能的會議既包含了理論又包含了應用，但每年關于深度學習的可解釋性的研究論文數量分布都較為均勻，體現了深度學習的可解釋性的理論價值和應用價值，從側面說明了深度學習的可解釋性的重要性。

6.2展望

2018年9月，美國國防高級研究計劃局（DARPA）啟動了被稱為“加速第三波”的人工智能探索（ArtificialIntelligenceExploration，AIE）項目，探索類人水平的交流和推理能力，以對新環境自適應。

DAPRA認為，第一波人工智能以符號主義人工智能為手段，主要處理語言和可描述信息;第二波人工智能在數據建模基礎上、從數據中學習模式，以模型假設的機器學習為手段;第三波人工智能以自適應和推理為核心目標。

美國國家科學基金會（NationalScienceFoundation，NSF）2018年12月啟動了“魯棒智能（robustintelligence）”項目，旨在對復雜和真實環境下的人工智能進行更好理解。

目前，深度學習的可解釋性研究雖然取得了一定的進展，但仍處于初級階段，還有許多值得研究的方向：

（1）深度學習+因果模型（causalmodeling）。因果計算指從觀察數據中發現事物間的因果結構和定量推斷，將深度學習與因果模型相結合，是研究深度學習的可解釋性的一種直觀和自然的方法。圖靈獎獲得者JudeaPearl教授曾通過三個層面來解釋因果與關聯之間的關系：關聯（association）是直接可從數據中計算得到的統計相關;介入（intervention）是無法直接從觀測數據就能得到關系，如“某個商品漲價會產生什么結果”;反事實（counterfactual）指某個事情已經發生了，那么在相同環境中，這個事情不發生會帶來怎樣的新結果。

（2）深度學習+推理（reasoning）。深度學習可以與推理在多個方向進行結合：a.常識推理（commonsensereasoning），將深度學習與常識相結合，形成可解釋的能自動推理的系統;b.類比計算（computationalanalogy），在復雜環境中，利用已有的案例和不完備的信息進行推理;c.時空推理（spatialtemporalreasoning），為智能體設計高級的控制系統，使其能導航和理解時間和空間。DARPA在2018年10月啟動了一個被稱為“機器常識（machinecommonsense）”的項目，研究如何從書本和已有數據中學習常識、如何從環境交互中學習常識以及如何測試常識能力等內容。《淮南子說山訓》中曾寫到：見一葉落，而知歲之將暮;審堂下之陰，而知日月之行，陰陽之變。人類具有這樣的常識推理能力，從一個現象“直覺聯想”到另外一個現象。

（3）認知理論和模型（cognitivetheoryandmodeling）。現有的許多深度學習模型都來源于對生物認知的模仿，如“神經網絡”一詞本身就表明其借鑒了生物的神經元結構，卷積神經網絡和長短時記憶網絡都可以看作是大腦皮層結構的模仿。要設計出更魯棒的可解釋的深度學習系統，可以考慮將更先進的認知理論和模型與深度學習系統相結合。

（4）智能人機交互（intelligenthumancomputerinteraction）。要設計出可解釋的智能深度學習交互系統，可從以下幾個方向考慮：人類認知建模、腦機接口、觸覺界面、人機交互和協作、用戶適應和個性化。

良好的人工智能模型應該是可解釋、更通用和自適應的，從數據、規則以及交互中永不停息（neverending）進行學習[49]。數據驅動的機器學習方法已經成功運用于自然語言、多媒體、計算機視覺、語音和跨媒體等領域，后續應以可解釋性作為切入點，通過注意力機制、記憶網絡、遷移學習、強化學習等手段與人類知識進行有機結合，從而實現從淺層計算到深度神經推理、從單純依賴于數據驅動的模型到數據驅動與知識引導相結合、從領域任務驅動智能到更通用條件下的強人工智能。

參考文獻：

[1]LeCunY，BengioY，HintonG.Deeplearning[J].Nature，2015，521（7553）：436-444.

[2]GoodfellowI，BengioY，CourvilleA，etal.DeepLearning[M].Cambridge：MITPress，2016.

[3]MikolovT，SutskeverI，ChenK，etal.DistributedRepresentationsofWordsandPhrasesandTheirCompositionality[C]∥AdvancesinNeuralInformationProcessingSystems，2013：3111-3119.

[4]WuFei，LuXiyan，SongJun，etal.LearningofMultimodalRepresentationswithRandomWalksontheClickGraph[J].IEEETransactionsonImageProcessing，2016，25（2）：630-642.

[5]KrizhevskyA，SutskeverI，HintonGE.ImagenetClassificationwithDeepConvolutionalNeuralNetworks[C]∥AdvancesinNeuralInformationProcessingSystems，2012：1097-1105.

[6]GravesA，JaitlyN.TowardsEndtoEndSpeechRecognitionwithRecurrentNeuralNetworks[C]∥Proceedingsofthe31stInternationalConferenceonMachineLearning，Beijing，2014：1764-1772.

[7]PengYuxin，HuangXin，ZhaoYunzhen.AnOverviewofCrossMediaRetrieval：Concepts，Methodologies，Benchmarks，andChallenges[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology，2018，28（9）：2372-2385.

[8]ZhangQuanshi，ZhuSongchun.VisualInterpretabilityforDeepLearning：ASurvey[J].FrontiersofInformationTechnology&ElectronicEngineering，2018，19（1）：27-39.

[9]SilverD，HuangA，MaddisonCJ，etal.MasteringtheGameofGowithDeepNeuralNetworksandTreeSearch[J].Nature，2016，529（7587）：484.

[10]SimonyanK，VedaldiA，ZissermanA.DeepInsideConvolutionalNetworks：VisualisingImageClassificationModelsandSaliencyMaps[EB/OL].（2014-04-19）[2018-11-29].https：∥arxiv.org/pdf/1312.6034.pdf.

[11]ZeilerMD，FergusR.VisualizingandUnderstandingConvolutionalNetworks[C]∥13thEuropeanConferenceonComputerVision，Zurich，2014：818-833.

[12]MahendranA，VedaldiA.UnderstandingDeepImageRepresentationsbyInvertingThem[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition，Boston，2015：5188-5196.

[13]SpringenbergJT，DosovitskiyA，BroxT，etal.StrivingforSimplicity：TheAllConvolutionalNet

[EB/OL].（2015-04-13）[2018-11-29].https：∥arxiv.org/pdf/1412.6806.pdf.

[14]DosovitskiyA，BroxT.InvertingVisualRepresentationswithConvolutionalNetworks[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition，LasVegas，2016：4829-4837.

[15]NguyenA，CluneJ，BengioY，etal.Plug&PlayGenerativeNetworks：ConditionalIterativeGenerationofImagesinLatentSpace[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），Honolulu，2017.

[16]FongRC，VedaldiA.InterpretableExplanationsofBlackBoxesbyMeaningfulPerturbation[C]∥IEEEInternationalConferenceonComputerVision（ICCV），2017.

[17]SelvarajuRR，CogswellM，DasA，etal.GradCAM：VisualExplanationsfromDeepNetworksviaGradientBasedLocalization[C]∥IEEEInternationalConferenceonComputerVision（ICCV），2017.

[18]RibeiroMT，SinghS，GuestrinC."WhyShouldITrustYou？"：ExplainingthePredictionsofAnyClassifier[C]∥Proceedingsofthe22ndACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining，2016：1135-1144.

[19]ZintgrafLM，CohenTS，AdelT，etal.VisualizingDeepNeuralNetworkDecisions：PredictionDifferenceAnalysis[C]∥InternationalConferenceonLearningRepresentations，Toulon，2017.

[20]KindermansPJ，SchüttKT，AlberM，etal.LearningHowtoExplainNeuralNetworks：PatternNetandPatternAttribution[C]∥InternationalConferenceonLearningRepresentations，Vancouver，2018.

[21]KumarD，WongA，TaylorGW.ExplainingtheUnexplained：AClassEnhancedAttentiveResponse（CLEAR）ApproachtoUnderstandingDeepNeuralNetworks[C]∥ProceedingsoftheIEEEComputerVisionandPatternRecognition（CVPR），Honolulu，2017.

[22]BabikerHKB，GoebelR.UsingKLDivergencetoFocusDeepVisualExplanation[EB/OL].（2018-01-25）[2018-11-29].https：∥arxiv.org/pdf/1711.06431.pdf.

[23]BachS，BinderA，MontavonG，etal.OnPixelWiseExplanationsforNonLinearClassifierDecisionsbyLayerWiseRelevancePropagation[J].PlosOne，2015，10（7）：e0130140.

[24]SzegedyC，ZarembaW，SutskeverI，etal.IntriguingPropertiesofNeuralNetworks[EB/OL].（2014-02-19）[2018-11-29].https：∥arxiv.org/pdf/1312.6199.pdf.

[25]YosinskiJ，CluneJ，BengioY，etal.HowTransferableareFeaturesinDeepNeuralNetworks？[C]∥AdvancesinNeuralInformationProcessingSystems，2014：3320-3328.

[26]AubryM，RussellBC.UnderstandingDeepFeatureswithComputerGeneratedImagery[C]∥ProceedingsoftheIEEEInternationalConferenceonComputerVision，2015：2875-2883.

[27]LuYao.UnsupervisedLearningonNeuralNetworkOutputs：withApplicationinZeroShotLearning[EB/OL].（2016-05-23）[2018-11-29].https：∥arxiv.org/pdf/1506.00990.pdf.

[28]PapernotN，McDanielP，JhaS，etal.TheLimitationsofDeepLearninginAdversarialSettings[C]∥SecurityandPrivacy（EuroS&P），IEEEEuropeanSymposiumonSecurityandPrivacy，Saarbrucken，2016：372-387.

[29]DongY，SuH，ZhuJ，etal.TowardsInterpretableDeepNeuralNetworksbyLeveragingAdversarialExamples[EB/OL].（2017-08-18）[2018-11-29].https：∥arxiv.org/pdf/1708.05493.pdf.

[30]RossAS，DoshiVelezF.ImprovingtheAdversarialRobustnessandInterpretabilityofDeepNeuralNetworksbyRegularizingTheirInputGradients[C]∥AAAI，2018：1660-1669.

[31]SuJ，VargasDV，KouichiS.OnePixelAttackforFoolingDeepNeuralNetworks[EB/OL].（2018-02-22）[2018-11-29].https：∥arxiv.org/pdf/1710.08864.pdf.

[32]KohPW，LiangP.UnderstandingBlackBoxPredictionsviaInfluenceFunctions[EB/OL].（2017-07-10）[2018-11-29].https：∥arxiv.org/pdf/1703.04730.pdf.

[33]ZhangQuanshi，WangWenguan，ZhuSongchun.ExaminingCNNRepresentationswithRespecttoDatasetBias[EB/OL].（2017-11-22）[2018-11-29].https：∥arxiv.org/pdf/1710.10577.pdf.

[34]LakkarajuH，KamarE，CaruanaR，etal.IdentifyingUnknownUnknownsintheOpenWorld：RepresentationsandPoliciesforGuidedExploration[C]∥AAAIConferenceonArtificialIntelligence，2017.

[35]HuZhiting，MaXuezhe，LiuZhengzhong，etal.HarnessingDeepNeuralNetworkswithLogicRules[EB/OL].（2016-11-15）[2018-11-29].https：∥arxiv.org/pdf/1603.06318.pdf.

[36]DongYinpeng，SuHang，ZhuJun，etal.ImprovingInterpretabilityofDeepNeuralNetworkswithSemanticInformation[EB/OL].（2017-03-30）[2018-11-29].https：∥arxiv.org/pdf/1703.04096.pdf.

[37]ChenJianfei，LiKaiwei，ZhuJun，etal.WarpLDA：ASimpleandEfficientO（1）AlgorithmforLatentDirichletAllocation[EB/OL].（2016-03-02）[2018-11-29].https：∥arxiv.org/pdf/1510.08628v1.pdf.

[38]HendricksLA，AkataZ，RohrbachM，etal.GeneratingVisualExplanations[C]∥14thEuropeanConferenceonComputerVision，Amsterdam，2016：3-19.

[39]ZhangQuanshi，CaoRuiming，WuYingnian，etal.GrowingInterpretablePartGraphsonConvNetsviaMultiShotLearning[C]∥AAAIConferenceonArtificialIntelligence，2017：2898-2906.

[40]ZhangQuanshi，CaoRuiming，ShiFeng，etal.InterpretingCNNKnowledgeviaanExplanatoryGraph[C]∥AAAIConferenceonArtificialIntelligence，2018.

[41]ZhangQuanshi，YangYu，WuYingnian，etal.InterpretingCNNsviaDecisionTrees[EB/OL].（2018-02-01）[2018-11-29].https：∥arxiv.org/pdf/1802.00121.pdf.

[42]ZhangQuanshi，WuYingnian，ZhuSongchun.InterpretableConvolutionalNeuralNetworks[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition（CVPR），2018：8827-8836

[43]GirshickR，DonahueJ，DarrellT，etal.RichFeatureHierarchiesforAccurateObjectDetectionandSemanticSegmentation[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition，2014：580-587.

[44]GirshickR.FastRCNN[C]∥ProceedingsoftheIEEEInternationalConferenceonComputerVision，Santiago，2015：1440-1448.

[45]RenShaoqing，HeKaiming，GirshickR，etal.FasterRCNN：TowardsRealTimeObjectDetectionwithRegionProposalNetworks[J].IEEETransactionsonPatternAnalysis&MachineIntelligence，2015，39（6）：1137-1149.

[46]WuTianfu，SunWei，LiXilai，etal.TowardsInterpretableRCNNbyUnfoldingLatentStructures[EB/OL].（2018-09-06）[2018-11-29].https：∥arxiv.org/pdf/1711.05226.pdf.

[47]SabourS，FrosstN，HintonGE.DynamicRoutingbetweenCapsules[C]∥AdvancesinNeuralInformationProcessingSystems，2017：3856-3866.

[48]LeCunY.TheMNISTDatabaseofHandwrittenDigits[EB/OL].[2018-11-29].http：∥yann.lecun.com/exdb/mnist/，1998.

[49]ZhuangYueting，WuFei，ChenChun，etal.ChallengesandOpportunities：FromBigDatatoKnowledgeinAI2.0[J].FrontiersofInformationTechnology&ElectronicEngineering，2017，18（1）：3-14.