空間金字塔分解的深度可視化方法

2017-11-08 02:33:55付忠良王莉莉

哈爾濱工業大學學報 2017年11期

關鍵詞：可視化深度模型

陶攀，付忠良，朱鍇，王莉莉

(1.中國科學院成都計算機應用研究所，成都 610041； 2.中國科學院大學，北京 100049)

空間金字塔分解的深度可視化方法

陶攀1,2，付忠良1,2，朱鍇1,2，王莉莉1,2

(1.中國科學院成都計算機應用研究所，成都 610041； 2.中國科學院大學，北京 100049)

針對基于深度卷積神經網絡的圖像分類模型的可解釋性問題，通過評估模型特征空間的潛在可表示性，提出一種用于改善理解模型特征空間的可視化方法. 給定任何已訓練的深度卷積網絡模型，所提出的方法在依據原輸入圖像使得模型類別得分激活最大化時，首先對反向傳播的梯度進行歸一化操作，然后采用帶動量的隨機梯度上升訓練策略，反向回傳修改原輸入圖像. 引入了通過激活最大化獲得的圖像可解釋性的正則化方法，常規正則化技術不能主動調整模型特征空間的潛在可表示性，結合現有正則化方法提出空間金字塔分解方法，利用構建多層拉普拉斯金字塔主動提升目標圖像特征空間的低頻分量，結合多層高斯金字塔調整其特征空間的高頻分量得到較優可視化效果. 通過限制可視化區域，提出利用類別顯著性激活圖技術加以壓制上下文無關信息，可進一步改善可視化效果. 對模型學習到的不同類別和卷積層中單獨的神經元進行合成可視化實驗，實驗結果表明提出的方法在不同的深度模型和不同的可視化任務中均能取得較優的可視化效果.

深度可視化；金字塔分解；激活最大化；卷積神經網絡；激活圖

以深度卷積神經網絡(Convolutional Neural Network，CNN)為代表的深度學習對計算機視覺和機器學習領域產生了深遠影響. 但是完全理解深度學習模型的內在工作原理，設計高性能的深度網絡結構還是很困難的，一直以來人們普遍將其內部工作原理看成一個“黑箱”，這是由于深度CNN存在海量參數，多次迭代更新生成輸入輸出之間相當不連續和非線性的映射函數；以及對參數的初始狀態敏感，存在很多局部最優點. 探究CNN的運行機制，核心在于它究竟自動提取什么樣的特征，經過卷積層、池化層，特征都是分布式表達的，每個特征反映在原圖上都會有重疊，故希望建立特征圖與原圖像之間的聯系，即深度可視化. 該技術試圖尋找深度模型所提取各層特征較好的定性解釋，并在設計開發新網絡結構方面扮演重要角色.

目前針對CNN可視化的研究，主要集中在如何理解CNN從海量數據中自動學習到的，能反映圖像本質的分層特征表達，即獲得網絡中隱藏層神經元與人類可解釋性概念之間的聯系. 最直接的方法是展示學習得到的卷積核和相應的特征圖，但除了首層卷積核和特征圖有直觀的解釋外，其余各層并沒有可解釋性. 從信號處理的角度看，基于CNN高層特征的分類器在輸入域，需要較大感知野，才能對以由低頻為主的輸入圖像進行多層非線性響應，并對小的輸入改變產生平滑不變輸出. 同時，由于經過非線性激活函數變換和池化，引入空間不變性獲得更好識別性能的同時，也對可視化帶來新的挑戰.

深度可視化技術可以簡單分為三類：基于梯度更新的方法[1-6]；基于特征重建的方法[7-10]；基于相關性的方法[11-12]. 基于網絡梯度更新的思想是由Erhan等[1]引入，固定模型參數通過梯度更新改變輸入值，最大化激活單一神經元或標簽類別概率. 激活最大化生成的非自然圖像還可以是網絡模型的對抗樣本[13]. Simonyan等[2-3,14]通過梯度上升方法迭代尋找使得最大化激活CNN某個或某些特定的神經元的最優圖像，其假設神經元對像素的梯度描述了當前像素的改變能影響分類結果的強度. 文獻[2]引入L2正則化先驗(或稱權重衰減)，改進可視化效果. Yosinski等[4]進一步提出高斯模糊正則化、梯度剪切等技術，其中梯度剪切指的是每次只更新對分類最有利的一部分梯度，改善生成圖像質量. 文獻[3,6]考慮神經元的多面性和利用生成網絡作為自然圖像的先驗來合成更自然的圖像.

Zeiler等[7]提出利用反卷積網絡，利用反向傳播重構各層特征到像素空間的映射，并用于指導設計調優網絡結構，提高分類識別精度. 在反卷積過程中利用翻轉原卷積核近似作為反卷積核，針對特定特征圖在訓練集上重新訓練. Dosovitskiy等[8]提出通過學習‘上’卷積網絡來重建CNN各層的特征，指出結合強先驗，即使用于分類的高層激活特征也包含顏色和輪廓信息. Mahendran等[9-10]通過對學習到的每層特征表達進行反編碼重建，提出利用全變分正則化和自然圖像先驗，并將L2范數正則化推廣到p范數正則化，得到較優的可視化效果.

本文主要關注前兩種方法中的正則化技術，基于相關性分解方法請參考文獻[12]. 受文獻[15-16]啟發，把用于圖像生成的拉普拉斯金字塔，進一步擴展成空間金字塔分解方法，并引入顯著性激活圖技術進一步改進深度CNN的可視化效果.

1 可視化方法的數學模型

激活最大化和特征表達反編碼重建均是針對已經訓練好的模型，對給定輸入xi∈RC×H×W，其中C為顏色通道數，H，W為圖像高和寬. CNN模型可抽象為函數φ:RC×H×W→Rd，其第i個神經元的激活值為φi(x)，對給定圖像x0的特征編碼φ0=φ(x0)，定義參數θ的正則化項Rθ(x)，尋找使得能量泛函最小化的初始輸入x*，其數學模型為

(1)

(2)

激活最大化方法是文獻[1]中提出針對深度架構中任意層中的任意神經元所提取的特征，尋找使一個給定的隱含層單元的響應值φ0∈Rd最大的輸入模式，可由內積形式定義損失為

(φ(x),φ0)=-〈φ(x),φ0〉.

(3)

式中φ0需人工指定，最大化激活的目標可以是全連接層的特征向量，也可以是卷積層某一通道的某一神經元的激活值.

特征表達的反編碼重建，通過最小化給定特征向量與重建目標圖像特征向量間的損失，一般采用歐式距離來衡量損失誤差，定義如下:

(φ(x),φ0)=.

(4)

但也可利用其它距離度量函數來評價損失.

2 梯度更新的可視化方法

用于分類的深度CNN提取高層語義信息的同時，丟失了大量低層結構信息. 由于首層卷積核大都類似Gabor濾波器，導致梯度更新可視化生成圖像中包含許多高頻信息，雖然能產生大的響應激活值，但對可視化來說導致生成的圖像是不自然的. 還由于網絡模型的線性操作(如卷積)導致對抗樣本[13]的存在，為得到更類似真實自然圖像的可視化結果，需在優化目標函數中引入正則化作為先驗.

2.1p范數正則化方法

(5)

式中：h，w表示圖像的行和列大小，c表示顏色通道數，對比發現，文獻[2]提出的L2正則化是忽視各顏色通道的差異的，正則化的力度可通過縮放常量p進行控制，即使得圖像像素值大小保持在合適的范圍內.

2.2高斯模糊和TV變分

基于梯度更新可視化方法，引入高斯濾波器主動懲罰高頻信息[4]，高斯模糊核半徑大小由高斯函數的標準差控制，可隨迭代次數動態調整模糊核大小.

全變分[10](Total Variance，TV)跟高斯模糊類似，鼓勵可視化生成分片的常量塊區域，對離散圖像全變分操作可由有限差分來近似求解為

(6)

式中β=1，但其在可視化過程中，在圖像的平坦區域并不存在邊緣，全變分操作仍沿著邊緣方向擴散就會導致出現虛假的邊緣，會引入所謂的“階梯效應”現象.β<1時結合超拉普拉斯先驗[17]能更好匹配自然圖像的梯度統計分布，但對可視化來說反而使得可視化更困難. 文獻[10]實際實驗表明，跟高斯模糊核一樣，需隨迭代次數動態調整β大小.

2.3基于數據統計先驗

由于常規可視化方法并沒有對顏色分布進行建模，文獻[3]提出通過引入外部自然圖像數據，計算圖像色塊先驗為

(7)

式中：p為塊索引，xp表示稠密采樣的歸一化圖像塊，Dp表示自然圖像塊數據庫中距離xp最近圖像塊. 該方法跟文獻[15]中利用參考圖像“指導”人臉圖像嵌入重建類似. 并且基于數據的統計先驗可進一步擴展，引入生成對抗網絡，利用生成網絡主動生成自然圖像先驗[5].

3 空間金字塔分解

正則化先驗主動限制圖像空間中高頻率和高振幅信息，生成的可視化圖像存在如下問題：1)彩色圖像的顏色分布仍是不自然的. 2)生成的圖像中包含可識別類別對象的多個重復成分，并且這些部件不能組合成完整的有意義整體. 3)缺乏令人可信的低頻細節，存在棋盤效應，只是形似. 針對這些問題提出利用空間金字塔分解，主動提升低頻信息和調控高頻信息以改善生成圖像的可視化效果.

3.1高斯和拉普拉斯金字塔分解

拉普拉斯金字塔(Laplacian Pyramid，LP)[18]是由一系列包含帶通濾波器在尺度可變的圖像上加低頻殘差組成的. 首先通過高斯平滑和亞采樣獲得多尺度圖像，即第K層圖像通過高斯模糊、下采樣就可獲得K+1層，反復迭代多次構建高斯金字塔(Gaussian Pyramid，GP). 用高斯金字塔的K層圖像減去其第K+1層圖像上采樣并高斯卷積之后的預測圖像，得到一系列的差值圖像即為拉普拉斯金字塔分解圖像.

拉普拉斯金字塔分解過程(見圖1所示)包括4個步驟: 1)高斯平滑G0..n; 2)降采樣(減小尺寸); 3)上采樣并高斯卷積(圖中expand操作); 4)帶通濾波(圖像相減)L0..n. 拉普拉斯金字塔突出圖像中的低頻分量，拉普拉斯金字塔分解的目的是將源圖像分解到不同的空間頻帶上.

圖1 高斯和拉普拉斯金字塔

(8)

式中：k代表構建k層金字塔分解，本文實驗k選取為4.LPk(x)為第k層的拉普拉斯金字塔分量，GPk(x)為第k層的高斯金字塔分量.

3.2梯度歸一化

基于梯度更新的可視化方法，由于原輸入空間中高低頻分量混雜在一起，對原輸入圖像相應的更新梯度進行歸一化操作能得到較好可視化效果，即對輸入圖像每次迭代更新的梯度g=?φi(x)/?x，則提出梯度歸一化操作：

(9)

式中：δ為非負小常量，std表示梯度矩陣的方差. 該梯度中心歸一化技術，可以減少產生重復的對象碎片的傾向，而傾向于產生一個相對完整對象. 梯度歸一化的引入同批歸一化(Batch Normalization)思想類似，校正CNN網絡非線性變換引起的“偏移”，該方法也側面驗證最新提出的分層歸一化[20]的有效性.

3.3類別激活圖限制可視化區域

根據文獻[26]提出的類別激活圖技術，假設fj(x,y) 表示最后的卷積層空間(x,y)位置上第j個神經元的激活值，則對j神經元的全局平均池化操作結果對給定類別k的得分函數Sk：

(10)

(11)

式中Mk表明在空間(x,y)位置的激活值對分類結果影響的重要性. 對類別激活映射圖直接雙線性插值得到與原輸入圖像大小相等的顯著性圖. 本文利用顯著性激活圖作為梯度更新的權重因子，即輸入變為原始輸入圖像與類別激活圖的加權乘積. 動機是要求網絡梯度更新保持在類別顯著性區域內，壓制無關背景信息的生成. 具體詳情請參見第四章實驗部分.

3.4優化方法

深度CNN模型優化策略的核心是隨機梯度下降法，常用方法是帶動量的隨機梯度下降法為：

Vt=μVt-1-αf(xt),

(12)

xt+1=xt+Vt.

(13)

式中：μ為動量因子表示保持原更新方向的大小，一般選取0.9，xt為在t時刻待更新的梯度，α為學習率；文獻[9-10]采用自適應梯度(Adaptive Gradient，AdaGrad)[21]的變種算法，根據歷史梯度信息自適應調整學習率. 同時文獻[22]采用的二階優化算法針對紋理和藝術風格重建問題，得到比用基于一階隨機梯度下降算法更優的可視化效果. 但本文通過實驗對比發現對各種優化方法對生成圖像質量影響不大，從簡選擇帶動量的隨機梯度優化方法.

4 實驗結果分析和討論

基于梯度更新的可視化方法主要用于激活最大化和特征重建，但文獻[23]指出用隨機未訓練的CNN模型也能較好重建原圖像，表明特征編碼重建不能很好解釋訓練得到CNN模型的內在工作機理. 本文實驗主要關注在對ImageNet公開數據集上預先訓練得到的分類模型進行激活最大化可視化實驗.

4.1不同深度模型的類別可視化

實驗選取的深度模型來自于開源社區的Caffe model zoo，不同的CNN模型如：AlexNet模型[24]，Vgg-19模型[25]，Google-CAM模型[26]，GoogleNet模型[27]，ResNet模型[28]，其分類識別性能依次從低到高，模型的復雜程度依次遞增. 本文實驗默認采用提出的梯度歸一化，并引入多分辨率、隨機擾動和剪切等小技巧作為通用設置，提高可視化效果.

為比較不同深度CNN模型學習相同類別時特征圖的差異，根據式(1)，給定高斯噪聲生成隨機圖像作為輸入，指定可視化物體類別向量(見圖2所示，類別為所有類別中的第13類布谷鳥)，施加前文提出不同正則化項的組合：p范數、高斯模糊和金字塔分解正則化.

圖2結果表示5種CNN模型在相同正則化方法和相同梯度更新策略下的可視化效果，對比圖2中(a)，(b)，(c)發現隨著網絡模型深度的增加，可視化難度增大分類性能同可視化效果一致；Vgg-19模型由于跟ResNet模型卷積核大小類似，且比AlexNet首層卷積核小(7和3)，即可視化效果傾向生成比AlexNet更大尺寸的物體. 而由圖2中a，d，e對比可知，由于GoogleNet模型中卷積層的卷積核大小不一，使得可視化結果中引入更多細節. 綜合可知，基于GoogleNet模型的可視化效果最好，后面實驗均是在其模型的基礎上進行實驗比較.

(a) AlexNet (b)Vgg-19 (c)ResNet (d)GoogleNet (e)Google-CAM

4.2不同正則化方法的類別可視化

為驗證不同正則化方法對理解深度模型的特征達的影響，采取前文所述的不同正則化方法，可視化效果結果見圖3所示，從上到下依次可視化類別為金甲蟲，海星，蝎子，酒壺，卷筆刀.

圖3中(a)列僅施加默認設置和不加梯度歸一化的結果，由于輸入的隨機性，并不能保證每次都生成有意義的可視化結果，但引入本文提出的梯度歸一化后，能大概率生成可視化結果見圖3(b)列所示，圖3(c)列表示只采用p范數正則化，跟文獻[2]一致取2，使得圖像更平滑，但仍與真實圖像相差較大. 通過前文理論分析和實驗驗證，全變分跟高斯模糊作用類似，本文采用根據迭代輪數動態調整高斯模糊核大小，具體是在剛開始采用較大值希望生成物體大概輪廓，隨迭代逐漸調小模糊核使得更多細節生成，具體見圖3(d). 但是這個參數無法自適應設置為最優，對圖像高低頻分量無法調整控制，而本文提出的利用金字塔分解正則化方法能從粗到細調整，產生較優結果見圖3(e)列所示.

(a) original (b) 梯度歸一 (c)p范數 (d) Blur (e) Our

圖3不同正則化方法的可視化效果

Fig.3 The visualization of different regularization

4.3金字塔分解可視化實驗結果

為驗證提出金字塔分解正則化方法，對中間層卷積核的可視化，采用前文提出式(8)，指定深度CNN模型中不同卷積層中不同通道，利用前文提出的帶動量的梯度更新策略，可視化結果見圖4，其中從上到下依次為GoogleNet模型低中高層不同通道的可視化結果，與文獻[7]一致，低層多尺度分辨率生成的紋理見圖4首行所示，中層是一些物體部件，見圖4中間行所示蜜蜂的局部結構，而高層是更完整的抽象概念見圖4下層中完整的花瓣. 對比圖4(b)、(c)列，可驗證拉普拉斯金字塔主動分解提升圖像部分低頻成分，而高斯金字塔分解生成的圖像中高頻細節更突出.

4.4引入類別顯著性的可視化

通過觀察之前可視化結果可知，生成的圖像中除了該類別外仍有許多額外的上下文信息(見圖2中鳥類別的樹枝)，這些信息與模型的分類能力相關聯，可通過引入類別激活圖可改善可視化效果. 迭代更新過程中依據采用式(11)，使用類別激活圖作為加權因子限制迭代更新區域.

(a) 多尺度分辨率 (b) 拉普拉斯金字塔 (c) 高斯金字塔

實驗結果見圖5(a)所示，具體實驗設置和圖2采用的參數一致，使用提出的金字塔分解正則化技術，圖5(b)為圖5(a)相應的類別激活圖，圖5(a)結果表明與類別無關的上下文信息得到抑制，但仍存在兩個類別中心.

(a) 可視化結果 (b) 類別激活

5 總結

本文針對理解深度CNN特征空間存在的問題，提出一種用于改善深度CNN分類模型的可視化方法. 其中通過改善激活最大化可視化技術來產生更具有全局結構的細節、上下文信息和更自然的顏色分布的高質量圖像. 該方法首先對反向傳播的梯度進行歸一化操作，在常用正則化技術的基礎上，提出使用空間金字塔分解圖像不同頻譜信息；為限制可視化區域，提出利用類別顯著激活圖技術，可以減少優化產生重復對象碎片的傾向，而傾向于產生單個中心對象以改進可視化效果. 激活最大化可顯示CNN在分類時關注什么. 這種改進的深度可視化技術將增加我們對深層神經網絡的理解，進一步提高創造更強大的深度學習算法的能力. 該方法適用于基于梯度更新的可視化領域，是對網絡模型整體的理解，具體各層特征怎么耦合成語義信息仍需進一步探索，深度CNN模型如何重建一個完整的類別概念，仍是一個開放性問題.

[1] ERHAN D, BENGIO Y, COURVILLE A, et al. Visualizing higher-layer features of a deep network[R]. University of Montreal(1341), 2009.

[2] KAREN S, ANDREA V, ANDREW Z. Deep inside convolutional networks visualising image classification models and saliency maps[C]// International Conference on Learning Representations. San Francisco: ICLR, 2013: 1-8.

[3] LENC K, VEDALDI A. Understanding image representations by measuring their equivariance and equivalence[C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: CVPR, 2015: 991-999.

[4] YOSINSKI J, CLUNE J, NGUYEN A, et al. Understanding neural networks through deep visualization[C]//Deep Learning Workshop, International Conference on Machine Learning. Lille, ICML, 2015:1-9.

[5] NGUYEN A, DOSOVITSKIY A, YOSINSKI J, et al. Synthesizing the preferred inputs for neurons in neural networks via deep generator networks[C]//Advances in Neural Information Processing Systems.Barcelona: NIPS, 2016:1-29.

[6] NGUYEN A, YOSINSKI J, CLUNE J. Multifaceted feature visualization: uncovering the different types of features learned by each neuron in deep neural networks[C]//Proceedings of the Workshop on Visualization for Deep Learning at International Conference on Machine Learning. New York: ICML, 2016: 1-23.

[7] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//Computer Vision-ECCV 2014.Zurich:Springer,2014:818-833.DOI: 10.1007/978-3-319-10590-1_53.

[8] DOSOVITSKIY A, BROX T. Inverting visual representations with convolutional networks[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada:CVPR,2016:1063-6919.DOI:10.1109/CVPR.2016.522.

[9] MAHENDRAN A, VEDALDI A. Visualizing deep convolutional neural networks using natural pre-images[J]. International Journal of Computer Vision, 2016,120(3): 233-255. DOI:10.1007/s11263-016-0911-8.

[10]MAHENDRAN A, VEDALDI A. Understanding deep image representations by inverting them[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston:CVPR,2015:5188-5196.DOI:10.1109/CVPR.2015.7299155.

[11]CAO C, LIU X, YANG Y, et al. Look and think twice: capturing top-down visual attention with feedback convolutional neural networks[C]//IEEE International Conference on Computer Vision. Santiago, IEEE, 2015: 2956-2964. DOI: 10.1109/ICCV.2015.338.

[12]BACH S, BINDER A, MONTAVON G, et al. Analyzing classifiers: fisher vectors and deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada:CVPR,2016:2912-2920.DOI:10.1109/CVPR.2016.318.

[13]GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and Harnessing Adversarial Examples[C] //International Conference on Learning Representations. San Diego:ICLR, 2015: 1-11.

[14]SZEGEDY C, ZAREMBA W, SUTSKEVER I. Intriguing properties of neural networks[C]// International Conferenceon Learning Representations. Banff:ICLR,2014: 1-10.

[15]SCHROFF F,KALENICHENKO D,PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston:CVPR,2015:815-823.DOI:10.1109/CVPR.2015.7298682.

[16]DENTON E, CHINTALA S, SZLAM A, et al. Deep generative image models using a laplacian pyramid of adversarial networks[C]//Advances in Neural Information Processing Systems 28. Montréal, Quebec:NIPS, 2015: 1486-1494.

[17]KRISHNAN D, FERGUS R. Fast image deconvolution using hyper-laplacian priors[C]//Advances in Neural Information Processing Systems. Vancouver, BC:NIPS, 2009: 1-9.

[18]BURT P, ADELSON E. The laplacian pyramid as a compact image code[J].IEEE Transactions on Communications, 1983, 31(4): 532-540. DOI: 10.1109/TCOM.1983.1095851.

[19]VANDER S A, VANHATEREN J H. Modelling the power spectra of natural images: statistics and information[J]. Vision Research, 1996, 36(17): 2759-2770. DOI: 10.1016/0042-6989(96)00002-8.

[20]IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille: 2015: 448-456.

[21]DUCHI J, HAZAN E, SINGER Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12: 2121-2159.

[22]GATYS L A, ECKER A S, BETHGE M. Texture synthesis using convolutional neural networks[C]//Advances in Neural Information Processing Systems. Montréal, Quebec:NIPS, 2015: 1-10.

[23]HE K, WANG Y, HOPCROFT J. A powerful generative model using random weights for the deep image representation[C]//Advances in Neural Information Processing Systems. Barcelona:NIPS, 2016:1-8.

[24]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances In Neural Information Processing Systems. Long Beach: NIPS, 2012: 1-9.

[25]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//International Conference on Learning Representations. San Diego:ICLR, 2015: 1-14.

[26]ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Learning deep feature for discriminative localization[C] //2015 IEEE Conference on Computer Vision and Pattern Recognition.Washington, DC:CVPR,2016:2921-2929.DOI:10.1109/CVPR.2016.319.

[27]SZEGEDY C, WEI L, YANGQING J, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Washington, DC:CVPR, 2015(2): 1-9. DOI: 10.1109/CVPR.2015.7298594.

[28]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Washington, DC:CVPR, 2016, 7(3): 171-180. DOI: 10.1109/CVPR.2016.90.

Deepvisualizationbasedonthespatialpyramiddecomposition

TAO Pan1,2, FU Zhongliang1,2, ZHU Kai1,2, WANG Lili1,2

(1. Chengdu Institute of Computer Application, Chinese Academy of Sciences, Chengdu 610041, China;2. University of Chinese Academy of Sciences, Beijing 100049, China)

Focusing on the interpretability problems of image classification models based on deep convolutional neural network, a visualization method for improving the feature space of model is proposed by evaluating the potential expressiveness of model feature space. Given any pre-trained deep model, firstly the method generates an image by the normalized operation of the gradient in the back propagation, which maximizes activation the class score, and then uses the momentum of the stochastic gradient descent training strategy for back propagation to the original input image. The conventional regularization technique cannot adjust the feature space of the model. Therefore, the spatial pyramid decomposition method is proposed on the basis of the existing regularization method. By constructing the multi-layer Laplacian spatial pyramid, the low frequency component of the target image feature space is promoted, combined with multi-layer Gaussian spatial pyramid to adjust the high-frequency components of its feature space to obtain a better visualization effect. By limiting the region of visualization, it is proposed to use the class activation map to suppress the context-free information, which can further improve the visualization effect. The visualization experiments are performed on the different classes of the model and the individual neurons of the convolution layer. Results show that the proposed method can achieve better visualization effect in different depth models and different visualization tasks.

deep visualization; pyramid decomposition; maximize activation; convolutional neural network; activation map

10.11918/j.issn.0367-6234.201612087

TP391.41

0367-6234(2017)11-0060-06

2016-12-15

中國科學院西部之光人才培養計劃項目

陶攀(1988—),男,博士研究生

付忠良， Fzliang@netease.com

(編輯苗秀芝)

空間金字塔分解的深度可視化方法

1 可視化方法的數學模型

2 梯度更新的可視化方法

3 空間金字塔分解

4 實驗結果分析和討論

5 總 結

5 總結