彈載融合圖像深度卷積網絡視覺解釋

2022-12-16 04:01:16錢立志楊傳棟

彈箭與制導學報 2022年5期

薛松，錢立志，楊傳棟

(1 陸軍炮兵防空兵學院兵器工程系，合肥 230031； 2 陸軍炮兵防空兵學院高過載彈藥制導控制與信息感知實驗室，合肥 230031； 3 陸軍炮兵防空兵學院研究生隊，合肥 230031)

0 引言

在過去十幾年中，卷積神經網絡(convolutional neural networks，CNN)等網絡模型在計算機視覺領域得到了成功應用，解決了一系列復雜的問題并實現了顯著的突破，具體表現在圖像分類[1-3]、目標檢測[4-5]、語義分割[6]等方面。雖然這些網絡模型展現出了卓越的性能，但是由于缺乏可分解性，研究者們無法明確而直觀地理解和解釋其中的組成和功能[7]。因此又將這些深度網絡稱為 “黑盒”。

針對CNN難以理解的問題，研究者們開展了大量的工作，Zeiler和Fergus[8]開創了理解CNN學習內容的先河，但是該方法計算量大，過程復雜。此后，類激活映射(class activation mapping，CAM)系列方法嶄露頭角。 Zhou等[9]提出了CAM方法。CAM計算的結果為最后一個卷積層激活映射經過全局平均池化(global average pooling，GAP)層，并對倒數第二層的結果特征圖進行加權組合。

隨后Selvaraju等[7]提出了梯度加權類激活映射(gradient-weighted class activation mapping，Grad-CAM)的方法。Grad-CAM擴展了CAM中權重函數的描述。該方法將像素空間梯度可視化同CAM方法相結合，突出圖像的細粒度細節，使得基于CNN的模型更加透明。但是該方法顯著圖對目標的捕獲效果不夠充分。

Chattopadhay等[10]為解決這一問題提出了一種更為通用的用于解釋CNN決策的可視化技術，稱為Grad-CAM++。該方法再次更改了權重函數的計算方法。此后研究者們深入研究，提出了多種CAM系列的改進方法，如Ablation-CAM[11]、XGrad-CAM[12]等。

這些方法在自然場景類圖像上有著較為良好的效果，基本能夠通過顯著圖對圖像上目標區域進行較為準確的定位，但是對于圖1(a)所示可見光-紅外彈載融合圖像的視覺解釋效果較差。一方面就彈載圖像本身而言，其導引頭在獲取圖像過程中易受外部條件干擾，成像環境復雜，降質因素偶發性強[13]。另一方面對于其融合圖像，是一種既有可見光圖像的高分辨率細節信息，又能突出紅外目標特征的信息互補圖像[14]，其在視覺感知上要差于傳統自然場景圖像。因此對于視覺解釋，顯著圖往往存在噪聲干擾和定位偏差。從圖1可以看出Grad-CAM,Ablation-CAM,XGrad-CAM目標顯著性表現不夠良好，目標和背景的定位區分出現錯誤；Grad-CAM++雖然能較為準確區分目標和背景，但是目標的定位出現一定的偏差，有較多噪聲存在。

圖1 彈載融合圖像視覺可視化顯著圖

因此為解決可見光-紅外彈載融合圖像的視覺解釋效果較差的問題，實現該類圖像目標的精確定位，參考經典理論及算法框架，提出了一種新的針對可見光-紅外彈載融合圖像的視覺解釋方法。方法重新定義了神經網絡的梯度表示方法，引入置信度提升實現神經網絡重組梯度映射，最終通過權重參數和重組梯度映射的線性組合得到類激活映射。

1 算法模型

1.1 網絡梯度表示

文獻[7，9-10]通過使用最后一個卷積層的梯度信息來表示每個通道的激活映射。重新定義每個通道中的梯度信息。

定義具有偏差b∈RF的ReLU神經網絡：f:RD→R，R表示網絡單元，D表示維度。對于網絡輸入x∈RD，可得神經網絡函數：

(1)

式中：b∈RF為網絡中含有F個偏差b。研究表明該偏差由顯式偏差和隱式偏差組成，且隱式偏差通常比顯式偏差占比大得多[15]。因此對于x附近的第i個鄰域內的隱式偏差進行線性化處理，可得：

(2)

1.2 基于梯度的置信度提升

(3)

(4)

1.3 網絡激活映射

(5)

因此對于式(2)所表示的完整梯度，整個神經網絡對于類c的激活映射計算為：

(6)

式中：U[B(·)]表示對輸入梯度映射進行雙線性差值后上采樣，使其與偏差梯度映射具有相同大小的尺寸空間。

2 實驗驗證

為了表明算法的有效性，開展多種不同的實驗進行算法驗證。方法包括主觀可視化評估、客觀指標評價、目標定位。模型使用ResNet-50。

由于真實場景的可見光-紅外彈載圖像難以獲取，因此參考彈載圖像成像特點，采用公開的航拍圖像數據庫以及無人機彈載吊艙偽裝目標實拍圖組成的彈載圖像數據集開展實驗。選擇6組不同場景的融合圖像進行實驗驗證，實驗圖像如圖2所示，場景包含河道、道路、車場、機場、戰場1、戰場2。其中圖2(a)～圖2(d)為VEDAI數據集融合圖像，圖2(e)～圖2(f)為彈載吊艙實拍融合圖像。參考文獻[16]的方法將輸入圖像大小調整為224像素×224像素，并將其變換至范圍[0,1]，然后使用均值向量[0.485,0.456,0.406]和標準差向量[0.229,0.224,0.225]進行歸一化。

圖2 實驗圖像

2.1 主觀可視化評估

將文中方法與對比方法在圖2所示的實驗圖像上進行可視化對比測試，對比方法包括：Grad-CAM[7]，Grad-CAM++[10]，Score-CAM[16]，XGrad-CAM[12]，Ablation-CAM[11]。測試結果如圖3所示。

圖3 彈載融合圖像可視化顯著圖結果

從圖3可以看出，針對圖2中的6幅不同場景的融合圖像，文中方法和對比方法融合圖像的顯著圖都能夠針對融合圖像的目標進行定位，但相較于對比方法，文中方法在視覺上表現出了明顯的優越性。對于圖2中VEDAI數據集融合圖像，大部分對比方法的顯著圖對圖2(a) 場景中的船只無法捕獲，Score-CAM顯著圖雖然準確地標記了船只，但由于周圍場景的干擾，存在錯誤標記現象，而文中方法顯著圖不僅能夠準確地標記船只，同時對錯誤標記能夠進行抑制。圖2(b)和圖2(d)場景中的道路車輛和機場的飛機，文中方法的顯著圖均能夠準確標記，而對比方法則存在漏標、誤標，如圖3中(b)，(c)，(e)，(f)列Grad-CAM，Grad-CAM++，XGrad-CAM和Ablation-CAM方法所示，甚至出現無法標記的情況，如圖3(d)列Score-CAM方法所示。對于圖2中(e)，(f)，由于其為偽裝目標實拍圖，圖像中目標與周圍場景存在一定的相似性，因此采用對比算法獲得的可視化顯著圖存在目標漏標、誤標、無法標記現象。而文中方法可視化顯著圖則能夠準確地標記目標區域，且周圍場景干擾現象較少，展現出了明顯的優越性。

2.2 客觀指標評價

選擇兩類不同的指標開展客觀評價，分別為平均下降(average drop，AD)和平均提升(average increase，AI)。這兩類指標是一組互補指標，AD計算的是當只有解釋映射作為輸入時，圖像中特定類別的模型置信度的平均下降百分比，該值越小越好，表明分數下降程度低；AI計算的是當提供解釋映射區域作為輸入時，模型置信度增加時的百分比，其值越大越好，表明分數上升程度高。計算公式為：

(7)

表1為對彈載圖像數據集的融合圖像進行兩類指標的計算結果。從表1可以看出文中方法的指標AD達到了37.6%，在指標AI上達到了31.7%，這兩類指標數值均優于對比算法指標測試結果。指標數值結果表明文中方法構建的模型在識別任務上具有良好的表現，且能夠成功地捕獲目標對象的可分辨區域。表1的客觀指標評價結果與圖3所示的主觀可視化結果相一致，表明了文中方法能更為準確真實地反映卷積神經網絡模型的決策過程。

表1 客觀指標評價對比測試結果

為了更為準確全面地比較，對圖3中各方法獲得的顯著圖開展了刪除和插入測試[17]。刪除指的是顯著圖中越來越多的與類別相關的像素刪除將導致分類分數顯著下降，預測概率降低；而插入指的是從模糊的圖像開始，逐漸重新引入像素，使得預測概率升高。具體來說，對于刪除測試，根據顯著性圖的值，每次逐漸用高度模糊的版本替換原始圖像中的3.6%像素，直到沒有剩余像素。與刪除測試相反，插入測試將模糊圖像的3.6%像素替換為原始像素，直到圖像完全恢復。將計算ROC曲線下的面積(area under ROC curve，AUC)作為定量指標。較高的插入AUC和較低的刪除AUC表明模型具有較好的解釋能力。對比測試結果如圖4所示。

圖4 插入和刪除測試對比曲線

從圖4可以看出文中方法在刪除和插入測試上大都達到了最優，表明其對于彈載融合圖像具有較好的視覺解釋能力。同時該方法在刪除和插入測試上的數值表現都不夠良好，說明其對融合類圖像的解釋能力還有待提高。

2.3 目標定位評價

通過目標定位評價可以衡量顯著圖的質量。通常從顯著圖中提取最大點觀察該點是否落在目標邊界框內[18]。文中只提取最大點擴展到整幅顯著圖，判斷該顯著圖有多少能落入目標邊界框內。具體來說，首先將圖像與目標類別邊界框進行二值化處理，其中內部區域賦值為1，外部區域賦值為0，而后將其與生成的顯著性貼圖逐點相乘，求和得到目標邊界框中的能量，計算公式為：

(8)

式中：bbox表示目標邊界框；(i,j)為像素點坐標；n(i,j)∈bbox表示顯著區域落入目標邊界框以內的像素點數量；n(i,j)?bbox表示顯著區域落入目標邊界框以外的像素點數量。SLoc值越大表示顯著圖的定位性能越好。測試結果如表2所示。

表2 目標定位評價對比測試結果

3 結論

針對傳統方法對彈載融合圖像視覺解釋效果較差、定位不準的問題，提出了一種神經網絡視覺解釋方法。方法重新定義了神經網絡梯度表示方法，對每個激活映射引入了置信度提升，結合權重參數對網絡梯度進行重組獲得最終的類激活映射。實驗結果表明文中方法在主觀可視化、客觀指標以及目標定位上均優于經典的視覺解釋方法，可滿足對彈載融合圖像的深度網絡視覺解釋。后續將重點在完善算法框架和優化權重表示上加以研究，不斷提高方法對融合類圖像的解釋能力。