基于多尺度池化和范數注意力機制的遙感圖像檢索

2022-03-09 01:51:02葉發茂

電子與信息學報 2022年2期

葛蕓馬琳葉發茂儲珺*

①(南昌航空大學軟件學院南昌 330063)

②(東華理工大學測繪工程學院南昌 330013)

1 引言

近年來，遙感衛星和傳感器技術發展迅速，高空間分辨率遙感圖像檢索技術在城市規劃、環境保護、農業以及軍事等領域發揮重要作用。然而，遙感圖像類別繁多，內容復雜，在按類別檢索時，圖像的有效特征容易受其他特征干擾，導致難以準確區分圖像的類間差異。除此以外，遙感圖像的空間信息豐富，如圖1所示，高速公路與立交橋所包含的目標特征基本一致，但空間信息存在差異。因此，如何充分利用空間信息來增強特征對類間相似圖像的辨別力，并且有效地提取圖像的關鍵特征，成為檢索工作中的研究熱點。

圖1 類間相似性大的遙感圖像示例

卷積神經網絡(Convolutional Neural Networks,CNN)通過自主學習來提取圖像的特征，相比于傳統的手工特征，CNN特征的泛化性和魯棒性更強，隨著視覺幾何組網絡(Visual Geometry Group Network, VGGNet)[1]、深度殘差神經網絡(deep Residual Network, ResNet)[2]、壓縮和激勵網絡(Squeeze-and-Excitation Network, SENet)[3]等模型提出，CNN在遙感圖像檢索領域應用更加廣泛。葉發茂等人[4]利用CNN來提取圖像高層特征，并且設計一種加權類別的重新排序方法來提高遙感圖像檢索準確率。Li等人[5]通過深度哈希神經網絡，將高維特征向量映射到低維2進制特征向量，以端到端的方式進行優化，并能有效應用于大規模遙感圖像檢索。

近些年，圍繞特征優化來進一步提高檢索性能的方法取得了不錯的進展。Roy等人[6]將3元組圖像輸入預訓練的InceptionNet，得到的pool3層特征作為中間特征輸入到哈希網絡中，并使用3種不同的損失函數來訓練哈希網絡，在相同的檢索時間下顯著提高了檢索性能。彭晏飛等人[7]采用基于對比度受限直方圖均衡化算法對圖像進行預處理，并提出根據距離度量標準進行重新排序的相關反饋方法，對檢索結果不佳的情況進行調整，提高檢索精度。Ye等人[8]計算查詢圖像和檢索圖像之間的特征相似度，據此為每個特征分配權重，通過查詢自適應加權方法融合這些特征，并對檢索結果進行重新排序，顯著提高檢索精度。

另外，通過改進網絡結構也可以很好地提高檢索準確率，Ma等人[9]提出多層次融合框架，通過對CNN不同層次信息的挖掘，獲得局部特征和全局特征，并且利用級聯和相加兩種方式對這些特征進行融合，提高了特征的表達力。Liu等人[10]設計的網絡框架由兩個分類網絡和一個相似性學習網絡組成，相似性學習網絡根據兩幅輸入圖像之間的相似性進行評分，對分類分支的輸出進行特征融合與得分融合，通過雙融合來提升檢索性能。然而，上述方法沒有充分利用遙感圖像豐富的空間信息，并缺乏對顯著特征的關注。

因此，許多研究者將注意力機制融入到CNN中來關注圖像的顯著信息。注意力機制在減少冗余信息的基礎上傾向于給顯著特征更大的權重，因此在目標檢測[11]、圖像分類[3,12]、語義分割[13]等諸多圖像處理領域取得成功。Hu等人[3]提出的SE模塊對特征圖進行“擠壓”和“激勵”操作，將各個通道特征圖壓縮，為每個特征通道生成權重，通過乘法逐通道加權到原特征上，成功利用通道注意力實現通道自適應校準。Woo等人[12]設計了一個簡單有效的注意力模塊(Convolutional Block Attention Module, CBAM)，CBAM從通道和空間兩個維度計算特征圖的注意力權重，然后將注意力權重與輸入的特征圖相乘來進行特征的自適應學習。CBAM是一個輕量的通用模塊，可以將其融入到各種卷積神經網絡中進行端到端訓練。

本文受文獻[12]的啟發，提出一種基于多尺度池化和范數注意力機制的方法，本方法從通道與空間兩個方面減少圖像背景信息的干擾，并通過獲得遙感圖像中不同尺度的目標信息與類別信息來有效提取特征。本文的主要貢獻如下：

(1)在通道層面上，采用不同最大池化尺寸構建多個不同尺度的池化特征圖，將這些特征圖進行全局均值池化統一尺寸后，逐像素相加各個特征圖來關注多尺度的目標。

(2)在空間層面上，將特征圖不同通道對應相同空間位置的像素視為一組向量，通過計算多組向量的范數來表達圖像的空間信息。特征經過空間注意力權重的校準以后，可以更好地擬合遙感圖像。

(3)采用級聯池化處理高層特征圖，級聯池化結合了最大池化和均值池化的優點，能夠保留更多的有效信息，池化后的特征檢索準確率更高。

2 注意力機制

引入注意力機制可以提高網絡對關鍵特征的關注，結合遙感圖像豐富的空間上下文信息，有效促進特征表達能力的提高。Wang等人[14]利用遞歸注意結構在高層特征上關注一些關鍵區域，丟棄非重要的信息，有監督地調整特征權重，顯著提高準確率。Guo等人[15]采用全局注意分支和局部注意分支獲得全局信息和局部信息，用于航空場景分類。Zhang等人[16]提出了一種多尺度注意力網絡來表征遙感圖像的多層次結構特征，通過特征融合塊和通道注意力模塊，自適應地利用多尺度特征之間的有效信息。徐從安等人[17]設計了通道維和空間維的注意力模塊嵌入循環神經網絡，學習不同通道不同局部區域的顯著性特征，提高特征的鑒別能力。

在遙感圖像檢索中，Zhang等人[18]在DenseNet中添加注意力模塊和哈希層，利用遙感圖像數據對模型進行微調，同時學習輸入圖像的特征表達式和相應的哈希函數，實現查詢圖像和數據庫圖像之間的相似度匹配。Wang等人[19]利用雙重注意力機制細化最后一層卷積層的特征，并將這些特征作為緊湊雙線性池化的輸入，再結合PCA降維，抑制背景的干擾。Liu等人[20]從不同的角度探索遙感圖像的特征，一方面，通過特征聚合充分挖掘遙感圖像的多尺度特征；另一方面，通過離散傅里葉變換中的注意力分支，突出屬于不同場景的類別特征，以保證檢索精度。Xiong等人[21]添加注意力機制抑制無用特征，并且在訓練階段引入中心損失作為網絡分支，最小化特征與其對應中心之間的距離，使類間的距離分散，類內的距離緊湊，更適合遙感圖像檢索。

注意力機制使特征中的關鍵信息獲得更大的權重，通道注意力可以抑制背景信息的干擾，空間注意力可以更好地保留原始圖像的空間信息，因此，本文方法結合了通道注意力與空間注意力，有監督地分配特征權重，提高特征對遙感圖像的判別能力。

3 多尺度池化和范數注意力機制的遙感圖像檢索方法

3.1 特征提取

傳統神經網絡模型深度增加時，模型精度則會隨之下降，并且產生梯度消失或者梯度爆炸問題。而ResNet允許網絡盡可能地增加隱藏層，不僅提升了訓練模型的準確度，而且解決了深度網絡中梯度消失的問題。因此本文選用ResNet50[2]來提取遙感圖像的高層特征，并且利用預訓練的參數來改善遙感數據集規模較小所帶來的過擬合問題。ResNet50模型由1個卷積層、4個中間層和1個池化層組成，各中間層分別包含3, 4, 6, 3個深度殘差快，每個深度殘差模塊包含3個卷積層，并且以跳躍連接的方式結合，大大降低了參數的數目。本文的多尺度池化和范數注意力機制模型結構如圖2所示，其中F表示卷積特征。

為了有效利用預訓練參數，加入注意力模塊不能改變原有ResNet50的網絡結構，因此本文將注意力模塊分別加在第1層卷積層之后以及池化層之前，注意力模塊包含通道注意力機制以及空間注意力機制。另外，本文用級聯池化[22]的方法對高層特征進行池化，采用4×4的尺寸對卷積層進行最大池化，接著進行全局均值池化，得到(2048×1×1)維的檢索特征。

3.2 多尺度池化和范數注意力機制

為了區分復雜遙感圖像的目標與背景，提取有效特征來區分類間相似性大的圖像，本文在文獻[12]的基礎上提出多尺度池化通道注意力和范數空間注意力，根據目標的尺度不同以及空間位置不同，重新為特征分配權重。

3.2.1 多尺度池化通道注意力

根據輸入特征各通道的重要程度分配權重是通道注意力機制的關鍵部分。CBAM的通道注意力機制對輸入特征每一個通道做全局池化操作來區分不同通道的重要程度。高分辨率遙感圖像中目標多樣復雜，僅僅利用全局池化得到的最顯著目標特征檢索會忽略一些小尺度的有效信息。

因此，本文結合空間金字塔池化的思想采用多尺度池化操作獲得通道注意力權重，圖3展示了多尺度池化通道注意力模塊的結構，其中H, W, C分別表示輸入特征圖的高度、寬度和通道數目。

圖2 多尺度池化和范數注意力機制模型結構

首先，對輸入的卷積層特征在通道層面上以不同尺寸對其進行4次最大池化操作，池化后尺寸分別為1×1×C, 2×2×C, 3×3×C和4×4×C，然后，對得到的4個特征圖再進行全局均值池化，將4個特征相加后輸入多層感知機(MultiLayer Perceptron,MLP)，最后，經由sigmoid映射生成通道特征權重，以此關注大小不同的前景目標。計算多尺度池化通道注意力權重的公式為

3.2.2 范數空間注意力

通道注意力模塊關注不同通道的差異性，空間注意力模塊則關注不同目標的空間信息。本文利用范數的計算來度量目標的空間位置，首先，以輸入卷積特征(H×W×C)中不同通道對應相同位置的像素點作為一個向量，計算向量組的L1范數(曼哈頓距離)和L2范數(歐式距離)，得到的兩個特征圖(H×W×1)以串聯的方式拼接起來；然后，經過卷積操作獲取顯著空間信息；最后，利用sigmoid函數映射得到空間上的權重矩陣。如圖4所示，圖中Vn表示向量組，n表示單通道特征圖像素點總數，FM和FE表示向量組經過L1范數和L2范數計算得到的特征圖。

通過向量組Vn的范數計算，在向量空間比較不同向量在空間上的位置差異。計算方法為

圖4 空間注意力模塊

3.3 遷移網絡

CNN模型中高層特征語義信息豐富，網絡泛化性較好，遷移學習能力較強。在此基礎上，增加多尺度池化和范數注意力模塊，進一步提高特征的判別力，并通過較大規模遙感數據集來訓練該模型，使得該模型能夠更好地遷移到小規模遙感數據集中。遷移學習過程如圖5所示。

首先，因為遙感圖像數據集規模較小，為了避免過擬合，將ResNet50在ImageNet上預訓練的模型參數直接遷移到本文的多尺度和范數注意力機制模型，然后，利用較大規模的遙感數據集，比如NWPU-RESISC45數據集[23]，在原有參數的基礎上訓練網絡，經過多尺度池化通道注意力模塊與范數空間注意力模塊在不同角度為高層特征自適應加權，使模型參數更加擬合遙感圖像。最后，將訓練好的模型遷移到小規模遙感數據集，提取圖像特征進行測試，驗證模型的泛化性。

3.4 時間效率分析

圖5 遷移學習過程

4 實驗結果及分析

為了驗證本文方法的有效性，在不同分辨率、不同尺寸的高分辨遙感數據集上進行實驗，對本文方法與注意力機制CBAM的檢索結果進行分析，對不同池化方法的檢索性能進行比較，驗證本方法遷移學習的有效性，并且與最新的遙感圖像檢索方法進行比對。實驗框架為Pytorch1.6.0，GPU為RTX2060s。

4.1 數據集以及評價標準介紹

本文選用UC Merced數據集[25]、AID數據集[26]與NWPU-RESISC45數據集進行實驗，UC Merced是由加州大學默塞德分校提出的遙感圖像數據集，共有2100張圖像，包含21個類，每個類具有100張圖像，圖像尺寸為256×256，空間分辨率為0.3 m，這個數據集被廣泛用于遙感領域。AID數據集由華中科技大學和武漢大學于2017年發布，共有10000張場景圖像，包含30個類別，每個類別圖像數量從220～400不等，空間分辨率介于0.5～8 m之間。NWPU-RESISC45是由西北工業大學提出的遙感圖像場景分類數據集，共有31500張圖像，包含45個場景類別，每個類具有700張圖像，像素大小為256×256。圖6中顯示了UC Merced數據集、AID數據集與NWPU-RESISC45數據集的部分示例圖像。

圖6 示例圖像

采用平均檢索準確率(mean Average Precision,mAP)、平均歸一化調整后的檢索秩(Average Normalized Modified Retrieval Rate, ANMRR)以及查準率查全率曲線(P-R曲線)這幾個常用的指標對檢索結果進行評價。mAP是在每個類別平均準確率的基礎上，求得數據集所有類別的平均檢索準確率，mAP越高，則代表查詢結果越準確。ANMRR是用來衡量檢索結果中正確圖片排序靠前的程度，ANMRR越小，則表示正確結果排序越靠前。P-R曲線可以綜合地反映模型的檢索能力，曲線下面積越大，則表示模型的檢索能力越強。本文檢索特征為ResNet50的最后一個Bottleneck中的relu層特征。

4.2 不同注意力機制方法比較

為了驗證所提方法的有效性，設計不同實驗對骨干網絡ResNet50、注意力機制CBAM(后記為Resnet50_CBAM)、多尺度池化通道注意力模塊(后記為Resnet50_C)、范數空間注意力模塊(后記為Resnet50_S)以及本文注意力機制(后記為Resnet50_SC)5種方法的檢索結果進行評估，加“-cp”后綴表示采用級聯池化方式。

根據表1，兩種注意力改進方法均可以使模型的檢索能力在原來的Resnet50_CBAM基礎上有所提升。這是因為相比于全局通道注意力機制，多尺度的通道注意力關注更多的目標信息，得到的檢索結果更為準確。除此以外，與簡單的計算空間特征的最大值、平均值相比，向量的范數計算將空間向量映射到統一的向量空間中進行比較，獲取顯著的空間信息，檢索精度更高。最后，將改進后的兩種注意機制結合，從通道和空間兩個角度為高層特征加權來提高特征的判別能力，因此在兩個數據集上的檢索結果都有提升。在UC Merced數據集中，Resnet50_C比Resnet50_CBAM的mAP提高0.028，Resnet50_S比Resnet50_CBAM的mAP提高0.022。在AID數據集中，Resnet50_C比Resnet50_CBAM的ANMRR降低了0.010，Resnet50_S比Resnet50_CBAM的ANMRR降低了0.009。

表1 UC Merced數據集和AID數據集不同方法檢索結果

將本文方法與ResNet50_CBAM, ResNet50進行比較，如圖7所示，選擇第1個注意力模塊之后的池化層進行特征圖可視化，其中，黃色框選區域顯示出圖7(a)與圖7(b)特征圖差異，紅色框選區域顯示出圖7(b)與圖7(c)特征圖差異。顏色越接近紅色表示特征響應值越大，顏色越接近藍色表示特征響應值越低。根據圖7(a)和圖7(b)對比可以看出，注意力機制的加入，使更多的特征圖前景目標與背景區分明顯，目標輪廓更加清晰。根據圖7(b)和圖7(c)對比可以看出，本文方法，在這3個紅框標示的特征圖中，作為關鍵特征信息的飛機響應值更大，關鍵信息提取更完整。

4.3 池化方式比較

本節實驗根據池化方式的不同，對級聯池化和全局均值池化兩種方法得到的特征檢索結果進行比對，實驗數據集選用UC Merced數據集與AID數據集，圖8分別展示了在UC Merced數據集與AID數據集上不同池化方式和不同方法的P-R曲線。

圖7 不同方法特征圖差異

圖8 P-R曲線

圖8(a)中展示了在UC Merced數據集中骨干網絡ResNet50, Resnet50_CBAM和Resnet50_SC 3種方法不同池化方式的P-R曲線，加“-cp”后綴表示采用級聯池化方式，不加后綴表示采用普通的全局均值池化方法。其中，采用全局均值池化的骨干網絡P-R曲線最低，檢索能力較弱，本文方法的P-R曲線高于Resnet50_CBAM的P-R曲線，說明改進以后檢索能力有所提高。

在提取特征方法相同的情況下，采用級聯池化方式檢索效果優于全局均值池化的檢索效果，這是因為遙感圖像拍攝角度、位置不同，很多關鍵目標在圖像上的尺寸不會很大，全局均值池化可能會忽略一些小尺度的有效信息，而減小池化尺寸能夠更好地利用這類小目標的信息。因此，采用級聯池化的多尺度池化和范數注意力機制模型檢索結果最好，曲線位于最上方。

類似地，圖8(b)為AID數據集的P-R曲線圖，實驗結果顯示在這個數據集中，曲線面積最大的還是對改進后的注意力機制進行級聯池化的方法。根據P-R曲線，可知級聯池化方法比全局池化更適合高分辨率遙感圖像。

4.4 平均檢索時間比較

在實際的圖像檢索中，模型的訓練均在線下完成，不占用檢索時間，而訓練模型的結構不同，檢索時間也有所差異。因此，本節實驗在UC Merced數據集上比較了以上幾種方法檢索所需的時間。

根據表2，當加入通道注意力模塊與空間注意力模塊后，檢索時間稍有增加，與Resnet50_CBAM方法相比，檢索時間相同。綜合分析，本文方法檢索準確率更高，具有較大的優勢。

4.5 遷移特征檢索效果

本文所提注意力機制可以很好地擬合遙感圖像，有效利用關鍵特征的空間位置信息增強特征的判別力。為了驗證模型的泛化性，用NWPU-RESISC45數據集對網絡進行訓練，再將訓練參數遷移到UC Merced數據集，測試模型在UC Merced數據集上的檢索性能。實驗中圖像批量輸入大小設置為60，學習率設置為0.01，衰減率設置為0.004，迭代次數設置為40。

實驗結果如表3所示。本文方法的遷移特征檢索結果mAP在0.8以上，與Resnet50_CBAM相比，采用全局池化時mAP提高了0.055，ANMMR降低了0.044；采用級聯池化對特征進行處理以后，mAP達到了0.827，ANMRR降低至0.138。

4.6 與其他方法比較

將本文方法與幾種較新的基于內容的遙感圖像檢索方法進行比較，由于注意力機制在遙感圖像檢索領域應用較少，因此本文還選擇了其他較新的遙感圖像檢索方法進行比較。

表4顯示了在UC Merced數據集和AID數據集上與其他方法進行對比的結果，表中均用80%的數據作為訓練集，20%的數據作為測試集。由表4可知，與同樣使用了注意力機制的方法相比，在UC Merced數據集中，本文方法比文獻[21]的mAP提高了0.084。在AID數據集中，本文方法比文獻[20]的mAP提高了0.14。與其他方法相比，本文注意力機制在UC Merced數據集與AID數據集中都有效提高了遙感圖像的檢索準確率，取得了較優的檢索結果。

表2 不同方法的平均檢索時間比較(ms)

表3 遷移特征的檢索結果

表4 與其他方法mAP的比較

5 結論

本文提出一種基于多尺度池化和范數注意力機制的檢索方法。首先，在多尺度池化通道注意力模塊中，以不同尺寸對輸入特征圖進行最大池化，得到多尺度的特征圖，再對不同尺寸的特征圖使用均值池化，得到尺寸統一的特征圖，并將這些特征圖逐像素相加，利用sigmoid函數生成特征的通道權重，與原始的輸入特征圖相乘，以此關注不同大小的目標特征。然后，在范數空間注意力模塊中，輸入通道加權后的特征圖，以不同通道對應相同位置的像素組成多組向量，計算向量組的L1范數和L2范數確定其在向量空間中的相對位置，通過對二者進行卷積操作獲得顯著的空間信息，生成特征的空間權重，對特征圖進行2次加權。最后，采用級聯池化處理高層特征圖，保留更多的有效信息。本文在3個廣泛使用的遙感圖像數據集上進行實驗，結果表明，與現有的許多方法相比，本文方法可以很好地表達內容復雜的遙感圖像，得到較好的檢索結果。