李績鵬,陳 穎,王東振
(上海應用技術大學計算機科學與信息工程學院,上海 201418)
遙感圖像是指由高空成像系統獲得的具有地面目標特征的圖像。多視角遙感圖像配準是實現圖像輔助導航,導彈圖像制導等重要應用的關鍵技術[1]。本文關注多視角遙感圖像的配準技術研究,即兩幅圖像(分別稱作參考圖像和待配準圖像)由同一傳感器采集,但采集視角有水平或(和)垂直方向上的改變[2]。
基于點特征的配準是目前遙感圖像配準中的主要技術。Lowe于04年完善了尺度不變特征變換(Scale Invariant Feature Transform,SIFT)算法,具有較高的精度[3]。Morel等在09年提出以圖像變換集為基礎的ASIFT(Affine Scale Invariant Feature Transform)算法,可以很好的解決因視角變化產生的變形問題[4]。然而基于點特征的自動檢測算法的健壯性不如人工標注高,因此有很多研究使用線特征或更高級的特征進行檢測,但提升有限[2]。
近年,遙感圖像配準領域開始使用深度學習改進特征提取的性能。Wang等通過有監督學習預測兩幅圖像是否來自同一區域,有效提升了配準性能[5]。Yang等使用VGG-16網絡的多層特征圖融合結果生成特征點,在多時相遙感圖像上達到了比傳統方法更好的魯棒性[6]。
通過在特征提取階段引入深度學習,遙感圖像配準任務得到了較好反饋,但只將深度神經網絡當作特征提取器并不能充分利用深度學習的能力。最近有研究使用深度神經網絡代替特征提取及特征匹配兩步,即使用端到端的方式對圖像進行配準。
Detone等使用深度學習對兩幅圖像的單應性變換進行估計,其使用人工合成的數據集進行訓練,達到了比傳統算法更高的精確度[7]。Rocco等更進一步設計了一種端到端的框架,進行實例級、類級的圖像配準[8],測試表明該模型的泛化性較好,在真實場景中也能得到較好的表現。Kim等提出一種兩階段配準模型,第一階段預測旋轉變換,第二階段預測仿射變換,在多時相遙感圖像中取得了更好的表現[9]。Park等對待配準圖像進行預處理,使網絡接受參考、待配準和增強三幅圖像,并利用圖像全局變換的同構性對模型進行訓練,實驗表明該方法在地表變化較大的遙感配準中有更高的準確度[10]。該類方法對特征提取和特征匹配兩個任務同時訓練,在復雜的圖像配準場景中能得到更好的結果。
上述方法在多視角遙感圖像配準中仍然存在配準精度低等問題,因此本文提出使用融合雙注意力機制的網絡中網絡改進特征提取器的性能,在特征匹配層使用了雙向相關運算以提升特征匹配精度,同時,針對如文獻[6]等方法實時性不高的短板[2],本文對網絡結構進行優化以提高算法的速度。實驗表明,在多視角遙感配準中,本文算法的配準精度和速度提升明顯,
配準系統分為三部分:①特征提取網絡;②特征匹配層;③參數回歸網絡。首先,融合雙注意力機制與網絡中網絡的特征提取器分別提取兩個輸入圖像的特征,生成一對特征圖輸入到特征匹配層中對特征進行匹配,最后,匹配層得到的匹配圖輸入到參數回歸網絡預測圖像變換。系統總體設計如圖1所示,輸入為參考圖像和待配準圖像,輸出為8個參數,將這些參數應用于待配準圖像上得到配準后圖像。下文將對各模塊進行詳細介紹。

圖1 網絡總體結構
2.2.1 網絡中網絡
普通的卷積層對非線形特征抽象能力不足[11]。因此,在卷積層內引入微神經網絡(Multilayer Perceptron,MLP)來抽象感受野中的數據,增加了網絡對復雜多視角遙感圖像特征的處理能力。

圖2 網絡中網絡結構
圖2為網絡中網絡結構圖,即在每組卷積層和池化層后面接一個MLP層。為了加快網絡的收斂速度和增強網絡的泛化能力,在每個卷積層后添加批歸一化層(Batch Normalization,BN)[12]和線形整流激活函數(Rectified Linear Unit,ReLU)。各層通道數分別增加至64、128、192。網絡中網絡的計算方式如下式(1)所示。其中M為每層網絡中網絡的輸出,u、v為輸入特征圖中的像素坐標索引,Xu,v代表中心在(u,v)點的特征圖取值,k代表輸入特征圖的通道數索引,n為網絡索引,w為神經網絡的權重,b為神經網絡的偏置。

(1)
2.2.2 雙注意力機制
使用注意力機制的目標在于使網絡關注重要特征并加以利用[13],達到以重要特征為基準進行配準的目的。而雙注意力機制是指網絡上層生成的特征圖,將會先后通過通道注意力模塊和空間注意力模塊的處理,即沿著兩個獨立的維度依次推斷注意力圖。這不僅考慮到了不同通道的特征的重要性,還考慮到了同一個特征通道的不同位置的特征的重要程度。下圖3為雙注意力機制的總體結構。

圖3 雙注意力機制總體結構
在訓練階段,每層網絡生成的每個特征圖(通道)可以看作是針對某一種特征的檢測器,通道注意力機制可以在訓練中分辨出對配準任務貢獻最大的通道,以此作為主要依據進行特征提取[14]。通道注意力圖的計算過程如下式(2)所示
MC(F)=σ(MLP(Avg(F)),MLP(Max(F)))

(2)

普通卷積神經網絡通過池化對空間信息進行壓縮時可能會導致某些關鍵信息的丟失,而空間注意力可以在保持關鍵信息的基礎上更有效的找出圖像中需要被關注的區域特征[15]。空間注意力圖的計算過程如下式(3)所示:
MS(FC)=σ(Cov7×7([Avg(FC);Max(FC)]))

(3)

雙注意力模塊[16]使用上層網絡輸出的特征圖F作為輸入,首先產生一維通道注意力圖Mc∈RC×1×1,然后產生二維空間注意力圖Ms∈R1×H×W??傮w過程如下式(4)所述
F′=MC(F)?F
F″=MS(F′)?F′
(4)
符號?代表逐元素乘法,F′代表注意力模塊的中間結果,F″為注意力模塊的最終結果。
本文將注意力模塊加在每個基本網絡中網絡模塊之后,第一個注意力模塊通道數為128維,第二個注意力模塊通道數為160維,第三個注意力模塊的通道數為192維。
綜合考慮運行速度與配準質量,在圖像輸入階段,使用雙三次插值算法(Bicubic Interpolation)將輸入圖像的大小調整為256*256。圖4為特征提取網絡的詳細結構及流程圖,其中CBAM_x為雙注意力機制模塊,Conv_x為卷積層,Max_pool_x為最大池化層。

圖4 特征提取網絡的詳細結構及流程


圖5 特征匹配層的計算流程
由相互最近鄰(Mutual Nearest Neighbors)算法啟發,本文使用雙向的相關運算計算特征圖A與特征圖B的相似性,可以更好的避免誤匹配。以CorrAB為例,對CorrBA同理,相關運算如式(5)所示
CorrAB(i,j,K)=fB(i,j)TfA(iK,jK)
(5)
其中,fA,fB∈h×w×d為參考圖像和待配準圖像的特征圖,h和w為特征圖的大小,d為特征圖的通道數。i和j分別為兩個特征圖在通道切面上的索引,輔助索引K=h(jK-1)+iK。該層網絡輸入為2個192*16*16大小的特征圖,輸出CorrAB為256*16*16的匹配圖。為進一步剔除誤匹配特征,對匹配圖進行ReLU激活函數處理及歸一化。歸一化操作如下式(6)所示,其中Corr為相關運算輸出的匹配圖,n為匹配圖的第一維大小,ξ取0.000001,Fn為歸一化后匹配圖。

(6)
最后將歸一化的兩個匹配圖做逐元素減法,去除不滿足相互匹配的特征,得到本層最終輸出。
參數回歸網絡使用上層輸出的匹配圖估計兩幅圖像間的單應性變換。該模塊預測的變換參數可以應用于多視角遙感圖像配準的前提是:①航空和航天遙感成像的距離非常遠,成像目標區域相對于成像元件近似為一個平面;②在不同視角對成像目標進行觀察的運動可以近似為成像元件繞成像目標的單純旋轉運動[7]。滿足上述假設的問題為透視變換,可由單應性矩陣解決,其廣泛的應用于傳統圖像配準任務中[17-19]。單應性矩陣如下式(7)所示,通過其參數hij將待配準圖像中坐標(x,y)的像素映射至配準后圖像中的(x′,y′)處。

(7)


(8)
該模塊由一個網絡中網絡基本塊和3層全連接層組成,除最后一層全連接層以外,每一層網絡后都連接一個批歸一化層和ReLU激活函數。
參數預測網絡的輸入為256維大小16*16的特征圖,第一層卷積核大小為5,輸入通道256維,輸出通道128維,后兩層卷積核大小為1,通道數分別減少至64和32。全連接層輸入大小為1152,經過一個隱含層后減少至8個,輸出最終的單應性變換參數。
本文所提到的配準方法具體實現步驟如下:
步驟1:圖像預處理。主要包含對輸入圖像數據的重采樣和增強處理。
步驟2:特征提取。利用訓練后的融合注意力機制的網絡中網絡模型分別對兩幅圖像進行特征提取。
步驟3:特征匹配。使用雙向相關層處理特征提取網絡提取的兩幅特征圖,輸出關于兩幅特征圖所有特征點的匹配信息。
步驟4:參數預測。根據特征匹配層輸出的匹配圖,預測從待配準圖像到參考圖像的單應性變換參數。
步驟5:求解變換模型。計算圖像變換矩陣,完成多視角遙感圖像的配準。配準流程如圖6所示。

圖6 基于網絡中網絡與注意力機制的配準流程
本文訓練所使用的數據取自谷歌地球(Google Erath Pro,開啟3D地形模式)、UCMerced_LandUse和NWPU VHR-10。原始圖片總計727張,使用文獻[7]中的方法生成模擬多視角遙感配準數據集,訓練集共9000組,單組數據包含參考圖像、待配準圖像及二者間的真實變換參數(label)。
訓練軟件環境為Ubuntu 16.04,Pytorch版本1.0.1,CUDA版本9,Python版本3.6;硬件環境為8GB顯存的GTX 1070顯卡,Ryzen 5 2600處理器。
網絡使用Pytorch的隨機梯度下降(SGD)優化器,學習率為0.0001,使用輸出參數的均方誤差(MSE)作為損失函數。Batch Size設置為16。
圖7為本文方法在真實數據上的配準結果。三幅圖均為從不同視角對同一地面物體進行拍攝得到,參考與待配準圖像差別較大,存在明顯高度起伏,河道彎曲等非剛性變化,比起普通的平面旋轉、平移和縮放更加復雜,從3組配準結果看,配準后圖像在空間特征和幾何相似性上與參考圖像非常接近,在細節處理上,主要特征沒有出現明顯的錯位,顏色過渡自然,整體上,各個特征都較精確配準,幾乎沒有出現未對齊區域。

圖7 本文方法在真實多視角遙感圖像上的配準結果(圖像中的小黑塊為棋盤格融合產生的效果)
為進一步驗證本文方法對于多視角遙感圖像配準的性能提升,圖8為本文算法與SIFT、文獻[6]、文獻[8]、文獻[10]、文獻[20]的配準結果對比,使用11*11的棋盤格進行參考圖像與配準后圖像的交替融合。棋盤格融合圖可以方便地對配準性能定性對比,本實驗中,出現棋盤格的為未配準區域(指示此區域配準性能較差)或因視角變化產生的非重疊區域(與配準性能無關)。紅色方框標出的區域可以展示各試驗結果中衡量配準精度的細節。
在對比實驗中,文獻[6]方法只使用深度學習做特征提取,文獻[20]對特征提取算法進行了增強,文獻[10]使用端到端的深度學習方式對圖像進行配準。文獻[8]是文獻[10]和文獻[9]等端到端方法常用的測試基準(baseline),因此也作為本文對比實驗的基準。
綜合圖8的4幅圖像配準結果分析,以特征點為基礎的方法由于不可靠的底層重復特征導致在某些局部配準效果較差。本文方法使用網絡中網絡做特征提取,有效提升了多視角遙感圖像中提取的特征點質量。對于復雜的多視角遙感圖像,傳統方法在對圖像中每一個主要特征進行精確配準時有一定困難,本文方法采用通道和空間注意力機制對整個圖像的特征進行篩選,找出對配準影響大的關鍵特征,以關鍵特征為基準對圖像進行配準,對大部分圖像主要的特征均做出了較為恰當的處理。

圖8 對比實驗在真實多視角遙感圖像上的配準結果(圖像中的小黑塊為棋盤格融合產生的效果)
從定性對比看,本文方法有效提升了多視角遙感圖像的配準精度,且對各種遙感圖像有較高的魯棒性。
a、b、c、d圖像配準的定量分析如下表1所示。本文在所有測試數據上(真實遙感圖像)均勻、隨機的選擇15組采樣點用作配準誤差測試,使用均方根誤差(RMSD)、平均絕對誤差(MAD)、誤差標準差(STD)和誤差中值(MD)作為定量分析標準,所有數值結果均是越小越好,單位為像素。本文方法在大部分情況下都可以取得最好精度,RMSD分別至少提升19.6%、20.3%及22.9%。

表1 對比實驗在真實多視角遙感圖像上的定量分析結果
各算法在a、b、c、d圖像上的時間性能如圖9所示,由于各方法速度差距較大,圖表縱軸非等間距增加。在多視角遙感圖像配準中,基于迭代優化匹配參數的方法不能很好的平衡配準質量與速度。網絡中網絡的時間成本相比其它網絡要低,同時能保持相對于其它網絡幾乎相近的性能,在測試圖像運行速度上分別提升42.7%、44.9%、44.3%及24.7%,大部分測試都可以在一秒內得到結果,在配準的質量與速度上取得了較好的平衡。

圖9 各算法在測試數據上的時間性能
本文關注于多視角遙感圖像配準,在一定前提下,設計了一種端到端的深度學習算法預測不同視角下拍攝的遙感圖像間的單應性變換。利用網絡中網絡與注意力機制對圖像進行特征提取,使用雙向的相關運算對特征進行匹配。實驗表明,本文方法在多視角遙感圖像的配準質量與效率間取得了不錯的平衡。但由于缺乏人工標注的數據集,因此無監督學習是今后的主要方向之一。