羅銀輝,王星怡,吳岳洲
(中國民用航空飛行學院計算機學院,四川 廣漢 618307)
圖像配準是一項將不同的圖像變換到同一坐標系下并產生相應變換矩陣的技術,也是實現圖像融合、圖像拼接以及目標檢測的基礎[1]。隨著配準技術的快速發展,以及紅外圖像和可見光圖像能提供互補信息的特性,紅外與可見光圖像的配準技術越來越引起研究人員的關注,但它們的配準難度較大。
現有的紅外與可見光圖像配準方法主要是基于區域、基于特征和基于神經網絡的方法。基于區域的方法通過尋找兩個圖像對間的最小距離來達到配準的效果,但這類算法普遍對灰度敏感[2]。文獻[3]利用帶窗口灰度權重算法(GWW)實現了更高的匹配精度和匹配效率。文獻[4]提出了一種基于顯著性梯度的歸一化互信息算法,并擁有更高的收斂性和配準率。基于特征的方法通過建立可靠的特征匹配來解決圖像對間的尺度差異,但這類算法對圖像質量要求較高且難以提取共有特征點[5]。文獻[6]在輪廓圖像中檢測圖像角點,將其作為特征點,實現了高精度的圖像配準。文獻[7]通過改進SIFT 梯度定義,來克服圖像灰度,提高了配準精度。基于神經網絡的方法通常采用端到端的網絡實現圖像配準,這是最近較為新穎的方向。文獻[8]通過學習模態不變特征來實現圖像配準,提升了配準精度。
本文針對難以提取紅外與可見光圖像相似特征的問題,以及受文獻[9]提出的無監督深度單應性方法的啟發,提出了一種基于殘差密集網絡的紅外與可見光圖像配準方法。本文通過引入殘差密集網絡(residual densenetwork,RDN)[10]來自適應提取深層特征和淺層特征,從而獲得足夠多的有效特征并實現較高精度的圖像配準。
基于殘差密集網絡的紅外與可見光圖像配準方法的網絡框架如圖1 所示。首先,灰度圖像對Ia和Ib分別通過特征提取網絡(FEN)和掩碼預測網絡(MPN)來產生對應的特征映射和掩碼。然后,分別將對應的特征映射和掩碼相乘,得到加權特征映射Ga和Gb,并將其通道級聯產生Ga,b。最后將Ga,b送入到由ResNet-34 組成的單應性網絡中,得到兩個灰度圖像對的偏移矩陣H,進而產生變換矩陣來實現配準。

圖1 網絡框架
1.1.1 特征提取網絡FEN
由于特征提取的好壞嚴重影響預測圖像的質量,而紅外圖像和可見光圖像的巨大成像差異也為配準工作帶來了巨大挑戰,因此本文構建了特征提取網絡(feature extraction network,FEN)來提取圖像對的多層次特征。FEN 是基于殘差密集網絡來進行構建的,分別從局部和全局兩個角度來提取特征,并通過融合將淺層特征和深層特征結合到一起,從而,自適應地學習更有效的特征,其網絡框架如圖2所示。

圖2 特征提取網絡框架
首先,源圖像Ik(k=a,b)經過兩個卷積層,分別得到淺層特征F-1和F0,然后通過三個殘差密集塊(residual dense block,RDB)提取密集特征,其計算公式如下:

其中,HRDB,d(·)表示第d 個RDB 的運算;Fd表示第d 個RDB提取的密集特征。
其次,對三個RDB 的局部密集特征進行融合,得到多層次局部密集特征FGF,其計算公式如下:

其中,HGFF()· 表示對三個RDB 的融合運算,其中它由1×1和3×3卷積塊組成。
最后,利用全局殘差學習來提取特征,從而得到稠密的特征映射,并通過一個卷積層來得到單通道特征映射Fk,其計算公式如下:

其中,ω表示卷積層的權值;σ表示ReLU 激活函數。為了簡單起見,這里省略了偏置項。
1.1.2 掩碼預測網絡MPN
為了突出顯示特征映射中的重要特征,構建了掩碼預測網絡(mask prediction network,MPN)來細化特征。MPN是基于全卷積神經網絡(fully convolutional network,FCN)[11]來進行構建的,它所產生的掩碼對特征映射進一步加權,從而產生加權特征映射,其計算公式如下:

其中,Mk表示MPN所產生的掩碼。
1.1.3 單應性網絡
單應性網絡是使用ResNet-34 網絡架構來進行構建的,它將通道級聯后的特征映射Ga,b作為整個網絡的輸入,從而得到紅外圖像與可見光圖像之間的偏移矩陣H,該矩陣是由八個值所組成的。然后通過直接線性變換(direct linear transformation,DLT)[12]將偏移矩陣H變換為變換矩陣Hab,用于源圖像的變換,從而達到圖像配準的效果。
本文選取Triplet Loss[9]作為網絡的損失函數,它根據學習到的深度特征來計算損失,而不像傳統損失函數那樣直接比較圖像內容,這樣將有助于網絡進行更好的優化,其計算公式如下:

其中,Ia和Ib分別表示紅外與可見光圖像的灰度圖;Hab表示將Ia變換到Ib的同一視角下的變換矩陣,Hba亦同理;和分別表示使用對應灰度圖與變換矩陣相乘后得到的扭曲圖像;I表示三階單位矩陣;λ和μ表示超參數,且λ=2.0,μ=0.01。
2.1.1 訓練集與測試集
為了驗證本文方法的有效性,從OTCVBS、INO和TNO 等公開數據集中分別選取115 張和42 張圖像對用作訓練集和測試集。
2.1.2 數據集預處理
首先,訓練集的數據量較少,因此采用數據增廣的方法來增加數據量。其次,使用文獻[13]中的數據集制作方法來生成未配準的紅外和可見光圖像對。同時,在原紅外圖像中選取與未配準圖像塊具有相同角點位置的圖像塊,以生成已配準的紅外圖像IGT,并用于評價指標計算,從而減少紅外圖像和可見光圖像本身差異所帶來的誤差,每幅圖像的像素為128×128。最后,對未配準的紅外和可見光圖像對進行標準化和灰度化,以獲得整個網絡的輸入圖像對Ia和Ib。
為了評估所提方法的配準效果,本文選取結構相似性(structural similarity,SSIM)[14]、平均角點誤差(average corner error,ACE)[15]和互信息量(mutual information,MI)[16]作為本文的評價指標。取x和y分別為預測紅外圖像和已配準紅外圖像,并以此來計算評價指標。
SSIM 值越大,表示圖像配準效果越好,計算公式如下:

其中,μx和μy分別表示圖像x和y中所有像素的均值;σx和σy分別表示圖像x和y的標準差;σxy表示兩個圖像的協方差;c1和c2表示維持穩定的常數。
ACE 是指預測紅外圖像與已配準紅外圖像的四對頂點坐標的均方誤差,值越小表示配準精度越高,其計算公式如下:

其中,xij和yij分別表示預測紅外圖像和已配準紅外圖像四對頂點的某一坐標;n表示測試集中共有的圖像對總數。
MI 值越大,表示圖像配準效果越好,其計算公式如下:

其中,H(·)和H(x,y)分別表示熵和聯合熵的計算函數。
本文實驗在Windows10 操作系統上進行的,CPU 為Intel i9-10980XE,GPU為NVIDIA GeForce RTX 3090,采用的深度學習框架是Pytorch。在訓練過程中,本文使用Adam 作為網絡優化器,初始學習率設置為0.00001,batch_size 設置為24,epoch 設置為50,其中每迭代一個epoch,學習率下降0.8。
本文在三組場景上對CAU-DHE[9]和本文方法進行了對比測試,其配準結果如圖3所示,其中配準結果是由預測紅外圖像的藍色通道和綠色通道與已配準紅外圖像的紅色通道進行融合所得的,同時對局部區域進行放大以便觀察配準細節,若出現重影則表示此處未配準。由圖3 可知,本文方法的配準效果略好于CAU-DHE。首先CAU-DHE 的第一組配準圖像邊緣出現了黑邊,而本文方法卻可以實現全景對準。其次本文方法的細節處對準效果也略優于CAU-DHE。

圖3 圖像配準結果
為了定量驗證本文方法的優勢,與CAU-DHE 在42 組測試圖像對上進行了對比測試,評估結果如表1所示。由表1可知,本文方法在SSIM、ACE 和MI等評價指標上比CAU-DHE 分別提升了0.4%、21.5%和1.4%。提升的主要原因是使用了更為優異的特征提取網絡來提取紅外圖像與可見光圖像的多層次特征,并得到更優異的配準圖像,但也是由于這一原因,耗時也多花了0.143s。

表1 配準算法評估結果
針對現有圖像配準方法難以提取紅外與可見光圖像有效特征的問題,本文提出了一種基于殘差密集網絡的紅外與可見光圖像配準方法。該方法通過引入殘差密集網絡來提取圖像對的深層次特征,然后再通過掩碼對特征進行加權,從而產生更精細的特征,最終實現了較高精度的配準。