蔡云澤,張彥軍
(1.上海交通大學自動化系,上海 200240;2.系統控制與信息處理教育部重點實驗室,上海 200240;3.上海工業智能管控工程技術研究中心,上海 200240;4.海洋智能裝備與系統集成技術教育部實驗室,上海交通大學,上海 200240;5.上海交通大學海洋裝備研究院,上海, 200240)
與基于可見光圖像和雷達圖像的目標檢測技術相比,基于紅外圖像的目標檢測具有可全天時檢測、隱蔽性好等優勢[1-2]。在一般紅外圖像中,遠處的導彈、戰艦、天體等目標尺寸很小,甚至僅占成像平面上的幾個像素,呈現為弱小目標的狀態,缺乏形狀、紋理等豐富的特征信息,在檢測時難度很大。同時,陸地、海洋、天空等復雜多變、灰度分布不均的背景環境以及隨機出現的噪聲點都進一步增加了紅外弱小目標的檢測難度[3]。因此,紅外弱小目標的檢測成為紅外圖像探測技術的研究熱點。
傳統的單幀紅外弱小目標檢測算法可分為基于背景抑制的濾波算法、基于人類視覺系統(human vision system,HVS)的對比度算法和基于圖像數據結構的分解算法[4]。基于背景抑制的濾波算法包括數學形態濾波[5]、高通模板濾波[6]等的空域下濾波算法和巴特沃斯濾波[7]、非下采樣輪廓波變換濾波[8-9]等的頻域下濾波算法,檢測效果依賴閾值的設定,泛化性較差。基于人類視覺系統的對比度算法基本原理為根據小目標和鄰域之間的灰度差異進行檢測。Chen等[10]率先將對比度思想用于紅外弱小目標檢測,提出了基于局部對比度測量(local contrast measure,LCM)的紅外弱小目標檢測算法;Han 等[11]基于此進行改善,提出了改進局部對比度測量方法(improved local contrast measure,ILCM);其他研究者提出的相關算法[12-17]簡單且魯棒性很好,但檢測效果同樣依賴設定的閾值,易出現漏檢誤檢。基于圖像數據結構的分解算法可實現圖像中目標和背景的分離,主要包括基于紅外圖像塊(infrared patch-image,IPI)的算法[18]和基于超完備字典的算法[19-20],時效性較差,且環境復雜時檢測效果欠佳。
基于深度學習的目標檢測算法與傳統目標檢測算法相比具有更好的特征提取和信息抽象的能力。到目前為止,常規圖像的目標識別和目標檢測已取得很好的效果。但在紅外弱小目標檢測方面,考慮到目標微小、缺乏輪廓特征、灰度和大小起伏變化大,且目標所在的背景復雜多樣等問題,基于深度CNN 的紅外弱小目標檢測算法較少。劉俊明等[4]基于編碼器-解碼器的架構提出了融合深度神經網絡和視覺顯著性的紅外弱小目標檢測算法。Dai等[21]針對當前紅外弱小目標檢測缺乏公開數據集的問題,貢獻了具有高質量標注信息的公開數據集SIRST,并提出了基于非對稱上下文調制網絡結構(asymmetric contextual modulation network,ACMNet)的紅外弱小目標檢測算法。而后Dai 等[22]又將基于塊的多尺度對比度測量小目標檢測算法[15](multiscale patch-based contrast measure,MPCM)應用于深度網絡結構,并結合注意力機制,提出了基于局部對比度注意力網絡的紅外弱小目標檢測算法(attention local contrast network,ALCNet),這些算法與傳統算法相比檢測效果明顯提升,但依然存在時效性較差、檢測結果中噪音點較多的問題。
本文針對目前單幀紅外弱小目標檢測效果仍然有待改善的問題,基于特征增強和注意力機制,提出了雙通道特征增強集成注意力網絡(dual-channel feature-enhancement integrated attention network,DFIANet)的紅外弱小目標檢測算法。該算法基于端到端的思想進行設計,雙通道特征提取模塊和特征增強模塊有助于豐富弱小目標的特征信息,并通過集成上下注意力模塊自適應地增強目標特征和弱化背景噪音,從而實現更好的弱小目標檢測效果。
本文檢測算法的整體結構如圖1所示。首先使用雙通道的Resnet20 作為主干網絡提取輸入圖像的特征;然后經過特征增強模塊(feature enhanced module,FEM)來融合上下文特征,使得到的特征增強;再將得到的特征圖輸入集成上下注意力模塊(integrated top bottom attention module,ITBAM),自適應地增強和減弱特征圖的不同區域,從而更好地突出目標特征;最后經過預測模塊(predict module,PM)輸出包含紅外弱小目標形狀和位置信息的Mask二值圖像。

圖1 DFIANet檢測算法的整體網絡結構Fig.1 Overall network structure of DFIANet detection algorithm
雙通道特征提取模塊如圖2所示。同文獻[22]一樣,本文采用Resnet20 作為骨干網絡提取輸入的紅外圖像特征。深層網絡能降低圖像中背景噪音的干擾,有利于紅外弱小目標的檢測,但深層網絡容易出現梯度消失的問題。而用殘差網絡作為骨干網絡提取圖像特征,可以有效減少梯度消失出現的概率,使網絡層次更深。同時通過復用淺層的特征,使得到的特征擁有更多的淺層細節信息。這對圖像檢測尤其是目標特征非常小的紅外弱小目標檢測非常重要。與文獻[22]不同,本文使用雙通道的主干網絡提取輸入圖像的特征,將Backbone1 和Backbone2 提取到的對應尺度的特征分別進行融合,融合后得到的特征DualFeature1、DualFeature2 和DualFeature3 比融合前擁有更好的特征,噪音更少而目標特征信息更多,這對進一步的紅外弱小目標檢測尤為重要。

圖2 DFIANet檢測算法的雙通道特征提取模塊Fig.2 Dual-channel feature extraction module of DFIANet detection algorithm
雙通道特征提取的計算公式如下:

式中:i=1,2,3。
特征增強模塊如圖3所示。文獻[23]提出了一個經典的用于人臉檢測的模型,該模型對大尺度和小尺度人臉目標均有很好的檢測效果,其中起到重要作用的結構就是FEM,因此本文考慮使用該模塊用于紅外弱小目標檢測。同文獻[23]一樣,首先將當前特征圖和深一層的特征圖進行點卷積操作,使當前特征圖和深層特征圖擁有相同的通道數,然后對深一層的特征圖進行上采樣,使深層特征尺度與當前層的特征尺度相同,接著使用加法器進行融合。但考慮到檢測模型結構太大會影響檢測的時效性,因此僅對得到的特征分別進行一次和兩次膨脹卷積操作,最后再進行相加融合,得到增強后的特征。

圖3 DFIANet檢測算法的特征增強模塊Fig.3 Feature enhancement module of DFIANet detection algorithm
集成上下注意力模塊如圖4 所示。圖4 中的紅色虛線框內是由對應特征自適應生成的注意力概率大小的結構,左邊表示自下到上的注意力模塊,右邊表示自上到下的注意力模塊。
自下到上注意力模塊的自適應注意力大小計算公式為
自上到下注意力模塊的自適應注意力大小計算公式為

式中:Fl、Fl+1分別表示第l層和第l+1 層的特征圖;Al、Al+1分別表示第l特征層和第l+1 特征層計算得到的注意力大小特征圖;PWConv1、PWConv2 分別表示第1 次點卷積和第2 次點卷積;σ(·)表示Sigmoid 激活函數;Up(·)和GAP2D(·)分別表示上采樣操作和2維全局平均池化操作。
文獻[21-22]提出的紅外弱小目標檢測網絡中使用了從下到上的注意力結構,以淺層信息為指導,經過Sigmoid 激活函數映射得到不同區域的概率大小,再與深層特征相乘,從而指導深層特征得到具有淺層信息的深層語義特征。從上到下的注意力模塊則與此相反,以深層信息為指導,再經過Sigmoid 激活函數映射得到不同區域的概率大小,再與淺層特征相乘,從而突出淺層特征的深層語義性。從下到上注意力網絡結構和從上到下注意力網絡結構均能起到突出目標特征、弱化非目標特征信息的作用。因此,若通過合理的結構設計來融合從下到上和從上到下的注意力網絡結構,理論上得到的網絡結構在進行紅外弱小目標檢測時可以取得更好的檢測效果。實際上,文獻[21]提出的非對稱上下文信息調制網絡結構可視為綜合了從下到上和從上到下的集成注意力網絡結構,經過實驗驗證具有很好的檢測效果,因此本文考慮采用這種注意力網絡結構。
集成上下注意力網絡結構輸出的特征圖計算公式如下:

在目標檢測中,IoU 是常用的一種損失函數,該函數不僅可以判斷檢測目標是否是真實目標,還可以估計檢測目標與真實目標間的重合程度,并且這種損失計算方法具有尺度不變性,對大小尺度目標均適用。
IoU計算公式如下:

式中:P和T分別表示預測目標框和真實標簽框。
文獻[21-22]為了解決紅外圖像中弱小目標和背景之間的不平衡,使用Soft-IoU作為損失函數,能夠更好地估計預測目標和真實目標的相似度,從而更好地訓練網絡。
Soft-IoU計算公式如下:

式中:pi,j和yi,j分別表示紅外圖像中(i,j)像素位置處的預測結果和真實值。Soft-IoU 損失計算方法可以更好地衡量預測結果與真實值之間的差異性,有利于神經網絡模型的訓練。
本文實驗部分包括訓練和測試,訓練環境基于GPU1080Ti,測試環境基于CPU AMD Ryzen 7 4800U,深度學習框架為Mxnet,開發平臺為Pycharm,開發語言為Python。訓練時設置epoch為400,初始學習率為0.1,每隔100 個epoch 學習率減小為原來的1/10。
本文使用SIRST 數據集進行訓練、驗證和測試,該數據集由Dai 等[21]提出,是目前最大的公開性紅外弱小目標檢測數據集。SIRST 數據集共包括427 張紅外圖像,500 多個目標。目標所處的背景復雜多變,包括云層、海面、建筑等;目標尺度多樣,大尺度目標長寬接近20 多個像素,小尺度目標長寬僅有1~2 個像素;目標亮度多樣,有較亮的目標,也有與背景亮度很接近的較暗目標。進行實驗時,427 張圖像中256 張圖像用于訓練,85 張用于驗證模型,86 張用于測試。
圖5 展示了SIRST 數據集中一些典型的紅外圖像,為了能更好地看清目標,使用紅色方框圈出了紅外圖像中各個目標的位置。

圖5 SIRST數據集中典型的紅外圖像Fig.5 Typical infrared images in the SIRST dataset
評價紅外弱小目標檢測效果的常用指標包括單幀檢測時間、信噪比增益、背景抑制因子等。考慮到本文檢測算法的檢測結果都是基于像素點的二值化圖像,不方便使用信噪比增益和背景抑制因子作為評價指標,因此使用單幀檢測時間、精確率、召回率、F1值和nIoU值作為評價指標來衡量各種算法的檢測效果[21-22]。
單幀檢測時間用來評價算法的時效性,精確率用來評價檢測算法的準確性,召回率用來評價檢測算法的查全性,單一的精確率和召回率不能合理地評價檢測效果,而F1值則是綜合考慮了精確率和召回率,可以更好地評價檢測效果。nIoU 評價指標專為SIRST數據集設計,可以綜合性地評價紅外弱小目標檢測結果中的漏檢率和誤檢率。
F1值的計算公式如下:

式中:Pr和Re分別表示精確率和召回率。
nIoU值的計算公式如下:

式中:Ti、Pi分別表示第i張圖像中紅外小目標的真值標簽和預測結果;N表示測試圖像數目。
2.4.1 測試結果
圖6 給出了86 張測試圖像中典型的6 張紅外圖像Img1~Img6 及其對應的3 維灰度分布圖與圖像中目標的真實標簽圖像。從測試圖像和3 維灰度分布圖可以看出,圖像背景較復雜,噪音波動起伏,且目標特征多樣,包含多目標和單目標、大尺度目標和小尺度目標以及亮度較大的目標和信噪比較小的暗目標。

圖6 給定的原紅外圖像與對應的3維灰度分布圖和真實目標二值化圖像Fig.6 The given original infrared images,and the corresponding 3D gray distribution maps and real target mask images
圖7 給出了基于傳統檢測算法和深度學習檢測算法的檢測結果。通過對比各個檢測算法的檢測結果可以看出,傳統算法RLCM、HBMLCM、TLLCM、MPCM、AAGD 和AMWLCM 等,可以較好地檢測出小尺度目標,但形狀大小信息不明顯,且出現的噪音點較多;而對大尺度目標檢測效果較差。HBMLCM、MPCM、AAGD 和AMWLCM 雖然可以檢測到位置信息,但只能檢測到一個點狀,基本檢測不到對應的尺度大小,更沒有獲得較好的形狀信息,且在同一張圖像中存在明暗不同的多目標時易出現漏檢的問題。基于LCM 的檢測算法可以較好地得到大尺度和中小尺度的目標,但檢測到的目標形狀失真嚴重,且對很弱小的目標易出現漏檢的問題。基于深度學習的檢測算法,能獲得比傳統檢測算法更好的檢測效果。從圖7 中可以看出,ACMNet、ALCNet 和本文提出的DFIANet 檢測算法對大尺度、小尺度和多目標均有較好的檢測效果,且可以很好地檢測出目標的尺度信息和形狀信息。通過對比Img2 的檢測結果可知,與ACMNet 和ALCNet 檢測算法相比,DFIANet 檢測算法得到目標形狀信息更豐富,與真實目標的相似性更大。通過對比Img5 和Img6 的檢測結果可知,DFIANet 檢測算法能更充分地學習到圖像的特征信息,更好地從復雜的背景圖像中檢測出呈現弱小特征的小目標,且檢測出的虛警點很少。

圖7 基于傳統檢測算法和深度學習檢測算法的測試結果Fig.7 The test results based on traditional detection algorithms and deep learning detection algorithms
2.4.2 評價指標
表1 給出了各個檢測算法基于測試集中86 張紅外圖像得到的nIoU、nFps、nP、nR 和nF1 值,分別表示平均IoU、平均單幀檢測時間、平均精確率、平均召回率和平均F1值,其中加粗的值表示該算法對應的評價指標值最大。

表1 基于各個檢測算法得到的nIoU、nFps、nP、nR和nF1值Tab.1 The values of nIoU,nFps,nP,nR and nF1 based on all detection algorithms
與傳統檢測方法相比,基于深度學習檢測算法的nIoU 值大了很多。綜合來看,基于深度學習的檢測算法在紅外弱小目標檢測中漏檢率和誤檢率都較低,檢測效果更好,不易出現漏檢點和虛警點。傳統檢測算法中,基于MPCM 檢測算法的nIoU、nP 和nF1 值都是最大的,具有更好的檢測效果,且同基于LCM、HBMLCM 和AAGD 等的檢測算法一樣,單幀檢測時間很小,具有很好的時效性,可以做到實時檢測目標。基于TLLCM、RLCM、MPCM 的檢測算法,也具有較好的nIoU 和nF1 值,但單幀檢測時間較大,時效性欠佳。深度學習檢測算法中,本文提出的DFIANet 檢測算法得到的nIoU 值最大,總體來看檢測效果最好,精確率、召回率和F1值在3 種深度學習檢測算法中基本上是最好的,且與ALCNet 檢測算法相比,DFIANet 檢測算法的單幀檢測時間很小,具有更好的時效性。
2.4.3 存在的問題
DFIANet 檢測算法還有待改善的地方,比如在一些測試圖像中檢測效果不夠理想。圖8給出了測試集中DFIANet 檢測算法存在問題的測試結果及ACMNet、ALCNet檢測算法的對應測試結果。

圖8 DFIANet存在問題的測試結果及ACMNet和ALCNet的對應測試結果Fig.8 The problematic test results of DFIANet and the corresponding test results of ACMNet and ALCNet
從Img1 和Img3 的檢測結果可以看出,DFIANet檢測算法和ACMNet 檢測算法沒能很好地檢測出圖像中所有的目標,存在一些漏檢的問題,而ALCNet較好地檢測出了目標。從Img2、Img4 和Img5 的檢測結果可以看出,DFIANet 檢測算法和ACMNet 與ALCNet 檢測算法一樣,依然對圖像中存在的亮噪音點有誤檢的可能性,但與ALCNet 檢測算法相比,ACMNet 和DFIANet 檢測算法的誤檢率更低,且DFIANet 檢測算法可以獲得更充分的目標特征,檢測出的目標基本不會出現斷裂的問題。針對DFIANet檢測算法測試結果中存在的問題,以及對單幀檢測時間的優化,在以后的研究中將從網絡結構、模型訓練和多幀檢測3個角度進一步完善。
去掉Img1~Img5 后,基于剩余的81 張測試結果計算得到各評價指標值,如表2所示,其中加粗的值表示該算法對應的評價指標最大。

表2 基于各個檢測算法得到的nIoU、nFps、nP、nR和nF1值Tab.2 The values of nIoU,nFps,nP,nR and nF1 based on all detection algorithms
可以進一步看出,DFIANet 檢測算法與其他算法相比具有更好的檢測效果。另外值得說明的是,ACMNet、ALCNet 和DFIANet 檢測算法的評價指標之所以沒有更高,是因為受背景環境的影響,檢測得到的目標尺度和形狀信息必然存在一定程度的變形,不可能做到與真實目標完全重合,如何降低這種影響,可以在后續研究中開展。
本文針對紅外圖像中弱小目標存在的成像面積小、特征信息少、深度學習中深層網絡缺乏語義信息等問題,引入雙通道特征提取模塊和特征增強模塊,并通過集成上下注意力模塊進一步融合淺層特征和深層特征,提出了基于雙通道特征增強集成注意力網絡的紅外弱小目標檢測算法DFIANet。通過公開數據集SIRST 的測試表明,基于ACMNet、ALCNet 和DFIANet 等的深度學習算法要比傳統紅外弱小目標檢測算法檢測效果更好,而DFIANet算法是其中最優的,漏檢點和虛警點更少,單幀檢測時間也較快。