鞠默然,羅海波,劉廣琦,劉云鵬
(1.中國科學院 沈陽自動化研究所,遼寧 沈陽110016;2.中國科學院機器人與智能制造創新研究院,遼寧 沈陽110016;3.中國科學院大學,北京100049;4.中國科學院光電信息處理重點實驗室,遼寧 沈陽110016;5.遼寧省圖像理解與視覺計算重點實驗室,遼寧 沈陽110016)
隨著圖像處理技術的不斷發展,目標檢測已經廣泛應用到了軍事和民用等多個領域。作為目標檢測中的一個關鍵技術,紅外弱小目標檢測已經成為研究的熱點。由于紅外弱小目標占有像素少、缺少形狀特征和紋理特征,且紅外弱小目標常處在復雜背景和低信噪比的條件下,因此,紅外弱小目標檢測仍然是一個具有挑戰性的課題。根據國際光學工程學會(SPIE)的定義,紅外弱小目標的像素數量一般不超過整幅圖像的0.15%。即對于一個尺寸為256×256的圖像來說,紅外弱小目標的尺寸通常不超過9×9[1]。
傳統的紅外弱小目標檢測算法包括基于數學形態學的算法[2],利用Top-Hat算子來抑制背景噪聲,進而對紅外弱小目標進行檢測。最大中值濾波器[3]利用差分運算來抑制背景信號和圖片中邊緣紋理信息,來提高對紅外弱小目標的檢測率。Chen等人[4]在多個尺度下通過尋找局部對比度(LCM)最大值來檢測紅外弱小目標,此方法對背景抑制的效果不明顯。Zhang等人[5]將目標檢測任務轉化成對非凸張量魯棒主成分分析模型的求解,提出了基于張量核范數部分和的魯棒紅外面片張量模型(Partial Sum of Tensor Nucle?ar Norm,PSTNN)。Wang等人[6]提出了一種基于圖像塊鄰域對比特性的紅外弱小目標檢測算法,該方法利用大尺度圖像塊鄰域對比特性自適應的分割感興趣區域,通過自適應閾值來精確的檢測小目標。Gu等人[7]基于地毯覆蓋法的分型位數提出了一種改進多尺度分形特征的紅外弱小目標檢測算法。
隨著計算機技術的發展,許多基于卷積神經網絡(Convolutional Neural Network,CNN)的目標檢測算法[8]被提出,例如Fast RCNN[9],Faster RCNN[10],SSD[11],YOLO[12],YOLO V 2[13],YO?LO V 3[14],RFBnet[15]等。與 傳 統 的 目 標 檢 測 算法相比,基于CNN的目標檢測算法具有強大的泛化能力,不僅可以自動提取目標深層次的語義特征,還可以將不同任務,如:特征提取、特征選擇和特征分類融合在同一個網絡中[16]。通過對網絡的訓練,來優化網絡,實現網絡對目標的檢測。雖然,基于CNN的目標檢測算法已經取得了不錯的檢測效果。然而,以上基于CNN的目標檢測算法都用于日常目標的檢測,目前基于CNN的紅外弱小目標檢測算法還比較少。Yang等人[17]將紅外弱小目標檢測任務與語義分割聯系起來,為解決弱小目標檢測提高了新的思想。Chen[18]等人提出了基于YOLOV 3的紅外末制導典型目標檢測算法。通過優化損失權重,提高了網絡的定位和分類能力。雖然該算法將CNN應用到紅外目標檢測,由于是末制導,檢測的目標相對較大,并不適用于紅外弱小目標檢測。
本文針對紅外弱小目標檢測,提出了一個簡單高效的實時紅外弱小目標檢測網絡。檢測網絡利用自適應感受野融合模塊來增加小目標周圍的上下文信息,并通過引入空間注意力機制來建立不同區域之間的關系模型,使不同區域之間的相關性和緊湊性得到強化。為了提高網絡對目標的定位和正負樣本的判別能力,利用GIOU loss[19]和Focal loss[20]來設計損失函數。在3個紅外弱小目標序列和單幀紅外圖像上進行實驗,實驗結果表明,該紅外弱小目標檢測網絡對復雜背景和低信噪比條件下的紅外弱小目標具有較好的檢測效果。
基于CNN的目標檢測算法可以分為:雙階段(two-stage)目標檢測算法和單階段(onestage)目標檢測算法。基于雙階段目標檢測算法,如Fast RCNN,Faster RCNN,將目標檢測分為兩個階段,首先提取候選區域的特征信息,將圖像分成前景區域和背景區域。然后再經過檢測網絡進一步完成對候選目標的位置和類別的預測和識別;基于單階段目標檢測算法,如SSD,YOLO,YOLOV 2,YOLOV 3,直接利用檢測網絡來預測目標的位置和類別,是一種端到端的目標檢測算法。因此,單階段目標檢測算法具有更快的檢測速度,而雙階段目標檢測算法具有更高的檢測精度。
作為雙階段目標檢測算法的代表,Fast RCNN在網絡中增加了感興趣區域池化層(Re?gion of Interest Pooling,ROI Pooling),ROI Pooling可以對不同的輸入圖片輸出相同大小的特征圖。并且,Fast RCNN利用Softmax分類器對目標進行分類,通過引入類內競爭來提升目標檢測的精度。Faster RCNN引入錨點框(anchor box)來初始化候選框,然后利用區域候選網絡(Region Proposal Network,RPN)來生成候選區域,使得目標的檢測精度和速度得到進一步的提高。
作為單階段目標檢測算法的代表,YOLO V 3借鑒殘差網絡[21]的思想通過建立Darknet53網絡來提取目標特征,并利用FPN(Feature Pyra?mid Network)[22]完成對大、中、小3個尺度目標的檢測,使其對各尺度的目標都有較高的檢測精度。Zhou等人[23]提出了CenterNet,利用目標中心點來呈現目標,然后在中心點位置回歸出目標的一些屬性,如:尺寸、方向和姿態等。將目標檢測問題變成了一個標準的關鍵點估計問題。RFBnet通過模仿人類視覺系統中感受野的結構設計了一個高效的目標檢測器。
檢測網絡的結構如圖1所示。首先,利用基于Darknet53[14]的主干網絡來提取紅外弱小目標的特征。然后,利用自適應感受野融合模塊來增加紅外弱小目標周圍的上下文信息,將融合的特征輸入到空間注意力機制模塊中,通過引入空間注意力機制模塊來強化不同區域之間的相關性和緊湊性。最后利用1個1×1卷積來預測紅外弱小目標的位置和類別信息。

圖1 紅外弱小目標檢測網絡的結構圖Fig.1 Structure of network for infrared small target detection
采用Darknet53作為提取特征的主干網絡,Darknet53借鑒了殘差神經網絡的思想,使得網絡深度可以更深,有效地避免了梯度消失,同時使淺層的特征得到了復用。Darknet53是由多個殘差單元所構成,每個殘差單元是由1×1卷積和3×3卷積構成的,如圖2所示。

圖2 殘差單元Fig.2 Residual unit
YOLO V 3采用了3個尺度對不同大小的目標進行檢測,分別采用8倍、16倍和32倍下采樣特征圖對小、中和大目標進行檢測。本文針對紅外弱小目標進行檢測,所以刪掉16倍和32倍下采樣特征圖,采用8倍下采樣的特征圖對紅外弱小目標進行檢測,如圖3所示。

圖3 網絡主干Fig.3 Backbone of the network
Hu等人[24]證明了增加小目標周圍的上下文信息可以有效的提高網絡對小目標的檢測率。受Scale-aware trident network[25]的 啟 發,采 用3個膨脹系數為1,2,4的膨脹卷積組成自適應感受野融合模塊來擴大感受野,通過融合不同感受野的特征來增加小目標周圍的上下文信息。自適應感受野融合模塊,如圖1所示。由于不同感受野的特征對輸出的貢獻是不同的,為了能夠使網絡自適應的融合具有不同感受野的特征,在該模塊中增加一個可以自動學習的參數W來自適應地改變各膨脹卷積的權重。用W i來表示分配給具有不同感受野特征的權重,用F i來表示具有不同感受野的特征,則融合后特征可以用式(1)來表示。

為了使網絡訓練的過程更加穩定,利用(2)式將不同感受野特征的權重系數限制在0到1之間:

在紅外弱小目標圖像中,由于成像系統作用距離遠,導致紅外圖像中的小目標信號往往很弱,圖像的信噪比低。受Zhang等人[26]的啟發,空間注意力機制可以通過對圖像中不同區域之間的相關性進行建模,來增強不同區域之間的緊湊性,使紅外弱小目標的特征響應得到加強。空間注意力機制的結構如圖4所示。

圖4 空間注意力機制Fig.4 Spatial attention mechanism
首先,把自適應感受野融合模塊輸出的特征F∈R C×H×W輸入到3個1×1卷積,將第1個1×1卷積輸出的特征經過維度變換和轉置變換為F1∈R(H×W)×C,將第2個1×1卷積輸出的特征經過維度變換為F2∈R C×(H×W)。然后對F1和F2進行矩陣乘法,并用softmax函數來獲得空間注意力機制矩陣H∈R(H×W)×(H×W),H反映了特征圖上各個像素點之間的相關性。最后,將第3個1×1卷積輸出的特征與H進行矩陣乘法和維度變換,得到基于空間注意力機制的輸出特征Fout∈R C×H×W。通過與空間注意力矩陣H相乘,使輸出特征Fout不同區域之間的相關性得到增強。
為了進一步提高模型的檢測精度,利用GIOU loss和Focal loss來設計紅外弱小目標檢測網絡的損失函數。與通用目標相比,小目標檢測中對位置預測的要求更高。本文采用GIOUloss對目標進行位置回歸,GIOU loss可以反映出預測框與目標框之間的遠近關系。并且,GIOU loss可以有效避免因為預測框與ground truth不相交而導致損失函數梯度為0的問題。GIOU可以表示為:

其中:BGT表示目標框的ground truth,BP表示預測框,B表示包圍BGT和BP最小的矩形框。則GIOU loss可以表示為:

由于訓練樣本中包含了大量容易分辨的負樣本,會導致這些簡單負樣本對loss函數起主要作用。為了增強網絡對困難樣本的預測,本文采用Focal loss來對目標的置信度進行回歸,緩解正負樣本不均衡的問題:其中:yGT表示目標置信度的ground truth,y P表示預測目標的置信度,α和γ分別設為0.25和2。


對于分類損失,采用二進制交叉熵,如式(6)所示:式中:CGT表示目標類別的ground truth,CP表示預測目標的類別。
則總loss可以表示為:

在本節中,分別介紹實驗數據集和度量指標,并分別從定性和定量兩個方面對提出的紅外弱小目標檢測網絡檢測性能進行了驗證。
實驗條件:操作系統為Ubuntu 14.04,深度學習框架為Pytorch 0.4.1,CPU為i7-5930K,內存為64G,GPU為NVIDIA GeForce GTX TI?TAN X,CUDA 8.0。
訓練細節:所有的模型均在1個NVIDIA GeForce GTX TITAN X顯卡上采用隨機梯度下降法(Stochastic Gradient Descent,SGD)進行訓練。利用圖像旋轉,隨機裁剪等方法來進行圖像增 強。采 用cosine learning rate[27]策 略 來 調 節 學習率的變化。權值衰減和沖量分別設為0.0005和0.9。網絡訓練過程中,每次輸入32張圖片,一共訓練100輪次,每10次迭代保存一次損失值,每隔5個輪次保存一次訓練權重。為了進一步緩解訓練過程中正負樣本不均衡的問題,選擇目標框與錨點框之間IOU≥0.3的錨點框作為正樣本,來增加正樣本的數量。網絡訓練的損失曲線如圖5所示。

圖5 Loss曲線Fig.5 The loss curve
本文所使用的數據集是來自Hui[28]等人通過外場實地拍攝和數據準備加工,提供的一套以一架和多架固定機翼無人機目標為探測對象的紅外弱小目標數據集。本文選取3個具有代表性的紅外弱小目標序列來測試所提出的紅外弱小目標檢測網絡的性能。另外,為了驗證紅外弱小目標檢測網絡在不同背景下的檢測結果,我們采用單幀紅外圖像進行了測試。3個紅外弱小目標序列和單幀紅外圖像的樣本如圖6所示(彩圖見期刊電子版),紅色框代表目標的位置,詳細信息如表1所示。

表1 數據集的詳細信息Tab.1 Detailed information of dataset

圖6 紅外弱小目標圖像(a)序列1,(b)序列2,(c)序列3,(d-f)單幀紅外圖像Fig.6 Infrared small target image(a)Sequence 1,(b)Sequence 2,(c)Sequence 3,(d-f)single frame image set
采用平均精準度(Average Precision,AP)和準確率與召回率曲線(Precision-Recall curve,PR curve)來測量每一類目標的檢測精度。平均精準度是從召回率和準確率兩個角度來衡量檢測算法的準確性,是評價檢測模型準確性的直觀評價標準,可以用來分析單個類別的檢測效果。利用每秒幀數(Frame per Second,FPS)來衡量目標檢測器的檢測速度。以預測的目標框和目標的標簽框之間的交并比(Intersection Over Union,IOU)是否大于0.5來確定檢測結果是正樣本還是負樣本。
為了評估提出的基于空間注意力機制的紅外弱小目標檢測網絡的性能,分別從定量和定性兩個方面對實驗結果進行分析。
4.3.1 定量分析
表2~表4和表5分別為紅外弱小目標檢測網絡在序列1、序列2、序列3和單幀紅外圖像上的檢測結果,其中YOLOV 3和RFBnet是基于CNN目標檢測算法中的代表。并且,YOLOV 3和RFBnet都具有專門檢測小目標的尺度。表中的Baseline代表沒有增加空間注意力機制的紅外弱小目標檢測網絡,Input代表輸入網絡的圖像的分辨率。圖7為各算法在3個序列和單幀紅外圖像上的PR曲線。

圖7 PR曲線Fig.7 PR curve

表2 序列1實驗結果Tab.2 Experimental results for Sequence 1

表4 序列3實驗結果Tab.4 Experimental results for Sequence 3

表5 單幀紅外圖像實驗結果Tab.5 Experimental results for single frame image set

表3 序列2實驗結果Tab.3 Experimental results for Sequence 2
在序列1中,紅外弱小目標檢測網絡取得了91.62%的AP值,通過引入空間注意力機制,AP值進一步提高了1.22%,檢測速度仍然保持在167.29 FPS。與YOLO V 3相比,AP值提高了19.11%,由于刪掉了Darknet的16倍和32倍下采樣特征圖,檢測速度幾乎是YOLO V 3的3倍。與RFBnet相比,AP值提高了15.28個百分點。
在序列2中,紅外弱小目標檢測網絡取得了71.54%的AP值,通過引入空間注意力機制,AP值進一步提高了4.52%,檢測速度仍然保持在162.75 FPS。與YOLO V 3相比,AP值提高了6.99%,檢測速度同樣幾乎是YOLO V 3的3倍。與RFBnet相比,AP值提高了9.34個百分點。
在序列3中,紅外弱小目標檢測網絡取得了81.77%的AP值,通過引入空間注意力機制,AP值進一步提高了1.44%,檢測速度仍然保持在164.16 FPS。與YOLO V 3相比,AP值提高了5.11%,檢測速度幾乎是YOLO V 3的3倍。與RFBnet相比,AP值提高了3.40%。
在單幀紅外圖像上,紅外弱小目標檢測網絡取得了90.67%的AP值,通過引入空間注意力機制,AP值進一步提高了2.54%,檢測速度仍然保持在167.93 FPS。與YOLO V 3相比,AP值提高了9.06%,檢測速度幾乎是YOLO V 3的3倍。與RFBnet相比,AP值提高了7.09%。
紅外弱小目標檢測網絡在序列1上取得了最高的AP值,因為序列1是一個長序列,共有3000張樣本,網絡可以得到充分訓練。紅外弱小目標檢測網絡在序列2上的AP值較序列1和3低,這是由于序列2的目標小且微弱,并且小目標呈現出由遠到近的變化過程。通過引入空間注意力機制,可以增強不同區域之間的相關性和緊湊性,使網絡對紅外弱小目標的檢測性能進一步提高。本文提出的紅外弱小目標檢測網絡無論在精度和速度方面都要高于YOLO V 3和RFBnet。實驗結果證明了所提出的基于注意力機制的紅外弱小目標檢測網絡對紅外弱小目標具有較好的檢測性能,并且保持了較快的檢測速度。
4.3.2 定性分析
圖8~圖10和圖11分別顯示了紅外弱小目標檢測網絡在序列1、序列2、序列3和單幀紅外圖像上的可視化結果。大圖為紅外弱小目標的檢測結果,小圖是檢測到目標附近區域的放大圖。可視化結果表明,所提出的紅外弱小目標檢測網絡可以有效的檢測出不同復雜環境下的紅外弱小目標。

圖8 紅外弱小目標檢測網絡在序列1上的可視化結果Fig.8 Visual detection results of infrared small target de?tection network on Sequence 1

圖9 紅外弱小目標檢測網絡在序列2上的可視化結果Fig.9 Visual detection results of infrared small target de?tection network on Sequence 2

圖10 紅外弱小目標檢測網絡在序列3上的可視化結果Fig.10 Visual detection results of infrared small target detection network on Sequence 3

圖11 紅外弱小目標檢測網絡在單幀紅外圖像上的可視化結果Fig.11 Visual detection results of infrared small target detection network on single frame image set
為了說明空間注意力機制的作用,對增加空間注意力機制前后的特征圖進行可視化對比,如圖12所示(彩圖見期刊電子版)。其中:圖12(a)為紅外弱小目標圖像,其中紅框表示紅外弱小目標的位置,圖12(b)為未增加空間注意力機制的可視化特征圖,圖12(c)為增加空間注意力機制的可視化特征圖。由圖12可以看出,增加空間注意力機制的紅外弱小目標響應更強,這是由于引入空間注意力機制模塊后,不同區域之間的相關性和緊湊性得到加強,有利于紅外弱小目標的檢測。

圖12 增加空間注意力機制前后的特征圖可視化結果對比Fig.12 Comparison of visual results of feature map be?fore and after increasing spatial attention mecha?nism
針對紅外弱小目標檢測問題,提出了基于卷積神經網絡的實時紅外弱小目標檢測網絡。檢測網絡利用自適應感受野融合模塊來增加小目標周圍的上下文信息,為了強化不同區域之間的相關性和緊湊性,利用空間注意力機制來優化檢測網絡。為了提高網絡對目標的定位能力,利用GIOU loss來回歸目標的位置。并采用Focal loss來設計置信度損失,讓網絡更關注于困難樣本。在3個紅外弱小目標序列和單幀紅外圖像上進行實驗,來驗證所提出的紅外弱小目標檢測網絡的性能。檢測網絡分別取得了91.62%,71.54%,81.77%和90.67%的AP值,且檢測速度接近165 FPS。實驗結果表明,該紅外弱小目標檢測網絡對復雜背景和低信噪比的紅外弱小目標具有較好的檢測效果。目前,基于深度學習的紅外弱小目標檢測算法還很少,希望本文可以為紅外弱小目標檢測提供一個新的思路。
未來與展望:基于深度學習的紅外弱小目標檢測算法,依賴于紅外目標數據集,而目前公開的紅外目標數據集非常少。制作開發更多的紅外數據集將有利于基于深度學習的紅外目標檢測算法的發展。
紅外弱小目標圖像中,大部分都是背景,紅外弱小目標只占很少像素,且小目標信號一般都很弱,設計合適的網絡來增強目標,抑制背景和噪聲,將會進一步提高基于深度學習紅外弱小目標檢測算法的檢測能力。