樊?,|,史 雙,藺 琪,孫 歡,秦佳杰
(長安大學 信息工程學院,陜西 西安 710064)
SAR圖像船舶目標檢測過程中通常存在港口以及近海岸等復雜背景下的船舶目標檢測情況,由于船舶緊鄰港口受岸上建筑的干擾較為嚴重,因而容易造成漏檢誤檢的狀況。為避免復雜背景下陸地區域對SAR圖像船舶目標檢測的影響,文中提出將注意力機制思想引入目標檢測算法中。目前所研究的基于卷積神經網絡的復雜背景SAR圖像船舶目標檢測算法多以犧牲檢測速度為代價提升目標檢測精度,故而存在檢測模型大、網絡參數多的問題,對于實時性要求較高的應用場景如海難救援、緊急軍事部署等都具有一定的局限性。
注意力機制在深度學習領域的應用從本質上與人類的視覺選擇性機制類似,是從眾多信息中選擇出對當前任務最重要的信息。Xu K等人在2015年根據注意力機制關注區域選擇的不同,將注意力機制分為軟注意力和硬注意力[1]。其中軟注意力機制在注意力分配時,對于輸入的每一個區域給出一個[0,1]范圍之間的概率值,然后對其進行加權,對于特征圖的每個區域都給予關注,只是每個區域的權重會因關注程度的不同而變化,因此其具有參數化,可微化性能。近年來,不斷有學者提出將軟注意力機制應用于卷積神經網絡端到端的模型訓練[2-3]。
卷積神經網絡的快速發展使SAR船舶目標檢測技術不斷提升,目前已有學者將深度卷積神經網絡應用到SAR船舶目標檢測問題上,深度卷積神經網絡強大的特征提取能力使得在SAR船舶目標檢測領域取得了較好的檢測結果[4-6]。特別是深度學習算法不受場景限制,在進行復雜場景SAR船舶目標檢測時無需進行海陸分割,只需進行數據標注便能夠準確學習目標特征。然而,目前所研究的SAR圖像船舶目標檢測普遍存在模型復雜,參數量多的問題。為提高檢測精度,不少學者提出進一步增加網絡深度,但同時影響了檢測速度,在一定程度上限制了SAR圖像目標檢測領域的發展[7]。
文中結合注意力機制思想對卷積神經網絡的特征進行改善以提升模型的檢測性能,尤其是對尺寸較小的SAR船舶目標及復雜背景下的SAR船舶目標??紤]到基于卷積神經網絡的兩階段檢測算法內存占用大、檢測速度慢等缺點,文中選取以一階段目標檢測算法SSD[8]為基礎,設計出一個新的單階段目標檢測模型DASSN(dual attention SAR ShipNet )。該模型將SSD網絡的基礎網絡VGG16[9]替換為利用深度可分離卷積的MobileNet網絡,有效降低了模型參數,從而提升了模型檢測速度,與此同時在模型中引入了空間注意力(spatial attention,SA)以及通道注意力 (channel attention,CA)機制形成雙注意力機制模塊,增強模型對復雜背景下的SAR船舶目標以及小尺寸SAR船舶目標檢測的魯棒性;繼而將針對SAR船舶目標檢測問題看為二分類問題的特點,采用了一種適用于SAR船舶目標檢測的改進損失函數。
目前,深度學習網絡模型在SAR圖像船舶目標檢測中的直接應用往往達不到所預期的效果,其原因在于現有的目標檢測網絡多是基于光學圖像的應用。其一,與光學圖像相比SAR圖像較難獲得,因而導致在模型訓練過程中容易出現數據不平衡的問題;其二,SAR船舶目標與光學圖像目標相比往往尺寸較小,且容易受到雜波及噪聲等影響導致圖像的分辨程度不高,人眼很難對其進行分類處理;其三,在SAR船舶目標檢測過程中只涉及船舶和非船舶的二分類問題,而現有的應用于光學圖像目標檢測網絡多是基于多分類問題的。
另一個值得注意的問題是,目前檢測性能較好的網絡往往模型較大,參數量較多,即使一階段網絡模型的提出已經在較大程度上提升了模型的檢測速度,但如果要達到檢測精度更高,檢測速度更快的效果,仍需要對網絡模型進行不斷地改進和更新。因此,文中提出在一階段目標檢測網絡SSD的基礎上進行改進,生成適合復雜背景和小尺寸SAR船舶目標檢測的網絡模型。
針對復雜背景SAR船舶目標檢測中檢測效果易受地物干擾導致模型檢測準確率低的問題,提出將結合通道和空間的雙注意力機制引入到目標檢測網絡中,同時考慮到SAR船舶目標尺寸普遍較小的問題,將特征融合技術應用于目標檢測網絡中來提升模型對小尺寸目標的魯棒性。為進一步提高模型的檢測速度,文中將原SSD檢測模型的基礎網絡替換為輕量級的MobileNet網絡,所提模型DASSN網絡結構如圖1所示。

圖1 DASSN目標檢測網絡結構
模型的輸入定義為300×300,網絡模型中前13層卷積層為MobileNet基礎網絡。該目標檢測模型在MobileNet網絡后加入8個卷積層網絡(conv14_1/2,conv15_1/2,conv16_1/2,conv17_1/2),并選取其中4層作為最終的目標檢測特征圖,整個網絡總共選擇6層用于目標檢測。所提DASSN模型分別在原conv13、conv14_2、conv15_2、conv16_2卷積層基礎上引入CBAM(convolutional block attention model)雙注意力機制得到相同尺寸的特征圖用于目標檢測。值得注意的是,所提網絡引入膨脹卷積(dilated conv)先對conv5進行處理,然后與conv11進行特征融合后作為最終用于目標檢測的特征圖。
所提目標檢測網絡選用輕量化MobileNet作為基礎網絡,該網絡的最大特點在于將標準卷積替換為深度可分離卷積(depthwise separable convolution),通過引入寬度乘數(width multiplier)和分辨率乘數(resolution multiplier)兩個超參數來減少參數量和計算量。
深度可分離卷積可看作將一個標準卷積分為深度卷積(D-conv)和1×1的點卷積(P-conv)。其中,深度卷積只卷積輸入的一個通道,與標準卷積相比能夠大幅減少網絡參數量,點卷積為傳統的卷積運算,但由于其卷積核的尺寸為1×1,相比于標準卷積的大尺寸卷積核具有較少的參數量。
文中提出將通道注意力機制與空間注意力機制結合生成的雙注意力模塊CBAM應用到目標檢測網絡中,CBAM是一種專門為卷積神經網絡所設計的簡單有效的注意力模塊,其網絡結構如圖2(a)所示,分別從通道和空間兩個方面生成卷積網絡特征圖的attention map,然后將attention map與輸入特征圖相乘進行特征自適應學習。CBAM作為一個輕量級的模塊能夠比較方便地融入卷積網絡實現端到端的訓練。
(1)通道注意力機制(CA)。
模型在特征提取過程中并不是每個卷積核都能起關鍵性的作用,甚至某些卷積核處理會對模型造成負面影響,進而影響模型的檢測性能。為了提高模型的檢測精度,文中引入通道注意力機制,使得網絡模型能夠有效關注到重要通道,而忽略甚至抑制負面通道,其網絡結構如圖2(b)所示。

(a)CBAM結構

(b)通道注意力機制結構示意圖

(c)空間注意力機制結構示意圖圖2 雙注意力機制模塊結構示意圖
從圖2(b)中可以看出,注意力機制的輸入特征維度為N×H×W,其中N為輸入特征的通道數,H為輸入特征圖的高,W為特征圖的寬。通道注意力可表示為式(1)。
Fc=sig{MLP[GAP(F)]+MLP[GMP(F)]}
(1)
其中,F表示輸入特征圖;GAP表示全局平均池化;GMP表示全局最大池化;MLP表示多層感知機;sig表示sigmod激活函數,
經過注意力機制處理后得到一個N維向量Fc,其表達式如下:
Fc=(α1,α2,…,αN)T
(2)
其中,αi(i=1,2,…,N)表示第i個通道的重要等級,最后將該向量與輸入相乘得到N×H×W的最終輸出,該輸出能夠有效關注重要通道,抑制非重要通道的影響。
(2)空間注意力機制(SA)。
SAR圖像在空間各處存在不同價值的信息,例如在復雜場景下??坑诟劭诘拇澳繕?,船舶才是重點關注的對象,而港口設備不是需要關注的對象??臻g注意力機制的引入能夠有效關注到船舶目標而抑制圖像中其他非重要信息,從而進一步提高檢測精度。
文中采用將空間注意力機制添加在通道注意力機制的輸出端,即空間注意力機制的輸入為通道注意力機制的輸出。所應用的空間注意力機制結構如下所述:先在輸入特征圖的基礎上使用最大池化和平均池化進而得到兩個不同的特征描述圖,然后通過concatenation方式將兩個特征描述合并,接著使用卷積操作生成空間注意力特征圖,最后經過sigmod函數得到最后空間注意力機制的輸出。
假設空間注意力機制的輸出表示為FS,其計算過程可表示如下:
FS=sig{f7×7[GAP(F'),GMP(F')]}
(3)
其中,F′為輸入特征圖;GAP和GMP與通道注意力機制中的表示意義一致,分別表示全局平均池化和全局最大池化;f7×7表示7×7的卷積操作;sig仍為sigmod激活函數。
注意力機制處理后得到的輸出Fs為一個維度為1×W×H的矩陣,表示為:

(4)
其中,ψi,j(i=1,2,…,H,j=1,2,…,W)表示空間坐標為(i,j)位置信息的重要等級,最終的輸出為該矩陣與輸入特征圖相乘,空間注意力機制的引入能夠成功關注到空間的有效信息。
為了進一步提升模型整體的檢測精度,增強算法對小尺寸目標的魯棒性,同時考慮到基礎特征提取層具有大尺寸、高分辨率的特性,能夠很好反映目標的位置和信息,故而所提算法將conv5引入目標檢測網絡。conv5的特征圖尺寸為38×38,為能夠從conv5獲得更多的語義信息,文中采用膨脹卷積對conv5層特征圖進行下采樣,卷積核為3×3,滑動步長Stride=2,pad=2,膨脹系數dilation=2。經過膨脹卷積后conv5的特征圖尺寸為19×19×512,然后將該特征圖與conv11進行特征融合,獲得最終用于目標檢測的特征圖。特征融合方式采用級聯融合(concatenation fusion)方式,其具有計算量小、精度高的特點,更加適用于跳層連接融合。
原SSD網絡的損失函數為位置誤差與置信度誤差的加權和,位置損失是預測框與真實框參數之間的平滑L1損失,置信損失為softmax損失。對于SAR圖像船舶目標檢測,置信損失轉化為softmax對船舶以及“其他”兩類目標的損失函數,可用標準交叉熵損失函數表示,見公式(5),定位損失函數依然遵循原SSD網絡的計算方式。
Lconf=-log(pt)
(5)
其中,pt指標簽為船舶類的模型估計概率,但該方法存在不會區分難易樣本的問題。在復雜背景SAR船舶目標檢測樣本中,陸地區域中通常會存在與船舶目標相似的干擾物影響SAR船舶目標的檢測性能,由于SAR圖像特殊的成像機制導致SAR船舶圖像中通常存在不同嚴重程度的斑點噪聲,同時對于密集型的多只船舶目標可能會存在相互連接,遮擋等問題,從而使得目標檢測模型很難準確檢測出目標。為避免復雜場景對SAR圖像船舶目標檢測帶來的干擾,文中采用一種新的二分類損失函數作為SAR船舶目標檢測的置信損失函數,見式(6)。
Lconf=-(1-pt)λlog(pt)
(6)
為調節簡單樣本的權重,文中在原始二分類損失函數的基礎上加入新的參數λ,當λ=0時,可表示為式(5),當pt的取值愈接近于0時,-log(pt)的取值愈趨近于無窮大,表明該樣本屬于困難樣本且容易錯誤分類,則當前樣本的分類損失函數值將會被賦予較大的權重;當pt取值愈接近1時,表明當前樣本分類錯誤的概率越小,樣本屬于簡單樣本且容易正確分類,同時將會被給予較小的權重。通過對比分析,將文中所提模型置信損失函數中的樣本權重因子λ設置為3,權重因子λ的引入能夠有效減少簡單樣本在模型訓練過程中所占的比例。
為驗證所提模型在復雜SAR圖像中船舶目標的檢測情況,文中構建了一個復雜背景下的SAR船舶目標檢測數據集。該數據集采用目前使用較成熟的SAR船舶目標檢測數據集SSDD,SSDD中共含有1 160幅圖像,平均每幅圖像包含2.12條船舶[5]。實驗中通過對原SSDD數據集中復雜背景SAR圖像采用隨機裁剪、圖像旋轉、翻轉、平移、大小縮放等方式得到復雜背景SAR圖像共計1 150幅,基于此,另行搜集了復雜背景SAR圖像900幅,并選取其中部分圖像對其利用傳統數據增強技術進行數據擴充達1 200幅,所搜集的復雜背景SAR圖像均來自于目前國內所發布的數據,且多基于Sentinel-1 SAR數據[10]。所有數據均按照VOC數據格式進行標注,共計3 250幅復雜背景SAR船舶圖像,命名為SDATA(SAR data),最終按7∶2∶1的比例將數據集分為訓練集、驗證集及測試集。
模型訓練過程中選用Adam優化器進行網絡參數迭代更新,共訓練200 epochs,batch_size設置為16,采用Poly機制動態調整學習率。
在模型訓練過程中,正負樣本的IOU閾值設定為0.5,當IOU>0.5時,為正樣本;當IOU≤0.5時,為負樣本。圖3展示了DASSN模型與MobileNet-SSD網絡模型在文中數據集訓練過程中loss函數值隨epoch的變化情況,可以看出,相較于MobileNet-SSD所提網絡模型DASSN的收斂速度相對較快,而且DASSN網絡模型的損失函數值變化曲線相對比較平緩。不難發現兩種模型均在160 epochs左右損失函數值變化幅度較為明顯,而在160 epochs之后,DASSN模型的損失函數變化幅度明顯減小,說明此時模型性能也相對穩定,表明兩種模型在文中數據集中的訓練迭代次數應選取在175 epochs左右可使得模型相對比較穩定。

圖3 兩種網絡損失函數
(1)模型性能分析。
實驗過程中置信閾值的選取將會對模型檢測性能產生不同的影響,為了解DASSN模型在不同置信閾值下的檢測性能,分別在不同置信閾值條件下,對模型的綜合指標F1-score參數進行對比分析。
在該模型中,當置信閾值取0.2時,模型F1-score取得最大值0.912,當置信閾值不斷增大的時候模型綜合評價指標F1-score的取值不斷變小,表示模型的檢測性能也在不斷下降,故而為取得最好的檢測性能,最終將DASSN模型的置信閾值設定為0.2。
為進一步驗證文中所提改進方式對網絡模型檢測性能的影響,分別對模型改進過程中引入不同改進技術所生成的四個不同模型進行實驗分析。
從表1分析可得,模型改進方式的提出對模型的檢測性能均有所改善。MobileNet-SSD網絡由于其輕量化的特點,在一定程度上損失了檢測精度,因而其檢測準確率只達到了78.4%。在加入通道注意力機制后,模型的檢測準確率相較于MobileNet-SSD網絡提升了4.8個百分點。在引入空間注意力機制后,由于模型的雙注意力機制使得模型檢測準確率有了較大的提升,相較于最初的MobileNet-SSD網絡其檢測準確率提升了9.9個百分點,其F1-score值也增長至0.897,相較于模型二提升了4.3個百分點,表明引入雙注意力機制的檢測效果遠比引入單通道注意力機制更為明顯。實驗表明文中最終模型檢測性能最優,其檢測精度達到0.891,相較于模型三檢測精度有所提升,表明引入的特征融合技術能夠提升對SAR船舶目標的檢測性能,相較于原MobileNet-SSD網絡其檢測精度提升了10.7個百分點,F1-score值也增長了10.0個百分點,表明文中網絡模型對復雜背景SAR船舶目標檢測性能有了很大的提升。

表1 不同改進方式對DASSN模型檢測性能的影響
(2)模型改進前后實驗對比。
DASSN網絡模型與原SSD網絡模型一致,其輸入圖像尺寸均為300×300。為了進一步體現文中網絡對復雜背景SAR船舶目標的檢測性能,實驗在所提數據集SDATA上對SSD300網絡及DASSN網絡進行對比。圖4分別為SSD300網絡及DASSN網絡在復雜背景SAR圖像船舶目標檢測的結果示意圖。

(a)SSD300網絡檢測結果

(b)DASSN網絡檢測結果圖4 兩種網絡檢測結果對比
為了清晰地對兩種網絡結構的性能進行對比,分別從平均檢測精度、查準率、查全率及F1-score四個性能指標對兩種模型進行比較。

表2 模型改進前后性能對比
從表2可以看出,改進后的DASSN模型在平均檢測精度上相較于SSD300網絡提升了8.8個百分點,模型查準率與查全率分別提升了6.9和8.1個百分點,同時綜合評價指標F1-score也提升了7.4個百分點,表明文中所提模型在復雜背景SAR圖像船舶目標檢測上能夠較大程度地提高檢測性能。
(3)與其他目標檢測算法對比。
為驗證文中所提算法的有效性,選取目前常用的深度學習目標檢測算法Faster RCNN[11]、YOLOv3[12]及RetinaNet[13],對包括文中算法在內的四種目標檢測算法均在所提復雜背景SAR船舶圖像數據集上進行實驗。
圖5分別展示了四種不同模型對兩幅SAR圖像的檢測情況,兩幅圖像均具有復雜的背景且會對SAR船舶目標檢測進行干擾,可以看出除所提模型外,RetinaNet網絡具有相對較好的檢測性能,但其檢測效果相對于所提模型仍具有一定的空間。YOLOv3作為YOLOv2[14]算法的升級版,其檢測精度及檢測速度都得到了一定程度的提高,但對尺寸較小的密集型船舶目標存在許多漏檢情況,并且對緊密連接的船舶檢測效果也不理想。所提模型雖然在檢測過程中存在部分漏檢的情況,但相較于其他網絡的檢測性能均具有明顯的提升。對于密集連接的海岸船舶,由于其存在遮擋粘連等因素導致模型檢測困難,但文中模型仍能夠表現出較好的檢測性能。

圖5 不同檢測模型的檢測結果對比
通過查全率、查準率、F1-score以及檢測速度四個方面對各個算法進行比較,其檢測結果如表3所示。

表3 不同算法的檢測性能對比
從表3可以看出,Faster RCNN網絡具有相對較高的檢測精度,但明顯可以看出其檢測速度具有較大的劣勢,其FPS僅達到5.3;而RetinaNet相對Faster RCNN與YOLOv3具有較好的檢測性能,其查準率較一階段目標檢測網絡YOLOv3提升了2.9個百分點,但其檢測速度相對YOLOv3有了明顯的降低,相對于Faster RCNN其查準率提升了1.4個百分點,檢測速度FPS也提升了11.2,但相較于文中所提模型其查準率降低了6.8個百分點,文中算法的F1-score值比其他三種算法分別提升了7.1,9.0及6.1個百分點,表明所提模型較其他三種模型在復雜背景SAR船舶目標檢測數據集中表現最佳,同時值得注意的是所提模型的檢測速度相較于速度最快的YOLOv3模型也提升了4.8個百分點,表明所提算法在復雜背景SAR船舶目標檢測上無論是檢測精度還是檢測速度都得到了一定的提升,對將深度學習算法應用于實際的SAR船舶目標檢測環境具有一定的推動作用。
針對復雜場景下SAR圖像船舶目標檢測問題,提出了一種具有較高檢測速度和檢測精度的SAR圖像船舶目標檢測算法,該算法具有較少的參數量,相對于原SSD網絡模型更加輕量化。算法為解決復雜場景易造成干擾的問題,將結合通道注意力與空間注意力機制的雙注意力模塊CBAM引入網絡模型,同時考慮到SAR圖像中船舶目標多數尺寸較小,故而文中算法引入基于膨脹卷積的特征融合技術,在不增大輸入特征圖的基礎上使用膨脹卷積增大感受野達到豐富特征數據的目的。最終,通過3種實驗對比,驗證了文中所提模型對復雜背景下SAR船舶目標檢測的有效性,同時也證明了文中算法對實時性SAR應用領域具有一定的現實意義。