趙煒東,郭鵬宇,劉 勇,曹 璐,楊偉麗,季明江
(軍事科學院 國防科技創新研究院,北京 100071)
艦船目標檢測具有很高的民用與軍用價值。我國是一個海洋大國,擁有豐富的海洋資源,隨著經濟貿易的發展,我國的水上交通越來越發達,艦船的數量快速增長,對港口航道等區域進行艦船監控管理,有利于我國水運資源的合理運用[1]。同時,艦船目標作為戰場偵察的重要目標,需要獲取艦船目標的準確信息以進行軍事部署,艦船目標的精確檢測對維護我國海洋安全與實現走向深藍的海軍戰略具有重大意義[2]。隨著科學技術的發展,衛星圖像的分辨率不斷提高,不同種類的衛星圖像為艦船目標的檢測提供了有力的數據支撐[3]。同時,在區域卷積神經網絡(Region-Convolutional Neural Network,R-CNN)[4]提出之后,深度學習逐漸成為了目標檢測領域的主流工具,研究基于深度學習的艦船目標檢測方法,可以提高艦船檢測的準確性、實時性和魯棒性,滿足艦船目標智能檢測的需求[5]。
研究人員針對艦船目標的檢測,開展了大量的工作。文獻[6]將注意力機制引入多尺度特征融合網絡精煉模型,通過旋轉錨框緩解艦船密集排列引起的噪聲問題,并且設計特征重建模塊緩解特征不對齊的問題,在公開數據集上驗證了算法有效性;文獻[7]通過在單射檢測器(Single-Shot Detector,SSD)[8]網絡的淺層添加串行修正線性單元(Concatenated Rectified Linear Units,CReLU)[9],提升了網絡傳遞淺層特征的效率,并且采用特征金字塔網絡(Feature Pyramid Network,FPN)[10]融合多尺度特征圖,在艦船小目標檢測上取得了10%的檢測精度提升;文獻[11]在檢測框架中引入場景分割,通過排除非目標區的錯誤候選目標,減小了復雜場景對艦船目標檢測的干擾。文獻[12]使用稠密網絡模塊代替用于提取中小尺度特征的殘差網絡模塊,實現端到端的目標檢測,提升了艦船目標檢測算法的泛化能力。
但是,以上工作都在單一模式圖像的基礎上開展研究,算法的檢測性能由于圖像自身的特點受到限制,傳統的單一模式圖像檢測在復雜場景下面臨著巨大的挑戰。目前衛星遙感成像手段呈現多樣化的趨勢,有多光譜、高光譜、紅外、合成孔徑雷達、夜光等多種衛星遙感影像[13]。在同一場景下,同一地物對象的衛星遙感影像由于類型不同,目標的空間特征和譜段特征存在差異,多源信息具有互補性和合作性,同時也具有冗余性[14]。研究人員逐漸將目光聚焦于構建多模態輸入的神經網絡用于目標檢測,探索了可見光+熱圖像、可見光+深度圖、可見光+激光雷達等多種模態融合方式[15]??梢姽庑l星圖像具有分辨率高且獲取代價低、顏色紋理特征清晰的優點,但是易受天氣干擾,在背景復雜、有云霧遮擋的情況下,會出現艦船目標的錯檢、漏檢[16]。紅外衛星圖像相較于可見光衛星圖像,分辨率較低,艦船目標邊緣紋理不清晰,但具有不易受干擾、可全天候觀測、云霧穿透能力強等優點[17]。
不同情況下可見光圖像與紅外圖像如圖1 所示。分別對比了在一般場景、云霧遮擋、海岸干擾情況下針對同一場景拍攝的艦船目標可見光遙感圖像與紅外遙感圖像,顯著艦船目標用紅色方框標記,模糊艦船目標用紅色圓框標記。可以看出在一般場景下,可見光遙感圖像中的艦船目標顏色紋理信息更清晰;在云霧干擾下,可見光遙感圖像中的艦船目標被云霧遮擋,難以觀測,紅外遙感圖像可穿透云霧,使得艦船目標更加顯著;在海岸干擾下,可見光遙感圖像中的艦船目標緊貼海岸難以區分,紅外遙感圖像中的艦船目標與背景的區分度更高,特征更為顯著。

圖1 不同情況下可見光圖像與紅外圖像的對比Fig.1 Comparison of visible images and infrared images under different conditions
目前,國內外已有多顆衛星可以實現可見光與紅外波段的覆蓋,如國外的Sentinel-2、Landsat8 等,國內的高分五號、資源一號02D 等,在農業、減災、國家安全、海洋監視等領域發揮了重要作用[18]。利用可見光圖像與紅外圖像之間的互補性,可以實現對艦船目標的聯合監視,是未來天機海洋監視的重要發展趨勢之一,具有廣闊的應用前景。文獻[19]提出了一種改進的YOLOv3[20]艦船目標檢測方法,在數據集中引入艦船目標的紅外圖像彌補夜晚場景下可見光圖像的目標信息缺失,在簡化后的YOLOv3 網絡中加入空間金字塔池化(Spatial Pyramid Pooling,SPP)[21]模塊,提高了網絡在特征提取方面的性能,提高了艦船目標的檢測精度。雖然文獻[19]通過在數據集中引入紅外圖像提高了艦船目標的檢測精度,但沒有進一步對可見光與紅外圖像之間的聯合目標檢測展開研究,且文中所用數據集均為安防相機拍攝的艦船目標圖像,提出的算法并不適用于天基艦船目標檢測。
為探究可見光與紅外衛星圖像的互補性,提升艦船目標檢測算法的性能,本文開展了基于可見光與紅外衛星圖像的艦船目標檢測算法研究。由于公開數據中,沒有已配準的可見光/紅外艦船目標數據集,制作了可見光和紅外艦船目標(Visible and Infrared Ship,VI-ship)數據集。本文提出了基于可見光與紅外衛星圖像融合的艦船目標檢測算法VIYOLOv5,以YOLOv5 中的CSP-Darknet53 網絡為骨干網絡,構建了可見光+紅外衛星圖像的雙模態融合網絡,同時提取目標空間特征與譜段特征;加入快速空間金字塔池化(Spatial Pyramid Pooling FAST,SPPF)模塊,在增強網絡特征提取能力的同時提升了檢測精度和檢測速度;通過引入SIoU[22]損失函數,降低了網絡回歸的自由度,加快了網絡收斂,提升了回歸精度。在VI-ship 數據集上的實驗結果表明VI-YOLOv5 算法具有較好的檢測性能,驗證了可見光與紅外衛星圖像聯合的艦船目標檢測算法的有效性。
本文設計算法VI-YOLOv5 在輸入端構建可見光與紅外圖像融合輸入網絡,在骨干網絡中引入了受跨階段局部網絡(CSPNet)[23]啟發的CSP 結構,將基礎層的特征映射劃分為兩部分,然后通過跨階段層次結構將它們合并,在減少計算量的同時保證了準確率。在網絡頸部引入SPPF 模塊以及特征金字塔網絡(FPN)+像素聚合網絡(Pixel Aggregation Network,PAN)[24]的特征融合結構,加強了網絡的特征融合能力。在繼承YOLO[25]系列網絡的基礎上實現了進一步的性能提升,網絡結構如圖2 所示。圖中,CBS 是由卷積層(Conv)、批歸一化層(BN)和雙彎曲線性單元(SiLU)組成的模塊,CSP 是由若干CBS 模塊和拼接層(Concat)組成的模塊。
原始的YOLOv5 網絡輸入為可見光三通道圖像,隨著網絡層數不斷加深,深層網絡會不斷丟棄目標的細節特征,在復雜場景下由于艦船目標特征嚴重損失將導致檢測性能的下降。為了彌補這一過程中的艦船目標特征損失,將紅外衛星圖像引入檢測網絡,在原有的可見光輸入通道基礎上,增加紅外輸入通道,將紅外圖像與可見光圖像合并為一個四通道圖像后送入網絡。經過一系列數據增強操作后,將送入網絡中的原始數據切分為4 份,相當于對原始數據進行2 倍下采樣,之后在channel 維度進行拼接。最后進行卷積操作,得到了沒有信息丟失情況下的2 倍下采樣特征圖,在不影響計算速度的情況下引入了紅外衛星圖像。圖像融合過程如圖3 所示。

圖3 圖像融合Fig.3 Schematic diagram of image fusion
網絡將輸入圖像劃分為s×s個網格單元,每個網格單元產生n個預測框、預測框的置信度以及分類概率,每個預測框有6 個預測值,即x、y、w、h、置信度得分和分類概率。坐標(x,y)表示預測框的中心相對于網格單元的位置,框尺寸(w,h)是預測框的寬度和高度,置信度分數表示預測框的正確性,最終檢測輸出張量的大小為s×s×6。
為了緩解圖形畸變引起的信息丟失,減少卷積運算,YOLOv5 網絡引入了空間金字塔池化模塊,其工作原理是對接收到的特征圖進行三種不同尺度的最大池化后對特征向量進行拼接,得到固定大小的特征向量,可將任意尺寸的特征圖轉換成固定大小的特征向量,進而實現局部特征和全局特征的融合,豐富了特征圖的表達能力。當待檢目標大小差異較大時,可以提高檢測的精度。本文引入的快速空間金字塔池化(SPPF)結構相較于空間金字塔池化結構,改變了池化層的下采樣倍數,用三個串行的卷積核尺寸為5×5 的最大池化層代替了原本并行的卷積核分別為5×5、9×9 和13×13 的三個最大池化層。當輸入為一個64×64×3×1 的張量時,空間金字塔池化模塊和快速空間金字塔池化模塊最終會輸出一個結果相同的64×64×3×1的張量,對精度不會產生影響,但是快速空間金字塔池化具有更少的計算量和更快的速度,在多尺度特征提取中保留了更多信息,空間金字塔池化模塊與快速空間金字塔池化模塊的結構如圖4 所示。

圖4 SPP 和SPPF 結 構Fig.4 Diagram of SPP and SPPF structures
VI-YOLOv5 的損失函數由定位損失、分類損失和置信度損失三部分構成,其中定位損失采用SIoU 損失函數描述,分類損失和置信度損失采用二元交叉熵損失函數描述。相較于YOLOv5 用于描述定位損失的CIoU 損失函數,SIoU 損失函數進一步引入檢測框與目標框之間的向量角度,利用了更多位置信息。添加向量角度約束之后,抑制了檢測框位置在平面上的自由變化,使得檢測框在一個更合理的范圍內向目標框逼近,加快網絡收斂的同時提升了網絡精度。向量角度對定位的貢獻如圖5 所示,圖中,B為檢測框,BGT為目標框,α為向量角度。

圖5 向量角度Fig.5 Schematic diagram of the vector angle
SIoU 定位損失的計算公式如下:
式中:IoU 為檢測框與目標框之間的交并比;Δ為距離損失;Ω為形狀損失;Λ為角度損失;α為檢測框與目標框中心連線與水平軸的夾角;bcx、bcy分別為邊界框中心點的橫縱坐標;cw、ch為兩邊界框外接矩形的寬與高;θ定義形狀成本,控制對形狀損失的注意力;wb、hb分別為邊界框的寬與高。
由公式可知,當α→0 時,距離損失趨于常數,降低了網絡回歸的自由度,加快了網絡收斂,提升了回歸精度。
分類損失與置信度損失的表達式如下:
式中:m為每個網格產生的候選框數目;p(c)為類c的分類概率;C為置信度,將定位損失、分類損失與置信度損失三者相加即為總的損失函數。
本文實驗環境為圖像工作站,包含一塊NVIDIA RTX3090GPU,CUDA 版本為11.5,CUDNN 版本為8.3.0,處理器為Intel I7 7800X。艦船目標數據來自于自主標注的Sentinel-2 衛星圖像,包含一一對應的可見光與紅外圖像共2 280 張,按照7∶2∶1 的比例劃分為訓練集、驗證集與測試集。評價指標選擇VOC2007 平均精度(mAP_0.5)、精 度、召回率、F1 值及檢測速度,選用SGD 優化器,設置初始學習率為0.01,動量為0.937,權重衰減為0.000 5。
目前公開的艦船目標光學遙感圖像數據集均由可見光遙感圖像構成,不包含本文研究所需的艦船目標紅外遙感圖像,無法滿足本文的研究需求,需要自行制作同時包含可見光與紅外遙感圖像的艦船目標聯合數據集。
Sentinel-2 是歐空局的高分辨率多光譜成像衛星,且數據公開,衛星包含13 個光譜波段,通過對衛星多光譜遙感圖像的處理可以得到一一對應的可見光遙感圖像與紅外遙感圖像,進而可以得到滿足本文實驗所需的艦船目標可見光和紅外遙感圖像聯合數據集。選取多張Sentinel-2 衛星圖像,包含多云、海岸等多個復雜場景。在ENVI 軟件中對衛星圖像進行處理,將可見光三通道數據融合得到原始可見光遙感圖像,提取短波紅外通道數據得到原始紅外遙感圖像。
設置重疊間距為64 像素值,將原始圖片切割為256×256 的圖片,進行篩選后得到可見光與紅外遙感圖像一一對應的共2 280 張艦船目標遙感圖像,利用LabelImg 軟件對圖片中的艦船目標進行矩形框標注,共標注7 500 多個艦船目標,大部分為像素值小于30×30 的艦船目標,VI-ship 數據集中一般場景、云層干擾以及海岸干擾下的可見光與紅外圖像如圖6 所示。

圖6 VI-ship 數據集中的典型樣本Fig.6 Typical samples in the VI-ship dataset
對比VI-YOLOv5可見光+紅外融合檢測網絡在損失函數分別為SIoU 和CIoU 下的mAP_0.5、精度、召回率、F1值以及檢測速度,結果見表1。

表1 SIoU 與CIoU 性能對比Tab.1 Comparison of the performances of SIoU and CIoU
實驗結果表明,SIoU 損失函數相較于CIoU 損失函數同時提升了網絡精度與速度,與理論分析結果一致。
本文還對比了VI-YOLOv5 可見光+紅外融合檢測網絡、可見光檢測網絡與紅外檢測網絡的mAP_0.5、精度、召回率、F1 值、參數量、FLOPs 和檢測速度。結果表明,可見光+紅外雙模態融合檢測網絡的mAP_0.5、精度、召回率和F1 值均優于單模態檢測網絡,三組網絡的參數量均在7 MB 左右,融合檢測網絡由于增添了紅外通道輸入,參數量和FLOPs最大,但與單模態檢測網絡相比,性能差距不大,檢測速度可達6.2 ms/幀,在保持較快檢測速度的同時取得了最好的精度指標,融合檢測網絡的mAP_0.5 可達0.976,精度為0.972,召回率為0.982,結果見表2。

表2 融合網絡與單模態網絡性能對比Tab.2 Comparison of the performances of the fusion network and single-mode networks
海岸干擾下的檢測結果、云層干擾下的檢測結果如圖7 和圖8 所示。結果表明,在海岸干擾下可見光網絡出現了漏檢,紅外網絡出現了錯檢,而融合網絡正確檢測出了岸邊的艦船目標,且檢測置信度大于紅外網絡;在云層干擾下,可見光網絡出現了漏檢,融合網絡和紅外網絡正確檢測出了艦船目標,融合網絡對艦船目標的檢測置信度大于紅外網絡。以上結果說明雙模態融合網絡的檢測性能優于單模態網絡,驗證了本文提出的VI-YOLOv5 融合檢測網絡的有效性。

圖7 海岸干擾下的檢測結果對比Fig.7 Comparison of the detection results under coastal interference

圖8 云層干擾下的檢測結果對比Fig.8 Comparison of the detection results under cloud interference
對比VI-YOLOv5 融合檢測網絡與其他經典目標檢測網絡的各項性能指標,結果表明VI-YOLOv5融合檢測網絡相較于YOLOv5 平均精度提高了3.9%,且各項性能指標優于其他網絡,結果見表3。
不同網絡的部分檢測結果如圖9和圖10所示。結果表明,VI-YOLOv5相較于其他網絡在一般場景下可以取得最好的檢測結果,在云層干擾下算法仍能保持良好的檢測性能,具有較強的穩定性和抗干擾能力。

圖9 一般場景下的不同網絡檢測結果對比Fig.9 Comparison of the detection results of different networks in general scenarios

圖10 云層干擾下的不同網絡檢測結果對比Fig.10 Comparison of the detection results of different networks under cloud interference
本文針對云層遮擋、海岸干擾等復雜場景下基于光學遙感圖像單模態艦船目標檢測方法性能下降的問題,以YOLOv5 為基礎框架,提出了VI-YOLOv5 雙模態艦船目標檢測網絡。該網絡在輸入端將可見光與紅外衛星圖像合并,同時提取了艦船目標的空間特征和譜段特征,保留了更多目標信息,通過引入SPPF 模塊與SIoU 損失函數,增強了網絡的特征提取能力,提高了網絡的檢測性能。在自主標注艦船目標數據集VI-ship 上,VI-YOLOv5 可見光+紅外融合網絡的平均精度可達0.976,性能優于可見光檢測網絡和紅外檢測網絡,且本文提出的網絡相較于其他經典網絡,檢測性能也有一定的提升。實驗結果表明:可見光與紅外圖像聯合目標檢測可以緩解艦船目標在云層和海岸干擾下的錯檢漏檢問題。后續將進一步豐富數據集,增添更多復雜場景,更好地利用可見光與紅外圖像之間的互補性,提升算法在不同光照、天氣、地形下的檢測性能。