基于改進YOLOv7 聲光融合水下目標檢測方法

2023-07-22 08:24:18葛慧林戴躍偉朱志宇

艦船科學技術 2023年12期

葛慧林，戴躍偉，朱志宇，王彪

(江蘇科技大學海洋學院，江蘇鎮江，212003)

0 引言

基于光學傳感器獲得的圖像具有較高的圖像細節及顏色信息，適用于環境監測或地質勘探等應用場景。光學相機提供的高分辨率數據，在諸如珊瑚礁監測[1]、船體檢查[2]、運動估計[3]和考古調查[4]等應用中具有重要意義。

然而，光學相機的成像范圍有限，水下光的衰減、水的濁度或天氣改變等因素都將進一步影響到光學傳感器的范圍和性能。照明系統可以在一定程度上緩解這些問題，但不均勻的照明也是光學圖像的干擾因素之一，并且由于成本及功率的限制，高質量的照明系統并不適用于多數應用場景。此外，在水下環境中，潛艇會揚起淤泥，干擾光學傳感器的性能。聲吶可以適應昏暗的環境，擁有更大的感知范圍，但是與光學相機相比，聲吶的分辨率較低，而且不包含顏色。

結合光學和聲吶數據，可實現各自優點的整合，提高水下目標檢測的準確度[5]。目前相關研究多數集中于如何創建高效的整合模型。Moroni 等[6]利用光學數據建立一個三維紋理的場景，利用聲吶數據的陰影形狀產生一個三維水深輪廓，通過整合每一個表征并使用文獻[7]中啟發的方法，投影到多維狀態空間圖中的參考層。然而，算法沒有對聲光圖像數據進行直接的融合。Negahdaripour 等[8]設計的模型在特征層面上明確地融合光學和聲吶數據，不僅改進了運動估計，還克服了單眼視覺固有的模糊性。Babaee 等[9]提出一種利用前視聲吶DIDSON 和光學相機圖像從遮擋表面法線建立三維物體模型的方法，與單純的光學傳感器技術相比，可以在更高的濁度水平下生成更好的物體三維模型。

在目標檢測任務中，執行光學圖像和聲吶圖像的融合需要對影像進行校準。在使用深度學習的多模態輸入中，根據聲光圖像信息被結合的時刻，一共分為3 種解決方案：早期融合、后期融合和中間融合。早期融合方法主要是在神經網絡處理之前，在原始數據層面上結合光學和聲吶圖像。后期融合是指對來自光學和聲吶圖像進行獨立處理后，融合處理結果。中期融合模型接受多種輸入，在網絡內部融合數據。

為了克服樣本的不足，可利用零散的方法來增加樣本數量[10-11]。對預訓練的CNN 進行微調是聲吶圖像檢測中一個有用的方法。Lee 等[12]采用StyleBankNet對人體的光學圖像進行風格轉移模擬，進一步提高了聲吶物體檢測的精度，但該樣本由計算機輔助設計軟件生成，需要大量的模擬工作來生成樣本。Li 等[13]充分利用風格轉移白化、著色變換方法和遙感圖像模擬聲吶圖像進行目標風格轉移。Yu 等[14]通過使用Transformer-YOLOv5，提高的準確率。Huang 等[15]結合三維模型、放大數據、設備噪聲和圖像機制，通過DCNN 和微調風格轉換方法提取目標特征并模擬目標損傷和姿態。Song 等[16]提出了一種基于斑點噪聲分析的高效聲吶分割方法，該方法便于進行像素級分類，并采用具有多個側向輸出的單流深度神經網絡來優化邊緣分割。

為提升水下目標檢測與識別的準確度，本文研究了實時神經網絡檢測器架構YOLOv7，并使其適用于多模態輸入，實現聲光數據融合。通過設計全新的融合模型YOLOv7-Fusion 以及引入CE-Fusion 模塊，進一步提升融合效率和準確性。利用快速風格和圖像處理算法轉化的方法，生成人工數據集，豐富樣本集數量。本文提出的算法可充分利用聲、光圖像的優勢，顯著提升水下目標檢測識別的效率、準確性以及穩定性。

1 YOLOv7-Fusion 多模態網絡設計

本文網絡主干選擇為YOLOv7，YOLOv7 是一種單階段的物體檢測算法，其架構是在YOLOv4，Scaled YOLOv4 和YOLO-R 模型架構的基礎上開發。YOLOv7采用了擴展的高效層聚合網絡（E-ELAN）架構，通過實現輸入的不同變化，如位置變換、擴展和合并，使網絡的學習能力得到不斷提高，進而網絡在梯度路線改變時也能保持較高學習性能。YOLOv7 架構包括1 個骨干層、1 個瓶頸層和1 個頭部。模型的輸出位于頭部，并包括主導頭和輔助頭，主導頭負責預測結果，而輔助頭支持中間層的訓練。基于YOLOv7，將光學圖像和聲吶圖像融合為6 通道的張量，其中3 個通道為RGB 圖像數據，另3 個通道為聲吶數據。使用2 個不同的特征提取網絡進行獨立處理，特征圖在不同層級使用支系間連接進行組合，實現水下目標檢測準確率的提升。所設計的YOLOv7-Fusion 如圖1 所示，分別在骨干層的倒數第1、第2、第3 層提取特征圖輸入進CE-Fusion 模塊，輸出融合特征圖，分別連接到瓶頸層的對應部分。

圖1 YOLOv7 多模態網絡結構Fig. 1 YOLOv7 multi-mode network architecture

為了在中間融合時，有效地結合來自不同模態的影像特征，提出一個新的CE-Fusion 模塊，具體結構如圖2 所示。模塊包含自我注意力和多模態融合機，定義ti和gi代表第i層的光學特征圖和聲吶特征圖。

圖2 CE-Fusion 模塊Fig. 2 CE-Fusion module

由于低層CNN 特征可能包含噪聲，為促進全局信息的表達、增強局部細節并抑制不相關區域，參照CBAM[24] 實現通道注意力和空間注意力方法。此外，利用哈達瑪積對來自2 個分支特征之間的細粒度互動進行建模。最后，結合交叉特征和刺激特征，并通過一個殘差塊，產生特征fi，該特征可有效捕捉當前空間分辨率下的全局和局部環境。使用YOLOv7在COCO 的預訓練權重初始化YOLOv7-Fusion，由于原版模型沒有CE-Fusion 模塊，在初始化后進行預熱訓練，在預熱訓練階段，凍結轉移的權重，專門訓練CE-Fusion。

2 基于風格轉移的人工資料集

目前，許多研究注重轉移學習和數據增強，在聲吶目標檢測中，基于風格轉移的模型性能有了明顯的提高，并成為聲吶目標檢測的一個技術趨勢。一般來說，風格轉移主要包括2 個步驟：風格轉移網絡在風格圖像和內容圖像上訓練，生成一個風格模型；將圖像輸入生成的模型中，并輸出風格化圖像。然而，直接使用風格轉移方法，會失去聲吶圖像中目標的關鍵特征。為了增強特征，提出一系列增加特征的圖像工學操作，通過使用3 個圖像操作來增強目標的陰影和特征，具體表示如下：

式中：AutoLevel 為自動色階；I為顏色反轉；g為伽馬值調整；γ為伽馬函數的閾值；y為最終結果。該方法也可以應用于其他類型的聲學圖像。

在快速風格轉移中，定義2 個Loss 函數，Lstyle和Lcontent。LStyle為f在風格方面與p更相似。Lcontent為f在內容方面與a更相似，則

式中：p為聲吶圖像的背景；a為光學圖像；f為具有聲學圖像風格的轉移圖像。

在實際環境中, 由于水下環境多變，如低光照、失焦、抖動等，獲取到的光學圖像無法達到穩定的質量，而聲吶可以獲得相對穩定的數據。為了模擬應用中的不可控因素，對隨機的光學圖像進行高斯模糊，并改變其伽馬值。最終通過融合光學及聲學圖像數據，實現檢測及識別效果的提升。

生成人工資料集的具體操作如圖3 所示，對于每一種光學圖像，先進行一系列增強特征的圖像工學操作，之后送進已經訓練的風格轉移模型，從而獲得對應的聲吶圖像。光學圖像本身則進行隨機高斯模糊和伽馬值調整，模擬昏暗水下環境，并與聲吶圖像成對輸出。在訓練集和測試集都進行人工資料集生成，最終獲得了大量的聲光融合資料集。

圖3 基于快速風格轉移的人工數據集生成Fig. 3 Manual data set generation based on fast style transfer

3 實驗分析

3.1 性能指標

用來衡量模型準確性的指標是平均精度（AP）。計算平均精度需要了解其他3 個指標：交并比（IoU）、精確率（Precision）和召回率（Recall）。IoU 是預測區域和真實區域的交集區域和并集區域的比例，精確率是指正確識別預測的比例，召回率是指正確檢測到的真實結果的比例。當一個預測對真實結果的“聯合之上的交集”值，即IoU，高于一個特定的閾值時，則認為該預測正確。

式中：真陽性（TP）為指檢測的方框中IoU 高于閾值的數量；假陽性（FP）為檢測方框中IoU 低于閾值的數量；假陰性（FN）為未檢測到的真實結果的數量。

定義mAP 是每個召回值的精度的平均值，換言之，mAP 代表精度-召回曲線下的面積。為了建立作為召回率函數的精度曲線，必須對整個測試集進行預測。建立一個按精度降序排序的每個方框的置信度表格，為每個預測的邊界盒分配TP 和FP 的值。根據式（8）可知，通過創建一個累積的TP 和FP，可計算每個值的精度方程。根據式（9）可知，對于每個精度值，使用累積的TP 和FN 計算召回率。以TP 與FN 的和作為測試數據集中真實結果的數量。基于已設置的每個預測界線盒的精度和召回值的累積順序，建立精度-召回曲線。最后，通過計算曲線下的面積得到mAP。mAP 指標決定了有多少預測結果是正確以及檢測到的物體和地面真實位置之間的重疊程度如何，因此，可利用mAP 對于比不同檢測算法的性能。此外，mAP 的值與預設的閾值密切相關，預設的閾值決定了預測方框和真實結果的重疊。本文采用了mAP0.5和mAP0.5-0.95兩個指標。mAP0.5表示將IoU 的閾值設為0.5 時，所有類別的mAP，而mAP0.5-0.95則表示在0.5 到0.95，步長0.05 的所有閾值的平均mAP。

實驗中的數據集為NorFisk，并以9:1 的比率劃分訓練集和測試集。在訓練基于多模態的中期融合網絡時，輸入圖像大小設置為640×640，初始學習率為0.01，權重衰減率為0.000 5。每次網絡訓練樣本數為16，并使用動量為0.937 的亞當優化器進行梯度更新。模型在單張RTX 3 090 上訓練。

3.2 實驗結果分析

為證明本文理論分析的正確性及優越性，分別使用多種融合方法對目標數據集進行訓練和測試，使用的方法如下：

1）早期融合YOLOv7-Early，如圖4（a）所示。在YOLOv7 處理之前，在原始數據層面上結合光學和聲吶圖像，使用加權加法操作進行融合。在YOLO 的骨干中創建的潛在特征包含了來自第1 個計算階段的2 個模態的信息。

圖4 早期融合模型和后期融合模型結構Fig. 4 Early fusion model and late fusion model structure

2）后期融合YOLOv7-Late，如圖4（b）所示，對來自光學和聲吶圖像進行獨立處理，同時融合處理結果。深度神經網絡由2 個完整獨立的分支組成，從這2 個分支得到的檢測結果由一個預測合并模塊處理。檢測方框根據從2 個處理分支獲得的結果的平均提供一個單一的檢測輸出，目標種類預測采用聲學圖像的結果，從而融合2 個網絡的結果。

3）中間融合YOLOv7-Fusion，是本文主要提出的方法。開始時，使用2 個不同的特征提取網絡進行獨立處理，特征圖在不同層級使用支系間連接進行組合，最終可以實現更高的水下目標檢測準確率。

4）原始模型YOLOv7，不進行融合，只使用單獨一個模態進行訓練和檢測。標記使用光學圖像訓練的YOLOv7 為YOLOv7-Opti，而使用人工聲吶圖像訓練的為YOLOv7 -Acou。

通過比較不同網絡mAP 值，實現不同網絡性能的對比。根據表1 可知，YOLOv7-Fusion 檢測器達到了最高的指標分數，因為模型結合了從不同處理水平的2 個來源提取的信息。YOLO4-Late 檢測器的檢測結果稍差，模塊平均了光學和聲吶圖像數據的并行處理模塊的檢測結果。在目標分類任務上，YOLOv7-Fusion 的召回率比YOLOv7-Acou 略低，產生此種現象的原因可能是由于選擇的模型擁有簡單的背景和良好的光照條件，使得普通的單模態模型也能達到非常高的準確率，并且YOLOv7 本身也是強大的目標檢測模型。

表1 不同網絡對數據集的檢測準確率Tab. 1 Detection accuracy of different networks of the data set

為了模擬應用中的不可控因素，通過改變數據集，實施了穩定性測試。對光學圖像的處理有改變伽馬值和進行高斯模糊，將改變后的數據集輸入融合網絡進行測試，實驗的結果如表2 所示，通過對比mAP指標可知，YOLOv7-Fusion 各項性能均最佳，它在處理后的圖像數據集上的表現明顯優于其他方法，尤其與YOLOv7-Early 和YOLOv7-Opti 等單源方法相比，這種性能差異更為明顯，根據表2 所呈現的數據可知，YOLOv7-Fusion 比YOLOv7-Early 和YOLOv7-Opti 在mAP0.5的改進超過0.066。對于融合時機來說，YOLOv7-Fusion 比YOLOv7-Late 的表現好0.328，比YOLOv7-Early 好0.009，這證明了中間數據融合能夠最有效地吸收各個模態地信息。值得注意的是，YOLOv7-Late探測器在模糊圖像分類準確度低，因為模塊參考光學圖像分類。

表2 在穩定性測試中不同網絡的檢測準確率Tab. 2 Detection accuracy of different networks in stability testing

當使用數據采集裝置時，系統只有有限的時間預算來進行有效的檢測和決定。表3 列出了所分析的融合模型的處理Fps 值，即每秒可以處理的張數，推理時間的計算均是假設每個圖像都是獨立處理。Fps 越大，網絡檢測性能越好。由上述實驗可知，不同的光照條件下，YOLOv7-Fusion 有關目標檢測準確性均最佳，且效率比擁有2 個獨立模型的YOLOv7-Late 效率高，與YOLOv7 以及YOLOv7 基本持平。此外，由于YOLOv7-Fusion 在RTX3090 GPU 上實現了43.4 fps 的速度，因此本文所提出的YOLOv7-Fusion 在保持高檢測準確率以及穩定性的同時，還滿足了對瞬時處理的要求。

表3 不同網絡對數據集的檢測性能Tab. 3 Detection performance of different networks of data sets