




摘 要:小目標檢測作為目標檢測任務中的一種,存在檢測率低、特征信息不足和漏檢率較高等問題。針對這些問題,本文提出一種改進YOLOv5的小目標檢測算法,將聚集-分發(Gather-and-Distribute,GD)機制加入YOLOv5網絡,該機制通過改進卷積和自注意力2種操作提高了多尺度融合能力,用于捕獲不同尺度間像素級的關系,取得了延遲和準確性之間的理想平衡。改進后的算法在自制的砂眼數據集上進行試驗,平均檢測精度mAP指標達到98.8%,與基線模型相比,mAP值提高了2.5%,驗證了改進算法的可行性。
關鍵詞:砂眼;小目標;YOLOv5;GD機制
中圖分類號:TP 391" " " " " " " " " " " " " 文獻標志碼:A
目標檢測在計算機視覺領域作用十分重要,其核心任務是對圖像進行目標類別識別和目標位置定位。雖然小目標檢測中的砂眼有檢測率低、特征信息不足和漏檢率較高等缺點,但是其在日常生活和工業領域中應用廣泛,價值很高。
本文研究精確檢測風機葉片砂眼,采用單階段算法,通過改進 YOLOv5 提升檢測速度和準確率。
針對上文提到的檢測率低、特征信息不足以及漏檢率較高等缺點,本文將GD機制引入YOLOv5,改進了YOLOv5的信息交換和融合能力。GD機制通過全局融合多級特征,并將全局信息注入更高級別,信息傳遞高效,同時增加延遲。該模塊可以在局部尺度上結合來自相鄰層的特征[1],增強模型對目標的表示能力和感知能力。通過這種融合,模型可以更好地捕捉目標的細節和上下文信息,提高小目標和稀疏目標的檢測準確度。本研究在自制的砂眼數據集上進行了驗證,與YOLOv5網絡相比,改進算法在識別精度P、召回率R、平均檢測精度mAP上均有提升。
1 YOLOv5的改進
1.1 YOLOv5
YOLOv5分為Backbone、Neck以及 Head 3個部分。Backbone作為主干網絡,作用是接收輸入圖像并通過一系列卷積、池化和激活操作來提取圖像中的特征信息[3]。YOLOv5 模型結構如圖1所示。Backbone可以將原始圖像轉換為一系列特征層,包括圖像中的語義和局部特征。將這些特征層傳遞給后續的網絡模塊(例如FPN和Yolo Head)進一步處理。
Neck對特征層進行多尺度特征融合,并將這些特征傳遞給預測層。YOLOv5采用FPN特征金字塔結構,FPN可以使用自上向下和自下向上2種路徑來構建多尺度特征金字塔[3],以便在目標檢測和語義分割等任務中提高性能。自上向下路徑利用上采樣和特征融合來融合不同層次特征,自下向上路徑利用一個卷積層來融合不同層次特征。這種方式有助于模型在不同尺度上更好地理解和處理輸入數據,從而提高模型的魯棒性和準確性。
Head是目標檢測頭,作用是對特征金字塔進行目標檢測,它包括卷積層、池化層和全連接層等。在YOLOv5中,Head模塊主要負責對骨干網絡提取的特征圖進行多尺度目標檢測。
1.2 GD機制
雖然YOLO算法可以通過FPN和PANet進行多尺度特征融合[2],但是仍然在一定程度上存在特征信息的提取問題。FPN網絡的間隔層之間的信息融合需要經過中間層,不能直接融合,這樣就會導致融合速度低、信息丟失等一系列問題,與風機葉片的砂眼檢測相比,YOLO算法存在檢測率低、特征信息不足和漏檢率較高等缺點。由于傳統的YOLO算法不能準確檢測類似小目標,因此本文引入GD機制,結構如圖2所示。
GD機制收集和分發數據,包括特征對齊模塊(FAM)、特征信息融合模塊(IFM)以及特征信息分發模塊(Inject)3個模塊[1]。特征對齊模塊收集backbone不同尺度的特征圖,利用上采樣或下采樣的方式對齊。特征信息融合模塊將對齊后的特征生成全局特征,利用Split模塊拆分為2個部分,針對其他尺度進行分發。特征信息分發模塊利用自注意力機制將全局特征分割后分發至各層級。在Neck階段,Low-GD代替了原始網絡中PANet模塊的上采樣融合階段,High-GD代替了原始網絡中PANet模塊的下采樣融合階段。
1.2.1 Low-GD機制
Low-GD機制用來提取并融合大尺寸的特征信息。Low-GD分為3個模塊,分別是Low-FAM 低階特征對齊模塊、Low-IFM 低階信息融合模塊以及Low-Inject信息分發模塊。Low-FAM 低階特征對齊模塊對小特征圖進行雙線性插值,隨后進行上采樣,平尺化處理大特征圖,完成下采樣。Low-IFM 低階信息融合模塊包括卷積層模塊、RepBlock模塊以及Split拆分模塊,在Low-FAM 低階特征對齊模塊通過連接操作得到特征α后,輸入RepBlock模塊得到融合特征β,在卷積層模塊完成調節通道后,融合特征β可以適應不同模型大小,在Split拆分模塊中拆分特征,得到β1和β2,提取特征。Low-Inject信息分發模塊的作用是融合相鄰2層的特征,得到轉入高階段采集-分發分支(High-GD)模塊的特征ε,進行下采樣。Low-GD 模塊流程如圖3所示。
1.2.2 High-GD機制
High-GD機制的流程與Low-GD機制的流程相似,同樣有3個模塊,分別為High-FAM高階特征對齊模塊、High-IFM高階特征融合模塊以及High-Inject信息分發模塊。與Low-GD模塊不同,從Low-GD機制得到特征ε后,通過High-FAM高階特征對齊模塊完成平均池化,將輸入特征的size降維至統一尺寸,再通過鏈接操作合并特征,得到特征θ。High-IFM由Split拆分模塊和Transformer模塊中的多頭注意力機制(MULTI-Head Attention)以及前饋網絡(Feed-Forward Network)組成。完成連接操作后,特征θ經過Transformer模塊處理得到特征?,為了保證完成拆分操作,在High-GD模塊加入一個卷積模塊調整通道,經過Split模塊,特征?拆分得到?1以及?2,High-Inject信息分發模塊融合特征信息。High-GD模塊流程
如圖4所示。
1.3 技術細節
小目標具有檢測率低、特征信息不足和漏檢率較高等缺點,傳統的YOLOv5網絡頸部結構中的FPN結構由多個分支組成,用于多尺度特征融合,其只能完全融合相鄰層的特征,其他層的信息須通過“遞歸”方式間接獲得。因此本文將上述GD機制替代傳統的YOLOv5網絡的Neck中間層,利用特征的對齊和融合,將各層次信息分配至不同層次,避免了傳統FPN結構中固有的信息丟失,并在不顯著增加延遲的情況下增強了中間層的信息融合能力,在自制的數據集上,與傳統的YOLOv5網絡相比,檢測精度提升2.5%。
2 試驗結果與分析
2.1 數據集介紹
為保證試驗結果可靠、準確,本次試驗采用自制的砂眼數據集,砂眼如圖5所示,經過挑選,得到320張原始圖片,為了防止試驗中出現過擬合現象,影響試驗結果,本研究將原始圖片經過翻轉、加噪和剪裁等數據增強方式擴充至1 800張,圖片的初始分辨率為640 ppi×640 ppi。數據增強方式見表1。增強后的砂眼數據集按照8∶2的比例分配,有1" 440張圖片作為訓練集,360張圖片作為驗證集。
表1 數據增強方式
增強方式 描述
顏色變化 調整圖像的對比度、飽和度
翻轉 左右或上下翻轉圖像
剪裁 隨機在圖像中剪裁一塊區域作為新的圖像
加噪 在圖像上隨機添加噪聲
旋轉 按照一定角度隨機旋轉圖片
2.2 試驗評價指標
本試驗在GPU 版本為NVIDIA GeForce GTX 1080 Ti的環境下完成,訓練過程一共300次,優化器為SGD,batch_size為16。本文使用識別精度P、召回率R和平均檢測精度mAP 這3個指標來評估目標檢測模型[4]的性能。其中,AP和mAP是通過計算模型的精準度和召回率來確定的。精準度和召回率的計算過程如公式(1)、公式(2)所示。
(1)
(2)
式中:TP為檢測的缺陷類別與真實缺陷類別相同的樣本數量;FP為檢測到的缺陷類別與真實缺陷類別不相同的樣本數量;FN為真實存在的缺陷目標未被算法正確檢測出的樣本數量[5];計算所有風機葉片缺陷類別精準度的平均值,計算過程如公式(3)所示。
(3)
式中:AP(n)為計算風機葉片表面缺陷單類別精準度的平均準確率。;mAP為對準確率(Precision)和召回率(Recall)的綜合考量,可以更全面地評估模型的有效性;n為平均精度的數量;N為平均精度數量的和。
2.3 試驗結果分析
為了驗證模型對風機葉片砂眼缺陷的檢測效果,使用同一數據集,試驗設置信息不變,以保證試驗的公平性,將YOLOv5與本文的模型進行對比試驗,對比指標為mAP,對比結果見表2。
表2 試驗結果對比
識別精度/% 召回率/% 平均檢測精度/%
YOLOv5 96.5" " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " 96.5 96.3
本文算法 98.6 98.5 98.8
從表2可以看出,與YOLOv5相比,本試驗在識別精度P、召回率R以及平均檢測精度mAP上達到了98.6%、98.5%和98.8%。能夠對風機葉片砂眼進行精準檢測。
3 結論
本文針對小目標存在的檢測率低、特征信息不足和漏檢率較高等缺點,在原來的YOLOv5基礎上,將Gather-and-Distribute機制引入YOLOv5網絡中,通過改進卷積和自注意力機制增強了多尺度融合能力,在模型尺度上取得了延遲和準確性之間的理想平衡,通過自制的砂眼數據集證明了試驗的可靠性和準確性。本試驗數據集有限,還未解決數據集的過擬合問題,后續將增加數據集的數量,提升質量,優化試驗算法,更精準地檢測小目標。
參考文獻
[1]WANG C, HE W, NIE Y, et al. Gold-YOLO: Efficient object
detector via gather-and-distribute mechanism[J]. Advances in neural
information processing systems,2023,2309(11331):36.
[2]謝椿輝,吳金明,徐懷宇. 改進YOLOv5的無人機影像小目標檢測算法[J].計算機工程與應用,2023,59(9):198-206.
[3]劉芬,孫杰,張帥,等.基于YOLOv5的紅外船舶目標檢測算法[J].紅外與激光工程,2023,52(10):222-233.
[4]張淳,葛毅,任越,等. 基于優化的DeeplabV3+網絡和高分影像分割浮萍型農村黑臭水體[J].遙感技術與應用, 2023,38(6):1433-1444.
[5]張燊,胡林,孫祥娥,等.基于注意力機制及多尺度融合的紅外船舶檢測[J].激光與光電子學進展,2023,60(22):256-262.
通信作者:牛霈(1977—),男, 碩士,副高級工程師,主要研究方向為新能源數字化轉型、新能源智慧運維技術。
電子郵箱:870631794@qq.com。