唐田堯, 石永康, 王浩然, 呂玉龍
(新疆大學智能制造現代產業學院,烏魯木齊 830000)
航拍遙感圖像的檢測是當前軍用航空領域的研究熱點之一,但圖像中不同目標之間的尺寸差距較大,如汽車和飛機,其尺寸可以相差50倍以上,所以在遙感圖像中,不僅要考慮小目標的檢測精度,還要兼顧其他尺寸目標的檢測精度。
基于深度學習的通用目標檢測算法可分為3類:兩階段檢測算法R-CNN系列[1-3]、單階段檢測算法YOLO[4]和SSD[5]系列,以及基于Transformer[6]的目標檢測。Transformer是基于自注意力機制(Self-Attention,SA)和位置編碼的模型,一開始僅用于自然語言處理,目前在深度學習各個領域廣泛應用,開啟了深度學習的新時代。
針對航拍遙感圖像小目標多、尺度變化大的特點,研究學者主要做了以下改進:為了實現不同尺度的特征提取,提高小目標的檢測性能,文獻[7]設計了特征金字塔網絡,將金字塔不同層級獲取的特征融合,以提高網絡對小物體的識別能力;文獻[8]提出了一個新的感知生成對抗網絡(Perceptual GAN)模型,利用大小物體之間的相關性來增強小物體的表示,從而改善小物體檢測;文獻[9]在YOLOv5算法的基礎上,通過使用K-means++聚類技術、添加scSE注意力模塊以及增加小目標檢測層來提高小目標的檢測精度;文獻[10]在YOLOv5網絡的第1層引入淺層特征提取網絡,然后將淺層特征圖與檢測頭的特征融合,提高了模型的精度和泛化能力;文獻[11]構建了深度解耦頭模塊,并引入了SA注意力機制和GSConv模塊,實現了一種新的輕量級網絡。……