楊晨,侯志強,李新月,馬素剛,楊小寶
(1 西安郵電大學 計算機學院, 西安 710121) (2 陜西省網絡數據分析與智能處理重點實驗室, 西安 710121)
目標檢測作為計算機視覺領域的重要分支,已廣泛應用于自動駕駛[1]、視頻監控[2]、智能交通[3]等場景中。近年來,基于深度學習的目標檢測算法以其出色的檢測性能得到大力發展。在深度學習框架下,目標檢測方法通常分為兩大類:基于錨框的方法和無錨框的方法。基于錨框的方法為每一個位置設定多個矩形框,通過微調這些矩形框實現目標檢測,根據檢測流程的差異,可分為兩階段目標檢測和單階段目標檢測兩類。兩階段目標檢測首先提取候選框,再分類和回歸這些候選框以生成檢測結果,其中典型方法包括RCNN[4]、Fast R-CNN[5]和Faster R-CNN[6]等;而單階段目標檢測算法直接對預定義錨點框進行分類和回歸,如SSD[7]和YOLO[8-14]等系列算法。無錨框的目標檢測算法去除了錨框的使用,通過關鍵點的組合和定位來實現目標檢測,代表算法如CornerNet[15]、FCOS[16]和CenterNet[17]等。隨著Transformer 在計算機視覺領域的廣泛應用,基于Transformer 的目標檢測算法也得到了顯著進展,如DETR[18]、VIT-FRCNN[19]、Deformable DETR[20]等。然而,基于Transformer 的方法因其高計算成本,在實際任務中面臨部署難題。因此,許多研究者提出將卷積神經網絡(Convolutional Neural Network,CNN)與Transformer 結合的目標檢測方法,典型如BotNet[21]和CMT[22]等。這些方法巧妙地結合了CNN 和Transformer 的優勢,融合了局部特征與全局特征,增強了特征表達能力,有效提升了目標檢測性能,實現速度和精度的平衡。
目前,大多數目標檢測算法主要基于可見光圖像。……