鄧續方,吳 強,周文正
(1.河南林業職業學院 信息工程系,河南 洛陽 471002;2.鄭州大學 信息工程學院,河南 鄭州 450001;3.中國空間技術研究院西安分院,陜西 西安 710100)
目標檢測作為計算機視覺領域的基礎任務,是解決目標跟蹤、場景理解、圖像描述和事件識別等更高層次視覺任務的基石[1],廣泛應用于軍工、醫療、工業、交通和安防等領域[2]。目標檢測技術主要分為圖像分類和目標定位2個子任務,利用圖像特征信息計算各目標類別置信度并對其位置進行回歸實現檢測[3]。隨著實際檢測場景逐漸復雜,目標在圖像中的大小、數量以及姿態等愈發多樣化,使得目標檢測效果受到了較大的影響[4-5]。因此,如何針對復雜場景下的目標特征,設計一種高性能的目標檢測方法,對目標檢測的理論豐富以及實際應用都有較大推動作用。
目標檢測技術的發展大致分為傳統方法和深度學習方法2個階段[6],傳統方法主要通過區域選擇、特征提取以及目標分類實現檢測,雖然具有較強的可解釋性,但魯棒性較差,僅適用于特定目標和場景[7-8]。深度學習利用海量參數學習提取圖像中穩定性且泛化性較高的特征,再結合高性能分類器,使目標檢測性能得到了較大突破[9]。文獻[10-11]針對目標檢測任務提出了基于先驗框(Anchor-base)的RCNN系列網絡,通過兩步走策略先提取目標推薦區域再進行目標分類,雖檢測精度高,但所需算力過大,無法較好地應用于邊緣設備中。文獻[12-13]為緩解RCNN系列網絡高計算量的問題,移除了候選區域提取步驟,提出了單階段端到端訓練的YOLO系列網絡,雖在一定程度上提升了效率,但其預測方式容易造成小面積目標漏檢。Law等[14]將目標檢測看作關鍵點檢測問題,提出了無需引入先驗框(Anchor-free)的CornerNet網絡,進一步提升了檢測器速度,但由于解空間過大,使得誤檢目標較多??梢?現階段的目標檢測方法仍存在一定局限,檢測性能仍有較大的提升空間。
針對上述基于深度學習的目標檢測算法存在的不足,本文在總結前人研究的基礎上,提出了一種基于分組注意力和高斯多尺度的目標檢測方法。本文主要工作如下:
① 設計了一種由粗到精的特征提煉結構,以深度可分離卷積、注意力機制以及多維特征交互卷積等方式充分提取目標特征;
② 提出了基于分組卷積的注意力模塊,根據通道特征相似性對不同目標特征分組,再分別利用空間注意力機制增強目標位置信息,使網絡能更好地聚焦目標相關特征;
③ 引入了高斯多尺度空間特征融合結構,保障網絡計算效率的同時提升單階段網絡對不同尺度目標的識別效果。
所提目標檢測網絡整體結構如圖1所示,網絡主要分為特征提取、分組注意力機制以及高斯多尺度融合三部分。特征提取采用由粗到精的提取策略,以深度可分離卷積結合跨層融合方式保障目標信息充分提取;分組注意力機制根據特征相似度對不同目標特征進行分組,再針對每組特征利用空間注意力機制增強各目標所在位置特征的信息;高斯多尺度融合將各維度特征融合后利用高斯模糊算法實現多尺度變換,并結合相應維度特征實現對不同尺度目標的檢測。

圖1 目標檢測網絡整體結構Fig.1 Overall structure of object detection network
特征提取結構針對目標基礎特征和關鍵特征依次進行提取,其中基礎特征主要通過骨干結構進行提取。骨干結構分為輸入模塊以及多個不同維度的特征提取單元首尾串聯構成,輸入模塊主要考慮到目標所處場景存在較多光線過亮或過暗的圖像,若直接基于原圖進行卷積計算,容易增加后續特征提取難度。因此,該模塊在原始RGB圖像基礎上設計了如圖2(a)所示圖像增強過程來突出目標,主要通過灰度化綜合RGB三通道信息后再利用直方圖均衡化算法提升圖像對比度,降低光照對目標的影響;同時,為避免圖像增強過程對正常目標的影響,將原圖、灰度圖以及均衡化后的圖像進行拼接后作為后續模塊輸入,使網絡保留原始信息的同時突出復雜環境下的目標特征。特征提取單元串聯結構如圖2(b)所示,主要由一系列高效率的卷積單元堆疊構成,由淺到深地提取目標特征信息。同時,受文獻[15-16]網絡結構啟發,深層特征采用大卷積核可更好地提升網絡性能,故特征提取骨干結構對最深層次的維度特征采用5×5卷積核,其他層次采用3×3卷積核。卷積單元詳細結構如圖2(c)所示,主要以深度卷積、點卷積結合hard-Swish激活函數構成,使網絡保證計算效率的同時盡可能地捕獲目標信息。而不同維度的特征提取單元之間采用步長為2的3×3標準卷積來綜合所有通道特征進行連接,如圖2(c)中虛線所示。

圖2 特征提取骨干結構模塊Fig.2 Feature extraction backbone structure module
為了更好地突出目標特征,本文設計了如圖3所示的分組注意力機制,同時結合跨層特征融合結構進一步提煉目標信息。

圖3 分組注意力機制Fig.3 Group attention mechanism
分組注意力機制以每個維度特征提取單元最后一層輸出特征作為輸入,利用全局平均池化獲取通道特征全局信息后,將特征均值進行聚類分組(通常同一目標通道特征均值相似),分組計算方式如式(1)~式(3)所示;然后,針對每組特征,從空間位置角度利用均值、最大值以及標準差分別獲取該組特征中每個位置的全局信息,再通過1×1點卷積和K×K標準卷積來綜合空間及鄰域信息后輸出每個位置權重,K值根據當前特征圖大小自主調整,計算方式如(4)所示。同時,為提升各維度特征交互,將分組注意力處理后的特征以圖1提煉層所示的連接方式對目標信息深入挖掘,使各維度特征充分融合目標全局以及局部信息,進而提升網絡表達能力。
式中:X表示輸入的特征,Avg表示求均值,Sort表示對值排序,index表示排序后記錄對應特征索引,Y表示排序后的特征,式(1)表示計算特征圖均值后進行排序并記錄對應排序索引供后續分組使用;NX表示輸入特征通道數量,NC表示目標總數,NG表示特征分組數量,式(2)表示根據目標類別總數對當前特征通道進行分組;Y[0∶NG]表示對排序后的前NG個通道特征作為一組,以此類推,將特征分為NG組后再分別進行空間位置增強,式(3)表示根據 式(1)的特征排序索引對特征進行分組;d表示特征圖長邊像素長度,odd表示取奇數,式(4)根據當前特征維度動態調整鄰域范圍。
對于網絡檢測部分,考慮到目標大小、姿態多樣化,為保證各個目標都能被準確識別,需要綜合不同尺度的目標信息,基于此,本文設計了高斯多尺度融合結構,如圖4所示。

圖4 高斯多尺度融合結構Fig.4 Gaussian multi-scale fusion structure
所提高斯多尺度結構以注意力機制提煉后的特征為輸入,將各尺度特征采樣至注意力提煉層3的維度后利用可訓練的參數進行自適應加權融合,如圖4(a)所示,融合方式如式(5)所示;然后,基于融合后的特征利用高斯模糊算法構建特征金字塔,如圖4(b)所示,高斯模糊算法如式(6)和式 (7)所示;最后,將高斯金字塔特征結合對應的提煉層特征進行融合檢測。通過高斯金字塔方式雖弱化了部分目標特征,但有效降低了冗余計算且保留了目標多尺度信息。
式中:feature3表示表示提煉層3的維度,i表示除feature3外的其他提煉層,xi→feature3表示將i提煉層維度采樣采用至feature3維度,αi、βfeature3表示各維度特征對應的自適應權重,且滿足αi、βfeature3∈[0,1],αi+βfeature=1;Ffeature3表示自適應融合后的特征,F(x,y)表示高斯金字塔輸入特征,G(x,y,σ)表示高斯函數,σ表示尺度參數。
為驗證所提網絡結構的可行性和魯棒性,本文分別采用ImageNet、PASCAL VOC以及MS COCO 三個主流目標檢測標準數據集對網絡進行實驗??紤]到標準數據集中圖像數量過大且存在部分目標不清晰的圖像,實驗時僅篩選了部分質量較高的圖像進行訓練測試。實驗數據以及環境配置信息如表1所示,同時,為更好地體現所提網絡有效性,網絡訓練時超參數參考了當前主流目標檢測網絡進行設置,如表2所示。

表1 實驗環境配置

表2 超參數設置
對于目標檢測性能評估采用均值平均精度(mAP)以及每秒圖像處理張數(fps)進行衡量。同時,為評估網絡的尺度不變性,實驗借鑒COCO數據集中的目標劃分策略,根據目標標注框以[大目標>962>中目標>322>小目標]的標準劃分大中小目標,并分別以mAPs、mAPm、mAPl來衡量不同大小目標的檢測效果。
針對所提方法的可行性驗證,實驗主要采用ImageNet數據集,以YOLOv4單階段目標檢測網絡為基礎,通過依次替換所提各個模塊進行測試對比。實驗首先針對圖像輸入模塊,分別測試對比了引入前后的檢測效果,結果如表3所示。

表3 輸入模塊測試結果
由對比結果可以看出,在新增灰度化和均衡化的圖像后,較好地豐富了輸入數據,同時也增強了目標信息,使網絡檢測精度有較明顯的提升。對于特征提取部分,實驗依次測試了引入基礎特征提取結構和注意力機制特征提煉結構后的網絡檢測精度與效率的變化,結果如表4所示。

表4 特征提取結構測試對比
根據測試結果可以看出,YOLO網絡的特征提取結構中每一層都由稠密的標準卷積進行提取,可以充分利用上一層特征信息,但也引入了過多的參數,且冗余計算較多。所提骨干結構選擇相對稀疏的深度可分離卷積,并設置了相對較少的特征通道進行特征提取,有效降低了冗余信息的計算,大幅提升了網絡效率,但也導致特征利用不夠充分,網絡精度也較差。繼續引入注意力特征提煉結構后,在基礎特征結構上針對目標關鍵信息進一步提取,使網絡更好地專注目標特征,且背景信息的干擾也更少,雖增加了部分計算量,但檢測效果得到了較大提升。為進一步驗證所提分組注意力機制的優越性,實驗與當前主流的注意力機制進行了對比,并提取特征層3信息分別可視化了不同注意力機制下的效果,結果如表5和圖5所示。

表5 不同注意力融合對比

圖5 特征層3注意力可視化對比Fig.5 Visual contrast of attention in feature layer 3
通過對比不同注意力機制下網絡檢測性能以及特征可視化效果可以看出,SE和ViT注意力機制分別專注特征通道和特征空間位置特征,雖對目標識別效果雖有一定提升,但相對有限。CBAM和Triplet注意力機制雖同時考慮了特征通道和空間信息,但增強目標特征的同時也增加了噪聲信息,容易造成目標誤檢。而所提分組注意力機制基于全局信息對目標特征進行分組聚類,并利用局部卷積代替全連接降低計算量,使網絡在增強特征時更具針對性,更好地提升了網絡檢測性能。對于多尺度結構驗證,實驗分別與FPN跳層融合、ASFF自適應融合進行了對比,結果如表6所示。

表6 多尺度模塊對比
根據不同特征融合結果可以看出,所提高斯多尺度融合結構利用自適應融合獲取各維度特征信息,并結合高斯金字塔完成多尺度檢測,雖未達到最優性能,但有效平衡了網絡檢測精度與效率,可以更好地應用于實際場景中。而對于所提整個網絡的有效性測試,實驗分別與其他網絡結構進行了對比,如表7和圖6所示。

表7 不同目標檢測網絡性能對比

圖6 ImageNet數據集目標檢測效果對比Fig.6 Comparison of object detection effects in ImageNet dataset
根據上述實驗結果可見,所提目標檢測網絡相對于基于兩階段Anchor-based的Mask R-CNN和基于Anchor-free的CornerNet在計算效率以及檢測效果方面得到了更好的平衡。而與同類型的單階段YOLO網絡相比,該結構在目標有效特征提取融合以及網絡非線性表達能力等方面都得到較大提升,故檢測效果也相對更優。綜上實驗結果可以看出,所提網絡的各個模塊以及整體結構對目標檢測效果都有一定提升,有效驗證了所提方法的可行性。
為進一步驗證網絡的魯棒性,實驗利用相對復雜的PASCAL VOC以及MS COCO數據集分別對所提網絡以及其他同類深度學習目標檢測網絡進行測試對比實驗,實驗結果如表8、表9和圖7所示。

表8 PASCAL VOC數據集測試結果

表9 MS COCO數據集測試結果

圖7 VOC和COCO數據集檢測效果(前兩排:VOC;后兩排:COCO)Fig.7 Detection effect of VOC and COCO datasets (first two rows:VOC; second two rows:COCO)
根據上述測試結果可見,雖然在復雜場景下,各網絡的檢測精度都有一定下降,但本文方法相對于其他方法,檢測精度受影響程度相對較小。同時,從可視化檢測結果也可看出,相比于CornerNet、YOLO網絡,本文方法在目標遮擋以及小目標識別上都有較大提升,較好地改善了目標漏檢和誤檢等情況。而相比于Mask R-CNN網絡,該方法也在保證高效檢測前提下基本達到了與之相近的檢測效果。
本文針對現有基于深度學習目標檢測方法存在的不足,從圖像輸入、特征提取、關鍵信息提煉以及多尺度特征融合等幾個部分進行了深入研究,提出了一種基于分組注意力以及高斯多尺度的目標檢測網絡。網絡通過直方圖均衡化來降低光照影響,突出過暗或過亮環境下的目標,并采用雙階段特征提取結構來依次提取和提煉目標信息。其次,引入了分組注意力機制,利用通道特征均值對各目標特征聚類分組,通過空間注意力機制分別對各組目標指南針增強,突出目標關鍵信息的同時避免了背景信息的影響。最后,針對網絡尺度不變性,設計了高斯多尺度結構,以多維特征自適應融合結合高斯金字塔方式實現目標多尺度檢測。通過在多個標準數據集上的測試結果表明,所提方法可以準確高效地完成目標檢測任務,且具有較強的泛化能力。盡管所提方法在一定程度提升了目標檢測網絡的性能,但仍有較多值得探索的地方,后期將深入研究更優特征選擇方式,進一步提升網絡檢測效果。