融合遮擋信息的改進(jìn)DDETR無人機(jī)目標(biāo)檢測算法

2024-01-18 16:52:46周建亭宣士斌

計(jì)算機(jī)工程與應(yīng)用 2024年1期

周建亭，宣士斌，王婷

1.廣西民族大學(xué) 電子信息學(xué)院，南寧 530006

2.廣西民族大學(xué) 人工智能學(xué)院，南寧 530006

3.廣西混雜計(jì)算與集成電路設(shè)計(jì)分析重點(diǎn)實(shí)驗(yàn)室，南寧 530006

隨著無人機(jī)領(lǐng)域快速發(fā)展，在城市交通監(jiān)控、光纜巡檢等諸多應(yīng)用場景中需要對無人機(jī)航拍圖像進(jìn)行目標(biāo)檢測。無人機(jī)航拍圖像是通過無人機(jī)上搭載的攝像裝置采集到的圖像[1]。目標(biāo)檢測是計(jì)算機(jī)視覺中的基礎(chǔ)任務(wù)，無人機(jī)航拍圖像目標(biāo)檢測比自然場景圖像目標(biāo)檢測面臨著更多問題，仍然是計(jì)算機(jī)視覺領(lǐng)域中具有挑戰(zhàn)性的任務(wù)。無人機(jī)航拍圖像成像距離遠(yuǎn)、視場大[2]，圖像具有場景復(fù)雜、小目標(biāo)多、目標(biāo)分布密集且不均勻、尺寸較大的特點(diǎn)。因此，無人機(jī)航拍圖像目標(biāo)檢測不僅要解決物體光照、尺度的劇烈變化的問題，還要處理好檢測速度慢、小目標(biāo)檢測難、遮擋物體檢測難、背景復(fù)雜下檢測準(zhǔn)確率低的問題。

經(jīng)典的目標(biāo)檢測算法大都是基于手工設(shè)計(jì)的特征[3]，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)展現(xiàn)出了比手工設(shè)計(jì)的特征提取方法更卓越的可拓展性和特征提取能力。Faster RCNN[4]提出了區(qū)域提議網(wǎng)絡(luò)，實(shí)現(xiàn)了端到端（end-to-end）和接近實(shí)時的目標(biāo)檢測，是典型的基于候選區(qū)域的目標(biāo)檢測算法。RetinaNet[5]針對前景、背景樣本不平衡問題提出了焦點(diǎn)損失（focal loss），在保持高檢測速度的同時獲得了較高的準(zhǔn)確率。在上述通用目標(biāo)檢測方法的基礎(chǔ)上，還需要針對無人機(jī)航拍圖像的特點(diǎn)來設(shè)計(jì)檢測算法。

與自然場景圖像相比，無人機(jī)航拍圖像尺寸大、分辨率高且目標(biāo)不均勻分布，因此直接對原圖的所有區(qū)域進(jìn)行同等重要程度的目標(biāo)檢測會出現(xiàn)檢測速度慢的問題。Yang等[6]基于目標(biāo)分布不均勻的特點(diǎn)，采用從粗糙到精細(xì)（coarse-to-fine）的策略，提出了對可能包含小目標(biāo)的區(qū)域進(jìn)行搜索的方法；GLSAN[7]提出自適應(yīng)區(qū)域選擇策略與超分辨率網(wǎng)絡(luò)來對特定區(qū)域放大后檢測，實(shí)現(xiàn)了較好的檢測效果，但仍存在需要預(yù)設(shè)超參數(shù)、未能突破對圖像角落建模先驗(yàn)限制的問題。

無人機(jī)航拍圖像中的小目標(biāo)比例高、密集分布的不同類別物體間的區(qū)分度低，導(dǎo)致模型難以準(zhǔn)確檢測小目標(biāo)和遮擋物體。將原圖放大后進(jìn)行檢測能提高檢測準(zhǔn)確率但是會極大地增加計(jì)算量。對此，劉英杰等[8]利用級聯(lián)多閾值檢測器，并融合不同上采樣方法得到的特征信息來增強(qiáng)對小目標(biāo)特征的表達(dá)能力，能更準(zhǔn)確地定位小目標(biāo)。周陽等[9]通過設(shè)置多條特征融合路徑，來緩解小目標(biāo)采樣丟失位置信息的問題，降低了對小目標(biāo)的漏檢率。針對目標(biāo)檢測中的遮擋問題，張勝虎等[10]從數(shù)據(jù)驅(qū)動的方法出發(fā)構(gòu)建了遮擋數(shù)據(jù)集，并通過按遮擋比例引入衰減權(quán)重的方式來選擇高質(zhì)量的正樣本參與模型訓(xùn)練，得到了不同遮擋比例對遮擋性能影響情況的量化分析結(jié)果。Zhang 等[11]提出一種能讓預(yù)測候選框更接近真實(shí)目標(biāo)框的聚合損失函數(shù)，在行人檢測任務(wù)上提高了對遮擋行人的檢測準(zhǔn)確率，但是對設(shè)置的閾值比較敏感。

針對無人機(jī)航拍圖像中的背景復(fù)雜下檢測準(zhǔn)確率低這一問題，張瑞倩等[12]利用改進(jìn)的多尺度空洞卷積擴(kuò)大對特征的感受野，提高了對復(fù)雜場景下的目標(biāo)的檢測能力。自然語言處理任務(wù)中的Transformer 模型能夠利用長距離上下文信息，解決長序列的遺忘現(xiàn)象[13]。Vaswani 等[14]在Transformer 基礎(chǔ)上提出的ViT 模型，通過建立空間上長距離依賴來解決卷積核感受野有限的問題，在圖像分類任務(wù)中取得了良好效果。為了降低Transformer 模型的計(jì)算復(fù)雜度，Liu 等[15]提出了基于窗口注意力機(jī)制的Swin Transformer模型，能夠在與卷積網(wǎng)絡(luò)計(jì)算復(fù)雜度接近的情況下更好地對場景建模。

DDETR[16]是基于Transformer 的目標(biāo)檢測算法，能充分利用整張圖像的語義信息，提出的可變形注意力模塊，降低了計(jì)算復(fù)雜度并提高了對小目標(biāo)的檢測準(zhǔn)確率。但是DDETR 的骨干網(wǎng)絡(luò)采用殘差網(wǎng)絡(luò)提取特征，難以提取到理想的全局性信息。DDETR也沒有考慮物體的遮擋情況、缺少對低層次特征的利用，容易漏檢無人機(jī)航拍圖像中的小目標(biāo)。受此啟發(fā)，在標(biāo)準(zhǔn)DDETR模型基礎(chǔ)上，提出一種融合目標(biāo)遮擋信息的改進(jìn)DDETR 無人機(jī)目標(biāo)檢測算法，提高了對遮擋物體的檢測準(zhǔn)確率，改善了復(fù)雜背景下模型的檢測效果。主要貢獻(xiàn)如下：

（1）設(shè)計(jì)遮擋程度估計(jì)模塊，通過對目標(biāo)的遮擋程度估計(jì)來輔助模型進(jìn)行目標(biāo)檢測，提高模型對同類別的未被遮擋目標(biāo)、部分遮擋目標(biāo)、嚴(yán)重遮擋目標(biāo)的特征信息的學(xué)習(xí)，進(jìn)而輔助模型對目標(biāo)的分類與定位。

（2）引入基于注意力機(jī)制的Swin Transformer 進(jìn)行特征提取，來緩解DDETR 模型中殘差網(wǎng)絡(luò)提取到的卷積特征圖語義信息不足的問題，并利用全局特征提高對復(fù)雜場景的理解。

（3）增加對低層次特征的使用，保留更多細(xì)節(jié)信息，緩解低層視覺信息丟失嚴(yán)重的問題，構(gòu)建了有更豐富信息的多層次特征。

1 相關(guān)工作

1.1 Swin Transformer模型

Swin Transformer具有良好的特征學(xué)習(xí)能力與長距離建模能力，因此本文在標(biāo)準(zhǔn)DDETR 中引入Swin Transformer 來替換標(biāo)準(zhǔn)DDETR 中的殘差網(wǎng)絡(luò)，從而能更好地提取圖像中的高層語義特征。Transformer 模型中的注意力分為自注意力與交叉注意力，分別對應(yīng)查詢與鍵相同、不同時進(jìn)行的加權(quán)聚合過程。Swin Transformer 在Transformer 的基礎(chǔ)上利用偏移窗口（shifted windows）機(jī)制，通過將自注意力計(jì)算限制在不重疊的局部窗口內(nèi)，并允許跨窗口之間的信息融合，使模型對不同尺寸的圖像有著線性計(jì)算復(fù)雜度。

Swin Transformer 模型由四個結(jié)構(gòu)相同的子階段順序組成，每個子階段中都有兩個連續(xù)堆疊的Swin Transformer 基本塊，分別包含窗口多頭自注意力（window based multi-head self-attenstion，W-MSA）和偏移窗口多頭自注意力（shifted window based multi-head self-attention，SW-MSA）操作。在每個子階段中先將特征分塊并線性嵌入，然后進(jìn)行窗口注意力計(jì)算操作，最后產(chǎn)生不同尺寸的特征圖。

1.2 標(biāo)準(zhǔn)DDETR模型

DDETR 利用可變形卷積[17]實(shí)現(xiàn)局部稀疏采樣策略，用ResNet-50 作為骨干網(wǎng)絡(luò)，將ResNet 輸出的多階段特征C3,C4,C5，經(jīng)頸部網(wǎng)絡(luò)進(jìn)行特征通道壓縮后得到特征X3,X4,X5，并對特征X5下采樣得到特征X6，對多尺度特征X3,X4,X5,X6進(jìn)行位置編碼后送入可變形Transformer。

其中，LN為層正則化，MLP為多層感知機(jī)。

在MSDeformAttn計(jì)算過程中，記多尺度特征x中的所有位置為參考點(diǎn)集合p，第l層特征向量xl上的第q個參考點(diǎn)為pq，pq對應(yīng)特征向量為xq，只在其位置附近取K個采樣點(diǎn)，其中第k個采樣點(diǎn)在第m個注意力頭中對應(yīng)的位置偏移量為Δpmlqk。將參考點(diǎn)與采樣點(diǎn)進(jìn)行相似性計(jì)算，加權(quán)融合后得到特征x′。對應(yīng)公式如下：

與多尺度可變形自注意力只選擇若干個采樣點(diǎn)不同，多頭自注意力將查詢（query）中的每個位置都與全部位置對應(yīng)的特征向量進(jìn)行注意力計(jì)算。多頭自注意力計(jì)算公式如下式：

2 融合遮擋信息的改進(jìn)DDETR算法

為了更好建模圖像中復(fù)雜場景，提高對密集分布、遮擋嚴(yán)重的目標(biāo)的檢測能力。與標(biāo)準(zhǔn)DDETR 不同，改進(jìn)DDETR 構(gòu)建了建模能力更好的Swin-T 特征提取網(wǎng)絡(luò)，并設(shè)計(jì)了能提高低層次特征比例的特征映射模塊，提出了能處理遮擋問題的遮擋程度估計(jì)模塊。改進(jìn)DDETR模型的總體網(wǎng)絡(luò)結(jié)構(gòu)如圖1，特征提取網(wǎng)絡(luò)由四階段堆疊的Swin Transformer與特征映射模塊構(gòu)成；檢測網(wǎng)絡(luò)包括預(yù)測分支和可變形Transformer，可變形Transformer由堆疊的編碼器塊和解碼器塊構(gòu)成。

圖1 改進(jìn)DDETR模型結(jié)構(gòu)Fig.1 Architecture of improved deformable DETR

在改進(jìn)DDETR模型中，首先利用Swin Transformer從原圖中提取多尺度特征C2、C3、C4、C5，用特征映射模塊得到有更多低層次信息的特征P2、P3、P4、P5。然后將多尺度特征展平后的特征向量x送入編碼器中進(jìn)行信息聚合得到多尺度嵌入特征向量其由多尺度特征圖上每個位置經(jīng)過編碼器計(jì)算后對應(yīng)的特征向量組成。用編碼器后的輔助預(yù)測分支內(nèi)的分類模塊估計(jì)每個位置存在物體的可能性，從多尺度嵌入特征向量中選擇包含物體可能性最高的前n個位置，其中n為單張圖片中最多能夠包含的物體個數(shù)，由這些位置對應(yīng)的嵌入特征向量構(gòu)成物體查詢向量z。將物體查詢向量在編碼器中解碼得到最終的物體查詢嵌入向量，最后預(yù)測分支根據(jù)物體查詢嵌入向量進(jìn)行分類、定位與遮擋程度預(yù)測。

2.1 Swin-T結(jié)構(gòu)的特征提取網(wǎng)絡(luò)

改進(jìn)DDETR 引入基于偏移窗口注意力機(jī)制的Swin Transformer替代ResNet來對復(fù)雜場景進(jìn)行建模，構(gòu)建更豐富語義信息的特征圖。因?yàn)闃?biāo)準(zhǔn)DDETR目標(biāo)檢測模型采用ResNet 為特征提取網(wǎng)絡(luò)，卷積核的感受野小于Transformer 感受野，無法更好地提取圖像的高層次語義信息，在復(fù)雜的無人機(jī)航拍圖像中難以對復(fù)雜場景進(jìn)行長距離的推理。

為了避免特征提取網(wǎng)絡(luò)復(fù)雜度過高，采用Swin-T結(jié)構(gòu)的Swin Transformer進(jìn)行特征提取，Swin-T與ResNet-50具有相近復(fù)雜度，其中的基本塊結(jié)構(gòu)如圖2所示。在Swin-T特征提取網(wǎng)絡(luò)內(nèi)，輸入圖像會在四個階段中計(jì)算后依次產(chǎn)生不同分辨率和通道數(shù)的特征圖。在每個階段計(jì)算時，先對上一階段的特征進(jìn)行塊切分與線性嵌入，然后送入若干個堆疊的Swin Transformer基本塊中處理，在每個Swin Transformer塊的內(nèi)部按照如下公式計(jì)算：

圖2 兩個連續(xù)的Swin Transformer基本塊結(jié)構(gòu)Fig.2 Two successive Swin Transformer blocks

其中，W-MSA為窗口多頭自注意力，SW-MSA為偏移窗口多頭自注意力，與zl分別為第l個（偏移）窗口多頭注意力模塊和多層感知機(jī)模塊輸出的特征。經(jīng)過Swin-T對輸入圖像進(jìn)行特征提取后，就得到了4個尺度的多尺度特征圖C2、C3、C4、C5，第i個階段產(chǎn)生的特征圖記作表示特征圖通道數(shù)，H與W表示輸入圖像的高寬。

2.2 增加對低層次特征信息的使用

標(biāo)準(zhǔn)DDETR模型主要針對自然場景下的COCO數(shù)據(jù)集進(jìn)行目標(biāo)檢測，而自然場景中的中小目標(biāo)占比明顯低于航拍圖像，因此標(biāo)準(zhǔn)DDETR 受低層次特征不足的影響對中小目標(biāo)檢測準(zhǔn)確率低。COCO 數(shù)據(jù)集將像素值面積小于32×32 的目標(biāo)定義為小目標(biāo)，在32×32 至96×96 之間的目標(biāo)定義為中等目標(biāo)，其余目標(biāo)為大目標(biāo)。從表1 可以看到VisDrone 航拍數(shù)據(jù)集小目標(biāo)和大目標(biāo)比例分別比COCO 數(shù)據(jù)集高0.18、低018，且Vis-Drone數(shù)據(jù)集中90%以上的目標(biāo)都是中小目標(biāo)，與COCO數(shù)據(jù)集的目標(biāo)分布情況存在明顯差異。

表1 VisDrone與COCO數(shù)據(jù)集中目標(biāo)的尺度分布情況Table 1 Scales distribution of objects in VisDrone and COCO data sets

所以，在改進(jìn)DDETR的特征提取網(wǎng)絡(luò)中，提出特征映射模塊增加對Swin-Transformer 中的特征圖C2的使用，不對C5特征圖進(jìn)行下采樣，提高構(gòu)建后的多尺度特征中低層次特征占比，將最低下采樣倍率從8降低到4，保留特征圖的更多細(xì)節(jié)信息。標(biāo)準(zhǔn)DDETR 只采用ResNet 中的C3、C4、C5層次特征，沒有使用低層次特征圖C2，這導(dǎo)致DDETR模型中的特征圖的最低下采樣倍率過高，丟失了原圖中的大量細(xì)節(jié)特征。特征映射模塊的結(jié)構(gòu)如圖3，在特征映射模塊中用1×1 卷積操作對不同通道的信息進(jìn)行聚合，并對不同通道數(shù)的特征圖C2、C3、C4、C5采用相同個數(shù)的卷積核，得到具有相同特征維度的多尺度特征P2、P3、P4、P5，從而保持在Transformer中嵌入維度一致。

圖3 特征映射模塊Fig.3 Features mapping module

2.3 遮擋程度估計(jì)模塊

物體被遮擋后的信息會影響到模型對物體分類和定位的準(zhǔn)確性，無人機(jī)航拍數(shù)據(jù)集內(nèi)中、小目標(biāo)多，目標(biāo)分布密集，物體間的遮擋情況較為嚴(yán)重。在VisDrone航拍數(shù)據(jù)集物體被遮擋的程度分為未被遮擋、部分遮擋、嚴(yán)重遮擋三類，在數(shù)據(jù)集中分別占比43%、49%、8%，即被遮擋的物體在所有物體中占比一半以上。VisDrone數(shù)據(jù)集中的圖像標(biāo)注示例如圖4，其中不同顏色的邊界框表示不同類別的物體，邊界框上方數(shù)字0、1、2分別表示該物體未被遮擋、部分遮擋、嚴(yán)重遮擋。圖中密集分布的物體間遮擋情況較為嚴(yán)重，因此有必要對物體的遮擋程度進(jìn)行估計(jì)分類，從而使模型關(guān)注到物體的遮擋情況。

圖4 VisDrone數(shù)據(jù)集圖像標(biāo)注示例Fig.4 Annotated image example in VisDrone dataset

為此設(shè)計(jì)了包含遮擋程度預(yù)測的預(yù)測分支，并在DDETR中的編碼器后添加了輔助預(yù)測分支A0，在解碼器塊D1、D2、D3、D4、D5后分別添加了與A0相同結(jié)構(gòu)的輔助預(yù)測分支A1、A2、A3、A4、A5。從而在對物體查詢向量解碼過程中利用到物體的遮擋信息，添加遮擋情況估計(jì)模塊后的可變形Transformer的結(jié)構(gòu)如圖5。預(yù)測分支與輔助預(yù)測分支都由遮擋程度估計(jì)模塊、類別預(yù)測模塊、位置預(yù)測模塊組成，彼此權(quán)值不共享，分別產(chǎn)生遮擋程度、類別、位置預(yù)測結(jié)果遮擋程度估計(jì)模塊、類別預(yù)測模塊分別由全連接層L1、L2構(gòu)成，位置預(yù)測模塊由全連接層L3、L4構(gòu)成。預(yù)測分支Ai根據(jù)嵌入的特征向量z進(jìn)行預(yù)測，物體遮擋程度預(yù)測模塊采用輸入維度為d、輸出維度為3的全連接層實(shí)現(xiàn)，預(yù)測分支Ai的計(jì)算公式如下：

圖5 融合遮擋信息的可變形TransformerFig.5 Deformable Transformer that incorporates occlusion information

其中，φ為常用的ReLU激活函數(shù)。

其中，λcls、λbox、λocc分別設(shè)置為2.0、5.0、0.5。計(jì)算目標(biāo)框之間損失的函數(shù)Lbox由通用交并比（generalized intersection-over-union，GIoU）損失和邊界框L1范數(shù)損失構(gòu)成。

改進(jìn)DDETR 將遮擋程度的預(yù)測作為分類問題處理，為了避免嚴(yán)重遮擋的物體被其他遮擋程度的物體主導(dǎo)，采用焦點(diǎn)損失（Focal loss）衡量遮擋程度預(yù)測結(jié)果的分類誤差。焦點(diǎn)損失對應(yīng)公式如下：

其中，αt和γ為控制對難樣本聚焦程度的超參數(shù)。

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集與評價標(biāo)準(zhǔn)

采用VisDrone無人機(jī)目標(biāo)檢測數(shù)據(jù)集，數(shù)據(jù)集由無人機(jī)在不同高度、位置、時間拍攝，有城區(qū)、郊區(qū)、公園、道路等諸多場景。數(shù)據(jù)集共10 209 張圖像，在訓(xùn)練集、驗(yàn)證集和測試集中分別有6 471、548、3 190 張圖像，包括行人、人、三輪車、汽車、貨車、卡車、三輪車、帶棚三輪車、公交車、摩托車共計(jì)10 類目標(biāo)，按照人是否處于行走姿勢將人細(xì)分為行人和人兩個類別。圖6（a）展示了數(shù)據(jù)集中各類別目標(biāo)的數(shù)量分布，可以看到其中的各類別物體數(shù)量分布不均衡。無人機(jī)拍攝圖像拍攝場景中的小目標(biāo)多，數(shù)據(jù)集中大部分圖像包含多個密集分布的物體，圖6（b）為數(shù)據(jù)集中單幅圖像內(nèi)目標(biāo)個數(shù)分布情況，可以看出大部分圖像中的目標(biāo)個數(shù)在20以上。

圖6 VisDrone中的目標(biāo)類別與個數(shù)分布Fig.6 Distribution of category and number of objects in VisDrone

為了評估不同方法的性能，采用微軟COCO數(shù)據(jù)集中評價標(biāo)準(zhǔn)。主要比較AP、AP50、AP75分值，其中AP表示10個在0.5至0.95交并比閾值下的平均精度均值，AP50與AP75分別表示交并比閾值為0.5 和0.75 時的平均準(zhǔn)確率，APS、APM、APL分值分別表示對小目標(biāo)、中等目標(biāo)、大目標(biāo)的AP值。

3.2 實(shí)驗(yàn)平臺與實(shí)現(xiàn)細(xì)節(jié)

在Linux系統(tǒng)Ubuntu 20.04版本上搭建了深度學(xué)習(xí)實(shí)驗(yàn)環(huán)境，主要采用Pycharm 集成開發(fā)環(huán)境與Python，以及MMdetection[18]開源目標(biāo)檢測工具箱作為基本的開發(fā)框架。在華為服務(wù)器2288H V5 平臺上進(jìn)行實(shí)驗(yàn)，CPU 為Intel Xeon Silver 4114，顯卡為48 GB 顯存的NVIDIA Quadro RTX8000，內(nèi)存256 GB。軟件環(huán)境為PyTorch1.8.1、Python3.7.13、Cuda 11.4。

在訓(xùn)練過程中，為了使模型收斂更快，實(shí)驗(yàn)中利用DDETR 中Transformer 在COCO 數(shù)據(jù)集上的預(yù)訓(xùn)練權(quán)重，初始化改進(jìn)DDETR 模型的參數(shù)。基本參數(shù)設(shè)置如下：訓(xùn)練周期為60 個epoch，默認(rèn)批次大小為1，采用AdamW優(yōu)化器，學(xué)習(xí)率設(shè)置為0.000 2，權(quán)重衰減設(shè)置為0.000 1，將骨干網(wǎng)絡(luò)的學(xué)習(xí)率縮小為模型整體學(xué)習(xí)率的0.1 倍，學(xué)習(xí)率規(guī)劃策略采用線性衰減策略，在第40 個epoch 衰減為0.000 02，DDETR 模型中的單張圖像中的最大目標(biāo)數(shù)設(shè)置為200，其他超參數(shù)采用MMDetection中的默認(rèn)設(shè)置。采用多尺度訓(xùn)練與自動增強(qiáng)策略對圖像進(jìn)行預(yù)處理，使圖像短邊在{480，512，544，576，608，640，672，704，736，768，800}中、長邊不超過1 333像素，并進(jìn)行隨機(jī)裁剪處理、隨機(jī)水平翻轉(zhuǎn)。在測試過程中，輸入圖像尺寸最短邊縮放到800像素，并保證最長邊不超過1 333像素，不采用測試增強(qiáng)。

3.3 消融實(shí)驗(yàn)

通過比較在不同情況下模型的檢測精度，來驗(yàn)證不同改進(jìn)方法的有效性，實(shí)驗(yàn)結(jié)果見表2。實(shí)驗(yàn)1 為標(biāo)準(zhǔn)DDETR模型，實(shí)驗(yàn)2添加了遮擋程度估計(jì)模塊，有助于提高對嚴(yán)重遮擋目標(biāo)的檢測精度，使檢測精度提高了0.8 個百分點(diǎn)。實(shí)驗(yàn)2 與實(shí)驗(yàn)1 檢測結(jié)果對比見圖7，可以看到融合遮擋信息的模型能夠檢測到標(biāo)準(zhǔn)DDETR漏檢的目標(biāo)，對物體遮擋程度的估計(jì)也基本與標(biāo)注信息一致。實(shí)驗(yàn)3中采用了Swin-T結(jié)構(gòu)的特征提取網(wǎng)絡(luò)，比實(shí)驗(yàn)1 的檢測精度提高了1.3 個百分點(diǎn)，能夠在復(fù)雜場景下充分利用語義信息和全局特征，改善了檢測效果。實(shí)驗(yàn)4 中增加了對低層次特征的使用，與實(shí)驗(yàn)3 相比檢測精度提高了1.3 個百分點(diǎn)，提高了低層次特征信息的比例，考慮到了無人機(jī)航拍圖像中小目標(biāo)多的特點(diǎn)。實(shí)驗(yàn)5 增加了遮擋程度估計(jì)模塊、低層次特征使用、Swin-T特征提取網(wǎng)絡(luò)，利用了圖像復(fù)雜場景的語義信息以及低層次特征中的細(xì)節(jié)信息，并融合語義信息、估計(jì)了物體的遮擋程度，有效提高了模型檢測能力，比標(biāo)準(zhǔn)DDETR模型的平均檢測精度提高了3.3個百分點(diǎn)。

表2 在VisDrone數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 2 Ablation study on VisDrone 單位：%

圖7 檢測結(jié)果對比圖Fig.7 Comparison of detection results

3.4 實(shí)驗(yàn)結(jié)果分析

改進(jìn)DDETR 與標(biāo)準(zhǔn)DDETR 在各個類別物體上的檢測精度結(jié)果如表3。結(jié)果表明，改進(jìn)DDETR 模型與DDETR 模型相比準(zhǔn)確率提高了3.3 個百分點(diǎn)，在行人、人類別上的檢測準(zhǔn)確率分別增加了5.6、3.4 個百分點(diǎn)，增加對底層特征的利用提高了行人和人類別小目標(biāo)的檢測準(zhǔn)確率；在汽車、貨車、公交車類別上的檢測準(zhǔn)確率分別提高了4.4、4.6、4.3個百分點(diǎn)，遮擋信息估計(jì)模塊提高了這些易被遮擋物體的檢測準(zhǔn)確率；在其他的較為稀少的類別如自行車、卡車、帶棚三輪車、摩托車、三輪車類別上分別提升了1.2、1.5、0.8、3.6、3.0 個百分點(diǎn)，改進(jìn)后的特征提取網(wǎng)絡(luò)能更好提取到圖像中的語義信息并結(jié)合全局特征，有助于對此類物體的檢測。

表3 改進(jìn)前后算法平均精度均值（AP）對比Table 3 Comparison between base model and improved Deformable DETR

為了驗(yàn)證改進(jìn)DDETR 算法的有效性，在表4 中比較了每種算法在VisDrone 數(shù)據(jù)集上的平均檢測精度。改進(jìn)DDETR模型的檢測速度低于改進(jìn)YOLOv5s，但是改進(jìn)DDETR 比改進(jìn)YOLOv5s 的檢測準(zhǔn)確率提高了10個百分點(diǎn)；在具有相近水平檢測準(zhǔn)確率的模型中，改進(jìn)DDETR 也較好地平衡了檢測準(zhǔn)確率與檢測速度，改進(jìn)DDETR的準(zhǔn)確率和檢測速度都高于QueryDet模型。表4所列實(shí)驗(yàn)結(jié)果表明改進(jìn)后的DDETR模型達(dá)到了32.3%的AP與32.5%的AP75分值，檢測準(zhǔn)確率超過絕大多數(shù)主流方法。與基于ResNet-50 骨干網(wǎng)絡(luò)的GLSAN 模型相比，改進(jìn)后的DDETR模型中的Swin-T結(jié)構(gòu)的骨干網(wǎng)絡(luò)與其具有相近的計(jì)算復(fù)雜度；與YOLOv5s算法相比，所提方法檢測速度有所欠缺但檢測精度更高；與基于ResNeXt-152 實(shí)現(xiàn)采用區(qū)域搜索策略的DERN 算法相比，所提模型且方法更為簡單，不用分階段訓(xùn)練子網(wǎng)絡(luò)。

表4 本文方法與主流方法在VisDrone數(shù)據(jù)集上對比Table 4 Comparison of this method with other SOTA methods on VisDrone dateset

改進(jìn)DDETR 算法與標(biāo)準(zhǔn)DDETR 算法的檢測結(jié)果對比見圖8。可以看到標(biāo)準(zhǔn)DDETR存在由于遮擋嚴(yán)重導(dǎo)致的漏檢現(xiàn)象，沒能檢測出存在遮擋情況的區(qū)域A、B中的物體，改進(jìn)DDETR 則能夠檢測出物體并正確預(yù)測對應(yīng)的遮擋程度。標(biāo)準(zhǔn)DDETR存在將部分背景識別為前景物體的誤檢現(xiàn)象，改進(jìn)DDETR 能充分利用場景中的語義信息和低層次特征信息提高對小目標(biāo)的分辨能力，降低誤檢率。標(biāo)準(zhǔn)DDETR 模型由于未考慮物體的遮擋情況所以還存在對遮擋物體檢測置信度低的問題，對區(qū)域C中的物體檢測結(jié)果較差。改進(jìn)DDETR則能對物體遮擋程度進(jìn)行估計(jì)，以更高的置信度檢測出了區(qū)域C中的遮擋物體。

圖8 改進(jìn)前后算法在不同場景下的檢測結(jié)果Fig.8 Detection results of original algorithm and improved algorithm in different scenes

改進(jìn)DDETR能夠通過遮擋程度估計(jì)模塊估計(jì)物體的遮擋程度，提高對遮擋物體的檢測能力；更好地利用低層次特征中的細(xì)節(jié)信息，提高對與背景相似的小物體的辨別能力，降低對物體的誤檢率；改進(jìn)后的特征提取網(wǎng)絡(luò)能更好地利用語義信息，有效融合全局特征與局部特征，檢測精度更高。

4 結(jié)語

融合遮擋信息的改進(jìn)DDETR 算法改進(jìn)了標(biāo)準(zhǔn)DDETR 算法的結(jié)構(gòu)，通過改進(jìn)后的特征提取網(wǎng)絡(luò)和提出的遮擋程度估計(jì)模塊提高了對語義信息、細(xì)節(jié)信息、遮擋信息的利用，基于標(biāo)準(zhǔn)DDETR構(gòu)建了改進(jìn)DDETR算法，在VisDrone 數(shù)據(jù)集上實(shí)現(xiàn)了32.3%的平均準(zhǔn)確率，相比標(biāo)準(zhǔn)DDETR算法提高了3.3個百分點(diǎn)。改進(jìn)后的特征提取網(wǎng)絡(luò)能夠更好地利用到圖像中復(fù)雜的語義信息，對低層次特征的充分利用提高了對小目標(biāo)的檢測準(zhǔn)確率，遮擋程度估計(jì)模塊考慮到了物體的遮擋情況，提高了無人機(jī)目標(biāo)檢測的準(zhǔn)確率。下一步將考慮利用圖像中物體之間的相關(guān)關(guān)系，并優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)，繼續(xù)提高無人機(jī)航拍圖像目標(biāo)檢測的速度和精度。