基于特征增強與Anchor-object匹配的目標檢測算法

2022-04-29 00:00:00李成嚴，趙帥，車子軒

哈爾濱理工大學(xué)學(xué)報 2022年3期

摘要：為了提升SSD（single shot multiBox detector）的檢測精度，提出一種基于Anchor-object匹配的A-SSD（anchor-object SSD）目標檢測算法。在算法的特征提取部分，使用并行卷積和空洞卷積構(gòu)成感受野模塊，增大特征圖的感受野，獲得多尺度的特征信息;將含有紋理、邊緣等細節(jié)信息的淺層特征與含有豐富語義信息的深層特征融合。在算法的檢測器部分，采用Anchor-object匹配方法聯(lián)合SSD多層特征圖為每個檢測目標構(gòu)建相應(yīng)的Anchor包，通過選擇-抑制優(yōu)化策略，選擇置信度較高的Anchor去更新模型，為每個Anchor評估得分。通過迭代學(xué)習(xí)，模型的參數(shù)、Anchor的位置坐標與分類置信度不斷優(yōu)化。在PASCAL VOC數(shù)據(jù)集上A-SSD算法的mAP達到了80.7，在車間行人數(shù)據(jù)集上A-SSD算法的漏檢率為3.5%，準確率為91.5%。

關(guān)鍵詞：目標檢測;SSD算法;特征提取;檢測器;Anchor-object匹配

DOI：10.15938/j.jhust.2022.03.010

中圖分類號： TP399文獻標志碼： A文章編號： 1007-2683（2022）03-0073-09

Object Detection Algorithm Based on Feature

Enhancement and Anchor-object Matching

LI Cheng-yan，ZHAO Shuai，CHE Zi-xuan

（School of Computer Science and Technology， Harbin University of Science and Technology， Harbin 150080， China）

Abstract：In order to improve the detection accuracy of SSD （Single Shot MultiBox Detector）， an A-SSD （Anchor-object SSD） object detection algorithm based on Anchor-object matching is proposed. In the feature extraction part of the algorithm， parallel convolution and hole convolution are used to form the receptive field module， which increases the receptive field of the feature map and obtains multi-scale feature information， combining the shallow features containing texture， edge and other detailed information with rich fusion of deep features of semantic information. In the detector part of the algorithm， the Anchor-object matching method combined with the SSD multi-layer feature map is used to construct the corresponding Anchor package for each detection target. Through the selection-suppression optimization strategy， the Anchor with higher confidence is selected to update the model. Anchor evaluation score， in continuous iterative learning， the model parameters， Anchor position coordinates and classification confidence are continuously optimized. The mAP of the A-SSD algorithm on the PASCAL VOC data set reached 80.7， and the missed detection rate of the A-SSD algorithm on the workshop pedestrian data set was 3.5%， and the accuracy rate was 91.5%.

Keywords：object detection; SSD algorithm; feature extraction; detector; anchor-object matching

目標檢測[1-2]是計算機視覺以及圖像處理領(lǐng)域的一個研究問題，其主要目標是在圖像中精確定位出各種目標的類別和位置信息。這項技術(shù)廣泛的應(yīng)用在現(xiàn)實世界中，如工業(yè)生產(chǎn)領(lǐng)域利用目標檢測技術(shù)定位生產(chǎn)人員的位置以及監(jiān)測生產(chǎn)人員的姿態(tài);車載導(dǎo)航領(lǐng)域利用目標檢測技術(shù)檢測障礙、識別交通信號;數(shù)碼攝像領(lǐng)域利用目標檢測技術(shù)實現(xiàn)自動定位和人臉聚焦等功能。然而，復(fù)雜的目標類別、廣泛的尺度變化以及光照變化等外在環(huán)境因素干擾下，目標檢測的難度在不斷增加，為克服這些困難，越來越多的學(xué)者投入到該領(lǐng)域的研究。

目標檢測技術(shù)分為基于傳統(tǒng)算法和基于深度學(xué)習(xí)算法兩大類。傳統(tǒng)的目標檢測算法包括HOG特征法[3]、Haar-Like特征法[4]、LBP特征法[5]，這些算法依賴手工設(shè)計特征，檢測精度較低，計算步驟復(fù)雜，檢測速度慢、實時性差。現(xiàn)已被基于深度學(xué)習(xí)的算法[6-8]取代。在深度學(xué)習(xí)領(lǐng)域，基于深度卷積神經(jīng)網(wǎng)絡(luò)（convolution neural network，CNN） [9-10]的算法具有特征層次深，檢測準確率高，魯棒性好的優(yōu)點。文[11]提出的R-CNN首先利用Selective Search技術(shù)對輸入圖像提取生成建議框，然后使用AlexNet網(wǎng)絡(luò)對建議框特征提取，最后使用SVM分類器確定檢測目標的類別以及使用回歸器確定檢測目標的位置，該算法存在輸入圖片尺寸固定、重復(fù)計算、檢測速度慢等缺點。文[12]提出的SPP-Net針對R-CNN的問題做了改進，對整張輸入圖片僅進行一次卷積操作，大大降低了運算量。文[13]提出的以VGG-16為基準網(wǎng)絡(luò)的Fast R-CNN借鑒了SPP-Net的思想將SPP層簡化為ROI Pooling單層結(jié)構(gòu)，引入softmax函數(shù)和SVD分解，將分類和回歸合并成一個問題，雖然提高了檢測速度和精度，但是也存在檢測效率低的問題。文[14]提出的Faster R-CNN真正實現(xiàn)了網(wǎng)絡(luò)模型的端到端訓(xùn)練，設(shè)計了區(qū)域生成網(wǎng)絡(luò)（RPN）來生成候選區(qū)域，提升了檢測效率。R-CNN系列算法是一種首先需要產(chǎn)生候選區(qū)域，然后再在候選區(qū)域上做分類與回歸，進而得到最終的檢測結(jié)果的兩階段目標檢測算法，這種兩階段的目標檢測算法雖然有較高的檢測精度，但是檢測速度不佳。

基于候選區(qū)域的兩階段算法不同，基于回歸的單階段目標檢測算法在檢測速度上有明顯的提升。文[15]提出了第一個單階段目標檢測算法YOLO（you only look once），只需要對輸入圖像進行一次卷積處理，即可同時得到檢測目標的位置和類別，檢測速度得到了大大的提升，但是，YOLO算法的劃分策略造成生成的先驗框個數(shù)較少，對小目標和密集目標的檢測精度較差，定位誤差也較大。文[16]提出的SSD（single shot multiBox detector）將YOLO的回歸思想和Faster R-CNN中的Anchor機制相結(jié)合，利用不同輸出層的特征信息檢測，使其對尺度變化有較好的魯棒性。但是，原始輸入圖像經(jīng)過SSD基準網(wǎng)絡(luò)一系列的卷積池化，在Conv4_3層輸出的檢測特征圖，相較于原始圖像尺寸縮小了1/8，導(dǎo)致檢測目標的邊緣、紋理等細節(jié)信息大部分丟失，后續(xù)特征圖的特征信息丟失的更多，特別是小目標的特征信息，在網(wǎng)絡(luò)訓(xùn)練階段嚴重影響網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)，導(dǎo)致網(wǎng)絡(luò)對小目標的檢測精度低、定位不準確。其次，在網(wǎng)絡(luò)的訓(xùn)練階段，Anchor獨立的監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)，分類和定位之間沒有交互，這可能會導(dǎo)致定位準確，但分類置信度較低的Anchor在NMS（non-maximum suppression）被抑制，影響目標檢測檢測的精度。文[17]提出的一種利用深層和淺層特征融合的算法，通過增加特征圖的通道數(shù)來提升目標檢測的精度，但是每一層特征圖的參數(shù)量倍增，極大的影響了目標檢測的速度。文[18]以SSD算法為基礎(chǔ)，提出了一種引入空間上下文信息的反卷積模塊，將語義信息豐富的深層特征引入淺層的特征中，提升了小目標的檢測精度，但是沒有充分利用特征圖的邊緣、紋理等細節(jié)信息，檢測速度也遠遠不及SSD算法。文[19]受人體視覺系統(tǒng)中感受野結(jié)構(gòu)的啟發(fā)，提出了一種利用空洞卷積模擬人眼視覺系統(tǒng)中感受野尺寸和中心的關(guān)系，在不丟失分辨率的情況下，增大特征圖的感受野，獲得多尺度的特征信息，提升了目標檢測的精度，但是空洞率設(shè)置過大可能會造成遠距離特征信息不相關(guān)，影響目標檢測的精度。文[20]以SSD算法為基礎(chǔ)，融合注意力機制，提升了小目標的檢測精度，但是對于密集目標，存在誤檢的情況。文[21]提出了一種反轉(zhuǎn)注意力機制，該算法沿著特征圖的空間和通道維度進行操作，不需要為注意力估計增加額外的參數(shù)，也不會增加推理的計算量，提升了目標的檢測性能。文[22]首次指出樣本類別不平衡，是造成SSD算法的檢測精度低原因，并且使用Focal loss損失函數(shù)對模型訓(xùn)練，提升了算法的檢測精度。文[23]提出GHM策略，通過降低離群值的梯度貢獻進一步改善了Focal loss。文[24]提出的AP損失和文[25]提出的DR損失，將分類任務(wù)轉(zhuǎn)換為排名任務(wù)提升了SSD算法的檢測精度。以上改進算法雖然在一定程度上提升了SSD目標的檢測精度，但是并沒有解決定位準確但分類置信度較低的Anchor在NMS操作中被抑制，導(dǎo)致檢測精度低的問題。

為解決SSD算法檢測精度不佳的問題，本文提出了一種基于Anchor-object匹配的SSD的算法—A-SSD（anchor-object single shot multiBox detector）。該算法以SSD網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)，提取更淺層的特征圖，使用空洞卷積、并行卷積構(gòu)成感受野模塊增大感受野，獲取多尺度特征信息，對深層和淺層特征融合。聯(lián)合多層特征圖為每個檢測目標構(gòu)建相應(yīng)的Anchor包，通過選擇-抑制優(yōu)化策略[26]，在不斷的迭代學(xué)習(xí)中，學(xué)習(xí)模型參數(shù)和優(yōu)化Anchor的定位坐標與置信度。

本文結(jié)構(gòu)如下，第一部分介紹SSD目標檢測網(wǎng)絡(luò)，第二部分介紹A-SSD算法設(shè)計，第三部分為實驗過程及結(jié)果分析，最后給出結(jié)論。

1SSD目標檢測網(wǎng)絡(luò)

Lin等人提出的SSD算法一種直接預(yù)測目標邊界框的坐標和類別的檢測算法。SSD算法借鑒了Faster R-CNN中先驗框（prior boxes）的理念，如圖1所示，每個單元格設(shè)置尺度和長寬比不同的Prior boxes，較大的特征圖，負責(zé)檢測相對較小的目標，較小的特征圖，負責(zé)檢測相對較大的目標。一般情況下每個網(wǎng)格有k個先驗框，每個先驗框預(yù)測c個類別的分數(shù)和4個位置偏移量。特征圖的大小為m×n，即有m×n個網(wǎng)格，則該特征圖共有（c+4） ×k×m×n個輸出。在訓(xùn)練階段，將默認框和真實框匹配，一旦匹配成功，則默認框為正樣本，反之則為負樣本。在預(yù)測階段，得到默認框的位置偏移及目標類別對應(yīng)的置信度。

與YOLO最后采用全連接層不同，SSD算法的骨干網(wǎng)絡(luò)結(jié)構(gòu)是VGG16，將VGG16的最后兩個全連接層改為卷積層后又增加了4個卷積層，網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示，SSD算法對conv4_3、fc7、conv6_2、conv7_2、conv8_2和conv9_2等6個不同卷積層的特征圖做檢測。其檢測過程：特征圖與兩個3×3的卷積核卷積后得到兩個輸出，分別作為分類時使用的置信度以及回歸時使用的位置信息，將每個輸出層的檢測結(jié)果合并后傳遞給損失層，損失層通過非極大值抑制的方法輸出目標的檢測結(jié)果。

2A-SSD算法設(shè)計

2.1A-SSD特征提取網(wǎng)絡(luò)結(jié)構(gòu)

A-SSD網(wǎng)絡(luò)結(jié)構(gòu)以原始SSD為基礎(chǔ)，提取SSD網(wǎng)絡(luò)更淺層的特征圖，以獲得更多的紋理、邊緣等細節(jié)信息;對SSD網(wǎng)絡(luò)的深層特征反卷積，與淺層的特征融合，使融合后的特征圖含有更多細節(jié)信息的同時兼顧深層特征具有的豐富語義信息;在淺層特征圖增加感受野模塊，采用多分支的空洞卷積結(jié)構(gòu)來獲得更大的感受野和更具表達能力的特征。圖3為A-SSD的特征提取網(wǎng)絡(luò)結(jié)構(gòu)，輸入圖像通過A-SSD卷積神經(jīng)網(wǎng)絡(luò)中的各卷積層輸出多尺度的特征圖，在不同尺度的特征圖上做檢測，并將不同層的檢測結(jié)果綜合實現(xiàn)目標檢測。

如圖3所示，A-SSD算法通過提取SSD卷積神經(jīng)網(wǎng)絡(luò)中更淺層Conv3_3的特征圖，與Conv4_3、Conv5_3的特征圖通過特征融合模塊（Feature fusion module）得到ConvF3_3特征圖，ConvF3_3特征圖又經(jīng)感受野模塊（Receptive field module）得到ConvR3_3特征圖。深層Conv8_2、Conv7_2特征圖，分別與Conv6_2、fc7特征圖通過特征融合模塊得到ConvF6_2、fcF7特征圖。A-SSD算法對convR3_3、conv4_3、fcF7、convF6_2、conv7_2、conv8_2和conv9_2等7個不同卷積層的特征圖做檢測。

2.2特征融合網(wǎng)絡(luò)結(jié)構(gòu)

SSD網(wǎng)絡(luò)的淺層特征分辨率較高，含有更多的邊緣、紋理等細節(jié)信息，但是淺層特征經(jīng)過的卷積次數(shù)較少，導(dǎo)致了其語義性更低、特征圖的噪聲更多。相比較淺層特征，SSD網(wǎng)絡(luò)的高層特征經(jīng)過更多的卷積，具有更強的語義信息，但是分辨率較低，對細節(jié)的感知能力較差。為了解決這個問題，A-SSD算法把含有更多邊緣、紋理等細節(jié)信息的淺層特征與含有豐富語義信息的深層特征融合成一個兼具淺層特征信息與深層特征信息的特征圖。過程如圖4所示，淺層特征圖與深層特征圖經(jīng)過2×2反卷積、3×3的卷積和ReLU（rectified linear unit）、BN（batch normalization）處理，處理后的兩個特征圖經(jīng)Concatenate通道拼接，1×1卷積、ReLU處理得到融合之后的特征圖。

感受野模塊是一個多分支的卷積模塊，他的內(nèi)部結(jié)構(gòu)主要分為兩種：第一種為不同分支應(yīng)用卷積核大小不同的卷積層構(gòu)成的并行卷積結(jié)構(gòu);第二種為卷積層使用不同大小空洞率的卷積核，構(gòu)成空洞卷積結(jié)構(gòu)。其中，應(yīng)用并行卷積結(jié)構(gòu)可以得到多尺度的特征信息，應(yīng)用空洞卷積可以增加感受野，最終通過融合各支路的特征信息，將具有多尺度特征信息和感受野不同的特征圖融合成一個感受野更大、尺度信息更豐富的特征圖。過程如圖5所示，H×W×256的特征圖，經(jīng)卷積核大小分別為1×1，3×3，5×5的卷積層和空洞率分別為1、3、5，卷積核大小為3×3的卷積層分支得到三個含有不同感受野和不同尺度信息的特征圖，又經(jīng)Concatenate通道拼接，三個特征圖融合成一個特征圖。融合后的特征圖，通過1×1的卷積層來調(diào)整通道深度，與H×W×256的輸入特征圖，經(jīng)add操作得到最終的特征圖。

2.3基于Anchor-object匹配的檢測器

在SSD算法中，檢測器利用目標實際邊界框（ground truth）與Anchor之間的IOU作為分配Anchor的標準，每個被分配的Anchor獨立的監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)，分類與定位之間沒有交互。這可能會導(dǎo)致定位精度較高但分類置信度較低的Anchor經(jīng)過NMS被過濾掉，影響目標檢測的精度。為解決這個問題，在模型的訓(xùn)練過程中，聯(lián)合分類與定位選擇置信度，通過選擇-抑制優(yōu)化策略，選擇置信度較高的Anchor去更新模型，使用更新后的模型重新為每個Anchor評估得分，在不斷迭代學(xué)習(xí)中，模型的參數(shù)、Anchor的位置坐標與分類置信度不斷優(yōu)化。同時SSD算法的分類檢測器和定位的檢測器是對每一層特征圖檢測的，這也限制了聯(lián)合分類與定位，為此聯(lián)合多層特征圖為每個檢測目標構(gòu)建相應(yīng)的Anchor包，A-SSD網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示，分別聯(lián)合ConvR3_3、Conv4_3特征圖，fcF7、ConvF6_2特征圖，Conv7_2、Conv8_2、Conv9_2特征圖構(gòu)建相應(yīng)的Anchor包，用于目標檢測網(wǎng)絡(luò)。

首先為輸入圖像的第i個目標構(gòu)建一個Anchor包（Ai），也就是根據(jù)Anchor與Ground truth的IOU選出前K個作為正樣本Anchor（positive Anchor）放入Ai中。在網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)過程中，模型為Ai中的每個Anchor評估出分類和定位的置信度，利用式（1）中的目標函數(shù)選出分數(shù)較高的Anchor，利用式（2）、式（3）更新模型參數(shù)，重新評估Anchor的分類和定位的置信度，經(jīng)過一次一次的迭代過程，最終選擇出最優(yōu)的Anchor，以及計算出最優(yōu)的模型參數(shù)。X為訓(xùn)練數(shù)據(jù)集，Y為相應(yīng)的類別標簽，bi∈B為正樣本中物體的邊界框，bi由類別標簽bclsi和定位標簽bloci組成。分類子網(wǎng)和邊界回歸子網(wǎng)預(yù)測的邊界框aj由類別置信度aclsj和定位置信度alocj組成。

ai=argmaxω，aj∈Aifω（aj，bicls）+αgω（aj，biloc）（1）

其中fω和gω分別計算分類和定位的置信度函數(shù)，α是正則化因子，最終要選出目標i最優(yōu)的positive Anchor ai*，同時學(xué)習(xí)網(wǎng)絡(luò)參數(shù)ω*，ω*參數(shù)的在分類中學(xué)習(xí)如式（2）所示。

ω=argmaxω（fω（aj+，bclsi）-ρfω（aj-，bclsi））（2）

其中，ρ表示正負樣本的平衡因子。同時，正樣本Anchor aj+用來優(yōu)化目標定位，如式（3）所示。

ω=argmaxωgω（aj+，bloci）（3）

相應(yīng)的損失函數(shù)如式（4）所示。

Ldet（aj，bi）=argminω，aj∈AiLcls（aj，bicls）+αLreg（aj，biloc）（4）

Lcls表示類別損失，計算類別損失用文[22]提出的Focal Loss損失函數(shù)。Lreg表示位置損失，計算位置損失使用Smooth L1 Loss損失函數(shù)。

SSD采用隨機梯度下降（stochastic gradient descent，SGD）算法選擇Anchor，這會導(dǎo)致出現(xiàn)次優(yōu)Anchor的問題。為解決這個問題，使用反向注意力機制改進SSD檢測器，通過反復(fù)降低Anchor置信度的對抗方式，在最終收斂的時候最大可能的找到最優(yōu)Anchor。在SSD網(wǎng)絡(luò)的基礎(chǔ)上，添加Anchor 選擇模塊和Anchor 抑制模塊。Anchor選擇模塊找出得分較高的Anchor從而最小化檢測損失，而Anchor抑制模塊通過擾動這些被選擇的Anchor的特征，降低這些Anchor的置信度，再次增大檢測損失，選擇-抑制優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。

Anchor抑制模塊使用了注意力機制，注意力機制識別對象最具有代表性的區(qū)域，鼓勵區(qū)分對象類別。在SSD網(wǎng)絡(luò)的訓(xùn)練階段，通過梯度引導(dǎo)的注意力生成操作，強制注意力收斂到對象的敏感區(qū)域，但忽略掉了不敏感的區(qū)域。由文[27]梯度引導(dǎo)生成的注意力圖的計算公式如式（5）所示。

M=∑CiwiFi（5）

其中：wi為特征圖全局平局池化生成的權(quán)重向量W在i處的元素;C為特征圖的通道;i為特征圖的通道索引;Fi是i通道處的特征圖，經(jīng)過式（5）得到注意力圖M。為了解決梯度引導(dǎo)注意力忽略對象較不敏感區(qū)域的問題，通過反轉(zhuǎn)注意力機制，使網(wǎng)絡(luò)關(guān)注對象敏感度較低的區(qū)域，給未被選擇的Anchor更多的機會參與訓(xùn)練。具體而言，通過注意力反轉(zhuǎn)機制生成一個反向空間注意力圖和一個反向通道注意力圖，然后將它們?nèi)诤仙勺罱K的反向注意圖。反向空間注意力圖As={asi}的定義如式（6）所示。

asi=0if migt;Ts

1else（6）

其中：asi與mi為As和M在i處的元素;Ts為空間注意力圖的閾值，在空間上反向的注意力圖對具有較小梯度值的樣本區(qū)域更加關(guān)注。權(quán)重向量W用作特征圖通道的靈敏度度量，閾值Tc用于計算通道方向的反向注意力圖Ac={acj}的定義如式（7）所示。

acj=0if wjgt;Tc

1else（7）

最終的反向注意圖A={ai，j}的計算公式如式（8）所示。通過融合空間上反向的注意力圖與通道反向注意力圖，更加關(guān)注由于空間注意力機制抑制的較小梯度值的樣本區(qū)域和通道注意力機制抑制不重要的特征信息。

ai，j=asiif ajc=0

1else（8）

反向注意力圖M′是將注意力圖M較高的值驟降為0，M′的計算如式（9）所示。

M′=（1-γp）M（9）

其中：γ代表0～1的指標函數(shù);P為具有較高值的位置。最后通過將輸入特征圖與反向注意力圖融合，生成一個既關(guān)注對象的敏感區(qū)域又關(guān)注不敏感的區(qū)域的被抑制后的特征圖V，V的計算如式（10）所示。

V=（I+M′）°Fl（10）

其中：I代表單位矩陣;°代表元素乘法。

為了選擇分類與定位綜合置信度最大的Anchor，在訓(xùn)練過程中通過一種“all to top 1”的不斷學(xué)習(xí)策略。在學(xué)習(xí)過程中提取分數(shù)較高的Anchor，線性降低Ai中的Anchor數(shù)量直到降為1。計算如公式（11）所示，設(shè)置λ=t/T，t和T分別當前和總的迭代次數(shù)，φ（λ）表示排名前幾位的Anchor的索引，|Ai|表示Ai的個數(shù)。

φ（λ）=|Ai|（1-λ）+1（11）

3實驗結(jié)果與分析

3.1實驗環(huán)境

實驗環(huán)境如表1所示。

3.2網(wǎng)絡(luò)訓(xùn)練

網(wǎng)絡(luò)模型訓(xùn)練參數(shù)部分設(shè)定為：動量參數(shù)為0.9，模型訓(xùn)練100 epoch，前50 輪（epoch）初始學(xué)習(xí)率（learning_rate）為0.0005，網(wǎng)絡(luò)訓(xùn)練50 epoch之后，learning_rate衰減為0.0001。在訓(xùn)練過程中，當驗證損失（val_loss）在10 epoch沒有改善時，學(xué)習(xí)率降低0.5倍，每迭代一次訓(xùn)練的樣本數(shù)為4。如圖8所示，網(wǎng)絡(luò)訓(xùn)練過程中val_loss在前50 epoch的下降趨勢明顯，在后50 epoch逐漸平穩(wěn)。

3.3在PASCAL VOC數(shù)據(jù)集上的實驗

實驗使用了PASCAL VOC數(shù)據(jù)集[28-29]，該數(shù)據(jù)集包含20個類別，即aeroplane、bike、bird、boat、bottle、bus、car、cat、chair、cow、table、dog、horse、mbike、person、plant、sheep、sofa、train、tvmonitor，共27088張圖片。將PASCAL VOC數(shù)據(jù)集，按8∶1∶1的比例劃分為訓(xùn)練集、驗證集、測試集，如表2所示。

在目標檢測中，通常采用mAP（mean Average Precision）來評估模型的檢測精度，以及采用FPS（Frames Per Second），即畫面每秒傳輸幀數(shù)評估模型的檢測速率。如表3所示，A-SSD算法相較于YOLO算法[15]、SSD算法[16]、Faster R-CNN算法[14]、DSSD算法[18]，mAP分別提升了17.3、6.4、7.5、2.1。

3.4在車間行人數(shù)據(jù)集上的實驗

為了驗證本文算法在實際生產(chǎn)環(huán)境下的應(yīng)用效果，在車間行人數(shù)據(jù)集下做了消融實驗。實驗數(shù)據(jù)集來源于大小為70G的某生產(chǎn)車間監(jiān)控視頻，截取了不同姿態(tài)、不同遮擋程度、不同大小目標的7462張圖片，該數(shù)據(jù)集包含一個person類別，數(shù)據(jù)樣本如圖9所示。將車間行人數(shù)據(jù)集，按8∶1∶1的比例劃分為訓(xùn)練集、驗證集、測試集，如表4所示。

本組實驗應(yīng)用漏檢率、準確率來衡量算法的性能，其中漏檢率RM（Miss Rate），如式（12）所示。

RM=FNFN+TP（12）

準確率Rp（Precision Rate），如式（13）所示。

Rp=TPTP+FP（13）

在BBd與BBg匹配的過程中，未匹配到的BBd是誤檢的行人框（1 postitive ，F(xiàn)P），未匹配到的BBg是漏檢的行人框（1 negative，F(xiàn)N），行人統(tǒng)計標準如表5所示。

利用車間行人數(shù)據(jù)集的訓(xùn)練集在SSD目標檢測網(wǎng)絡(luò)和A-SSD目標檢測網(wǎng)絡(luò)上訓(xùn)練兩個模型，在測試集上測試兩個模型，記錄每張圖像的檢測框并計算檢測框與真實框的IOU值。假設(shè)檢測框為BBd，真實框為BBg，若IOU大于閾值時，則BBd與BBg是匹配的。本組實驗的閾值為0.5，IOU的計算如公式（14）所示。

IOU=area（BBd∩BBg）area（BBd∪BBg）（14）

本組實驗分別在測試集上選取100張含有小目標行人（100_small）、100張含有遮擋行人（100_blocked）以及全部車間行人測試數(shù)據(jù)集（all）上做了4組消融實驗，結(jié)果如表6、表7所示。

通過本組實驗可以看出對SSD提取更淺層Conv3_3特征圖以及應(yīng)用感受野模塊，漏檢率在三種測試數(shù)據(jù)集上分別降低了2%、2%、1.7%，準確率分別提高了4.3%、6.4%、3.4%。在此基礎(chǔ)上又相繼添加了特征融合模塊、Anchor-object匹配方法等，漏檢率均有所降低、準確率有所提高。A-SSD算法相較于SSD算法在三種數(shù)據(jù)集上漏檢率分別降低了7%、7%、3.6%，準確率分別提高了6.7%、8.8%、5.7%。由此可知A-SSD算法提升了實際車間環(huán)境下的檢測效果。

圖10是SSD算法和A-SSD算法在車間行人數(shù)據(jù)集上的可視化檢測結(jié)果對比。圖（a）是SSD的檢測結(jié)果，圖（b）是A-SSD的檢測結(jié)果。對比圖（a）和圖（b），可以看出A-SSD算法對小目標行人的檢測效果更佳。

4結(jié)語

本文以SSD算法為基礎(chǔ)，引出更淺層的特征圖，添加感受野模塊增強輕量級主干網(wǎng)絡(luò)的特征提取能力，將含有邊緣、紋理等細節(jié)信息的淺層特征圖與含有豐富語義信息的深層特征圖融合成一個兼具淺層特征信息與深層特征信息的特征圖，另外Anchor-object匹配方法聯(lián)合優(yōu)化分類與定位學(xué)習(xí)Anchor，完成對目標檢測研究。實驗結(jié)果表明A-SSD算法提升了目標的檢測精度，但是與之帶來的是算法參數(shù)量增加，影響模型檢測的速度。下一步將考慮從模型剪枝的角度考略，減少參數(shù)量，提升檢測速度。

參考文獻：

[1]LIU Y， SUN P， WERGELES N， et al. A Survey and Performance Evaluation of Deep Learning Methods for Small Object Detection[J]. Expert Systems with Applications， 2021， 172（4）：1.

[2]LIU L， OUYANG W， WANG X， et al. Deep Learning for Generic Object Detection： A Survey[J]. International Journal of Computer Vision， 2020， 128（2）： 261.

[3]鮑文霞，解棟文，朱明，等. 結(jié)合聚合通道特征和雙樹復(fù)小波變換的手勢識別[J]. 中國圖象圖形學(xué)報， 2019， 024（007）：1067.

BAO Wenxia， XIE Dongwen， ZHU Ming， et al. Gesture Recognition Based on Aggregation Channel Feature and Dual Tree Complex Wavelet Transform[J]. Chinese Journal of Image and Graphics， 2019， 24（7）： 1067.

[4]ADOUANI A， HENIA W， LACHIRI Z. Comparison of Haar-like， HOG and LBP Approaches for Face Detection in Video Sequences[C]// 2019 16th International Multi-Conference on Systems， Signals amp; Devices （SSD）. 2019：266.

[5]劉曉虹，朱玉全，劉哲，等. 基于改進多尺度LBP算法的肝臟CT圖像特征提取方法[J]. 計算機科學(xué)， 2019， 46（3）：131.

LIU Xiaohong， ZHU Yuquan， LIU Zhe， et al. Feature Extraction Method of Liver CT Image Based on Improved Multiscale LBP Algorithm[J]. Computer Science， 2019， 46（3）： 131.

[6]尹寶才，王文通，王立春，等. 深度學(xué)習(xí)研究綜述[J]. 北京工業(yè)大學(xué)學(xué)報， 2015， 41（1）： 48.

YIN Baocai， WANG Wentong， WANG Lichun， et al.Review of Deep Learning Research[J]. Journal of Beijing University of Technology， 2015， 41（1）： 48.

[7]孫志遠，魯成祥，史忠植，等. 深度學(xué)習(xí)研究與進展[J]. 計算機科學(xué)， 2016，43（2）：7.

SUN Zhiyuan， LU Chengxiang， SHI Zhongzhi， et al. Research and Progress of Deep Learning[J]. Computer Science， 2016，43（2）： 7.

[8]張慧，王坤峰，王飛躍. 深度學(xué)習(xí)在目標視覺檢測中的應(yīng)用進展與展望[J]. 自動化學(xué)報， 2017， 43（8）：1289.

ZHANG Hui， WANG Kunfeng， WANG Feiyue. Applicationprogress and Prospect of Deep Learning in Targetvision Detection[J]. Acta Automatica Sinica， 2017， 43（8）： 1289.

[9]KRIZHEVSKY A， SUTAKEVER I， HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks[J].Communications of the ACM， 2017， 60（6）： 84.

[10]LECUN Y， BOSER B， DENKER J， et al. Backpropagation Applied to Handwritten Zip Code Recognition[J].Neural Computation， 2014， 1（4）：541.

[11]GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2014： 580.

[12]HE K， ZHANG X， REN S， et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2015， 37（9）： 1904.

[13]GIRSHICK R. Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision， 2015： 1440.

[14]REN S， HE K， GIRSHICK R， et al. Faster R-cnn： Towards Real-time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2016， 39（6）： 1137.

[15]REDMON J， DIWALA S， GIRSHICK R， et al. You Only Look Once： Unified， Real-time Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2016： 779.

[16]LIU W， ANGUELOV D， ERHAN D， et al. Ssd： Single Shot Multibox Detector[C]//European Conference on Computer Vision. Springer， Cham， 2016： 21.

[17]LIN T Y， DOLLR P， GIRSHICK R， et al. Feature Pyramid Networks for Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2017： 2117.

[18]WANG S， WU L， WU W， et al. Optical Fiber Defect Detection Method Based on DSSD Network[C]// 2019 IEEE International Conference on Smart Internet of Things （SmartIoT）. IEEE， 2019： 422.

[19]LIU S， HUANG D. Receptive Field Block Net for Accurate and Fast Object Detection[C]//Proceedings of the European Conference on Computer Vision （ECCV）， 2018： 385.

[20]儲岳中，黃勇，張學(xué)鋒，等.基于自注意力的SSD圖像目標檢測算法[J].華中科技大學(xué)學(xué)報（自然科學(xué)版），2020，48（9）：70.

CHU Yuezhong， HUANG Yong， ZHANG Xuefeng， et al. SSD Image Target Detection Algorithm Based on Self Attention[J]. Journal of Huazhong University of Science and Technology （NATURAL SCIENCE EDITION）， 2020，48（9）： 70.

[21]HUANG Z， KE W， HUANG D. Improving Object Detection with Inverted Attention[C]//2020 IEEE Winter Conference on Applications of Computer Vision （WACV）. IEEE， 2020： 1294.

[22]LIN T Y， GOYAL P， GIRSHICK R， et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision， 2017： 2980.

[23]LI B， LIU Y， WANG X. Gradient Harmonized Single-stage Detector[C]//Proceedings of the AAAI Conference on Artificial Intelligence， 2019： 8577.

[24]CHEN K， LI J， LIN W， et al. Towards Accurate One-stage Object Detection with Ap-loss[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2019： 5119.

[25]QIAN Q， CHEN L， LI H， et al. DR Loss： Improving Object Detection by Distributional Ranking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2020：12164.

[26]KE W， ZHANG T， HUANG Z， et al. Multiple Anchor Learning for Visual Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2020： 10206.

[27]SELVARAJU R R， COGSWELL M， DAS A， et al. Grad-cam：Visual Explanations from Deep Networks Via Gradient-based Localization[C]//Proceedings of the IEEE International Conference on Computer Vision， 2017： 618.

[28]WANG Z， LI Q. Information Content Weighting for Perceptual Image Quality Assessment[J]. IEEE Transactions on Image Processing， 2010， 20（5）： 1185.

[29]LIU A， LIN W， NARWARIA M. Image Quality Assessment Based on Gradient Similarity[J]. IEEE Transactions on Image Processing， 2011， 21（4）： 1500.

（編輯：王萍）

哈爾濱理工大學(xué)學(xué)報2022年3期

哈爾濱理工大學(xué)學(xué)報的其它文章: 一種自監(jiān)督宮頸細胞分類方法; 多視圖融合的三維模型分類; 高速電主軸冷卻技術(shù)研究及應(yīng)用探討; 賦s范數(shù)的Orlicz序列空間的β性質(zhì); B-Spline-ORB特征點提取算法; 面向用戶可靠性需求差異的電價計算方法