999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自適應(yīng)上下文特征的多尺度目標(biāo)檢測(cè)算法

2022-04-21 06:51:20王鳳隨陳金剛王啟勝劉芙蓉
智能系統(tǒng)學(xué)報(bào) 2022年2期
關(guān)鍵詞:特征提取語義特征

王鳳隨,陳金剛,王啟勝,劉芙蓉

(1.安徽工程大學(xué) 電氣工程學(xué)院,安徽 蕪湖 241000;2.檢測(cè)技術(shù)與節(jié)能裝置安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 蕪湖 241000;3.高端裝備先進(jìn)感知與智能控制教育部重點(diǎn)實(shí)驗(yàn)室,安徽 蕪湖 241000)

目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺的一個(gè)分支,隨著深度學(xué)習(xí)模型與檢測(cè)任務(wù)的結(jié)合以及GPU 計(jì)算能力的提升,它在學(xué)術(shù)和工業(yè)界得到廣泛的研究和應(yīng)用,如人臉識(shí)別、行人檢測(cè)、自動(dòng)駕駛等領(lǐng)域。

目標(biāo)檢測(cè)領(lǐng)域,尺度的變化問題一直是個(gè)挑戰(zhàn),它直接影響著檢測(cè)精度。在檢測(cè)任務(wù)中,數(shù)據(jù)集中目標(biāo)的尺度范圍變化較大。小尺度目標(biāo)經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)后,由于感受野的增大造成特征的丟失。因此,神經(jīng)網(wǎng)絡(luò)需對(duì)不同尺度的目標(biāo)都可以很好地提取特征。Faster-RCNN[1-2]作為兩階段目標(biāo)檢測(cè)算法的大成之作,它提出的使用區(qū)域建議網(wǎng)絡(luò)代替選擇性搜索(selective-search)提取候選框,多尺度錨框的使用減少了選取候選框的時(shí)間,取得更高的精度和更短的訓(xùn)練時(shí)間。但Faster-RCNN (faster region convolutional neural network) 只利用神經(jīng)網(wǎng)絡(luò)的最后一層特征進(jìn)行預(yù)測(cè),缺乏處理多尺度目標(biāo)的能力。針對(duì)多尺度目標(biāo)需要多尺度特征預(yù)測(cè)的問題,SNIP[3-4](scale normalization for image pyramids)使用圖像金字塔將原始圖直接進(jìn)行不同尺度的縮放變化,利用不同分辨率的圖片來檢測(cè)不同尺度的物體,在尺度變化的問題上取得不錯(cuò)的成效。這種尺度變化的方式雖然有效,但也大大增加了檢測(cè)的時(shí)間復(fù)雜度。另一種尺度變化的思想是利用特征金字塔(feature pyramid)來近似圖像金字塔,F(xiàn)PN[5](feature pyramid network)利用對(duì)高層語義信息上采樣,以自上而下的方式增強(qiáng)低層特征,F(xiàn)PN 在YOLOv3[6]中具有很好的多尺度表現(xiàn)。但FPN 中只是將不同分辨率的特征對(duì)齊后堆疊,忽略了低層特征包含較多局部位置信息,高層特征包含更多全局語義信息,而忽略這些特征之間的聯(lián)系將不可避免影響檢測(cè)的性能。因此考慮不同分辨率特征之間的相關(guān)性,自適應(yīng)對(duì)通道相關(guān)性建模,通過在全局語義信息融合局部位置信息來提高檢測(cè)性能是一個(gè)重要問題。同時(shí),從人類視覺出發(fā),對(duì)于不同尺度的目標(biāo)需要不同大小感受野的特征去識(shí)別,神經(jīng)網(wǎng)絡(luò)的高層特征中包含更豐富的語義信息,YOLOv3-SPP[7](MobileNets based on depthwise separable convolutions)算法中通過對(duì)高層語義特征增強(qiáng)感受野,可以加強(qiáng)網(wǎng)絡(luò)的特征提取能力,雖然其中SPP(spatial pyramid pooling)網(wǎng)絡(luò)能夠捕獲上下文信息,但同時(shí)破壞了圖像中的姿態(tài)和空間等信息,造成部分高維特征丟失的問題。

針對(duì)目標(biāo)檢測(cè)中的多尺度問題,本文提出一種自適應(yīng)上下文特征的多尺度目標(biāo)檢測(cè)算法。首先,基于改進(jìn)的注意力機(jī)制設(shè)計(jì)了特征融合網(wǎng)絡(luò)A-PANet(attention-path aggregation network),自適應(yīng)地調(diào)整通道間的相關(guān)性和不同分辨率特征的通道權(quán)值,實(shí)現(xiàn)局部特征和全局特征的融合,提升檢測(cè)的精度。其次,設(shè)計(jì)了多尺度感受野特征金字塔網(wǎng)絡(luò)MSPNet(multi sensory pyramid network),利用不同膨脹率的卷積,從高層語義特征中學(xué)習(xí)到不同大小感受野的特征,識(shí)別不同尺度的物體,提高檢測(cè)的精度。通過對(duì)PASCAL VOC[8]數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行分析評(píng)估,本文的方法相較于其他先進(jìn)算法的性能有了顯著提高。

1 算法原理

1.1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

本文算法從多尺度感受野和自適應(yīng)特征融合兩方面,設(shè)計(jì)了自適應(yīng)上下文特征的多尺度目標(biāo)檢測(cè)算法。方法的整體框架如圖1 所示。具體來說,以Darknet53 作為主干特征提取網(wǎng)絡(luò),首先,將圖像輸入主干特征提取網(wǎng)絡(luò),獲取高層特征P0、次高層特征P1、淺層特征P2;其次,為了從高層語義特征中挖掘標(biāo)簽中的上下文信息,設(shè)計(jì)了MSPNet 網(wǎng)絡(luò),從高層特征P0中提取多尺度感受野特征,并通過3 次卷積實(shí)現(xiàn)上下文信息的融合;最后,基于改進(jìn)的注意力機(jī)制SE*,設(shè)計(jì)了A-PANet網(wǎng)絡(luò),對(duì)不同分辨率特征P0、P1、P2進(jìn)行加權(quán)融合,實(shí)現(xiàn)局部特征和全局特征的融合,并利用融合后的多尺度特征對(duì)不同尺度物體實(shí)現(xiàn)分類和回歸。

圖1 算法框架結(jié)構(gòu)Fig.1 Algorithm framework structure

1.2 多感受野特征提取網(wǎng)絡(luò)

從人類視覺出發(fā),識(shí)別物體的類別,除了當(dāng)前物體的外觀特征,還需要周圍環(huán)境作為輔助(比如汽車和人通常同時(shí)出現(xiàn),椅子在桌子附近)。如何從高級(jí)語義特征中獲取不同尺度目標(biāo)的語義信息,并獲取上下文信息輔助識(shí)別小目標(biāo)物體,是提高檢測(cè)性能的關(guān)鍵問題。針對(duì)此問題,本文提出多感受野的特征提取網(wǎng)絡(luò)MSPNet,利用多分支并行空洞卷積,通過不同大小的感受野,從高層特征P0中挖掘不同尺度目標(biāo)的語義信息,并通過融合不同尺度的感受野特征從標(biāo)簽中獲取上下文信息。

MSPNet 的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。首先,以主干特征提取網(wǎng)絡(luò)輸出的高層語義特征x∈RW×H×C作為輸入,其中W、H為特征圖的寬高,C為特征維度。其次,將高層語義特征x分別經(jīng)過3個(gè)膨脹系數(shù)為 τ 的多感受野特征提取分支,表示每個(gè)分支捕獲的不同大小感受野以及不同尺度的特征信息。其中W′、H′和輸入特征圖的寬高W、H保持一致,C′下降為輸入通道的1/16。然后,對(duì)3個(gè)分支進(jìn)行歸一化處理,加快網(wǎng)絡(luò)的訓(xùn)練以及收斂速度防止梯度爆炸,并使用Leaky_ReLU激活函數(shù)增加非線性。最后,使用 1×1 的卷積核對(duì)高層語義特征x進(jìn)行卷積處理,輸出特征x4∈RW′×H′×C′并作為殘差結(jié)構(gòu)和其他分支獲得的特征進(jìn)行感受野從小到大的堆疊,輸出多感受野增強(qiáng)提取特征,再使用3 次卷積進(jìn)行多感受野特征加強(qiáng)融合。得到最終加強(qiáng)多感受野特征x′∈RW×H×C。

圖2 多感受野特征提取網(wǎng)絡(luò)(MSPNet)結(jié)構(gòu)Fig.2 Stucture of multi-receptive field feature extraction network (MSPNet)

不同尺度的目標(biāo)需要不同大小感受野的特征識(shí)別,YOLOv3-SPP[7]算法中SPP 網(wǎng)絡(luò)利用多分支池化提取不同大小感受野特征,而池化會(huì)造成語義特征的丟失問題。為了獲取多尺度的感受野且不造成特征的丟失,本文提出利用膨脹卷積增加感受野,保持特征的尺寸不變化。膨脹卷積[9-10]通過稀疏采樣的方式進(jìn)行卷積,通過在卷積核內(nèi)部填充權(quán)值為0 的參數(shù)使得卷積核的感受野增大且不會(huì)增加額外參數(shù)。膨脹卷積后有效感受野大小如式(1)所示。

式中:k代表原卷積核大小;τ 代表膨脹率;k′表示有效感受野。神經(jīng)元的感受野越大表示和原始圖像的接觸范圍越大,提取的信息則是更加全局,包含語義層次更高的特征;感受野越小則是提取的特征趨向于局部和細(xì)節(jié)。本文設(shè)計(jì)3個(gè)膨脹卷積分支,以膨脹率分別為2、3、4 的3×3 卷積核,根據(jù)式(1),每個(gè)分支對(duì)高層語義特征的有效感受野大小分別是5×5、7×7、9×9。輸出x′為以金字塔形式堆疊的多感受野特征,其表達(dá)式為

式中:W1、W2、W3為每個(gè)分支的學(xué)習(xí)參數(shù);⊕ 為特征的堆疊;F為三次卷積;x為輸入高語義特征;W4為殘差邊的學(xué)習(xí)參數(shù);f為非線性激活函數(shù)Leaky_ReLu,其表達(dá)式為

其中a為超參數(shù),通常取值為0.01,在反向傳播過程中,對(duì)于Leaky_ReLU 激活函數(shù)輸入小于零的部分,也可以計(jì)算得到梯度,避免梯度消失的問題。

1.3 自適應(yīng)特征融合網(wǎng)絡(luò)A-PANet

神經(jīng)網(wǎng)絡(luò)的低層特征包含豐富的目標(biāo)位置信息,高層特征則包含目標(biāo)的語義信息。考慮不同尺度目標(biāo)的語義特征出現(xiàn)在不同分辨率特征圖中,在全局語義特征中有效地融合局部位置特征,是解決檢測(cè)中多尺度問題的關(guān)鍵。本文提出一種自適應(yīng)特征融合網(wǎng)絡(luò)A-PANet,通過自適應(yīng)地調(diào)整不同分辨率特征間的依賴性,實(shí)現(xiàn)語義特征和位置特征的有效融合。

A-PANet 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。其中,C4、C5、C6、C7∈RW×H×C為主干特征提取網(wǎng)絡(luò)輸出的不同分辨率特征,其中W、H、C分別為每個(gè)特征的寬度、長(zhǎng)度和通道數(shù)。⊕ 表示不同分辨率特征自適應(yīng)融合模塊,其具體實(shí)現(xiàn)如圖4。P5、P6、P7∈RW′×H′×C′為不同分辨率特征自適應(yīng)融合后的特征,其尺度分別為76×76、38×38、19×19,每個(gè)網(wǎng)格點(diǎn)輸出3個(gè)預(yù)測(cè)框,分別用于檢測(cè)不同尺度大小的物體。它每一層預(yù)測(cè)所用的特征圖都融合了不同分辨率、不同語義強(qiáng)度的特征,融合的不同分辨率特征圖對(duì)應(yīng)不同大小的物體檢測(cè)。

通道注意力[11-12]在于分配各個(gè)卷積通道之間的資源,可以理解為讓神經(jīng)網(wǎng)絡(luò)明白在看什么,網(wǎng)絡(luò)可以有選擇性地加強(qiáng)包含重要信息的特征并抑制作用無關(guān)或較弱關(guān)聯(lián)的特征。圖3 中 ⊕ 為特征自適應(yīng)融合模塊,本文針對(duì)通道注意力機(jī)制實(shí)現(xiàn)以下改進(jìn)。首先,為了提高通道間的非線性擬合能力,對(duì)通道注意力SE[11]的FC 層進(jìn)行不降維處理,避免降維造成的細(xì)節(jié)信息損失。其次,針對(duì)采用兩個(gè)不降維FC 會(huì)顯著增加模型復(fù)雜度的問題,本文利用兩個(gè)不降維的一維卷積代替FC層,降低模型復(fù)雜度的同時(shí)保持性能增益,具體實(shí)現(xiàn)如圖4 虛線框所示。

圖3 自適應(yīng)特征融合網(wǎng)絡(luò)A-PANet 結(jié)構(gòu)Fig.3 Structure of adaptive feature fusion network APANet

圖4 特征自適應(yīng)融合模塊結(jié)構(gòu)Fig.4 Structure of feature adaptive fusion module

圖4 以C7和C6兩個(gè)不同的分辨率特征融合為例說明,其余融合方式和此一致。首先,對(duì)C7特征進(jìn)行雙線插值上采樣,恢復(fù)其寬高并和C6層特征圖的寬高保持一致。其次,對(duì)輸入進(jìn)行壓縮,利用全局平均池化,將輸入的二維特征圖變成單個(gè)像素值且通道數(shù)不發(fā)生變化,輸出的每個(gè)特征通道上具有全局的感受野;最后,通過兩次不降維的一維卷積,并在激活函數(shù)前引入BN層加速收斂,增加網(wǎng)絡(luò)通道間的非線性擬合能力。

特征自適應(yīng)融合模塊如式(4):

式中:σ 為sigmoid 激活函數(shù);x為輸入特征圖。g(x)為全局池化函數(shù)如式(5)所示,其功能是對(duì)輸入特征圖的每個(gè)通道進(jìn)行全局平均池化(GAP)。其中W、H分別表示輸入特征圖的寬高。

f{w1,w2} 函數(shù)的作用如式(6):

式中:w1表示第一個(gè)卷積層的可學(xué)習(xí)參數(shù);w2為經(jīng)過第2個(gè)卷積層的可學(xué)習(xí)參數(shù);*表示為逐元素相乘。這個(gè)模塊負(fù)責(zé)構(gòu)建通道的相關(guān)性以及自適應(yīng)地為不同通道學(xué)習(xí)到不同的通道注意力權(quán)重。通過對(duì)特征通道間的相關(guān)性進(jìn)行建模,網(wǎng)絡(luò)專注于更有用的通道并增強(qiáng)辨別學(xué)習(xí)能力。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)所用的數(shù)據(jù)集為圖像識(shí)別和分類的標(biāo)準(zhǔn)化數(shù)據(jù)集PASCAL VOC,數(shù)據(jù)集標(biāo)簽中包含20個(gè)類別,它是常用于目標(biāo)檢測(cè)任務(wù)的訓(xùn)練和評(píng)價(jià)的公開數(shù)據(jù)集。此數(shù)據(jù)集包含行人、車輛、生活物品等20個(gè)語義類別高精度標(biāo)注圖像。本實(shí)驗(yàn)使用的訓(xùn)練集是包含VOC2007 的訓(xùn)練和驗(yàn)證集及VOC2012 的訓(xùn)練和驗(yàn)證集的聯(lián)合訓(xùn)練集一共有16 551 張圖,取其中90%為訓(xùn)練集,10%作為驗(yàn)證集。測(cè)試集選取VOC2007 的測(cè)試集,一共4 952 張圖。本實(shí)驗(yàn)的環(huán)境配置如表1。

表1 實(shí)驗(yàn)環(huán)境配置Table1 Experimental environment configuration

2.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

在目標(biāo)檢測(cè)任務(wù)中,檢測(cè)精度(average precision,AP) 體現(xiàn)每個(gè)物體種類的檢測(cè)精度,mAP(mean average precision) 是對(duì)所有檢測(cè)種類的AP 進(jìn)行算數(shù)平均,用來衡量整個(gè)網(wǎng)絡(luò)的檢測(cè)精度,mAP 值越大則檢測(cè)檢測(cè)精度越高。AP 是由檢測(cè)精度(precision) 和召回率(recall) 組成的PR 曲線面積計(jì)算得出。精度(P)和召回率(R)的計(jì)算方法為

式中:TP 表示為正樣本且預(yù)測(cè)結(jié)果為正樣本的檢測(cè)框;FP 表示為負(fù)樣本但預(yù)測(cè)結(jié)果為正樣本的檢測(cè)框;FN 為負(fù)樣本且檢測(cè)結(jié)果為負(fù)樣本的檢測(cè)框。

2.3 實(shí)驗(yàn)參數(shù)設(shè)置

為了驗(yàn)證改進(jìn)后的網(wǎng)絡(luò)模型的檢測(cè)精度變化,在相同的實(shí)驗(yàn)環(huán)境以及使用的數(shù)據(jù)集都為VOC2007+VOC2012 的聯(lián)合訓(xùn)練,并在VOC2007的測(cè)試集上計(jì)算每個(gè)類的AP 值以及20個(gè)類的mAP。整個(gè)訓(xùn)練過程中使用了遷移學(xué)習(xí)的思想,利用在大型數(shù)據(jù)集上預(yù)訓(xùn)練的模型參數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行參數(shù)初始化,來加速推理和提高網(wǎng)絡(luò)收斂速度。實(shí)驗(yàn)具體參數(shù)設(shè)置如表2 所示。

表2 實(shí)驗(yàn)參數(shù)設(shè)置Table2 Experimental parameter setting

訓(xùn)練一共設(shè)置50個(gè)epoch,訓(xùn)練的前25個(gè)epoch 對(duì)網(wǎng)絡(luò)的主干特征提取網(wǎng)絡(luò)的部分參數(shù)進(jìn)行凍結(jié)訓(xùn)練,后25個(gè)epoch 解凍后整體訓(xùn)練。網(wǎng)絡(luò)采用批量隨機(jī)梯度下降法來優(yōu)化損失函數(shù),前25個(gè)epoch 設(shè)置Batch_size 為4,初始學(xué)習(xí)率為0.001,權(quán)重衰減率為0.000 5,解凍訓(xùn)練后繼續(xù)訓(xùn)練25個(gè)epoch,此時(shí)網(wǎng)絡(luò)學(xué)習(xí)率設(shè)定為0.000 1,Batch_size 為2,權(quán)重衰減為0.000 5。通過測(cè)試loss 的變化情況可以看到網(wǎng)絡(luò)模型的擬合情況,并選取達(dá)到最佳擬合效果的epoch 作為網(wǎng)絡(luò)的權(quán)重。

2.4 PASCL VOC 上的定量評(píng)價(jià)

Faster-RCNN[1-2]、YOLO[13-14]、SSD[15]、DSSD321[16]等都是目標(biāo)檢測(cè)領(lǐng)域常用的幾種檢測(cè)算法,本文將幾種算法都在VOC2007+VOC2012的混合數(shù)據(jù)集上訓(xùn)練以及使用VOC2007 測(cè)試集為測(cè)試數(shù)據(jù),其中分別列舉了Faster-RCNN、SSD、R-FCN[17]的實(shí)驗(yàn)對(duì)比結(jié)果。其中SSD321、SSD300 除了輸入圖片的大小不同其他設(shè)置都完全相同,基線模型YOLOv3+來自文獻(xiàn)[14]。表3為不同算法在VOC2007 上得到的測(cè)試結(jié)果。

表3 各種算法在VOC2007 上的測(cè)試效果Table3 Test effects of various algorithms on VOC2007

從表3 不同算法測(cè)試得到的mAP 的數(shù)據(jù)對(duì)比發(fā)現(xiàn),本文提出的基于自注意力和多尺度特征融合的目標(biāo)檢測(cè)方法在檢測(cè)精度上具有更好的表現(xiàn)。在VOC2007 數(shù)據(jù)集上的檢測(cè)精度,相較于雙階段目標(biāo)檢測(cè)算法,如以VGG-16 和Residual-101 作為主干提取網(wǎng)絡(luò)的Faster-RCNN,檢測(cè)精度分別提升了12.54%和9.34%,相較于單階段的目標(biāo)檢測(cè)算法DSSD321 和YOLOv3,檢測(cè)精度分別提升7.14% 和5.49%。相較于本文的基線模型YOLOv3+仍有2.06%的提升,

為了驗(yàn)證本文算法在解決目標(biāo)檢測(cè)中多尺度問題上的優(yōu)越性,將本文算法和其他多尺度目標(biāo)檢測(cè)算法的檢測(cè)結(jié)果進(jìn)行比較分析,實(shí)驗(yàn)結(jié)果如表4 所示。

表4 多尺度目標(biāo)檢測(cè)算法在VOC2007 數(shù)據(jù)集上的測(cè)試結(jié)果Table4 Test results of multi-scale target detection algorithm on VOC2007 dataset

表4 中SSD 算法是以主干提取網(wǎng)絡(luò)的不同特征層檢測(cè)不同尺度物體,解決多尺度目標(biāo)檢測(cè)問題;RefineDet512+算法是基于SSD 和FPN 算法的改進(jìn),通過不同特征層間的融合檢測(cè)出不同尺度物體。RFBNet 算法從感受野的角度出發(fā),在SSD 算法基礎(chǔ)上對(duì)不同特征層使用RFB 網(wǎng)絡(luò)增加感受野,提升多尺度物體的檢測(cè)能力。本文算法針對(duì)多尺度問題同時(shí)從感受野和多尺度特征融合的角度出發(fā),首先,提出多分支的并行空洞卷積網(wǎng)絡(luò)MSPNet 對(duì)不同感受野信息融合,挖掘上下文信息。其次,基于注意力機(jī)制提出自適應(yīng)特征融合網(wǎng)絡(luò)A-PANet,考慮不同特征層間的相關(guān)性實(shí)現(xiàn)多尺度特征融合。實(shí)驗(yàn)結(jié)果證明,本文算法相較于其他多尺度目標(biāo)檢測(cè)算法性能上得到顯著提升。

檢測(cè)速度也是衡量檢測(cè)算法性能的重要指標(biāo)之一,本文對(duì)比不同檢測(cè)算法在VOC2007 數(shù)據(jù)集上的測(cè)試速度FPS。為了公平比較,在測(cè)試階段,設(shè)置批次大小為1,各算法的時(shí)間性能對(duì)比見表5。

表5 不同算法在VOC2007 數(shù)據(jù)集上的測(cè)試速度Table5 Different algorithms test speeds on the VOC2007 dataset

考慮到平臺(tái)差異對(duì)檢測(cè)速度的影響,本文在此實(shí)驗(yàn)平臺(tái)上對(duì)基線模型進(jìn)行復(fù)現(xiàn),算法速度達(dá)到27.83 f/s。本文算法由于增加額外的計(jì)算,相較于基線模型,當(dāng)輸入圖片大小為416×416,檢測(cè)時(shí)間多消耗約0.3 s,當(dāng)輸入圖片大小為608×608,多消耗17%的時(shí)間。但由表5 可以看出,本文算法的檢測(cè)速度明顯高于雙階段目標(biāo)檢測(cè)算法,同時(shí),由于硬件平臺(tái)的限制,檢測(cè)速度略低于其他單階段目標(biāo)檢測(cè)算法。如圖5,綜合來看,本文算法綜合效率最高,既實(shí)現(xiàn)了更高的檢測(cè)精度,又保持速度上的優(yōu)勢(shì)。

圖5 VOC 2007 測(cè)試集上的time-mAP 對(duì)比Fig.5 Time-mAP comparisons on VOC 2007 test set

2.5 消融實(shí)驗(yàn)

為了驗(yàn)證本文算法具有更好的檢測(cè)精度,分別評(píng)估了多感受野特征提取網(wǎng)絡(luò)和自適應(yīng)特征融合網(wǎng)絡(luò),并研究了多感受野特征提取網(wǎng)絡(luò)的分支數(shù)量對(duì)實(shí)驗(yàn)影響,設(shè)定在相同的實(shí)驗(yàn)環(huán)境和VOC 數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。具體實(shí)驗(yàn)分為3 部分:

1)基線模型中單獨(dú)驗(yàn)證自適應(yīng)特征融合網(wǎng)絡(luò);

2)基線模型中單獨(dú)驗(yàn)證多感受野特征提取網(wǎng)絡(luò);

3)基線模型中同時(shí)引入自適應(yīng)特征融合網(wǎng)絡(luò)和多感受野特征提取網(wǎng)絡(luò)。

為了驗(yàn)證本文算法的優(yōu)越性,實(shí)驗(yàn)以在VOC 2007 的測(cè)試集上檢測(cè)結(jié)果為基準(zhǔn),獨(dú)立驗(yàn)證每個(gè)模塊對(duì)模型的檢測(cè)精度的影響,統(tǒng)計(jì)結(jié)果如表6所示。由于文獻(xiàn)[14]中未公布每個(gè)類的AP,為了公平比較,本文復(fù)現(xiàn)了每個(gè)類的AP,并且mAP 和文獻(xiàn)[14]無差距。此外,為了驗(yàn)證多感受野網(wǎng)絡(luò)的有效性,分別對(duì)多感受野特征提取網(wǎng)絡(luò)MSPNet-T、MSPNet-F(其分支數(shù)量為3 和4)進(jìn)行實(shí)驗(yàn)。

表6 在VOC2007 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table6 Detection effect of improved algorithm on VOC2007 %

從表6 中的每個(gè)類的AP 數(shù)據(jù)得到以下結(jié)果:特征融合網(wǎng)絡(luò)在全局語義特征中融合了局部位置特征,相較于基線模型,在大目標(biāo)物體上的性能有顯著提升,如Boat(船)、Cow(牛)、Sheep(羊)等,尤其是在羊和船的AP 值提升接近10%。得到這樣的實(shí)驗(yàn)結(jié)果是合理的,因?yàn)榇竽繕?biāo)物體通常在圖片中占有較多像素,因此在卷積神經(jīng)網(wǎng)絡(luò)的高層特征中包含豐富的語義信息,識(shí)別精度高。但同時(shí)因?yàn)槲矬w較大,在卷積神經(jīng)網(wǎng)絡(luò)下采樣時(shí)造成位置信息的偏移,影響回歸精度。本文提出的特征融合網(wǎng)絡(luò),通過注意力模塊可以自適應(yīng)地調(diào)整各通道的特征響應(yīng)值,通過學(xué)習(xí)參數(shù)的方式來自動(dòng)獲取到每個(gè)特征通道的重要程度,然后依照這個(gè)重要程度去改變不同分辨率特征的通道權(quán)重。有效地為大目標(biāo)物體在語義信息中融合了位置信息,進(jìn)一步提升大目標(biāo)物體的檢測(cè)能力,展示了本文特征融合網(wǎng)絡(luò)的優(yōu)越性。

多感受野特征提取網(wǎng)絡(luò)從高層語義特征中挖掘標(biāo)簽中相互依賴的全局語義信息。多感受野特征提取網(wǎng)絡(luò)的性能相較于基線模型提高了1.70%,同時(shí)對(duì)于bike(自行車) 和person(人) 的AP 有3.5%和1.5%的提升。因?yàn)榭陀^世界中這類目標(biāo)通常具有很強(qiáng)的依賴關(guān)系,它們往往同時(shí)出現(xiàn),進(jìn)一步說明,本文提出的多感受野特征提取網(wǎng)絡(luò)能有效地聚集上下文信息,提升檢測(cè)精度。

從最終的實(shí)驗(yàn)結(jié)果中可以看出,相較于基線模型,本文算法有效地提升了不同尺度物體的檢測(cè)精度,如小目標(biāo)物體cat(貓)和dog(狗)的AP 值有1%左右的提升,大目標(biāo)物體bike(自行車)和bus(公交車)有4%左右的提升。在VOC2007 數(shù)據(jù)集上的可視化測(cè)試結(jié)果如圖6 所示,從定量實(shí)驗(yàn)結(jié)果來看,本文算法在處理不同尺度物體問題上的合理性和有效性得到充分證明。圖6 中包括每一個(gè)類的AP 以及20個(gè)類的mAP,其中圖6(a)為基線模型的mAP,圖6(b)為本文算法的mAP。從mAP 的對(duì)比可以發(fā)現(xiàn)改進(jìn)后的網(wǎng)絡(luò)在多個(gè)種類的物體的檢測(cè)精度上都相較于原始網(wǎng)絡(luò)具有不錯(cuò)的提升效果。

圖6 在VOC 2007 數(shù)據(jù)集上的測(cè)試結(jié)果Fig.6 Test results on VOC 2007 datasets

2.6 定性評(píng)價(jià)結(jié)果

為了更加直觀地評(píng)價(jià)本文算法,圖7 給出了在VOC2007 的測(cè)試集上的實(shí)驗(yàn)結(jié)果對(duì)比。其中1、3 列為基線模型的測(cè)試結(jié)果,第2、4 列為本文算法的測(cè)試結(jié)果。

圖7 基線模型和本文算法在VOC 數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果Fig.7 Experimental results of baseline model and algorithm in this paper on VOC dataset

對(duì)圖7 的可視化檢測(cè)結(jié)果中進(jìn)行定性分析:圖7(a)、(d)為從VOC2007 數(shù)據(jù)集中隨機(jī)選取室內(nèi)圖片,原算法存在對(duì)椅子的漏檢問題,而本文算法利用多感受野特征提取網(wǎng)絡(luò),聚集上下文信息,通過挖掘標(biāo)簽中的關(guān)系(如桌椅通常同時(shí)出現(xiàn)),減少物體的漏檢;針對(duì)一幅圖片中需要檢測(cè)不同尺度物體的問題,如圖7(b)中雜志上的人和圖7(g)中遠(yuǎn)處的馬,原算法在小目標(biāo)物體上存在漏檢以及誤檢的問題,本文算法通過自適應(yīng)特征融合網(wǎng)絡(luò),在語義信息中融合位置信息,有效改善了不同尺度物體檢測(cè)問題;雖然本文算法比原始算法檢測(cè)精度更高,但仍存在當(dāng)目標(biāo)和背景特征相似時(shí)(圖7(f)中的黃羊),網(wǎng)絡(luò)無法識(shí)別出物體的問題。綜合來看,本文算法的檢測(cè)性能更優(yōu)異。

3 結(jié)束語

本文提出一種結(jié)合上下文特征和自適應(yīng)特征融合的目標(biāo)檢測(cè)算法。首先利用主干特征提取網(wǎng)絡(luò)Darknet53 獲取不同尺度的特征圖,接著構(gòu)建一種多感受野特征提取網(wǎng)絡(luò),從高層語義特征中聚集上下文特征,挖掘標(biāo)簽中隱含的全局知識(shí)。最后構(gòu)建一種自適應(yīng)特征融合網(wǎng)絡(luò),結(jié)合通道注意力機(jī)制,實(shí)現(xiàn)不同分辨率特征的融合,在不同尺度的特征圖中融合全局語義信息和局部位置信息。在PASCAL VOC 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法既能保持速度的優(yōu)勢(shì),同時(shí)有效地提升了不同尺度物體的檢測(cè)精度,更具有實(shí)用價(jià)值。在下一步的工作中,將繼續(xù)改進(jìn)模型,探索解決物體和背景特征相似不易識(shí)別的問題。

猜你喜歡
特征提取語義特征
語言與語義
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
基于MED和循環(huán)域解調(diào)的多故障特征提取
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 狠狠色成人综合首页| 久热这里只有精品6| 国产精品亚洲综合久久小说| 婷婷色一二三区波多野衣| 亚洲AⅤ波多系列中文字幕| 天堂成人av| 99尹人香蕉国产免费天天拍| 国产亚洲精品精品精品| 欧美精品伊人久久| 91在线日韩在线播放| 乱码国产乱码精品精在线播放| 高h视频在线| 国产色爱av资源综合区| 日本爱爱精品一区二区| 国产黄网永久免费| 久久人午夜亚洲精品无码区| 日本亚洲成高清一区二区三区| 成人在线亚洲| 狼友视频国产精品首页| 亚洲精品国产日韩无码AV永久免费网 | 久久国产精品娇妻素人| 777午夜精品电影免费看| 一级毛片在线免费看| 亚洲欧洲免费视频| 精品福利国产| 玖玖免费视频在线观看| 成年网址网站在线观看| 在线播放国产一区| 国产在线高清一级毛片| 国产福利微拍精品一区二区| 国产成人综合久久精品下载| 久久性视频| 国产福利影院在线观看| 久久精品aⅴ无码中文字幕| 国产亚洲精品无码专| 福利国产在线| 亚洲国产欧美目韩成人综合| 伊人久久影视| 久久综合五月| 91精品国产情侣高潮露脸| 青青草国产在线视频| 在线观看亚洲天堂| 91午夜福利在线观看| 国产欧美日韩免费| 狠狠做深爱婷婷久久一区| 亚洲啪啪网| 波多野结衣中文字幕久久| 久无码久无码av无码| 精品一区国产精品| 亚洲首页国产精品丝袜| 性激烈欧美三级在线播放| 国产黄视频网站| 日韩精品久久久久久久电影蜜臀| 国产国语一级毛片| 久久香蕉国产线看精品| 国产精品视频999| 久久久久久久久亚洲精品| 国产第一页亚洲| 日韩av高清无码一区二区三区| 狠狠亚洲五月天| 特级精品毛片免费观看| 国产96在线 | 手机在线免费不卡一区二| 国产精品尹人在线观看| 亚洲视频一区在线| 成人精品在线观看| 久久国产精品波多野结衣| 国产青青操| 欧美不卡视频在线观看| 一区二区三区成人| 欧美激情视频二区三区| 91青青在线视频| 色噜噜在线观看| 91小视频在线观看| 欧美成在线视频| 日韩无码黄色| 亚洲无限乱码| 亚洲色图另类| 亚洲欧美人成人让影院| 国产成人8x视频一区二区| 91成人在线观看| 精品久久久久久久久久久|