999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

引入注意力機(jī)制的輕量級(jí)小目標(biāo)檢測(cè)網(wǎng)絡(luò)

2022-04-28 04:18:54王立凱靳作寶何德峰
光學(xué)精密工程 2022年8期
關(guān)鍵詞:特征檢測(cè)模型

朱 威,王立凱,靳作寶,何德峰

(浙江工業(yè)大學(xué) 信息工程學(xué)院,浙江 杭州 310023)

1 引 言

近年來(lái),隨著互聯(lián)網(wǎng)數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù)的爆發(fā)式增長(zhǎng)以及計(jì)算機(jī)算力的大幅提高,基于深度學(xué)習(xí)的計(jì)算機(jī)視覺技術(shù)在目標(biāo)檢測(cè)領(lǐng)域[1]獲得了重大進(jìn)展。其中快速實(shí)時(shí)的小目標(biāo)檢測(cè)是目標(biāo)檢測(cè)領(lǐng)域重要研究?jī)?nèi)容,在無(wú)人機(jī)航拍目標(biāo)識(shí)別、遙感影像目標(biāo)識(shí)別、農(nóng)業(yè)病蟲害識(shí)別等場(chǎng)景中都有著重要的應(yīng)用[2]。因此提高小目標(biāo)檢測(cè)的精度和檢測(cè)速度具有重要的理論意義和良好的工程應(yīng)用價(jià)值。

在目標(biāo)檢測(cè)任務(wù)中,國(guó)際光學(xué)工程學(xué)會(huì)(SPIE)定義小目標(biāo)為像素面積占整個(gè)圖像0.12%以下目標(biāo)物體[3],微軟COCO數(shù)據(jù)集定義小目標(biāo)為像素面積小于32×32的目標(biāo)物體[4]。與圖像中的大目標(biāo)相比,尤其是在低分辨率、背景復(fù)雜的場(chǎng)景下,小目標(biāo)往往只含有少量的語(yǔ)義特征,這給小目標(biāo)檢測(cè)帶來(lái)了一定的困難[5]。目前已有不少工作致力于改善小目標(biāo)檢測(cè)的精度和速度。Chen等[6]提出了一種改進(jìn)的R-CNN的小目標(biāo)檢測(cè)模型,通過上下文模型和區(qū)域提議生成器增強(qiáng)了R-CNN算法,以提高小目標(biāo)檢測(cè)性能。Li等[7]針對(duì)小目標(biāo)分辨率低和噪聲大的問題,提出了用于小目標(biāo)檢測(cè)的感知生成對(duì)抗網(wǎng)絡(luò),通過生成小目標(biāo)的超分辨率圖像,縮小與大目標(biāo)之間的表示差異來(lái)改善小目標(biāo)檢測(cè)。Zhou等[8]提出了一種可縮放尺度的目標(biāo)檢測(cè)網(wǎng)絡(luò),通過在網(wǎng)絡(luò)中嵌入超分辨率層,以明確探索尺度間關(guān)系,實(shí)現(xiàn)跨多個(gè)檢測(cè)尺度的一致性,較好地檢測(cè)了圖像中的多尺度對(duì)象。谷雨等[9]為了改善紅外圖像弱小目標(biāo)檢測(cè)的效果,提出了基于改進(jìn)多尺度分形特征的檢測(cè)算法,同時(shí)進(jìn)行了圖像增強(qiáng)和感興趣區(qū)域自適應(yīng)閾值分割,可以較好地檢測(cè)到具有較高局部對(duì)比度的紅外圖像小目標(biāo)。

盡管上述工作在一定程度上改善了小目標(biāo)檢測(cè)的效果,但仍然存在引入了較多的計(jì)算量、易受復(fù)雜背景干擾、網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜影響實(shí)時(shí)性等問題。為了改善小目標(biāo)的檢測(cè)精度以及抑制背景信息的干擾,同時(shí)實(shí)現(xiàn)網(wǎng)絡(luò)的輕量化,本文在一階段檢測(cè)網(wǎng)絡(luò)YOLOv4的基礎(chǔ)上,提出了一種引入注意力機(jī)制的輕量級(jí)小目標(biāo)檢測(cè)網(wǎng)絡(luò)。本文網(wǎng)絡(luò)設(shè)計(jì)的注意力機(jī)制模塊,可以使網(wǎng)絡(luò)更好地關(guān)注圖像中的感興趣區(qū)域,增強(qiáng)網(wǎng)絡(luò)在復(fù)雜背景下的小目標(biāo)檢測(cè)性能;同時(shí)改進(jìn)了模型預(yù)測(cè)結(jié)構(gòu),融合更淺層的特征;并結(jié)合通道剪枝和知識(shí)蒸餾對(duì)模型進(jìn)行壓縮,以獲得輕量級(jí)的小目標(biāo)檢測(cè)模型。

2 相關(guān)原理

2.1 YOLOv4網(wǎng)絡(luò)

YOLOv4目標(biāo)檢測(cè)網(wǎng)絡(luò)[10]是在原有的YOLO目標(biāo)檢測(cè)框架上融合近年來(lái)計(jì)算機(jī)視覺方向上最新的技術(shù),在數(shù)據(jù)輸入增強(qiáng)、網(wǎng)絡(luò)骨干架構(gòu)、激活函數(shù)、損失函數(shù)等方面都做了相關(guān)的改進(jìn),這些改進(jìn)并沒有為網(wǎng)絡(luò)增加太多的計(jì)算量,從而達(dá)到了速度與精度的平衡。

YOLOv4網(wǎng)絡(luò)在YOLOv3的Darknet53特征提取網(wǎng)絡(luò)的基礎(chǔ)上通過引入CSP[11]模塊構(gòu)建CSPDarknet53主干網(wǎng)絡(luò)。Darknet53借鑒了ResNet[12]殘差連接的思想,在確保網(wǎng)絡(luò)深度的同時(shí),有效地避免了梯度消失的問題。CSPDarknet53中引入的5個(gè)CSP模塊,包含了多個(gè)殘差結(jié)構(gòu),可以解決因網(wǎng)絡(luò)優(yōu)化時(shí)梯度信息重復(fù)造成的計(jì)算量冗余,在減少計(jì)算量的同時(shí)不會(huì)造成特征信息的損失。

YOLOv4網(wǎng)絡(luò)除了采用YOLOv3的FPN[13]結(jié)構(gòu)之外,還引入了PAN[14]結(jié)構(gòu)進(jìn)行特征融合。在FPN結(jié)構(gòu)中,存在底層特征和頂層特征信息距離過遠(yuǎn)的問題。PAN結(jié)構(gòu)通過融合不同深度的特征信息,僅使用少量運(yùn)算,就可以使底層特征信息與頂層特征信息獲得良好地融合。融合不同尺度的特征信息對(duì)于目標(biāo)檢測(cè)來(lái)說十分必要,YOLOv4網(wǎng)絡(luò)通過在原有FPN的基礎(chǔ)上增加PAN結(jié)構(gòu)來(lái)優(yōu)化特征提取,使得不同尺寸的特征都具有更深層次的表達(dá)力。

此外,YOLOv4網(wǎng)絡(luò)還對(duì)回歸損失函數(shù)進(jìn)行了改進(jìn),使用了CIOU_Loss[15]。CIOU_Loss繼承了DIOU_Loss[15]將中心點(diǎn)距離信息和重疊面積考慮到損失計(jì)算的優(yōu)點(diǎn),還將邊界框的長(zhǎng)寬比考慮到計(jì)算中,提升了網(wǎng)絡(luò)在進(jìn)行邊界框回歸時(shí)的精度,加快網(wǎng)絡(luò)的收斂。

2.2 注意力機(jī)制

注意力機(jī)制最早出現(xiàn)在文本信息處理領(lǐng)域,目的是解決文本中長(zhǎng)句子難以準(zhǔn)確地序列編碼到固定長(zhǎng)度的問題。文本注意力機(jī)制通過為單詞添加權(quán)重信息,保留決定整個(gè)句子語(yǔ)境的重要單詞[16]。在計(jì)算機(jī)視覺領(lǐng)域,通過添加注意力機(jī)制可以對(duì)圖像或特征圖的不同部分進(jìn)行不同程度地加權(quán)操作,使神經(jīng)網(wǎng)絡(luò)對(duì)特征圖不同區(qū)域關(guān)注程度不同,從而使網(wǎng)絡(luò)更好地聚焦在感興趣區(qū)域。

在圖像識(shí)別領(lǐng)域引入注意力機(jī)制時(shí),設(shè)輸入特征序列為C=[c1,c2,…,cn],其中n為輸入特征圖中特征向量的個(gè)數(shù)。則第i個(gè)輸入特征向量的注意力分布權(quán)重ρi為:

其中,f(C,q)為注意力打分函數(shù),常見的函數(shù)形式有加性模型、雙線性模型和點(diǎn)積模型等。

接著根據(jù)計(jì)算出來(lái)的注意力分布,計(jì)算輸入信息的加權(quán)平均尺度信息,以生成帶有注意力權(quán)重的特征序列。方法如下式:

其中,output為圖像序列經(jīng)過注意力加權(quán)后的結(jié)果。

通過在目標(biāo)檢測(cè)網(wǎng)絡(luò)中引入注意力機(jī)制可以更加充分地利用有限的圖像特征信息,使網(wǎng)絡(luò)學(xué)習(xí)圖像中的感興趣區(qū)域,提升網(wǎng)絡(luò)在復(fù)雜背景條件下的抗干擾能力,并融合特征圖使其具有全局感受野,有助于提高特征圖的表達(dá)能力[17]。

3 本文提出的輕量級(jí)小目標(biāo)檢測(cè)網(wǎng)絡(luò)

3.1 多尺度融合的注意力機(jī)制的改進(jìn)

SENet是由Hu等[18]提出的用于計(jì)算機(jī)視覺領(lǐng)域的注意力機(jī)制網(wǎng)絡(luò)。它是一種輕量型插件模塊,可以方便地對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn)。注意力機(jī)制可以通過學(xué)習(xí)全局信息來(lái)選擇和強(qiáng)調(diào)感興趣的特征通道,并抑制對(duì)檢測(cè)沒有幫助的特征通道。

本文在SENet基礎(chǔ)上進(jìn)行設(shè)計(jì),通過構(gòu)建多尺度融合特征與多方法特征提取器,生成了多尺度融合注意力模塊(Multi-scale SENet,MSENet),以增強(qiáng)小目標(biāo)檢測(cè)網(wǎng)絡(luò)中的特征表達(dá)能力和復(fù)雜背景下抗干擾能力。

首先通過不同尺寸的卷積核集成多種尺度的特征圖并基于新構(gòu)建的特征圖進(jìn)行下一步的特征抽取處理。在卷積層內(nèi)設(shè)置多尺度特征融合,使輸出的特征圖結(jié)合了分辨率信息和語(yǔ)義信息,為后續(xù)的特征抽取器提供了更加豐富的特征。對(duì)于采用大尺寸卷積核帶來(lái)的參數(shù)量暴增降低網(wǎng)絡(luò)實(shí)時(shí)性的缺點(diǎn),采用2層3×3的卷積核替代5×5的卷積核,3層3×3的卷積核替代7×7的卷積核[19]。采用小尺寸卷積核組合可以帶來(lái)與大尺寸卷積核相同的感受野,同時(shí)還增加了網(wǎng)絡(luò)深度,提高了神經(jīng)網(wǎng)絡(luò)特征的提取效果。

接著改進(jìn)SENet的擠壓操作,獲得自適應(yīng)的通道特征信息。由于SENet在設(shè)計(jì)時(shí),只通過全局平均池化操作來(lái)構(gòu)造特征提取器獲得全局特征。對(duì)于特征信息偏少的小目標(biāo)來(lái)說,僅僅側(cè)重于全局特征可能會(huì)造成特征信息的丟失,而全局最大池化操作則更注重于局部特征。因此本文同時(shí)引入了兩種池化方法進(jìn)行特征提取,可以更好的獲取小尺寸目標(biāo)的局部特征信息,增強(qiáng)注意力機(jī)制在復(fù)雜背景下的特征提取能力。

最后,將兩種池化方式生成的自適應(yīng)通道特征信息相加后進(jìn)行激活處理,生成注意力權(quán)重信息,再與輸入特征圖進(jìn)行特征加權(quán)后得到通道注意力圖。在第一次全連接降維后的激活操作上,使用了Mish[20]激活函數(shù)替代ReLU激活函數(shù),避免了使用ReLU激活函數(shù)稀疏掉過多的有效特征,有助于模塊獲得更多的非線性關(guān)系。

對(duì)于輸入特征X∈RC×H×W,C為輸入通道數(shù),H為輸入高度,W為輸入寬度。則對(duì)于輸入特征進(jìn)行不同尺寸卷積提取特征的操作為:

其中:V代表使用不同尺寸的卷積核對(duì)輸入特征進(jìn)行的卷積操作,Xc為經(jīng)過不同尺寸卷積核卷積后的輸出特征。

然后,分別進(jìn)行兩種池化操作以獲得更好的通道特征信息,輸入為上一步中原始的多尺度特征。

其中:Xavg為全局平均池化操作,Xmax為全局最大池化操作。

通道注意力向量由以下公式產(chǎn)生,Xa是對(duì)全局平均池化分支進(jìn)行特征抽取,Xm是對(duì)全局最大池化分支進(jìn)行特征抽取。在完成特征抽取的同時(shí)將它們轉(zhuǎn)化到非線性空間,以完成激活操作。

其中:輸入為上一步中的多尺度融合特征,Sigmoid為歸一化函數(shù),F(xiàn)C為全連接函數(shù),Mish為非線性激活函數(shù)。

接下來(lái)將計(jì)算得到的注意力權(quán)重加權(quán)到第一步中生成的特征圖作為最后的通道注意力特征圖。

最終,改進(jìn)后的MSENet注意力模塊如圖1,其中“+”代表特征進(jìn)行相加操作,“×”代表特征進(jìn)行加權(quán)操作。

圖1 改進(jìn)后的注意力模塊Fig.1 Improved attention module

3.2 整體網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)

對(duì)于目標(biāo)檢測(cè)而言,深層特征具有更強(qiáng)的語(yǔ)義信息,而淺層特征具有較完整的特征信息,更利于小目標(biāo)的檢測(cè)。因此本文將608×608分辨率下進(jìn)行預(yù)測(cè)的19×19、38×38、76×76三個(gè)YOLO層的特征圖尺寸修改為38×38、76×76、152×152。具體做法是刪除最后一個(gè)19×19的YOLO層,小目標(biāo)在該層幾乎失去了所有的特征信息。同時(shí)通過FPN和PAN結(jié)構(gòu)對(duì)76×76的YOLO層進(jìn)行特征融合和上采樣,并與CSPDarknet53主干網(wǎng)絡(luò)中152×152的特征圖連接,從而獲得更高分辨率的特征圖。采用FPN和PAN結(jié)構(gòu)融合生成的152×152特征層不僅具有深層次的定位信息,還具有淺層特征層中豐富的特征信息。

增加的152×152淺層特征層包含來(lái)自網(wǎng)絡(luò)淺層的目標(biāo)信息特征,同時(shí)也可能為網(wǎng)絡(luò)引入背景噪聲的影響。本文將改進(jìn)的多尺度融合特征注意力機(jī)制與YOLOv4主干網(wǎng)絡(luò)中的CSP模塊進(jìn)行融合,生成了帶有注意力信息的MSENet-CSPUnit模塊,并采用此模塊組成CSPDarknet53主干網(wǎng)絡(luò),增強(qiáng)主干網(wǎng)絡(luò)對(duì)復(fù)雜背景下的特征篩選能力,抑制不必要的淺層特征信息。最終改進(jìn)后的YOLOv4-MSENet整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 改進(jìn)后的YOLOv4-MSENetFig.2 Improved YOLOv4-MSENet

3.3 結(jié)合知識(shí)蒸餾的通道剪枝

為了解決網(wǎng)絡(luò)本身參數(shù)存在的冗余,以及引入注意力機(jī)制而造成的計(jì)算量增加的問題,本文對(duì)于小目標(biāo)檢測(cè)模型進(jìn)行進(jìn)一步模型壓縮,同時(shí)使用知識(shí)蒸餾策略來(lái)微調(diào)恢復(fù)模型精度。常用的模型加速方法有模型量化、剪枝、權(quán)值共享、網(wǎng)絡(luò)分解等[21]。針對(duì)本文對(duì)于模型精確度的需求,決定采用通道剪枝來(lái)實(shí)現(xiàn)模型加速。

YOLOv4的卷積層后都引入了批量歸一化層,因此本文選用批量歸一化層的參數(shù)γ作為尺度縮放因子,判斷通道對(duì)于模型的貢獻(xiàn)程度,進(jìn)行通道的稀疏化操作[22]。選用網(wǎng)絡(luò)本身的參數(shù)γ可以避免給網(wǎng)絡(luò)引入新的參數(shù),額外增加網(wǎng)絡(luò)的復(fù)雜度。稀疏化操作要進(jìn)行長(zhǎng)時(shí)間的迭代訓(xùn)練,目的是將參數(shù)γ壓縮到0附近。稀疏化訓(xùn)練結(jié)束后,對(duì)參數(shù)γ進(jìn)行排序,根據(jù)預(yù)設(shè)的剪枝閾值對(duì)排序好的尺度縮放因子所在的卷積層進(jìn)行標(biāo)記,根據(jù)標(biāo)記信息刪除待剪枝通道的輸入、輸出參數(shù),生成剪枝完成的模型文件以及新的模型結(jié)構(gòu)配置文件。最后利用修剪后的模型文件進(jìn)行微調(diào)訓(xùn)練,修改網(wǎng)絡(luò)超參數(shù),以恢復(fù)剪枝帶來(lái)的精度損失。其中,對(duì)于通道稀疏化操作,其目標(biāo)函數(shù)定義為:

其中:x,y分別為輸入和目標(biāo)值,W為訓(xùn)練權(quán)重,λ為懲罰因子,g(·)為懲罰項(xiàng)。

對(duì)于CSPDarkent53主干網(wǎng)絡(luò)中包含的ResNet的殘差結(jié)構(gòu),本文根據(jù)通道貢獻(xiàn)程度對(duì)其進(jìn)行評(píng)估,也進(jìn)行了修剪。由于上采樣層不包含批量歸一化層,因此這部分不包含在需要剪枝的層中。

剪枝結(jié)束后,使用知識(shí)蒸餾策略對(duì)模型精度進(jìn)行恢復(fù)訓(xùn)練。使用未進(jìn)行剪枝前的YOLOv4-MSENet模型作為教師網(wǎng)絡(luò),剪枝后的網(wǎng)絡(luò)作為學(xué)生網(wǎng)絡(luò),進(jìn)行分類任務(wù)和回歸任務(wù)的學(xué)習(xí)。其中回歸任務(wù)對(duì)于目標(biāo)檢測(cè)任務(wù)尤為重要,而教師網(wǎng)絡(luò)的回歸結(jié)果是無(wú)界的,其輸出可能會(huì)誤導(dǎo)學(xué)生網(wǎng)絡(luò)。因此本文借鑒了Chen等[23]的思想,將其應(yīng)用在YOLOv4知識(shí)蒸餾中。在知識(shí)蒸餾訓(xùn)練時(shí),剪枝后的YOLOv4-MSENet網(wǎng)絡(luò)作為學(xué)生網(wǎng)絡(luò),在計(jì)算回歸損失時(shí)不會(huì)直接向教師網(wǎng)絡(luò)學(xué)習(xí),而是通過同時(shí)計(jì)算教師網(wǎng)絡(luò)、學(xué)生網(wǎng)絡(luò)和真實(shí)標(biāo)簽值的L 2距離,只有在學(xué)生網(wǎng)絡(luò)與真實(shí)標(biāo)簽值的L 2距離和教師網(wǎng)絡(luò)與真實(shí)標(biāo)簽值的L2距離的偏差超過了一定范圍M時(shí),才會(huì)在損失計(jì)算中加入L 2損失,否則就不在損失函數(shù)中引入懲罰,也就是說當(dāng)學(xué)生網(wǎng)絡(luò)的輸出結(jié)果優(yōu)于教師網(wǎng)絡(luò)時(shí),則本次計(jì)算不考慮L 2損失。這在一定程度上避免了教師網(wǎng)絡(luò)偏離真值而影響到學(xué)生網(wǎng)絡(luò)。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 數(shù)據(jù)集選取及訓(xùn)練策略

為了更好地評(píng)估本文網(wǎng)絡(luò)的小目標(biāo)檢測(cè)性能和魯棒性,實(shí)驗(yàn)采用了無(wú)人機(jī)小目標(biāo)數(shù)據(jù)集Vis-Drone2019[24](以下簡(jiǎn)稱為VisDrone2019數(shù)據(jù)集)和廣東工業(yè)智造創(chuàng)新大賽天池M布匹疵點(diǎn)數(shù)據(jù)集(以下簡(jiǎn)稱為布匹疵點(diǎn)數(shù)據(jù)集)。VisDrone2019數(shù)據(jù)集中包含有大量的小目標(biāo)對(duì)象和密集對(duì)象,光照變化和目標(biāo)對(duì)象遮擋也是這個(gè)數(shù)據(jù)集的難點(diǎn)。同時(shí)由于無(wú)人機(jī)圖像是垂直拍攝的緣故,待檢測(cè)對(duì)象包含的特征也相對(duì)較少。為了使數(shù)據(jù)集中疵點(diǎn)目標(biāo)符合小目標(biāo)的定義,本文對(duì)布匹疵點(diǎn)數(shù)據(jù)集的疵點(diǎn)圖片進(jìn)行了篩選,只選取了符合小目標(biāo)定義的圖片。對(duì)VisDrone2019數(shù)據(jù)集的7 019張帶標(biāo)簽圖片按7∶2∶1進(jìn)行隨機(jī)劃分,訓(xùn)練集共4 913張圖片,驗(yàn)證集共1 406張圖片,測(cè)試集共700張圖片;對(duì)布匹疵點(diǎn)數(shù)據(jù)集2 165張帶標(biāo)簽數(shù)據(jù)集進(jìn)行隨機(jī)劃分,訓(xùn)練集共1 516張圖片,驗(yàn)證集共433張圖片,測(cè)試集共216張圖片。

由于YOLOv4在候選區(qū)域中心使用不同尺寸的錨框進(jìn)行預(yù)測(cè)框的生成,因此合適的錨框可以幫助網(wǎng)絡(luò)更好地?cái)M合數(shù)據(jù)集中的物體。所以本文利用K-means++算法分別對(duì)上述兩個(gè)小目標(biāo)數(shù)據(jù)集進(jìn)行錨框的重新聚類,以得到更適合、更具有代表性的錨框,提高網(wǎng)絡(luò)的收斂速度。

綜合考慮小目標(biāo)檢測(cè)對(duì)于圖像高分辨率的需求同時(shí)兼顧網(wǎng)絡(luò)的實(shí)時(shí)性,本文在訓(xùn)練和測(cè)試時(shí),使用608×608分辨率的圖像作為網(wǎng)絡(luò)的輸入,圖片縮放時(shí)使用letterbox策略,保持圖片長(zhǎng)寬比例不變,用灰色填充多余部分,避免因?yàn)楸┝s放而造成目標(biāo)失真。同時(shí)對(duì)數(shù)據(jù)集采用在線數(shù)據(jù)增強(qiáng)方式[25]提高模型的魯棒性,避免模型過擬合,其中包括亮度、飽和度和對(duì)比度的調(diào)整來(lái)減少模型對(duì)于圖像色彩的關(guān)注度以及隨機(jī)縮放和旋轉(zhuǎn)等。

在訓(xùn)練階段,本文采用了安裝有pytorch1.6的ubuntu18.04操作系統(tǒng),系統(tǒng)內(nèi)存為32 G,顯卡為11 G顯存的2080Ti。在優(yōu)化器的選擇上,本文針對(duì)SGD優(yōu)化器易陷入局部次優(yōu)解及鞍點(diǎn)的缺點(diǎn),使用了性能更好的Adam優(yōu)化器[26]來(lái)對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行更新。在訓(xùn)練的初始階段,設(shè)置學(xué)習(xí)率為0.001,β1=0.9,β2=0.999,批量大小設(shè)為4。在300個(gè)迭代過程中,逐步將學(xué)習(xí)率衰減至0.000 01,有利于將網(wǎng)絡(luò)收斂到更好的性能。如圖3所示,在經(jīng)過300個(gè)epoch訓(xùn)練后,改進(jìn)后的YOLOv4-MSENet網(wǎng)絡(luò)已經(jīng)接近收斂。

圖3 YOLOv4-MSENet網(wǎng)絡(luò)mAP訓(xùn)練曲線Fig.3 YOLOv4-MSENet network mAP training curve

為了驗(yàn)證模型性能,實(shí)驗(yàn)采用均值平均精度(mAP)、幀率以及模型大小作為評(píng)價(jià)指標(biāo),幀率是指網(wǎng)絡(luò)每秒可處理圖像數(shù)量,mAP具體計(jì)算如式(11)所示:

其中:AP值為某類別下P-R曲線下方的面積,P為精確率(Precision),R為召回率(Recall)。

4.2 本文網(wǎng)絡(luò)模型的性能

4.2.1 注意力模塊性能對(duì)比

為了測(cè)試本文設(shè)計(jì)的注意力機(jī)制模塊的性能,實(shí)驗(yàn)分別將常用的注意力機(jī)制模塊CBAM[27]、SENet以及本文設(shè)計(jì)的MSENet插入到Y(jié)OLOv4網(wǎng)絡(luò)中,與標(biāo)準(zhǔn)的YOLOv4-Baseline進(jìn)行對(duì)比。表1和有2中為四種網(wǎng)絡(luò)在兩數(shù)據(jù)集中的性能對(duì)比,其中測(cè)試集中能夠檢出的最小目標(biāo)尺度,對(duì)應(yīng)的是該目標(biāo)在原始圖片尺寸上的像素個(gè)數(shù)。從表中結(jié)果可以看出,對(duì)于兩個(gè)小目標(biāo)數(shù)據(jù)集,使用注意力模塊CBAM、SENet、MSENet構(gòu)建的注意力機(jī)制網(wǎng)絡(luò)較YOLOv4-Baseline網(wǎng)絡(luò)均可以提高小目標(biāo)檢測(cè)能力,mAP也有明顯的提升,并且本文設(shè)計(jì)的多尺度融合的注意力模塊構(gòu)建的YOLOv4-MSENet相較于其它注意力機(jī)制構(gòu)建的網(wǎng)絡(luò)表現(xiàn)出了更好的性能。這得益于MSENet通道注意力模塊為特征圖帶來(lái)了更好的全局感受野,將網(wǎng)絡(luò)更好地聚焦在感興趣區(qū)域,同時(shí)抑制了無(wú)關(guān)的淺層特征信息的影響。此外布匹疵點(diǎn)數(shù)據(jù)集實(shí)驗(yàn)中,檢出最小目標(biāo)尺度要稍大于VisDrone2019數(shù)據(jù)集,這是因?yàn)椴计ゴ命c(diǎn)數(shù)據(jù)集中原始圖片尺寸較大,縮放至網(wǎng)絡(luò)輸入尺寸導(dǎo)致信息損失。實(shí)際部署中,對(duì)于這個(gè)問題可以通過將原始圖片分割后,依次輸入至網(wǎng)絡(luò),改善因?yàn)閳D片過度縮放造成的信息損失。

表1 VisDr one2019數(shù)據(jù)集下不同注意力機(jī)制模塊的性能Tab.1 Performance of different attention mechanism modules under the VisDrone2019 dataset

表2 布匹疵點(diǎn)數(shù)據(jù)集下不同注意力機(jī)制模塊的性能Tab.2 Performance of different attention mechanism modules under fabric defect dataset

4.2.2 不同網(wǎng)絡(luò)性能對(duì)比

為了進(jìn)一步對(duì)比本文整體網(wǎng)絡(luò)與其它網(wǎng)絡(luò)的性能,實(shí)驗(yàn)分別對(duì)SSD512、Faster-RCNN、RetinaNet、YOLOv4-Baseline、YOLOv4-MSENet網(wǎng)絡(luò)進(jìn)行了測(cè)試。表3和表4中分別給出了幾種網(wǎng)絡(luò)在兩數(shù)據(jù)集中性能,其中能夠檢出的最小目標(biāo)尺度,對(duì)應(yīng)的是該目標(biāo)在原始圖片尺寸上的像素個(gè)數(shù)。從表中可以看出,SSD512網(wǎng)絡(luò)和RetinaNet網(wǎng)絡(luò)對(duì)于小目標(biāo)數(shù)據(jù)集效果較差;Faster-RCNN效果稍好一點(diǎn),但模型結(jié)構(gòu)復(fù)雜,幀率較低;YOLOv4-Baseline的效果相對(duì)于上述除YOLOv4-MSENet外網(wǎng)絡(luò)有所提高,而改進(jìn)后的YOLOv4-MSENet對(duì)于兩個(gè)小目標(biāo)數(shù)據(jù)集在檢出最小目標(biāo)尺度和mAP兩個(gè)指標(biāo)上都有更好提升。一方面,本文設(shè)計(jì)的注意力機(jī)制為網(wǎng)絡(luò)提供了更好的特征;另一方面,本文針對(duì)小目標(biāo)檢測(cè)而增加一層基于淺層融合特征的YOLOv4預(yù)測(cè)層,來(lái)自骨干網(wǎng)絡(luò)的高分辨率特征層與經(jīng)過FPN和PAN結(jié)構(gòu)的深層特征層進(jìn)行融合,為網(wǎng)絡(luò)帶來(lái)了豐富的分辨率信息。實(shí)驗(yàn)結(jié)果表明本文提出的網(wǎng)絡(luò)在小目標(biāo)數(shù)據(jù)集上具有一定的檢測(cè)優(yōu)勢(shì)。

表3 VisDr one2019數(shù)據(jù)集在不同網(wǎng)絡(luò)之間的性能Tab.3 Performance of VisDrone 2019 dataset between different networks

表4 布匹疵點(diǎn)數(shù)據(jù)集在不同網(wǎng)絡(luò)之間的性能Tab.4 Performance of fabric defect dataset between different networks

但從表3和表4可以看出,相比于YOLOv4-Baseline網(wǎng)絡(luò),由于引入了注意力模塊,使本文提出的網(wǎng)絡(luò)模型大小略有增大,參數(shù)數(shù)量的增加使得幀率也略有下降,這對(duì)于模型的實(shí)時(shí)性是不利的。因此為了解決計(jì)算量增加問題以及參數(shù)冗余的問題,本文進(jìn)行了通道剪枝實(shí)驗(yàn)。

4.2.3 通道剪枝性能對(duì)比

本節(jié)實(shí)驗(yàn)對(duì)YOLOv4-MSENet進(jìn)行通道剪枝實(shí)驗(yàn),首先對(duì)已經(jīng)完成基礎(chǔ)訓(xùn)練的模型進(jìn)行300個(gè)epoch的稀疏化訓(xùn)練,借助尺度因子對(duì)通道重要性進(jìn)行排序,之后按照預(yù)設(shè)裁剪閾值進(jìn)行裁剪,生成新的模型文件和網(wǎng)絡(luò)配置文件。隨后對(duì)剪枝效果進(jìn)行檢測(cè),若模型精度下降嚴(yán)重,說明敏感層的參數(shù)被刪除掉,導(dǎo)致精度不可逆的損失,則減小裁剪閾值,對(duì)網(wǎng)絡(luò)進(jìn)行重新裁剪。最后對(duì)使用合適閾值裁剪過后的網(wǎng)絡(luò)進(jìn)行知識(shí)蒸餾,以恢復(fù)模型精度。通過采用較小的學(xué)習(xí)率,經(jīng)過100個(gè)epoch的微調(diào)訓(xùn)練后,網(wǎng)絡(luò)精度基本達(dá)到了理想的效果。

經(jīng)過剪枝后部分卷積層通道數(shù)如圖4所示,其中藍(lán)色柱為原網(wǎng)絡(luò)中該層通道數(shù),深色柱為經(jīng)過剪枝后該層的通道數(shù)。通過對(duì)比可以明顯看出較原通道數(shù),通道剪枝對(duì)于減少通道參數(shù)數(shù)量效果顯著。

圖4 通道數(shù)量Fig.4 Channel number

本文對(duì)YOLOv4-MSENet分別進(jìn)行了0.85、0.80、0.75、0.70、0.65五種力度的剪枝實(shí)驗(yàn),數(shù)值越大代表剪枝力度越大。表5和表6分別為YOLOv4-MSENet模型在兩個(gè)數(shù)據(jù)集經(jīng)過剪枝后的模型大小、mAP以及幀率的結(jié)果。

表5 VisDrone2019數(shù)據(jù)集在網(wǎng)絡(luò)通道剪枝后的表現(xiàn)Tab.5 Performance of the VisDrone2019 dataset after network channel pruning

表6 布匹疵點(diǎn)數(shù)據(jù)集在網(wǎng)絡(luò)通道剪枝后的表現(xiàn)T ab.6 Performance of the fabric defect dataset after network channel pruning

從表中可以看出,使用通道剪枝對(duì)于網(wǎng)絡(luò)加速是比較明顯的,無(wú)論是模型大小還是推理時(shí)間都較未剪枝前的網(wǎng)絡(luò)有所降低。從幾組不同力度的剪枝結(jié)果來(lái)看,剪枝并不能只追求高的參數(shù)壓縮率,而要在精度和壓縮率之間尋找最佳平衡。在0.75參數(shù)下,相對(duì)于0.80和0.85,模型具有更高的精度,相對(duì)于0.70和0.65,模型精度略低但具有更快的推理速度,綜合考慮,最終選用的剪枝力度為0.75。在此剪枝力度下,網(wǎng)絡(luò)的精度損失較小,且模型參數(shù)得到了較好的壓縮。

從檢測(cè)精度來(lái)看,最好的剪枝結(jié)果的精度較未剪枝前還是略有所下降。這可能是因?yàn)楸疚乃捎玫膬蓚€(gè)數(shù)據(jù)集中都包含有大量極限小目標(biāo)對(duì)象,在剪枝過程中,尺度因子較小的通道被移除,因此可能對(duì)精度略有影響。但綜合剪枝后模型大小、推理時(shí)間以及模型精度來(lái)說,模型壓縮對(duì)網(wǎng)絡(luò)帶來(lái)的速度提升和參數(shù)壓縮效果還是可觀的。

4.2.4 嵌入式計(jì)算平臺(tái)的部署性能結(jié)果

為了驗(yàn)證本文網(wǎng)絡(luò)能否滿足嵌入式部署要求,本小節(jié)實(shí)驗(yàn)在嵌入式GPU平臺(tái)NVIDIA Jetson AGX Xavier上對(duì)剪枝后的YOLOv4-MSENet-prune-0.75網(wǎng)絡(luò)進(jìn)行了移植部署。實(shí)驗(yàn)使用608×608、512×512、416×416三種輸入分辨率,分別在原始的FP32精度、FP16精度和INT 8精度下進(jìn)行FPS測(cè)試。

從表7中可以看出,網(wǎng)絡(luò)推理幀率與網(wǎng)絡(luò)輸入分辨率以及模型低比特量化精度密切相關(guān)。在608×608分辨率下,使用FP32精度的幀率可以達(dá)到16 FPS,使用FP16精度的幀率可以達(dá)到31 FPS,使用INT 8精度的幀率可以達(dá)到38 FPS,這已經(jīng)可以滿足在大多數(shù)情況下的應(yīng)用。在實(shí)際嵌入式端部署時(shí),可以根據(jù)推理速度與精度的需求,選擇適合的網(wǎng)絡(luò)輸入分辨率和模型量化精度。

表7 YOLOv4-MSENet-pr une-0.75在嵌入式GPU平臺(tái)的表現(xiàn)Tab.7 Performance of YOLOv4-MSENet-prune-0.75 on the embedded GPU platform (FPS)

4.2.5 綜合結(jié)果分析對(duì)比

為了綜合對(duì)比注意力模塊以及通道剪枝對(duì)于網(wǎng)絡(luò)的貢獻(xiàn),本小節(jié)實(shí)驗(yàn)分別使用劃分的測(cè)試集對(duì)標(biāo)準(zhǔn)的YOLOv4-Baseline、改進(jìn)的YOLOv4-MSENet以及改進(jìn)并進(jìn)行模型壓縮后的YOLOv4-MSENet-prune-0.75在同一個(gè)置信度閾值下進(jìn)行測(cè)試。表8和表9分別給出了所用訓(xùn)練集中各樣本在模型中的檢測(cè)情況。

從表8中可以看出,對(duì)于未改進(jìn)前的YOLOv4網(wǎng)絡(luò),people這一類的mAP僅能達(dá)到16.7%,這是因?yàn)閂isDrone2019數(shù)據(jù)集中存在極限尺寸的小目標(biāo)對(duì)象,且背景、視角、飛行高度、目標(biāo)比例都會(huì)發(fā)生變化。而本文改進(jìn)后的YOLOv4-MSENet-prune-0.75網(wǎng)絡(luò)將people類精度提高了3.6%。而對(duì)于car、van、bus等尺寸較大的類別也提升明顯。在表9中可以看出本文改進(jìn)的網(wǎng)絡(luò)對(duì)于布匹疵點(diǎn)數(shù)據(jù)集也有較好的檢測(cè)效果。

表8 VisDrone2019數(shù)據(jù)集各個(gè)類別性能mAP@0.5Tab.8 Performance of each category of visdrone2019 dataset with mAP@0.5

表9 布匹疵點(diǎn)數(shù)據(jù)集各個(gè)類別性能mAP@0.5Tab.9 Performance of each category of fabric defect dataset with mAP@0.5

圖5為網(wǎng)絡(luò)改進(jìn)前后在VisDrone2019數(shù)據(jù)集檢測(cè)結(jié)果對(duì)比圖。在圖5中大多數(shù)待檢測(cè)的目標(biāo)物體屬于小目標(biāo)(目標(biāo)像素值占整個(gè)圖像0.12%以下或者像素值小于32×32的目標(biāo))。圖5(a)中,是people類的小目標(biāo),可以看到目標(biāo)對(duì)象特征較少,YOLOv4-MSENet-prune-0.75可以較好地改善漏檢現(xiàn)象。圖5(b)和(c)為兩組背景較復(fù)雜的城市道路環(huán)境,在圖5(b)檢測(cè)車輛的效果和圖5(c)中檢測(cè)道路中的行人的效果可以看出,相對(duì)于原網(wǎng)絡(luò),本文提出的網(wǎng)絡(luò)可以在復(fù)雜背景下實(shí)現(xiàn)更好的小目標(biāo)檢測(cè)效果。

圖5 網(wǎng)絡(luò)改進(jìn)前后在VisDrone2019數(shù)據(jù)集檢測(cè)結(jié)果對(duì)比圖Fig.5 Comparison of detection results in the VisDrone2019 dataset before and after network improvement

圖6為布匹疵點(diǎn)數(shù)據(jù)集,將目標(biāo)疵點(diǎn)標(biāo)簽編號(hào)分設(shè)為1~12,共12類疵點(diǎn)。原網(wǎng)絡(luò)在三張圖片中均存在對(duì)布匹小疵點(diǎn)目標(biāo)漏檢的現(xiàn)象,而在改進(jìn)后的網(wǎng)絡(luò)中,漏檢的情況得以改善。

圖6 網(wǎng)絡(luò)改進(jìn)前后在布匹疵點(diǎn)數(shù)據(jù)集檢測(cè)結(jié)果對(duì)比圖Fig.6 Comparison of detection results of fabric defect dataset before and after network improvement

實(shí)驗(yàn)結(jié)果表明,相比YOLOv4網(wǎng)絡(luò),本文提出的網(wǎng)絡(luò)對(duì)于小目標(biāo)數(shù)據(jù)集具有較好的適應(yīng)性,這主要是由于本文通過改進(jìn)注意力機(jī)制、增加淺層預(yù)測(cè)層等方法,有助于網(wǎng)絡(luò)更好地利用已有的特征信息,使網(wǎng)絡(luò)在同一置信度閾值下更準(zhǔn)確的檢測(cè)小目標(biāo)物體,改善漏檢錯(cuò)檢的情況,實(shí)現(xiàn)較好輕量化的小目標(biāo)檢測(cè)。

5 結(jié) 論

本文提出了一種引入注意力機(jī)制的輕量級(jí)小目標(biāo)檢測(cè)網(wǎng)絡(luò)。該網(wǎng)絡(luò)在YOLOv4的基礎(chǔ)上,將所設(shè)計(jì)的多尺度融合注意力模塊嵌入到骨干網(wǎng)絡(luò)中的CSP模塊中,使得特征圖獲得了全局感受野,增強(qiáng)了特征提取能力;改進(jìn)了原網(wǎng)絡(luò)的預(yù)測(cè)結(jié)構(gòu),增加更淺層特征層進(jìn)行預(yù)測(cè),以獲得更豐富的分辨率信息;在訓(xùn)練過程中,采用了數(shù)據(jù)預(yù)處理、錨框重新聚類等方法幫助模型更好收斂;另外通過通道剪枝和知識(shí)蒸餾,去除了網(wǎng)絡(luò)中的冗余參數(shù),有效地降低了模型的參數(shù)量,不僅降低了模型文件的存儲(chǔ)壓力,同時(shí)減少了推理時(shí)間,為模型的邊緣設(shè)備計(jì)算部署提供了條件。實(shí)驗(yàn)結(jié)果表明,由于本文同時(shí)引入注意力機(jī)制與通道剪枝,相比于YOLOv4網(wǎng)絡(luò),在無(wú)人機(jī)航拍數(shù)據(jù)集的mAP性能提高了2.9%,模型大小降低了93.6%,幀率增加了52.6%;在布匹疵點(diǎn)數(shù)據(jù)集中mAP性能提高了2.2%,模型大小降低了92.1%,幀率增加了49.5%。在嵌入式GPU平臺(tái)NVIDIA Jetson AGX Xavier上輸入為608×608分辨率的情況下使用FP32精度模型可以達(dá)到16 FPS,使用FP16精度模型可以達(dá)到31 FPS,使用INT 8精度模型可以達(dá)到38 FPS。

因本文未對(duì)圖像進(jìn)行分辨率增強(qiáng)處理,在極限小目標(biāo)對(duì)象的檢測(cè)效果上還有所不足。后續(xù)研究將嘗試使用生成對(duì)抗網(wǎng)絡(luò)來(lái)針對(duì)小目標(biāo)檢測(cè)生成高分辨率圖像,繼續(xù)增強(qiáng)小目標(biāo)檢測(cè)效果。在模型壓縮方面將嘗試對(duì)YOLOv4骨干網(wǎng)絡(luò)中的殘差連接層進(jìn)行通道剪枝操作,并加入層剪枝等模型壓縮方法,進(jìn)一步優(yōu)化剪枝力度和效果。

猜你喜歡
特征檢測(cè)模型
一半模型
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲免费人成影院| 欧美国产精品不卡在线观看| 97狠狠操| 国内熟女少妇一线天| 亚欧成人无码AV在线播放| 日韩a级毛片| 97国产一区二区精品久久呦| 欧美在线观看不卡| 亚洲最大综合网| 日本久久免费| 人妻21p大胆| 日韩精品成人在线| 国产精品不卡永久免费| av天堂最新版在线| 亚洲一区二区无码视频| 熟女成人国产精品视频| 中文字幕在线观| 天天操天天噜| 97视频免费在线观看| 波多野结衣一级毛片| 91伊人国产| 黄色a一级视频| 精品国产99久久| 91免费观看视频| 日韩毛片视频| 2021天堂在线亚洲精品专区| 亚洲乱码视频| 欧美成人a∨视频免费观看| 国产亚洲精品自在久久不卡| 日本久久网站| 国产成人综合网| 一级做a爰片久久免费| 精品色综合| 国产精品天干天干在线观看| 人妻免费无码不卡视频| 亚洲精品视频免费| 亚洲性一区| 午夜精品影院| 六月婷婷综合| 国产91精品最新在线播放| 一区二区偷拍美女撒尿视频| 亚洲国产中文精品va在线播放| 日本欧美一二三区色视频| 午夜视频免费一区二区在线看| 97在线公开视频| 国产精品亚洲一区二区三区z| 国产99视频精品免费观看9e| 狠狠做深爱婷婷综合一区| 国产三级国产精品国产普男人| 毛片网站免费在线观看| 热re99久久精品国99热| 97成人在线视频| 99re热精品视频国产免费| 国产成人调教在线视频| 免费国产高清精品一区在线| 国产一区二区色淫影院| 国产精品久久久精品三级| 午夜国产精品视频| 日韩欧美色综合| 久久一色本道亚洲| 新SSS无码手机在线观看| 欧美色图久久| 精品国产Ⅴ无码大片在线观看81| 99久久亚洲精品影院| 波多野结衣视频网站| 国产黄色片在线看| 亚洲视频免费在线看| 超级碰免费视频91| 黄色免费在线网址| 国产成人精品三级| 欧美伊人色综合久久天天| 亚洲日韩国产精品综合在线观看 | 日韩精品高清自在线| 69免费在线视频| 中文字幕一区二区人妻电影| jizz在线观看| 99久久精品美女高潮喷水| 欧美日韩午夜| 超碰91免费人妻| vvvv98国产成人综合青青| 国产成人无码综合亚洲日韩不卡| 欧美有码在线|