段志偉
(四川大學(xué)視覺合成圖形圖像技術(shù)國防重點學(xué)科實驗室,成都610065)
如今圖像和視頻逐漸成為人們獲取信息的主要來源,如何讓機器像人一樣理解圖像或視頻中的內(nèi)容是計算機視覺領(lǐng)域的主要任務(wù)。目標(biāo)檢測作為計算機視覺的一個重要研究方向,近年來得到快速的發(fā)展。早期的目標(biāo)檢測方法依靠手工設(shè)計的特征提取器提取圖像中目標(biāo)的特征,但隨著處理數(shù)據(jù)中的目標(biāo)類別越來越豐富和數(shù)據(jù)量越來越大,傳統(tǒng)方法顯得力不從心。目前,主流的目標(biāo)檢測方法都是基于深度學(xué)習(xí)的,依靠深度卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)特征,模型泛化能力較強。Ross Girshick 等人提出的R-CNN[1]是早期成功將深度卷積網(wǎng)絡(luò)與目標(biāo)檢測任務(wù)相結(jié)合的算法之一,它將傳統(tǒng)的手工特征,如SIFT、HOG 等,替換成用深度卷積網(wǎng)絡(luò)自動提取的特征,檢測精度大幅提高。后續(xù)改進算法[2,3]在R-CNN 基礎(chǔ)上改善采樣方式和縮減計算量,檢測速度和精度都有顯著提升。但它們都只在一層卷積特征上做預(yù)測,感受野單一,無法有效適應(yīng)目標(biāo)的尺度變化。Wei Liu 等人提出的SSD[4]算法在多層卷積特征上提取多尺度特征并預(yù)測,有效緩解了單尺度預(yù)測的漏檢問題,但淺層特征提取不夠充分,對于小目標(biāo)檢測效果較差。
本文基于Faster R-CNN[3]目標(biāo)檢測框架,針對單尺度預(yù)測目標(biāo)檢測算法無法有效適應(yīng)目標(biāo)多尺度變化的問題,提出一種結(jié)合通道域注意力的多尺度特征融合方案,并針對該算法在圖像上通過滑動窗口方式密集采樣會產(chǎn)生較多難分負樣本的問題,提出一種目標(biāo)中心區(qū)域預(yù)測模塊。
Faster R-CNN 目標(biāo)檢測算法針對多尺度目標(biāo)采用不同尺寸的錨點框定位,然后在ROI Pooling 層使用VGG16[5]網(wǎng)絡(luò)最后一層卷積層(conv5_3)特征和RPN 網(wǎng)絡(luò)搜索的建議框去提取對應(yīng)的目標(biāo)特征。由于只使用一層卷積特征導(dǎo)致感受野單一,且錨點框的尺寸需要人工設(shè)計,不能有效的適應(yīng)物體的多尺度變化。Songtao Liu 等人提出的RFBNet[6]通過空洞卷積模擬人類視覺的感受野,提升感受野復(fù)雜度,有效地加強了網(wǎng)絡(luò)提取特征的能力且計算量不大。空洞卷積是一種間隔采樣的特殊卷積,它可以獲得更大的感受野從而獲得更大尺度的信息,并且大感受野還能捕捉到更多的上下文信息,防止小目標(biāo)的誤檢。Yanghao Li 等人提出的TridentNet[7]發(fā)現(xiàn)檢測不同尺度目標(biāo)的精度和感受野大小正相關(guān),在感受野較大的卷積層特征上能更好地提取大目標(biāo)特征,在感受野較小的卷積層特征上能更好地提取小目標(biāo)特征。Jie Hu 等人提出的SENet[8]通過引入通道域注意力機制使網(wǎng)絡(luò)能學(xué)習(xí)到特征通道之間的聯(lián)系,對不同的通道賦予不同的關(guān)注度,可以增強對當(dāng)前任務(wù)有用的特征并抑制收效甚微的特征。受以上論文的啟發(fā),本文設(shè)計了一種結(jié)合通道域注意力的多尺度特征融合方案,如圖1 所示。
首先在VGG16 的conv5_3 特征上使用不同rate值的空洞卷積在不同的感受野下提取特征,然后拼接得到特征F。F 含有目標(biāo)的多尺度特征以及目標(biāo)附近的上下文信息。接著利用通道域注意力機制學(xué)習(xí)conv5_3 特征通道之間的關(guān)系,在通道域上進行加權(quán)賦予不同的關(guān)注度得到特征G。最后通過element-wise add 的方式融合特征F 和G。本文設(shè)計的特征融合方式使得特征信息更加豐富,不僅融合了來自不同感受野下的特征,還在通道域上增強了含有豐富信息的特征,削弱了信息較少的特征。

圖1 多尺度特征融合
基于SENet 提出的SE 模塊,將其中的全局平均池化修改為計算每個通道的方差。信息論中認為信息的信息量與信息的不確定性有關(guān),不確定性越大信息所含的信息量就越多。本文認為方差在一定程度上可以描述信息的不確定性,特征的方差越大,所含有的信息越多。所以本文用方差計算替換全局平均池化,提取每個通道上特征的方差,然后利用兩個全連接層學(xué)習(xí)特征通道之間的復(fù)雜關(guān)系,接著使用sigmoid 函數(shù)激活,最后將學(xué)習(xí)到的權(quán)重加權(quán)到對應(yīng)的通道上。如圖2所示。
圖2 中第一個全連接層(FC)將特征通道維度縮減至原先的1/16 減少計算量,然后用ReLU 函數(shù)激活增加非線性,接著再用一個全連接層恢復(fù)特征的通道維度,最后用sigmoid 函數(shù)激活得到各通道權(quán)重。

圖2 Variance-based SE block
Faster R-CNN 目標(biāo)檢測算法中的RPN 網(wǎng)絡(luò)在圖像上通過滑動窗口方式密集采樣會產(chǎn)生大量的錨點框,正負樣本數(shù)量十分不平衡。RPN 網(wǎng)絡(luò)通過為每個錨點框預(yù)測正負樣本的分類分數(shù),來剔除負樣本。由于密集采樣產(chǎn)生了大量的錨點框,有一些難以分辨類別的負樣本在分類過程中會被誤分為正樣本,這些難分負樣本會在非極大值抑制階段使部分正樣本被抑制。本文為解決在推理階段難分負樣本的干擾,讓RPN 網(wǎng)絡(luò)去學(xué)習(xí)圖像上每個點屬于目標(biāo)中心區(qū)域的概率,將其與分類分數(shù)結(jié)合,抑制難分負樣本。

scorei,k表示特征上第i 個特征點第k 個錨點框的分數(shù)。Pci表示第i 個特征點屬于目標(biāo)中心區(qū)域的概率,Pi,k表示第i個特征點上第k個錨點框是正樣本的概率。
如圖3 所示目標(biāo)的中心區(qū)域定義為,以目標(biāo)中心點為中心,長和寬同時縮放α倍后的矩形范圍。訓(xùn)練階段,我們忽略陰影區(qū)域,只學(xué)習(xí)背景和目標(biāo)中心區(qū)域。圖4 是添加了中心區(qū)域預(yù)測模塊的RPN 網(wǎng)絡(luò)。使用一個3×3 卷積層加sigmoid 預(yù)測每個特征點屬于中心區(qū)域的分數(shù)。RPN 網(wǎng)絡(luò)會以每個特征點為中心,生成K個錨點框,一共會生成H×W×K 個。中心預(yù)測模塊在學(xué)習(xí)每個特征點落在目標(biāo)中心區(qū)域的概率。
從另一個角度看,也就是在學(xué)習(xí)RPN 網(wǎng)絡(luò)中每個錨點框的中心落在目標(biāo)中心區(qū)域的概率。

圖3 中心區(qū)域

圖4 加入中心預(yù)測后的RPN網(wǎng)絡(luò)
一般情況下,圖像中所有目標(biāo)的中心區(qū)域并集的面積相比于圖像面積較小,正負樣本不平衡。因此,本文選擇focal loss 損失函數(shù),它不僅可以解決類別不平衡問題,還能處理難分樣本。公式如下:

訓(xùn)練時,α取0.5,γ取2,p 是預(yù)測值,y 是真實值。
本文的實驗環(huán)境:操作系統(tǒng)為Ubuntu 16.04,CPU為Intel Core i5-8400,顯卡為NVIDIA RTX2070。數(shù)據(jù)集使用VOC2007,訓(xùn)練集一共有5011 張圖片,測試集有4952 張圖片。
通過表1 的對比試驗我們可以看出,加入多尺度特征融合,檢測精度有明顯提升。本文提出的多尺度特征融合方案可以有效增強特征的表達能力,使得特征信息更加豐富,更利于學(xué)習(xí)。在多尺度特征融合的基礎(chǔ)上,加入中心區(qū)域預(yù)測模塊檢測精度也有提高,但檢測速度略微變慢。

表1 多尺度特征融合和中心預(yù)測對比實驗
然后對比了多尺度特征融合方案中SE 模塊使用全局平均池化和方差計算兩者對檢測精度的影響。表2 中使用方差檢測精度更高,說明使用方差比均值更利于學(xué)習(xí)特征通道之間的關(guān)系。不同通道特征的方差體現(xiàn)了各個通道特征所含信息量的多少,根據(jù)信息量去建模特征通道間的關(guān)系比使用均值效果更好。

表2 SE 模塊的均值與方差
最后我們測試了目標(biāo)中心區(qū)域α的取值。從表3中可以看出α值取0.7 較合適,此時中心區(qū)域面積約占目標(biāo)框面積的一半。當(dāng)α較大時會在靠近目標(biāo)邊緣的區(qū)域產(chǎn)生許多質(zhì)量較差的錨點框,增加訓(xùn)練難度使檢測精度下降;α較小時采樣的錨點框較少,漏檢較多。

表3 中心區(qū)域α值
基于Faster R-CNN 目標(biāo)檢測框架,本文針對單尺度預(yù)測目標(biāo)檢測算法無法有效適應(yīng)目標(biāo)多尺度變化以及密集采樣產(chǎn)生較多負樣本錨點框的問題,分別提出結(jié)合通道域注意力的多尺度特征融合方案和目標(biāo)中心區(qū)域預(yù)測模塊來解決。由于在單個卷積層特征上做預(yù)測感受野單一,本文通過空洞卷積增加卷積特征感受野復(fù)雜度,從而獲取多尺度特征。同時在通道域上利用特征的方差建模通道特征之間的關(guān)系,增強信息量多的特征,削弱信息量少的特征。接著通過中心區(qū)域預(yù)測模塊學(xué)習(xí)錨點框的中心落在真實目標(biāo)框中心區(qū)域