莊淑青,張曉偉,曹 帥,宋明晨
1.青島大學(xué) 計算機科學(xué)技術(shù)學(xué)院,山東 青島 266071
2.海信研究發(fā)展中心虛擬現(xiàn)實部,山東 青島 266071
目前,行人檢測技術(shù)的發(fā)展勢頭強勁,對智能視頻監(jiān)控、智能交通和自動駕駛等當(dāng)今流行的智能化領(lǐng)域產(chǎn)生了極其重要的影響[1]。行人檢測可以為智能化領(lǐng)域的發(fā)展提供安全保障,是交通安全系統(tǒng)中的核心技術(shù)之一。而遮擋是影響行人檢測準(zhǔn)確率的主要因素之一,有效解決遮擋問題,具有重要的研究意義和實際應(yīng)用價值。
傳統(tǒng)的行人檢測[2-3]首先通過手工設(shè)計特征來提取數(shù)據(jù)的某些重要特征,再將特征數(shù)據(jù)進行分類,這樣會存在誤差較大的風(fēng)險。同時由于其提取的特征等級相對較低,也無法準(zhǔn)確描述行人的語義信息。當(dāng)行人之間存在遮擋時,行人檢測效果不理想。隨著深度學(xué)習(xí)[4]概念的提出,基于深度卷積神經(jīng)網(wǎng)絡(luò)的行人檢測也獲得了更進一步的發(fā)展。但是,面對行人復(fù)雜的遮擋情況,仍會出現(xiàn)較多的漏檢情況,行人檢測的準(zhǔn)確率依然不高。因此,許多用來應(yīng)對行人檢測中遮擋問題的算法解決方案被不斷提出。針對行人檢測中的遮擋問題,文獻(xiàn)[5]從注意力機制的角度,探索了身體部位與通道特征之間是否存在相關(guān)聯(lián)系,并證實了這一點。其在網(wǎng)絡(luò)中通過添加處理遮擋的引導(dǎo)注意力網(wǎng)絡(luò),明顯提升了網(wǎng)絡(luò)對于遮擋行人的檢測效果。文獻(xiàn)[6]提出了基于遮擋情況下的感知算法,其將整個人體劃分為5 個區(qū)域,根據(jù)遮擋程度對每個區(qū)域分別預(yù)測遮擋率,最終的候選區(qū)域特征由每個區(qū)域遮擋率和對應(yīng)的特征區(qū)域相乘再相加得到。文獻(xiàn)[7]針對行人與行人之間的遮擋問題,提出了一種新的損失函數(shù),目的是讓預(yù)測框在不斷靠近目標(biāo)標(biāo)注框的同時排斥其他的標(biāo)注框。文獻(xiàn)[8]對于重疊框,引入權(quán)值函數(shù),堆疊區(qū)域越多,算法置信度結(jié)果降低越嚴(yán)重。文獻(xiàn)[9]創(chuàng)新性提出tube feature aggregation network這一新方法,對于被遮擋的行人,考慮從相鄰幀中去尋找比較少遮擋或未被遮擋的目標(biāo),從而對被遮擋的行人起到輔助檢測的作用。文獻(xiàn)[10]提出了一種anchor-free的多視角行人檢測算法,通過多視圖融合和空間聚集來解決行人之間的遮擋問題。文獻(xiàn)[11]為了共享多尺度特征信息,通過多個卷積層級聯(lián)和密集連接,目的是能夠利用上下文信息來解決遮擋問題。受上述文獻(xiàn)的啟發(fā),本文分別從注意力機制和人體的特定部位角度處理行人的遮擋問題。
相較于其他行人檢測模型,R-FCN(region-based,fully convolutional networks)[12]網(wǎng)絡(luò)模型是一個檢測性能更優(yōu)的模型,該模型于Faster R-CNN[13]的基礎(chǔ)上通過算法調(diào)優(yōu)及模型改造得出,在檢測精度與檢測速度上均取得了不錯的表現(xiàn),擁有大的提升。但它同時也有一定的局限性:在遮擋情況下,依舊無法很好地解決行人檢測的算法執(zhí)行準(zhǔn)確度。因此,為提高圖片中人體在存在遮擋情況時的算法檢測能力與識別效果,本文在基于Resnet50+DCN[14]特征提取網(wǎng)絡(luò)的R-FCN模型上加入與檢測任務(wù)相適應(yīng)的注意力機制模塊,提升模型對遮擋區(qū)域的特征學(xué)習(xí)。同時,受文獻(xiàn)[15]啟發(fā),本文針對行人的遮擋問題,基于R-FCN 網(wǎng)絡(luò)模型設(shè)計了行人整體與行人頭肩區(qū)域的級聯(lián)檢測器,其中行人頭肩區(qū)域檢測與行人整體檢測時共享檢測頭部特征,然后通過本文設(shè)計的行人整體與行人頭肩區(qū)域匹配算法,級聯(lián)兩個分支的檢測結(jié)果,從而確定出遮擋行人的空間位置,可以在一定程度上避免由于圖片中行人的下半身遮擋帶來的行人漏檢問題。總體而言,本文的主要貢獻(xiàn)及創(chuàng)新可以概括為以下三點:
(1)在行人檢測器的行人識別階段,針對分類任務(wù)和回歸任務(wù)分別使用相契合的注意力機制,增強特征的表達(dá)能力,來優(yōu)化對行人進行候選區(qū)域標(biāo)定的準(zhǔn)確率,減少遮擋行人的漏檢率。
(2)設(shè)計行人整體與行人頭肩區(qū)域級聯(lián)檢測器,在行人檢測模型的基礎(chǔ)上加入行人頭肩區(qū)域檢測分支,對于未檢測到的行人,通過檢測其頭肩區(qū)域,然后根據(jù)行人固有的身體結(jié)構(gòu)比例,生成行人整體包圍框,從而提升行人之間相互遮擋的檢測效果。
(3)在Caltech 和ETH 數(shù)據(jù)集上取得了較好的行人檢測效果,尤其對行人之間存在遮擋情況時,檢測效果有明顯提升。
本文使用的是全卷積的R-FCN 網(wǎng)絡(luò)模型,相比于其他網(wǎng)絡(luò)模型,其創(chuàng)新性地添加了位置敏感得分圖,并將其置于已訓(xùn)練好的卷積層(即共享卷積層)的最后一個卷積層之后,對提升模型性能起到了至關(guān)重要的作用。該部分整體的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,對于行人檢測中行人這一類別,每一個得分圖用來表示人體的某部位出現(xiàn)在得分圖某處的概率,在某部位出現(xiàn)的概率越大,此處就有較高的響應(yīng)值。通過基于位置敏感的RoⅠpooling(position-sensitive RoⅠpooling),RoⅠ與得分圖可構(gòu)成一一對應(yīng)的強關(guān)聯(lián)關(guān)系。最終,整個模型通過softmax函數(shù)對屬于每個類別的概率進行計算。對于行人這個類別,如果得分是最大的,則判定為行人。

圖1 R-FCN檢測框架Fig.1 R-FCN detection framework
對于特征提取網(wǎng)絡(luò)的選擇,本文在3.3.1 小節(jié)設(shè)計了ResNet50+SE[16]與Resnet50+DCN 針對行人遮擋問題的有效性實驗,最終將R-FCN 特征提取網(wǎng)絡(luò)從原有的Resnet-50[17]替換成Resnet50+DCN 網(wǎng)絡(luò)。加入DCN(deformable convolutional network)后的網(wǎng)絡(luò)模型可綜合目標(biāo)物體形狀以及大小不同這兩個特征,做到對感興趣信息特征的準(zhǔn)確提取。
為提高在遮擋情況下的行人檢測效果,本文創(chuàng)新性地提出了基于注意力機制的行人和頭肩區(qū)域級聯(lián)檢測模型。此模型是在上述添加了注意力機制的R-FCN行人檢測器的基礎(chǔ)上構(gòu)建了行人頭肩區(qū)域檢測器,該模型主要包含兩個模塊,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,分為注意力機制模塊和行人與頭肩級聯(lián)檢測模塊。由于行人檢測過程本身存在不同的任務(wù)需要處理,因此針對不同的任務(wù),相應(yīng)的使用不同的通道注意力和空間注意力來進一步增強特征的表征能力。經(jīng)實驗驗證,該級聯(lián)檢測器可顯著地提升遮擋情況下的行人檢測效果。

圖2 整體網(wǎng)絡(luò)架構(gòu)Fig.2 Overall network architecture
由于注意力機制本身的技術(shù)特性,使其成為計算機視覺領(lǐng)域的各種算法理論中重要的一環(huán)。注意力機制包含通道注意力和空間注意力這兩種注意力機制。通道注意力機制指導(dǎo)網(wǎng)絡(luò)解決“是什么”的問題,關(guān)注類別的劃分,空間注意力機制指導(dǎo)網(wǎng)絡(luò)解決“目標(biāo)在哪”的問題,更傾向于定位目標(biāo)的空間位置。而行人檢測網(wǎng)絡(luò)階段由分類網(wǎng)絡(luò)和回歸網(wǎng)絡(luò)組成,分類網(wǎng)絡(luò)對行人實例的潛在區(qū)域進行判別,用來區(qū)分行人區(qū)域或非行人區(qū)域;回歸網(wǎng)絡(luò)對行人實例的區(qū)域進一步的精細(xì)化處理,使得預(yù)測的包圍框緊緊包圍行人。
本文探索了注意力機制添加方式對于網(wǎng)絡(luò)的影響,如圖3所示,圖3(a)將注意力機制加入特征提取網(wǎng)絡(luò)和檢測頭中間,以此來增強檢測頭部特征,此時分類網(wǎng)絡(luò)和回歸網(wǎng)絡(luò)共享一個檢測頭。圖3(b)將注意力機制引入到檢測頭之后,通道注意力與空間注意力共享檢測頭部特征。經(jīng)實驗驗證,在分類子任務(wù)網(wǎng)絡(luò)中加入通道注意力模塊,以增強特征的表征能力進行分類;在網(wǎng)絡(luò)的回歸階段,引入空間注意力機制并進行相應(yīng)的實現(xiàn),在抑制數(shù)據(jù)背景信息的同時,更好地突出數(shù)據(jù)前景信息,進而準(zhǔn)確完整地定位出行人的空間位置。

圖3 注意力機制添加方式Fig.3 Method of adding attention mechanism
本文設(shè)計的與檢測任務(wù)相適應(yīng)的注意力機制模型如圖4 所示,該網(wǎng)絡(luò)基于R-FCN 基本架構(gòu),主要由3 個模塊組成,分別為Resnet50+DCN特征提取網(wǎng)絡(luò)模塊、基于RPN的候選區(qū)域提取模塊和與檢測任務(wù)相適應(yīng)的注意力機制行人預(yù)測網(wǎng)絡(luò)模塊。Resnet50+DCN特征提取網(wǎng)絡(luò)負(fù)責(zé)提取圖片中行人特征,然后輸入到RPN 網(wǎng)絡(luò)檢測出行人潛在區(qū)域,最終與檢測任務(wù)相適應(yīng)的注意力機制行人預(yù)測網(wǎng)絡(luò)模塊對行人潛在區(qū)域進一步精細(xì)化分類和邊界框回歸。整個網(wǎng)絡(luò)可以端到端進行訓(xùn)練,其損失函數(shù)定義如下:

圖4 與檢測任務(wù)相適應(yīng)的注意力機制模型Fig.4 Attention mechanism model adapted to detection task
其中,Lrpn和Lrcnn分別對應(yīng)RPN 子網(wǎng)絡(luò)和RCNN 主網(wǎng)絡(luò)的損失函數(shù)。RPN 子網(wǎng)絡(luò)沒有區(qū)分行人整體區(qū)域類別,只區(qū)分前景和背景信息,因此RPN子網(wǎng)絡(luò)的多任務(wù)損失函數(shù)定義如下:
其中,Lcls為交叉熵?fù)p失函數(shù),Lreg為Smooth-L1 損失函數(shù),φ為一個超參數(shù),y=1 表示只對前景樣本進行回歸。在RCNN主網(wǎng)絡(luò)中,對于行人整體進行精細(xì)化分類和位置回歸,其損失函數(shù)定義如下:
其中,p和b為標(biāo)注類別和標(biāo)注包圍框,p*和b*為網(wǎng)絡(luò)預(yù)測的類別和空間位置,λ為平衡因子,本文實驗中設(shè)置λ=10。
2.1.1 全卷積通道注意力機制
SE-Net(squeeze-and-excitation network)是經(jīng)典的通道注意力網(wǎng)絡(luò),其中SE 模塊通過對特征的不同通道進行加權(quán),從而實現(xiàn)對不同通道特征中重要程度的計算,最終可使卷積神經(jīng)網(wǎng)絡(luò)本身性能得到增強,以獲得更強的特征表達(dá)能力。如圖5所示,它是利用兩個全連接層來實現(xiàn)這一重要操作的。采用先降維再升維的方法,即第一個全連接層用來降維,第二個全連接層輸出和輸入特征維度一樣的權(quán)重。特征圖之間有著密切的關(guān)系,彼此都有交互。

圖5 SE-Net網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 SE-Net network structure
但研究表明,降維操作降低了網(wǎng)絡(luò)學(xué)習(xí)特征通道間依賴關(guān)系的能力,對通道注意力機制預(yù)測的權(quán)重產(chǎn)生了負(fù)影響。
因此本文提出一種全新的通道注意力機制,稱為全卷積通道注意力機制。通過采用大小為1×5的卷積核,優(yōu)化SE 模塊的操作,能保證在不降低通道維度的前提下,減少特征圖之間的全交互。這一操作可以減少參數(shù)量,高效地學(xué)習(xí)跨通道間的相關(guān)性;也可以有效減少通道注意力對預(yù)測權(quán)重的負(fù)影響。同時,本文為增強全局平均池化的聚合特征、彌補單一池化方式的不足,增加了全局最大池化分支,有利于豐富聚合特征信息,以此對遮擋處理產(chǎn)生幫助。在遮擋情況下,通過注意力減少遮擋區(qū)域的干擾,從而更好地關(guān)注前景區(qū)域。增強對前景區(qū)域特征地提取,從而更有針對性地處理遮擋。
為了有效減少SE-Net降維操作對預(yù)測權(quán)重的負(fù)影響。如圖6 所示,對于輸入特征,本文分別經(jīng)過全局最大池化和全局平均池化得到聚合特征;之后,再由大小1×5 的一維卷積核獲取相鄰?fù)ǖ篱g的相關(guān)性;最后,兩個權(quán)重向量相加,加之Sigmiod激活層進行映射,與輸入特征通過點成方式,對不同通道特征進行加權(quán),得到最終特征用于分類網(wǎng)絡(luò)。通道注意力計算公式為:
其中,σ表示Sigmoid激活函數(shù),AvgPool、MaxPool分別表示對特征F的平均池化、最大池化處理,f1×5表示卷積層使用1×5卷積核。
2.1.2 空間注意力機制
空間注意力機制網(wǎng)絡(luò)能夠有效學(xué)習(xí)到行人的空間位置信息,如圖7所示,通過結(jié)合平均池化和最大池化,加之包含單個大卷積核的隱藏層對其進行卷積操作,使其在通道維度上與輸入的特征圖數(shù)據(jù)保持統(tǒng)一,該理論對應(yīng)公式為:

圖7 空間注意力機制Fig.7 Spatial attention mechanism
與公式(1)不同的是,此處的f7×7表示卷積層使用7×7卷積核。
目前一流的行人檢測器均為單類檢測任務(wù),也就是在單幅圖像的處理中,只對該圖像的行人區(qū)域進行檢測。本文在行人檢測結(jié)果中發(fā)現(xiàn),被判別為非行人的候選區(qū)域可能由于遮擋而發(fā)生誤判,如圖8 所示,圖片中標(biāo)注的α框是目前一流檢測器檢測出的行人區(qū)域,β框是由于行人之間的嚴(yán)重遮擋導(dǎo)致的行人漏檢問題,γ框表示由于行人之間的部分遮擋從而導(dǎo)致的行人漏檢問題。由于本文實驗是基于車載監(jiān)控視頻的行人檢測,通過大量的數(shù)據(jù)分析發(fā)現(xiàn),行人與行人之間存在遮擋時,主要體現(xiàn)在行人的肢體之間存在嚴(yán)重的遮擋,但行人的頭肩區(qū)域可擁有明顯的區(qū)分。

圖8 行人檢測結(jié)果Fig.8 Pedestrian detection results
因此基于人體部件的行人檢測早在文獻(xiàn)[18]中被提出,其將人體分為頭肩、軀干和四肢等部分,分別提取這些部分的HOG特征,進行獨立建模,最終結(jié)合所有組件模型結(jié)果進一步確定行人的潛在空間區(qū)域。然而DPM 需要花費大量的時間去做模板設(shè)計,才能實現(xiàn)其較好的行人檢測性能,限制了其在真實應(yīng)用場景中的使用。因此本文基于深度卷積神經(jīng)網(wǎng)絡(luò),在行人檢測的基礎(chǔ)上引入了可以對行人之間明顯區(qū)分的頭肩區(qū)域檢測分支,其中行人頭肩區(qū)域檢測與行人檢測模型共享檢測頭部特征,然后通過本文設(shè)計的行人整體與行人頭肩區(qū)域匹配算法,級聯(lián)兩個分支的檢測結(jié)果,通過檢測行人的頭肩區(qū)域來確定遮擋行人的空間位置。行人整體與頭肩區(qū)域級聯(lián)對遮擋區(qū)域的互相補充,在一定程度上不僅可以有效解決由于圖片中行人肢體受遮擋帶來的行人漏檢問題,而且可以極大地降低了模型的推理時間。
2.2.1 行人與頭肩級聯(lián)檢測模型
Song等人[19]通過確定人體上配對點連成中軸線,再根據(jù)數(shù)據(jù)集中固定的長寬比例0.41 得到行人矩形包圍框。受此啟發(fā),行人的頭肩區(qū)域標(biāo)簽可以根據(jù)行人數(shù)據(jù)集中的行人標(biāo)簽來制作。行人的頭肩區(qū)域包含頭部和肩部,在行人數(shù)據(jù)集中可以得到行人的包圍框B=(x1,y1,x2,y2),其中(x1,y1)和(x2,y2)分別是行人包圍框的左上角點和右下角點,由于人體的結(jié)構(gòu)比例基本保持不變,可以得到行人的頭肩區(qū)域為H=(x1,y1,x2,y1+h/3),其中h表示行人包圍框的高度。行人整體數(shù)據(jù)集和行人頭肩區(qū)域數(shù)據(jù)集示意圖如圖9所示,左側(cè)為Caltech數(shù)據(jù)集中的行人圖片,右側(cè)上方是行人整體實例,右側(cè)下方是行人頭肩區(qū)域?qū)嵗?/p>

圖9 人體頭肩區(qū)域定義Fig.9 Human head and shoulders area definition
本文的訓(xùn)練過程與目標(biāo)檢測模型的訓(xùn)練過程相似,數(shù)據(jù)集圖片由Resnet50+DCN特征提取網(wǎng)絡(luò)進行特征提取,然后由RPN(region proposal network)[20]網(wǎng)絡(luò)獲取行人和頭肩區(qū)域的候選區(qū)域,最后在經(jīng)過通道注意力和空間注意力增強的檢測頭部特征上根據(jù)候選區(qū)域進行裁剪分別送入分類網(wǎng)絡(luò)預(yù)測出行人和頭肩區(qū)域類別和回歸網(wǎng)絡(luò)回歸出行人和頭肩區(qū)域的包圍框。整個網(wǎng)絡(luò)而言,該網(wǎng)絡(luò)能夠端到端地訓(xùn)練。相應(yīng)的,該網(wǎng)絡(luò)所對應(yīng)訓(xùn)練過程中的損失函數(shù)定義如下(出發(fā)點):
Lhead_rpn和Lperson_rpn分別代表行人頭肩檢測分支和行人整體檢測分支的RPN 子網(wǎng)絡(luò)損失函數(shù);Lhead_rcnn和Lperson_rcnn分別代表行人頭肩檢測分支和行人整體檢測分支的RCNN主網(wǎng)絡(luò)損失函數(shù)。
2.2.2 行人檢測推理
首先,由于在本文的行人檢測算法中,每個行人框的來源不同,因此在每個框上為其增加自定義的內(nèi)容標(biāo)簽,分別使用WP、HS、RP表示不同含義,其全稱與解釋如表1所示,為了防止標(biāo)簽重疊,HS與RP標(biāo)簽于框的左上角生成,WP標(biāo)簽于框的右上角生成。

表1 行人框內(nèi)容標(biāo)簽Table 1 Pedestrians box content label
接下來,根據(jù)訓(xùn)練好的模型,可檢測出潛在的行人區(qū)域和行人頭肩區(qū)域生成的檢測結(jié)果,對應(yīng)的行人框標(biāo)記為WP與HS。
本文中兩個分支分別進行頭肩和整體檢測,兩個檢測分支分別得到預(yù)測的頭肩區(qū)域和行人整體區(qū)域,即為頭肩區(qū)域包圍框集合和行人整體包圍框集合,如圖10所示。從圖中可以看出,預(yù)測的行人整體包圍框和頭肩區(qū)域包圍框存在大量的重合,即標(biāo)注的為同一行人,因此,本文設(shè)計行人整體與頭肩的匹配算法。該算法以兩個分支的檢測結(jié)果作為輸入,首先,將預(yù)測的行人整體包圍框集合按照制作頭肩區(qū)域的標(biāo)簽時的人體頭肩區(qū)域定義的比例(1∶3)得到頭肩區(qū)域2 集合,如圖11 所示。然后,將頭肩檢測分支結(jié)果依次與頭肩區(qū)域2集合計算重疊度(ⅠoU),保留ⅠoU最大值,ⅠoU計算公式如下:

圖10 行人整體和頭肩檢測分支結(jié)果Fig.10 Whole pedestrian and head and shoulders detection branch results

圖11 由行人整體得到的頭肩區(qū)域2集合Fig.11 Head and shoulders area 2 set obtained by whole pedestrian
最后,判斷ⅠoU 是否大于本文設(shè)定的閾值(0.8),如果大于該閾值,則說明該預(yù)測的頭肩區(qū)域包圍框與行人整體包圍框存在高度重合,則判定為該頭肩區(qū)域?qū)儆陬A(yù)測的行人整體的頭肩區(qū)域,則匹配成功,如圖12 所示,在頭肩區(qū)域集合和頭肩區(qū)域2 集合中分別刪除所對應(yīng)的包圍框。如果小于閾值,則說明該預(yù)測的頭肩區(qū)域包圍框所表示的行人,在行人整體包圍框中未找到,則可能是由于遮擋問題造成行人整體檢測分支漏檢的行人實例。依次遍歷所有的頭肩區(qū)域包圍框,最終將得到未匹配成功的行人頭肩區(qū)域包圍框。

圖12 頭肩區(qū)域2集合與頭肩檢測分支結(jié)果匹配Fig.12 Head and shoulders area 2 set matched with result of head and shoulders detection branch
本文最終結(jié)果是將未匹配成功的行人頭肩區(qū)域包圍框按照人體頭肩區(qū)域定義的比例(1∶3),得到行人整體的包圍框,然后再合并到行人整體包圍框集合中作為最終結(jié)果,如圖13 所示。本文未使用匹配成功的頭肩區(qū)域包圍框,因為在實驗過程發(fā)現(xiàn),通過頭肩區(qū)域包圍框按照比例(1∶3)得到的行人整體包圍框,沒有直接預(yù)測的行人整體包圍框準(zhǔn)確,因此本文中直接舍棄。

圖13 行人整體與頭肩區(qū)域的級聯(lián)檢測結(jié)果Fig.13 Cascade detection results of whole pedestrian and head and shoulder area
2.2.3 行人區(qū)域推演階段
行人整體與頭肩區(qū)域級聯(lián)檢測的具體算法過程的偽代碼如算法1所示。
頭肩與整體的匹配算法:
本文實驗在Caltech 數(shù)據(jù)集[21]上進行訓(xùn)練測試,在Eth[22]和CityPersons 數(shù)據(jù)集上進行泛化性測試,以此來驗證模型的有效性和魯棒性。Caltech數(shù)據(jù)集是基于車載攝像頭拍攝城市街道的11段視頻,其中前6段視頻用于模型的訓(xùn)練,后5 段視頻用于模型測試,驗證模型的準(zhǔn)確性。Eth數(shù)據(jù)沒有區(qū)分訓(xùn)練集和測試集,因此本文全部用來驗證模型的泛化能力。Caltech 訓(xùn)練集設(shè)置每3幀選取1張圖像[23],同時刪除不包含行人的圖片,Caltech測試集每10 幀選取1 張圖像。測試集具體劃分如表2所示,根據(jù)行人像素高度和遮擋程度設(shè)置了4個測試子集Reasonable、Occ=none、Occ=partial 和Occ=heavy。目前一流的行人檢測器均用Reasonable 測試子集評估模型性能,Reasonable 子集設(shè)置為:行人數(shù)據(jù)像素高度不小于50,行人像素可見度不低于0.65。其余3個子集用來驗證模型處理行人遮擋問題的性能,Occ=none 子集設(shè)置為:行人像素高度不小于50,行人像素可見度為inf;Occ=partial 子集設(shè)置為:行人像素高度不小于50,行人像素可見度介于0.65到1之間;Occ=heavy子集設(shè)置為:行人像素高度不小于50,可見度介于0.2到0.65之間。

表2 測試子集屬性劃分Table 2 Test subset attribute partitioning
實驗環(huán)境為搭載caffe-2 深度學(xué)習(xí)框架的Linux 系統(tǒng)(Ubuntu-16.04),其配置包括CUDA8.0、python2.7、NVⅠDⅠA GeForce GTX 1080Ti(數(shù)量:1),12 GB系統(tǒng)運行內(nèi)存。訓(xùn)練的epoch 個數(shù)為20,學(xué)習(xí)率(learing-rate)為0.001,權(quán)重衰減(weight-decay)為0.000 5,動量因子(momentum)為0.9。本文基于Caltech 提出的行人檢測的評估標(biāo)準(zhǔn)LAMR(log-average miss rate)值驗證模型性能,隨著LAMR值的降低,模型性能會得到更高的提升。
3.3.1 不同網(wǎng)絡(luò)結(jié)構(gòu)特征提取模塊對比
本小節(jié)為驗證Resnet50+DCN網(wǎng)絡(luò)作為處理行人遮擋問題的特征提取網(wǎng)絡(luò)的有效性,對比了ResNet50、ResNet50+SE 和ResNet50+DCN 三種不同的特征提取網(wǎng)絡(luò)。該實驗基于R-FCN 模型,統(tǒng)一在Caltech 訓(xùn)練集進行訓(xùn)練,在Caltech測試集上進行測試,除特征提取網(wǎng)絡(luò)不同外,保持所有訓(xùn)練參數(shù)相同。實驗結(jié)果如表3所示,Resnet50+DCN在Caltech四個測試子集上的LAMR降低到了7.14%、6.11%、18.38%和32.79%。相較于ResNet50+SE,在Reasonable、none和heavy測試子集中,漏檢誤差分別降低了0.29、0.18、0.15個百分點。Resnet50+DCN 網(wǎng)絡(luò)可以對前景信息特征做到準(zhǔn)確提取,有效提升遮擋情況下的行人識別率。

表3 Caltech數(shù)據(jù)集上不同特征提取網(wǎng)絡(luò)的性能對比Table 3 Performance comparison of different feature extraction networks on Caltech dataset
3.3.2 注意力機制的消融實驗
為驗證本文注意力機制對于解決遮擋問題的有效性,本小節(jié)主要在Caltech不同測試子集上,對其有效性效果進行驗證。本模塊基于不同網(wǎng)絡(luò)結(jié)構(gòu)特征提取模塊的對比實驗分析,該實驗的基線為基于Resnet50+DCN 網(wǎng)絡(luò)的R-FCN 模型,為驗證與檢測任務(wù)相適應(yīng)的注意力機制模塊的有效性,注意力機制采用通道注意力機制SE-Net 和空間注意力機制。如圖3 所示,分別以圖(a)方式為在特征提取網(wǎng)絡(luò)與檢測頭中間依次引入SE-Net 和空間注意力機制,圖(b)方式為在檢測頭后的分類和回歸任務(wù)中引入SE-Net和空間注意力機制。實驗結(jié)果如表4 所示,相比于baseline,在網(wǎng)絡(luò)中加入通道注意力機制SE-Net 和空間注意力機制,檢測性能均得到了提升。表明加入注意力機制有利于增強有效的前景特征,從而提升檢測性能。相比于圖3(a)方式,圖3(b)方式在Reasonable、Occ=none、Occ=partial 和Occ=heavy測試子集上LAMR降低了0.11、0.23、0.35和0.21個百分點。因此,針對不同的任務(wù)使用相適應(yīng)的注意力機制能夠提升模型的泛化能力以及對行人遮擋問題的檢測效果。

表4 Caltech數(shù)據(jù)集上注意力在不同位置的性能對比Table 4 Performance comparison of attention at different positions on Caltech dataset
同時該小節(jié)對比了本文設(shè)計的全卷積通道注意力機制模塊與經(jīng)典的SE模塊的性能,該實驗基于與檢測任務(wù)相適應(yīng)的注意力機制模塊的對比實驗分析,實驗結(jié)果如表5所示。在Reasonable、None、Partial和Heavy測試子集上,本文通道注意力機制較SE模塊的LAMR降低到6.75%、5.33%、15.79%和31.44%。相比于SE-Net,本文采用1×5卷積核,同時增加全局最大池化分支。這樣設(shè)計可以有效減少通道注意力對預(yù)測權(quán)重的負(fù)影響,同時豐富聚合特征信息,以此對遮擋處理產(chǎn)生幫助。實驗表明,本文通道注意力機制模塊對行人遮擋問題具有較好的表現(xiàn)。

表5 Caltech數(shù)據(jù)集上選用不同注意力的性能對比Table 5 Performance comparison of different attentions on Caltech dataset
3.3.3 級聯(lián)行人和頭肩檢測器對遮擋的有效性
為驗證本文行人與頭肩級聯(lián)檢測器對于解決遮擋問題的有效性,本小節(jié)主要在Caltech不同測試子集上,對其有效性效果進行驗證。聯(lián)合行人整體與頭肩區(qū)域檢測器的實驗是在采用注意力機制的行人檢測網(wǎng)絡(luò)的基礎(chǔ)上實驗的。通過大量的研究發(fā)現(xiàn),在遮擋的情況下,尤其是存在下半身嚴(yán)重遮擋時,可以通過頭肩區(qū)域,把行人明顯區(qū)分開。值得注意的是,當(dāng)使用行人的頭肩區(qū)域檢測器來檢測行人時,由于數(shù)據(jù)集中的行人實例存在騎行、下蹲等不同的行人姿態(tài)情況,導(dǎo)致行人的頭肩區(qū)域和行人的整體比例不滿足1/3,因此不能完全將頭肩區(qū)域的檢測結(jié)果通過1∶3的比例得到行人整體區(qū)域,作為最終結(jié)果,否則,得到的行人包圍框存在很大偏差,同時,通過頭肩區(qū)域來得到的行人整體區(qū)域,這樣得到的包圍框沒有直接預(yù)測行人整體區(qū)域得到的包圍框位置精確。因此本文只針對未加入頭肩區(qū)域的行人整體檢測模型與加入頭肩區(qū)域的行人檢測模型進行對比實驗。與未加入頭肩區(qū)域的檢測模型進行對照,實驗結(jié)果如表6所示,加入了頭肩檢測的網(wǎng)絡(luò)在Reasonable、Occ=none、Occ=partial 和Occ=heavy 測試子集上性能均得到了顯著的提升。模型在以上四個測試子集上的LAMR分別降低到5.37%、3.99%、9.67%、23.33%。因此,在行人檢測的基礎(chǔ)上加入頭肩區(qū)域檢測分支,在很大程度上避免了由于身體下身之間的相互遮擋導(dǎo)致的漏檢問題。由上述實驗結(jié)果,可得到以下結(jié)論:設(shè)計聯(lián)合行人整體與頭肩區(qū)域的級聯(lián)檢測器,通過行人整體與頭肩區(qū)域?qū)φ趽鯀^(qū)域的互相補充,可以顯著提升在遮擋情況下的行人識別率。

表6 Caltech數(shù)據(jù)集上行人檢測器的性能對比Table 6 Performance comparison of pedestrian detectors on Caltech dataset
本節(jié)分別在Caltech、Eth 和CityPersons 數(shù)據(jù)集上進行算法執(zhí)行效果的檢測。相較于表中出現(xiàn)的目前表現(xiàn)較好的多個行人檢測器算法進行了實驗對比,如表7所示,本文所表述的具體算法在Caltech 集中體現(xiàn)出了優(yōu)秀高效的檢測性能,在Caltech 四個測試子集上的LAMR 降低到了5.37%、3.99%、9.67%和23.33%。相較于行人檢測器AR-Ped[24],在3 個測試子集(Reasonable、None、Partial)中,漏檢誤差分別降低了1.08、1.22、2.26個百分點。尤其是在Heavy 測試子集上對照當(dāng)前先進的TLL-TFA[25]行人檢測器,LAMR 降低了5.33 個百分點,這是由于本文算法加入了頭肩區(qū)域檢測分支,因此在存在遮擋的情況下,可顯著的提升行人檢測的算法執(zhí)行效果。上述內(nèi)容在量化的實驗中,通過不同測試子集的對比結(jié)果如圖14 所示,本文算法在存在行人遮擋的多個測試子集上表現(xiàn)出較好的檢測效果。為形象地觀測本文模型在Caltech 數(shù)據(jù)集上的檢測效果,圖15 顯示了本文方法與當(dāng)前一流行人檢測方法的可視化效果對比。

表7 Caltech數(shù)據(jù)集上本文方法與目前一流方法的比較Table 7 Comparison of proposed method with some state-of-art methods on Caltech dataset

圖14 Caltech測試數(shù)據(jù)集上性能對照Fig.14 Comparison with popular method on Caltech test dataset

圖15 Caltech測試集上算法效果對比Fig.15 Comparison of algorithm effects on Caltech test dataset
Eth 行人數(shù)據(jù)集包含了比較密集、遮擋嚴(yán)重的行人實例,故可表明該數(shù)據(jù)集具有極高的可研究以及可驗證性。本文分別在Reasonable和ALL(行人像素高度大于等于20 pixel,可見度大于20%)上作為測試子集,使用這兩個數(shù)據(jù)集對模型的泛化能力進行測試。如圖16所示,本文方法在Reasonable 和ALL 兩個測試子集上的LARM分別降低到了29.23%和35.21%。與在該測試集表現(xiàn)較好的F-DDN2+SS行人檢測器相比,在Reasonable和ALL兩個測試子集上的LARM分別降低了0.79個百分點和3.87 個百分點。實驗的具體結(jié)果強有力地證明了本文所描述的方法能解決行人遮擋嚴(yán)重情況下的算法精度問題,達(dá)到更加準(zhǔn)確的行人檢測效果。為形象地觀測本文模型在ETH 數(shù)據(jù)集上的檢測效果。另外,圖17 對ETH 數(shù)據(jù)集中的圖片進行可視化,分別采用兩種主流的行人檢測算法RPN+BF[30]、F-DNN2+SS與本文算法做對比,由圖可見,本文算法在漏檢率的降低以及行人識別率的提高上,都有更好的表現(xiàn)。

圖16 ETH測試集上性能對比Fig.16 Performance comparison on ETH test dataset

圖17 ETH測試集上算法效果對比Fig.17 Comparison of algorithm effects on ETH test dataset
為了驗證本文行人整體與頭肩區(qū)域級聯(lián)檢測模型的泛化性,本文在CityPersons 數(shù)據(jù)集上進行對比實驗。CityPersons數(shù)據(jù)集是目前比較通用的行人檢測數(shù)據(jù)集,是CityScapes數(shù)據(jù)集的一個子集。根據(jù)CityPersons數(shù)據(jù)集官方提供的劃分標(biāo)準(zhǔn),可劃分為四個子集:Bare子集、Reasonable子集、Partial子集和Heavy子集。Reasonable子集(行人像素高度大于等于50 pixel,可見度大于65%)和Heavy子集(行人像素高度大于等于50 pixel,可見度在20%和65%之間)可以很好地用來評估算法對輕度遮擋和重度遮擋行人的檢測性能,故本文使用這兩個子集作為測試集對模型的泛化能力進行測試,使用對數(shù)平均漏檢率作為評價指標(biāo)。本文選用了在CityPersons 數(shù)據(jù)集上有代表性的CSP[31]等四種行人檢測器進行對比試驗。實驗結(jié)果如表8 所示,本文方法在Reasonable 和Heavy兩個測試子集上的LARM分別降低到了10.7%和49.1%。與在該測試集表現(xiàn)較好的CSP行人檢測器相比,在Reasonable和Heavy兩個測試子集上的LARM分別降低了0.3 個百分點和0.2 個百分點。證明了本文行人整體與頭肩區(qū)域級聯(lián)檢測算法對解決行人遮擋問題的有效性,通過行人整體與頭肩區(qū)域級聯(lián),可以很大程度上避免了由于身體下半身之間的相互遮擋導(dǎo)致的漏檢問題。

表8 CityPersons數(shù)據(jù)集上本文方法與目前一流方法的比較Table 8 Comparison of proposed method with some state-of-art methods on CityPersons dataset
行人檢測中的行人遮擋問題是影響行人檢測性能的主要瓶頸之一,本文基于R-FCN目標(biāo)檢測框架,使用了能夠有效處理遮擋問題的Resnet50+DCN特征提取網(wǎng)絡(luò)提取行人特征,設(shè)計了通道注意力機制增強了高級語義特征進行分類的方法,同時引入空間注意力機制強調(diào)回歸的局部細(xì)節(jié)信息,提高行人檢測性能。另一方面,本文設(shè)計了行人的頭肩區(qū)域檢測分支,由于該分支存在與行人檢測分支共享權(quán)重的優(yōu)勢,因此在幾乎沒有增加計算量的情況下提高了整體的性能。針對多分支檢測結(jié)果,通過匹配算法來計算頭肩區(qū)域與行人區(qū)域的一致性。實驗結(jié)果表明,本文算法的實現(xiàn)在兩個數(shù)據(jù)集中均取得了較好的表現(xiàn)。在未來的工作中,將從網(wǎng)絡(luò)中損失函數(shù)的方向來優(yōu)化,進一步提高對遮擋行人的檢測效果。