齊寶光,何小海,卿粼波,陳洪剛
(四川大學(xué),四川 成都 610041)
2006 年,Gheissari 等人[1]第一次提出了行人重識(shí)別的概念,其被當(dāng)作跨攝像頭多目標(biāo)跟蹤下的子問(wèn)題進(jìn)行研究,即如何在跨攝像頭中利用行人特征的相似度進(jìn)行軌跡關(guān)聯(lián)。類似于其他計(jì)算機(jī)視覺(jué)的任務(wù),行人重識(shí)別也存在很多難點(diǎn),例如,人物被遮擋、無(wú)正臉照、姿態(tài)變化、配飾變化、拍攝角度改變、低分辨率、室內(nèi)外環(huán)境或光線變化、服裝搭配穿衣風(fēng)格變化以及目標(biāo)檢測(cè)算法[2]的誤檢等。盡管存在這些困難,但通過(guò)研究人員的努力,基于深度學(xué)習(xí)的行人重識(shí)別方法仍取得了很大的進(jìn)步,識(shí)別精度得到了很大的提升,這些方法包括一些有監(jiān)督的方法[3-12]以及無(wú)監(jiān)督和弱監(jiān)督的方法[13-19]。大部分方法主要使用表征學(xué)習(xí)[3,6,8]和度量學(xué)習(xí)[4,7,11,16]的方法。最近,越來(lái)越多的研究者關(guān)注行人的局部特征[9,12,17]和注意力機(jī)制[10],并取得了很多成果,這是因?yàn)榫植刻卣髂芴峁└嗟募?xì)節(jié)信息。
文獻(xiàn)[20]提出了姿勢(shì)提取模型并應(yīng)用于行人重識(shí)別任務(wù),該文獻(xiàn)提出的姿勢(shì)提取網(wǎng)絡(luò)提取出14個(gè)人體關(guān)鍵點(diǎn),并完成人體關(guān)鍵點(diǎn)計(jì)算、行人特征提取和特征融合。為了降低遮擋物體對(duì)姿勢(shì)提取模型的影響,文獻(xiàn)[21]首先使用姿勢(shì)提取模型提取人體關(guān)鍵點(diǎn),其次計(jì)算關(guān)鍵點(diǎn)的置信度。在計(jì)算融合特征時(shí),置信度低于閾值的關(guān)鍵點(diǎn)權(quán)重會(huì)被置零不參與計(jì)算。文獻(xiàn)[22]通過(guò)水平切割深層特征塊,將全局特征水平分割為多個(gè)均勻的小塊,分別表示人體不同的部件。文獻(xiàn)[23]提出了金字塔模型,該模型通過(guò)粗粒度到細(xì)粒度的漸變保留了全局特征和局部特征,最終得到的融合特征包含有漸變關(guān)系。基于姿勢(shì)估計(jì)的局部特征方法,通常需要依靠外部的姿勢(shì)估計(jì)數(shù)據(jù)集和姿勢(shì)估計(jì)器,其帶來(lái)的數(shù)據(jù)誤差會(huì)影響到重識(shí)別精度。基于特征空間分割的局部特征方法,可以有效地緩解遮擋和低分辨率對(duì)性能帶來(lái)的影響,但仍需探究如何更好地融合全局特征和局部特征,以提升重識(shí)別的性能。
因此,為了在遮擋、低分辨率、視角變化等場(chǎng)景下,捕捉到更充足的細(xì)節(jié)信息,得到更可靠的特征表達(dá),本文提出了基于圖像特征融合的行人重識(shí)別方法。該方法在訓(xùn)練時(shí),對(duì)骨架網(wǎng)絡(luò)提取到的深層特征水平分割,得到3 塊局部特征,并分別進(jìn)行身份(Identification,ID)損失的計(jì)算,然后將全局特征也獨(dú)自進(jìn)行ID 損失的計(jì)算,以優(yōu)化網(wǎng)絡(luò)的特征表達(dá),使圖像特征注意到更多的細(xì)節(jié)信息,并且對(duì)全局特征進(jìn)行距離度量,對(duì)行人特征的相似度進(jìn)行約束。本文方法在對(duì)目標(biāo)行人檢索時(shí),將局部特征與全局特征融合到一起進(jìn)行距離度量,以得到具有足夠細(xì)節(jié)信息的圖像特征。通過(guò)在Market1501[24]和DukeMTMC-reID[25]上進(jìn)行廣泛的實(shí)驗(yàn),證實(shí)了本文所提方法的有效性,并達(dá)到了目前比較可觀的性能。
本文采用的行人重識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,該方法使用Resnet50 網(wǎng)絡(luò)作為骨架提取行人的視覺(jué)特征。為了解決行人重識(shí)別中常出現(xiàn)的遮擋以及圖像質(zhì)量低等問(wèn)題,提出的方法采用全局特征融合局部特征的方式加強(qiáng)圖像特征的表述力。當(dāng)行人圖像通過(guò)骨架網(wǎng)絡(luò)Resnet50 的最后一層得到特征fT后,使用兩個(gè)分支對(duì)特征fT進(jìn)行后續(xù)處理,一個(gè)分支進(jìn)行全局特征處理,稱為全局特征分支,全局特征作為對(duì)圖像的整體描述關(guān)注行人圖像的整體信息;另一個(gè)分支進(jìn)行局部特征處理,稱為局部特征分支,局部特征分支會(huì)注意到更多的細(xì)粒度局部顯著特征,從而改善遮擋和低分辨率的問(wèn)題。

圖1 圖像特征融合的行人重識(shí)別網(wǎng)絡(luò)
在全局特征分支,首先將特征fT通過(guò)全局平均池化得到特征fq,其次令fq通過(guò)歸一化結(jié)構(gòu)取得歸一化特征ft用于全局特征的ID 損失。給定一個(gè)包含N個(gè)元組的數(shù)據(jù)集,每個(gè)元組都有一個(gè)圖像x和ID 標(biāo)簽y,使用F(·|θ)指代特征提取網(wǎng)絡(luò),使用C指代分類器,全局特征的ID 損失由多分類交叉熵 ?ce來(lái)表示,并使用軟交叉熵?fù)p失函數(shù)-qlogp進(jìn)行監(jiān)督,則有:

式中:Lid為多分類交叉熵函數(shù)對(duì)輸入圖像的計(jì)算結(jié)果;Lt為使用軟交叉熵?fù)p失函數(shù)進(jìn)行監(jiān)督的結(jié)果。
在局部特征分支,首先將特征fT分割為3 塊來(lái)對(duì)應(yīng)行人不同的身體部位,但由于直接水平切割的硬化分類會(huì)出現(xiàn)局部不對(duì)齊的情況,所以使用了一個(gè)單獨(dú)的局部塊分類器來(lái)對(duì)各個(gè)塊進(jìn)行分類并調(diào)整各個(gè)塊與塊之間的特征以實(shí)現(xiàn)圖像的軟分割,完成局部對(duì)齊。由于要對(duì)張量fT中每個(gè)預(yù)劃分的區(qū)域塊的邊界部分進(jìn)行微調(diào),因此需要對(duì)區(qū)域塊中抽樣出的更小的塊f進(jìn)行分類。為了完成圖像塊分類器,對(duì)f進(jìn)行分類的定義公式為:

其次計(jì)算f屬于Pi塊的概率P(Pi|f),其中WiT是局部塊分類器的可訓(xùn)練權(quán)重矩陣。由于f是fT的子集且每個(gè)塊Pi都是從所有的f中以采樣權(quán)重P(Pi|f)進(jìn)行采樣得到的,因此當(dāng)給定特征f與其對(duì)應(yīng)局部Pi的概率P(Pi|f)后可以推出:

通過(guò)將各個(gè)塊邊緣部分的離群值重新劃分到鄰近的塊上,增強(qiáng)各個(gè)塊之間信息過(guò)渡的連續(xù)性,實(shí)現(xiàn)了水平切塊的軟分割。最后將這3 塊局部特征通過(guò)卷積操作得到特征fdi計(jì)算獨(dú)自的ID 損失 Lid,原理與式(1)和式(2)相同。
通過(guò)對(duì)特征fq進(jìn)行歸一化操作[26]得到ft,對(duì)特征fpi進(jìn)行卷積操作得到fdi,使得ID 損失和三元組損失在不同的嵌入空間中分別使用余弦距離和歐式距離進(jìn)行模型優(yōu)化,更利于三元組損失的收斂與模型的優(yōu)化。
本文使用三元組損失[27]訓(xùn)練融合特征fg,使得相同身份的圖像樣本距離更加接近并將不同身份的樣本推遠(yuǎn)。融合特征fg由局部特征fpi與全局特征fq按照式(5)計(jì)算得到:

式中:λpi為局部特征fpi的平衡參數(shù),且λpi=0.1。
融合了局部特征和全局特征的fg在關(guān)注全局信息的同時(shí)也注意到了更多的細(xì)節(jié)信息,提高了模型的魯棒性。三元組損失由固定圖片(Anchor)、正樣本圖片(Positive)、負(fù)樣本圖片(Negative)3 張圖片組成,其中Anchor 是數(shù)據(jù)集中隨機(jī)抽取的圖片,Positive 是與Anchor 相同類別的圖片,Negative是與Anchor 不同類別的圖片。分別使用fgp和fgn表示fga的正樣本和負(fù)樣本,||·表示歐氏距離,其計(jì)算式為:

在圖像特征的處理中,本文使用了分塊特征聯(lián)合全局特征的策略解決了行人圖像不匹配的問(wèn)題。在訓(xùn)練階段將全局特征和局部特征分別送入全連接層計(jì)算ID 損失,并計(jì)算融合特征fg的三元組損失,在測(cè)試階段將全局特征與局部特征根據(jù)特征融合策略聯(lián)合到一起得到fg進(jìn)行距離度量。
最終的損失函數(shù)是圖像全局特征的ID損失tL、局部特征的ID 損失 Ldi、三元組損失 Ltri的組合:

式中:λdi為平衡參數(shù),且λdi=0.1。該方法使用交叉熵?fù)p失(cross-entropy loss)作為ID 損失,ID 損失作用于圖像的全局特征,使它們具有區(qū)分行人的能力。ID 損失作用于局部塊,使每個(gè)局部特征都具有獨(dú)自區(qū)分行人的能力,增強(qiáng)了特征表達(dá),可以幫助網(wǎng)絡(luò)注意到更多的局部細(xì)節(jié)信息。三元組損失拉近了正樣本之間的特征距離,推遠(yuǎn)了負(fù)樣本之間的距離,并且通過(guò)歸一化和卷積操作,減少了不同任務(wù)之間的相互約束,使ID損失和三元組損失更加收斂,在聯(lián)合損失優(yōu)化的同時(shí)也優(yōu)化了視覺(jué)特征網(wǎng)絡(luò)的調(diào)參,得到更魯棒的視覺(jué)特征。在多種損失的聯(lián)合訓(xùn)練下,該模型可以達(dá)到較好的檢索效果。
為了驗(yàn)證所提出的方法對(duì)行人重識(shí)別的作用,本文在Market1501、DukeMTMC-reID 上進(jìn)行了廣泛的實(shí)驗(yàn),使用平均精度(mean Average Precision,mAP)、Rank1 作為評(píng)價(jià)指標(biāo),并與主流算法進(jìn)行了對(duì)比。
2.1.1 Market1501
Market1501 是目前在行人重識(shí)別中大規(guī)模使用的公共數(shù)據(jù)集,它包含從6 個(gè)不同的視點(diǎn)捕獲的32 668 個(gè)標(biāo)記的邊界框,其中包含1 501 個(gè)身份。使用局部可訓(xùn)練的變形零件模型(Discriminatively Trained Part-Based Models,DPM)[28]檢測(cè)邊界框。數(shù)據(jù)集分為用于訓(xùn)練的具有751 個(gè)身份的12 936 幅圖像和用于測(cè)試的具有750 個(gè)身份的19 732 幅圖像兩部分。在測(cè)試時(shí),將使用3 368 張具有750 個(gè)身份的圖像作為檢索圖像。
2.1.2 DukeMTMC-reID
DukeMTMC-ReID 數(shù)據(jù)集包含8 個(gè)非重疊攝像機(jī)視圖捕獲的1 812 個(gè)行人,共有36 411 張圖像。該數(shù)據(jù)集包括用于訓(xùn)練的16 522 張圖像和用于測(cè)試的19 889 張圖像,以及2 228 張查詢圖像和17 661張檢索圖像。其中1 404 類為3 個(gè)以上攝像頭拍攝,其余408 類為1 個(gè)攝像頭所拍攝,將出現(xiàn)在多個(gè)攝像頭的1 404 類行人圖像平均分成兩部分。
2.2.1 參數(shù)設(shè)置
本文使用pytorch 框架來(lái)訓(xùn)練模型,使用Image Net 上的預(yù)訓(xùn)練模型初始化Resnet50,并將全連接層的尺寸更改為N,表示訓(xùn)練數(shù)據(jù)集中的類別數(shù)。采用Adam 算法對(duì)模型進(jìn)行優(yōu)化,整個(gè)模型有多個(gè)損失任務(wù),訓(xùn)練時(shí)模型計(jì)算每個(gè)任務(wù)產(chǎn)生的梯度并使用加權(quán)梯度更新網(wǎng)絡(luò)。本文將圖像全局特征ID損失和三元組損失的梯度權(quán)重分配為1,將圖像分塊特征的ID 損失的梯度權(quán)重λdi設(shè)為0.1。網(wǎng)絡(luò)中所有全連接層的丟棄率設(shè)為0.5。實(shí)驗(yàn)過(guò)程中,在數(shù)據(jù)集中隨機(jī)抽取P位行人的K張圖像組成一個(gè)訓(xùn)練批次,批量大小等于B=P×K,將P設(shè)置為16,K設(shè)置為4。每張圖像的大小調(diào)整為256×128,并以0.5 的概率水平翻轉(zhuǎn)圖像。然后將每張圖像解碼為[0,1]中的32 位浮點(diǎn)原始像素值,最后分別減去0.485、0.456、0.406 并除以0.229、0.224、0.225,從而對(duì)RGB 通道進(jìn)行歸一化。
在Market1501 和DukeMTMC-reID 上進(jìn)行了實(shí)驗(yàn),在訓(xùn)練時(shí)對(duì)全局特征和局部特征分別計(jì)算損失,測(cè)試時(shí)將全局特征和局部特征聯(lián)合到一起得到融合特征進(jìn)行查找,得到的檢索準(zhǔn)確率高于原始baseline 的準(zhǔn)確率,并且算法性能優(yōu)于較新的行人重識(shí)別算法。
2.2.2 與主流算法的對(duì)比
在Market1501 和DukeMTMC-reID 上與主流算法的對(duì)比結(jié)果如表1 所示。其中GLAD[29]、PSE[30]和PIE[31]是基于姿態(tài)特征的算法,SCSN[32]、M3[33]都是最新的行人重識(shí)別算法,跟它們對(duì)比可以說(shuō)明本文模型的先進(jìn)性。

表1 Market1501 和DukeMTMC-reID 上與主流算法的對(duì)比結(jié)果 %
在使用相同主干網(wǎng)絡(luò)(ResNet50)的情況下,對(duì)比結(jié)果可知,本文所提出算法的Rank1 精度和平均精度(mAP)都高于這些算法。其潛在原因是本文使用的局部特征增強(qiáng)了網(wǎng)絡(luò)對(duì)細(xì)節(jié)信息的關(guān)注度,一定程度上改善了遮擋和低分辨率的問(wèn)題,提高了網(wǎng)絡(luò)對(duì)視角變化和配飾變化的魯棒性。在Market1501 上獲得Rank1=96.2%,mAP=88.9%的準(zhǔn)確率,并且在DukeMTMC-reID 數(shù)據(jù)集上獲得Rank1=91.3%,mAP=79.8%的準(zhǔn)確率,得到了較好的效果,高于所有對(duì)比算法。
2.2.3 可視化分析
圖2 展示了在DukeMTMC-reID 數(shù)據(jù)集下的部分實(shí)驗(yàn)結(jié)果圖,其中字母“Y”表示檢索成功,字母“N”表示檢索失敗。第一列為查詢圖像(Query),其檢索結(jié)果為排名前10 的圖像,根據(jù)與查詢圖像相似度從大至小依次排列。前3 行檢索結(jié)果顯示了算法強(qiáng)大的魯棒性,無(wú)論這些捕獲的行人姿勢(shì)或步態(tài)如何變化,融合特征都可以魯棒地表示其身份的辨別性信息。第4 位行人的檢索圖像分辨率低,十分模糊不清,但是本文算法只在排名第9 的圖像檢索錯(cuò)誤,其余均檢索正確且包含被遮擋的圖像、背部圖像和高質(zhì)量圖像。最后一位行人的檢索圖像被嚴(yán)重遮擋且包含了大量無(wú)用信息,但融合特征仍然能夠根據(jù)背包和黑色上衣等細(xì)節(jié)信息找到大量正確樣本,包括該行人無(wú)遮擋的全身照。因此從實(shí)驗(yàn)效果圖可以看出,本文算法在姿態(tài)變化、低分辨率、遮擋等多種情況下的魯棒性較高。

圖2 DukeMTMC-reID 數(shù)據(jù)集下的部分實(shí)驗(yàn)結(jié)果
本文提出了一種圖像特征融合的行人重識(shí)別方法,解決了姿態(tài)變化、低分辨率以及遮擋情況下網(wǎng)絡(luò)提取特征不可靠的問(wèn)題。本文通過(guò)構(gòu)建全局特征分支和局部特征分支使網(wǎng)絡(luò)注意到足夠的整體信息和細(xì)節(jié)信息,在檢索時(shí)通過(guò)融合全局特征和局部特征得到最后的融合特征。局部特征的引入,使網(wǎng)絡(luò)關(guān)注到更可靠的局部信息,忽略掉遮擋以及圖像中質(zhì)量較低的信息,大大提升了網(wǎng)絡(luò)的性能和識(shí)別的準(zhǔn)確率。在行人重識(shí)別數(shù)據(jù)集Market1501 和DukeMTMC-reID 上的實(shí)驗(yàn)證明了融合特征優(yōu)于原始的全局視覺(jué)特征,并且在遮擋、姿態(tài)變化、圖像質(zhì)量低等因素下具有較強(qiáng)的魯棒性,達(dá)到了較先進(jìn)的性能。