劉紫燕,萬培佩
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽550025)
(*通信作者電子郵箱Leizy@sina.com)
在計算機視覺領(lǐng)域,行人重識別通常被視為圖像檢索問題,即從不同的相機中匹配行人,從非重疊攝像機視角下的行人圖像庫中找到與該行人是同一個行人的圖像。由于不同攝像機場景、視角、光照等因素的影響,會導(dǎo)致行人姿態(tài)多樣,行人圖像分辨率不高以及行人遮擋等問題,給行人重識別研究帶來非常大挑戰(zhàn)。早期的行人重識別研究主要集中于如何手工設(shè)計更好的視覺特征和如何學(xué)習(xí)更好的相似度度量。近幾年隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)技術(shù)在行人重識別上得到了廣泛的應(yīng)用。和傳統(tǒng)方法不同,深度學(xué)習(xí)方法可以自動提取行人圖像特征,因此如何提取行人的顯著性特征成為行人重識別精度提高的關(guān)鍵。
行人重識別方法主要分為:基于特征表示的方法和基于度量學(xué)習(xí)的方法[1-2]。基于特征表示方法主要是學(xué)習(xí)一個具有魯棒性的深度網(wǎng)絡(luò)提取特征[3];基于度量學(xué)習(xí)的方法主要通過將行人圖像映射到另一個空間,使同一個行人的距離小于不同行人距離[4],能夠達到重識別的效果。
近幾年,隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的行人重識別提取的特征比手工提取的特征具有更高的辨識能力。文獻[5]中提出了一個新穎網(wǎng)絡(luò)模型,比較兩幅圖像經(jīng)過卷積后提取到的特征區(qū)域的相似特征,并對圖像中的相似區(qū)域的差異進行特征學(xué)習(xí)和相似性度量,提升特征的鑒別能力。文獻[6]中提出用卷積神經(jīng)網(wǎng)絡(luò)進行圖像空域重建,得到與輸入圖像尺寸一致的空域特征圖,不需要特征對齊過程,算法借鑒字典學(xué)習(xí)中重建誤差來計算不同的空域特征圖的相似度。文獻[7]中提出了一個PCB(Part-based Convolutional Baseline)分塊模型,使用RPP(Refined Part Pooling)網(wǎng)絡(luò)使每個相似的塊對齊。因為RPP網(wǎng)絡(luò)屬于后續(xù)處理操作,所以該網(wǎng)絡(luò)模型不能使用端到端的方式進行訓(xùn)練。除此之外單一固定的局部尺寸劃分也并不能充分地提取出有效的局部信息。文獻[8]中用一種互補的注意力機制用于學(xué)習(xí)一組融合特征——全局和局部特征,用于最大化它們的互補優(yōu)勢并且能夠兼具好的分辨性以及結(jié)構(gòu)簡便的特點。以上這些方法僅利用行人的全局特征和部分局部特征,當(dāng)檢測目標(biāo)存在關(guān)鍵部分信息缺失的情況時,這些特征并不能提供良好的辨別能力。而本文所述的注意力機制網(wǎng)絡(luò)可以在行人某些關(guān)鍵信息缺失情況下,通過增強圖像空間像素特征的權(quán)重,提取行人顯著特征,提高行人重識別的精度。
本文提出一種基于注意力機制的行人重識別網(wǎng)絡(luò),該網(wǎng)絡(luò)以ResNet50 網(wǎng)絡(luò)為基礎(chǔ),融合注意力機制,構(gòu)建行人重識別網(wǎng)絡(luò)模型。通過ResNet50 網(wǎng)絡(luò)提取行人特征,再結(jié)合注意力機制來增強圖像空間像素特征,然后融合這兩種特征從而得到行人的顯著屬性特征,進一步提升行人重識別的識別精度。此外本文還將隨機擦除應(yīng)用到行人圖像預(yù)處理中,通過圖像隨機擦除方法來添加圖像噪聲,使網(wǎng)絡(luò)的魯棒性得到提高;在實際環(huán)境中,通過隨機擦除能夠生成不同樣式的圖片,可以彌補行人圖像數(shù)據(jù)欠缺,緩解網(wǎng)絡(luò)過擬合問題。
如圖1 所示,本文的網(wǎng)絡(luò)模型是由骨干網(wǎng)絡(luò)、注意力網(wǎng)絡(luò)和全連接層構(gòu)建的整個行人重識別網(wǎng)絡(luò)架構(gòu)。骨干網(wǎng)絡(luò)采用ResNet50 網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),通過ResNet50 網(wǎng)絡(luò)前兩層layer1 層和layer2 層提取行人淺層特征;注意力機制網(wǎng)絡(luò)分為主干分支和旁干分支,將骨干網(wǎng)絡(luò)提取的行人淺層特征輸入到注意力網(wǎng)絡(luò)兩分支中,融合兩部分特征,得到行人特征,通過結(jié)合兩階段注意力機制網(wǎng)絡(luò)提取的特征,融合得到行人顯著特征,將提取的特征通過全連接層進行分類識別。

圖1 行人重識別網(wǎng)絡(luò)模型Fig. 1 Pedestrian re-identification network model
在深度學(xué)習(xí)中,為了避免網(wǎng)絡(luò)出現(xiàn)過擬合問題,提高網(wǎng)絡(luò)的泛化能力,需要充足的訓(xùn)練樣本。而在現(xiàn)實環(huán)境中,由于各種原因?qū)е聰?shù)據(jù)量欠缺,因此需要進行數(shù)據(jù)增強操作,以增加數(shù)據(jù)集。傳統(tǒng)的數(shù)據(jù)增強方式有裁剪,翻轉(zhuǎn)以及添加噪聲等方式,這些方式能夠增加訓(xùn)練集來提高網(wǎng)絡(luò)的泛化能力。隨著深度學(xué)習(xí)中網(wǎng)絡(luò)深度不斷加深,傳統(tǒng)的數(shù)據(jù)增強方式無法滿足各類場景需求,而在行人重識別的應(yīng)用場景中,由于攝像機場景、角度以及光照等因素給行人重識別帶來影響,學(xué)習(xí)的深度網(wǎng)絡(luò)不能很好地識別行人圖像。本文采用隨機擦除法對數(shù)據(jù)進行預(yù)處理,增加數(shù)據(jù)集的數(shù)量來更好地訓(xùn)練網(wǎng)絡(luò),提高網(wǎng)絡(luò)泛化能力,有利于深度網(wǎng)絡(luò)提取更為顯著的特征。該算法過程如下:
1)設(shè)置隨機擦除概率。假設(shè)圖片隨機擦除的概率為P,則圖片不擦除概率1-P。隨機選擇圖像中的矩形區(qū)域Ie,并將矩形區(qū)域賦值隨機像素點。
圖像區(qū)域的面積:

其中:W為圖像的寬,H為圖像的高。
2)設(shè)置隨機擦除矩形區(qū)域的參數(shù)。擦除矩形的面積Se=rand(sl,sh)×S,其中sl、sh是人工設(shè)置的最小值和最大值,通過隨機擦除矩形的高和寬:

其中re為擦除矩形的高寬比,通過隨機產(chǎn)生。初始化得到Se。
3)在圖像中隨機產(chǎn)生一個點Q(xe,ye),滿足下列條件:

其 中:xe為Q的 橫 坐 標(biāo),ye為Q的 縱 坐 標(biāo),W為 圖 像 的 寬,(xe,ye,xe+We,ye+He)是選定的隨機擦除區(qū)域。
4)給擦除區(qū)域賦值隨機[0,255]像素,并輸出預(yù)處理圖像。
視覺注意力機制是人類視覺所特有的大腦信號處理機制。人類視覺通過快速掃描全局圖像,獲得需要重點關(guān)注的目標(biāo)區(qū)域,也就是一般所說的注意力焦點,而后對這一區(qū)域投入更多注意力資源,以獲取更多所需要關(guān)注目標(biāo)的細(xì)節(jié)信息,而抑制其他無用信息。當(dāng)前一些研究也將注意力機制應(yīng)用于行人重識別中,大多數(shù)方法結(jié)合局部特征信息和全局信息融合的注意力機制。文獻[8]提出了一種多任務(wù)學(xué)習(xí)模型共同學(xué)習(xí)硬區(qū)域級和空間特征級注意力產(chǎn)生更多有辨別力的特征表示來提高識別精度;文獻[9]提出使用行人姿勢信息來學(xué)習(xí)注意力掩模件作為行人局部特征信息,然后結(jié)合全局和局部特征融合得到最終行人特征。本文所述注意力機制方法與當(dāng)前所作的注意力機制有所不同,當(dāng)前更多的注意力機制提取某個局部特征并結(jié)合全局特征來提高行人重識別精度,而本文所述方法主要通過增強圖像全局空間像素特征信息,提高行人重識別精度,同時能夠抑制無用的特征信息,增強網(wǎng)絡(luò)魯棒性。圖2為注意力機制的網(wǎng)絡(luò)框架。該網(wǎng)絡(luò)由主干分支和旁干分支兩部分組成,用來提取深度特征。首先通過預(yù)訓(xùn)練網(wǎng)絡(luò)ResNet50的前兩層網(wǎng)絡(luò)提取行人淺層屬性信息,對其進行最大池化操作,增強圖像的感受野,有助于為后面注意力網(wǎng)絡(luò)的特征提取。圖片的特征信息通過主干分支一系列的卷積操作,提取行人特征,而旁干分支通過一系列的下采樣操作,逐漸提取高層特征并增大模型的感受野,再通過相同數(shù)量的上采樣操作將特征的尺寸放大到原來輸入特征的尺寸,得到分支行人特征。最后將兩部分特征進行融合得到:

其中:M(x)是注意力機制網(wǎng)絡(luò)旁干分支特征,F(xiàn)(x)是主干分支特征,H(x)融合得到的行人顯著特征。M(x)的最后輸出激活函數(shù)是Sigmoid函數(shù),輸出范圍為(0,1),使用該函數(shù)目的為了前后兩層的提取的特征帶來太大的差異和擾動,同時能夠進一步地抑制不重要的信息。當(dāng)M(x)為零時,只有F(x)行人特征提取,這樣不會導(dǎo)致整個網(wǎng)絡(luò)的特征屬性提取造成較大損失,還能優(yōu)化整個網(wǎng)絡(luò),提取顯著特征,從而最后融合得到最終行人特征。
對兩部分特征融合的過程中,旁干分支特征相當(dāng)于對主干分支特征中每個像素加權(quán),能夠增強主干特征的顯著性,抑制無意義的特征從而得到行人顯著特征。
本次實驗使用損失函數(shù)是交叉熵?fù)p失函數(shù)[10],能夠?qū)W習(xí)到更具判別力的特征。
交叉熵?fù)p失通過行人重識別網(wǎng)絡(luò)最后分類softmax函數(shù)輸出預(yù)測行人類別概率與標(biāo)簽?zāi)繕?biāo)概率進行損失評估,公式如下:

其中:k∈{1,2,…,K}表示行人重識別網(wǎng)絡(luò)輸出行人類別,K為訓(xùn)練集行人類別數(shù)量,通過行人重識別網(wǎng)絡(luò)輸出p(k)代表輸入圖像屬于k類的預(yù)測概率,q(k)代表真實概率。
通過最小化總訓(xùn)練目標(biāo)L1來訓(xùn)練整個基于注意力機制的行人重識別網(wǎng)絡(luò),通過歐氏距離來計算查詢圖與圖片庫圖像的相似性,并以概率從大到小的方式進行排序,最后得到重識別的精度。
本文使用的實驗平臺在Ubuntu16.04 系統(tǒng)、Intel I5 處理器、16 GB 內(nèi)存以及GeForce GTX 1070 顯卡的硬件環(huán)境下,使用微調(diào)的預(yù)訓(xùn)練ResNet50 網(wǎng)絡(luò)分別在兩大行人重識別數(shù)據(jù)集Market1501[11]和DukeMTMC-reID[12]上進行實驗。
Market1501 數(shù)據(jù)集是大學(xué)校園內(nèi)收集的大規(guī)模行人重識別數(shù)據(jù)集,它包括19 732 個行人圖像,3 368 個查詢圖像和12 936 個從6 個不同攝像機收集的訓(xùn)練圖像。訓(xùn)練集有751 個身份,測試集有750 個身份不重疊。本研究使用全部12 936個檢測到的圖像來訓(xùn)練網(wǎng)絡(luò)。
DukeMTMC-reID 數(shù)據(jù)集包含由8 個高分辨率相機拍攝的1 812個身份共計36 411個圖像。該數(shù)據(jù)集由702個身份共有16 522 個圖像組成訓(xùn)練集,其他702 個身份的2 228 個查詢圖像和17 661個行人圖像庫圖像組成測試集。
本文使用兩個評價標(biāo)準(zhǔn)來評價所有數(shù)據(jù)集上的行人重識別方法性能。
第一個評價標(biāo)準(zhǔn)是累積匹配特征(Cumulative Matching Characteristic,CMC)曲線[10],它表示了在前k個匹配結(jié)果中找到正確的匹配項的概率值。如果Rank-k的識別率為P,它表示正確的目標(biāo)對象在排名結(jié)果的前k名的概率是P。通常,在評價算法的行人識別率時,考慮Rank1 到Rank20。假設(shè)給定一個含有M個行人樣本的查詢集Q和N個行人的圖像庫O,特征向量分別為Q=[X1,X2,…,XM]和O=[Y1,Y2,…,YN],將兩部分特征進行余弦相似性比較,得到前n個候選集余弦距離最小的排名列表,通過排名列表映射到圖像庫得到行人ID序號T=(t1,t2,…,tn),則CMC曲線可以根據(jù)下列公式得出:

第二個評價標(biāo)準(zhǔn)是平均精度均值(mean Average Precision,mAP),它是平均精度(Average Precision,AP)的均值,可以把行人重識別看作一個目標(biāo)檢索問題,使用mAP 來度量。AP和mAP公式如下:

其中:r表示檢索圖像的序號;p(r)表示第r序號圖像的比例;a(r)當(dāng)r與待識別圖像匹配時為1,否則為0;m表示與待識別圖像匹配圖像的個數(shù)。

其中Q表示待識別圖像的個數(shù)。
首先將數(shù)據(jù)集進行隨機擦除處理,實驗中將擦除的概率設(shè)置為不同值,同時將圖片的尺寸轉(zhuǎn)換為224 像素×224 像素大小,訓(xùn)練時設(shè)置圖片的bachsize 是32,epoch 為60。實驗中通過設(shè)定不同的隨機擦除概率來檢驗行人重識別的精度。圖3(a)為在Market1501 和DukeMTMC-reID 數(shù)據(jù)集上不同隨機擦除的概率對Rank1的影響,可以看出當(dāng)隨機擦除概率為0.5時,Rank1 達 到 最 優(yōu) 值。 圖3(b)為 在Market1501 和DukeMTMC-reID 數(shù)據(jù)集上不同隨機擦除的概率對mAP 的影響,可以看出當(dāng)隨機擦除概率為0.5時,mAP達到最優(yōu)值。

圖3 隨機擦除概率對Rank1和mAP的影響Fig. 3 Effect of random erasure probability on Rank1 and mAP
本文將使用平均精度均值(mAP)和累積匹配特征兩個指標(biāo)來衡量實驗得到模型的性能,Rank-k和mAP 值越大,說明重識別的準(zhǔn)確度越高。
從表1 中看出將隨機擦出數(shù)據(jù)增強和注意力機制網(wǎng)絡(luò)應(yīng)用到基礎(chǔ)的ResNet50 深度網(wǎng)絡(luò)中,精度提高較為明顯。其中L1 表示隨機擦除數(shù)據(jù)增強,L2 表示注意力機制。對于Market1501,通過基礎(chǔ)網(wǎng)絡(luò)ResNet50 添加隨機擦除數(shù)據(jù)增強的行人重識別方式精度有一定的提升,而基礎(chǔ)網(wǎng)絡(luò)ResNet50添加注意力機制網(wǎng)絡(luò)的實驗結(jié)果也有較大提升,其中Rank1提升4 個百分點,mAP 提升3 個百分點。通過對基礎(chǔ)網(wǎng)絡(luò)ResNet50網(wǎng)絡(luò)將隨機擦除和注意力機制網(wǎng)絡(luò)同時結(jié)合效果提升更為明顯,其中Rank1 相較基礎(chǔ)網(wǎng)絡(luò)提升6 個百分點,mAP提升5個百分點左右。
對于DuKeMTMC-reID,將基礎(chǔ)網(wǎng)絡(luò)ResNet50 網(wǎng)絡(luò)結(jié)合隨機擦除和注意力機制可以得出Rank1 提升了12 個百分點左右,mAP提升了11個百分點左右。
通過對比實驗可以得出隨機擦除和注意力機制網(wǎng)絡(luò)對行人重識別精度都有提升作用。

表1 Market1501和DukeMTMC-reID數(shù)據(jù)集下不同網(wǎng)絡(luò)分支的實驗結(jié)果 單位:%Tab. 1 Experimental results of different network branches on Market1501 and DukeMTMC-reID datasets unit:%
表2、3 顯示了本文的方法(Ours)與非深度學(xué)習(xí)行人重識別方法[11,13]和其他深度學(xué)習(xí)網(wǎng)絡(luò)方法[14-17]在兩個數(shù)據(jù)集上的結(jié)果進行比較,可得本研究采用的方法可以獲得較好的效果。
在Market1501 數(shù)據(jù)集上,比TriNet[16]網(wǎng)絡(luò)的深度學(xué)習(xí)方法Rank1高5個百分點左右;基于注意力機制的網(wǎng)絡(luò)中AACN網(wǎng)絡(luò)[9]比本研究的注意力機制網(wǎng)絡(luò)在Rank1 低3 個百分點左右,在mAP 精度比本研究低4 個百分點左右;而在HAC 注意力機制精度比本研究在Rank1和mAP 略高1個百分點左右。
在DukeMTMC-reID 數(shù)據(jù)集上,在Rank1 上比傳統(tǒng)的行人重識別方法LOMO+XQDA[13]和Bow+kissme[11]高40 個百分點左右,比生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[17]高10 個百分點左右,比SVDnet[15]網(wǎng)絡(luò)略 高 出1 個百分點 左右;而Rank1 和mAP 相對于基礎(chǔ)網(wǎng)絡(luò)ResNet50 有很大的提升,特別是mAP有11%左右的提升,通過重新排序Re-Rank[18]方法有更大程度提升。基于注意力機制的網(wǎng)絡(luò)中AACN 網(wǎng)絡(luò)[9]比本研究的注意力機制網(wǎng)絡(luò)在Rank1低1個百分點左右,在mAP 精度比本研究低1 個百分點左右;而在HAC 注意力機制精度比本研究在Rank1和mAP 略高1個百分點左右。
綜上所述,隨機擦除的方式進行數(shù)據(jù)增強和注意力機制網(wǎng)絡(luò)結(jié)合的深度學(xué)習(xí)網(wǎng)絡(luò)能夠提取行人的顯著特征,提高行人重識別的精度。
如圖4,第一列為待識別的行人,右側(cè)由左至右為相似度分?jǐn)?shù)最高的10幅圖片,即Rank-10,該識別結(jié)果中只有第一行的圖像中排序第10位行人類別識別錯誤。

表2 Market1501數(shù)據(jù)集不同方法實驗結(jié)果比較 單位:%Tab. 2 Comparison of experimental results of different methods on dataset Market1501 unit:%

圖4 Market501和DukeMTMC-reID兩大數(shù)據(jù)集上重識別的Rank10結(jié)果示例Fig. 4 Rank10 re-identification result examples on datasets Market501 and DukeMTMC-reID

表3 DukeMTMC-reID數(shù)據(jù)集不同方法實驗結(jié)果比較單位:%Tab. 3 Comparison of experimental results of different methods on dataset DukeMTMC-reID unit:%
針對現(xiàn)實環(huán)境下行人重識別場景多變、光照、攝像機角度不同等問題,導(dǎo)致行人數(shù)據(jù)量不足,圖片像素模糊,使得行人重識別精度不高,本文采用一種數(shù)據(jù)增強的方法,將行人圖片以一定的概率進行擦除,從而生成同一個行人的不同圖片,提高網(wǎng)絡(luò)的魯棒性;然后設(shè)計了一種注意力機制網(wǎng)絡(luò),將預(yù)訓(xùn)練的深度網(wǎng)絡(luò)和注意力網(wǎng)絡(luò)結(jié)合,提取更加顯著的特征,因此能夠提高行人重識別的精度。在兩個大型的行人重識別數(shù)據(jù)集Market1501 和DukeMTMC-reID 上實驗結(jié)果表明,行人重識別性能都有明顯提升,超過很多方法。如何找到更好的方法提取更加顯著特征以及在更多的數(shù)據(jù)集上進一步提升行人重識別的精度將是下一步工作。