韓建棟,李曉宇
(山西大學計算機與信息技術學院,太原 030006)
行人重識別主要研究對于多個攝像頭下不重疊區域的某一個指定目標行人如何進行快速準確的重新識別的問題。在不斷增長的社會需求的推動下,行人重識別是一項極具挑戰性的課題,也有著廣泛的應用前景和研究價值,可以有效彌補目前固定攝像頭的視覺局限,廣泛應用于智能視頻監控、智能安保等領域。行人重識別一詞最早是在2005 年,由Zajdel等[1]提出,指的是在同一個人離開相機視野后重新進入時,可以重新識別出這個人。該方法主要是對于每一個行人都假設存在唯一的身份標簽,然后通過動態貝葉斯網絡對標簽和特征之間的概率進行編碼處理,對于重新進入視野的行人通過推斷身份標簽的分布來確定其身份。在此基礎上,研究人員主要從特征表示和度量學習[2-3]兩個方面進行研究。其中,特征表示主要致力于低級特征,如局部描述符、顏色直方圖和人體姿勢[4-5]等。
近年來,隨著深度學習在計算機視覺領域的廣泛應用,國內外眾多研究者們開始研究利用深度學習來解決行人重識別問題。早期的基于深度學習方法中,人們將行人重識別任務視為分類任務或者驗證任務,Chen 等[6]提出一種分類子網絡模型,首先對輸入的若干對目標行人圖像進行預測行人身份信息操作,然后計算出兩張圖像的誤差損失。Lin 等[7]則是利用其他一些目標行人的性別、衣著等屬性信息作為輔助,使得模型的泛化能力有了很大的提升。此外,國內學者們從數據集的角度提出了有效的方法,Zhong 等[8]提出了一種新的方法,通過圖像風格遷移增加不同風格的樣本數量,從而解決了數據集中個人身份稀缺的問題,并且通過學習不同相機之間不變的特征來提高重識別性能。而Wei 等[9]則是利用行人遷移生成對抗網絡(Person Transfer Generative Adversarial Network,PTGAN)來實現對行人圖片的背景遷移,進而提出一個大型的行人重識別數據集MSMT17(Multi Scene Multi Time person Re-ID dataset)。隨著研究的深入,研究學者們關注到基于全局特征的方法存在一個不可避免的問題,即很難獲取到目標行人圖像更深層的細節信息,因此,研究者們開始考慮局部特征與全局特征的結合,Varior 等[10]通過把目標行人圖像水平等分,分別按順序送入模型中訓練,最后將幾部分特征融合;劉紫燕等[11]通過注意力機制對行人的全局特征和局部特征進行加權,從而提取行人顯著特征,提高行人重識別的準確率。但是,上述方法在特征融合的過程中,只是局部特征和全局特征的聚合,沒有考慮到由于行人姿態和位置發生變化時行人特征在尺度上也會逐漸改變,因此,傳統的特征融合方法在網絡的傳遞中,不能很好地保留不同尺度的行人特征,更容易受到來自不相關區域的信息干擾。
針對上述問題,本文根據行人重識別任務特性對條形池化網絡(Strip Pooling Network,SPNet)[12]中提出的混合池化模塊(Mixed Pooling Module,MPM)和殘差金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模塊進行改進,將其應用到行人重識別任務的研究中,從多尺度的特征融合角度提升行人重識別模型的性能;并且在殘差塊內引入條形池化模塊(Strip Pooling Module,SPM),在神經網絡的傳遞過程中,水平和豎直方向的池化操作有效捕獲了遠距離上下文信息,降低了背景環境對行人識別的影響。
本文提出了一種基于多尺度特征融合的行人重識別方法,采用文獻[13]提出的基線作為骨干網絡,基本網絡架構采用ResNet50 實現。首先,在殘差塊內引入條形池化模塊,通過水平和豎直方向的池化操作來捕獲遠距離的上下文信息,有效降低行人周圍不相關特征區域的干擾;然后,在ResNet50[14]的layer1 層之前采用混合池化模塊進行多尺度的特征提取,聚合不同尺度的上下文信息,幫助網絡解析場景結構;最后,在ResNet50 之后通過殘差金字塔池化模塊,進一步地保留網絡結構中的多尺度特征,以降低周圍無關環境對行人的影響,從而提升行人重識別任務的性能。整體網絡結構如圖1 所示,其中,BN(Batch Normalization)表示批標準化,將輸出歸一化為0~1,x表示殘差塊的輸入特征。

圖1 整體網絡結構Fig.1 Overall network structure
考慮到現實場景中存在一些相對狹窄的物體,可能對行人識別產生干擾,如路燈、電線桿等。采用文獻[12]所提出的條形池化模塊,利用水平和豎直的條形池化操作獲取不同空間維度的遠程上下文信息,幫助網絡改善場景解析,從而使得網絡能更好地降低無關信息的干擾,進一步提升行人重識別的準確率。SPM 結構示意圖如圖2 所示。其中1D conv 表示一維卷積,Expand 表示像素的復制操作,1×1 表示卷積核大小為1。

圖2 SPM結構示意圖Fig.2 Schematic diagram of SPM structure
首先,將特征x同時輸入到兩個水平和豎直的條形池化層,經過一維卷積操作后分別得到一個水平和豎直的特征張量。然后,通過Expand 操作分別沿著豎直和水平方向復制得到原圖大小的特征圖,并將所得結果與輸入特征對應相乘,這樣使得輸出張量與輸入張量建立聯系,幫助網絡對場景構建遠程上下文信息,從而實現性能提升。
現有的卷積神經網絡由于其卷積核大小固定,在圖像中只能提取到單一尺度的語義信息,因此比感受野大得多或者小得多的特征并不完整,容易影響行人特征的識別。本文采用文獻[12]中所提出的MPM,提取不同尺度的特征信息來提高網絡對于行人特征的判別能力。具體地,在條形池化的基礎上,通過結合金字塔池化模型[15]在捕獲長距離全局信息的同時關注短距離的信息關系,其中,金字塔池化模型分別采用2×2、3×3、4×4的池化核,并將前兩個池化后的結果上采樣后與第3 個池化的結果疊加,將疊加結果與條形池化模塊的結果進行融合。
考慮神經網絡的淺層加入多尺度的特征信息,能夠在網絡的傳遞過程中提取到更多的完整語義信息,從而提升網絡對場景的解析能力,因此,在ResNet50 網絡結構的殘差塊之前引入MPM。MPM 如圖3 所示,其中,up 表示上采樣操作,2D conv 表示3×3 的卷積核,1D conv 表示1×3 或3×1 的卷積核,Expand表示像素沿豎直和水平方向復制。

圖3 MPM結構示意圖Fig.3 Schematic diagram of MPM structure
最后,根據行人重識別任務的特性對混合池化模塊進行調整,對于輸入的特征,經過MPM 聚合了不同尺度的特征。為了獲得更加豐富和密集的多尺度特征信息,本文將MPM 提取到的多尺度特征再次輸入到MPM 中,得到新的特征圖。通過比較該模塊不同循環次數的首位命中率(Rank1)和平均精度均值(mean Average Precision,mAP)得出最佳循環次數。實驗結果表明,循環兩組混合池化模塊形成一個混合池化組,可以實現更優的性能,部分實驗結果如表1所示。

表1 不同循環次數性能比較 單位:%Tab.1 Performance comparison of different cycle numbers unit:%
為了進一步保留網絡中的有效特征,在ResNet50 之后,采用文獻[16]所提出的Residual ASPP 模塊,通過空洞卷積[17]的組合形成ASPP,實現較高的學習效率,以擴大感受野的方式提取多尺度的特征,進一步融入不同尺度的特征信息,從而有效克服了周圍無關環境的干擾,提升模型的性能。考慮到深層的網絡中包含較多的行人相關的高級語義特征,而文獻[16]中層疊3次Residual ASPP模塊的方式可能會導致一些無關信息的混入,影響對行人的判別。因此,本文對該結構進行相應改進,在本文任務中,只采用一層的Residual ASPP模塊。
此外,該模塊中不同的空洞率對于特征的提取效果也不相同,過大的空洞率變化會導致提取到的特征尺度變化幅度較大,對于中間尺度的特征信息網絡不能很好地保留,基于此,本文根據行人重識別任務的特性調整空洞卷積的空洞率,并且通過實驗對比,得到效果最佳的空洞率選擇,部分實驗結果如表2所示。

表2 空洞率對性能影響的比較 單位:%Tab.2 Impact comparison of dilated rate on performance unit:%
最后,本文通過6個空洞率分別為1、2、3、6、12、24的空洞卷積塊的疊加,然后采用1×1 的卷積進行降維,最后傳遞到最后一層的輸出。Residual ASPP 模塊圖如圖4 所示。Dilated表示空洞卷積的空洞率,Conv表示1×1的卷積。

圖4 Residual ASPP模塊結構示意圖Fig.4 Schematic diagram of residual ASPP module structure
在本文中,沿用了文獻[13]所提出的損失函數。將行人重識別的訓練過程視為圖像分類問題,即每個身份都是一個不同的類別。在測試階段,將網絡的輸出層用作特征提取器,給定帶有標簽yi的輸入圖像xi,將xi的預測概率識別為yi類,并用softmax 函數(由p(yi|xi))進行編碼,然后通過交叉熵計算身份損失。損失函數如式(1)所示:

其中n代表每批中訓練樣本的數量。
本文實驗選用Market-1501[18]、CUHK03[19]、DukeMTMCreID[20]以及MSMT17[9]四個公開數據集進行實驗。
Market-1501數據集創建于2015年夏天,是由清華大學負責取景拍攝完成,數據集是通過6 個不同分辨率的攝像頭設備采集而來,包含1 501 個不同身份的行人,其中在訓練集中含有751 個不同身份行人的12 936 張圖像,測試集中的候選圖像集含有750 個不同身份行人的19 732 張圖像,查詢庫中包含3 368張等待查詢的目標行人圖像。
CUHK03 數據集是由香港中文大學利用5 對攝像頭設備進行拍攝制作的,其中共包含1 467 個行人的14 097 張圖像。該數據集每一張行人圖像是由一對成對的兩個攝像頭設備拍攝而來的。
DukeMTMC-reID 數據集是DukeMTMC 數據集基于圖像的行人重識別子集。數據集是在杜克大學校園里采集的,它是通過8 個不同位置的高分辨率相機拍攝形成的,數據集總共有1 812 個行人身份,其中包含408 個帶有干擾身份的行人圖像。
MSMT17 數據集是在CVPR2018 會議上提出的一個更接近真實場景的大型數據集,包含126 441 個邊界框,4 101 個身份,采用了安放在校園內的15 個攝像頭,其中包含12 個戶外攝像頭和3個室內攝像頭。
本文采用3 個評價指標來評估所有數據集上的行人重識別算法性能:
1)首位命中率(Rank1),即在圖庫中第一次匹配成功的概率。
2)平均精度均值(mAP),它是平均精度(Average Precision,AP)的均值,表示在相似序列圖像中和等待查詢的某一確定的目標行人身份信息相同的圖像與序列中總圖像數目之比,是對全部等待查詢的某一確定目標行人的平均精度的平均值。AP和mAP的計算式如式(2)和(3)所示:

其中:r表示所檢索圖像的序號;P(r)表示檢索結果中相關樣本的數量占檢索樣本總數的比例;rel(r)表示檢索圖像序號的二元函數,是相關圖像則函數值為1,否則為0;m表示候選集中所有和查詢圖像匹配的待檢索圖像個數。
3)采用了文獻[13]所提出的評價指標:平均逆負懲罰(mean Inverse Negative Penalty,mINP),該指標評估了檢索最難的正確匹配項的能力,為測量行人重識別算法性能提供了補充。對于一個良好的行人重識別算法,應該盡可能準確地檢索目標人員,即所有正確匹配都應具有較低的排名。在實際應用中,對于方法得到的檢索排名列表,需要進行進一步人工調查,考慮到不應該從檢索最高排名列表中忽略目標人員,因此,最難正確匹配的排名位置決定了后續任務的工作量,即相同精度下,最難正確匹配排名越大,后續人工調查工作量越大。首先,通過負懲罰(Negative Penalty,NP)中找到最難正確匹配,其中,表示最難匹配的排名,|Gi|表示查詢第i圖像的正確匹配總數。計算式如下:

本文算法包含3 個消融因素,即SPM、MPM 和Residual ASPP 模塊。為驗證本文算法的有效性,在Market-1501 數據集上采用如下方式進行消融分析:
1)采用文獻[13]中的基礎網絡結構作為基準網絡Baseline;
2)僅在Baseline中添加SPM;
3)僅在Baseline中添加MPM;
4)僅在Baseline中添加Residual ASPP模塊;
5)對2)中添加MPM 和Residual ASPP 模塊即為本文最終算法。消融分析結果如表3所示。

表3 消融分析結果 單位:%Tab.3 Ablation analysis results unit:%
從表3中結果可以看出,本文模型中3個消融因素都可以有效提高網絡的性能,在多種評價指標上都有明顯提升。
將本文提出的算法模型分別在各公開數據集上與最近相關工作進行對比,其中,PIE(ResNet50)[21]是一種利用位姿不變嵌入(Pose Invariant Embedding,PIE)作為行人描述符,通過構建行人邊界框來描繪一個直立行走的人作為行人重識別的參考;注意力感知組成網絡(Attention-Aware Compositional Network,AACN)[22]是一種屬性注意力網絡,通過整合多種人體屬性和注意力圖,利用分類網絡框架來處理重識別問題;HA-CNN(Harmonious Attention Convolution Neural Network)[23]是一種注意力學習和特征學習相結合的方法;文獻[24]結合多種訓練技巧提出了行人重識別方法;多樣化注意力行人重識別網絡(Attentive But Diverse person Re-ID Network,ABDNet)[25]將一對互補的注意力模塊融入到網絡中;文獻[13]方法是在文獻[24]基礎上提出的一種改進方法。
表4~6 分別給出了本文方法與其他行人重識別方法在數據集Market-1501、DukeMTMC-reID、CUHK03、MSMT17 上的結果對比。從表4~6 中結果可以看出,本文方法可以獲得較好的性能。這主要得益于本文方法通過水平和豎直方向的池化操作以及不同尺度的池化操作聚合多尺度的上下文信息,然后,利用空洞卷積的組合進一步保留網絡中的不同尺度特征,實現場景結構的高效解析,從而提升了網絡的特征提取能力。如表4 所示,在Market-1501 數據集上,相較于文獻[11]方法和HA-CNN 特征融合方法,本文所提出的多尺度特征融合方法Rank1提高了6.4和6.9個百分點,而mAP則分別提高了3.2 和17.2 個百分點。相較于生成對抗網絡(Generative Adversarial Network,GAN)[8]提出的基于圖像風格遷移的方法,本文方法的Rank1 和mAP 分別提高了17.8 和32.3 個百分點。

表4 Market-1501數據集上不同方法實驗結果比較 單位:%Tab.4 Experimental results comparison of different methods on Market-1501 dataset unit:%
如表5所示,在DukeMTMC-reID 數據集上,本文方法比文獻[11]方法和HA-CNN 在Rank1 上分別提高了5.5 和11.6 個百分點,mAP 比文獻[11]方法提高了0.4 個百分點,而比HACNN方法結果提高20個百分點。

表5 DukeMTMC-reID數據集上不同方法實驗結果比較 單位:%Tab.5 Experimental results comparison of different methods on DukeMTMC-reID dataset unit:%
如表6 所示,在數據集CUHK03 和MSMT17 上,將本文方法與未采用本文結構的相關工作進行對比,其中文獻[13]方法為本文所采用的基線模型,而該基線模型是在文獻[24]基礎上改進后提出的方法。實驗結果顯示,本文方法在各項指標上均有提升。

表6 CUHK03和MSMT17數據集上不同方法實驗結果比較 單位:%Tab.6 Experimental results comparison of different methods on CUHK03 and MSMT17 dataset unit:%
綜上所示,本文所提出的基于多尺度特征融合的方法通過在網絡淺層提取多尺度特征信息,并在神經網絡之后再次通過多尺度空洞卷積操作,有效保留了網絡中的多尺度行人特征,提高了行人重識別任務的準確率。
如圖5 所示,為本文方法在Market-1501 數據集上的Rank10 結果,從左到右分別是待查找的目標行人query,以及相似度最高的10幅圖片,即Rank10,可以看出,該識別結果中只有第一行的圖像中排序第6 位行人類別識別錯誤。如圖5(b)中的識別結果8 中由于受光照影響,行人與背景圖像區分不明顯,以及識別結果9和10中受場景無關物體干擾,在行人特征易混淆的復雜場景下,本文方法仍能準確識別出目標行人。這主要是因為本文提出的多尺度特征融合方法從不同的尺度有效獲取更多的行人判別特征,利于區分行人和無關場景,從而可以準確判斷出該行人。

圖5 Market-1501數據集上行人重識別的Rank10結果Fig.5 Rank10 results of pedestrian re-identification on Market-1501 dataset
本文構建了一個基于混合多尺度特征提取的行人重識別方法,通過多層次、不同尺度的池化操作同時聚合全局和局部的上下文信息,并且加入Residual ASPP 模塊來進一步提升網絡的全局上下文信息表示能力,幫助網絡更加有效地對場景結構進行解析,從而提升行人重識別的準確率。本文方法在Market-1501、CUHK03、DukeMTMC-reID、MSMT17 等公開數據集上的實驗結果表明,相較于AACN、HA-CNN、ABD-Net 等行人重識別方法,其各項性能指標均有明顯提升,驗證了該方法的可行性和有效性。下一步工作將從提高特征的利用效率的角度進一步提升行人重識別模型的準確率。