李艷鳳,張斌,孫嘉,陳后金,朱錦雷
(北京交通大學電子信息工程學院,北京 100093)
行人再識別[1-2]用于解決非重疊視域中人員匹配的問題,是智能視頻分析技術的重要組成部分,可用于追蹤犯罪嫌疑人、尋找走失人員等,具有廣闊的應用前景[3]。近年來,行人再識別技術獲得了廣泛關注,成為計算機視覺領域的研究熱點。
早期的行人再識別研究主要依靠傳統方法,例如手工設計特征表達[4-5]和距離度量[6-7]。得益于深度學習的快速發展,越來越多的研究者使用深度學習來解決行人再識別問題。Yi 等[8]首次將深度神經網絡應用于行人再識別,采用端到端的網絡聯合進行特征提取與度量學習。近年來,由局部生成行人的細粒度特征方法被廣泛研究,并取得了較好的性能。Yao 等[9]提出部件損失網絡(PL-Net,part loss network)以同時最小化分類風險與表示學習風險。Sun 等[10]提出對特征圖進行均勻分割的基于部件的卷積基線(PCB,part-based convolutional baseline)網絡框架用于行人再識別,該方法將特征圖均分為多個局部特征圖分支,每個分支分別與行人ID 標簽計算損失。實現了圖像局部特征的提取,但忽略了全局特征表示。Fu 等[11]提出了水平金字塔匹配(HPM,horizontal pyramid matching)行人再識別方法。該方法同時實現了行人的全局特征和局部特征表示,在局部特征表示中進行多尺度池化,并在池化方式上,將全局特征平均池化(GAP,global average pooling)和全局特征最大池化(GMP,global max pooling)相結合,但該方法中大量的池化支路導致特征向量維度較大,需要將特征壓縮后再組合,從而造成信息丟失。
在實際應用場景中,監控視頻的攝像頭數量是不固定的,并且會增加,因此行人再識別是一個開放性的問題,其模型應具有適應開放環境的能力。為了更加符合實際場景的應用需求,研究人員開始關注跨數據集行人再識別方法。跨數據集行人再識別的任務是將一個數據集(源數據集)上訓練好的模型轉移到另一個數據集(目標數據集)上進行測試,希望獲得較好的識別性能。目前跨數據集行人再識別方法主要有兩類,具體如下。
1) 利用遷移學習知識減小源數據集與目標數據集數據分布的差異。Qi 等[12]關注攝像機之間不同的特征分布,利用遷移學習的思想設計了基于“相機感知”的域自適應方法,以減少2 個數據集之間的數據差異。Li 等[13]利用遷移學習中的最大平均差異度量損失使源數據集與目標數據集生成相似的特征分布來縮小2 個數據集間的差異。Huang 等[14]使用部件分割約束增強模型的泛化能力,實現域自適應行人再識別。Wang 等[15]提出遷移聯合屬性–類別深度學習(TJ-AIDL,transferable joint attributeidentity deep learning)的行人再識別方法。該方法使用雙支路網絡,上支路以行人類別信息作為標簽進行特征提取,下支路以屬性信息作為標簽進行特征提取,然后將訓練好的模型遷移到目標數據集進行行人識別方法。Lin 等[16]提出多任務中級特征對齊(MMFA,multi-task mid-level feature alignment)網絡實現跨數據集行人再識別。該方法基于源域與目標域共享中層特征空間的假設,使用源域–目標域中層特征對齊正則化項對網絡進行優化。Zhong 等[17]提出異質–同質學習(HHL,hetero-homogeneous learning)的行人再識別方法,通過同質學習實現相機不變性,通過異質學習實現域連通性。
2) 利用生成對抗網絡(GAN,generative adversarial network)將源數據集圖像轉換為目標數據集圖像的風格進行訓練。Wei 等[18]提出行人遷移生成對抗網絡(PTGAN,person transfer GAN),在保證行人本體前景不變的情況下,將源域圖像的背景轉換成目標域圖像的背景風格進行訓練。Deng 等[19]設計了相似度保持生成對抗網絡(SPGAN,similarity preserving GAN),在圖像生成過程中添加了自相似性及域不相似性限制。Liu 等[20]提出自適應遷移網絡(ATNet,adaptive transfer network)來實現跨數據集行人再識別。該方法將復雜的跨數據集遷移分為3 個子問題,然后對每個子問題分別進行風格遷移。
現有跨數據集方法一般致力于減小2 個數據集之間的數據分布差異,忽略了背景信息對識別性能的影響。Tian 等[21]研究了圖像背景對行人識別性能的影響,在使用僅包含背景的行人圖像進行測試時,也獲得了Rank-1 為5.2%的正確率。上述研究表明將整張行人圖像輸入行人再識別網絡中進行訓練,網絡在學習行人特征的同時,也會學習相應的背景特征。為降低背景信息的影響,本文提出了一種基于多池化融合與背景消除網絡的跨數據集行人再識別方法,該方法通過結合多池化融合(MPF,multi-pooling fusion)網絡與特征級有監督背景消除網絡,有效提升跨數據集行人再識別的性能。本文的主要貢獻如下:1) 構建了一種多池化融合MPF 網絡結構,能夠兼顧全局特征和局部特征,同時實現特征的多細粒度表示;2) 設計了一種特征級有監督背景消除網絡,將該網絡的特征激活損失函數與行人分類損失函數相結合為多任務學習損失,以監督網絡提取有用的行人前景特征。
本文方法的網絡結構如圖1 所示,包括多池化融合網絡和特征級有監督背景消除網絡。以ResNet50 網絡[22]作為主干網絡,以主干網絡得到的特征圖為輸入,構建多池化融合網絡,其包含4 個分支,其中,一個為全局特征分支,其他3 個為不同區域的局部分支。全局特征分支采用2 種不同細粒度的池化,且每種細粒度分別采用GAP 和GMP這2 種池化方式;其他3 個局部分支采用一種細粒度的GAP 和GMP 池化。輸出特征進行連接,得到6 個分支的特征。每個分支分別連接全連接(FC,fully connection)層用于行人分類,得到的預測結果與行人類別標簽進行計算交叉熵(CE,cross entropy)損失。特征級有監督背景消除網絡中,首先通過行人分割獲得行人掩碼,然后對主干網絡的特征圖進行Sigmoid 激活,并計算激活結果與行人掩碼的均方誤差(MSE,mean square error)損失。將CE 損失與MSE 損失之和作為本文方案的最終損失,以實現網絡模型提取有用的行人前景特征。
ResNet50 網絡常被用于行人再識別的主干網絡,但其單一的池化結構易造成大量信息丟失。為解決這一問題,提高特征的表征能力,本文構建了多池化融合網絡,其結構如圖1 下半部分所示。

圖1 網絡結構
全局特征對行人進行整體性的描述,而局部特征則針對不同局部區域對行人進行描述,因此全局特征和局部特征結合可以提高特征的表征能力。行人圖像通過ResNet50 網絡生成的特征圖被分為4個支路,一個支路為全局特征,3 個支路為不同區域的局部特征。為防止硬劃分破壞局部特征之間的連續性,本文采用有重疊劃分的方式來得到局部特征圖,并將特征圖有重疊地劃分為上、中、下三部分。全局特征圖和3 個局部特征圖如圖2 所示。

圖2 全局特征圖和局部特征圖
不同的池化方式具有不同的特點,GMP 輸出行人圖像特征的最大響應點,GAP 有利于提取全局特征信息。本文融合了GAP 與GMP,有利于提升特征的表示能力,然后對4 個支路的特征圖分別進行GAP 和GMP 處理。為了得到不同細粒度的特征表示,本文對全局特征圖進行2 種不同尺寸的池化,寬、高、通道的尺寸分別為1×1×2 048 和2×2×20 48。因此全局特征將生成2 種池化方式、2 種池化尺寸,共4 個特征向量。對于局部特征,每個局部特征圖的池化尺寸為1×1×2 048,分別采用GAP 和GMP這2 種池化方式,因此3 個局部支路共生成6 個尺寸為1×1×2 048 的特征向量。
將全局特征圖池化得到的2 個尺寸為2×2×2 048的特征向量分別展開,得到2 個尺寸為1×1×8 192的特征向量。對于3 個局部特征圖,將每種池化方式下的1×1×2 048 特征向量級聯,形成2 個新的尺寸為1×1×6 144 的特征向量。經過上述操作后,共得到6 個特征向量(GAP 方式下的2 個全局特征向量和1 個局部特征向量,GMP 方式下的2 個全局特征向量和1 個局部特征向量)。為降低特征向量的維度,分別對6 個特征向量進行1×1 卷積,得到6 個1 024 維的特征向量。訓練時,在6 個特征向量后分別連接全連接層用于分類,得到的分類結果分別與行人類別標簽計算交叉熵損失,多分類交叉熵損失函數如式(1)所示。

其中,i表示行人圖像索引,xi表示圖像Ii的特征向量,yi表示圖像Ii的行人ID 號,C表示訓練集中行人ID 的總數量,N表示每個批次讀取行人圖像的數量,{W,b}表示分類層的權重和偏置。
多池化融合網絡的損失函數LID為6 個支路損失函數之和,如式(2)所示,為第j個支路的損失。

本文設計的多池化融合網絡對全局特征進行不同類型和不同尺寸的池化操作,使多個特征向量與特征圖建立了不同的映射關系,實現了特征的多細粒度表示。對局部特征進行不同類型的池化操作,并以全局特征和局部特征對行人進行綜合表示,可有效提升特征的表征能力。
為降低背景信息的影響,本文構建了特征級有監督背景消除網絡,其結構如圖1 上半部分所示。本文方法并不是完全丟棄圖像的背景信息,而是使網絡自動學習適當消除背景,保留前景。
為了實現“背景消除”,首先需要對行人圖像進行前景分割。本文將全卷積神經網絡(FCN,fully convolutional network)[23]與宏–微對抗網絡(MMAN,macro-micro adversarial network)[24]結合進行前景分割。FCN 可以得到低分辨率行人圖像的大致分割輪廓,但分割不精細、對細節信息不敏感;對于高分辨圖像可以得到精確的分割結果,但對于低分辨率圖像易造成誤分割,將二者相結合可以彌補各自的不足。本文首先在行人分割數據集LIP(look into person)[25]上對MMAN 和FCN 的網絡模型進行訓練,然后將訓練得到的網絡模型分割行人再識別數據集。
為使網絡自動學習弱化背景,將ResNet50 網絡得到的特征圖進行Sigmoid 函數激活,生成二值激活結果圖,以監督特征提取網絡。二值分割結果要求圖像最大值接近1,最小值接近0,但直接使用Sigmoid 函數對特征進行激活,其激活結果的最大值和最小值并不接近1 和0,因此需要先對特征圖進行線性拉伸。根據Sigmoid 函數自變量與值域的關系,將特征圖線性拉伸[5,5]的取值范圍,則Sigmoid 函數的激活結果在(0,1)范圍。特征值的線性拉伸如式(3)所示。

其中,x表示拉伸前的特征值,y表示拉伸后的特征值,xmax和xmin表示拉伸前特征值的最大和最小值,ymax和ymin表示拉伸后的最大和最小特征值,取值分別為ymax=5,ymin=5。將線性拉伸后的結果作為輸入,經過Sigmoid 激活得到激活圖。計算激活圖和行人分割結果的MSE 損失,以監督網絡更多地提取行人前景特征。MSE 損失LMSE計算式為

其中,Mi表示行人圖像分割掩碼的第i個像素點取值,表示激活圖的第i個像素點取值,N表示圖像像素點的數量。
將CE損失與MSE損失之和作為本文方法的總體損失,并將其作為損失函數對網絡進行訓練,損失函數L如式(5)所示。

本 文 使 用 Market-1501[26]、DukeMTMCreID[27]、MSMT17[18]這3 個大規模行人再識別數據集評估本文方法的有效性。
Market-1501 數據集包含6 個攝像頭拍攝得到的32 217 張固定尺寸行人圖像,行人ID 數量為1 501 個。751 個行人ID 用于網絡模型訓練,750 個行人ID 用于測試。
DukeMTMC-ReID 數據集包含8 個攝像頭拍攝得到的36 411 張多尺寸行人圖像,行人ID 數量為1 404 個。訓練集包含702 個行人,其余行人作為測試集。測試集中有2 228 張行人圖像被選為查詢圖像,其余的17 661 張圖像(包括702個作為測試的行人圖像及408 個作為干擾的行人圖像)作為候選集。
MSMT17 數據集包含15 個攝像頭拍攝得到的126 441 張多尺寸行人圖像,有效行人ID 數量為4 101。訓練集包含1 041 個行人的32 621 張圖像,測試集包含3 060 個行人的93 820 張圖像。對于測試集,11 659 張圖像作為查詢集,其余82 161 張圖像作為候選集。
使用累計匹配特性(CMC,cumulative match characteristic)和平均準確率(mAP,mean average precision)作為評價指標。CMC 曲線主要反映模型的準確率,常以Rank-n的形式表現,Rank-n表示前n個匹配結果中正確匹配的比例,本文使用Rank-1、Rank-5、Rank-10 作為參數。mAP 表示算法在全部測試數據上的平均性能,兼顧準確率和召回率。AP 是某個類別所有返回結果的平均準確率,如式(6)所示。

其中,pi表示第i個正確匹配的目標行人圖像在查詢序列中的位置,li表示第i個正確匹配的目標行人圖像在候選集重新排序中的位置,n表示和查詢圖像正確匹配的圖像個數。mAP 是所有類別AP 的平均值,如式(7)所示。

其中,m表示查詢集中查詢圖像的總個數。
實驗所使用的硬件平臺的CPU 為Inter Xeon E5-2620 v4,GPU 為10G NVIDIA GeForce GTX 1080Ti,使用的操作系統是Ubuntu16.04。實驗使用的深度學習框架PyTorch 版本為1.01,數據處理包torchvision 版本為0.22,Python 版本為3.6,cudnn版本為8.0,cuda 版本為8.0。
訓練時每個批次讀取N=32 張圖像,其中每個行人類別隨機讀取固定的圖像數量。每個batch 讀取8 個行人類別,每類行人的圖像數量為4。使用圖像隨機水平翻轉實現數據擴增,輸入圖像尺寸歸一化為256×128。使用隨機梯度下降(SGD,stochastic gradient descent)算法作為優化器,設置初始學習率為0.03,網絡模型的訓練迭代次數為60。
首先對本文構建的MPF 網絡的性能進行評價。為了深入分析MPF 網絡相比于ResNet50 網絡的性能提升,分別從兼顧全局特征和局部特征以及構建不同池化方式2 個角度進行消融實驗。以G-L 網絡表示兼顧全局特征和局部特征,但采用單一池化方式的方法。比較ResNet50 網絡、G-L 網絡和MPF網絡在3 個數據集上的識別性能,如圖3 所示。對于每張查詢圖像,展示前15 個識別結果,其中,“×”表示識別錯誤的行人,“√”表示識別正確的行人。由圖3 可以看出,識別精度由高到低分別為MPF網絡、G-L 網絡、ResNet50 網絡。
ResNet50 網絡、G-L 網絡和MPF 網絡的定量實驗結果如表1 所示。在3 個數據集中,G-L 網絡的識別性能均明顯優于 ResNet50 網絡,Market-1501 數據集上的mAP 和Rank-1 分別提升了7.42%和5.57%,DukeMTMC-reID 數據集上的mAP 和Rank-1 分別提升了6.87%和4.24%,MSMT17 數據集上的Rank-1 和mAP 分別提升了5.15%和3.76%。實驗結果表明,在特征提取時兼顧全局特征和局部特征可以提升行人再識別的性能。相較于G-L 網絡,MPF 網絡可進一步提升識別性能,在Market-1501 數據集上Rank-1 和mAP分別提升了3.93%和8.17%,在DukeMTMC-reID數據集上Rank-1 和mAP 分別提升了5.04%和7.19%,在MSMT17 數據集上Rank-1 和mAP 分別提升了6.07%和6.27%。因此在特征提取時采用不同的池化方式是有效的。MPF 網絡結合了全局特征和局部特征且構建了不同的池化方式,從而可以提取更多的有用信息,相比于ResNet50 網絡明顯提升了行人再識別性能。

圖3 ResNet50 網絡、G-L 網絡、MPF 網絡在3 個數據集上的識別結果對比

表1 MPF 網絡消融實驗
本節比較FCN、MMAN 和本文采用的FCN 與MMAN 相結合的行人前景分割性能,分割結果示例如圖4 所示。從圖4 可以看出,在低分辨率圖像中(圖4 的前兩列),MMAN 存在分割不完整的情況。對于行人前景與背景對比度較低的高分辨圖像(圖4 的后兩列),FCN 存在分割不完整的情況。將FCN 與MMAN 結合,獲得了更完整的行人前景。由于行人再識別數據集沒有行人前景分割的標準,且本文主要目標是提升跨數據集行人再識別的性能,因此未對行人前景分割進行定量評價。
本文方法的總體損失(total loss)函數為CE 損失與MSE 損失之和。MSMT17 數據集下,本文方法在訓練過程中的CE loss、MSE loss 和total loss 如圖5 所示。由圖5 可知,隨著訓練過程的進行,CE loss、MSE loss 和total loss 逐漸降低。

圖4 行人前景分割結果

圖5 MSMT17 的訓練損失函數曲線
本節首先對特征圖激活是否可以引導網絡自動學習弱化背景信息進行定性分析。圖6 為融合特征激活損失函數后主干網絡得到的特征圖。從圖6可以看出,主干網絡提取到的特征圖主要關注前景的部分區域,背景區域特征圖的取值很低,且不同圖像背景信息的弱化是自適應的。

圖6 融合特征激活損失后的特征圖
然后對本文方法的跨數據集識別性能進行驗證。為了深入分析MPF 網絡和特征級有監督背景消除網絡對性能的提升,進行如下消融實驗。以MPF 網絡表示僅使用MPF 網絡,以MPF+背景消除網絡表示使用本文方法,將上述方法與ResNet50網絡進行比較。圖7 和圖8 給出了MSMT17 數據集作為訓練集,測試集分別為 Market-1501 和DukeMTMC-reID 數據集的跨數據集行人再識別結果。可以看出,MPF+背景消除網絡具有更高的識別精度。

圖7 MSMT17→Market-1501 跨數據集識別結果對比

圖8 MSMT17→DukeMTMC-reID 跨數據集識別結果對比
定量實驗結果如表2~表4 所示。可以看出,在3 個數據集中,MPF 網絡的跨數據集識別性能均明顯優于ResNet50 網絡,說明MPF 網絡可以提升跨數據集行人再識別的性能。相較于MPF 網絡,MPF+背景消除網絡可進一步提升行人再識別的性能。當采用 Market-1501 作為測試集,DukeMTMC-reID 和MSMT17 作為訓練集時,相比于MPF 網絡,MPF+背景消除網絡的mAP 和Rank-1分別提升了2.68%/4.37%、3.31%/5.52%。當采用DukeMTMC-reID 作為測試集,Market-1501 數據集和MSMT17 作為訓練集時,MPF+背景消除網絡的mAP/Rank-1分別提升了6.09%/12.52% 和4.48%/4.82%。當采用MSMT17 數據集作為測試集,Market-1501 數據集和DukeMTMC-reID 數據集作為訓練集時,MPF+背景消除網絡的mAP/Rank-1分別提升了2.89%/ 8.88%和3.83%/9.30%。實驗結果說明,添加特征級有監督背景消除網絡后,跨數據集行人再識別的性能得到了提升,表明構建的有監督背景消除網絡的有效性。

表2 Market-1501 的跨數據集再識別結果

表3 DukeMTMC-reID 的跨數據集再識別結果

表4 MSMT17 的跨數據集再識別結果
最后對ResNet50 網絡、MPF 網絡和MPF+背景消除網絡的訓練時間進行比較,如表5 所示。MPF網絡采用了多池化融合,其訓練時間較ResNet50 網絡明顯有所增加。MPF+背景消除網絡結合了MPF 網絡與有監督背景消除網絡,其訓練時間進一步增加。

表5 不同數據集的訓練時間
由于MSMT17 是行人再識別數據集,目前使用MSMT17 進行跨數據集實驗的方法較少,因此本文僅使用Market-1501 數據集和DukeMTMCreID 數據集與現有跨數據集方法進行比較。表6 給出了訓練集為 Market-1501 數據集,測試集為DukeMTMC-reID 的跨數據集對比結果;表7 給出了訓練集為DukeMTMC-reID,測試集為Market-1501 的跨數據集對比結果;由表6 和表7 可以看出,在DukeMTMC-reID 數據集上測試時,MPF+背景消除網絡的Rank-1 和mAP 分別達到了55.57%和30.73%,比現有性能最好的HHL 方法性能提升了8.67%和3.53%。在Market-1501 數據集上測試時,MPF+背景消除網絡的Rank-1 和mAP 分別達到了62.48%和30.72%,與現有性能最好的HHL 方法持平。

表6 Market-1501→DukeMTMC-reID 的跨數據集結果對比

表7 DukeMTMC-reID→Market-1501 的跨數據集結果對比
為減弱背景信息對跨數據集行人再識別性能的影響,本文提出了結合多池化融合與背景消除網絡的跨數據集行人再識別方法。本文構建的多池化融合網絡兼顧了全局特征和局部特征,同時實現了特征的多細粒度表示,增加了特征向量的復雜性和多樣性。構建了特征級有監督背景消除網絡,結合該網絡得到的特征激活損失與行人分類損失共同訓練識別網絡,減弱了背景信息對識別性能的影響。在 3 個行人再識別數據集 Market-1501、DukeMTMC-reID、MSMT17 上對本文方法進行評估,實驗結果表明,本文方法能有效提升跨數據集行人再識別性能。