姜國權,肖禛禛,霍占強
(河南理工大學計算機科學與技術學院,河南焦作 454000)
行人再識別(Re-Identification,ReID)技術是目前智能圖像檢索、視頻監控等領域的熱門研究方向,由于該技術與社會公共安全密切相關,因此可與目標檢測與跟蹤等技術相結合應用于疑犯追蹤、災難預警和智能安防等任務中[1]。行人再識別要求在跨設備條件下對已知身份行人庫中的特定身份行人進行搜索并找到與其匹配的所有結果[2],主要包括行人圖像預處理、特征提取和相似性計算3 個步驟,其中,圖像預處理包括圖像翻轉、裁剪、縮放及像素歸一化等操作,特征提取對算法性能起到決定性作用,相似性計算通過計算特征之間的歐式距離實現。
近年來,研究人員提出了大量行人再識別方法并取得了重要研究成果。現有方法可大致分為基于特征設計和基于多任務學習的行人再識別方法兩類?;谔卣髟O計的行人再識別方法的關鍵在于設計可靠且具有判別力的模型以提取行人圖像的魯棒特征。該模型可以是人工設計模型與基于端到端的深度學習模型,人工設計模型獲取的特征主要是HSV 顏色直方圖[3]、尺度不變局部三元模式描述符(SILTP)[4]等低層次特征。文獻[5]為每個圖像局部塊提取11 維顏色命名的描述符,并使用詞袋模型將其聚合為1 個全局向量。文獻[6]提出一種特征表示方法(LOMO),該方法分析局部特征水平并將其最大化后針對視點變化進行穩定表示。
隨著卷積神經網絡(Convolutional Neural Network,CNN)的發展[7],基于深度學習的特征設計方法不斷被提出。文獻[8]利用PCB 網絡將行人特征統一劃分為多個水平區域,并輸出由這些區域特征共同組成的卷積特征。文獻[9]設計一種多級因子分解網絡(MLFN),將人的視覺表象分解為多個語義層次因子,通過因子選擇模塊對輸入圖像內容進行解釋。文獻[10]提出區域對齊的行人再識別方法,通過定位行人身體節點劃分特征區域,并將各個特征區域融合得到特征表示。為學習更具判別力的特征,一些研究人員在特征提取過程中引入注意力機制[11-13],如文獻[12]提出Mancs 深層網絡,該網絡利用注意力機制解決行人圖像的不對齊問題,從而獲得更穩定的行人特征。這些深度學習模型通過設計網絡模型以獲取高層次的行人特征,此類特征一般比低層次特征具有更強的表征能力。
基于多任務學習的行人再識別方法通過結合行人屬性預測[14-16]、圖像分割[17-19]和圖像生成[20-22]等任務來增強算法性能。文獻[14]提出一種簡單的CNN 模型,其在學習行人表征的同時對行人屬性進行預測,能有效提升ReID 算法性能。文獻[19]利用二值分割掩碼生成RGB-Mask 圖像對,然后設計掩碼引導的對比注意力模型(MGCAM)分別學習行人主體和背景區域的特征。為避免深度網絡模型訓練過程中的過擬合現象,文獻[21]使用生成式對抗網絡(Generative Adversarial Network,GAN)生成訓練數據并為這些數據分配統一的標簽,然后與原始數據共同進行模型訓練。以上方法均是利用RGB 行人圖像提取特征,并未考慮顏色因素對ReID 算法的影響,但實際應用場景中存在相同身份的行人圖像顏色不一致、不同身份行人圖像顏色相近、行人圖像分辨率不一及遮擋和背景雜亂等問題,使得整體識別性能受到較大影響。本文提出一種基于RGB 圖像特征與灰度圖像特征相融合的行人再識別方法,從圖像顏色角度出發提升行人再識別方法的平均精度均值(mean Average Precision,mAP)和首位命中率(Rank-1 accuracy)。
假設一組測試圖像被分為待查詢圖像集Query和候選行人圖像集Gallery,Query 表示為,Gallery 表示為,將Q與G對應的特征向量分別用FQ和FG表示,表達式如式(1)和式(2)所示:

其中,m表示Query 包含的圖像個數,n表示Gallery包含的圖像個數,d表示圖像特征維度。Query 圖像qi和Gallery 圖像gi之間的距離為:

其中,fqi和fgj表示圖像qi和gi對應的特征。行人再識別任務的目標是使相同身份行人之間的距離更小,而不同身份行人之間的距離更大。根據式(3)得到的距離獲取Query 在Gallery 中的相似度排序結果。
1.2.1 網絡結構設計
本文提出一種融合RGB 圖像和灰度圖像特征的雙分支殘差網絡,其結構如圖1 所示。首先,將RGB 圖像和灰度圖像輸入網絡,RGB 分支和灰度分支所使用的主干網絡均為在ImageNet 上預訓練的ResNet-50,并去除其原有的全連接(Fully Connected,FC)層。受PCB 網絡結構[8]的啟發,在兩個分支中ResNet-50 最后一個卷積層的步長均由2 變為1,目的是使網絡能夠學習更多的細節信息。然后,使用全局均值池化(Global Average Pooling,GAP)和1×1卷積(1×1 Conv)對特征進行降維。最后,使用FC 做行人身份預測,FC 的維度為對應數據集中訓練數據所包含的不同行人身份數。為對RGB 圖像和灰度圖像特征進行有效融合,將RGB 分支和灰度分支中最后一個卷積層輸出的特征沿通道方向進行拼接得到融合特征。對融合特征采用統一水平劃分策略,將其劃分為多個水平條并分別使用GAP、1×1 Conv和FC 操作,之后將3 個分支中1×1 Conv 后的特征進行拼接得到更魯棒的組合特征F,對組合特征F 也使用FC 進行行人身份識別。

圖1 雙分支殘差網絡結構Fig.1 Double branch residual network structure
為更清晰地展示本文網絡模型中不同階段所獲得的特征尺寸以及分類向量維度,表1 給出輸入圖像在不同分支中經過不同網絡階段后獲得的特征尺寸和分類向量維度,其中RGB 圖像和灰度圖像的輸入圖像原始尺寸均為3×384×128。由于在Market1501[5]、DukeMTMC-ReID(簡稱Duke)[23]和CUHK03[24]3 個數據集的訓練集中包含不同身份的行人數目不同,因此在經過FCs 后得到的表示分類結果的向量維度也不同(751/702/767)。由于組合特征F 是經過3 個分支中1×1 Conv 后的特征拼接而成,因此其維度為2 048(256×8)維。

表1 3 個分支中不同網絡階段獲得的特征尺寸和分類向量維度Table 1 Feature sizes and classification vector dimensions obtained at different network stages of three branches
1.2.2 圖像特征提取
圖像特征提取步驟具體如下:
1)RGB圖像特征提取。RGB圖像特征是現有ReID算法中最常用的特征,與其他類型的視覺特征相比,RGB圖像特征不容易受圖像尺寸、旋轉和分辨率等因素的影響,能提供更具判別性的顏色信息。本文利用預訓練的ResNet-50提取RGB行人圖像特征,然后使用GAP獲取全局均值向量,再利用1×1 Conv 降維,最后采用FC 獲取行人身份分類的結果向量。
2)灰度圖像特征提取。雖然使用RGB 圖像特征可以很好地表示顏色信息,但顏色不一致以及顏色相近問題也會給ReID 算法帶來不利影響,因此本文利用灰度圖像特征解決該問題,其原因為灰度圖像會在一定程度上過濾圖像的顏色信息,使模型避免受顏色信息的干擾。本文采用加權平均法獲取灰度圖像,其定義如式(4)所示:

其中,I(x,y)表示轉換得到的灰度圖像在(x,y)位置處的像素值,R(x,y)、G(x,y)和B(x,y)分別表示RGB 圖像三通道上對應位置的像素值。為便于使用ResNet-50 提取灰度圖像特征,將式(4)得到的單一通道灰度圖像進行三通道復制,然后輸入預訓練的ResNet-50 提取特征并做后續處理。
3)融合特征提取。為提取更魯棒的行人圖像特征,RGB 圖像和灰度圖像經過ResNet-50 最后一個卷積層提取特征后,將兩個特征按照特征維度方向進行拼接得到融合特征,然后按照PCB 中統一水平劃分策略對該特征進行學習。融合特征既包含豐富的顏色信息,又過濾了部分顏色的干擾信息,使模型在訓練過程中能學習顏色信息與結構、形態、紋理等重要信息。
4)特征組合。將上述3 個特征進行水平方向的拼接,獲得用于行人再識別的最終特征表示。
行人再識別任務中常用的損失函數為:1)基于預測行人身份的分類損失函數,如交叉熵損失函數[25];2)基于歐式距離的度量損失函數,如對比損失函數[26]和三元組損失函數[27]等。本文網絡模型在訓練過程中采用交叉熵損失函數,該損失函數定義如式(5)所示:

其中:N表示訓練批次的大??;C表示訓練集中不同身份的行人類別數;p(c)由網絡模型中Softmax 函數計算得到,其表示輸入圖像被預測為類別c的概率,定義如式(6)所示;q(c)表示數據真實類別標簽的分布,在訓練集中每個樣本都只屬于一個真實的身份類別,若該類別用y表示,則q(c)可表示為式(7)的形式,此時式(5)則被重新定義為式(8)的形式,式(8)表示最小化Lcross,等價于最大化某個樣本被預測為真實標簽類別的概率。

在本文方法中,每個特征都使用獨立的交叉熵損失函數進行訓練,RGB 特征、灰度特征以及融合特征的損失函數分別用LRGB、LGray和表示。為提高組合特征F 的魯棒性,對其使用全局分類損失函LGlobal進行優化,整個網絡模型的損失函數如式(9)所示:

2.1.1 數據集
本文在Market1501[5]、Duke[23]和CUHK03[24]3 個數據集上進行實驗。表2 給出了數據集的統計信息,其中,IDs 表示數據集中行人所屬的不同身份數目,Cams 表示圖像采集時使用的攝像機數目,Images 表示數據集包含的行人圖像總數,Identity Split 和Image Split 分別表示訓練和測試階段分割得到的行人身份數目和圖像數目。

表2 數據集統計信息Table 2 Statistics of datasets
Market1501 數據集包含由6 臺攝像機(5 臺高分辨率攝像機和1 臺低分辨率攝像機)采集的1 501 個不同身份的行人,共有32 668 張圖像,這些圖像由DPM 算法[28]檢測得到,其中:訓練集有12 936 張圖像,包含751 個身份;Gallery 集有19 732 張圖像,包含750 個身份;Query 集有3 368 張圖像。Duke 數據集包含由8 臺攝像機采集的1 404 個身份的34 183 張圖像,訓練集有16 522 張圖像,Query 集有2 228 張圖像,Gallery 集有17 661 張圖像,訓練和測試過程中包含的行人身份數均為702。
CUHK03 數據集由手工標記特征和DPM 算法檢測結果構建而成,并分別命名為CUHK03-labeled和CUHK03-detected 數據集,該數據集包含由6 臺攝像機采集的1 467 個不同行人的13 164 張圖像,其中:訓練集在CUHK03-labeled 和CUHK03-detected中分別有7 365 和7 368 張圖像,訓練集和測試集的身份數分別為767 和700;Query 集有1 400 張圖像;Gallery 集有5 332 和5 328 張圖像。由于CUHK03-detected 數據集中圖像邊界框錯位和背景雜波比較嚴重,對ReID 識別要求更高。以上3 個數據集在ReID 測試階段均使用單查詢設置,即將同一身份的單個待查詢圖像作為待查詢圖像。
2.1.2 評估指標
行人再識別任務常用的評估指標包括累積匹配特性(Cumulative Matching Characteristic,CMC)曲線和mAP。CMC 通常以Rank-k擊中率的形式表現,表示在Query 集中的行人圖像與Gallery 集中相似度最高的k張圖像內命中該行人的概率。給定一個Query 集圖像qi,假設其與Gallery 集中所有圖像的相似度降序排序結果為r=(r1,r2,…,rn),則該qi的Rank-k計算方式如式(10)所示:

mAP 表示算法在全部測試數據上的平均性能,其與準確率(P)和召回率(R)有關。P指返回的樣本中正確匹配的樣本數占總樣本的比例,R指返回的正確匹配的樣本數占所有正確樣本的比例。給定一個待查詢圖像qi,其AP 計算方式如式(11)所示:AP 表示求對應P-R曲線下面積,對Query 集中所有圖像的AP 值求均值即可得到mAP。

本文實驗基于深度學習框架Pytorch 并在PCB網絡模型[8]的基礎上對PCB 方法進行優化,網絡模型的輸入數據大小被重新調整為384×128,數據預處理包括隨機水平翻轉和像素歸一化等方式。訓練批次大小為64,使用隨機梯度下降(Stochastic Gradient Descent,SGD)算法對PCB 網絡模型進行改進,網絡訓練周期數為100。初始學習率和預訓練網絡層參數的學習率分別為0.1 和0.01,在第61 個和第81 個周期學習率分別下降為0.01、0.001 和0.001、0.000 1。在測試階段,利用已訓練的模型提取特征,使用組合特征F 計算ReID 任務中的Rank-k 和mAP。在Market1501、Duke 和CUHK03 數據集上的實驗均采用相同設置。
為證明融合特征的有效性,在Market1501 數據集上對以下3 組特征對進行mAP 和Rank-1 實驗驗證:1)RGB 特征(RGB)及其與融合特征(Fusion)的拼接特征(RGB&Fusion);2)灰度特征(Gray)及其與融合特征的拼接特征(Gray&Fusion);3)RGB&Gray特征及RGB&Gray&Fusion 特征(組合特征F)。圖2分別給出了3 組特征對的mAP 和Rank-1 結果,可以看出:1)單獨灰度特征的mAP 和Rank-1 結果最差,但灰度特征和RGB 特征融合后可有效提高ReID 性能,證明了灰度特征能對RGB 特征進行有效補充;2)RGB 特征、Gray 特征及RGB&Gray 特征與融合特征進行拼接后,mAP 分別提升了4.4、23.6 和1.3 個百分點,Rank-1 分別提升了2.4、13.5 和0.7 個百分點,說明三者與融合特征結合后有助于提升識別準確率,證明了融合特征的有效性。3)使用組合特征F可取得最優的mAP 和Rank-1,進一步證明了融合特征可提升識別性能。

圖2 Market1501 數據集上融合特征的實驗結果Fig.2 Experimental results of fusion features on Market1501 dataset
在本文網絡模型訓練過程中,各分支都采用獨立的交叉熵損失函數,而組合特征F 也使用該損失函數作為網絡全局損失函數。為驗證各分支損失與全局損失函數的重要性,通過分別移除RGB 分支、灰度分支、融合分支和組合特征F 的損失函數進行實驗驗證。表3 給出Market1501 數據集上移除各分支的損失函數后的mAP 和Rank-1 實驗結果。可以看出,移除任意一個分支的損失函數都會不同程度地降低算法性能,說明在訓練過程中對每個分支都使用獨立損失函數的重要性和有效性,同時對組合特征F 使用全局損失函數也能提升算法性能,驗證了全局損失函數對算法性能的促進作用。

表3 Market1501 數據集上移除各分支損失函數后的mAP 和Rank-1 結果Table 3 mAP and Rank-1 results of removing the loss function of each branch on Market1501 dataset %
在Market1501 和Duke 數據集上得到本文行人再識別方法的mAP、Rank-1、Rank-5和Rank-10實驗結果,在CUHK03 數據集上得到mAP 和Rank-1 實驗結果,并與現有行人再識別方法進行比較。表4 為本文方法與對比方法在Market1501數據集上的實驗結果,其中“—”表示原文獻中沒有該項實驗結果。對比方法分為兩類:1)基于特征設計的行人再識別方法,包括BoW+Kissme[5]、SpindleNet[25]、SVDNet[29]、GLAD[30]、MLFN[9]、HACNN[11]、PCB[8]、PCB+RPP[8]和Mancs[12];2)基于多任務學習的行人再識別方法,包括APR[14]、GAN[21]、Pose Transferrable[20]、MGCAM[19]、MaskReID[18]、CA3NeT[15]和SPReID[17]。可以看出,本文方法的mAP 和Rank-1分別為82.3%和93.9%,優于對比方法,比PCB 方法分別高出4.9 和1.6 個百分點,說明融合圖像的RGB 特征和灰度特征能夠提升識別性能。

表4 在Market1501 數據集上不同行人再識別方法的性能比較Table 4 Performance comparison of different pedestrian re-identification methods on Market1501 dataset %
表5 為本文方法與對比方法在Duke 數據集上的實驗結果,其中對比方法分為兩類:1)基于特征設計的行人再識別方法,包括BoW+Kissme[5]、LOMO[6]、SVDNet[29]、GLAD[30]、MLFN[9]、HA-CNN[11]、PCB[8]、PCB+RPP[8]和Mancs[12];2)基于多任務學習的行人再識別方法,包括GAN[21]、Pose Transferrable[20]、APR[14]、MaskReID[18]、CA3NeT[15]和SPReID[17]。可以看出,本文方法的mAP 和Rank-1 分別為71.3% 和84.7%,僅次于Mancs[12]方法,出現該結果的原因可能為Duke 數據集的相機視角更多變且場景更復雜,使得圖像融合特征未能提供較好的判別信息,但本文方法的mAP 和Rank-1 依然比PCB 方法高出5.2 和2.9 個百分點。

表5 在Duke數據集上不同行人再識別方法的性能比較Table 5 Performance comparison of different pedestrian re-identification methods on Duke dataset %
表6 為本文方法與對比方法在CUHK03 數據集上的實驗結果,其中對比方法分為兩類:1)基于特征設計的行人再識別方法,包括BoW+Kissme[5]、LOMO[6]、SVDNet[29]、HA-CNN[11]、MLFN[9]、PCB[8]、PCB+RPP[8]和Mancs[12];2)基于多任務學習的行人再識別方法,包括Pose Transferrable[20]和MGCAM[19]。在CUHK03-labeled 和CUHK03-detected 數據集上,本文方法的mAP 和Rank-1 分別為64.1%、60.9%和69.3%、66.2%,優于對比方法,在CUHK03-detected 數據集上,本文方法比PCB 方法的mAP 和Rank-1 分別高出6.7 和4.9 個百分點,進一步證明融合圖像的RGB 和灰度特征可以提升識別性能。

表6 在CUHK03 數據集上不同行人再識別方法的性能比較Table 6 Performance comparison of different pedestrian re-identification methods on CUHK03 dataset %
為更直觀地展示融合特征在行人再識別過程中能夠有效減少圖像顏色信息帶來的干擾,利用PCB方法和本文方法將Market1501 數據集中部分Query圖像在Gallery 中排名靠前的匹配結果進行可視化。圖3 顯示排名前八但有錯誤匹配的結果圖像,表明顏色相近對不同身份行人識別結果的影響。需要注意的是:在每組對比結果中每行的第1 張圖像表示Query 待查詢圖像,之后是匹配結果圖像;實線框表示與待查詢圖像的身份相同;虛線框表示與查詢圖像的身份不同;彩色效果見《計算機工程》官網HTML 版。從圖3 可以看出,PCB 方法得到的匹配結果中匹配錯誤的多數是與Query 顏色非常相近的圖像,說明不同身份行人圖像之間的相近顏色對識別結果造成了干擾。如圖3(a)所示,PCB 方法得到排名前八的結果中只有2 個正確匹配結果,而本文方法獲得了4 個正確匹配結果,具有更高的識別準確率。

圖3 Market1501 數據集上的部分可視化結果(相近顏色干擾)Fig.3 Partial visualization results on Market1501 dataset(interference of similar colors)
圖4 顯示排名前十且均為正確匹配的結果圖像,表明顏色不一致對相同身份行人識別結果的影響。從圖4 可以看出,在排名前十的正確匹配結果中PCB 方法得到的匹配結果容易受顏色不一致的影響,與Query 顏色不一致的圖像排名較靠后。如圖4(c)所示,PCB 方法中與Query 顏色不一致的圖像排名為第十,而本文方法中該圖像的排名為第三,說明本文方法能夠有效減少顏色不一致問題所帶來的干擾,即使相同身份行人圖像之間存在較大的顏色差異,其排名也較靠前。

圖4 Market1501 數據集上的部分可視化結果(顏色不一致干擾)Fig.4 Partial visualization results on Market1501 dataset(interference of inconsistent colors)
本文基于雙分支殘差網絡,提出一種結合RGB圖像特征與灰度圖像特征的行人再識別方法。該方法在提取RGB 圖像特征和灰度圖像特征的同時,過濾掉了部分圖像顏色的干擾信息,通過將行人圖像的顏色特征與結構、形態、紋理等特征進行融合學習,使得行人再識別模型能提取更具判別力的特征,從而提升行人再識別準確率。在Market1501、DukeMTMC-ReID 和CUHK03 數據集上的實驗結果表明,該方法具有較高的mAP 和Rank-1 準確率。后續將擴展融合RGB 圖像特征與灰度圖像特征的行人再識別方法的應用范圍,進一步提高其適用性與魯棒性。