融合屬性特征的行人重識(shí)別方法

2022-03-10 11:04:36邵曉雯劉青山

自動(dòng)化學(xué)報(bào) 2022年2期

邵曉雯帥惠劉青山

行人重識(shí)別指跨監(jiān)控設(shè)備下的行人檢索問(wèn)題,在公共安全、智能監(jiān)控等領(lǐng)域具有廣泛的應(yīng)用.具體而言,給定一張行人圖片,行人重識(shí)別用來(lái)在其他攝像頭拍攝的大型圖片庫(kù)中找出該行人的圖片.由于監(jiān)控圖片的分辨率低,且不同的圖片之間存在光照、姿態(tài)、攝像頭視角等方面的差異,行人重識(shí)別目前仍是一個(gè)很有挑戰(zhàn)性的問(wèn)題.

1 相關(guān)研究

早期行人重識(shí)別的研究思路通常是先對(duì)行人圖片提取手工特征,如顏色直方圖、方向梯度直方圖(Histogram of oriented gradient,HOG)[1]等,然后使用相似性度量方法,如大邊界最近鄰算法(Large margin nearest neighbor,LMNN)[2]、交叉二次判別分析算法(Cross-view quadratic discriminant analysis,XQDA)[3]等來(lái)學(xué)習(xí)度量矩陣.為了克服光照、成像條件等因素影響,采用多特征分析是常用的一種方式[4-6].隨著深度學(xué)習(xí)技術(shù)的興起,深度學(xué)習(xí)廣泛應(yīng)用于行人重識(shí)別任務(wù)中.目前,基于深度學(xué)習(xí)的行人重識(shí)別方法在性能上大大超過(guò)了傳統(tǒng)方法[7],主要有如下兩個(gè)原因:1) 手工設(shè)計(jì)的特征描述能力有限,而深度學(xué)習(xí)使用深度卷積神經(jīng)網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)出更復(fù)雜的特征;2) 深度學(xué)習(xí)可以將特征提取和相似性度量聯(lián)合在一起,實(shí)現(xiàn)端到端的學(xué)習(xí),從而得到全局最優(yōu)解.

目前基于深度學(xué)習(xí)的行人重識(shí)別方法主要分為度量學(xué)習(xí)和表征學(xué)習(xí)方法[8].度量學(xué)習(xí)通過(guò)設(shè)計(jì)不同的度量損失來(lái)約束特征空間,使得同一個(gè)行人的不同圖片在特征空間上距離很近,而不同行人的距離很遠(yuǎn),如三元組損失(Triplet loss)[9]、四元組損失(Quadruplet loss)[10]和群組相似性學(xué)習(xí)(Group similarity learning)[11]等方法.這類(lèi)方法的關(guān)鍵在于樣本對(duì)的選取,由于大量樣本對(duì)簡(jiǎn)單易于區(qū)分,隨機(jī)采樣將會(huì)導(dǎo)致網(wǎng)絡(luò)的泛化能力有限,因而需要挑選出一些難樣本對(duì)進(jìn)行訓(xùn)練.Zhu 等[12]對(duì)困難和簡(jiǎn)單的負(fù)樣本設(shè)計(jì)不同的目標(biāo)函數(shù)來(lái)學(xué)習(xí)距離度量方法,以充分利用負(fù)樣本中的信息.相對(duì)于表征學(xué)習(xí),度量學(xué)習(xí)的訓(xùn)練時(shí)間更長(zhǎng),收斂也更困難.因此,表征學(xué)習(xí)方法得到了更加廣泛的研究.

表征學(xué)習(xí)方法在訓(xùn)練網(wǎng)絡(luò)時(shí)將行人重識(shí)別當(dāng)作身份分類(lèi)任務(wù)來(lái)學(xué)習(xí)行人特征,關(guān)鍵問(wèn)題是如何設(shè)計(jì)網(wǎng)絡(luò)以學(xué)習(xí)到更具有判別力的特征.Sun 等[13]根據(jù)人體結(jié)構(gòu)的先驗(yàn)知識(shí),在垂直方向上對(duì)特征圖均勻分塊,然后提取每個(gè)區(qū)域的局部特征.還有一些方法利用額外的語(yǔ)義信息,例如骨骼關(guān)鍵點(diǎn)、分割結(jié)果等,定位行人的各個(gè)部位.Su 等[14]借助關(guān)鍵點(diǎn)檢測(cè)模型對(duì)人體區(qū)域定位、裁剪、歸一化后,拼接成新的圖片作為網(wǎng)絡(luò)的輸入.Sarfraz 等[15]將行人14個(gè)關(guān)鍵點(diǎn)的位置響應(yīng)圖和原圖片一起輸入到網(wǎng)絡(luò)中,讓網(wǎng)絡(luò)自動(dòng)地學(xué)習(xí)對(duì)齊.Kalayeh 等[16]在LIP(Look into person)[17]數(shù)據(jù)集上訓(xùn)練人體解析模型來(lái)預(yù)測(cè)4 個(gè)人體部位和背景,然后在特征圖上提取這些部位的特征.

由于不同的行人可能具有相似的外觀,而同一個(gè)行人在不同的環(huán)境下存在很大差異,只從全局外觀的角度無(wú)法進(jìn)行正確匹配.行人的屬性,例如性別、是否背包、頭發(fā)長(zhǎng)短等,包含豐富的語(yǔ)義信息,可以為行人重識(shí)別提供關(guān)鍵的判別線(xiàn)索.早期的研究中,Layne 等[18]手工標(biāo)注了15 種語(yǔ)義屬性來(lái)描述行人,包括性別、服裝種類(lèi)、是否攜帶物品等,并使用支持向量機(jī)(Support vector machine,SVM)訓(xùn)練屬性分類(lèi)器,最后與底層特征融合得到行人圖像的最終特征描述.隨著深度學(xué)習(xí)的廣泛應(yīng)用,Zhu 等[19]在一個(gè)卷積神經(jīng)網(wǎng)絡(luò)中同時(shí)預(yù)測(cè)多個(gè)屬性,在PETA (Pedestrian attribute)[20]數(shù)據(jù)集上的屬性識(shí)別性能明顯優(yōu)于基于SVM 的方法.Schumann 等[21]先在PETA 數(shù)據(jù)集上訓(xùn)練屬性識(shí)別模型,然后在行人重識(shí)別模型中利用屬性預(yù)測(cè)的結(jié)果,使得網(wǎng)絡(luò)可以學(xué)習(xí)到與屬性互補(bǔ)的特征.該方法分開(kāi)訓(xùn)練兩個(gè)網(wǎng)絡(luò),無(wú)法充分利用屬性標(biāo)簽和身份標(biāo)簽,導(dǎo)致行人重識(shí)別的性能比較低.Lin 等[22]在行人重識(shí)別數(shù)據(jù)集DukeMTMC-reID[23]和Market1501[24]上標(biāo)注了行人屬性,并提出APR (Attribute-person recognition)模型實(shí)現(xiàn)行人重識(shí)別和屬性識(shí)別的多任務(wù)學(xué)習(xí),同時(shí)將屬性預(yù)測(cè)的結(jié)果和全局特征一起用于行人重識(shí)別任務(wù).該方法使用屬性的預(yù)測(cè)結(jié)果,當(dāng)屬性識(shí)別錯(cuò)誤時(shí),會(huì)給行人重識(shí)別引入噪聲.Tay 等[25]提出了AANet (Attribute attention network),將行人屬性和屬性的激活區(qū)域圖集成到分類(lèi)網(wǎng)絡(luò)中來(lái)解決行人重識(shí)別問(wèn)題,得到了比較好的檢索結(jié)果.上述方法同等對(duì)待所有屬性,忽略了每個(gè)屬性對(duì)每張圖片的重要性是不同的.

針對(duì)以上問(wèn)題,本文提出了融合屬性特征的行人重識(shí)別方法,主要工作如下:1) 將行人重識(shí)別和屬性識(shí)別集成到分類(lèi)網(wǎng)絡(luò)中進(jìn)行端到端的學(xué)習(xí);2) 為了減小屬性識(shí)別錯(cuò)誤對(duì)行人重識(shí)別的影響,從特征的角度利用屬性信息;3) 自適應(yīng)地生成對(duì)應(yīng)于每個(gè)屬性的權(quán)重,并將所有屬性特征以加權(quán)求和的方式結(jié)合起來(lái),與全局特征一起用于行人重識(shí)別任務(wù).在DukeMTMC-reID和Market-1501 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了本文方法的有效性.

2 融合屬性特征的行人重識(shí)別模型

圖1 為本文的網(wǎng)絡(luò)結(jié)構(gòu)圖,前半部分為提取圖片特征的主干網(wǎng)絡(luò),后半部分分為身份分類(lèi)、屬性識(shí)別和屬性特征融合三個(gè)分支.身份分類(lèi)分支對(duì)行人的全局特征進(jìn)行身份的預(yù)測(cè);屬性識(shí)別分支用來(lái)預(yù)測(cè)行人的各個(gè)屬性;屬性特征融合分支首先以自適應(yīng)的方式對(duì)屬性特征加權(quán)求和,得到融合后的屬性特征,然后對(duì)該特征進(jìn)行身份預(yù)測(cè).

2.1 主干網(wǎng)絡(luò)結(jié)構(gòu)

使用ResNet-50 作為主干網(wǎng)絡(luò)提取圖片的特征.ResNet-50 包含1 層卷積層(conv1)和4 個(gè)殘差模塊(conv2～ conv5),每個(gè)殘差模塊包含多層卷積層、批量規(guī)范化層和線(xiàn)性整流激活函數(shù)(Rectified linear units,ReLU).文獻(xiàn)[26]提出多個(gè)相關(guān)性低甚至相反的任務(wù)一起學(xué)習(xí)時(shí),在共享參數(shù)上會(huì)產(chǎn)生相互競(jìng)爭(zhēng)甚至相反的梯度方向,從而影響所有任務(wù)的學(xué)習(xí).為了減輕任務(wù)間的干擾,在ResNet-50 的第4 個(gè)模塊conv4 后將網(wǎng)絡(luò)分成兩個(gè)分支,分別學(xué)習(xí)行人的全局特征和屬性特征,即兩個(gè)分支中conv5 模塊的參數(shù)不共享.根據(jù)文獻(xiàn)[13],本文去除了兩個(gè)分支的conv5 模塊中的下采樣操作,以增加特征圖的大小、豐富特征的粒度.將大小為 256×128 像素的圖片輸入網(wǎng)絡(luò)時(shí),可以從conv5 模塊輸出大小為 1 6×8 的特征圖.

設(shè)S={(x1,y1,a1),···,(xn,yn,an)}為訓(xùn)練數(shù)據(jù)集,其中n是圖片的張數(shù),xi表示第i張圖片,yi∈{1,2,···,N}表示該圖片的身份標(biāo)簽,N是訓(xùn)練集中行人的個(gè)數(shù),表示這張圖片的屬性標(biāo)簽,M是屬性的個(gè)數(shù),對(duì)于Duke-MTMC-reID和Market-1501 數(shù)據(jù)集,M分別是10和12,指這張圖片的第j個(gè)屬性的標(biāo)簽,Cj表示第j個(gè)屬性的類(lèi)別個(gè)數(shù).如圖1所示,對(duì)于 (x,y,a)∈S,將圖片x輸入到網(wǎng)絡(luò),可以分別得到對(duì)應(yīng)于身份分類(lèi)的特征圖I ∈Rh×w×d和屬性識(shí)別的特征圖A∈Rh×w×d.

2.2 身份分類(lèi)

對(duì)于身份特征圖I∈Rh×w×d,先用全局平均池化(Global average pooling,GAP)對(duì)I處理得到特征z∈Rd,隨后使用全連接(Fully connected,FC)層、批量規(guī)范化層和ReLU 激活函數(shù)對(duì)特征z進(jìn)行降維,得到全局特征g∈Rv.訓(xùn)練時(shí)對(duì)特征g使用全連接層和Softmax 激活函數(shù)得到行人身份的分類(lèi)結(jié)果,最后使用交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù).為了防止訓(xùn)練時(shí)出現(xiàn)過(guò)擬合的問(wèn)題,對(duì)身份標(biāo)簽進(jìn)行平滑操作(Label smoothing,LS)[27],LS 是分類(lèi)任務(wù)中防止過(guò)擬合的常用方法.相應(yīng)的過(guò)程如下:

其中,N為訓(xùn)練集中行人的個(gè)數(shù),W(id)∈RN×v和b(id)∈RN分別是全連接層的權(quán)重矩陣和偏差向量,為輸出的行人身份的預(yù)測(cè)概率.式(2)表示對(duì)身份標(biāo)簽y進(jìn)行LS 操作,ε是一個(gè)數(shù)值較小的超參數(shù),文中ε=0.1 .Lid為網(wǎng)絡(luò)的身份分類(lèi)損失.

2.3 屬性識(shí)別

在屬性識(shí)別分支中,與身份分類(lèi)類(lèi)似,先用GAP 對(duì)屬性特征圖A∈Rh×w×d處理,得到特征f ∈Rd,然后使用M層全連接層對(duì)特征f進(jìn)行提取,得到M個(gè)屬性特征{h1,h2,···,hM}.對(duì)于每一個(gè)屬性特征hk∈Rv,使用全連接層和Softmax激活函數(shù)得到對(duì)應(yīng)的屬性分類(lèi)結(jié)果,最后使用交叉熵?fù)p失作為目標(biāo)函數(shù).相應(yīng)的過(guò)程如下:

對(duì)于第k個(gè)屬性,Ck表示它的類(lèi)別個(gè)數(shù),和分別是對(duì)應(yīng)的全連接層的權(quán)重矩陣和偏差向量,為該屬性的預(yù)測(cè)結(jié)果,Lk為第k個(gè)屬性的分類(lèi)損失.

由于屬性各個(gè)類(lèi)別的樣本比例不平衡,并且為了降低大量簡(jiǎn)單樣本在訓(xùn)練中所占的權(quán)重,對(duì)于每個(gè)屬性使用加權(quán)的焦點(diǎn)損失(Focal loss)函數(shù)[28],更改后的屬性損失函數(shù)如下:

2.4 屬性特征的融合

如果直接應(yīng)用屬性的預(yù)測(cè)結(jié)果,當(dāng)屬性預(yù)測(cè)錯(cuò)誤時(shí),很容易給行人重識(shí)別任務(wù)引入噪聲,因此從特征的角度對(duì)屬性加以利用.屬性特征更關(guān)注于行人圖片的某個(gè)區(qū)域,因而可以融合所有屬性的特征和全局特征互相補(bǔ)充.直接想法是將提取到的M個(gè)屬性特征{h1,h2,···,hM}以相加或相連等方式進(jìn)行融合,但是對(duì)于每張圖片,每個(gè)屬性的重要性是不同的,如果簡(jiǎn)單地對(duì)每個(gè)屬性分配相同的權(quán)重,最終可能會(huì)降低屬性信息帶來(lái)的益處.因此,對(duì)于每張圖片,網(wǎng)絡(luò)都會(huì)自適應(yīng)地生成每個(gè)屬性對(duì)應(yīng)的權(quán)重,用來(lái)融合屬性特征.具體方法如下:對(duì)于圖片x得到的特征f∈Rd,首先使用一層全連接層和Sigmoid 激活函數(shù)得到對(duì)應(yīng)于每個(gè)屬性特征的權(quán)重,具體表示為

其中,W(weight)∈RM×d和b(weight)∈RM分別表示全連接層的權(quán)重矩陣和偏差向量,得到的屬性權(quán)重向量w=[w1,w2,···,wM],wi∈(0,1).然后對(duì)每個(gè)屬性特征以加權(quán)求和的方式,即得到融合后的屬性特征hw∈Rv.隨后以額外監(jiān)督的方式對(duì)特征hw進(jìn)行行人的身份分類(lèi),具體與上述的分類(lèi)過(guò)程相同,使用全連接層和Softmax 激活函數(shù)得到分類(lèi)結(jié)果,最后根據(jù)身份標(biāo)簽使用帶有LS 的交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo),得到損失函數(shù)Llocal.訓(xùn)練時(shí)Llocal可以監(jiān)督屬性權(quán)重和屬性特征的生成,Llocal表示為

總的損失函數(shù)包括全局特征、屬性融合特征的身份分類(lèi)損失和屬性分類(lèi)損失,具體表示為

其中,α和β是平衡三個(gè)損失的權(quán)重因子.測(cè)試時(shí),將全局特征g和融合后的屬性特征hw相連得到行人總的特征e=[g;hw]∈R2v,并使用余弦距離計(jì)算特征間的距離,排序后得到檢索結(jié)果.

3 實(shí)驗(yàn)結(jié)果與分析

本文的實(shí)驗(yàn)基于行人重識(shí)別的主流數(shù)據(jù)集DukeMTMC-reID和Market-1501 進(jìn)行評(píng)測(cè),并與PCB-RPP (Part-based convolutional baseline and refined part pooling)、PDC (Pose-driven deep convolutional)、ACRN (Attribute-complementary re-id net)等相關(guān)方法進(jìn)行了對(duì)比.使用Pytorch 框架搭建整個(gè)網(wǎng)絡(luò),圖片的大小縮放為 2 56×128 像素,僅使用水平隨機(jī)翻轉(zhuǎn)作為數(shù)據(jù)增強(qiáng)的方法.訓(xùn)練時(shí)使用Adam 優(yōu)化器更新梯度,初始學(xué)習(xí)率設(shè)為0.0003,weight_decay 為0.0005.batch size 設(shè)為32,總共訓(xùn)練60 個(gè)epoch,每隔20 個(gè)epoch,所有參數(shù)的學(xué)習(xí)率降為之前的0.1 倍.使用ImageNet[29]上的預(yù)訓(xùn)練參數(shù)對(duì)網(wǎng)絡(luò)初始化,在前10 個(gè)epoch中,使用ImageNet 初始化的參數(shù)保持不變,僅更新隨機(jī)初始化的參數(shù).降維之后的特征維度為512,即v=512 .

3.1 數(shù)據(jù)集和評(píng)估指標(biāo)

DukeMTMC-reID 數(shù)據(jù)集共有1 404 個(gè)行人,分為訓(xùn)練集16 522 張圖片包含702 個(gè)行人,測(cè)試集17 661 張圖片包含另外的702 個(gè)行人和408 個(gè)干擾行人,另外有2 228 張圖片作為待檢索的行人圖片.Lin 等[22]對(duì)數(shù)據(jù)集中的每個(gè)行人標(biāo)注了23 個(gè)屬性,本文使用了所有的屬性,并把8 個(gè)上衣顏色的屬性作為1 個(gè)類(lèi)別數(shù)是8 的屬性,同樣將7 個(gè)下衣顏色的屬性作為1 個(gè)類(lèi)別數(shù)是7 的屬性,最后得到10個(gè)屬性.

Market-1501 數(shù)據(jù)集共有1 501 個(gè)行人,分為訓(xùn)練集12 936 張圖片包含751 個(gè)行人,測(cè)試集19 732張圖片包含750 個(gè)行人,另外還有3 368 張圖片作為待檢索的行人圖片.Lin 等[22]對(duì)數(shù)據(jù)集中的每個(gè)行人標(biāo)注了27 個(gè)屬性,本文使用了所有的屬性,對(duì)上衣顏色和下衣顏色采取上述的組合方式,最后得到12 個(gè)屬性.

對(duì)于行人重識(shí)別任務(wù),使用標(biāo)準(zhǔn)的評(píng)估指標(biāo):平均精度均值(Mean average precision,mAP)和累計(jì)匹配特性(Cumulative match characteristic,CMC)曲線(xiàn).對(duì)于屬性識(shí)別任務(wù),本文對(duì)每個(gè)屬性使用分類(lèi)準(zhǔn)確率進(jìn)行評(píng)估,同時(shí)計(jì)算了所有屬性的平均分類(lèi)準(zhǔn)確率.

3.2 與其他方法的比較

表1 是本文在DukeMTMC-reID和Market-1501 數(shù)據(jù)集上與當(dāng)前相關(guān)方法的比較.PCB-RPP對(duì)特征圖均勻分塊,未考慮行人圖片沒(méi)有對(duì)齊的情形,而且沒(méi)有去除背景的干擾.PDC和PSE (Posesensitive embedding)利用額外的姿態(tài)估計(jì)模型,SPReID (Semantic parsing for re-identification)利用額外的人體解析模型,來(lái)定位行人的各個(gè)部位,這種方法由于不能端到端地學(xué)習(xí),訓(xùn)練好的部件定位模型在行人圖片上定位錯(cuò)誤時(shí)將會(huì)引入噪聲,最終影響行人重識(shí)別的結(jié)果.表1 中的下面3 種方法利用屬性標(biāo)簽輔助行人重識(shí)別,ACRN 在屬性數(shù)據(jù)集PETA 上訓(xùn)練屬性識(shí)別模型,APR和AANet-50 沒(méi)有考慮行人重識(shí)別和屬性識(shí)別之間的關(guān)系,直接使用同一個(gè)網(wǎng)絡(luò)提取兩個(gè)任務(wù)的特征.此外,它們對(duì)所有屬性同等對(duì)待,忽略了各個(gè)屬性對(duì)行人描述的重要性是不同的.在考慮了以上問(wèn)題后,本文的方法在DukeMTMC-reID 上,mAP和Rank-1值分別達(dá)到了74.2%和87.1%,超過(guò)了AANet-50的結(jié)果1.6%和0.7%,在Market-1501 上,mAP 值超過(guò)AANet-50 1.0%,Rank-1 值降低0.3%,可見(jiàn)我們的方法對(duì)mAP 影響更大.而且相比于AANet-50 使用CAM (Class activation maps)[30]定位屬性激活區(qū)域,本文的方法更加簡(jiǎn)單有效.

表1 與相關(guān)方法的性能比較(%)Table 1 Performance comparison with related methods (%)

3.3 本文方法分析

表2 是DukeMTMC-reID 上使用不同損失函數(shù)得到的檢索結(jié)果,使用Lid相當(dāng)于只訓(xùn)練身份分類(lèi)的單支網(wǎng)絡(luò),可以作為基準(zhǔn)模型,Lid+βLatt指身份分類(lèi)和屬性識(shí)別的多任務(wù)學(xué)習(xí)網(wǎng)絡(luò),Lid+αLlocal+βLatt指在多任務(wù)網(wǎng)絡(luò)的基礎(chǔ)上,加入了對(duì)屬性特征進(jìn)行身份監(jiān)督的任務(wù),即本文使用的網(wǎng)絡(luò).由表2 可以得出以下結(jié)論:基準(zhǔn)模型得到了比較好的結(jié)果,mAP和Rank-1 值分別達(dá)到70.5%和84.1%;多任務(wù)網(wǎng)絡(luò)比基準(zhǔn)模型在mAP和Rank-1值上分別提高0.6%和1.7%,說(shuō)明加入的屬性識(shí)別對(duì)行人重識(shí)別起到了促進(jìn)的作用,此時(shí)網(wǎng)絡(luò)不光要正確預(yù)測(cè)行人的身份,還需要預(yù)測(cè)出各個(gè)屬性,從而提高了網(wǎng)絡(luò)的泛化性能;當(dāng)利用屬性特征時(shí),mAP和Rank-1 值分別進(jìn)一步提高3.1%和1.3%,說(shuō)明融合的屬性特征可以補(bǔ)充全局特征,最終形成了更具有判別力的特征.另外,指身份分類(lèi)和屬性識(shí)別雙支網(wǎng)絡(luò)中conv5 模塊的參數(shù)共享時(shí)的結(jié)果,相比于不共享時(shí),mAP和Rank-1 值分別降低1.2%和1.1%,說(shuō)明這兩個(gè)任務(wù)在提取特征的目標(biāo)上并不完全相同,參數(shù)共享的模型使得兩者在訓(xùn)練時(shí)相互影響,導(dǎo)致網(wǎng)絡(luò)無(wú)法收斂至最優(yōu)解.本文使用的網(wǎng)絡(luò)結(jié)構(gòu)減小了屬性識(shí)別對(duì)行人重識(shí)別的干擾,并以自適應(yīng)的方式利用屬性特征,最終有效提高了行人的檢索結(jié)果.Lid(no LS) 是在基準(zhǔn)模型中沒(méi)有對(duì)身份標(biāo)簽采用LS 平滑操作的結(jié)果,相比基準(zhǔn)模型,mAP和Rank-1 值分別降低3.7%和0.8%,可見(jiàn)LS 操作有效提升了模型的性能.

表2 使用不同損失函數(shù)的性能比較(%)Table 2 Performance comparison using different loss functions (%)

表3 是對(duì)屬性特征使用不同融合方式的性能比較.將所有屬性的特征相加后,直接引入到第一支網(wǎng)絡(luò)中與全局特征相連,對(duì)特征進(jìn)行身份分類(lèi),而不進(jìn)行額外的監(jiān)督,該方法記為var1.在var1 的基礎(chǔ)上,對(duì)所有屬性特征以自適應(yīng)加權(quán)求和的方式進(jìn)行融合,而不是直接相加,即,該方法記為var2.第3 種方法與本文方法類(lèi)似,區(qū)別是生成權(quán)重的方式不同,從全局的角度生成對(duì)應(yīng)于每個(gè)屬性的權(quán)重,記為var3,具體如下:將第一支網(wǎng)絡(luò)中的全局特征z ∈Rd作為輸入,使用全連接層和Sigmoid 激活函數(shù)輸出權(quán)重w.由表3 可知,var2 相比var1,mAP和Rank-1 值分別提高0.9%和1.1%,可見(jiàn)自適應(yīng)地對(duì)每個(gè)屬性賦予不同的權(quán)重是有作用的,對(duì)于每張圖片,網(wǎng)絡(luò)可以自動(dòng)調(diào)整各個(gè)屬性的重要性.我們的結(jié)果相比于var2,mAP和Rank-1 值分別提高1.7%和1.4%,說(shuō)明對(duì)融合后的屬性特征進(jìn)行額外的身份分類(lèi)任務(wù)可以進(jìn)一步提升性能,主要有兩個(gè)原因:1)可以對(duì)屬性特征和屬性權(quán)重有更強(qiáng)的監(jiān)督信息;2)由于沒(méi)有加入到第一支網(wǎng)絡(luò)中,從而不會(huì)干擾全局特征的學(xué)習(xí).我們的方法相比于var3,mAP和Rank-1 值分別提高0.1%和0.8%,說(shuō)明從屬性的角度生成權(quán)重,這種類(lèi)似于自注意力機(jī)制的方法可以得到更好的結(jié)果.另外從直覺(jué)上講,將屬性的特征作為輸入,輸出對(duì)應(yīng)于每個(gè)屬性的權(quán)重,這種方式也更加合理.

表3 的最后兩行表示在訓(xùn)練完最終模型后,分別使用全局特征g和屬性融合特征hw進(jìn)行檢索的結(jié)果.當(dāng)只使用g測(cè)試時(shí),mAP 值為72.4%,Rank-1 值為86.1%,只使用hw測(cè)試時(shí),mAP和Rank-1值分別為71.8%和85.1%,兩者均超過(guò)了基準(zhǔn)模型的結(jié)果.而將g和hw相連后測(cè)試時(shí),mAP和Rank-1 分別達(dá)到了74.2%和87.1%,可見(jiàn)全局特征和屬性特征相互補(bǔ)充,可以對(duì)行人進(jìn)行更全面的描述.

表3 使用不同特征融合方式的性能比較(%)Table 3 Performance comparison using different feature fusion methods (%)

3.4 網(wǎng)絡(luò)參數(shù)設(shè)置

圖2 是在DukeMTMC-reID 上分別設(shè)置不同的α和β得到的結(jié)果,圖2(a) 中β=0.2,圖2(b)中α=0.5 .由圖2(a)可知,對(duì)屬性融合特征進(jìn)行過(guò)多或者過(guò)少的監(jiān)督,效果都有所降低,當(dāng)α為0.5時(shí),可以得到最好的結(jié)果.由圖2(b)可知,當(dāng)β取值比較小時(shí),結(jié)果有所提高,同時(shí)為了不影響屬性識(shí)別的準(zhǔn)確率,將β取為0.2.在所有實(shí)驗(yàn)中,對(duì)α和β均進(jìn)行如上設(shè)置.

圖2 設(shè)置不同的 α和β 的結(jié)果Fig.2 Results setting different α and β

3.5 可視化分析

圖3 是模型訓(xùn)練完成之后,使用Grad-CAM(Gradient-weighted class activation mapping)[31]得到的各個(gè)屬性的可視化結(jié)果,10 個(gè)屬性依次為gender,hat,boots,length of upper-body clothing,backpack,handbag,bag,color of shoes,color of upper-body clothing,color of lower-body clothing.可視化結(jié)果下方的數(shù)字表示網(wǎng)絡(luò)生成的對(duì)應(yīng)于該屬性的權(quán)重.上方是DukeMTMC-reID 檢索庫(kù)中的一張圖片,下方的圖片是由屬性融合特征hw檢索出的第1 張圖片,匹配正確,即這兩張圖片屬于同一個(gè)行人.

圖3 各個(gè)屬性的可視化結(jié)果及對(duì)應(yīng)的權(quán)重值Fig.3 Visualization result and corresponding weight value of each attribute

由可視化結(jié)果可以看出,每個(gè)屬性的激活區(qū)域基本都是落在行人區(qū)域內(nèi),可見(jiàn)利用屬性的特征可以減少背景的干擾.此外,帽子、靴子、鞋子顏色、上衣顏色、下衣顏色等屬性的激活范圍基本符合對(duì)應(yīng)的屬性區(qū)域.由生成的權(quán)重值可知,對(duì)于這兩張圖片,帽子、靴子、背包等屬性的重要性很大.這兩張圖片由于姿態(tài)、光線(xiàn)等差異,在外觀上并不相似,但網(wǎng)絡(luò)通過(guò)自適應(yīng)地融合屬性特征,關(guān)注頭部、腳部、書(shū)包等區(qū)域,最終可以正確檢索出來(lái).

圖4 是使用不同特征檢索到的圖片,其中匹配錯(cuò)誤的樣本用粗線(xiàn)條的框表示.對(duì)于每個(gè)行人,后面三行分別是使用全局特征g、屬性融合特征hw和總的特征e得到的檢索結(jié)果.由第1 個(gè)行人的結(jié)果可知,全局特征只關(guān)注上衣和褲子,找出的10 張圖片中只有5 張匹配正確,而融合特征包含對(duì)于這個(gè)行人很重要的書(shū)包信息,檢索出了10 張正確的圖片.對(duì)于第2 個(gè)行人,融合特征通過(guò)帽子這個(gè)屬性,正確找出了被遮擋的圖片.相比于關(guān)注整體外觀的全局特征,融合后的屬性特征包含很多細(xì)節(jié)信息,這對(duì)于區(qū)分外觀相似的行人是很重要的.對(duì)于第3 個(gè)行人,全局特征檢索出的多為行人的背面圖片,而融合特征檢索出許多側(cè)面圖片,這兩個(gè)結(jié)果中均有錯(cuò)誤,但當(dāng)這兩個(gè)特征相連后,可以找出10張正確的包含各個(gè)視角的圖片,說(shuō)明全局特征和屬性特征包含不相同的信息,可以互相補(bǔ)充促進(jìn)最后的檢索結(jié)果.

圖4 使用不同特征檢索到的圖片F(xiàn)ig.4 Images retrieved by different features

3.6 屬性識(shí)別準(zhǔn)確率

表4和表5 分別表示DukeMTMC-reID和Market-1501 上各個(gè)屬性的識(shí)別準(zhǔn)確率,Avg 指所有屬性的平均準(zhǔn)確率,B2 表示只訓(xùn)練屬性識(shí)別的單支網(wǎng)絡(luò).由表中結(jié)果可知,屬性識(shí)別和行人重識(shí)別的多任務(wù)網(wǎng)絡(luò)促進(jìn)了屬性識(shí)別的過(guò)程,本文方法相比于B2,平均準(zhǔn)確率分別提高了0.32%和0.59%.此外,與APR、AANet-50 的結(jié)果比較也體現(xiàn)了本文方法的競(jìng)爭(zhēng)力.

表5 Market-1501 上屬性識(shí)別的準(zhǔn)確率(%)Table 5 Accuracy of attribute recognition on Market-1501 (%)

4 結(jié)束語(yǔ)

針對(duì)行人外觀存在類(lèi)內(nèi)差異大、類(lèi)間差異小的問(wèn)題,本文提出了一種融合屬性特征的行人重識(shí)別的深度網(wǎng)絡(luò)方法.實(shí)驗(yàn)結(jié)果表明,該方法能夠通過(guò)加入的屬性信息豐富行人的特征描述,提升識(shí)別性能.后續(xù)工作將考慮屬性之間的依賴(lài)關(guān)系,進(jìn)一步研究如何在行人重識(shí)別任務(wù)中更好地利用屬性標(biāo)簽,實(shí)現(xiàn)行人共有屬性的特征匹配.