基于視覺信息積累的行人重識(shí)別網(wǎng)絡(luò)

2023-01-13 07:03:00譚紅臣李敬華王立春

圖學(xué)學(xué)報(bào) 2022年6期

關(guān)鍵詞：特征信息

耿圓，譚紅臣，李敬華，王立春

耿圓，譚紅臣，李敬華，王立春

(北京工業(yè)大學(xué)人工智能與自動(dòng)化學(xué)院，北京 100124)

在以往的行人重識(shí)別方法中，絕大部分的工作集中于圖像注意力區(qū)域的學(xué)習(xí)，卻忽視了非注意力區(qū)域?qū)ψ罱K特征學(xué)習(xí)的影響，如果在關(guān)注圖像注意力區(qū)域的同時(shí)加強(qiáng)非注意力區(qū)域的特征學(xué)習(xí)，可進(jìn)一步豐富最終的行人特征，有利于行人身份信息的準(zhǔn)確識(shí)別。基于此，提出了視覺信息積累網(wǎng)絡(luò)(VIA Net)，該網(wǎng)絡(luò)整體采用兩分支結(jié)構(gòu)，一個(gè)分支傾向于學(xué)習(xí)圖像的全局特征，另一個(gè)分支則拓展為多分支結(jié)構(gòu)，通過結(jié)合注意力區(qū)域和非注意力區(qū)域的特征逐步加強(qiáng)局部特征的學(xué)習(xí)，實(shí)現(xiàn)視覺信息的積累，進(jìn)一步豐富特征信息。實(shí)驗(yàn)結(jié)果表明，在Market-1501等行人重識(shí)別數(shù)據(jù)集上，所提出的VIA Net網(wǎng)絡(luò)達(dá)到了較高的實(shí)驗(yàn)性能；同時(shí)，在In-Shop Clothes Retrieval數(shù)據(jù)集上的實(shí)驗(yàn)證明：該網(wǎng)絡(luò)也適用于一般的圖像檢索任務(wù)，具有一定的通用性。

行人重識(shí)別；視覺信息；注意力區(qū)域；非注意力區(qū)域；度量學(xué)習(xí)

行人重識(shí)別任務(wù)是指在不同的監(jiān)控?cái)z像頭下的行人檢索問題，其目標(biāo)是在經(jīng)過裁剪的行人圖像上查詢匹配同一個(gè)人，即：給定一張行人的查詢圖像，該任務(wù)需在其他監(jiān)控?cái)z像頭拍攝的大量圖像中識(shí)別出包含該行人的圖像。行人重識(shí)別在現(xiàn)實(shí)世界中有很多的應(yīng)用場景，如視頻監(jiān)控安全、視頻檢索和人機(jī)交互。但是由于監(jiān)控?cái)z像頭視角變化、分辨率較低，行人圖像背景雜亂和遮擋等問題的影響，重識(shí)別目前依然是個(gè)具有挑戰(zhàn)性的任務(wù)。

最初，行人重識(shí)別的解決思路是利用從裁剪后的行人圖像中提取的手工特征進(jìn)行相似性度量實(shí)現(xiàn)重識(shí)別[1-3]，如顏色和紋理等視覺特征，但早期的方法性能低且魯棒性差。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，目前基于深度學(xué)習(xí)的行人重識(shí)別成為了主流，其大多數(shù)工作[4-6]都集中于利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks，CNN)學(xué)習(xí)對(duì)人體姿勢和視角變化等具有魯棒性的特征表示。但在實(shí)際中，由于人臉、四肢等身體部位會(huì)隨著監(jiān)控?cái)z像頭視角的變化發(fā)生改變，甚至產(chǎn)生遮擋，因此CNN在學(xué)習(xí)的過程中，會(huì)更多地關(guān)注人的主體部位，忽略了其他的身體部位也會(huì)產(chǎn)生判別特征。

為了解決這個(gè)問題，一些基于姿態(tài)的方法通過定位不同的身體部位并對(duì)齊相關(guān)特征進(jìn)行重識(shí)別。姿態(tài)歸一化生成對(duì)抗網(wǎng)絡(luò)[7](pose-normalized generative adversarial network，PN-GAN)考慮行人重識(shí)別中的姿態(tài)歸一化設(shè)計(jì)了生成對(duì)抗網(wǎng)絡(luò)，通過將數(shù)據(jù)中的所有行人姿態(tài)歸一化到8種標(biāo)準(zhǔn)姿態(tài)中，以學(xué)習(xí)沒有姿態(tài)變化影響的行人特征。姿態(tài)不變方法[8](pose-invariant embedding，PIE)則引入了姿態(tài)不變嵌入向量作為行人描述子，首先使用PoseBox結(jié)構(gòu)使行人與標(biāo)準(zhǔn)姿態(tài)對(duì)齊，其次設(shè)計(jì)了一個(gè)以原始圖像、PoseBox和姿態(tài)估計(jì)置信度為輸入的PoseBox Fusion (PBF) CNN結(jié)構(gòu)以減少姿態(tài)估計(jì)誤差。還有一些基于身體部位的方法使用粗分割或注意力網(wǎng)絡(luò)來改進(jìn)特征學(xué)習(xí)。PCB-RPP[9]提出了基于部位的卷積基線網(wǎng)絡(luò)(part-based convolutional baseline，PCB)，即輸入一張圖像，能夠輸出若干個(gè)部位級(jí)別的特征；同時(shí)還提出了優(yōu)化部位池化(refined part pooling，RPP)策略以避免分割時(shí)每個(gè)部位中出現(xiàn)極端值。關(guān)系感知全局注意力[10](relation-aware global attention，RGA)是基于全局注意力的行人重識(shí)別工作，提出了關(guān)系感知全局注意力模塊以充分利用全局相關(guān)性，通過對(duì)行人不同部位的特征施加權(quán)重實(shí)現(xiàn)增強(qiáng)判別特征，抑制無關(guān)特征。注意力金字塔[11](attention pyramid，APNet)提出了一種通過注意力金字塔以多尺度的方式模仿人類視覺感知過程的方法，首先將特征分割為數(shù)個(gè)局部區(qū)域并學(xué)習(xí)相應(yīng)的注意力，之后合并注意力并將其與殘差連接堆疊形成注意力金字塔。

可以看出，絕大部分的工作集中于圖像注意力區(qū)域的學(xué)習(xí)，也證明了關(guān)注注意力區(qū)域?qū)ψ罱K重識(shí)別任務(wù)的有效性。但是很少有工作涉及到非注意力區(qū)域的學(xué)習(xí)，考慮到非注意力區(qū)域也可能存在有用的判別特征，因此本文試圖將非注意力區(qū)域與注意力區(qū)域的特征同時(shí)考慮，以進(jìn)一步豐富最終的行人特征，從而有利于行人身份信息的準(zhǔn)確識(shí)別。

盡管基于身體姿態(tài)和部位的方法可以獲得不錯(cuò)的實(shí)驗(yàn)效果，然而上述網(wǎng)絡(luò)通常需要附加的身體姿態(tài)信息。此外，這些網(wǎng)絡(luò)是根據(jù)具體的研究對(duì)象使用特定的劃分機(jī)制設(shè)計(jì)的，如水平部位劃分，其適合于行人重識(shí)別任務(wù)，但并不通用，很難推廣到其他任務(wù)上。隨著技術(shù)的不斷發(fā)展，行人重識(shí)別任務(wù)已不再是一個(gè)簡單的分類問題，正逐漸演變?yōu)槎攘繉W(xué)習(xí)問題[12]，即類內(nèi)樣本(同一個(gè)行人)之間的距離至少應(yīng)小于類間樣本(不同的行人)之間的距離。因此，本文設(shè)想構(gòu)建一個(gè)簡單且通用的網(wǎng)絡(luò)，不僅可以用在行人重識(shí)別任務(wù)上，還可用于其他度量學(xué)習(xí)任務(wù)。

基于以上分析，本文提出了一個(gè)基于視覺信息積累的重識(shí)別網(wǎng)絡(luò)，該網(wǎng)絡(luò)整體上采用兩分支結(jié)構(gòu)，包括全局分支(global branch)和視覺信息積累分支(visual information accumulation branch)，使得網(wǎng)絡(luò)在關(guān)注人主體部位的同時(shí)不忽略其他身體部位的判別特征，促使網(wǎng)絡(luò)學(xué)習(xí)到更加全面的特征。由于傳統(tǒng)的兩分支結(jié)構(gòu)一定程度上限制了特征的多樣性[13]，本文在兩分支的基礎(chǔ)上進(jìn)一步拓展——將視覺信息積累分支拓展為多分支。具體來說，全局分支對(duì)全局特征表示進(jìn)行編碼，網(wǎng)絡(luò)會(huì)著重學(xué)習(xí)人主體部位的判別特征；視覺信息積累分支則在拓展的多分支上利用注意力機(jī)制逐步進(jìn)行視覺信息的積累，實(shí)現(xiàn)注意力區(qū)域和非注意力區(qū)域同時(shí)關(guān)注，不斷地關(guān)注新的局部細(xì)節(jié)特征，網(wǎng)絡(luò)著重學(xué)習(xí)其他身體部位的判別特征。

對(duì)于行人重識(shí)別任務(wù)，本論文在CUHK03[14]，Market-1501[15]和DukeMTMC-reID[16]等數(shù)據(jù)集上進(jìn)行了模型的訓(xùn)練與測試。對(duì)于一般的度量學(xué)習(xí)任務(wù)，在In-Shop Clothes Retrieval[17]數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文方法實(shí)現(xiàn)了較高性能的行人重識(shí)別，也適用于一般的度量學(xué)習(xí)任務(wù)。如，在Market-1501數(shù)據(jù)集上的mAP指標(biāo)達(dá)到了83.6%，Rank-1指標(biāo)達(dá)到了93.5%；在In-Shop Clothes Retrieval數(shù)據(jù)集上Recall@1指標(biāo)達(dá)到了93.0%，Recall@20指標(biāo)達(dá)到了99.1%。

1 VIA Net網(wǎng)絡(luò)

圖1為本文所提出VIA Net的網(wǎng)絡(luò)框架圖，該網(wǎng)絡(luò)由主干網(wǎng)絡(luò)ResNet-50、全局分支(global branch)和視覺積累分支(visual information accumulation branch)組成。在全局分支中，特征圖經(jīng)全局平均池化(global average pooling，GAP)得到2048-dim的特征，再降維得到具有全局信息的512-dim特征，該分支提供全局判別特征。在視覺積累分支中，卷積塊注意力模型(convolutional block attention module，CBAM)為本文使用的注意力機(jī)制，V1～V3 sub為3個(gè)子分支，concat為維度拼接操作，GMP為全局最大池化(global max pooling，GMP)。在V1 sub上，將通過主干網(wǎng)絡(luò)得到的特征圖作為輸入，減去其經(jīng)過注意力機(jī)制細(xì)化后的特征圖，可得到除去注意力區(qū)域的其他區(qū)域，將得到的特征圖作為V2 sub的輸入。在V2 sub和V3 sub上，再次執(zhí)行與V1 sub相同的步驟，最后將3個(gè)子分支得到的特征圖進(jìn)行維度拼接作為該分支最后的輸出特征圖，實(shí)現(xiàn)視覺信息的積累。

圖1 VIA Net網(wǎng)絡(luò)框架圖

1.1 CBAM注意力機(jī)制

本文的VIA Net網(wǎng)絡(luò)所用到的注意力機(jī)制是CBAM[18]機(jī)制，如圖2所示，該機(jī)制結(jié)合了通道(channel)與空間(spatial)的注意力，對(duì)輸入的特征圖進(jìn)行細(xì)化，使得網(wǎng)絡(luò)集中關(guān)注圖像中最感興趣的區(qū)域。

圖2 CBAM注意力機(jī)制

通道注意力模塊如圖3所示，輸入的特征圖分別經(jīng)過GAP和GMP后共同輸入到共享多層神經(jīng)網(wǎng)絡(luò)(shared MLP)中，然后對(duì)輸出的特征進(jìn)行相加后經(jīng)過Sigmoid激活函數(shù)得到權(quán)重系數(shù)c。將c與輸入的特征圖進(jìn)行相乘操作得到通道注意力模塊生成的特征圖，即需要送入空間注意力模塊的特征。

圖3 通道注意力模塊

空間注意力模塊如圖4所示。將通道注意力模塊的輸出作為空間注意力模塊的輸入，同樣對(duì)該輸入的特征分別經(jīng)過GAP和GMP后依照通道拼接兩部分特征。之后經(jīng)過一個(gè)7×7的卷積層，再經(jīng)過一個(gè)Sigmoid線性激活函數(shù)得到權(quán)重系數(shù)，將與此模塊的輸入特征圖進(jìn)行相乘操作得到最終的特征圖。

圖4 空間注意力模塊

方便起見，在此后的介紹中將該注意力機(jī)制用式(1)進(jìn)行描述

其中，為輸入的特征圖；T(*)為通道與空間注意力操作；*為經(jīng)過注意力機(jī)制的輸出特征圖。由于CBAM為即插即用，因此可方便地插入網(wǎng)絡(luò)中任何需要的地方。如圖1所示，將其插入到視覺積累分支的3個(gè)子分支中。

1.2 網(wǎng)絡(luò)結(jié)構(gòu)

(1) 主干網(wǎng)絡(luò)。與行人重識(shí)別中的大部分方法相同，本文采用ResNet-50[19]作為主干網(wǎng)絡(luò)用于特征提取。同時(shí)為了與主流的方法進(jìn)行比較，將主干網(wǎng)絡(luò)的第4階段起始時(shí)的下采樣操作刪除，以得到大小為2048×24×8的特征圖。

(2) 全局分支(global branch)。其由GAP層、1×1卷積層、批歸一化層(batch normalization，BN)和線性整流函數(shù)(rectified linear unit，ReLU)組成。通過在Stage4層生成的2048×24×8的特征圖上進(jìn)行GAP得到2048-dim的特征向量，再利用1×1卷積層、BN層和ReLU層將其進(jìn)一步降低到512-dim，使用三元組損失和交叉熵?fù)p失約束全局特征的學(xué)習(xí)。全局分支在多分支網(wǎng)絡(luò)結(jié)構(gòu)中一般用于提供全局特征表示[20]。在本文中，全局分支關(guān)注行人的主體部位，學(xué)習(xí)全局判別特征。

(3) 視覺信息積累分支(visual information accumulation branch)。其由注意力模塊CBAM、GMP層和1×1卷積層、BN層和ReLU層組成，與全局分支類似，利用三元組損失和交叉熵?fù)p失約束網(wǎng)絡(luò)的學(xué)習(xí)。為進(jìn)一步豐富特征信息，本文將視覺信息積累分支拓展為多分支結(jié)構(gòu)，如圖1所示的V1～V3子分支，依次利用CBAM注意力機(jī)制進(jìn)行視覺信息的積累，具體過程如下：

可以注意到：在VIA Net中全局分支使用GAP，而視覺信息積累分支使用GMP，這是因?yàn)镚MP會(huì)鼓勵(lì)網(wǎng)絡(luò)在減去最具辨別力的部分后仍可在剩余弱特征中識(shí)別出相對(duì)顯著的特征。綜上，在全局分支關(guān)注圖像全局特征的同時(shí)，視覺信息積累分支通過注意力相減操作融合注意力區(qū)域和非注意力區(qū)域的特征，從而不斷地關(guān)注新的局部特征，最終將2個(gè)分支的特征進(jìn)行拼接，使得最終獲得的特征表示更加全面。

(4) 損失函數(shù)。其是全局分支和視覺信息積累分支上的重識(shí)別損失與難樣本三元組損失[21]之和，即

reid重識(shí)別損失采用標(biāo)簽平滑交叉熵?fù)p失[22]。得到的行人特征利用全連接層(fully connected layer)和softmax激活函數(shù)可得到對(duì)應(yīng)的預(yù)測概率，進(jìn)而使用標(biāo)簽平滑交叉熵?fù)p失進(jìn)行約束。為了在計(jì)算損失函數(shù)時(shí)減少真實(shí)樣本標(biāo)簽類別的權(quán)重，即達(dá)到防止過擬合訓(xùn)練集的目的，對(duì)真實(shí)的概率分布進(jìn)行改進(jìn)，即

其中，為行人類別數(shù)；()為預(yù)測概率；為權(quán)重；為真實(shí)的樣本標(biāo)簽。

triplet為難樣本三元組損失，使用時(shí)為每個(gè)anchor找到其最難的正樣本和負(fù)樣本，即為每個(gè)anchor找到其最不相像的正樣本和最相像的負(fù)樣本進(jìn)行三元組損失的計(jì)算，從而使得類內(nèi)樣本之間的距離減小，類間樣本距離增大，即

在測試過程中，將來自全局分支和視覺信息積累分支的特征維度拼接，作為行人圖像的嵌入向量。值得注意的是本文所提出的VIA Net的全局分支和視覺信息積累分支皆具有通用性，因此可以應(yīng)用于除行人重識(shí)別任務(wù)之外的其他度量學(xué)習(xí)任務(wù)，這一點(diǎn)將在下一部分的實(shí)驗(yàn)中給出證明。

2 實(shí)驗(yàn)結(jié)果分析

在主流的行人重識(shí)別數(shù)據(jù)集上驗(yàn)證了本文所提出的VIA Net網(wǎng)絡(luò)，在訓(xùn)練過程中，將輸入圖像的大小調(diào)整為384×128，然后通過隨機(jī)水平翻轉(zhuǎn)和標(biāo)準(zhǔn)化進(jìn)行數(shù)據(jù)增強(qiáng)，訓(xùn)練過程設(shè)置為400 epochs。測試圖像調(diào)整為同樣大小，僅通過標(biāo)準(zhǔn)化進(jìn)行增強(qiáng)。在In-Shop Clothes Retrieval數(shù)據(jù)集上驗(yàn)證了本文的網(wǎng)絡(luò)同樣適用于一般的度量學(xué)習(xí)任務(wù)，訓(xùn)練和測試過程中均將圖像進(jìn)行填充并調(diào)整大小為256×256，訓(xùn)練過程設(shè)置為300 epochs。網(wǎng)絡(luò)訓(xùn)練時(shí)使用Adam優(yōu)化器，在前50個(gè)epochs學(xué)習(xí)率為10–3，在200個(gè)epochs后學(xué)習(xí)率為10–4，在300個(gè)epochs后學(xué)習(xí)率為10–5。在2個(gè)任務(wù)上將本文結(jié)果分別與前沿方法進(jìn)行了比較與分析。

推薦理由:本書介紹了中國改革開放發(fā)展成就，主要從改革路徑、對(duì)外開放、宏觀經(jīng)濟(jì)、區(qū)域發(fā)展、“三農(nóng)”政策、扶貧脫貧、產(chǎn)業(yè)發(fā)展、科技引領(lǐng)、生態(tài)文明、人力資源、社會(huì)保障、收入分配這十二個(gè)方面講述中國故事。中國改革開放促進(jìn)發(fā)展與分享的成功故事，以及建立經(jīng)濟(jì)特區(qū)和試驗(yàn)區(qū)先行先試，繼而實(shí)施區(qū)域發(fā)展戰(zhàn)略，在中西部地區(qū)創(chuàng)造條件重演沿海地區(qū)發(fā)展奇跡的有益經(jīng)驗(yàn)。

2.1 行人重識(shí)別任務(wù)實(shí)驗(yàn)

2.1.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

本文在行人重識(shí)別數(shù)據(jù)集上進(jìn)行網(wǎng)絡(luò)的訓(xùn)練與測試，包括Market-1501，DukeMTMC-reID和CUHK03數(shù)據(jù)集。Market-1501數(shù)據(jù)集使用6臺(tái)攝像機(jī)收集了1 501個(gè)身份，共有32 668張行人圖像。該數(shù)據(jù)集含有12 936張751個(gè)身份的圖像的訓(xùn)練集，以及含有3 368張查詢圖像和750個(gè)身份的15 913張的圖庫圖像的測試集。DukeMTMC-reID數(shù)據(jù)集包含1 404個(gè)身份，由2臺(tái)以上的攝像機(jī)拍攝，一共有36 411張圖像。訓(xùn)練集則包含702個(gè)身份和16 522張圖像，測試集包含其他的702個(gè)身份。CUHK03數(shù)據(jù)集包含標(biāo)記的14 096張圖像和檢測到的14 097張圖像，據(jù)此將數(shù)據(jù)集分為CUHK03-Label和CUHK03-Detect2個(gè)數(shù)據(jù)集，數(shù)據(jù)集中共有1 467個(gè)身份，767個(gè)身份用于訓(xùn)練，700個(gè)身份用于測試。

對(duì)于每個(gè)查詢圖像，按照與查詢圖像的歐氏距離降序排列所有圖庫圖像，并計(jì)算累積匹配特征(CMC)曲線，本文使用Rank-1值和mAP值作為評(píng)價(jià)指標(biāo)。

2.1.2 與前沿方法的比較與分析

本文在ResNet-50主干網(wǎng)絡(luò)的基礎(chǔ)上聯(lián)合全局分支(global branch)構(gòu)成本文的基線網(wǎng)絡(luò)(Baseline)。表1展示了本文所提出的VIA Net網(wǎng)絡(luò)在CUHK03-Label，CUHK03-Detect，DukeMTMC-reID和Market-1501數(shù)據(jù)集與一些前沿方法之間的統(tǒng)計(jì)比較。結(jié)果表明，本文方法的mAP值與Rank-1值均高于絕大多數(shù)前沿方法。

表1 VIA Net在行人重識(shí)別任務(wù)上與前沿方法的比較

注：加粗?jǐn)?shù)據(jù)為最優(yōu)值

可以看到，在簡單的Market-1501數(shù)據(jù)集上，VIA Net相比于基線網(wǎng)絡(luò)提升了1～2個(gè)百分點(diǎn)，在相對(duì)復(fù)雜的CUHK03-Label，CUHK03-Detect和DukeMTMC-reID數(shù)據(jù)集上，VIA Net提升了大約4～9個(gè)百分點(diǎn)。分析原因可能是當(dāng)數(shù)據(jù)集較為復(fù)雜時(shí)，網(wǎng)絡(luò)關(guān)注全局特征已無法取得良好的判別特征，此時(shí)視覺信息積累分支關(guān)注局部細(xì)節(jié)特征的優(yōu)勢相對(duì)突出。這表明：VIA Net的視覺信息積累分支在復(fù)雜數(shù)據(jù)集上有明顯的優(yōu)勢。

2.1.3 消融實(shí)驗(yàn)

表2 消融實(shí)驗(yàn)(Branch)

注：加粗?jǐn)?shù)據(jù)為最優(yōu)值

表2顯示，當(dāng)網(wǎng)絡(luò)只使用全局分支時(shí)，網(wǎng)絡(luò)的性能并不高；當(dāng)只使用視覺信息積累分支時(shí)，網(wǎng)絡(luò)的性能優(yōu)于表2的基線網(wǎng)絡(luò)，聯(lián)合使用全局分支可以進(jìn)一步提高網(wǎng)絡(luò)性能。這表明全局分支和視覺信息積累分支對(duì)于網(wǎng)絡(luò)的整體學(xué)習(xí)是相互增強(qiáng)的，缺一不可。

表3 消融實(shí)驗(yàn)(Sub Branch)

注：加粗?jǐn)?shù)據(jù)為最優(yōu)值

從表3中可以看出，當(dāng)網(wǎng)絡(luò)使用V1+V2+V3子分支時(shí)的性能是最優(yōu)的，當(dāng)減少或增加子分支時(shí)，實(shí)驗(yàn)性能均有所下降。當(dāng)只使用V1子分支或V1+V2子分支時(shí)的實(shí)驗(yàn)性能有所下降，原因可能是此時(shí)子分支數(shù)較少，網(wǎng)絡(luò)學(xué)習(xí)時(shí)積累的視覺信息不夠豐富；當(dāng)采用V1+V2+V3+V4子分支時(shí)，雖然網(wǎng)絡(luò)積累的視覺信息可能會(huì)增加，但是由于視覺信息積累分支關(guān)注的是局部細(xì)節(jié)特征，在子分支上進(jìn)行注意力區(qū)域逐步相減的操作，使得有用的判別信息隨著逐分支遞增而減少，再積累視覺信息反而不利于網(wǎng)絡(luò)的學(xué)習(xí)。

2.1.4 可視化分析

使用本文提出的VIA Net分別在Market-1501和CUHK03-Detect數(shù)據(jù)集上進(jìn)行可視化實(shí)驗(yàn)，將與query圖像相似度top-7 (排名前7)的行人圖像進(jìn)行展示，結(jié)果如圖5和圖6所示。最左側(cè)的圖像為query圖像，右側(cè)有邊框的為檢索到對(duì)應(yīng)的top-7行人圖像，其中，綠色邊框表示檢索正確，紅色邊框表示檢索錯(cuò)誤。

圖5 Market-1501數(shù)據(jù)集上的可視化檢索結(jié)果((a) Baseline檢索結(jié)果；(b) VIA Net檢索結(jié)果)

圖6 CUHK03-Detect數(shù)據(jù)集上的可視化檢索結(jié)果((a) Baseline檢索結(jié)果；(b) VIA Net檢索結(jié)果)

由可視化結(jié)果可知，在簡單的Market-1501數(shù)據(jù)集上，基線網(wǎng)絡(luò)在top-7的檢索中，僅在第6張時(shí)出現(xiàn)了檢索錯(cuò)誤；而VIA Net無錯(cuò)誤匹配出現(xiàn)。在較復(fù)雜的CUHK03-Detect數(shù)據(jù)集上，基線網(wǎng)絡(luò)在top-7的檢索中，出現(xiàn)了3張檢索錯(cuò)誤；而VIA Net只出現(xiàn)了1張檢索錯(cuò)誤。可以看出，數(shù)據(jù)集較為簡單時(shí)，使用基線網(wǎng)絡(luò)可以達(dá)到不錯(cuò)的效果，VIA Net對(duì)結(jié)果的提升比較有限；而在較為復(fù)雜的數(shù)據(jù)集上，在使用基線網(wǎng)絡(luò)效果不佳時(shí)，使用視覺信息積累分支關(guān)注局部細(xì)節(jié)特征，可使VIA Net會(huì)更有優(yōu)勢，這與2.1.2節(jié)中的分析一致。

2.2 度量學(xué)習(xí)任務(wù)實(shí)驗(yàn)

2.2.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

本文在In-Shop Clothes Retrieval數(shù)據(jù)集上驗(yàn)證了該網(wǎng)絡(luò)同樣適用于一般的度量學(xué)習(xí)任務(wù)，具有一定的通用性。該數(shù)據(jù)集為賣家秀的圖像集，一共包括7 982件商品，52 712張圖像，圖像從不同角度拍攝而成，具有較大的挑戰(zhàn)性。本文使用標(biāo)準(zhǔn)召回率Recall@K衡量圖像檢索性能的指標(biāo)。

2.2.2 與前沿方法的比較與分析

表4為本文網(wǎng)絡(luò)在Clothes數(shù)據(jù)集上與一些前沿方法之間的統(tǒng)計(jì)比較。

表4 VIA Net在度量學(xué)習(xí)任務(wù)上與前沿方法的比較

注：加粗?jǐn)?shù)據(jù)為最優(yōu)值

結(jié)果表明，本文方法Recall@1值達(dá)到了93.0，同時(shí)在Recall@10與Recall@20指標(biāo)上也有較高地提升，均高于前沿算法的表現(xiàn)。

3 結(jié) 論

本文提出了一個(gè)基于視覺信息積累的簡單且通用的重識(shí)別網(wǎng)絡(luò)(VIA Net)，該網(wǎng)絡(luò)整體上包含全局分支和視覺信息積累分支。其中，全局分支關(guān)注于圖像的主體區(qū)域，學(xué)習(xí)全局判別特征；視覺信息積累分支利用注意力機(jī)制實(shí)現(xiàn)注意力區(qū)域和非注意力區(qū)域同時(shí)關(guān)注，進(jìn)而進(jìn)行視覺信息的積累，著重學(xué)習(xí)其他身體部位的判別特征，關(guān)注局部特征，從而使得學(xué)習(xí)到的判別特征更加全面。實(shí)驗(yàn)結(jié)果顯示，本文提出的VIA Net不僅在行人重識(shí)別數(shù)據(jù)集上達(dá)到了較高的實(shí)驗(yàn)結(jié)果，在一般的圖像檢索數(shù)據(jù)集上也有很好的性能表現(xiàn)。

[1] BAZZANI L, CRISTANI M, PERINA A, et al. Multiple-shot person re-identification by HPE signature[C]//The 20th International Conference on Pattern Recognition. New York: IEEE Press, 2010: 1413-1416.

[2] MIGNON A, JURIE F. PCCA: a new approach for distance learning from sparse pairwise constraints[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 2666-2672.

[3] LI Z, CHANG S Y, LIANG F, et al. Learning locally-adaptive decision functions for person verification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 3610-3617.

[4] CHEN D P, XU D, LI H S, et al. Group consistent similarity learning via deep CRF for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8649-8658.

[5] ZHAO L M, LI X, ZHUANG Y T, et al. Deeply-learned part-aligned representations for person re-identification[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 3239-3248.

[6] ZHENG Z D, ZHENG L, YANG Y. A discriminatively learned CNN embedding for person reidentification[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2017 14(1): 13.

[7] QIAN X L, FU Y W, XIANG T, et al. Pose-normalized image generation for person re-identification[M]//Computer vision - ECCV 2018. Cham: Springer International Publishing, 2018: 661-678.

[8] ZHENG L, HUANG Y J, LU H C, et al. Pose invariant embedding for deep person re-identification[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2019, 28(9):4500-4509.

[9] SUN Y F, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and A strong convolutional baseline)[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 501-518.

[10] ZHANG Z Z, LAN C L, ZENG W J, et al. Relation-aware global attention for person re-identification[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3183-3192.

[11] CHEN G Y, GU T P, LU J W, et al. Person re-identification via attention pyramid[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2021, 30: 7663-7676.

[12] SU C, LI J N, ZHANG S L, et al. Pose-driven deep convolutional model for person re-identification[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 3980-3989.

[13] WU X F, XIE B, ZHAO S L, et al. Diversity-achieving slow-DropBlock network for person re-identification[EB/OL]. [2022-05-05]. https://arxiv.org/abs/2002.04414.

[14] LI W, ZHAO R, XIAO T, et al. DeepReID: deep filter pairing neural network for person re-identification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 152-159.

[15] ZHENG L, SHEN L Y, TIAN L, et al. Scalable person re-identification: a benchmark[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2016: 1116-1124.

[16] RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multi-target, multi-camera tracking[M]//Lecture notes in computer science. Cham: Springer International Publishing, 2016: 17-35.

[17] LIU Z W, LUO P, QIU S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1096-1104.

[18] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

[19] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

[20] CHENG D, GONG Y H, ZHOU S P, et al. Person re-identification by multi-channel parts-based CNN with improved triplet loss function[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1335-1344.

[21] HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification[EB/OL]. [2022-05-07]. https://arxiv.org/abs/1703.07737.

[22] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 2818-2826.

[23] ZHENG Z D, ZHENG L, YANG Y. Pedestrian alignment network for large-scale person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(10): 3037-3045.

[24] CHEN Y B, ZHU X T, GONG S G. Person re-identification by deep learning multi-scale representations[C]//2017 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2017: 2590-2600.

[25] 吳紹君, 高玲, 李強(qiáng). 基于多層次深度學(xué)習(xí)網(wǎng)絡(luò)的行人重識(shí)別[J]. 山東師范大學(xué)學(xué)報(bào): 自然科學(xué)版, 2020, 35(2): 208-216.

WU S J, GAO L, LI Q. Multi-level deep learning network for person re-identificatioin[J]. Journal of Shandong Normal University: Natural Science, 2020, 35(2): 208-216 (in Chinese).

[26] ZHONG Z, ZHENG L, KANG G L, et al. Random erasing data augmentation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Washington, DC: AAAI, 2020: 13001-13008.

[27] WANG Y, WANG L Q, YOU Y R, et al. Resource aware person re-identification across multiple resolutions[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8042-8051.

[28] ALMAZAN J, GAJIC B, MURRAY N, et al. Re-ID done right: towards good practices for person re-identification[EB/OL]. [2022-04-25]. https://arxiv.org/abs/1801.05339.

[29] 厙向陽, 李蕊心, 葉鷗. 融合隨機(jī)擦除和殘差注意力網(wǎng)絡(luò)的行人重識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(3): 215-221.

SHE X Y, LI R X, YE O. Pedestrian re-identification combining random erasing and residual attention network[J]. Computer Engineering and Applications, 2022, 58(3): 215-221 (in Chinese).

[30] 田智慧, 鄭付科, 高需. 內(nèi)容一致性行人重識(shí)別算法[J]. 計(jì)算機(jī)工程, 2021, 47(3): 237-242.

TIAN Z H, ZHENG F K, GAO X. Content-consistent pedestrian re-identification algorithm[J]. Computer Engineering, 2021, 47(3): 237-242 (in Chinese).

[31] ZHUANG Z J, WEI L H, XIE L X, et al. Rethinking the distribution gap of person re-identification with camera-based batch normalization[M]//Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020: 140-157.

[32] 宋曉茹, 楊佳, 高嵩, 等. 基于注意力機(jī)制與多尺度特征融合的行人重識(shí)別方法[J]. 科學(xué)技術(shù)與工程, 2022, 22(4): 1526-1533.

SONG X R, YANG J, GAO S, et al. Person re-identification method based on attention mechanism and multi-scale feature fusion[J]. Science Technology and Engineering, 2022, 22(4): 1526-1533 (in Chinese).

[33] YUAN Y H, YANG K Y, ZHANG C. Hard-aware deeply cascaded embedding[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 814-823.

[34] XUAN H, SOUVENIR R, PLESS R. Deep randomized ensembles for metric learning[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 751-762.

[35] GE W F, HUANG W L, DONG D K, et al. Deep metric learning with hierarchical triplet loss[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 272-288.

[36] OPITZ M, WALTNER G, POSSEGGER H, et al. Deep metric learning with BIER: boosting independent embeddings robustly[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 276-290.

[37] KIM W, GOYAL B, CHAWLA K, et al. Attention-based ensemble for deep metric learning[M]//Computer vision - ECCV 2018. Cham: Springer International Publishing, 2018: 760-777.

[38] DAI Z Z, CHEN M Q, GU X D, et al. Batch DropBlock network for person re-identification and beyond[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2020: 3690-3700.

Visual information accumulation network for person re-identification

GENG Yuan, TAN Hong-chen, LI Jing-hua, WANG Li-chun

(School of Artificial Intelligence and Automation, Beijing University of Technology, Beijing 100124, China)

The preceding person re-identification methods were mostly focused on the learning of the image attention region, but ignored the impact of the non-attention region on the final feature learning. If the feature learning of image non-attention regions is enhanced while focusing on attention regions, the final person features can be further enriched, which is beneficial to the accurate identification of person identity information. Based on this, this paper proposed a visual information accumulation network (VIA Net), adopting two branches. One branch tended to learn the global features of the image, and the other branch was expanded into a multi-branch structure. By combining the features of the attention and non-attention regions, the learning of local features could be gradually strengthened, thus realizing the accumulation of visual information and further enriching the feature information. The experimental results show that the proposed VIA Net could attain high experimental performance in terms of person re-identification datasets such as Market-1501. At the same time, the experiment on the In-Shop Clothes Retrieval dataset shows that the network could also be applicable to general image retrieval tasks and possess certain universality.

person re-identification; visual information; attention region; non-attention region; metric learning

TP 391

10.11996/JG.j.2095-302X.2022061193

2095-302X(2022)06-1193-08

2022-08-02；

：2022-11-10

第7批全國博士后創(chuàng)新人才支持計(jì)劃項(xiàng)目(BX20220025)；第70批全國博士后面上基金項(xiàng)目(2021M700303)

耿圓(1997-)，女，碩士研究生。主要研究方向?yàn)樾腥酥刈R(shí)別、視覺語言導(dǎo)航。E-mail：geng1455289970@163.com

譚紅臣(1992-)，男，講師，博士。主要研究方向?yàn)樾腥酥刈R(shí)別、圖像生成、視覺定位等。E-mail：tanhongchenphd@bjut.edu.cn

2 August，2022；

10 November，2022

The 7th National Postdoctoral Innovative Talent Support Program (BX20220025); The 70th Batch of National Post-Doctoral Fellowships (2021M700303)

GENG Yuan (1997-), master student. Her main research interests cover person re-identification and vision-and-language navigation. E-mail：geng1455289970@163.com

TAN Hong-chen (1992-), lecturer, Ph.D. His main research interests cover person re-identification, image generation, object detection, etc. E-mail：tanhongchenphd@bjut.edu.cn