聯(lián)合歸一化模塊和多分支特征的行人重識別

2024-04-23 04:35:12任丹萍董會升何婷婷張春華

計算機工程與設(shè)計 2024年4期

任丹萍，董會升，何婷婷，張春華

(1.河北工程大學(xué) 信息與電氣工程學(xué)院，河北邯鄲 056038；2.河北工程大學(xué)河北省安防信息感知與處理重點實驗室，河北邯鄲 056038；3.河北工程大學(xué) 體育與健康學(xué)院，河北邯鄲 056038)

0 引言

行人重識別[1]是指從多個目標(biāo)拍攝到的視頻中查找出特定的人。目前主要的方法是將特征提取與度量學(xué)習(xí)的方法結(jié)合起來對行人重識別模型進(jìn)行訓(xùn)練。利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動學(xué)習(xí)復(fù)雜的深層圖像特征[2-4]。Wang等[5]提出的DaRe-Net模型在不同層級的網(wǎng)絡(luò)中提取行人圖像的特征。Fu等[6]提出水平金字塔解決特征之間的匹配問題，對每個局部特征層面使用雙特征池化的方式得到行人的特征表示。Liao等[7]提出了在主干網(wǎng)絡(luò)融合注意力機制的基礎(chǔ)上，進(jìn)一步提取不同分辨率的特征來獲得行人更有判別力的特征向量。

上述方法雖然在一定程度上提高了行人重識別模型的準(zhǔn)確率，但提取的特征容易忽略圖像中不顯著的細(xì)節(jié)，因此，提出一種聯(lián)合歸一化模塊和多分支特征的行人重識別模型，主要工作如下：

(1)在主干網(wǎng)絡(luò)的歸一化模塊中融入一層通道注意力引導(dǎo)歸一化模塊對行人特征的提取，減輕行人圖像中的背景等雜波信息帶來的影響；

(2)雙級特征融合模塊包含了局部和全局特征，使用注意力機制對局部特征引導(dǎo)P個可學(xué)習(xí)的參數(shù)進(jìn)行加權(quán)求和，之后再與全局特征共同形成對行人的全面特征表達(dá)；

(3)在網(wǎng)絡(luò)的優(yōu)化過程中，使用平滑交叉熵?fù)p失、三元組損失以及跨分支特征蒸餾損失共同對網(wǎng)絡(luò)進(jìn)行優(yōu)化，強化網(wǎng)絡(luò)對行人更細(xì)節(jié)信息的提取；

(4)通過大量實驗分析驗證了模型的有效性，在Market-1501和DukeMTMC-ReID數(shù)據(jù)集上，驗證了模型具有較好的穩(wěn)定性和準(zhǔn)確率。

1 網(wǎng)絡(luò)模型

1.1 總體模型結(jié)構(gòu)

為了增加特征圖的分辨率，增強網(wǎng)絡(luò)模型提取更有效特征的能力，本文設(shè)計了一種基于Res-Net50殘差網(wǎng)絡(luò)的聯(lián)合歸一化模塊和多分支特征的行人重識別模型INMM(normalization module and multi branch feature)，包含了實例歸一化模塊(instance normalization module，INM)和雙級特征融合模塊(two level feature fusion module，TLFFM)。

本文提出的網(wǎng)絡(luò)模型架構(gòu)如圖1所示，為了增加特征圖的分辨率，去掉最后一層的下采樣操作，同時去除全局平均池化和全連接層。由于網(wǎng)絡(luò)的前兩層提取的特征信息語義可解釋性低，因此只在網(wǎng)絡(luò)的三四層后面嵌入INM模塊。雙級特征融合模塊包含了對行人局部和全局特征的提取，在得到網(wǎng)絡(luò)提取到的特征圖之后，將特征圖在水平方向分成P個水平的特征空間，對每一塊水平的特征空間都使用全局平局池化來生成P個局部特征向量，由于行人圖像不同的身體部位之間的重要性也不同，因此使用局部注意力機制引導(dǎo)P個可學(xué)習(xí)的特征參數(shù)對局部特征進(jìn)行加權(quán)求和，加權(quán)后的局部特征向量和全局特征向量聯(lián)合形成對行人特征充分的信息表達(dá)。在網(wǎng)絡(luò)的優(yōu)化過程中，聯(lián)合使用平滑交叉熵?fù)p失(cross entropy loss，CE Loss)、三元組損失(triplet loss)以及跨分支特征蒸餾損失(cross branch characteristic distillation loss，CBCD Loss)共同對網(wǎng)絡(luò)進(jìn)行更新，3種損失函數(shù)優(yōu)勢互補，使網(wǎng)絡(luò)朝著提取更有效圖像特征的方向優(yōu)化。

圖1 網(wǎng)絡(luò)架構(gòu)

1.2 實例歸一化模塊

為了緩解不同圖像的背景、光照等信息的差異，將INM模塊分別嵌入到主干網(wǎng)絡(luò)的第三層和第四層之后，INM模塊如圖2所示。將網(wǎng)絡(luò)提取的行人特征圖Z∈Rh×w×c作為INM模塊的輸入，其中h、w和c分別表示特征圖的高度、寬度和維數(shù)。同時為了防止直接使用IN層對行人信息的提取造成影響，提出使用通道注意力機制引導(dǎo)IN層對行人的特征信息進(jìn)行提取。實例歸一化模塊如式(1)所示

圖2 INM實例歸一化

(1)

受到通道注意力機制[8]的啟發(fā)，使用通道注意力對不同通道的特征進(jìn)行自適應(yīng)的加權(quán)，讓網(wǎng)絡(luò)在訓(xùn)練過程中自適應(yīng)的去提取更具有判別力的特征，同時也避免了硬性的對特征使用IN層編碼帶來的影響。通道注意力機制如式(2)所示

mC=σ(W2δ(W1g(Z)))

(2)

特征圖的每一層通道的特征歸一化如式(3)所示

(3)

其中，Zk表示特征圖Z的通道維度中第k層的特征，參數(shù)ε是用來避免運算的過程中除數(shù)為0的情況，文中參數(shù)ε取值為0.0001，E[·]用來計算特征圖第k個維度的平均值，Var[·]用來計算特征圖第k個維度的標(biāo)準(zhǔn)差。

經(jīng)過實例歸一化模塊后的特征，會更加關(guān)注圖像中行人的前景信息，有利于緩解圖像中雜波等信息帶來的特征誤差，使網(wǎng)絡(luò)提取圖像中更細(xì)節(jié)更有判別力的特征信息。

1.3 雙級特征融合模塊

大多數(shù)行人重識別關(guān)注的信息側(cè)重于對圖像構(gòu)造全局特征的約束，將全局特征作為行人最終信息的表示，然而由于行人姿態(tài)，光照和遮擋等信息的影響，僅使用全局特征并不能很好形成對圖像細(xì)節(jié)特征的完整表達(dá)，因此提出將全局特征和加權(quán)后的局部特征融入到雙級特征融合模塊中來形成對行人圖像更全面更細(xì)節(jié)的表達(dá)。雙級特征融合模型如圖3所示，由于行人不同部位的重要性也不同，因此在局部特征中提出局部注意力機制引導(dǎo)P個可變參數(shù)來細(xì)化局部的聚合特征，其中P表示局部特征的塊數(shù)，局部特征的計算流程如式(4)所示

圖3 雙級特征融合模型

(4)

為了得到更有判別力的局部聚合特征向量，提出局部注意力機制引導(dǎo)經(jīng)過歸一化后的P個可學(xué)習(xí)的參數(shù)對不同的局部特征進(jìn)行加權(quán)求和，加權(quán)參數(shù)使用w=(w1，…，wP)T來進(jìn)行表示，聚合加權(quán)后的局部特征如式(5)和式(6)所示

(5)

(6)

然而僅結(jié)合權(quán)重的局部特征向量不能充分利用全局視角下的特征信息，不能形成對行人特征的全面表達(dá)，為了形成對行人特征的全面表達(dá)，增強圖像信息的可判別性，將加權(quán)后的局部聚合特征向量與經(jīng)過全局平均池化后的全局特征向量結(jié)合起來，將行人圖像的特征映射到一個更有區(qū)分性的特征空間，行人的最終特征如式(7)所示

(7)

2 損失函數(shù)

為了增強網(wǎng)絡(luò)提取行人圖像更細(xì)節(jié)特征的能力，提高模型的識別率，使用平滑交叉熵?fù)p失、三元組損失以及跨分支特征蒸餾損失策略進(jìn)行訓(xùn)練。

2.1 交叉熵?fù)p失

(8)

(9)

(10)

其中，N代表每批行人的圖像個數(shù)，C代表每個身份的行人個數(shù)，fi代表圖像的特征向量，其真實標(biāo)簽為yi，W代表權(quán)重向量，b是偏置值，ε表示標(biāo)簽平滑參數(shù)，參數(shù)大小取值為0.0001。

2.2 三元組損失

(11)

其中，P表示在同一批訓(xùn)練數(shù)據(jù)中有P個不同身份的行人圖像，K表示在同一批訓(xùn)練數(shù)據(jù)中每一個身份的行人有K個實例，α表示正樣本和負(fù)樣本的間隔距離，文中取α=0.3。

2.3 跨分支特征蒸餾損失

特征相似性損失如式(12)所示

(12)

特征差異性損失如式(13)所示

(13)

網(wǎng)絡(luò)的總損失函數(shù)為

LSUM=LCE+LTriplet+LS+LC

(14)

3 實驗結(jié)果與分析

3.1 實驗環(huán)境

本文算法基于Pytorch框架進(jìn)行開發(fā)，實驗使用的計算平臺是Ubuntu16.04操作系統(tǒng)，硬件配置如下：GPU為NVIDIA GeForce GTX 3090、內(nèi)存大小為64 GB。訓(xùn)練批次大小為32，每一批次中P設(shè)置為8，K設(shè)置為4總共迭代次數(shù)為150，使用Adam優(yōu)化器優(yōu)化模型參數(shù)。在訓(xùn)練的過程中，引入了REA[10]的訓(xùn)練技巧對行人圖像進(jìn)行隨機遮擋，設(shè)置對圖像隨機擦除的概率為0.5，擦除部分的面積比為0.025

圖4 隨機遮擋

3.2 實驗數(shù)據(jù)集

在目前比較常用的數(shù)據(jù)集Market-1501[11]和DukeMTMC-ReID[12]上對提出的行人重識別模型進(jìn)行了相應(yīng)的實驗，驗證了所提模型的有效性。詳細(xì)信息見表1。

表1 數(shù)據(jù)集屬性信息

在兩個數(shù)據(jù)集上采用目前行人重識別方法的兩種評價指標(biāo)，首位準(zhǔn)確率(Rank-1)和平均匹配度(mAP)。Rank-1和mAP的定義參見文獻(xiàn)[13]。

3.3 與其它方法的比較

本節(jié)將提出的INMM模型在現(xiàn)有使用廣泛的數(shù)據(jù)集上與現(xiàn)在近些年來主流的Re-ID算法進(jìn)行對比和分析。對比結(jié)果見表2。

表2 與其它方法對比

從表2中可以看出，本文提出INMM模型在Market-1501數(shù)據(jù)集上的首位準(zhǔn)確率達(dá)到了95.7%，平均準(zhǔn)確率達(dá)到了88.1%，在DukeMTMC-ReID數(shù)據(jù)集上的首位準(zhǔn)確率達(dá)到了89.2%，平均準(zhǔn)確率達(dá)到了79.5%。本文所提方法在兩個數(shù)據(jù)集上的mAP和Rank-1相比于其它方法均有明顯提升，其中IDE模型使用的網(wǎng)絡(luò)中沒有對圖像的特征進(jìn)行歸一化同時也沒有結(jié)合圖像的全局和局部特征，因此準(zhǔn)確率沒有文中提出的模型高。PCB+RPP模型僅僅使用了局部特征對行人進(jìn)行特征的表示，并沒有結(jié)合全局特征，因此準(zhǔn)確率也不如INMM模型。雖然ABD-Net模型在Market-1501數(shù)據(jù)集上mAP的指標(biāo)比INMM高了0.1%，但是rank1指標(biāo)以及DukeMTMC-ReID上的指標(biāo)都不如INMM高，并且ABD-Net模型在求解SVDO梯度的時候使用了自動微分法，這個過程的計算量特別巨大。因此本文所提出的模型對行人重識別任務(wù)的性能提升是有效的。

3.4 可視化結(jié)果分析

為了更直觀展示出本文所提模型的先進(jìn)性，隨機在查詢集中取了4類行人圖像，分別包含行人步行、行人騎車、行人遮擋以及圖像模糊。圖5所示為行人結(jié)果查詢示意圖，其中上一行是本文模型所對應(yīng)的查詢結(jié)果，下一行為ResNet50網(wǎng)絡(luò)所對應(yīng)的查詢結(jié)果，圖像上方無黑色三角表示查詢集中的正確結(jié)果，圖像上方有黑色三角表示查詢集中的錯誤結(jié)果。可以很直觀看出，本文模型相對于基線模型在4類行人圖像查詢結(jié)果中，均取得了更好的效果，提高了行人重識別模型的準(zhǔn)確率。本文模型在INM模塊和TLFFM模塊的相互作用下可以提取更細(xì)節(jié)更全面的行人特征。

圖5 查詢結(jié)果

3.5 消融實驗

3.5.1 不同模塊的影響

為了驗證本模型不同模塊的有效性，在INM模塊和TLFFM模塊之間進(jìn)行模型的消融實驗。消融實驗的對應(yīng)熱力圖如圖6所示，其中圖像淺色區(qū)域越大說明該區(qū)域?qū)μ卣鞯奶崛≡街匾Ｔ诓樵兗须S機挑選4張行人圖像，其中圖(a)對應(yīng)的是行人原圖，圖(b)對應(yīng)的是基線模型的熱力激活圖，圖(c)對應(yīng)的是加入INM模塊中對應(yīng)的熱力激活圖，圖(d)對應(yīng)的是加入INM模塊和TLFFM模型后對應(yīng)的熱力激活圖。在加入INM模塊后，激活的行人圖像區(qū)域更大，這是因為INM模塊歸一化之后在圖像的特征層面降低了背景等雜波因素的干擾，在這個基礎(chǔ)上再加入TLFFM模塊，行人激活區(qū)域進(jìn)一步加深，這是因為TLFFM模塊根據(jù)注意力機制的參數(shù)讓模型自適應(yīng)的關(guān)注了全局特征和局部特征，二者形成了對行人圖像特征的充分表達(dá)。

圖6 行人可視化熱力圖

模塊消融實驗對應(yīng)的結(jié)果見表3，在依次加入INM模塊和TLFFM模塊后行人圖像部位激活區(qū)域更多，因此在實驗對應(yīng)的結(jié)果中，Rank-1和mAP也是依次增加的，消融實驗結(jié)果表明的INM和TLFFM模塊的有效性，二者相互作用增強了行人重識別模型的識別率。

表3 模型消融實驗

3.5.2 損失函數(shù)的影響

文中的損失函數(shù)共包含了3種，分別是平滑交叉熵?fù)p失、三元組損失以及跨分支特征蒸餾損失。為了驗證損失函數(shù)的有效性，在3個損失函數(shù)上設(shè)計了消融實驗，交叉熵?fù)p失僅僅考慮了高維特征的分類面，并沒有考慮特征之間的絕對距離，因此效果不如加入三元組之后的效果好，跨分支特征蒸餾損失將全局特征的語義信息傳遞到了局部特征，因此3個損失函數(shù)相互作用，增強了模型對圖像特征信息的提取能力。損失函數(shù)實驗的結(jié)果見表4。

表4 損失函數(shù)實驗

3.6 超參數(shù)分析

為確定局部特征分支中的超參數(shù)P的取值，在Market-1501和DukeMTMC-ReID數(shù)據(jù)集上對一定范圍內(nèi)P的取值進(jìn)行相應(yīng)的驗證與分析。不同超參數(shù)的準(zhǔn)確率如圖7所示，在數(shù)據(jù)集Market-1501和DukeMTMC-ReID中，Rank-1和mAP都是在P取值為6的時候達(dá)到最高，這是因為當(dāng)P取值太小時，局部特征的語義信息細(xì)節(jié)程度會降低，當(dāng)P取值太大時，局部特征的語義可解釋性會大幅降低。當(dāng)P取值為6的時候，模型的識別率最高，因此文中P取值為6。

圖7 P參數(shù)分析

4 結(jié)束語

如何提取出圖像細(xì)節(jié)特征一直是行人重識別研究中重要的問題，為此，提出一種聯(lián)合歸一化模塊和多分支特征的行人重識別模型，在網(wǎng)絡(luò)模型中，通過被注意力機制引導(dǎo)的歸一化模塊提取前景特征信息，并對局部特征使用可變參數(shù)進(jìn)行加權(quán)求和，最后與全局特征共同提取圖像中的判別性特征。在兩個數(shù)據(jù)集上進(jìn)行實驗驗證，開展可視化實驗、消融實驗以及與其它先進(jìn)算法對比實驗，驗證了所提算法的有效性。在未來的工作中，將嘗試使用輕量化模型展開研究。