基于Transformer的行人重識別網(wǎng)絡

2023-10-22 08:00:14莫建文莫倫麟

桂林電子科技大學學報 2023年3期

關(guān)鍵詞：特征信息

莫建文,莫倫麟

(桂林電子科技大學信息與通信學院,廣西桂林 541004)

行人重識別(person re-identification,簡稱ReID)是一種利用計算機視覺來判斷圖像或者視頻序列中是否存在特定行人的技術(shù)。它根據(jù)待檢索的行人圖像,在目標圖片庫中找到不同攝像頭下的同一行人。早在2017年,Transformer[1]開始在NLP自然語言處理領(lǐng)域出圈,且在后續(xù)GPT[2]、BERT[3]中被繼續(xù)發(fā)揚光大。鑒于此,谷歌的ViT[4]也成功將Transformer引入了CV圖像領(lǐng)域,用于建模圖像塊path之間的關(guān)聯(lián)性,證明了Transformer在圖像領(lǐng)域也具備強大的表征能力。TransReID[5]作為第一個應用ViTs架構(gòu)到行人重識別領(lǐng)域的方法,其在車輛重識別和行人重識別中都取得了較好的性能。AAformer[6]則應用ViT[4]主干網(wǎng)絡以及額外的部件tokens向量來表征和匯聚行人的部件信息。LATransformer[7]則是將PCB 的主干ResNet-50替換成Transformer,并將全局token向量融入各人體部件中。但這些方法都是直接將ViT[4]引入ReID中,將行人進行補丁式分塊建模。

為了解決由于CNN 感受野重疊帶來的分塊數(shù)量限制問題,即當分塊達到一定數(shù)量時,CNN 的感受野之間存在重疊現(xiàn)象(如圖1所示)。當CNN 中分塊數(shù)達到一定數(shù)量時,塊與塊之間就會重復,塊數(shù)越多,重復就越多,經(jīng)ReLU 激活后,很多重復區(qū)域會被置零,從而實際視野會產(chǎn)生很多暗幕。當無對齊算法的輔助時,分塊數(shù)就會成為限制模型性能的主要因素之一。鑒于此,將CNN 與Transformer相結(jié)合,提出一種基于Transformer 的行人重識別網(wǎng)絡(CNN with INOUT_transformer,簡稱CIT)。利用Transformer內(nèi)部的多頭注意力機制和全局建模能力,對多分塊條件下CNN 感受野重疊區(qū)域自動分配低權(quán)重,并把塊與塊之間的關(guān)鍵信息分別匯聚到全局token向量中,進而更高效地利用有效信息。在Market-1501和DukeMTMC-reID 的實驗結(jié)果表明,本方法能夠提高切片數(shù)量,并能進一步提高模型性能。

圖1 感受野重疊展示

1 相關(guān)研究

深度學習行人重識別相關(guān)方法主要分為姿態(tài)關(guān)鍵點[8-9]、分割[10]、網(wǎng)格[11]、跨域[12]、水平切片[13-16]等。除此之外,無監(jiān)督行人重識別方法[17-18]也開始涌現(xiàn)。對于姿態(tài)關(guān)鍵點,它是利用人體姿態(tài)估計得到的關(guān)鍵點信息來對行人進行部件分塊,從而得到更有針對性的特征。類似地,分割和網(wǎng)格方法則是利用分割和網(wǎng)格信息來得到更有效的特征。在水平切片方法中,PCB[14]利用水平切片分塊思想,將行人水平分成6塊,并對每塊特征利用softmax和交叉熵損失單獨進行分類,最終也取得了不錯的性能。而AlignedReID++[13]也是一種切片方法,其利用動態(tài)局部對齊算法DMLI來解決分塊對齊問題,從而將分塊切片數(shù)量提高到了8塊。直到ViT[4]出現(xiàn)后,Transformer才開始應用到圖像領(lǐng)域。TransReID[5]、AAformer[6]、LA-Transformer[7]參考ViT 基于Transformer提出了各自的行人重識別網(wǎng)絡,并取得了不錯的性能。

2 CIT方法

CIT總的網(wǎng)絡設計框圖如圖2所示。總的來說,CIT中的卷積神經(jīng)網(wǎng)絡CNN 用于抽取圖像特征F。對F進行分塊后,利用TransformerIN 建模分塊內(nèi)部像素token向量之間的關(guān)聯(lián)性,并將每塊中的有用信息融合到全局token向量中。Transformer-OUT則用來對TransformerIN 融合的各個分塊全局token向量做進一步建模,最終將各分塊全局token向量的信息融合到一個分類token向量中,然后通過對最終的分類token向量c進行softmax和交叉熵損失來對行人進行分類。

圖2 CIT網(wǎng)絡設計框架圖

2.1 Transformer 簡介

Transformer[1]主要由以下4個部分組成:

2)Multi-head Self-Attention:如果只利用上述的一組Wq、Wk、Wv矩陣得到的注意力輸出,難免過于單一,難以適應實際復雜的應用環(huán)境。不同的環(huán)境下,不同的任務中,模型需要能注意到不同部分之間的關(guān)聯(lián)性。所以,需要設置多組(多頭)可學習的Wq、Wk、Wv矩陣來應對復雜情況下的表征,多頭自注意力機制可表示為

其中,Zout為多頭自注意力的輸出矩陣,維度與輸入矩陣相同,

總的來說,就是對上述m組Wq、Wk、Wv分別進行式(2)的Attention操作,得到m組輸出,對m組的輸出矩陣進行Concat拼接,然后通過乘上一個WZ矩陣來降維匹配輸入矩陣的維度,從而得到與輸入矩陣Tin同維度的編碼輸出矩陣Zout。

3)MLP 和Residual Connection 以及Layer-Norm:類似于為了解決CNN 中網(wǎng)絡過深帶來的梯度消失問題而引入殘差連接(residual connection,簡稱RC)一樣,在每個Transformer模塊都引入殘差跳躍連接。此外,還包括簡單的多層感知機(multi layer perceptron,簡稱MLP)以及層歸一化Layer-Norm,如圖3所示。

圖3 Transformer結(jié)構(gòu)

4)Position Encoding: 一維位置編碼主要用來編碼各個輸入token的位置信息,可通過網(wǎng)絡自主學習得到,或者直接通過正余弦函數(shù)的組合來指定絕對位置信息。

2.2 CNN均等分塊切片

PCB[1]利用分塊均值池化(global average pooling,簡稱GAP)來對F進行切片,當分塊數(shù)達到一定數(shù)量時,這種做法會因為CNN 的感受野重疊和激活函數(shù)的雙重影響在原圖上產(chǎn)生暗幕(如圖1所示),從而影響模型的性能。這也是為什么切片分塊方法有分塊數(shù)量限制的原因。首先,輸入圖像X,經(jīng)過卷積神經(jīng)網(wǎng)絡CNN得到特征圖F(F∈RH×W×C)。然后,對F進行平均等切片分塊,但不池化。將F分成n塊,即

2.3 TransformerIN與TransformerOUT

TransformerIN 和TransformerOUT 都是標準的Transformer結(jié)構(gòu),但兩者各自所在的位置不同,擔任的任務也不同。TransformerIN用于建模Pi內(nèi)的像素級token向量信息,而TransformerOUT 則用于建模各個Pi得到的全局token向量之間的關(guān)聯(lián)性,并做進一步的信息融合。在將Pi送入TransformerIN模塊建模之前,需對Pi作進一步拆分,對拆分后的像素級token向量添加一個全局token向量gi和網(wǎng)絡可自動學習的位置編碼e。總的過程可表示為

其中:pk∈R1×1×C為Pi的像素級token向量;Tin1∈為TransformerIN的輸入;ej∈R1×1×C為可學習的位置編碼向量;gi∈R1×1×C為第i個分塊Pi的全局token向量。

同理,對所有分塊Pi,i=1,2,…,n,利用式(7)得到TransformerOUT的輸入g,將g輸入TransformerOUT前,加入全局分類token向量c,然后再進行位置編碼,表達式為

2.4 損失函數(shù)

通過式(8)得到全局分類token向量c后,利用兩層全連接(fully connected,簡稱FC)和softmax激活函數(shù)將分類token向量c映射并歸一化到預測向量,維度和訓練集中的行人類別數(shù)保持一致。這里參考PCB網(wǎng)絡,采取簡單的交叉熵損失函數(shù),與其不同的是,只對融合后的分類token向量c做一路損失,而不是對每個分塊部件向量都做一路損失。因此,本損失函數(shù)更加簡單高效,其表達式為

其中:qi為真實標簽值;softmax(FC(c))i為網(wǎng)絡的預測值。

3 實驗與結(jié)果分析

實驗基于Intel? CoreTMi9-10900X CPU @3.70 GHz處理器,64 GiB 內(nèi)存和英偉達的RTX-2080Ti顯卡,采用基于Python的PyTorch深度學習框架來對網(wǎng)絡進行實現(xiàn)。

3.1 數(shù)據(jù)集

采用行人重識別領(lǐng)域中較常用的2個數(shù)據(jù)集Market1501和DukeMTMC-ReID 作為主要的實驗數(shù)據(jù)集。Market1501包含32 217張圖片和1 501個行人標簽以及6個攝像頭視角,其中751個行人身份用于訓練集,750個行人身份用于測試集。DukeMTMC-reID共收集了36 441張行人圖片,包含由8個攝像頭采集的1 812個行人身份,其中702個行人身份作為訓練集,1 110個行人身份作為測試集。數(shù)據(jù)集的具體參數(shù)如表1所示。訓練和測試時輸入圖像都裁剪為192像素×384像素。

表1 數(shù)據(jù)集參數(shù)

3.2 實現(xiàn)細節(jié)

CIT模型實驗中使用的CNN 主干網(wǎng)絡為Res-Net-50,并將其中的conv5_x的步幅2改為1。對ResNet-50的輸出進行0.5的dropout后,進行一次1×1的卷積,將通道數(shù)從2 048降為512,隨后進行PReLU 激活函數(shù)[20]處理。然后通過Tensor的重編排操作將Tensor的寬高維度合并,最后通過算法1基于Transformer的核心代碼進行處理。

在訓練過程中,對輸入圖像進行水平翻轉(zhuǎn)和歸一化,并將batch size設置為64。模型學習率初始化為0.001,并使用不同的激活函數(shù)進行消融實驗。總的訓練epoch數(shù)為60。

算法1

3.3 結(jié)果及分析

實驗主要采用的評價指標為rank-1和mAP[19]。對于rank-k,即算法返回的排序列表中,若前k位存在檢索目標,則稱rank-k命中,rank-k指的是搜索結(jié)果中最靠前的k張圖片是正確結(jié)果的概率。mAP指的是前k位每個目標的AP值的平均,而AP值指的是返回的排序列表中含有目標的每個位置前包括當前位置目標的頻率。mAP能夠衡量模型在所有目標行人上的好壞。

3.3.1 激活函數(shù)的作用

在Market-1501數(shù)據(jù)集上,保持其他超參數(shù)不變,對PCB中的分塊數(shù)設為12,將激活函數(shù)進行替換,每種激活函數(shù)訓練5次并訓練60個epoch取mAP平均值,得到結(jié)果如表2所示。

表2 激活函數(shù)的影響

由表2可看出,對于分成12塊的PCB,由PCB的原文知道此時的感受野是存在重疊區(qū)的,ReLU 激活函數(shù)會將負值強制置零,相比之下更易產(chǎn)生暗幕,信息丟失得更多。而其他激活函數(shù)則在負值時仍有激活值保存下來,雖說可能在重疊區(qū)會保存一些重復信息,但CIT 因為內(nèi)部Transformer擅長把握全局信息和信息融合的特性,仍能達到PCB 及PCB+RPP分成6塊時的表現(xiàn)效果。

3.3.2 分塊數(shù)的影響

由于圖像在輸入前都裁剪為192像素×384像素,圖像經(jīng)過CNN后得到的特征圖大小為24×12×C,于是分塊數(shù)n的可能取值只能為1、2、4、6、8、12、24。但對于Transformer,若分塊數(shù)過小,則會導致輸入CIT中第一個TransformerIN 的像素級token向量過多,從而加大相應的計算量。因此,對于CIT,分塊數(shù)由4開始。對每種分塊數(shù)進行實驗,分別得到如圖4、5所示的rank-1和mAP曲線。

圖4 分塊數(shù)量對rank-1的影響

圖5 分塊數(shù)量對mAP的影響

從圖4、5可看出,當分塊數(shù)小于等于6塊時,由于分塊特征感受野之間并無過多的重復區(qū)域,PCB和PCB+RPP的性能都隨分塊數(shù)的增多而提升。當分塊數(shù)大于6時,特征感受野之間的重疊現(xiàn)象加重,導致CNN從中提取有用信息更加困難,模型表現(xiàn)開始隨著分塊數(shù)量的增多而下降。但對于CIT而言,內(nèi)部的2個Transformer結(jié)構(gòu)中的一個在分塊內(nèi)進行全局建模,在有效去除冗余信息的同時,將塊內(nèi)主要信息融合到全局token向量中,而另一個則將各個塊的全局token向量的信息進一步融合到分類token向量當中。因此,CIT性能夠隨著分塊數(shù)量的增多而提升。

3.3.3 特征圖大小的影響

將輸入圖像重塑成192像素×576像素后,再輸入網(wǎng)絡中,此時得到的特征圖變?yōu)?6×12×C,比之前的24×12×C大了144個像素級token向量。因此,CIT可對其進行更加細粒度的建模。在分塊數(shù)方面進行對比實驗,其rank-1和mAP指標的結(jié)果分別如圖6、7所示。

圖6 不同特征圖大小的分塊數(shù)量對rank-1的影響

圖7 不同特征圖大小的分塊數(shù)量對mAP的影響

從圖6、7可看出,對于不同特征圖大小的分塊結(jié)果,模型性能總體上還是隨著分塊數(shù)量的增加而提升。對于相同或相近的分塊數(shù),如3、4、6、8、9、12,特征圖大的無論在rank-1還是mAP上都比特征圖小的高一點。也就是說,CIT確實能夠?qū)Ω蛹毩６鹊奶卣鬟M行建模,從中學習到了更多有用的信息。

3.3.4 與其他方法的比較

將CIT與其他切片方法在數(shù)據(jù)集Market-1501、DukeMTMC-reID上進行比較,結(jié)果如表3所示。

表3 CIT與其他方法在數(shù)據(jù)集Market1501和DukeMTMC-reID上的比較

從表3可看出,CIT比PCB及PCB+RPP表現(xiàn)要好,無論是在rank-1還是mAP都有小幅度提升。主要是因為CIT內(nèi)部的2個Transformer結(jié)構(gòu)能夠更加高效地去除冗余信息,融合有效信息。但相比AlignedReID++,則略微遜色,主要是因為AlignedReID++中用到了動態(tài)局部對齊DMLI算法和reranking技術(shù)。但CIT和PCB+RPP在rank-1的指標上仍比AlignedReID++高一點,每個模型都有自己的擅長點與偏重點。

4 結(jié)束語

針對行人重識別中由于特征圖感受野帶來的切片分塊限制問題,提出一種基于Transformer的行人重識別網(wǎng)絡CIT。通過CIT中的TransformerIN 對分塊特征進行更細粒度的特征建模,同時有效去除由感受野重疊帶來的冗余信息。此外,CIT 中的TransformerOUT對由TransformerIN 得到的每個分塊全局token向量進行建模,做進一步的信息提取,并融合到全局分類token向量中。實驗結(jié)果表明,CIT確實能夠很好地對更加細粒度的特征進行建模,善于把控全局,從中去除冗余的同時提取出有用信息。未來工作可以嘗試直接去除CNN,利用單純的Transformer來搭建整個特征提取網(wǎng)絡,從而對更加細粒度的特征進行建模。