杜 鵬 宋永紅 ,2 張鑫瑤
近年來,伴隨著視頻采集技術(shù)的大力發(fā)展,大量的監(jiān)控攝像頭部署在商場、公園、學(xué)校等公共場所.監(jiān)控攝像的出現(xiàn)給人們帶來了極大的便利,其中最直接的一個好處就是可以幫助公安等執(zhí)法部門解決盜竊、搶劫等重大刑事案件.但是正是由于監(jiān)控攝像頭布置的區(qū)域十分廣闊,基本在大中小城市中都遍地布滿了監(jiān)控攝像頭,當(dāng)一個目標(biāo)人物在一個城市的監(jiān)控攝像網(wǎng)絡(luò)中移動時,往往會導(dǎo)致公安等相關(guān)部門人員在一定時間內(nèi)在整個網(wǎng)絡(luò)中對監(jiān)控視頻進行查看,這對公安等相關(guān)部門進行區(qū)域的管理以及視頻的查看帶來了較大的不便.因此,需要一種方便、快捷的方式來代替人工對監(jiān)控視頻中行人進行搜尋.為了實現(xiàn)對監(jiān)控視頻中的行人進行搜尋這個目標(biāo),其本質(zhì)就是要實現(xiàn)多目標(biāo)跨攝像頭追蹤,而行人再識別技術(shù)[1-2]是多目標(biāo)跨攝像頭追蹤問題的核心與關(guān)鍵.行人再識別和多目標(biāo)跨攝像頭追蹤的關(guān)系如圖1 所示.實際場景中,攝像頭拍攝到的是包含眾多行人與復(fù)雜背景的圖像,這個時候可以利用行人檢測技術(shù)從拍攝到的復(fù)雜全景圖像中得到行人包圍框,之后對于行人包圍框集合利用行人再識別技術(shù)進行搜尋.

圖1 行人再識別和多目標(biāo)跨攝像頭跟蹤關(guān)系示意Fig.1 The relationship between person re-identification and multi-target cross-camera tracking
除此之外,犯罪分子通常會在夜間行動,這時僅僅靠RGB 相機去采集圖像不能很好地解決這種夜間出現(xiàn)的行人匹配問題.為了對夜晚出現(xiàn)的行人也能進行匹配,除了RGB 相機外,有些地方可能會布控紅外(Infrared,IR)相機,這樣,在夜間或者是光線較暗處也可以采集到行人的紅外圖,彌補了在夜晚傳統(tǒng)的RGB 相機采集失效的問題.在這種情況下,RGB 圖和IR 圖之間的跨模態(tài)匹配(跨模態(tài)行人再識別)具有很重要的現(xiàn)實意義.跨模態(tài)匹配的重點是尋找不同模態(tài)間的相似性[3-4],從而跨越模態(tài)對行人再識別的限制.
跨模態(tài)行人再識別相對于傳統(tǒng)的行人再識別,除了面臨行人之間姿態(tài)變化、視角變化等問題外,數(shù)據(jù)之間還存在跨模態(tài)的難點.圖2 為跨模態(tài)行人再識別數(shù)據(jù)集中的行人數(shù)據(jù).圖中第1 行為在白天通過RGB 相機在室內(nèi)采集到的RGB 圖像;第2行為在夜晚通過紅外相機在室內(nèi)采集到的IR 圖像;第3 行為白天在室外采集到的RGB圖像;第4 行為夜晚在室外采集到的IR 圖像.每一列的4 張圖片屬于同一個人,不同列的圖片屬于不同的人.與傳統(tǒng)的RGB-RGB 圖像之間的匹配不同,跨模態(tài)數(shù)據(jù)集上所關(guān)注的是IR 圖像和RGB 圖像之間的匹配,這種跨模態(tài)匹配為行人再識別增加了不少難度,如圖2 中第3 列和第4 列的兩個行人,通過RGB圖可以很好地進行區(qū)分,但通過IR 圖和RGB 圖匹配,難度有一定程度的提升.

圖2 跨模態(tài)行人再識別數(shù)據(jù)Fig.2 Data of cross-modality person re-identification
針對上述這些問題,本文主要創(chuàng)新點如下:
1)提出一種自注意力模態(tài)融合網(wǎng)絡(luò)以解決跨模態(tài)行人再識別中存在的模態(tài)變化問題;
2)提出使用CycleGAN 對圖像進行模態(tài)間的轉(zhuǎn)換,從而解決學(xué)習(xí)時需要對應(yīng)的樣本對問題;
3)提出使用自注意力機制進行不同模態(tài)之間的特征篩選,從而有效地對原始圖像和使用CycleGAN 生成的圖像進行區(qū)分.
近年來,隨著模式識別以及深度學(xué)習(xí)的發(fā)展,研究人員針對行人再識別方法做了大量的實驗與研究工作.前期針對行人再識別的方法主要集中于利用傳統(tǒng)的模式識別方法,例如設(shè)計行人特征來表示行人,或者利用一些距離度量方法來評估行人之間的相似性.隨著Krizhevsky 贏得了ILSVRC12[5]的比賽,基于深度學(xué)習(xí)的方法得以流行.深度學(xué)習(xí)的方法主要集中于3 個方面:1)通過設(shè)計卷積神經(jīng)網(wǎng)絡(luò)更好地學(xué)習(xí)到行人的特征;2)利用損失函數(shù)更好地度量行人相似度;3) 通過數(shù)據(jù)增強讓網(wǎng)絡(luò)更加魯棒,使網(wǎng)絡(luò)可以忽略一些和行人類別無關(guān)的特征.
Gray 等[6]為了考慮到空間信息,首先將圖像按水平方向劃分為多個矩形,之后在每個矩形內(nèi),利用顏色特征中的RGB、HSV、YCbCr,以及選擇21 個Gabor、Schmid 濾波核來獲得紋理特征.最后將得到的每個水平條特征拼接在一起,作為最后行人的特征表示.
Yang 等[7]提出了一種新的語義特征顯著性 Color Name 特征,該特征不同于傳統(tǒng)的顏色直方圖,它通過將顏色量化,保證每一個像素的顏色通道以較大的概率劃分到量化的顏色區(qū)間,即對應(yīng)的Color name 中.
2012年K?stinger 等[8]提出經(jīng)典的基于馬氏距離度量的行人再識別算法KISSME (Keep it simple and straightforward metric).
Zheng 等[9]利用一個孿生網(wǎng)絡(luò)[10],結(jié)合分類問題與驗證問題,一次輸入一對行人圖片,對于輸入的一對行人圖片,網(wǎng)絡(luò)一方面要預(yù)測兩幅圖片中行人各自的ID,另一方面要判斷輸入的兩幅圖片中的行人是否為屬于同一行人.在分類問題中,他們使用SoftMax 損失進行行人類別分類.在驗證問題中,利用一個二維SoftMax 損失進行一個二分類.
Zhang 等[11]提出了一種端到端的方法Aligned-ReID,讓網(wǎng)絡(luò)自動地去學(xué)習(xí)人體對齊.在AlignedReID中,深度卷積神經(jīng)網(wǎng)絡(luò)不僅提取全局特征,同時也對各局部提取局部信息,在提取局部信息時采用動態(tài)匹配的方法選取最短路徑,從而進行行人對齊,在訓(xùn)練時,最短路徑長度被加入到損失函數(shù),輔助學(xué)習(xí)行人的整體特征.
Zhao 等[12]提出了一種基于人體關(guān)節(jié)點對人體進行區(qū)域劃分的網(wǎng)絡(luò)(Spindle net),首先定位人體的14 個關(guān)節(jié)點,通過區(qū)域提取網(wǎng)絡(luò)來產(chǎn)生7 個身體區(qū)域,再通過FEN (Feature extraction net)特征提取網(wǎng)絡(luò)和FFN (Feature fusion net)特征融合網(wǎng)絡(luò)以身體區(qū)域為基礎(chǔ)進行人體特征提取與融合.
Dai 等[13]提出了一種批特征擦除BFE (Batch feature erasing)方法,對于一個批量的特征圖,隨機遮擋住同樣的一塊區(qū)域,強迫網(wǎng)絡(luò)在剩余的區(qū)域里面去學(xué)一些細(xì)節(jié)的特征.這樣訓(xùn)練得到的網(wǎng)絡(luò)不會太過于關(guān)注那些顯而易見的全局特征.
Zhong 等[14]通過引入Camera style adaptation 來解決相機差異導(dǎo)致的行人圖片變化(光線、角度等)的問題.作者首先利用CycleGAN[15]實現(xiàn)不同相機風(fēng)格的轉(zhuǎn)化,在得到不同相機風(fēng)格下的圖片后,將這些生成的圖片放入網(wǎng)絡(luò)中進行訓(xùn)練,其中原始圖像利用SoftMax 損失進行有監(jiān)督的訓(xùn)練,生成圖像利用LSR (Label smoothing regularization)損失進行訓(xùn)練.LSR 損失用于解決生成圖像產(chǎn)生較多噪音的問題.通過在訓(xùn)練數(shù)據(jù)中增加相機風(fēng)格圖片,一方面增加了訓(xùn)練集數(shù)據(jù)量,另一方面通過增加各個相機風(fēng)格圖片,使得網(wǎng)絡(luò)能夠集中學(xué)習(xí)與相機無關(guān)的特征.
跨模態(tài)行人再識別的方法目前集中于深度學(xué)習(xí)的方法.包括通過設(shè)計卷積神經(jīng)網(wǎng)絡(luò)來更好地學(xué)習(xí)跨模態(tài)行人的特征以及利用損失函數(shù)來更好地度量不同模態(tài)的行人之間的相似度.
2017 年,Wu 等[16]提出了一種基于Deep zeropadding 的跨模態(tài)行人再識別方法,并且建立了一個大規(guī)模跨模態(tài)行人再識別數(shù)據(jù)集SUSU-MM01.作者對輸入的RGB 圖和IR 圖在通道上進行了填充.RGB 圖先轉(zhuǎn)換為第1 通道的灰度圖,之后在第2 通道填充大小與灰度圖一樣的全0 值.對IR 圖,在第1 通道填充大小與IR 圖一樣的全0 值.接著將填充后的RGB 圖和IR 圖統(tǒng)一的放入網(wǎng)絡(luò)中進行訓(xùn)練,通過SoftMax 損失對行人標(biāo)簽進行有監(jiān)督的訓(xùn)練.
Ye 等[17]提出BDTR (Bi-directional dual-constrained top-ranking)方法來解決跨模態(tài)行人再識別.作者通過一個孿生網(wǎng)絡(luò)對RGB 圖片和IR 圖片分別進行特征提取,利用SoftMax 損失和提出的雙向排序損失(Bi-directional ranking loss)進行有監(jiān)督的訓(xùn)練.雙向排序損失包括跨模態(tài)約束(Crossmodality top-ranking constraint)和模態(tài)內(nèi)約束(Intra-modality top-ranking constraint).
Dai 等[18]提出了cmGAN (Cross-modality generative adversarial network)方法,該方法同樣使用了類似于BDTR 中的跨模態(tài)約束損失來保證跨模態(tài)圖像的負(fù)樣本對距離大于跨模態(tài)圖像的正樣本對距離,另外,利用SoftMax 損失對行人ID 進行有監(jiān)督的訓(xùn)練.除此之外,結(jié)合生成對抗網(wǎng)絡(luò)的對抗訓(xùn)練的思想,在判別器部分,用一個二分類來區(qū)分圖像是RGB 圖還是IR 圖.
Lin 等[19]提出了HPILN (Hard pentaplet and identity loss network)方法,該方法對現(xiàn)有的單個模態(tài)的行人再識別模型進行了改進,使其更適用于跨模態(tài)場景,并提出一個新型損失函數(shù):Hard 五元組損失(Hard pentapelt loss),使得網(wǎng)絡(luò)可以同時處理模態(tài)內(nèi)和模態(tài)間變化,再結(jié)合身份損失函數(shù)(Identity loss)來提高改進后的模型的性能.
跨模態(tài)行人再識別和傳統(tǒng)的行人再識別相比,增加了相同行人不同模態(tài)的變化.為了減輕跨模態(tài)行人再識別中由于跨模態(tài)數(shù)據(jù)導(dǎo)致的問題,本文首先利用CycleGAN[15]對于每一幅圖片生成其對應(yīng)跨模態(tài)下的圖片.如果原始圖片是RGB 圖,則Cycle-GAN 生成IR 圖;如果原始圖片是IR 圖,則CycleGAN生成RGB 圖.之后利用跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)將原始數(shù)據(jù)和生成的跨模態(tài)數(shù)據(jù)加入到基本的分類網(wǎng)絡(luò)中進行訓(xùn)練,這樣跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)即可同時利用原始數(shù)據(jù)以及經(jīng)過CycleGAN 生成的跨模態(tài)數(shù)據(jù).對于每一幅圖片,為了將原始圖片與CycleGAN 生成的跨模態(tài)數(shù)據(jù)進行區(qū)分以及特征選擇,本文針對每一種數(shù)據(jù),分別設(shè)計了一個自注意力模塊進行行人特征的篩選.接著將經(jīng)過自注意力模塊后的原始特征和跨模態(tài)圖片特征經(jīng)過Max 層進行融合,最后原始圖片特征以及融合后的特征利用SoftMax 損失進行有監(jiān)督的訓(xùn)練,CycleGAN 生成的跨模態(tài)圖片特征利用LSR 損失[20]進行訓(xùn)練.自注意力模態(tài)融合網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖3 所示.

圖3 自注意力模態(tài)融合網(wǎng)絡(luò)Fig.3 Self-attention cross-modality fusion network
生成對抗網(wǎng)絡(luò) (Generative adversarial network,GAN)[21-22]自2014 年由 Goodfellow 等提出后,越來越受到學(xué)術(shù)界和工業(yè)界的重視.其中,GAN在圖像生成上取得了巨大的成功,這取決于GAN在博弈下不斷提高建模能力,最終實現(xiàn)以假亂真的圖像生成.圖像到圖像的轉(zhuǎn)換可分為有監(jiān)督(如cGAN[23],pix2pix[24])和無監(jiān)督(如CycleGAN[15],DualGAN[25])兩大類.
針對本文的跨模態(tài)應(yīng)用場景,我們沒有成對的樣本數(shù)據(jù)作為輸入圖像,所以無監(jiān)督的生成對抗網(wǎng)絡(luò)更適用;其次,盡管CycleGAN 和DualGAN 具有相同的模型結(jié)構(gòu),但它們對生成器使用不同的實現(xiàn)方法.CycleGAN 使用卷積架構(gòu)的生成器結(jié)構(gòu),而DualGAN 遵循U-Net 結(jié)構(gòu);CycleGAN 重在解決非配對圖像轉(zhuǎn)換問題,而DualGAN 重在解決如何避免模型崩潰問題.經(jīng)過以上綜合分析,CycleGAN適合完成風(fēng)格遷移任務(wù)且是無監(jiān)督的,因此更適用于我們的網(wǎng)絡(luò).
為了學(xué)習(xí)到跨模態(tài)的信息,本文首先利用Cycle-GAN 生成跨模態(tài)的數(shù)據(jù).CycleGAN 可以將兩個域的圖像進行相互轉(zhuǎn)換,并且CycleGAN 的輸入是任意的兩幅圖片,不需要它們成對出現(xiàn).因此,可以直接利用CycleGAN 實現(xiàn)跨模態(tài)行人再識別中的數(shù)據(jù)模態(tài)轉(zhuǎn)換.CycleGAN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示.

圖4 CycleGAN 網(wǎng)絡(luò)示意圖Fig.4 Structure of CycleGAN network
假設(shè)有來自兩個屬于不同數(shù)據(jù)域的集合,記為A,B.CycleGAN 由兩個判別器D(分別記為DA、DB)和兩個生成器G(分別記為GAB、GBA) 組成.其中GAB用來將A域的圖像轉(zhuǎn)換到B域,GBA用來將B域的圖像轉(zhuǎn)換到A域.DA判斷輸入圖片是否是真實的圖片,即圖片是A域的原始圖片還是GBA轉(zhuǎn)換后的生成圖片.其目標(biāo)是將生成模型GBA產(chǎn)生的 “假”圖片和訓(xùn)練集A域中 “真”圖片進行區(qū)分.同樣,DB用來判斷圖片是B域的原始圖片還是GAB轉(zhuǎn)換后的生成圖片.其目標(biāo)是將生成模型GAB產(chǎn)生的 “假”圖片和訓(xùn)練集B域中 “真”圖片進行區(qū)分.
本文將所有的RGB 相機采集到的圖像作為域A,所有的紅外相機采集到的IR 圖像作為域B.圖像統(tǒng)一縮放為 256×128像素.將訓(xùn)練數(shù)據(jù)中的A域和B域送入CycleGAN 中進行訓(xùn)練.當(dāng)訓(xùn)練完成后,利用GAB將原始的RGB 圖像轉(zhuǎn)換為IR 域風(fēng)格圖像,利用GBA將原始的IR 圖像轉(zhuǎn)換為RGB域風(fēng)格圖像,這樣對于同一幅圖像,既有原始域的圖像,也有風(fēng)格轉(zhuǎn)換即跨模態(tài)的圖像.經(jīng)過CycleGAN 生成的跨模態(tài)圖如圖5 所示.其中第1 行為數(shù)據(jù)集中的RGB 圖,第2 行為利用CycleGAN 生成的對應(yīng)的跨模態(tài)IR 圖,第3 行為數(shù)據(jù)集中的IR 圖,第4 行為利用CycleGAN 生成的對應(yīng)的跨模態(tài)RGB 圖.同一列為相同的行人,不同列對應(yīng)不同行人.可以看出,利用CycleGAN 可以大致地實現(xiàn)數(shù)據(jù)的跨模態(tài)變化.

圖5 利用CycleGAN 生成的跨模態(tài)圖像Fig.5 Generated cross-modality images using CycleGAN
跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)的設(shè)計參照Zhong 等[14]設(shè)計的網(wǎng)絡(luò).該網(wǎng)絡(luò)由一對共享權(quán)重的ResNet-50 組成.在得到了兩種模態(tài)圖像后,本節(jié)將原始的數(shù)據(jù)和生成的跨模態(tài)數(shù)據(jù)都加入到ResNet-50[26]網(wǎng)絡(luò)中進行訓(xùn)練.跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)的輸入和一般的分類網(wǎng)絡(luò)不同,它的輸入為一對圖像,包括原始圖像和CycleGAN 生成的跨模態(tài)圖,跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)每次輸入的生成圖像是由原始圖像生成的跨模態(tài)圖.由于生成圖像是由原始圖像變換過來,所以該生成圖像的標(biāo)簽理想情況下應(yīng)該和原始圖像標(biāo)簽一致,因此在訓(xùn)練跨模態(tài)生成圖時可以和原始圖像一樣,可以利用SoftMax 損失進行有監(jiān)督的訓(xùn)練.SoftMax 損失的計算如式(1)所示.

式中,LCross表示SoftMax 損失;K為類別數(shù);q(k)表示真實標(biāo)簽的One hot 形式,即真實數(shù)據(jù)分布;p(k)表示預(yù)測的結(jié)果.
但是,在觀察生成的跨模態(tài)圖時,發(fā)現(xiàn)生成的跨模態(tài)圖大多具有很大的噪聲,尤其是當(dāng)IR 圖像到RGB 圖像的轉(zhuǎn)換時.如圖6 所示,其中第1 行為原始的RGB 圖;第2 行為利用CycleGAN 生成的對應(yīng)的跨模態(tài)IR 圖;第3 行為原始的IR 圖;第4行為利用CycleGAN 生成的對應(yīng)的跨模態(tài)RGB圖.同一列為相同的行人,不同列對應(yīng)不同行人.從中可以看出,生成的圖像一般很難和原始圖像用一個標(biāo)簽來區(qū)分.

圖6 包含較多噪聲的跨模態(tài)轉(zhuǎn)換后的圖像Fig.6 Generated cross-modality images with more noise
本文針對跨模態(tài)行人再識別中數(shù)據(jù)集的模態(tài)變化問題,提出了一種自注意力模態(tài)融合網(wǎng)絡(luò).采用CycleGAN 進行跨模態(tài)圖像的生成,并在ResNet50網(wǎng)絡(luò)的基礎(chǔ)上加入了自注意力模塊和模態(tài)融合模塊.通過對網(wǎng)絡(luò)中的不同模塊進行組合對比實驗,證明了本節(jié)提出的每一個模塊的有效性.另外通過在SYSU-MM01 數(shù)據(jù)集上的實驗,也證明了本文提出的方法與其他跨模態(tài)方法相比有一定程度的提升.與其他跨模態(tài)行人再識別方法相比,本文不僅在網(wǎng)絡(luò)結(jié)構(gòu)上進行了改進,同時在數(shù)據(jù)層面進行了創(chuàng)新.我們首次將CycleGAN 用于跨模態(tài)行人再識別圖像生成從而實現(xiàn)數(shù)據(jù)的跨模態(tài)變化.但目前本文方法跨模態(tài)生成的圖像質(zhì)量較差,有一定的噪聲.為了克服以上缺陷,在今后的工作中將重點解決此問題,從而更好地解決跨模態(tài)行人再識別問題.
針對上述問題,對于CycleGAN 生成的跨模態(tài)圖,本文利用LSR 損失來進行訓(xùn)練.一般的分類損失函數(shù),如SoftMax 損失,對圖像的標(biāo)簽會編輯成One hot 形式,如式(2)所示.LSR 損失考慮到數(shù)據(jù)的過擬合,在給定圖像標(biāo)簽時,LSR 給定Groundtruth 類一個比較大的值,剩余的類標(biāo)簽給定一個比較小的值,如式(3)所示,將LSR 的數(shù)據(jù)標(biāo)簽代入SoftMax 損失(式(1))中,即得到LSR 的計算式,如式(4)所示.

式中,q(k) 表示SoftMax loss 中行人類別的One hot 編碼;y表示真實數(shù)據(jù)標(biāo)簽.

式中,qLSR(k)表示LSR 損失中行人類別的編碼;ε表示平滑參數(shù);K表示行人類別數(shù);y表示真實數(shù)據(jù)標(biāo)簽.

式中,LLSR表示LSR 損失,ε表示平滑參數(shù),本節(jié)中設(shè)定ε為0.1,p(k)表示預(yù)測的結(jié)果,K表示行人類別數(shù).
跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)同時學(xué)習(xí)了原始圖像以及相對應(yīng)的跨模態(tài)圖像的特征.同時,由于對同一幅圖網(wǎng)絡(luò)得到了兩種模態(tài)信息,數(shù)據(jù)量上有一定的提升,可以看成是進行了數(shù)據(jù)增廣.除此之外,網(wǎng)絡(luò)對同一幅圖同時考慮到了兩種模態(tài)信息,因此,跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)同時增強了對于模態(tài)無關(guān)特征的學(xué)習(xí).
在第2.2節(jié)中的跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò),雖然同時輸入了兩種模態(tài)圖像,但是除了在最后損失函數(shù)的時候進行區(qū)分外,網(wǎng)絡(luò)本身對于原始圖像和跨模態(tài)圖像的處理完全一致.這樣通過數(shù)據(jù)增廣的方式在一定程度上雖然可以學(xué)習(xí)到一些模態(tài)無關(guān)的特征,但是不同模態(tài)之間缺少交互,在訓(xùn)練過程中兩種模態(tài)之間單獨地進行監(jiān)督訓(xùn)練.卷積神經(jīng)網(wǎng)絡(luò)通過在局部感受野上進行卷積操作來融合空間和通道信息,而自注意力模塊本質(zhì)上引入了對輸入的動態(tài)適應(yīng)性,這有助于增強特征區(qū)分能力,提高行人再識別的性能.因此,針對上述問題,本文在跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建了一個自注意力模塊,該模塊通過自注意力機制將原始圖像和CycleGAN 生成的圖像進行區(qū)分,自動地對第2.2節(jié)中產(chǎn)生的不同模態(tài)的特征在通道層面進行篩選.該模塊增加在跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)的2048 維特征層和最后一層261 維(與訓(xùn)練數(shù)據(jù)集中行人數(shù)一致)全連接層之間.它的輸入是經(jīng)過跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)產(chǎn)生的兩個2048 維特征,經(jīng)過自注意力模塊后,輸出依然為兩個2 048維特征,該特征維度和跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)的輸出維度一致,但是對不同模態(tài)的特征進行了篩選.
自注意力模塊的設(shè)計參照SENet[27]中SE (Squeeze-and-excitation)模塊.由于自注意力模塊是直接在ResNet-50 全局平局池化后的特征通道上進行特征選擇,因此和SE 模塊不同,自注意力模塊不需要額外使用全局平均池化做一個 Squeeze 操作.剩余Excitation 操作和SE 模塊保持一致.自注意力模塊包括兩個全連接層、一個ReLU[28]激活函數(shù)和一個Sigmoid[29]激活函數(shù).自注意力模塊使用兩個全連接層去構(gòu)造特征通道間的相關(guān)性.首先,第1 個全連接層將特征維度降低到輸入的k分之一.在本節(jié)中設(shè)定k和SENet 中的一致,為 1/16.降維后再經(jīng)過ReLU 激活函數(shù)激活,之后再通過一個全連接層恢復(fù)到原來的輸入特征維度.通過這樣的設(shè)計增加了自注意力模塊的非線性,可以更好地擬合復(fù)雜的特征空間.另外通過這樣構(gòu)造的兩層全連接層極大地減少了參數(shù)量和計算量.之后通過一個Sigmoid 激活函數(shù)獲得最后的特征權(quán)重,由于經(jīng)過Sigmoid 激活,得到的權(quán)重值在0 至1 之間.最后將得到的權(quán)重和原始的特征按元素相乘,這樣就實現(xiàn)了自注意力模塊.自注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖7 所示.

圖7 自注意力模塊示意圖Fig.7 Structure of self-attention model
在利用第2.2 節(jié)中的跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)進行行人再識別測評時,僅僅輸入原始圖像,測試集的生成圖像并沒有得到充分利用.針對該問題,本節(jié)提出利用模態(tài)融合模塊將兩種篩選后的特征進行融合,融合后的結(jié)果再送入到全連接層,最后用SoftMax 損失進行有監(jiān)督的訓(xùn)練.
模態(tài)融合模塊的目的是將原始圖像和CycleGAN 生成的圖像進行融合.由于CycleGAN 生成的圖像相對于原始圖像是跨模態(tài)的,即原始圖像如果是RGB 圖,CycleGAN 生成的圖是IR 圖,反之如果原始圖像是IR 圖,CycleGAN 生成的圖是RGB圖.這兩種圖像應(yīng)該具有互補性.在一定的條件下,通過RGB 圖可以獲得豐富的顏色特征,通過IR 圖可以獲得豐富的紋理特征.因此,在本節(jié)利用模態(tài)融合網(wǎng)絡(luò)可以將原始圖像以及跨模態(tài)圖像中對于分類比較有用的特征進行保留.模態(tài)融合模塊通過一個Max 層完成.將經(jīng)過自注意力模塊的原始圖像特征和CycleGAN 生成圖像的特征經(jīng)過Max 層進行融合.融合后的特征再連接到共享的全連接層上,最后進行有監(jiān)督的訓(xùn)練.
為了評價自注意力模態(tài)融合網(wǎng)絡(luò)在跨模態(tài)行人再識別中的效果,本節(jié)在一個常用的跨模態(tài)行人再識別數(shù)據(jù)集SYSU-MM01[16]上進行實驗.評價指標(biāo)選擇了行人再識別中常用的CMC 曲線(Cumulative matching curve)和mAP (mean average precision).
SYSU-MM01 是中山大學(xué)采集的一個跨模態(tài)行人再識別數(shù)據(jù)集.它包括4 個RGB 相機和兩個IR相機.其中cam1 與cam2 為拍攝到的Indoor 場景下的RGB 圖像,cam3 為Indoor 場景下的IR 圖像,且與cam2 是同一個場景;cam4 與cam5 為Outdoor 場景下的RGB 圖像,cam6 為Outdoor 場景下的IR 圖像.SYSU-MM01 總共有491 個不同行人,總共包括287 628 幅RGB 圖像,15 792 幅IR圖像.
在測試的時候,該數(shù)據(jù)集中測試集的所有IR圖像作為Probe,所有的RGB 圖像作為Gallery.有兩種評價模式,一種是All-search 模式,另一種是Indoor-search 模式.除此之外,在每種模式下,分別采用Single-shot 測評和Multi-shot 測評.在Single-shot 測評時,在測試集中的每一個行人,Gallery 集合中隨機選取一個與該行人類別相同的RGB 圖片構(gòu)成Gallery 集,所有的Probe 圖像構(gòu)成Probe 集.在Multi-shot 測評時,對于測試集中的每一個行人,Gallery 集合中隨機選取10 個與該行人類別相同的RGB 圖片構(gòu)成Gallery 集,所有的Probe 圖像構(gòu)成Probe 集.
在該數(shù)據(jù)集上測評時,使用CMC 曲線和mAP來進行測評.在測評時,利用上述的方法構(gòu)造Probe和Gallery.計算CMC 曲線和mAP 的方法和傳統(tǒng)的行人再識別方法一致.但是,考慮到該數(shù)據(jù)集下cam2 和cam3 是在同一個地方采集,而行人再識別的研究重點是跨攝像頭,因此,在評價算法時,在匹配cam2 的Probe 時,會忽略cam3 中的Gallery.對于上述的每一種測評,包括All-search 下的Single-shot 測評和Multi-shot 測評以及Indoorsearch 下的Single-shot 測評和Multi-shot 測評,本文都重復(fù)了10 次實驗并計算10 次的平局值.
我們使用Pytorch[30]來實現(xiàn)本文中的自注意力模態(tài)融合網(wǎng)絡(luò).在訓(xùn)練過程中,跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)首先加載了在ImageNet 上預(yù)訓(xùn)練的ResNet-50 網(wǎng)絡(luò)的參數(shù).我們使用AMSGrad[31]來訓(xùn)練網(wǎng)絡(luò).給定權(quán)重衰減(Weight decay)為 5×10-4來減輕網(wǎng)絡(luò)過擬合.
訓(xùn)練過程分為兩個階段.第1 階段是訓(xùn)練第2.2 節(jié)中的跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò).在這一階段中,訓(xùn)練Batch size 設(shè)定為32,總共訓(xùn)練60 輪,初始學(xué)習(xí)率為 3×10-4,學(xué)習(xí)率每過20 輪變?yōu)樵嫉?/10.第2 階段訓(xùn)練整個自注意力模態(tài)融合網(wǎng)絡(luò),加載第1階段訓(xùn)練好的跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)參數(shù),之后訓(xùn)練自注意力模態(tài)融合網(wǎng)絡(luò),訓(xùn)練Batch size 設(shè)定為32,總共訓(xùn)練60 輪,初始學(xué)習(xí)率為 3×10-4,學(xué)習(xí)率每過20 輪變?yōu)樵嫉?/10.
3.3.1 不同模塊組合對比實驗
為了測試自注意力模塊融合網(wǎng)絡(luò)中每一個模塊的有效性.本節(jié)總共構(gòu)建了5 個網(wǎng)絡(luò).第1 個是一般的分類網(wǎng)絡(luò),用作跨模態(tài)行人再識別的Baseline網(wǎng)絡(luò),該網(wǎng)絡(luò)由一個ResNet-50 組成,這里將其命名為 “Baseline”;第2 個是第2.2 節(jié)中構(gòu)建的跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò);第3 個是在跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)的基礎(chǔ)上加入自注意力模塊,命名為 “跨模態(tài)+自注意力”;第4 個是在跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)的基礎(chǔ)上加入融合模塊,命名為 “跨模態(tài)+模態(tài)融合”;第5 個是在跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)的基礎(chǔ)上加入融合模塊以及自注意力模塊,即本文中的自注意力融合網(wǎng)絡(luò).這5 組網(wǎng)絡(luò)在SYSU-MM01 的實驗結(jié)果如表1 和表2 所示,表中匯集了CMC 曲線中的Rank 1、Rank 10、Rank 20 以及mAP 的實驗結(jié)果.
從表1 和表2 可以看出,與Baseline 相比,在引入了CycleGAN 生成的圖像并利用跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)同時訓(xùn)練原始圖像和跨模態(tài)圖像時,在SYSUMM01 數(shù)據(jù)集上的成績有顯著的提升.在All-search模式下,Single-shot 和Mulit-shot 的Rank 1 分別提升了3.47%和4.77%.在Indoor-search 模式下,Single-shot 和Mulit-shot 的Rank 1 分別提升了5.04%和5.03%.這組對比實驗說明了在第2.2 節(jié)中提出的跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)的有效性.跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)和Baseline 相比,同時利用了原始圖像和生成的跨模態(tài)圖像.

表1 各模塊在SYSU-MM01 All-search 模式下的實驗結(jié)果Table 1 Experimental results of each module in SYSU-MM01 dataset and All-search mode

表2 各模塊在SYSU-MM01 Indoor-search 模式下的實驗結(jié)果Table 2 Experimental results of each module in SYSU-MM01 dataset and Indoor-search mode
對比自注意力模態(tài)融合網(wǎng)絡(luò)和第2.2 節(jié)中的跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò),發(fā)現(xiàn)自注意力模態(tài)融合網(wǎng)絡(luò)成績有更近一步的提升.在All-search 模式下,Singleshot 和Mulit-shot 的Rank 1 分別提升了2.48%和2.46%.在Indoor-search 模式下,Single-shot 和Mulit-shot 的Rank 1 分別提升了0.88%和1.82%.這組對比實驗說明了本文提出的自注意力模態(tài)融合網(wǎng)絡(luò)的有效性.最后,單獨比較自注意力模態(tài)融合網(wǎng)絡(luò)和 “跨模態(tài)+自注意力”以及 “跨模態(tài)+模態(tài)融合”,發(fā)現(xiàn)由于生成圖像存在很大的噪聲,對自注意力模塊造成了一定程度的影響.從而導(dǎo)致在Indoorsearch 和Multi-shot 模式下,“自注意力模態(tài)融合”的mAP 比起 “跨模態(tài)+模態(tài)融合”下降了0.12%,如何對生成的圖像降噪是今后要解決的問題之一.不過,從總體來看,兩個模塊共同使用比單獨使用它們中的任一個模塊都要有效.
我們參照SENet[27]中對網(wǎng)絡(luò)時間復(fù)雜度的分析方法,計算了在測試時加入各個模塊后網(wǎng)絡(luò)的GFLOPs (Giga floating-point operatiuns per second)和參數(shù)量,如表3 所示.其中,前三個方法的輸入是一幅大小為256×128 像素的圖像,“跨模態(tài)+模態(tài)融合”網(wǎng)絡(luò)和 “自注意力模態(tài)融合”網(wǎng)絡(luò)的輸入是一幅大小為256×128 像素的圖像和一幅生成的相同大小的跨模態(tài)圖像.由表3 可知,跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)與Baseline 相比,GFLOPs 和參數(shù)量都相同;加入自注意力模塊后,GFLOPs 增加了0.001048576,參數(shù)量增加了4.12%;由于輸入是兩幅圖,“跨模態(tài)+模態(tài)融合”網(wǎng)絡(luò)GFLOPs 是Baseline 的兩倍,由于Max 操作沒有新增參數(shù),所以參數(shù)量沒有發(fā)生變化.“自注意力模態(tài)融合”網(wǎng)絡(luò)與Baseline 相比,GFLOPs 增加了2.706867200,參數(shù)量增加了6.18%.可見自注意力模塊對GFLOPs的影響微乎其微,GFLOPs 的增加主要來源于輸入的增加.

表3 加入各模塊后的GFLOPs 和參數(shù)量Table 3 GFLOPs and parameters after joining each module
3.3.2 和跨模態(tài)行人再識別State-of-the-arts 對比實驗
我們在SYSU-MM01 數(shù)據(jù)集上和跨模態(tài)行人再識別State-of-the-arts 進行了對比.其中 “HOG +Euclidean”是在RGB-RGB 匹配的行人再識別問題中利用模式識別方法解決,手工特征選擇HOG[32]特征,距離度量利用歐氏距離度量;“LOMO+KISSME”同樣也是利用傳統(tǒng)的模式識別方法,手工特征選擇LOMO[33]特征,距離度量算法利用KISSME[8];“Zero-padding”[16]方法屬于深度學(xué)習(xí)方法中的基于深度特征學(xué)習(xí)法,該方法將三通道的RGB圖轉(zhuǎn)換為一通道的灰度圖,之后在第2 通道進行零值填充,將IR 圖直接在第1 通道進行零值填充,之后將填充后的RGB 圖和IR 圖統(tǒng)一放入網(wǎng)絡(luò)中,利用SoftMax 損失進行訓(xùn)練;BDTR[17]屬于深度學(xué)習(xí)方法中的基于距離度量學(xué)習(xí)法,該方法通過一個孿生網(wǎng)絡(luò)對RGB 圖片和IR 圖片分別進行特征提取,利用SoftMax 損失和雙向排序損失進行有監(jiān)督的訓(xùn)練;cmGAN[18]屬于深度學(xué)習(xí)方法中的基于距離度量學(xué)習(xí)法,該方法使用三元組損失來約束跨模態(tài)樣本距離,保證跨模態(tài)圖像的負(fù)樣本對距離大于跨模態(tài)圖像的正樣本對距離,同時利用SoftMax 損失對行人ID 進行有監(jiān)督的訓(xùn)練.另外結(jié)合GAN 網(wǎng)絡(luò)對抗訓(xùn)練的思想,在判別器部分用一個二分類來區(qū)分圖像是 RGB 圖還是IR 圖.與上述4 個方法對比的實驗結(jié)果如表4 和表5 所示.
從表4 和表5 可以看出,基于深度學(xué)習(xí)的跨模態(tài)行人再識別方法要遠(yuǎn)遠(yuǎn)好于傳統(tǒng)的模式識別方法.另外,由于跨模態(tài)行人再識別目前的研究工作較少,早期的Zero-padding 利用的基網(wǎng)絡(luò)為Res-Net-6,BDTR 利用的基網(wǎng)絡(luò)為AlexNet[5].本文中利用的基網(wǎng)絡(luò)和cmGAN 方法中的基網(wǎng)絡(luò)一致,為ResNet-50.ResNet-50 也是RGB-RGB 行人再識別中最常用的基網(wǎng)絡(luò).從實驗結(jié)果看,本文中提出的自注意力模態(tài)融合網(wǎng)絡(luò)相較于上述方法成績有一個比較大的提升.在All-search 模式下,Singleshot 的Rank 1 相比于Zero-padding、BDTR 和cmGAN 分別提升18.51%、16.3%和6.04%.Multishot 的Rank 1 相比于Zero-padding 和cmGAN分別提升20.4%和8.22%.在Indoor-search 模式下,Single-shot 的Rank 1 相比于Zero-padding 和cmGAN 分別提升17.51%和6.46%.Multi-shot 的Rank 1 相比于Zero-padding 和cmGAN 分別提升21.37%和8.8%.可以看出,本文提出的自注意力模態(tài)融合網(wǎng)絡(luò)在SYSU-MM01 數(shù)據(jù)集上已經(jīng)超過了現(xiàn)有的跨模態(tài)行人再識別方法.

表4 在SYSU-MM01 All-search 模式下和跨模態(tài)行人再識別的對比實驗Table 4 Comparative experiments between our method and others in SYSU-MM01 dataset and All-search mode

表5 在SYSU-MM01 Indoor-search 模式下和跨模態(tài)行人再識別的對比實驗Table 5 Comparative experiments between our method and others in SYSU-MM01 dataset and Indoor-search mode
跨模態(tài)行人再識別與傳統(tǒng)的行人再識別相比,增加了相同行人不同模態(tài)的變化.為了解決跨模態(tài)問題,本文提出了一種自注意力模態(tài)融合網(wǎng)絡(luò).首先利用CycleGAN 生成原始圖像的跨模態(tài)圖像,之后利用跨模態(tài)學(xué)習(xí)網(wǎng)絡(luò)將兩個模態(tài)的圖片都加入網(wǎng)絡(luò)進行訓(xùn)練.接著利用自注意力模塊對原始圖像和CycleGAN 生成的圖像分別進行特征篩選,最后利用模態(tài)融合模塊將兩種模態(tài)的圖片特征融合作為最后的行人再識別中行人的特征表示.在SYSUMM01 數(shù)據(jù)集上的實驗結(jié)果證明了本文提出的方法和其他跨模態(tài)方法相比有一定程度的提升.本文首次將 CycleGAN 用于跨模態(tài)行人再識別圖像生成,實現(xiàn)數(shù)據(jù)的跨模態(tài)變化.不僅在網(wǎng)絡(luò)結(jié)構(gòu)上進行了改進,同時在數(shù)據(jù)層面進行了創(chuàng)新.在今后的工作中將致力于提升跨模態(tài)生成的圖像質(zhì)量從而更好地解決跨模態(tài)行人再識別問題.