跨模態行人重識別研究綜述

2021-11-22 10:09:05劉天瑜劉正熙

現代計算機 2021年7期

劉天瑜，劉正熙

（四川大學計算機學院，成都610065）

0 引言

近年來，隨著智能監控領域的不斷發展，單純憑借傳統的人力已經很難在對復雜的監控場景做出完善詳盡的處理。作為一項在大型非重疊視角多攝像機網絡獲取到的海量視頻畫面序列里找到目標行人的任務，行人重識別（Person Re-Identification）可以被看作是多攝像頭的行人檢索問題。它建立在行人檢測的基礎之上，捕捉獲取同一目標個體在不同非重疊攝像頭中分布位置信息，推動了智能安保、智能視頻監控、智能檢索等領域的發展。

目前的大部分工作集中于可見光攝像頭下的行人重識別問題。然而在實際應用場景下，攝像頭應保證全天候的運作。由于可見光攝像頭對夜間的監控安防工作作用有限，隨著科技的進步發展，能夠切換紅外模式的攝像頭正被廣泛應用于智能監控系統。在可見光模式和紅外模式下，分別采集到的是RGB 圖像和紅外圖像，這是屬于兩種不同模態的數據，因此跨模態行人重識別問題被提出，隨之引起了廣泛的關注。有效解決跨模態行人重識別問題，對公共安全、預防犯罪和刑偵追查等方面有著重大的意義。

1 介紹

1.1 行人重識別

行人重識別作為計算機視覺領域的研究方向之一，近年來獲得了一定關注。它被認為是一個利用計算機視覺技術對給定圖像進行非重疊攝像頭檢索，從而識別出屬于同一個行人圖像的問題。行人重識別任務的起源最早可以追溯到1997 年的多攝像頭追蹤問題，2014 年，將深度學習中的孿生網絡（Siamese Network）引入了行人重識別任務，從此開始將深度學習應用于行人重識別，形成了端對端的行人重識別系統。相較于之前大多基于手工設計的行人重識別系統，有了實質性的進展[1-2]。

基于深度學習的行人重識別可主要分為封閉世界方法（Closed-World Person Re-Identification）和開放世界方法（Open-World Person Re-Identification）兩大類[3]。過去的行人重識別研究主要集中在基于封閉世界的設定上，用于訓練和測試的數據為單一模態下已生成檢測邊界框的圖像，且經過人工篩選處理和準確標注，能夠保證同一個體在訓練集和測試集中都有分布。相對的，開放世界方法更接近實際場景應用，其用于訓練和測試的數據往往跨越單一模態，跨模態行人重識別問題屬于其中的一種，它主要研究RGB 圖像和紅外圖像之間屬于同一行人個體之間的匹配檢索問題。

1.2 跨模態行人重識別

在以往對行人重識別的研究中，用于訓練和測試的數據集往往都是單模態的RGB 圖像，然而在現實場景應用中，紅外模式攝像頭、深度攝像頭，以及目擊者陳述所捕捉描述的行人圖像都是十分常見的。跨越可見光和紅外兩種模態下捕捉的行人重識別問題是其中亟待解決的一種。跨模態行人重識別，主要研究在給定一個特定個體的可見光圖像或者紅外圖像，嘗試在兩種模態下的圖像庫中檢索匹配屬于同一個體圖像的問題。該問題于2017 年在行人重識別領域首次被Wu等人[4]提出定義。他們提出了一個跨模態行人重識別框架，并提供了一個公開的大規模RGB-紅外多模態行人數據庫，名稱為SYSU Multiple Modality Re-ID（SYSU-MM01）。之后開始有大量相關工作涌現，然而距離跨模態行人重識別能夠投入實際場景中應用依舊存在許多問題。

目前，跨模態行人重識別問題面臨的困難與挑戰主要在于：

（1）兩種模態下捕捉的圖像存在較大差異。RGB圖像擁有三個通道，包含了紅綠藍的可見光顏色信息，而紅外圖像只有一個通道，包含了近紅外光的強度信息，而且從成像原理的角度出發，二者的波長范圍也有所區別。不同的清晰度和光照條件在兩類圖像上所能產生效果可能會大相徑庭。

（2）數據集較為單一且規模較小。雖然現在已經有許多工作致力于擴充行人重識別數據集，然而數據集中的圖像大多來源于相似型號以及角度的機位，和實際中多樣化的場景差距較大。

（3）傳統行人重識別中存在的模態內差異，例如低分辨率、遮擋、視角變化等問題在跨模態行人重識別中也依舊存在。

2 跨模態行人重識別方法

跨模態行人重識別面臨的主要難題在于跨模態問題中。針對模態的建模如何較好地減少兩種模態圖像間的差異，學習兩種模態間共享的魯棒性特征，是目前研究的關鍵。早期的研究主要集中于基于表征的學習以及基于度量的學習這兩種方法，之后又出了基于模態互轉的學習方法，實現RGB 圖像和紅外圖像之間的模態風格轉換，從而將跨模態行人重識別問題轉換為單一模態下的行人重識別問題。目前跨模態行人重識別的研究可大致分為以下三類。

2.1 基于表征學習的方法

基于表征學習的方法主要研究如何設計建模合理的網絡架構，能夠提取兩種模態圖像共享的具有魯棒性和鑒別性的特征，盡量縮小模態間存在的差異性，輸入到共享參數的網絡，從而比較二者的相似性。

2017 年，Wu 等人[4]首次在行人重識別領域提出定義了跨模態行人重識別問題，分析了三種網絡架構，并提出了一種深度補零的數據預處理方法，比較評估了這四種網絡的性能。其中，三種網絡架構分別為單流網絡、雙流網絡以及非對稱全連接層結構。經過研究發現，這三種網絡在特殊情況下都可以使用單流網絡來表示。通過將不同模態的數據通道置于不同的對應通道，而將屬于其他模態的置零，從而提出深度補零的單流網絡。網絡中不同的節點對應不同的模態數據會選擇性“失活”，同時也存在始終激活的節點，針對不同模態數據的輸入，可以進行不同的特征提取操作。

2018 年，Ye 等人[5]提出了一種分層的跨模態匹配模型，該模型通過聯合優化模態特異性和模態共享矩陣來實現，其框架分為表征學習和度量學習兩個部分，前者通過構造一個雙流網絡對分屬兩個模態的圖像輸入進行特征學習，再結合特征損失和對比損失進行相似度的學習。Dai 等人[6]為解決識別信息不足的問題，利用了GAN 生成器和判別器對抗訓練的思想，提出了一個交叉模式生成對抗網絡，該網絡分為生成器和判別器兩個部分。生成器使用三元組損失和身份損失進行訓練，從而使得同一身份下不同模態行人之間的相似性增加，而不同身份且不同模態的行人之間的相似性會減小；判別器則使用RGB 圖像和紅外圖像的二分類損失進行訓練，從而和生成器展開對抗，減少二者特征的相似性。之后，為了解決模式間和模式內的差異這兩個問題，Liu 等人[7]提出了一種增強鑒別學習的方法（Enhancing the Discriminative Feature Learning，EDFL），通過采用跳躍連接從而融合中間層特征，增強了特征的魯棒性。Zhang 等人[8]提出了一種雙路徑交叉模態特征學習框架，主要由雙路空間結構保持公共空間網絡（DSCSN）和對比相關網絡兩部分組成。前者利用部分共享結構，學習跨模態結構共同空間特征，將交叉模態圖像嵌入到一個三維張量空間從而保留空間結構；后者是通過關注兩個相似對象的差異來模擬學習機制。Xiang 等人[9]利用RGB 圖像和紅外圖像之間的內在聯系，提出了一個端到端的雙路多分支交叉模態網絡，通過結合圖像的全局以及局部信息來提取魯棒性特征。針對由于集中學習跨模態圖像共同特征而丟失大量特異信息的情況，Lu 等人[10]一種新的跨模態共享特征轉移算法（cross-modality Shared-Specific Feature Transfer，cm-SSFT），在表示相似性的跨模態近鄰吸引力模型的基礎上引入模態特征，有效地利用了每個樣本的共享信息和特定信息。Ye 等人[11]提出了兩個注意力模塊機制去提高模型的識別能力和魯棒性。模態內加權部分聚合模塊（Intra-modality Weighted-Part Aggregation，IWPA），將同一模態內的局部特征的權重聚合在一起；跨模態圖結構化全局特征學習注意力模塊（Cross-modality Graph Structured Attention for global feature learning，CGSA）利用跨模態的鄰近結構關系去學習兩個模態的全局特征。

2.2 基于度量學習的方法

基于度量學習的方法旨在通過網絡學習出兩張圖片的相似度，關鍵在于設計合理的度量方法或者損失函數，從而使得在模態一致的情況下，屬于同一個體的樣本圖像距離盡可能小，不屬于同一個體的樣本圖像距離盡可能大；而不屬于同一模態也不屬于同一個體的樣本圖像距離盡可能大。

Ye 等人[12]提出了一種雙向排序損失，將不同模態下屬于同一個體的樣本圖像距離拉近，同時融合傳統的交叉熵損失，從而達到不同模態特征進行融合的目的。Lin 等人[13]提出了一種新的特征學習框架。在該框架中，對現有的單模態行人重識別模型進行了修正以適應跨模態場景，并設計了一種難五聯損失函數，它由難全局三元組損失和難跨模態三元組函數組成，從而有效處理跨模態變化和內模態變化，再結合身份損失以提高修正后的跨模態重識別模型的準確性。Hao等人[14]提出了一種具有分類和識別約束的端到端雙流超球面流形嵌入網絡（Hyper-Sphere Manifold Embedding network，HSMEnet），與傳統映射到歐氏空間不同，該網絡設計了Sphere Softmax 函數將樣本的深度特征映射到超球上，使模型能夠學習該超球的判別表示，在這個超球面上，兩個樣本圖像之間的距離可以通過它們的特征向量的角度來確定，結合身份損失和排序損失進行訓練，再通過KL 散度衡量兩個領域的相似性。最后，通過單矢量分解方法對Sphere Softmax 最大值權矩陣進行了修正，從而由高相關狀態轉換為低相關狀態。Ye 等人[15]提出了一種基于雙流網絡的模態意識協同學習方法（Modality-Aware Collaborative，MAC），提出了基線分類器、模態特異分類器和模態分類器，進行多分類器的協同學習。Zhu 等人[16]提出一個簡單且高性能的網絡架構來學習跨模態人再辨識的局部特征表示。由于直接約束模態分布之間的距離比較困難且代價高昂，所以使用兩個模態分布之間的中心距離來代替兩個模態分布之間的距離，從而縮小每個類中兩個模態特征分布之間的距離。針對忽略了一致模態下樣本相似性，Jia 等人[17]提出了一種新穎的相似性推斷度量（Similarity Inference Metric，SIM），該度量方法利用一致模態內樣本圖像相似性來規避針對跨模態圖像匹配的跨模態差異，通過連續相似圖推理和相互最近鄰推理進行訓練，從兩個不同的角度利用一致模態內樣本圖像相似性來挖掘跨模態樣本相似性，縮小了模態間差異。

2.3 基于模態互轉的方法

相對于基于表征的學習以及基于度量的學習，隨著近年來GAN 的快速發展，實現模態的相互轉換，將跨模態行人重識別問題轉化為單模態的行人重識別問題，這在很大程度上減少了模態間的差異這一難點。為了實現兩者的相互轉換，Wang 等人[18]提出了一種雙層差異減少方法（Dual-level Discrepancy Reduction Learning，D2RL），分為兩個部分，先使用變分自編碼器消除模態之間的差異，再使用傳統的行人重識別方法約束外表特征差異。Wang 等人[19]一種用于跨模態行人重識別任務的端到端對齊生成對抗網絡。像素對齊模塊將RGB 圖像轉化為紅外圖像；特征對齊模塊把真實的紅外圖像和合成的紅外圖像映射到同一個特征空間，并使用基于身份標簽的分類和三元組損失來監督特征；聯合判別模塊負責判別真假紅外圖像，通過身份一致性特性使得前兩者互相學習從而得到魯棒性特征。

Zhang 等人[20]提出了一種基于不同域的師生模型（TS-GAN），使用了兩個模態的圖像相互生成作為指導，但僅使用了RGB 圖像生成IR 圖像作為教師-學生模型的輸入，分為用于RGB 圖像生成IR 圖像的GAN、提取特征的主干網絡和預訓練教師模型這三個模塊，這三個模塊互相指導，從而提升了GAN 生成圖像效果。為解決不同攝像機帶來的交叉光譜問題，Fan 等人[21]提出了跨光譜雙子空間配對模型（Cross-spectrum Dualsubspace Pairing，CDP）模型來生成多種光譜的圖像，利用生成的樣本幫助網絡找到鑒別信息，從而實現對同一個人的跨模態重新識別

3 數據集及評價標準

為了評估跨模態行人重識別方法的性能，現有兩個同時包含RGB 圖像和紅外圖像的公開基準數據集供研究實驗，通過相同指標對不同方法進行比較。

3.1 數據集

SYSU-MM01 數據集[4]是2017 年為研究跨模態行人重識別問題而提出的公開數據集，它包含了在白天的4 個用于捕捉RGB 圖像的攝像視域以及在黑暗環境中用于捕捉紅外圖像的攝像視域，共有491 個不同身份行人的287628 張RGB 圖像和15792 張紅外圖像。

RegDB 數據集[22]共有412 個不同身份的行人，分為254 個女性和158 個男性，每個人分別對應10 張RGB 圖像和10 張紅外圖像，其中拍攝到156 個行人的正面，256 個行人的背面。該數據集總共有4120 張RGB 圖像和4120 張的紅外圖像。

3.2 評價標準

（1）CMC 曲線

CMC（Cumulative Match Characteristic，CMC）曲線，即累積匹配曲線，它反映了分類器性能，一般使用Rank-k 表示，表示按照某種相似度匹配規則匹配后，第n 次能判斷出正確的行人標簽的測試數目與總的測試樣本數目之比。例如Rank-1 識別率就是表示第一次匹配檢索后就能返回正確匹配的概率。

（2）mAP 均值平準精度

mAP（mean Average Precision）根據準確率-召回率曲線計算得到反應召回率。具體操作是分別求出每個類別的平均準確值后再次取平均值。平均準確值是求準確率-召回率曲線下的面積，綜合考慮了準確率和召回率，是衡量一個模型好壞的標準。

4 結語

本文對跨模態行人重識別問題進行了研究，將現階段的跨模態行人重識別方法分為基于表征學習的方法、基于度量學習的方法和基于模態互轉的方法，并對這些方法進行了介紹。跨模態行人重識別作為當前行人重識別的一個分支方向，隨著攝像監控系統的發展完善，在公共安全、預防犯罪和刑偵追查等領域有著重要意義，但目前的研究距離實際落地應用還有很長一段距離，可以預見到未來會持續涌現大量相關工作。