徐勝軍 劉求緣 史 亞 孟月波 劉光輝 韓九強
①(西安建筑科技大學信息與控制工程學院 西安 710055)
②(人工智能與數字經濟廣東省實驗室(廣州) 廣州 510320)
行人重識別(Re-IDentification, Re-ID)旨在從非重疊多攝像機獲取的圖像或視頻數據庫中查詢特定行人,即給定一幅行人圖像后在圖像庫中跨設備檢索其所有圖像,在視頻監控、安防等領域有重大應用價值。近年來,基于深度學習的Re-ID方法能夠獲得顯著優于傳統方法的識別性能,成果豐碩[1,2]。然而,跨攝像機場景下行人圖像存在視角和姿態變化,加之光照、遮擋等因素影響,Re-ID技術離實用尚有很大距離。
局部遮擋和姿態變化是影響Re-ID性能的兩大因素。遮擋不僅造成了行人部分身體信息的丟失,還引入了額外干擾,不利于行人特征的有效提取;行人姿態的多變性及行人檢測算法的誤差會造成身體各區域不能很好地對齊,進而導致特征匹配時存在較為嚴重的未對齊問題。因此,在復雜應用場景下,全局式表示學習[3]和度量學習[4]的魯棒性與泛化能力較弱。為了獲得更加精細且完整的行人特征,基于“全局+局部”思想的判別式特征學習日益流行,可分為基于姿態估計、基于圖像分塊、基于注意力機制等的Re-ID方法。
基于姿態估計的方法利用行人的姿態信息緩解未對齊問題。Zhao等人[5]先用改進的CPM(Convolutional Pose Machines)算法獲取14個人體關節并將其分成7組(對應7個身體區域),由此實現對齊;然后將整幅行人圖像和各身體區域作為輸入,依次通過特征提取和特征融合網絡,將全局和局部特征有機地結合起來。Zheng等人[6]先用CPM獲得14個關節和14維置信度向量,并按關節分成10個身體區域,進而將其組合為多種PoseBox,在空間結構上實現了對齊;接著將整幅圖像、PoseBox和置信度向量輸入網絡獲取姿態不變特征。這兩種方法均需進行姿態估計,從而帶來額外的計算開銷。因此考慮計算效率,Li等人[7]以離線訓練方式進行關節定位和身體區域生成。利用姿態估計可精確定位人體關鍵部位,但模型的訓練成本一般較高。基于圖像分塊的方法將行人圖像剛性地劃分為多個局部塊并從各塊中學習特征表示。Sun等人[8]提出PCB(Partbased Convolutional Baseline)模型,其首先將行人特征圖從上至下均勻地劃分成6塊,然后對各塊分別計算分類損失以便學習局部特征。PCB模型未充分考慮未對齊問題,因此Luo等人[9]對特征圖分塊后,通過計算兩幅圖像局部特征之間的最小距離實現塊與塊之間的動態匹配,從而在不引入附加監督信息的情況下緩解未對齊問題。Wang等人[10]提出MGN(Multiple Granularity Network)模型,其具有多個網絡分支且各分支采用不同的分塊數用以提取粗略的全局特征和細粒度局部特征。雖然分塊法可以獲得豐富的局部特征表示,但剛性劃分方式可能把具有完整語義信息的特征強制分成不同部分,造成匹配錯誤。基于注意力機制的方法利用注意力機制引導模型關注判別特征。Song等人[11]利用圖像分割方法分離行人與背景并生成對應的二值掩碼,繼而提出MGCAM(Mask-Guided Contrastive Attention Model)算法從人體和背景區域學習對比特征,從而抑制背景干擾。Zhang等人[12]設計了RGA(Relation-aware Global Attention)模塊,先計算特征圖中所有特征點之間的成對相關性并將相關向量堆疊后作為全局結構信息,然后結合特征點本身所包含的外觀信息推斷注意力強度,有助于遮擋或姿態變化時的語義推理。王粉花等人[13]直接將注意力模塊嵌入骨干網絡以增強特征學習能力,并對不同深度的特征進行采樣融合,使網絡具有較強的預測能力。Yang等人[14]采用多分支網絡,各分支利用類激活圖定位人體的不同區域,并提出一種重疊激活懲罰損失函數約束不同分支類激活圖的激活區域,引導各分支關注身體不同部位的語義信息,挖掘局部特征。注意力機制法無需額外的定位模塊和圖像剛性分塊即可獲取行人的顯著性特征,是當前Re-ID研究的熱點方向。
上述基于注意力機制的Re-ID方法雖然性能良好,但都只利用了蘊含人體結構信息的全局特征或蘊含語義信息的局部特征,而從整體上挖掘最顯著的區域特征容易忽略部分關鍵局部細節和次顯著的區域特征,不能有效應對遮擋、姿態及視角變化等問題。鑒于此,本文提出一種基于多樣化局部注意力網絡(Diversified Local Attention Network,DLAN)的行人重識別模型。首先,利用多個局部注意力網絡(LAN)自適應定位行人圖像中的多個顯著區域,從而使網絡學習到不同的語義信息。然后,構造了一致性激活懲罰(Consistency Activation Penalty, CAP)函數來確保多個局部注意力網絡的高激活區域不重疊,從而使得網絡所學到的局部特征保持多樣化。最后,將全局特征和多樣化的局部特征進行集成,得到按人體結構上對齊的行人特征表示。針對遮擋、姿態及視角變化問題,所提模型能夠有效提取最具判別力的“全局+局部”特征。為驗證算法性能,在幾個廣泛使用的Re-ID數據集上開展了實驗,結果表明DLAN的總體性能優于對比方法。
基于注意力機制,本文提出多樣化局部注意力網絡(DLAN)模型如圖1所示,其包含主干網絡、多分支LAN、分類識別網絡和CAP網絡4個模塊。圖1中,Fg表示全局分支的輸入,Fk表示第k(k ∈{1,2,...,K},K為分支總數)個LAN分支的輸入(為簡化繪圖,圖1給出的是K=3的示例),F*′′表示全局或局部分類識別網絡的輸入,f*表示歸一化特征,w*表示LAN生成的激活圖,L*表示各種損失函數;GAP(Global Average Pooling)代表全局平均池化,BN(Batch Normalization)代表批量歸一化。關于圖1 中各符號的詳細闡述見后文。此外,為便于算法描述,假設訓練集為S={(xi,yi)}Ni=1,其中xi表示第i幅行人圖像,yi ∈{1,2,...,C}為xi的標簽,C和N分別表示行人個數和訓練集大小。下面分別對每個模塊進行詳細介紹。
對于深度學習網絡,隨著深度的增加,網絡的學習能力理論上也會增強。但由于退化問題,網絡越深梯度消失現象越明顯,訓練誤差也越大。為此,He等人[15]提出了殘差網絡(Residual network,Resnet)架構,其易于優化,且很好解決了退化問題。由于深層特征蘊含豐富的語義信息,所以現有Re-ID方法首選Resnet作為骨干網絡,本文亦是如此,如圖1(a)所示。Resnet50包含1層卷積層(Conv1)和4個殘差模塊(Conv2~Conv5),每個殘差模塊又包含了多個卷積層、BN層和ReLU(Rectified Linear Units)激活函數。為了獲得更全面的行人特征表示,在Conv4后將網絡分成多個分支,分別作為全局分支和局部分支的輸入,并且在Conv5中不再進行下采樣操作。具體地,將行人圖像輸入骨干網絡后,所獲得的特征圖記作F ∈RD×H×W,其中D,H和W分別表示特征的通道數、高和寬,Fg和Fk均等于F。

圖1 DLAN模型架構



圖2 LAN結構圖

對于給定行人圖像,若對多分支LAN模塊不加約束,會造成各分支趨同化,即多個LAN模型很容易關注到相同的顯著區域,從而忽略其他同樣具有判別能力的次顯著區域。所以,在模型訓練過程中需確保K個分支各自關注圖像的不同區域,即每個局部分支特征響應的高激活區域不同。為此,提出了CAP網絡以實現局部特征多樣化,這正是DLAN模型的核心所在。簡言之,CAP網絡利用LAN輸出的空間注意力權重wk引導各局部分支聚焦于人體不同的顯著區域。具體地,本文采用海林格[17](Hellinger)距離H(·)度量任意兩個LAN分支輸出的wi和wj的一致性,即

綜合圖1(c)—圖1(e)模塊的損失,DLAN模型的總目標函數為

其中,λ和γ是各損失項之間的平衡參數(實驗部分將討論二者的取值對模型性能的影響)。通過求解上式,DLAN模型能夠同時學習到全局和局部特征,并且由CAP網絡確保所學局部特征的多樣化。測試階段,采用歐氏距離計算查詢圖像與圖像庫中各圖像之間的相似度,并對齊按降序排列,從而得到重識別精度。
本節將通過各類實驗驗證所提算法(DLAN)的有效性。所有實驗采用PyTorch深度學習框架,GPU工作站的配置為:Intel Core i7型CPU,32 GB內存以及12 GB顯存的1080Ti顯卡。
本文利用4個常用的Re-ID數據集開展實驗,即M a r k e t 1 5 0 1[18], D u k e M T M C-r e I D[19],CUHK03[20]和Partial REID[21]。每個數據集事先劃分為訓練集和測試集,而測試集又分成圖像庫和查詢集兩部分。其中,Market1501共包含6個攝像頭下1501個行人的12936張訓練圖像和23100張測試圖像,DukeMTMC-reID共包含8個攝像頭下16522張訓練圖像和19889張測試圖像,CUHK03共包含10個攝像頭下7365張訓練圖像和6732張測試圖像,Partial REID則共包含300張訓練圖像和300張測試圖像。
Re-ID方法的標準性能評價指標包括平均精度均值(mean Average Precision, mAP)和累積匹配特性曲線(Cumulative Match Characteristic,CMC)的第1匹配率Rank-1,因此本文也采用這兩種指標衡量DLAN模型從圖像庫中檢索待查詢行人圖像的能力。
對于DLAN模型,輸入圖像的大小為256×128;模型訓練過程中,采用隨機水平翻轉和隨機擦除實現數據增強。批大小設置為64,共學習120輪,三元組損失參數δ設為0.3,初始學習率設置為5×10—4,在第40輪和第70輪時分別衰減為5×10—5和5×10—6。為保證比較的公平性(算法比較見3.4節和3.5節),超參數λ與其他同類方法[10,22]保持一致,設置為1。為確定分支數k和超參數γ的最優或較優取值,以Market1501數據集為例,圖3和圖4分別給出mAP和Rank-1指標隨k值(1~6)和γ值(0.01~10)的變化曲線圖。


圖3 Market1501數據集上mAP和Rank-1隨k值變化曲線圖

圖4 Market1501數據集上mAP和Rank-1隨γ 值變化曲線圖

為驗證DLAN模型各模塊的作用,本小節在Market1501數據集上開展消融實驗,表1給出各網絡變種的詳細配置(“G”表示全局分支,“3L”表示3個局部分支,“—”表示無)。以文獻[3]中搭建的網絡作為基線模型(Baseline,只含全局結構),各變種的相關參數設置和訓練策略均相同,結果如表2所示。

表1 DLAN模型網絡變種結構表
分析表2可得:

表2 消融實驗結果(%)
(1)對比Baseline, 3L和3L+LAN的性能,單一的多分支網絡(3L)比僅學習全局特征的Baseline模型提高約0.5%(Rank-1)和1.6%(mAP),表明多分支之間的互補性有利于形成更完整的行人表示。嵌入LAN模型的多分支網絡(3L+LAN)比3L網絡提升了0.3%(Rank-1)和0.4%(mAP),證明LAN模型能有效地增強網絡定位判別信息的能力,因此能學習到更利于辨別行人身份的判別信息。
(2)對比3L+LAN和3L+LAN+CAP的性能,后者較之前者在Rank-1和mAP上分別提升0.4%和0.6%。單一的3L+LAN模型缺乏多樣性約束,因此容易造成各分支學習到相同的顯著特征。CAP損失能有效地促使多個LAN模型關注非重疊的顯著區域(詳見3.4節的可視化驗證實驗),所以性能有所提升。
(3)對比Baseline, 3L+LAN+CAP和G+3L+LAN+CAP(DLAN)的性能,全局網絡與多分支LAN聯合學習的策略最優。多分支空間注意力網絡可以學習到不同身體區域間的互補視覺特征,而全局分支可以學習到人體的整體空間結構關系,從而抑制未對齊和局部遮擋(詳見3.5節)的影響。
(4)對比所有網絡變種與DLAN網絡模型的參數量,模型參數量隨著局部分支數量增加而增加,但CAP網絡不引入額外參數;DLAN網絡模型在具有代表性的Market1501數據集上,模型大小中等,在不考慮部署到終端的情況下,DLAN一定程度上犧牲了空間和時間復雜度,但綜合考慮仍然是一個優質方案。
為進一步驗證CAP網絡的作用,本小節對Baseline, 3L+LAN+CAP, G+3L+LAN和DLAN模型以及DLAN模型的各個分支的特征圖(圖1中模塊b的輸出)進行可視化分析。具體地,在數據集Market1501和DukeMTMC-reID中選出3對圖像,分別包括姿態變化、行人未對齊和局部遮擋等行人重識別中常見問題,期望觀察到DLAN模型關注人體多個不同部位。如圖5所示,DLAN的3個局部分支分別關注人體肩胸、胯和腳等部位,而這些部位的細粒度特征通常十分有利于辨別行人身份。例如,肩部能學習到衣領和背包肩帶等語義特征,胯部能提取到上衣與褲子的差異特征,腳部則能得到行人走路的姿態特征和鞋子的語義特征,并且這些部位的特征無論在行人正面、側面亦或是背面圖像中都能提取到。因此,即使行人姿態或攝像頭視角發生改變,CAP仍然能夠保證DLAN提取特征的多樣性、有效性和魯棒性。

圖5 DLAN模型各分支可視化圖
如圖6所示,與消融實驗中的其他網絡結構相比,DLAN模型的高激活區域分布范圍更集中,并且DLAN模型的次激活區域更準確地覆蓋了幾乎整個人體區域,能夠學習到更完整的行人特征,同時還增強了各局部特征之間的空間關聯性。通過特征融合后,DLAN將得到特征對齊的行人特征表示,實現從上到下精準的特征對齊。此外,如圖5和圖6局部遮擋一欄可視化圖所示,當某一局部分支關注的顯著區域發生遮擋時,將自適應地變成空分支,減小遮擋物的干擾作用;而其余分支仍然能夠學習到足夠用以辨別行人身份的特征,并且進行有效特征對齊。結合3.3節和3.5節的定量結果,這些可視化結果驗證了CAP網絡的功效,既保證了行人特征的多樣化和有效性,同時也驗證了DLAN模型對于局部遮擋具有較強魯棒性。

圖6 主要網絡結構可視化圖
本小節專門針對局部遮擋問題進行實驗,以驗證DLAN模型在該問題上的有效性。參照文獻[23]的做法,對于Market1501和DukeMTMC-reID數據集,我們在查詢圖像中隨機遮擋某區域(高寬比記作s)來模擬真實的局部遮擋場景。將本文提出的DLAN模型與文獻[23]提到的方法進行比較,對比算法具體包括NPD, XQDA, IDE, TriNet, PAN,RNLSTMA等(詳見文獻[23]的引用文獻,本文不再列出),其中前兩種方法為傳統手工特征和度量學習結合的方法,其余均為深度學習法。DLAN模型與對比算法的實驗設置保持一致,我們分別比較了不同算法在原始圖像(s=0)和隨機遮擋圖像(s=0.3和s=0.6)上的識別結果,如表3所示(最優性能用粗體表示,對比算法的結果直接從文獻[23]獲得)。

表3 DLAN模型及各對比算法在不同遮擋水平下的重識別結果(%)
分析結果:與基于softmax損失的IDE方法和基于三元組損失的TriNet方法相比,DLAN因聯合采用了softmax損失和三元組損失而對遮擋問題具有更好的魯棒性;與局部式P A N 方法相比,DLAN模型利用多分支局部注意力網絡學習細微的局部語義信息,同時還集成了人體的結構信息,所以在遮擋情況下性能更佳;DLAN利用基于海林格距離的CAP網絡學習不同區域的特征表示,在小遮擋情況下優于基于空間依賴關系的RNLSTMA方法。對比方法中mGD+RNLSTMA的性能僅次于DLAN,它是基于生成式對抗網絡(Generative Adversarial Network, GAN)修復圖像的方法,雖然在局部遮擋模擬實驗中表現良好,但其效果極度依賴GAN網絡的性能,且在實際的遮擋問題中幾乎不存在圖像修復問題,所以實用性較弱。
此外,本文還在真實且具有挑戰性的Partial-REID遮擋數據集上進行了實驗。Partial-REID數據集包含不同類型的嚴重遮擋,實驗時遮擋圖像作為查詢圖像,全身無遮擋圖像作為圖庫圖像。對比方法包括MTRC[24]、SWM[21]、DSR[25]、SFR[26]、PGFA[27]和VPM[28],圖7給出各方法的Rank-1柱狀圖。由于DLAN學習區域級的特征,即可以實現區域級對齊,從而可以消除來自非共享區域的干擾噪聲。所以,在真實的遮擋場景下,本文所提方法具有優異的性能。

圖7 Partial-REID數據集上各算法性能對比圖
本節將提出的DLAN方法與現有的一些先進Re-ID方法進行比較。對比方法包括基于全局特征學習(SVDNet[29], SGGNN[30], MHN[31])、基于局部特征學習(PCB[8], CAM[14])以及全局和局部特征聯合學習(CCAN[22], BDB[32])的方法,實驗結果如表4所示(加粗表示最優結果,“—”表示無)。

表4 DLAN方法與現有Re-ID方法的性能比較(%)
可見,DLAN模型具有最佳性能。全局法所學習的特征表示通常集中在人體的主干部位,而肢體、腰、足等的信息容易被忽略。局部法則關注某些特定部位,因而在主干部位上的特征學習有所欠缺。此外,局部法在很大程度上依賴所采用的劃分機制,基于預定義分區策略的方法往往優于缺乏語義信息的支持而難以確定適當的分區數,由此導致性能提升有限。DLAN模型采用了全局特征與局部細粒度特征聯合學習的方法,各分支學習不同的細粒度特征,同時各分支還互相協作,從而將局部區域的判別線索補充到共同的主體部分,使得網絡學習到的特征表示具有更優的判別性。
在實際應用場景中,行人重識別面臨姿態變化和局部遮擋問題。為此,本文提出了一種基于全局和局部聯合學習的多樣化局部注意力網絡(DLAN)模型,其倚靠空間注意力網絡定位和增強顯著區域的激活響應,并通過多樣化正則約束使得各局部分支聚焦于非重疊的人體部位,從而提升重識別精度。在4個公共數據集上,相繼開展了消融實驗、可視化實驗、遮擋實驗以及與現有先進方法的全面比對實驗,充分驗證了所提方法的魯棒性和優異的識別性能。在未來工作中,將進一步利用一致性約束獲得全局分支的多粒度特征,并考慮學習各特征之間的空間關系,從而獲得更高的精度。