周東明,張燦龍,唐艷平,李志欣
(1.廣西師范大學 廣西多源信息挖掘與安全重點實驗室,廣西 桂林 541004;2.桂林電子科技大學計算機與信息安全學院,廣西桂林 541006)
行人再識別是指判斷不同攝像頭下出現的行人是否屬于同一行人,屬于圖像檢索的子問題,廣泛應用于智能視頻監控、安保、刑偵等領域[1-2]。由于行人圖像的分辨率變化大、拍攝角度不統一、光照條件差、環境變化大、行人姿態不斷變化等原因,使得行人再識別成為目前計算機視覺領域的研究熱點和難點問題。
傳統的行人再識別方法側重于顏色、形狀等低級特征。隨著深度學習技術的快速發展,以端到端的方式學習圖像特征,然后進行三元組損失、對比損失、改進的三元組損失等[3-4]的度量與計算。該方式能夠很好地學習圖像的全局特征,但是并沒有考慮圖像的局部特征和空間結構。行人在不同的攝像頭下由于低分辨率、光照條件、部分遮擋、姿態變化等諸多因素使得視覺外觀發生顯著變化,主要表現為行人部分特征被遮擋導致不相關上下文被學習到特征圖中,姿態變化或者非剛性變換使得度量學習[5]變得困難,高相似度的外貌特征在基于全局特征學習的模型中不能得到有效識別,區域推薦網絡所產生的不精確的檢測框會影響特征學習等方面。為解決上述問題,研究人員開始關注圖像的局部特征,通過圖像的局部差異性分辨不同的行人。對于行人的局部特征進行提取,主要是通過手工的方式將圖像分成若干塊。文獻[6]提出對圖像進行分塊,將行人圖像平均分成6 份大小相同的區域,對每個區域施加標簽約束,然后分別提取圖像的局部特征進行學習。文獻[7]在全局特征的辨識模型中引入局部特征損失來影響全局特征表達,在局部網絡中使用無監督訓練自動檢測局部人體部件,增加了模型對于未見過的行人圖像的判別能力。但是,已有研究主要將注意力集中在人體的局部特征學習上,忽略了非人體部件的上下文線索對整體辨識的重要影響,因此模型在不同數據集中的魯棒性較差。本文使用行人語義分割代替手工設計的分塊框,快速提取圖像的局部特征。首先訓練一個行人語義分割模型,該模型通過學習將行人分成多個語義區域,將非人體部分作為背景。然后通過局部語義區域進行分塊,分塊后再進行辨識比對。在此基礎上提出一種局部注意力機制,計算非人體部分潛在部件的相似度,依據輸入圖像和查詢圖像像素之間的差異來辨識是否屬于同一行人,以解決非人體部分潛在的原始信息辨識問題。
本文提出一種基于局部對齊網絡(Partial Alignment Network,PAN)的行人再識別模型,通過行人解析模型對齊人體部分特征以及使用局部注意力機制對齊非人體部分的上下文線索[8]。局部對齊網絡結構如圖1 所示,通過將分塊后的行人語義特征與注意力特征相融合得到最終的辨識特征,其中:Lpar表示人體語義解析網絡分支;Latt表示局部注意力網絡分支,先學習捕獲基于不同像素之間的部分差異,再計算潛在的局部對齊表示。

圖1 局部對齊網絡結構Fig.1 Structure of partial alignment network
輸入一張行人圖片I,經過殘差網絡的特征提取得到特征圖V,將行人與分割后的標簽映射進行縮放[9],使其特征映射和V維度相同。第i個像素的表征為ri,本質上是V的it,h行。像素i經過縮放后行人部分類別的標簽可表示為δi,δi有N個人體部件的值和1 個背景類別。將得到的人體特征標記的置信度圖記為fk,每一個人體部件類別和背景均與局部特征置信度圖相關[10]。當預測i個行人部件標簽時:

在得到第i個像素的標簽圖fk,i后,本文使用L1正則化對每個行人標簽的置信度圖進行歸一化處理[11],L1 正則化可表示如下:

其中:λ∈[0,+∞]是用來平衡系數的稀疏性和經驗損失的超參數,λ越大系數的稀疏性越好,但經驗損失就越大;ri是輸入的第i個像素特征;y是圖像的標簽;w是在訓練中學習的超參數;Lemp()是目標函數。對式(2)中的w求導,使得偏置值?w J(w;ri,y)目標函數取得最小值以產生稀疏模型,防止過擬合現象[12]。此時,行人部分的特征hi可以表示如下:

其中:hi表示的是第i個像素的行人部件特征,通過指示函數[δi≡N]即可得到人體部分的特征圖Lpar。Lpar可以表示如下:

其中:Lpar本質上是圖片中行人預定義標簽的語義表示。在本文模型中,行人語義主干網絡每次激活輸出一個帶標簽的置信度圖,而不是使用全局平均池化[13]輸出置信度圖。與全局平均池化[14]相比,置信度圖的激活發生在空間區域。
將ResNet50 提取到的特征圖V輸入局部注意力網絡中[15],局部注意力網絡學習預測K個非行人標簽置信度圖Q1,Q2,…,QK。局部注意力網絡中的置信度圖學習與行人解析網絡中第i個像素有關的潛在知識,第i個像素的注意力編碼向量可表示如下:

其中:Ti是第i個像素的特征編碼長度;WP是在訓練中學習的超參數;tanh()是雙曲正切函數,在得到注意力編碼向量的特征表示后,計算注意力網絡中i個像素特征 圖的權重ai,j。ai,j可以表示如下:

其中:ai,j是Qi的第jt,h行的置信度圖權重;s表示輸入序列的位置;σ表示局部注意力關注區域和標簽之間的方差。本文在計算特征圖權重時,添加高斯分布使得對齊權重在第i個像素對靠近pi的標注時予以更多的影響力。遵循局部注意力機制,首先正則化align(Qj,Qi),然后計算輸入和查詢圖像之間關于像素i相似性的總和。局部注意力網絡中的兩個變換函數是為了更好地學習相似性,其實現使用的是1×1的卷積核,能更好地對小目標予以檢測和關注。
潛在的局部注意力特征圖可表示如下:

其中:ψ(·)是用來學習更好表征的函數。在實現細節上,使用的是1×3 的卷積核和批量歸一化以及Sigmoid 激活函數[16]。
將潛在的局部注意力網絡對齊表示和人體語義解析網絡對齊表示進行融合,得到最終的辨識特征X:

使用3 個公開的大規模行人再識別領域的Market-1501[17]、DukeMTMC-reID[18]和CUHK03[19]數據集評估本文模型的性能。Market-1501 數據集有1 501 個行人,共32 688 張圖片。DukeMTMCreID 數據集有1 404 個行人,共36 411 張圖片。CUHK03 數據集有1 467 個行人,共14 096 張圖片。這些圖片由5 個高分辨率的攝像頭和1 個低分辨率的攝像頭拍攝,且每個行人至少出現在2 個不同的攝像頭中。CUHK03 數據集的數據格式和另外兩種數據集格式稍有不同,提供了兩種類型的數據,包括手工注釋的標簽(Labeled)和DPM 檢測的邊界框(Detected)[20],其中第二種類型的數據檢測更困難,因為DMP 檢測的邊界框存在比例失調、雜亂背景等現象的發生。利用累計匹配特征(Cumulated Matching Characteristic,CMC)和平均精度均值(mean Average Presicion,mAP)兩種評價指標來評估PAN 模型。所有實驗均使用單查詢設置。
模型基于PyTorch 框架,在開始訓練前將數據集中圖片大小調整至384 像素×128 像素,通過隨機遮擋進行數據增強。實驗中使用的3 個數據集預先使用CE2P 模型進行人體語義解析[21],每張圖片定義20 個語義類別,其中,19 個行人類別,1 個背景類別。實驗共訓練100 個批次,每個批次的大小設置為128。初始學習率設置為0.02,在經過60 個批次后學習率降為0.002。
將PAN 模型與基于注意力的行人再識別模型(RGA[22]、HOA[23])、基于行人語義解析的行人再識別模型(SSM[24])和基于局部對齊方法的行人再識別模型(SCSN[25]、GSRW[26]和DSA[27])進行性能評價測試與對比,對應的實驗結果如表1 所示,其中,在Market-1501 和DukeMTMC 數據集中分別測試了Rank-1、Rank-5、Rank-10 和mAP 評價指標,在CUHK03 數據集中測試了Rank-1 和mAP 評價指標。實驗結果表明:PAN 模型在3 個數據集中均取得較好的結果,通過觀察可以發現,本文構建的人體語義解析網絡有效地解決了分塊后特征不對齊導致的匹配失敗問題;將PAN 模型與HOA 模型在沒有使用多分類Softmax 損失函數[28]的條件下進行比較,可以發現PAN 模型的Rank-1 和mAP 評價指標上有明顯提升,分別提高了5.4 和6.8 個百分點。

表1 在單查詢設置下PAN 模型和其他模型在Market-1501、DukeMTMC 和CUHK03 數據集上的實驗結果對比Table 1 Comparison of experimental results of PAN model and other models on Market-1501,DukeMTMC and CUHK03 datasets under the single query setting %
本文探究了不同的行人部件分割數量N對PAN 模型的影響,實驗結果如圖2 所示。由圖2 可以看出,當N=5 時,行人部件被分為頭部、上部分、下部分、腳部、背景等5 個部分,整個模型的再識別成功率最高,這表明精細的行人部件分割有效地克服了行人姿態變化的差異性問題,通過上下文信息對行人再識別產生了重要影響。考慮到計算時間開銷和硬件支持[29],本文默認將N設置為5,即每張圖片的行人部分分割為5 個小區域。

圖2 PAN 模型選取不同行人部件分割數量時的實驗結果對比Fig.2 Comparison of experimental results when the PAN model selects different number of pedestrian components
在使用三元組損失的基礎上[30],通過消融實驗來深入研究PAN 模型中各分支的貢獻,其中:Baseline 表示基線模型,在此基礎上進行改進;PAN/Lpar表示僅使用人體語義解析網絡分支的模型;PAN/Latt表示僅使用局部注意力網絡分支的模型;PAN/Lpar+Latt代表同時使用局部注意力網絡和人體語義解析網絡分支的模型。實驗結果如表2 所示:聯合人體語義解析和局部注意力網絡可以提升3 個主流數據集的整體性能;PAN/Lpar和Baseline 模型相比可以發現,Baseline 模型只是將圖像進行分塊提取特征,當出現姿態變化過大和高相似度外貌特征時并不能取得良好的實驗結果;PAN/Latt和Baseline 模型相比可以發現,局部注意力網絡在出現遮擋情況時,顯示出了非行人部件上下文線索的重要性。

表2 行人再識別模型消融實驗結果Table 2 Results of ablation experiment for pedestrian re-identification models%
本文提出一種基于行人語義分割和局部注意力機制的行人再識別模型。使用行人語義分割模型對行人的局部特征進行更精細的分割,避免了對圖像進行分塊后局部特征不匹配現象的產生。利用局部注意力機制,解決了行人語義分割模型將非人體部件識別為圖像背景的問題。通過行人部件信息和背景遮擋信息的互補,增強了模型的可遷移性。實驗結果表明,該模型能充分利用行人部件信息和局部視覺線索中隱藏的語義信息,有效解決了行人姿態變化過大、特征分塊后不對齊等問題。后續將研究PAN 模型在基于視頻序列的行人再識別中的應用,通過將視頻中的每一幀圖像進行分割得到行人部件特征,根據行人部件特征之間的比對增加識別粒度,并設計圖卷積網絡挖掘視頻序列中行人潛在的語義信息,進一步提高識別精度。