楊 靜 張燦龍 李志欣 唐艷平
1(廣西多源信息挖掘與安全重點實驗室(廣西師范大學) 廣西桂林 541004) 2(桂林電子科技大學計算機與信息安全學院 廣西桂林 541004)
行人再辨識[1-4]可以理解為在關聯時間和空間的情況下,從不同區域的非重疊的攝像頭下檢索并辨識出同一個行人.由于安全需求的增長,以及監控設備所采集的數據量劇增,行人再辨識已成為計算機視覺領域重要的研究課題.在實際的應用場景中,行人再辨識可以結合步態、人臉、屬性等其他領域的相關技術開展警務系統的嫌犯追蹤、智能尋人等任務.
現存的大部分研究方法[5-8]主要是提取2張行人圖像的整體特征進行特征匹配.行人所處環境復雜多樣,匹配過程存在大量干擾信息,比如光線、視角不同會引起行人圖像發生不同程度的形變,行人常常會面臨被樹木、車輛、建筑物及周圍其他行人遮擋的情況,因此研究遮擋的行人再辨識這個課題是十分有意義的.
由于遮擋的行人圖像包含了比較復雜的干擾性遮擋信息,直觀的解決方案是去除遮擋部分再進行特征匹配.現有針對遮擋的行人再辨識的工作采用直接裁剪的方式,將存在遮擋的區域手工裁剪掉,再將未遮擋部分的圖像與圖像庫進行匹配.面臨大量需要匹配的圖像時十分低效耗時,這個過程可能會引入噪聲干擾.現有的一些工作[9-11]將注意力機制用于行人再辨識的研究中.注意力機制通過關注局部區域從而達到增強特征的目的,在識別精度上有了一定的提升.
受此啟發,本文提出了一種集成空間注意力和姿態估計(spatial attention and pose estimation, SAPE)的遮擋行人再辨識模型.具體來說,SAPE模型利用空間注意力機制將模型注意力錨定在未遮擋的豐富視覺語義區域;結合分塊匹配的思想,將注意力引導的特征圖水平均勻分割成若干塊,通過局部特征的匹配增加辨識的細粒度.而改進的姿態估計分支提取行人的關鍵點區域并得到標記遮擋的姿態引導特征圖與注意力引導特征圖深度融合,以獲得更強的語義特征,消除遮擋區域對再辨識模型結果的影響.在構建再辨識特征階段,本文所提出的SAPE模型充分關注行人的無遮擋區域,忽略行人在不同場景下的遮擋區域信息,有效緩解數據偏差對辨識精度的影響.
本文的主要貢獻有3個方面:
1) 將空間注意力機制引入遮擋的行人再辨識任務中,它能夠提取行人圖像中辨識性強的關鍵語義信息,引導模型關注到未被遮擋的行人圖像區域,以此來優化行人再辨識的分類效果.
2) 改進了姿態估計模型,通過姿態估計得到的關鍵點區域與特征圖進行融合后得到辨識性強的特征,有效地消除遮擋區域對辨識的影響.
3) 實驗結果表明,本文提出的SAPE模型比現存模型的mAP評價指標顯著提高,在遮擋數據集Occluded-DukeMTMC,Occluded-REID和半身數據集Partial-REID上達到了優良的效果.此外SAPE是一個端到端的結構,支持潛在改進.
現有的行人再辨識的研究[12-17]已經取得一些進步,但是遮擋對于行人再辨識的研究是一個不可忽略的因素.現有一些基于遮擋面部識別的工作[18-19]已經取得了一些研究成果,這些工作[18-19]主要考慮利用生成對抗網絡去除遮擋區域,均在遮擋的面部識別任務上取得了顯著的效果,為遮擋的行人再辨識提供了很好的思路.還有一些工作開始嘗試解決遮擋的行人再辨識問題.Zhuo等人[20]提出了行人身體注意力框架(attention framework of person body, AFPB),試圖從隨機增加遮擋的角度解決這個問題.該模型利用遮擋模擬器在人體圖像中隨機添加背景塊,自動生成大量的人工遮擋行人圖像,迫使網絡區分模擬遮擋樣本和非遮擋樣本,從而學習一種抗遮擋的更加魯棒的特征表示.He等人[21]針對遮擋問題提出了一種無對齊的模型,通過金字塔池對全卷積網絡采集到的空間特征進行不同池化后得到金字塔特征,該模型提出的基于前景感知的金字塔重建(foreground-aware pyramid reconstruction, FPR)的相似性度量函數能夠在遮擋嚴重的情況下提高精度.Wang等人[22]采用了圖神經網絡去建模,自適應圖卷積網絡(adaptive direction graph convolutional, ADGC)可以動態地學習高階關系特征,以達到抑制無關信息、消除遮擋噪聲的目的.上述3種方法[20-22]都是直接從被遮擋的整張圖像中提取特征,避免了對圖像進行裁剪,但是行人圖像并沒有區域遮擋的標簽,這限制了在實際監控場景中的適用性.
近些年,注意力機制大大提升了許多計算機視覺任務的性能[9-10,17,23].注意力可以使資源的分配偏向投入到包含更加豐富信息的區域中.對于行人再辨識,注意力機制主要用于增強模型對辨識度高的區域關注度.Fu等人[9]設計了殘差雙注意模塊聚合特征,該模塊嵌入級聯抑制網絡(salience-guided cascaded suppression network, SCSN)后能夠挖掘多樣化的顯著特征,增加網絡對顯著性特征的容量.Chen等人[17]提出了多樣專注網絡(attentive but diverse network, ABD-Net),該網絡將注意力模塊和多樣性正則化作為相互補充,可以直接從數據和上下文中學習注意力掩碼,并且避免過度關聯和冗余的注意力特征.Tay等人[23]將注意力機制與屬性信息結合,提出了屬性注意網絡框架(attribute attention network, AANet),將圖像的局部特征以及行人的服裝顏色、頭發、背包等外觀屬性統一到一個框架中,來共同學習一個具有高判別度的屬性注意特征.上述3種不同的注意力模型提升了模型對人體區域的關注,但是易出現過度關注與人體不相關細節的問題,對于遮擋行人再辨識這類特殊問題,并不具有良好的普適性.
基于姿態估計的行人再辨識可以有效解決行人姿態變化過大導致的辨識不準確[14,24-27].但是姿態估計也存在著姿態樣本小、嚴重扭曲的行人樣本姿態轉化困難的問題.因此,Liu等人[24]提出了一種姿態轉換框架(pose transfer),利用生成對抗網絡和姿態骨架進行聯合學習,以生成新姿勢的變體增強數據樣本,該姿態轉移模型能提供足夠的判別力特征.Artacho等人[25]提出了一個基于瀑布式的統一行人姿態估計框架UniPose,單姿態估計聯合上下文分割有效地定位一個階段的行人姿態.瀑布式的行人姿態估計結構具有精度高、不依賴統計后處理的方法等特點.但是,本節提出的模型運用在遮擋的行人場景時,行人姿態的關鍵點未能完全提取,姿態估計的效果不佳.本文提出將姿態估計關鍵點信息特征和空間注意力特征圖相融合,用姿態估計引導特征匹配,特征更具魯棒性,具有很好的辨識效果.
為了更好地解決遮擋對行人再辨識的影響,對遮擋的行人圖像提取更具辨識性的特征,本文提出了一個集成空間注意力和姿態估計(SAPE)的端到端的遮擋的行人再辨識模型.如圖1所示,SAPE模型由空間注意力引導的全局特征子網絡(SA-GFN)、水平分塊的部分特征子網絡(HP-PFN)以及姿態引導的全局特征子網絡(PE-GFN)這3個子網絡構成.本節對SAPE的各模塊進行詳細闡述,最后介紹本文使用的損失.

Fig. 1 Schematic overview of SAPE圖1 SAPE結構圖

Fig. 2 Schematic of spatial attention圖2 空間注意力結構圖
空間注意力的目的是建立空間域中像素間成對關系,從而捕獲并聚合空間域中語義相關度較高的像素,使模型更加集中關注于圖像中未被遮擋的區域.本文設計的SA-GFN的結構如圖2所示.由骨干網提取的卷積特征圖A∈C×H×W可作為空間注意力的輸入,這里的C是總的通道數,H×W是特征圖的尺寸.卷積特征圖A∈C×H×W經過形變可以表示為一個N×C的2維矩陣M,這里N=H×W表示卷積特征圖中像素點的個數,2維矩陣M可以視為包含N個C維的特征向量.本文將這些特征向量(即像素點)表示為Ai,其中i=1,2,…,N.空間注意力模塊生成的注意力圖Fsa可計算為:
Fsa=[g(δ(τ(W1Ai)))]?[δ(τ(W2si))],
(1)
其中,W1和W2均為1×1空間卷積層的參數,卷積核尺寸分別為C×(C/r)×1×1,2N×(2N/r)×1×1,r是一個預定義的控制降維比的正整數,τ表示BN層,δ表示ReLU激活函數,g(·)表示沿著通道維度方向的全局平均池化操作,池化后將通道維度降為1,?表示拼接操作,將降維后的原始特征Ai與包含全局關系的特征si嵌入后聯結為注意圖Fsa,這里的注意力圖Fsa不僅包含了原始的特征,而且包含了全局關系的特征,具有更好的辨識性.而全局關系特征si∈2N可以表示為
si=S(i,:)?S(:,i),
(2)
這里S(i,:)表示像素點間的關聯矩陣S∈N×N的第i行,S(:,i)表示像素點間的關聯矩陣S∈N×N的第i列,因此全局關系特征si的計算可理解為聯結了像素點間的關聯矩陣S經過形變得到的行關系特征和列關系特征.像素點間的關聯矩陣S計算為
Sij=[δ(τ(W3Ai))]T[δ(τ(W4Aj))],
(3)
這里Sij是關聯矩陣S的第i行、第j列元素,表示第i個像素點對第j個像素點的作用,其中,i,j∈[1,N],W3和W4均為1×1空間卷積層的參數,卷積核的尺寸均為C×(C/r)×1×1.
注意力圖Fsa作為全局平均池化的輸入,使用一個3層的微網絡結構,分別包含了1×1卷積層(V)、BN層(R)、ReLU層(L)這3層,之后將通道維度降為C,進一步增加網絡深度,學習到更具深層的語義特征.最后使用Softmax來預測每個輸入圖像的身份分類概率fu,該網絡的訓練用到了交叉熵損失,損失Lsa的計算公式為
(4)
其中,mu通過第u個訓練樣本的標簽得到,當子網絡輸出的分類結果與該樣本對應的真實標簽一致時mu=1,否則mu=0.
受到Sun等人[28]提出的PCB(part-based con-volutional baseline)網絡的啟發,若只是單一地將主干網絡提取的全局特征進行池化并分類,極易造成大量的細節特征丟失.為細化網絡結構,進一步提升特征的表征能力,本文增加了一個水平分塊的部分特征子網絡,其結構如圖1的HP-PFN虛框所示.
在水平分塊部分特征子網絡中,本文通過將骨干網絡輸出的全局特征圖A∈C×H×W與行人圖像注意力圖Fsa做外積來提取注意感知特征圖,該特征圖能夠更加有效地關注未遮擋區域.接下來將該特征圖水平分成p個部分,分別表示為xp,p=1,2,…,P,再分別對每個部分做全局均值池化,此時每個分塊的維度為2 048維,再經過一個1×1的卷積降維得到的分塊維度為256維.訓練時將p個特征向量分別送入全連接層用于分類,得到每一個分塊的分類結果后與行人整體特征分類相同的標簽計算交叉熵損失.多分類交叉熵損失函數為
(5)
其中,yp表示該圖像的行人身份,K表示訓練集中的行人身份總數量,W,b分別表示分類層的權重和偏置.水平分塊的部分特征子網絡的總損失用Lhp表示.
由于姿態估計可以定位到行人的骨骼關鍵點,在行人再辨識方向的應用已經表現出很好的性能,對于遮擋這類特定問題而言,有效地消除遮擋能夠抑制噪聲干擾.受此啟發,本文提出了姿態引導的全局特征子網絡(PE-GFN).輸入一張行人圖像后,姿態估計模型可以提取出Q個關鍵點,并得到關鍵點區域的置信圖,對應可見區域的每個關鍵點處都有一個高斯峰值,而存在遮擋的關鍵點置信度較低,因此設置一個閾值λ過濾掉置信度比較低的關鍵點以消除遮擋區域.

(6)
其中,LMq表示第q個關鍵點標志,q=1,2,…,Q,(xq,yq)表示相應的坐標,confq表示該關鍵點的置信度.由關鍵點標志可以生成熱圖,然后將熱圖與空間注意力圖進行特征融合,在融合特征時若使用簡單的求和或池化操作,容易引入特征噪聲干擾.本文將子網絡的特征拼接起來,通過融合模塊進行卷積運算.首先將熱圖與空間注意力圖Fsa相乘得到包含姿態信息的特征圖Fpose,由于每個熱圖都明確地標示了圖像的遮擋區域,因此包含姿態信息的特征圖Fpose能夠使模型更加關注非遮擋區域,有效地抑制遮擋噪聲.然后將包含姿態信息的特征圖Fpose與空間注意力圖Fsa拼接,這里的卷積神經網絡使用了深度卷積和點卷積,能夠得到更具細粒度的融合特征,并且能夠有效地減少神經網絡的參數.得到融合后的特征圖,經過全連接后進行分類,整個融合過程可以表示為
Ffuse=W6[W5((Fpose?Fsa)?Fsa)],
(7)
這里W5和W6分別表示深度卷積和點卷積的參數,?表示外積操作.與SA-GFN相同,這里使用Softmax函數來預測每個輸入的圖像身份,并與真實的身份標簽一起使用交叉熵作為損失函數,該網絡損失Lpe計算過程與式(4)相同.
本文提出的SAPE框架共包含了3個子任務網絡,可將此網絡結構視為多任務網絡,由于每個子任務對于整個模型存在不同的貢獻,若將每個子任務損失的權重設為相同,則會影響最后的辨識精度.而由于每個子任務的最優權重不僅依賴于衡量尺度,而且依賴于每個任務噪聲的大小.故在本文的工作中使用同方差不確定性學習[29-30],結合多個子任務的損失,同時去學習多目標,以獲得子任務損失的權重因子.
同方差不確定可以利用貝葉斯建模去優化多任務的不同權重.當其中的一個子任務的損失增大時,其權重參數縮小,反之亦然.本文假設預測誤差滿足高斯分布,因此該網絡結構的最小化總任務損失為

(8)
其中,μ1,μ2,μ3分別為它們的噪聲因子,將這3個參數作為訓練參數代到多任務學習中進行訓練.
為了驗證本文模型能夠有效地解決行人再辨識中的遮擋問題,分別在Occluded-DukeMTMC[31]和Occluded-REID[20]這2個遮擋數據集以及半身數據集Partial-REID[32]上進行了實驗.此外,本文在2個常規全身圖像行人再辨識數據集Market-1501[33]和DukeMTMC-reID[34]上評估所提出模型的魯棒性.
Occluded-DukeMTMC是在DukeMTMC-reID數據集中提取的一個遮擋數據集.其中,訓練集共包含702個行人的15 618張圖像,測試集包含1 110個行人身份,其中圖庫和查詢集中分別有17 661張圖像和2 210張圖像.
Occluded-REID是由校園內的移動攝像設備捕獲的行人圖像,包含200個被遮擋行人的2 000張注釋過的圖像.其中每個行人身份分別包含5張全身的和5張被不同程度遮擋的圖像.
Partial-REID包括60個行人的900張圖像,每個行人包含5張全身圖像、5張遮擋圖像和5張手工裁剪的半身圖像.本文只使用全身圖像和半身圖像做性能評估.
Market-1501包含從6個攝像機所拍攝到的1 501個不同身份的行人圖像,所有的圖像都是固定尺寸的.其中包含19 732張圖庫圖像和12 936張訓練圖像,數據集包含較少的遮擋或部分行人圖像.
DukeMTMC-reID是由不同位置的8個攝像頭采集到的36 411張不同尺寸的圖像,共有1 404個行人身份、16 522張訓練圖像、2 228張待查詢圖像,共17 661個圖庫圖像.
本文的實驗使用累積匹配特征曲線(cumulative match characteristic, CMC)和平均精度均值(mean average precision, mAP)來衡量模型辨識性能.CMC曲線主要反映整個模型的分類準確率,常以Rank-n的形式表示前n個匹配結果;mAP是某一個分類的所有返回結果的平均準確率.
實驗所使用的硬件平臺中GPU為32 GB的Tesla V100,操作系統為Ubuntu 18.04.實驗使用的深度學習框架為PyTorch1.0,Python的版本為3.7,CUDA的版本為10.1.
本文使用在ImageNet[35]數據集上預訓練過的ResNet50[36]作為采集特征的骨干網絡,并對該網絡做了進一步的微調:移除了網絡最后一層的池化層和全連接層,并且為了獲得更加豐富的特征信息,將conv4_1的步長設置為1.在訓練過程中,所有輸入圖像的大小調整為384×128,并通過隨機水平翻轉和隨機刪除去增強數據.設置批次大小為32,網絡模型的訓練迭代次數為120,訓練過程中采用Adam優化.在水平分塊的部分特征子網絡中,特征圖被水平分成p個部分,這里p=3.在空間注意力引導的全局特征子網絡中,預定義的控制降維比的正整數r=8.在姿態引導的全局特征子網絡中,本文采用了在COCO[37]數據集上預訓練過的AlphaPose[38]模型作為姿態估計器,用來生成人體的關鍵點.該模型共預測18個關鍵點,本文對頭部區域的關鍵點進行了融合,最終獲得Q=14個關鍵點,包括頭、頸、肩膀、手肘、手腕、腰部、膝蓋、腳踝.置信度閾值λ=0.2.對于Occluded-DukeMTMC和Occluded-REID數據集,初始學習率設定為0.1,并且40輪以后降為0.01.對于Partial-REID數據集,初始學習率設定為0.02.
本節分3組實驗,與注意力方法、分塊方法以及姿態估計方法分別在Occluded-DukeMTMC,Occluded-REID,Partial-REID三個數據集上進行性能比較,結果如表1所示:

Table 1 Performance Comparison with Attention Methods, Part Methods and Pose Estimation Methods on Three Datasets表1 與注意力方法、分塊方法和姿態估計方法在3個數據集上的性能比較 %
1) 與注意力方法的對比
與注意力方法的比較在表1的第1組中說明.在這些方法中,SCSN[9]設計了殘差雙注意模塊聚合特征,ABD-Net[17]引入了雙注意力機制和正則化作為相互補充,AANet[23]提出了屬性和注意力結合的屬性注意力機制.從表1中可以觀察到,與SCSN,ABD-Net,AANet這3種注意力方法比較,本文提出的SAPE模型在3個數據集上性能均有很好的表現.在Occluded-DukeMTMC數據集上,SAPE的Rank-1精度比排名第2的注意力方法ABD-Net高出約10%.這一對比實驗表明,缺少遮擋處理的注意力機制在辨識被遮擋的行人時性能欠佳,同時也說明設計專門的遮擋處理機制十分必要.
2) 與分塊方法的對比
分塊后的圖像的局部匹配可能會導致圖像的不對齊,并且不能去除遮擋進行分塊匹配時每個分塊均有可能存在嚴重的噪聲干擾,可能會增加局部匹配的難度.比較表1的第2組中的數據可以看出,相較于現存的基于分塊的行人再辨識的方法,本文提出的SAPE對于遮擋問題表現出更好的適用性.這是由于本文的分塊是針對注意力感知特征圖,融入注意力機制后的特征圖增強了對于未遮擋區域的關注,分塊后能夠更加精確地匹配未遮擋區域.
3) 與姿態估計方法的對比
表1中的第3組數據展示了姿態估計方法的性能.與表1中展示的3種方法比較,本文提出的SAPE模型在Occluded-DukeMTMC,Occluded-REID,Partial-REID這3個數據集上分別達到了55.1%,76.4%,82.5%的Rank-1精度,超過了現有模型的精度.總的來說,本文所達到的性能提升主要得益于2個方面:①部分匹配比全局特征學習更適合于被遮擋的行人再辨識任務;②與簡單地將特征與姿態關鍵點熱圖融合相比,姿態融合特征對于辨識精度更加有效.
4) 在整體數據集上的性能
盡管,現有的一些針對遮擋的模型在遮擋和半身數據集上取得了不錯的匹配結果,但是由于特征學習和對準過程中的噪聲影響,在整體數據集上也可能面臨模型出現過擬合的問題,往往不能取得令人滿意的性能.表2展示了在Market-1501和DukeMTMC-reID數據集上不同模型的性能比較.“+Aug”的對應結果是當訓練本文的模型時,添加了隨機遮擋圖像以解決訓練集的數據不平衡問題.這種隨機增加遮擋是在訓練集中選取的圖像送入網絡之前隨機選取一個背景塊,隨機替換該圖像的一個區域,以增加遮擋訓練樣本.從表2中可以觀察到,SAPE+Aug模型取得了最優的性能,表明本文的模型針對整體數據集也是有效的,本文的方法并不囿于遮擋行人,具有更好的普適性.
首先,本文在Occluded-DukeMTMC數據集上驗證了3個子網絡對SAPE辨識性能的影響,實驗結果如表3所示.表3中第1行僅使用單個損失Lsa,第2行使用了Lsa和Lhp兩個損失的組合,第3行使用3個損失的組合,第2組和第3組中每個損失權重均相同.當向網絡中添加這些相關的子任務時,網絡的整體辨識準確率會提高,這驗證了每個子任務對模型的整體性能均有一定的貢獻.另外,表3最后一行采用同方差不確定性學習的方法獲得任務損失權值,可以看出,與前面3組損失組合方式相比,辨識準確率有了很大的提升,mAP和Rank-1準確率分別提高到42.3%和55.1%.

Table 3 Performance Comparison of Different Task Loss onOccluded-DukeMTMC Dataset表3 在Occluded-DukeMTMC數據集上不同任務損失的性能比較 %
然后,本文分析了空間注意力(SA)模塊在骨干網絡ResNet-50的不同層對SAPE準確性性能的影響.由于SA模塊是可以即插即用的,因此本文在所有的殘差塊(包括conv2_x,conv3_x,conv4_x和conv5_x)之后添加了所提出的SA模塊.表4展示了分別在Occluded-DukeMTMC和Partial-REID數據集上的實驗結果.由表4可以看出,在不同的殘差塊加入SA模塊后mAP和Rank-1均有提升,在conv5_x后加入SA模塊性能可以達到最優.

Table 4 Experimental Results after Adding Spatial Attention(SA) Module to Different Layers of the ResNet-50表4 將空間注意力(SA)模塊加入ResNet-50網絡的不同層后的實驗結果 %
接下來,本文嘗試在模型中使用3種不同的姿態估計算法,分別是OpenPose[41],HR-Net[42],AlphaPose[38].對模型分別在2個不同的數據集Occluded-DukeMTMC和Partial-REID上進行測試,實驗結果如表5所示.由表5可以看出,3種算法精度相近,最終本文采用了表現更好的AlphaPose.

Table 5 Performance Comparison of Pose Estimation Algorithms表5 姿態估計算法的性能比較 %
如式(5)所示,本文設置了一個閾值λ過濾掉置信度比較低的關鍵點以消除遮擋區域.圖3中展示了不同閾值的設置在不同的數據集上對于辨識精度的影響.由圖3可知,當閾值太小或太大時,性能較差.這是因為當閾值太小(例如λ=0)時,模型將選擇所有檢測到的標志,這樣就達不到利用關鍵點消除遮擋的目的,當利用存在遮擋區域的信息進行匹配時,將不可避免地帶來噪聲信息;當閾值太大(例如λ=0.7)時,許多標志就會被丟棄,這些被丟棄的標志的對應區域,盡管它們可能沒有任何遮擋,卻被不必要地丟棄了.由實驗結果可以看出,當閾值λ=0.2時,在3個數據集上的精度達到最優.

Fig. 3 Influence of confidence threshold λ on accuracy圖3 置信度閾值λ對精度的影響
圖4展示了水平分塊p的不同設置在不同數據集上對辨識性能的影響.水平分塊p的大小對于分塊特征的粒度有很大的影響.當p=1時,學習到的特征是一個全局特征,此時性能總是比p>1時的精度差,這恰好也證明了對于卷積神經網絡提取到的特征進行分塊的必要性;當p增加到3時,SAPE模型性能達到最優;當p>3時,性能開始緩慢下降.這是因為當分塊數目過多時,一些未遮擋的部分可能不包含任何關鍵點,由于在式(5)中對應的置信度為0,在匹配時該區域將被過濾掉.

Fig. 4 Influence of horizontal partitioning p on accuracy 圖4 水平分塊p對精度的影響


Fig. 5 Loss function declines on Occluded-DukeMTMC dataset圖5 在Occluded-DukeMTMC數據集上損失函數 下降曲線圖
圖6展示了在這3個數據集上測試時Rank-1精度的上升曲線.由圖6中可以看出,模型精度在100個批次以后變化比較緩慢,在120個批次左右時基本上趨于穩定狀態,因此在網絡訓練時我們的模型總的訓練批次設置為120個批次.而在不同的數據上測試時,在60個批次左右均已經達到了比較高的分類精度,并且在前60個批次訓練過程中損失下降速度較快,60個批次以后緩慢上升并逐漸趨于穩定狀態,說明整個模型的收斂性能比較理想.

Fig. 6 Increasing curve of test accuracy on different datasets圖6 不同數據集上測試精度的上升曲線圖
為了更加直觀地感受本文的注意力機制,圖7展示了本文利用梯度響應對PCB基線模型和我們的SAPE模型進行定性分析的可視化結果.梯度響應可以識別出網絡模型認為相對重要的區域.圖7中可以清楚地看到本文提出的SAPE模型能夠更加精確地關注到未被遮擋的區域,對比PCB基線模型展現了更好的效果.

Fig. 7 Visualization results of PCB and SAPE according to gradient response圖7 PCB和SAPE根據梯度響應的可視化結果
本文提出了一種集成空間注意力和姿態估計的遮擋行人再辨識模型SAPE,解決了行人再辨識中的遮擋問題.利用空間注意力機制從全局特征中挖掘更具辨識度的細粒度特征,并運用姿態估計提取圖像中行人的關鍵點信息后與細粒度的注意力特征圖相融合,從而消除遮擋對再辨識結果的影響,并且增加了一個局部特征匹配的子網絡,實現了特征的多細粒度表示.通過多個實驗分析驗證,本文的模型針對遮擋的行人再辨識具有不錯的辨識精度.接下來的工作將對結合姿態估計的遮擋行人再辨識模型進行進一步研究,通過抑制背景干擾、利用圖卷積挖掘深層次語義信息等提高遮擋行人再辨識的準確率.
作者貢獻聲明:楊靜提出選題,設計研究方案,實施研究過程,采集整理數據,撰寫和修訂論文;張燦龍設計研究方案和論文框架,修訂論文;李志欣設計研究方案,提出指導性建議;唐艷平指導論文寫作.