楊世欣, 胡曉光, 杜卓群, 周峻林, 謝佳彧
(1 中國人民公安大學 信息與網絡安全學院, 北京 100038; 2 中國人民公安大學 偵查學院, 北京 100038)
行人重識別(Person Re-identification,ReID)是用計算機視覺技術對多個非重疊攝像機下的不同行人進行檢索判斷,從而對固定行人進行跟蹤的一種有效方法,是計算機視覺領域近年來的研究熱點之一,在“平安城市”、“智慧城市”等重大項目建設中扮演著十分重要的角色,具有廣泛的應用前景。 然而攝像機捕獲的行人信息受到視角、光照、分辨率、環境等各種復雜因素的影響,使得大量研究工作都是在尋找魯棒性更強的行人特征。
隨著深度學習在計算機視覺領域的興起,基于深度學習的方法將特征提取和距離度量緊密結合在一起進行行人重識別,極大推動了行人重識別的發展。 依據特征表示方式分為了全局特征和局部特征。 全局特征表示方式是對行人圖像的整體信息進行特征提取。 Wu 等人采用小尺寸卷積濾波器來捕捉行人圖像全局特征中的細粒度信息,提出了“PersonNet”的網絡結構;Zheng 等人提出一種結合 分 類 損 失(identification loss) 和 驗 證 損 失(verification loss)的融合模型,來增強行人圖像特征的表達。 局部特征表示學習是手動或自動地讓網絡去提取圖像的局部特征,最終的特征由多個局部特征融合而成。 常用實現方式有圖像水平切片、姿態點估計、骨架關鍵點定位和人體圖像分割等。 但是通常不會單獨使用局部特征,將互補的全局特征與局部特征融合是目前提高網絡性能的一個重要分支;Su 等人提出一種結合全局和局部特征的解決姿 態 變 化 問 題 的 PDC ( Pose - Driven - Deep Convolutional)模型,利用身體區域線索來學習高效的特征表示以及自適應相似度量;Zhao 等人提出的新型卷積神經網絡SpindleNet,未進行行人對齊,但利用14 個人體關鍵姿態點得到具有語義信息的區域,最終將不同尺度的局部特征與全局特征相融合,該模型是基于人體區域引導多階段特征分解和樹結構競爭特征融合的新構想;Zhang 等人提出的另一種融合方法AlignedReID,先分別計算兩幅行人圖像的全局特征距離和局部特征距離,再加權求和作為最終結果,亮點在于提出基于局部區域之間聯系的動態匹配最小路徑算法,用最短路徑距離來進行低成本的對齊;在此基礎上,Luo 等人提出AlignedReID + +,采用動態匹配局部信息(DMLI)的方法,不引入額外監督即可自動對齊切片,解決行人不對齊問題。
本文在AlignedReID + +基礎上,對特征提取模塊進行改進。 以Resnet50 為基礎,通過引入跨維交互注意力Triplet Attention 來捕捉空間維度和通道維度之間的交互作用;引入一個基于空間特性的視覺激活函數Funnel ReLU,解決激活函數的空間不敏感問題。
AlignedReID + +算法主要由特征提取和相似度度量兩部分組成。 在提取特征階段,把原始大小為256×128 的行人圖像通過ResNet50 網絡進行特征提取,將提取到的特征分別輸送給全局分支和局部分支;在相似度度量階段,分別計算提取的全局特征和局部特征之間的距離。 全局距離即全局分支提取到的全局特征的2 距離,式(1):

其中:d為圖像中第個垂直部分和圖像中第個垂直部分之間的距離,為距離矩陣。
兩幅圖像間的局部距離則定義為矩陣中最短路徑從(1,1)到(,)的總距離。 可以通過動態規劃計算,式(3):

其中:S是距離矩陣從(1,1) 到(,) 的最短路徑的總距離,S代表兩幅圖像之間最終最短路徑的總距離,即局部距離,式(4):

可將兩幅圖像間總距離表示為局部距離與全局距離之和,式(5):

其中:(,) 為局部距離,為平衡全局距離與局部距離的權重系數,此處取值為1。
訓練過程中選用TriHard 損失作為度量學習的損失,同時全局分支中使用Softmax 損失來進行多分類,則AlignedReID + +的總體損失函數,式(6):

本文對AlignedReID + + 模型框架進行改進,如圖1 所示。
(1)將跨維交互注意力(Triplet Attention,TA)模塊引入到特征提取網絡ResNet50 中,使模型更加關注行人圖像中的關鍵區域,抑制無關特征。
(2)引入基于空間特性的視覺激活函數Funnel ReLU,通過增加一個空間條件,緩解激活函數的空間不敏感問題。
注意力機制(Attention Mechanism)的目標是從大量的信息中篩選出對當前任務更有效的細節信息。 本 文 通 過 引 入 Triplet Attention 模 塊 對AlignedReID + +中的特征提取網絡ResNet50 進行改進,使模型更加關注行人圖像中的關鍵區域。Triplet Attention 是一個幾乎無參數、且不涉及任何降維的廉價且有效的注意力機制。 其原理是一種基于三分支結構的跨維度交互(cross dimension interaction)計算注意力權重的新方法,即通過3 個分支分別捕獲輸入張量的(,)、(,) 和(,) 之間的依賴關系。 網絡結構如圖2 所示。

圖1 基于AlignedReID + +改進的行人重識別框架圖Fig. 1 Improved person re-identification framework based on AlignedReID + +

圖2 Triplet Attention 網絡結構圖Fig. 2 Network structure diagram of Triplet Attention
給定一個輸入張量∈?,首先,把輸入傳遞給3 個分支:



最終對3 個分支的所有輸出特征進行匯總求平均值。
將跨維度交互的Triplet Attention 模塊引入到特征提取網絡ResNet50 中,使其提取到的行人特征更具有代表性和泛化性。
激活函數可通過加入非線性因素來解決線性模型表達能力不足的問題。 廣泛使用的ReLU、PReLU、Leaky ReLU 等激活函數在語義分割中表現出了對空間信息的不敏感,不能很好的捕捉圖片中的空間信息。 針對這個問題,本文引入了一種新的基于空間特性的視覺激活函數Funnel ReLU(FReLU),通過簡單的增加一個空間條件,將ReLU函數擴展為2D 激活函數,解決了激活函數的空間不敏感問題,且增加的計算開銷不大,如圖3 所示。

圖3 激活函數示意圖Fig. 3 Schematic diagrams of activation function
FReLU 采用與ReLU 函數相同的max(·), 即使用max(·) 來獲得和條件之間的最大值,并通過添加一個視覺漏斗條() 將其擴展到2D。
FReLU 的表達式(7)~(8):

FReLU 函數擁有像素級的空間布局能力,通過在激活函數中使用空間條件,將原始ReLU 更新為一個具有了自適應獲取圖像局部上下文能力且形式又簡單的激活函數,可以輕易的提取圖像的空間結構,更加提升了激活函數在行人重識別任務中的精度和魯棒性。
為了評估本文所提出的方法,選取行人重識別研究中3 個主流數據集:Market1501、DukeMTMCreID、CUHK03。 CUHK03 數據集使用5 對攝像頭進行采集,包括1 467 個不同的行人和13 164 張圖片;Market1501 數據集包括由6 個攝像頭拍攝到的1 501個行人、32 668 個檢測到的行人矩形框。 其中訓練集有751 個行人、12 936 張圖像,測試集有750個行人、19 732 張圖像;DukeMTMC-reID 數據集包括1 404 個行人、36 411 張圖像,其中訓練集有702個行人、16 522 張圖像,測試集有702 個行人、17 661張圖像。
本實驗在GeForce RTX2080Ti GPU 服務器上搭建了基于PyTorch 的深度學習框架,選擇ResNet50作為Backbone。 先將圖片分辨率統一為256×128,然后進行隨機擦除等方法及歸一化處理,最后將處理過的特征輸入到網絡中;訓練共進行300 輪,batchsize 設置為32,初始學習率設置為0.000 2,并且學習率在第150 個epoch 時進行衰減,衰減系數為0.1。 Triplet hard loss 中margin 設置為0.3。
為了驗證引入的TA 模塊和FReLU 激活函數的有效性,將改進后的模型在CUHK03、Market1501 和DukeMTMC-reID 3 數據集上進行訓練和測試,并遵循通用的評價標準,利用累計匹配特性(Cumulative Match Characteristic Curve,CMC)曲線中的首位命中率1 和平均精度均值(mean Average Precision)兩個最常用的性能評價指標對網絡性能進行評測。 全部實驗均采用單幀查詢模式,采用全局距離加局部距離的結果(Global + DMLI),以及再排序(Re-ranking,RK)后的結果。
將TA 注意力模塊加入到Baseline 網絡中,實驗結果見表1。 由表1 可以看出,模型在3 個數據集上性能均有所提升。 在Market1501 數據集上1 達到了91.9%,達到了79.8%,分別提升了0.9%和2.2%。 在DukeMTMC-ReID 數據集上性能相差不多,但1 也是達到了81.2%,提升了0.5%。在CUHK03 數據集上1 達到了62.9%,達到了60.1%,分別提升了2.0%和0.4%。經過RK 后,效果尤其明顯。 在Market1501 數據集上1 和分別提升了1.3%和1.9%。在DukeMTMC-ReID 數據集上1 和分別提升了0.9%和1.6%。 在CUHK03 數據集上1和分別提升了2.7%和2.9%。 實驗證明嵌入TA注意力模塊可以顯著提升模型的效能。
將FReLU 模塊加入到Baseline 網絡中,實驗結果見表2,可以看出對激活函數進行改進之后,模型在3 個數據集上性能同樣得到了顯著的提升。 在Market1501 數據集上1 達到了91.5%,達到了79.6%,分別提升了0.5%和2.0%。 在DukeMTMC-ReID 數據集上1 達到了82.0%,達到了69.1%,分別提升了1.3%和1.1%。 在CUHK03 數據集上性能相差不大,但1 也達到了61.1%,提升了0.2%。 經過RK 后,提升效果更為明顯。 在Market1501 數據集上1 和分別提升了1.0%和1.4%。 在DukeMTMC-ReID 數據集上1 和分別提升了1.4%和2.1%。在CUHK03 數據集上1 和分別提升了2.2%和1.9%。 實驗證明采用視覺激活函數可以顯著提升模型的效能。

表1 基于TA 模塊改進的實驗結果Tab. 1 Improved experimental results based on TA module %

表2 基于FReLU 模塊改進的實驗結果Tab. 2 Improved experimental results based on FReLU module %
將改進后的模型與現有模型進行比較,見表3。改進后的模型在Market1501、DukeMTMC-ReID、CUHK03 數據集上的性能均有顯著的提升。 綜上,本文提出的改進方法在行人重識別問題中效果顯著。

表3 實驗結果對比Tab. 3 Comparison of experimental results %
本文通過改進AlignedReID + +網絡模型,提出了一種基于跨緯度交互注意力機制的行人重識別方法。 在AlignedReID + +基礎上,向特征提取部分嵌入跨緯度交互注意力機制TA 模塊,使網絡模型更關注于圖像關鍵特征信息,得到更具魯棒性的行人特征;同時采用基于空間特性的視覺激活函數FReLU,通過增添一個空間條件,解決激活函數空間的不敏感問題;最后,與行人重識別最新方法對比,通過在Market1501、DukeMTMC-ReID、CUHK03 數據集上進行效能評估實驗,可以看到改進后的模型魯棒性更強、精確性更高。