蔣若輝 楊淇 黃煒智
(河北大學網絡空間安全與計算機學院 河北省保定市 071000)
行人重識別(Person re-identification)是一個非常實用的研究方向,可以廣泛應用于監控、安全、刑事偵查等領域[1]。行人重識別任務是指給定一個行人,然后在不同的地點、時間和攝像機中檢索出目標行人。近年來,行人重識別技術有了很大的發展,但還沒有達到可以實際應用的水平。主要原因是行人重識別需要解決圖像和視頻的分辨率、人體姿態、人體尺度、人體遮擋、光照等因素帶來的問題,使得我們很難對于不同攝像頭下的多姿態行人進行準確的識別。
目前,主流解決的方案是基于圖像的人物識別,包括表征學習和距離度量學習。對于表征學習,我們已經從傳統的手工設計的特征過渡到深層神經網絡,它可以學習更多的區分性特征。目前,在行人重識別任務中,除了提取全局特征外,人們更關注于圖像的局部特征。例如,早期采用了一些硬部件方法,后來發展到自適應部件方法,然后發展到部件檢測的方法。提取特征的魯棒性也逐漸增強。距離度量學習的目標是學習一個合適的特征空間,其中屬于一個人的特征向量非常接近,而屬于不同人的特征向量相距很遠。然而,基于圖像的識別方法只能提取空間特征,獲取的特征單一,無法解決遮擋問題。此外,現有的人體識別模型大多是獨立地從不同的人體部位獲取特征,缺乏人體部位之間存在的聯系。
圖神經網絡近些年發展迅猛,在圖上使用卷積運算,將神經網絡應用于非歐幾里得數據進行特征學習。圖模型匹配與傳統序列形式的特征匹配相比具有較強的靈活性,對于物體多視角,圖像畸變,物體多態,物體遮擋等以往不好解決的因素,具有一定的特殊優勢。
本文提出了一種新的特征提取方式,使被遮擋的部分特征接近中心特征,從而在一定程度上消除了遮擋等問題帶來的復雜因素問題。我們在Occluded-DukeMTMC 數據集上進行了實驗,實驗表明,圖神經網絡在遮擋行人重識別任務中可以發揮很大的作用。
卷積神經網絡(Convolutional Neural Networks,CNN)。卷積神經網絡是一種特殊的神經網絡,近年來被廣泛認為是計算機視覺領域的最佳技術之一[2]。卷積神經網絡通過使用多個非線性特征提取單元階段性的提取特征進行特征提取,卷積神經網絡能夠從數據中學習不同特征的信息,最后進行整合,得到一張圖像的整體特征。卷積神經網絡具有從原始輸入中自動學習特征的能力,無需使用手工特征,并且卷積神經網絡的參數量較少,使得深層卷積神經網絡的計算具有可能性。后來人們發現,多層卷積神經網絡可以更好的對于特征進行表述,因此誕生了許多深度卷積神經網絡,如經典的ResNet,VGG 網絡。卷積神經網絡發展已經十分成熟,并仍在繼續進步。
近年來,人們在基于圖像的行人重識別研究中提出了大量的模型。隨著神經卷積網絡的發展,特征提取方法已經從最早的人工特征發展到通過深層神經網絡進行更穩健的特征提取。目前主要分為表征學習和距離度量學習兩大類。表征學習使用各種CNN 結構來提取更健壯的特征,例如基于零件的方法。PCB 方法提出了一種合理的劃分策略,可以學習區分零件的特征。對于距離度量學習,將CNN 結構嵌入到深度學習結構中,并共享網絡參數的權值,從而縮小類內差距,增加類間差距。使用三重損失來訓練網絡將同一個人的特征拉近,并將不同人的特征分開。然而,上述方法的缺點是無法解決遮擋問題。在我們提出的方法中,我們基于部件特征對于淺層特征進行圖卷積,使遮擋部位特征盡量趨近于中心特征,再進行深層次的特征提取。
基于零件的模型學習行人不同部位的局部特征,增強了全局行人特征的交叉視圖匹配?;诹慵哪P涂梢院唵蔚貙⑿腥酥啬P椭虚g層的輸出特征映射拆分為幾個水平條紋,并學習每個條紋的局部特征。另一種基于部位的模型將人體分割成有意義的身體部位,并學習每個身體部位的局部特征。但是這種識別方法對于遮擋行人的識別明顯是無意義的,將行人圖像的某一部分與遮擋物體進行匹配,在距離空間中只會越來越遠,在無遮擋的圖像中尚可,但在遮擋圖像中仍有不足之處。
圖神經網絡旨在將神經網絡應用于非歐幾里得數據進行特征學習,圖模型的基本原理考慮了樣本之間的關系,可以很好地應用于有監督訓練和半監督學習,近年來逐漸應用于一些計算機視覺任務中。Kpif 在 2017年提出了圖卷積神經網絡(Graph Convolutional Neural Network,GCN),它為圖結構數據的處理提供了一種嶄新的思路,將卷積神經網絡應用到了圖結構的數據中。
我們得出結論:在行人重識別與圖神經網絡相結合的方法中,圖像中的各個部分被視為圖節點,每個節點之間的關系通過構造圖來表示。在我們的方法中,我們設計了一個新的圖神經網絡來學習最終的行人特征表示。將圖片的每一部分視為一個圖節點,根據其關系構造圖結構。
本文的目的是提出一種基于圖卷積的行人重識別網絡,通過在網絡中增加圖卷積模塊,有效的對于遮擋部分進行處理,使網絡對于遮擋的部分更加敏感。在一定程度上解決了當匹配行人出現遮擋問題時傳統神經網絡無法準確學習特征的問題。
在以往的研究工作中,圖神經網絡利用相鄰節點的信息來更新自身節點的狀態。受這些方法的啟發,我們提出了圖卷積行人重識別網絡,利用人體不同位置的關系來解決行人中遮擋等不可控因素的問題。
根據人體各部位的空間關系提取人體各部位的特征。利用各部分之間的關系建立特征圖。其次,將部位特征嵌入到特征圖的節點中,利用相鄰特征和自身特征的信息更新節點特征。

圖1:圖卷積行人重識別網絡結構
使用親和矩陣來表示行人映射圖中節點和節點之間的相關性,并使用投影度量來計算兩個親和矩陣的距離。最后,利用交叉熵損失對模型進行訓練,以減少人內距離,增加人與人之間的距離。該模塊可以有效地計算高維特征之間的距離,減少或消除遮擋等不可控因素的影響。
如圖1 所示,首先,輸入的行人圖片經過淺層次的卷積提取淺層特征,對于這些淺層特征,若圖像中包含遮擋,則這些被遮擋的部分特征為負特征,對于整體的特征有一定影響,所以將淺層特征經過圖神經網絡聚合后,將遮擋部分的特征進行綜合,自適應地獲得聚合特征節點之間的內在親和結構信息,以達到遮擋不變性。將綜合后的特征再進行深層次的特征提取,最后進行融合全局特征后輸出到全連接層進行識別。
Occluded-DukeMTMC 數據集[3]是一個從DukeMTMC-ReID數據集衍生出來的大規模遮擋的行人重識別數據集。DukeMTMCreID 包含來自702 個人的 16522 個訓練圖像、2228 個查詢圖像和17661 個庫圖像。在原始的DukeMTMC-reID 數據集中,訓練集、查詢集和庫集分別包含14%、15%、10%的遮擋圖像。原始數據集的被遮擋樣本數較少,不適用于評價被遮擋的行人識別方法。在Occluded-DukeMTMC 數據集中,包含一個以上的人或一個被樹或汽車等障礙物遮擋的人的圖像被標注為遮擋圖像,查詢集包含100%的遮擋圖像。因此,在計算查詢圖像和庫圖像之間的成對距離時,總是存在至少一個遮擋圖像。Occluded-DukeMTMC 是迄今為止最大的遮擋行人重識別數據集,它的訓練集包含15618 幅圖像,共包括702 個身份。測試集包含1110 個身份,包括17661 個庫圖像和2210 個查詢圖像。
我們在Occluded-DukeMTMC數據集上評估了我們提出的框架。在對比實驗中,我們提出的框架在Rank-1 評分方面達到了46.9%,顯示了有效性。
Rank-n:
Rank-n 簡單來說就是在置信度最高的n 個結果中有正確結果的概率,例如Rank-1,就是置信度最高的結果正確的概率,Rank-5就是置信度最高的五個預測結果中有正確結果的概率。
mAP:
mAP 為平均準確率,是取所有類別AP 的平均值,衡量的是在所有類別上的平均好壞程度。

表1:實驗數據對比
本文采用Pytorch 框架進行實驗,分別在本文提出的方法,PCB,和傳統卷積神經網絡上進行了實驗。由表1 可知,在Occluded_Duke 數據集上Rank-1 達到了46.9%,mAP 達到了34.1%,并驗證了增加圖神經模塊的優越性。相比于PCB 網絡,本文方法仍具有優越性。
本文提出了一種基于圖神經網絡的行人重識別算法,利用圖像節點相鄰特征傳遞的信息來更新特征。該方法可以對行人各部分之間的關系構造鄰接圖。通過鄰接圖傳遞的信息對每個部分進行聚合,自適應地獲得聚合特征節點之間的內在親和結構信息,為了減少遮擋等不變因素對性能的影響,提出了遮擋不變性的概念,使每個部分特征與整體特征更接近。實驗結果證實本文方法對于遮擋行人重識別的有效性。