



摘要:文搜圖行人重識別旨在通過給定的文本從行人圖庫中檢索目標人物,主要挑戰是學習自由視角(姿勢、照明和相機視點)的圖像和自由形式的文本的魯棒特征。然而,由于在文本描述和行人圖像中存在對行人屬性挖掘的不足,在細粒度上因為細節的差異從而影響了文本描述到行人圖像的檢索性能。因此,研究提出了基于屬性依存增強的文搜圖行人重識別。首先,從文本描述解析出依存關系,并轉化為依存矩陣。其次,設計了一個基于自注意力的屬性干預模塊用來融合文本特征和依存矩陣,得到屬性增強的文本特征,此時文本特征經過干預,更為關注屬性信息。最后,文本特征與圖像特征參與訓練,讓整個網絡對屬性的挖掘更為敏感。在兩個數據集CUHK-PEDES和ICFG-PEDES上進行實驗,證明了提出的模型的有效性。
關鍵詞:文搜圖行人重識別"自注意力機制"句法依存"自由視角
中圖分類號:TP391
Text-to-Image"Person"Reidentification"Based"on"Attribute"Dependency"Augmentation
XIA"Wei""YUAN"Xinpan
Hunan"University"of"Technology,"Zhuzhou,"Hunan"Province,"412000"China
Abstract:"Text-to-Image"Person"Reidentification"(TIPR)"aims"to"retrieve"a"target"person"from"a"pedestriannbsp;gallery"with"a"given"text,"and"its"main"challenge"is"to"learn"the"robust"features"of"free-view"(posture,"lighting"and"camera"viewpoint)"images"and"free-form"texts."However,"due"to"the"lack"of"pedestrian"attribute"mining"in"text"descriptions"and"pedestrian"images,"the"retrieval"performance"from"text"descriptions"to"pedestrian"images"is"affected"by"differences"in"details"in"fine"granularity."Therefore,"this"study"proposes"TIPR"based"on"Attribute"Dependency"Augmentation"(ADA)."Firstly,"it"analyzes"dependencies"from"text"descriptions"and"transforms"them"into"dependency"matrixes."Then,"it"designs"an"attribute"intervention"module"based"on"self-attention"to"fuse"text"features"and"dependency"matrixes"and"obtains"attribute-augmented"text"features"which"are"more"concerned"about"attribute"information"after"intervention."Finally,"it"allows"text"features"and"image"features"participate"in"training,"making"the"whole"network"more"sensitive"to"attribute"mining."Experiments"on"two"datasets"CUHK-PEDES"and"ICFG-PEDES"demonstrate"the"effectiveness"of"the"proposed"model.
Key"Words:"Text-to-Image"Person"Reidentification;"Self-attention"mechanism;"Syntactic"dependency;"Free"view
文搜圖行人重識別(Text-to-Image"Person"Reidentification,TIPR)旨在通過給定的文本從行人圖庫中檢索目標人物,其主要挑戰是學習對自由視角(姿勢、照明和相機視點)的圖像和對自由形式的文本具有魯棒性的特征,相比于圖搜圖行人重識別,TIPR更具有挑戰性。現在主流的方法[1-4]之一是利用屬性作為一種手段來表示數據的語義,屬性作為TIPR的軟生物特征,是人類可理解的語義概念,例如性別、年齡、服裝描述。因為模態不變的特性,屬性可以作為文本模態和視覺模態之間數據語義的良好媒介。
盡管現有利用屬性的方法都取得了不錯的性能,但基本上是通用的跨模態檢索方法的變種,有時對于具有豐富語義的TIPR任務來說并不是最優的解決方案。針對上述存在的技術問題,提出了基于屬性依存增強(Attribute"Dependency"Augmentation,ADA)的TIPR方法,使用依存關系的先驗知識挖掘屬性信息來增強語義特征,以額外的行人屬性特征作為關鍵信息優化檢索性能。
1"方法
1.1"數據預處理
對行人圖像進行數據增強,并將其轉化為張量并歸一化后再進行標準化,得到關于的多樣化樣本,然后將饋送到ResNet中,得到圖像特征。
通過自然語言處理工具SpaCy將進行分詞,得到分詞結果,表示詞的數量。通過Word2Vec將中的每個詞映射到對應的詞向量,得到。然后將饋送到文本提取器BiLSTM中,處理從到以及到的詞向量,對于詞向量有:
其中,,分別表示第個詞向量的前向和后向隱藏狀態。于是得到關于的特征,則對于有文本特征。
通過SpaCy對進行依存分析得到,對于中的每個詞根據"計算其父詞到每個詞的依存距離,有數組;對于根節點即無父節點上的詞,計算到本身的依存距離,進一步計算得到從轉化的矩陣。映射到以為中心,方差為的高斯分布上,得到依存矩陣。如下所示:
1.2"屬性干預
受工作[5]啟發,引入自注意力網絡將和融合,并設置個注意力頭,關于第個注意力頭如圖2所示。對于每個詞特征,經過3個可學習的權重矩陣分別得到3個向量,具體如下。
進一步對于得到。
為避免中索引的使用沖突,對應為,計算對應的點積并除以縮放因子,得到一個表示對的注意力程度的注意力分數。
進而得出注意力權重矩陣,將和做哈達瑪積并通過Softmax函數映射,有:
然后將和進行矩陣乘法,得到關于的注意力輸出。如下所示:
將個注意力頭輸出的拼接,最終得到文本特征。
在這一維度上,對和做最大池化處理,得到分別得到文本嵌入和圖像嵌入。都經過一個的共享權重矩陣做矩陣乘法,用以縮小文本模態和視覺模態之間的語義鴻溝,得到最終的文本嵌入和圖像嵌入。公式如下所示:
1.3"損失計算
進行分類損失的計算時,給定行人標簽,做獨熱編碼處理,得到
文本嵌入和圖像嵌入饋送到作為預測頭的一層全連接,并預測行人概率,對應預測的行人概率為,對應預測的行人概率為,和的表達式分別為:
都為對每個行人預測的一組概率值,表示訓練集中行人唯一標簽的總數。最終,分類損失的計算公式為:
排名損失基于三元損失進行計算,公式為:
為正樣本對,為隨機選取的負樣本,為余弦相似度計算。總損失計算表示為。
2"實驗結果與分析
2.1"實驗準備
為了驗證我們方法的有效性和準確性,在公開的主流數據集CUHK-PEDES和ICFG-PEDES上進行實驗。
批量大小為64,訓練次數為60,初始學習率為0.001,并使用Adam優化器。
在測試集上,我們使用Rank-1、Rank-5、Rank-10作為評價指標,分別表示查詢結果中前一、前五、前十張圖像與文本描述屬于同一個行人的概率。
2.2"對比實驗
我們方法與近年來的一系列先進的TIPR方法在兩個主流的數據集上進行比較,具體實驗結果如表1所示。從表中可以觀察到以前的方法都取得了不錯的精度,但這些方法仍存在著缺少對文本描述的深層結構細節的關注。我們方法將依存關系作為一種在文本模態的數據增強手段,顯式地干預對屬性的關注從而提取關鍵線索。在CUHK-PEDES和ICFG-PEDES的Rank-1上本方法有著更高的精度,且Rank-5和Rank-10也有著不錯的競爭性。
2.3"屬性依存的合理性
從詞性和依存距離的關系上解釋屬性依存增強的有效性。如圖3所示,橫坐標表示某一詞性的數量,縱坐標表示依存深度。圖中可以明顯觀察到修飾屬性(ADJ)和名詞屬性(NOUN)在有著最多單詞數量的同時,還有著較高的依存深度。這就意味著,利用屬性依存增強策略干預模型關注到文本更深層次的依存結構時,往往關注到修飾屬性和名詞屬性,這對于利用行人屬性表示數據語義的文搜圖行人重識別來說,是有利于提取語義特征的。
3"結論
在本文中,提出了一種基于屬性依存增強的文搜圖行人重識別方法,為該領域提供了一種利用依存關系干預模型對行人屬性關注的思路。在實驗中,與其他方法相比,本文提出的模型在Rank1、Rank5和Rank10的評價指標上均有競爭性。另外,還從依存深度的角度上,解釋了屬性依存增強的合理性。在未來的研究工作中,將繼續探索該方法在通用的跨模態領域的有效性。
參考文獻
[1] ZHANG"J"F,NIU"L,ZHANG"L"Q."Person"re-identification"with"reinforced"attribute"attention"selection[J]."IEEE"Transactions"on"Image"Processing,2020,30:"603-616.
[2] 王繼民.融合行人屬性信息的行人重識別研究[J].集成電路應用,2023,40(12):420-424.
[3] 陳琳."跨模態行人重識別研究[D].濟南:山東大學,2023.
[4] 王玉煜."基于語言信息的行人重識別算法研究[D].大連:大連理工大學,2021.
[5] BUGLIARELLO""E,"OKAZAKI"N."Enhancing"machine"translation"with"dependency-aware"self-attention[C]//Annual"Meeting"of"the"Association"for"Computational"Linguistics,2019:"1618–1627.