999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動態(tài)雙注意力機制的跨模態(tài)行人重識別模型

2022-11-08 12:43:26李大偉曾智勇
計算機應(yīng)用 2022年10期
關(guān)鍵詞:模態(tài)特征模型

李大偉,曾智勇*

(1.福建師范大學 計算機與網(wǎng)絡(luò)空間安全學院,福州 350117;2.福建師范大學 數(shù)字福建大數(shù)據(jù)安全技術(shù)研究所,福州 350117)

0 引言

行人重識別是跨越多個不重疊監(jiān)控攝像機檢索特定行人圖像的技術(shù)。目前,絕大多數(shù)研究者關(guān)注的是可見光下的行人重識別問題,并取得了較大進展。然而,由于成像機制不同,跨模態(tài)圖像模態(tài)間存在巨大差異,跨模態(tài)行人重識別技術(shù)面臨巨大挑戰(zhàn),解決該問題對公共安全和刑偵有著非常重要的現(xiàn)實意義,對加強社會管理、預防犯罪行為發(fā)生、維護國家安全等方面具有廣闊的應(yīng)用前景[1]。

相較于單模態(tài)行人重識別來說,跨模態(tài)行人重識別由于行人在不同模態(tài)下圖像之間的差異比在各自單模態(tài)下的差異大得多,如圖1 所示,圖1(a)關(guān)注的是可見光到可見光之間圖像的匹配,而圖1(b)關(guān)注的是紅外到可見光之間圖像的匹配,因此,對于跨模態(tài)行人重識別來說,直接應(yīng)用這些單模態(tài)方法效果不佳。

現(xiàn)有的大多數(shù)方法是通過特征對齊的方式對圖片進行預處理,再通過一個單流網(wǎng)絡(luò)或雙流網(wǎng)絡(luò)去學習不同模態(tài)的可共享的特征表示。如Ye等[2]將可見光圖像的三個通道逐像素做線性累加,得到輔助的灰度圖像,然后將三種模態(tài)的圖像經(jīng)過一個參數(shù)共享的單流網(wǎng)絡(luò),學習不同模態(tài)間共享的特征表示。其他一些學者通過對抗生成網(wǎng)絡(luò)(Generative Adversarial Network,GAN)生成某種模態(tài)對應(yīng)的另一模態(tài)的圖像來減小不同模態(tài)間的差異。如Dai等[3]首次把GAN 運用在跨模態(tài)行人重識別上,并提出了一個具有交叉模態(tài)三重損失的對抗生成訓練框架,以共同區(qū)分不同身份和模態(tài)。Wang等[4]提出一種對齊生成對抗網(wǎng)絡(luò)(Alignment Generative Adversarial Network,AlignGAN),利用像素對齊和特征對齊學習到對鑒別不同身份有益的特征。然而,這種全局特征學習的方法對背景中的噪聲格外敏感,不能較好地解決模態(tài)差異問題。此外,一些學者也積極地將注意力機制運用到行人重識別中。如Ye等[5]設(shè)計了一個動態(tài)雙注意力聚合(Dynamic Dual-attentive AGgregation,DDAG)學習模型,該模型包括模內(nèi)加權(quán)部分聚合(Intra-modality Weighted-Part Aggregation,IWPA)模塊和跨模態(tài)圖形結(jié)構(gòu)化注意力(Crossmodality Graph Structured Attention,CGSA)模塊。IWPA 的目標是通過同時挖掘每個模態(tài)中行人身體不同部位之間的上下聯(lián)系,得到一個具有區(qū)分度的局部聚合特征表征。CGSA利用不同模態(tài)圖像特征的鄰近結(jié)構(gòu)關(guān)系去學習兩個模態(tài)的全局特征,結(jié)合兩種模態(tài)之間的結(jié)構(gòu)關(guān)系去加強特征表達能力。但對于跨模態(tài)行人重識別來說,由于有限的樣本和模態(tài)間存在較大的模態(tài)差異,神經(jīng)網(wǎng)絡(luò)在學習中很容易被噪聲樣本污染從而造成不穩(wěn)定。

為了解決上述問題,受Ye等[2,5]方法的啟發(fā),本文提出了一個新的跨模態(tài)行人重識別模型。為了在有限樣本中學習到充分的特征信息,在模型開始的輸入部分,輸入兩組圖片分別對同一個網(wǎng)絡(luò)進行訓練:第一組圖像是可見光和紅外圖像的組合;第二組圖像加入了通過齊次增強方式生成的可見光圖像對應(yīng)的灰度圖像。這些灰度圖像保留了可見光圖像的結(jié)構(gòu)信息,由于紅外圖像不包含任何顏色信息,因此結(jié)構(gòu)信息對跨模態(tài)匹配是至關(guān)重要的。此外,經(jīng)過灰度化的圖像在風格上更加接近紅外圖像,這對于拉近可見光和紅外圖像的特征分布是有益的[2]。其次,為了縮小同一個行人的不同模態(tài)圖像特征間差異,提出了適用于三個模態(tài)間圖像的加權(quán)六向三元組排序(Weighted Six-Directional triple Ranking,WSDR)損失,該項損失充分利用了所找出的硬三元組中的信息,整體優(yōu)化了不同模態(tài)間特征的相對距離,提高了對模態(tài)變化的魯棒性,從而改善跨模態(tài)行人重識別的性能。

本文的主要工作如下:

1)提出了一個新的跨模態(tài)行人重識別網(wǎng)絡(luò)模型,通過利用齊次增強的灰度圖像進行多模態(tài)學習,進一步提升網(wǎng)絡(luò)模型的性能。

2)為多視圖檢索提出了一個加權(quán)六向三元組排序損失,有效縮小了同一行人不同模態(tài)間圖像特征在特征空間中的距離,從而減少了模態(tài)間差異。

3)通過大量實驗來分析驗證所提模型的有效性,為未來的研究提供了一個有效提升模型性能的方式。在兩個公共跨模態(tài)(可見光-紅外)數(shù)據(jù)集上均取得了較高的識別準確率。

1 相關(guān)工作

1.1 單模態(tài)行人重識別

單模態(tài)行人重識別是對不同單模態(tài)攝像機拍攝到的行人圖像進行匹配的過程。但是,由于在不同的場合下行人的姿態(tài)、著裝、遮擋以及光照等變化都會對匹配產(chǎn)生較大的影響,最終造成識別精度的降低。開始階段的研究工作主要通過利用方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征[6]、尺度不變特征變換(Scale Invariant Feature Transform,SIFT)特征[7]、Gabor 特征[8]以及局部二值模 式(Local Binary Pattern,LBP)[9]等方法,使用人工的方式進行行人特征提取,再利用相對距離比較(Relative Distance Comparison,RDC)[10]、大邊際鄰近(Large Margin Nearest Neighbor,LMNN)[11]分類、交叉視角的二次判別分析(Crossview Quadratic Discriminant Analysis,XQDA)[12]、概率相對距離比較(Probabilistic Relative Distance Comparison,PRDC)[13]、局部Fisher 判別分析(Local Fisher Discriminant Analysis,LFDA)[14]等算法進行度量學習。然而,由于人工提取特征的效率限制,已無法適應(yīng)當前大數(shù)據(jù)的特征提取任務(wù)。隨著深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)和發(fā)展,有學者將其運用到了行人重識別中,取得了較好的效果。已有的工作通過全局特征[15-16]或部分特征學習[17-19]在端到端的深度學習模型上取得了較高的準確率;然而,這些方法通常無法處理跨模態(tài)圖像間的模態(tài)差異,從而無法應(yīng)用到跨模態(tài)行人重識別上。

1.2 跨模態(tài)行人重識別

跨模態(tài)行人重識別旨在解決不同種模態(tài)圖像之間的行人匹配問題,例如紅外圖像到可見光圖像之間的匹配識別[20-21]、圖像和文本描述等非視覺數(shù)據(jù)之間的匹配[22]、可見光圖像與素描圖像之間的匹配[23]等。

對于可見光到紅外的行人重識別,Wu等[24]提出了一種深度零填充的方法,解決了圖像結(jié)構(gòu)不同無法用同一神經(jīng)網(wǎng)絡(luò)訓練問題。Ye等[25]設(shè)計了一個雙流網(wǎng)絡(luò)來學習多模態(tài)可共享特征,同時處理具有雙重約束的跨模態(tài)高階損失和模態(tài)內(nèi)變化。Zhu等[26]提出了異質(zhì)中心(Hetero Center triplet,HC)損失,通過約束兩個異質(zhì)模態(tài)之間的類內(nèi)中心距離來監(jiān)督網(wǎng)絡(luò)學習跨模態(tài)圖像間的不變信息,以減少類內(nèi)交叉模態(tài)的變化。Hao等[27]提出了一種端到端的雙流超球面流形嵌入模型來約束模態(tài)內(nèi)和模態(tài)間的變化。此外,一些方法還利用特定模態(tài)分類器的優(yōu)勢來促進特征學習[28-29];然而,這些方法通常側(cè)重于學習全局特征表示,而忽略了行人之間具有區(qū)分度的局部特征及同一行人不同模式圖像之間的潛在關(guān)系。

近兩年來,隨著對抗生成網(wǎng)絡(luò)(GAN)的不斷發(fā)展,該技術(shù)也被運用到跨模態(tài)的行人重識別中。Wang等[20]提出一種雙層差異減少方法,利用GAN 生成可見光(紅外)圖像對應(yīng)的紅外(可見光)圖像,形成統(tǒng)一的多光譜圖像,減少了模態(tài)間差異。Wang等[4]提出一種對齊生成對抗網(wǎng)絡(luò),該模型由像素對齊模塊、特征對齊模塊和聯(lián)合鑒別器組成,可以聯(lián)合利用像素對齊和特征對齊。這樣不僅能夠緩解模態(tài)間和模態(tài)內(nèi)的變化,而且能夠?qū)W習到基于身份的一致性特征。目前來說盡管GAN 在跨模態(tài)行人重識別中取得了一定的成功,但訓練GAN 模型非常困難,需要消耗大量的計算資源。同時,利用GAN 生成新圖像時容易引入噪聲,影響跨模態(tài)行人重識別的精度。相比之下,通過線性累加可見光圖像三個通道像素得到的灰度圖像就會避免上述問題,并且生成的灰度圖像還很好地保留了原始圖像的結(jié)構(gòu)信息。

1.3 注意力機制

注意力機制已經(jīng)廣泛應(yīng)用于各種深度學習應(yīng)用中,以增強數(shù)據(jù)的特征表示。對于行人重新識別研究來說,注意力機制被用來組合來自不同視頻幀的時空信息[30]。一些工作[31]還研究了使用多尺度或不同的卷積通道來捕獲像素級或小區(qū)域級關(guān)注。Yin等[32]提出了局部注意機制,通過一個可學習的轉(zhuǎn)換函數(shù)來細化局部聚合特征,以考慮一個人不同身體部位之間的重要性。然而,這些注意力機制對于較大的交叉模態(tài)差異和噪聲,可能無法取得較好的效果。

2 本文方法

本文基于數(shù)據(jù)增強和注意力機制提出了一個新的跨模態(tài)行人重識別模型,整體網(wǎng)絡(luò)框架如圖2 所示。

2.1 多輸入的跨模態(tài)行人重識別

在本文模型中,為神經(jīng)網(wǎng)絡(luò)模型輸入了兩組圖像,其中一組是由可見光和紅外圖像組合而成,另一組由可見光圖像、紅外圖像和由可見光圖像生成的灰度圖像組成。兩組圖片都參與標簽損失與三元組損失的計算,這樣就充分利用了有限的圖像資源學習到更加優(yōu)秀的圖像特征。該網(wǎng)絡(luò)是采用了單流網(wǎng)絡(luò)與雙流網(wǎng)絡(luò)相結(jié)合的方式,用以提取和合并不同模態(tài)圖像的特征。在早期為了學習到不同模態(tài)圖像間具有區(qū)分度的特征,采用了雙流網(wǎng)絡(luò);不同流中的卷積模塊的網(wǎng)絡(luò)參數(shù)是獨立的,從而可以更好地捕獲到具有特定形態(tài)的低級模態(tài)特征。由于可見光圖像和灰度圖像在結(jié)構(gòu)信息上更加地相似,因此將可見光和灰度圖像送入同一個網(wǎng)絡(luò)流中進行學習。區(qū)別于前面兩種圖像,紅外圖像的特征更加獨特,因此讓其單獨通過一個網(wǎng)絡(luò)流。為了學習到不同模態(tài)之間可以共享的特征,對網(wǎng)絡(luò)后面的卷積模塊進行了參數(shù)共享。在獲取到卷積特征并將其通過全局平均池化后,增加一個共享的批量歸一化層來學習共享特征嵌入。

對于可見光圖像的灰度化,直接將可見光的R、G、B 三個通道的像素進行累加,從而得到增強數(shù)據(jù)。與運用GAN的方法相比,這種生成圖片的方式基本不會額外增加訓練時間,這種數(shù)據(jù)增強的方式也不會額外地引入噪聲,從而降低模型訓練的效果。

2.2 同質(zhì)和異質(zhì)共享多模態(tài)分類器

2.2.1 模態(tài)共享身份分類器

模態(tài)共享身份分類器為三種不同的模態(tài)特征學習一個共享分類器θp。表示使用θp分類器將可見光圖像特征預測成圖像標簽為yi的輸出概率。相同地,和分別代表了灰度圖像和紅外圖像特征,其中上標{v,r,g}表示模態(tài)的索引。假設(shè)每個訓練批次包含了n個可見光圖像、n個齊次增強的灰度圖像和n個紅外圖像,則標簽損失表示如下:

2.2.2 齊次不變正則化

為了增強對模態(tài)變化的魯棒性,本文引入了齊次不變正則化[2]。其主要思想是原始可見圖像和均勻增強灰度圖像的特征通過特征網(wǎng)絡(luò)提取后保持不變[2]。具體來說,采用平滑L1 損失作為正則化:

其中:B表示當前批次圖像集合表示身份標簽為i的可見光圖像通過神經(jīng)網(wǎng)絡(luò)得到的特征向量表示身份標簽為i的灰度增強圖像通過網(wǎng)絡(luò)得到的特征向量。

將這一部分總的損失稱作雙重同質(zhì)和異質(zhì)識別損失(Dual Homogeneous and Heterogeneous Identification loss,DHHI),則

DHHI 通過兩組輸入充分利用了有限的圖片資源,學習到了更加充分的圖像特征。

2.3 面向多視圖檢索的加權(quán)六向三元組排序損失

本節(jié)介紹了為多視圖檢索設(shè)計的加權(quán)六向三元組排序(WSDR)損失,它優(yōu)化了在跨模態(tài)多視圖檢索間(可見-紅外-灰度)的關(guān)系。

2.3.1 信息三元組挖掘

上述SDR 損失充分利用了不同視角下的跨模態(tài)三態(tài)關(guān)系。它使最遠的交叉模態(tài)正對距離和最近的負對距離之間的相對差異最小化,提高了對模態(tài)變化的魯棒性;SDR 損失使所學到的跨模態(tài)特征更具有可區(qū)分性。

2.3.2 三元組全局加權(quán)

這部分損失僅用在第二組含有3 個模態(tài)圖像的特征上,其中對于第一組的雙模態(tài)輸入的圖像用常規(guī)三元組損失進行計算,記作Ltri。

2.4 注意力機制

目前大多數(shù)跨模態(tài)行人重識別方法傾向于學習全局表征,這使得模型的區(qū)分能力和魯棒性不足;然而,基于局部特征的單模態(tài)行人重識別的方法由于跨模態(tài)的差異而無法得到可靠的局部特征;此外,并且當兩種模態(tài)之間圖像差異變大時,模型的學習容易受到噪聲的干擾而變得不穩(wěn)定。為了解決這些問題,集成了IWPA 模塊[5]和CGSA 模塊[5]來進一步提高模型的識別性能。

1)模態(tài)內(nèi)加權(quán)部分注意力(IWPA)。為了挖掘輸入圖片特征的上下文信息,以形成增強的部分聚合表示,從而應(yīng)對復雜的挑戰(zhàn),本文在上述深度網(wǎng)絡(luò)中加入模態(tài)內(nèi)加權(quán)部分注意力(IWPA)模塊。該模塊首先用一個改進的非局部模塊學習模態(tài)內(nèi)部分注意力,然后用一個可學習的加權(quán)部分聚集策略和殘差歸一化來穩(wěn)定和加強訓練過程,最終得到一個帶有注意力加權(quán)的圖片特征。該部分的損失定義如下:

2)跨模態(tài)圖形結(jié)構(gòu)化注意力(CGSA)。CGSA 通過學習兩個模態(tài)間的結(jié)構(gòu)關(guān)系以加強特征表示。該模塊的主要思想是屬于同一身份的不同模態(tài)圖像的特征表示是互利的。為了引導跨模態(tài)圖形結(jié)構(gòu)化注意力模塊學習,CGSA 引入了一個具有單輸出結(jié)構(gòu)的圖形注意層,其中最終輸出節(jié)點特征由表示。其中是通過CGSA 模塊計算獲得,采用負對數(shù)似然損失函數(shù)進行圖形注意力學習,損失函數(shù)定義為:

3)動態(tài)雙重聚合學習[5]。用像素級部分聚合特征學習損失Lp作為主導損失,然后逐步添加圖像級全局特征學習損失Lg進行優(yōu)化。這樣做的主要原因是在早期階段用Lp學習像素級特征表示更容易。隨著網(wǎng)絡(luò)不斷的學習,圖像級全局特征學習使用跨模態(tài)的人物圖像之間的關(guān)系來優(yōu)化特征,表示為:

其中:t是訓練輪數(shù);T()代表前一個訓練輪數(shù)的平均損失值;代表當前輪數(shù)跨模態(tài)圖形結(jié)構(gòu)化注意力損失數(shù)值。在這個動態(tài)更新框架中,圖像級全局損失Lg逐步加入到整個學習過程中。

最終的總損失由Ldhhi、Lwsdr、Ltri、Lp和Lt組成,定義如下:

其中:β作為超參數(shù)控制著SDR 損失的貢獻。DHHI 優(yōu)化了具有身份監(jiān)督的參數(shù)共享網(wǎng)絡(luò),使得網(wǎng)絡(luò)學習到多模態(tài)身份不變特征;WSDR 損失Lwsdr提供監(jiān)督以優(yōu)化從6 個視圖檢索的相對距離;Lp、Lt分別從像素級和圖像級學習到了模態(tài)內(nèi)和模態(tài)間特征關(guān)系,加強了特征表示。這幾個組件針對跨模態(tài)行人重識別模型學習進行了聯(lián)合優(yōu)化。

3 實驗與結(jié)果分析

3.1 實驗設(shè)置

3.1.1 數(shù)據(jù)集

為了評估了模型的性能,在兩個公開的跨模態(tài)行人重識別數(shù)據(jù)集(SYSU-MM01[24]和RegDB[36])上進行了實驗驗證。

SYSU-MM01 數(shù)據(jù)集是由6 個不同的攝像機收集的大規(guī)模數(shù)據(jù)集,包括4 個通用可見光攝像機和2 個近紅外攝像機,該數(shù)據(jù)集包含395 個訓練身份,包括22 258 張可見圖像和11 909 張近紅外圖像,圖4 給出了兩個不同身份的行人在6個不同攝像機下拍攝到的圖片。

測試集包含另外95 個測試身份,具有兩種不同的評估設(shè)置,分別是全局搜索和室內(nèi)搜索。在這兩種設(shè)置中,查詢集是相同的,包含從兩個紅外攝像機捕獲的3 803 幅圖像。在全局搜索模式下,圖庫集包含從所有4 個可見光相機捕獲的所有可見光圖像;在室內(nèi)搜索模式下,圖庫集僅包含由兩個室內(nèi)可見光相機捕獲的可見光圖像。完全按照現(xiàn)有的方法[5]執(zhí)行圖像候選集的10 次檢索實驗,并給出平均檢索性能。

3.1.2 評估指標

本文使用累計匹配特性(Cumulative Matching Characteristics,CMC)曲線和平均精度均值(mean Average Precision,mAP)作為評價指標。CMC 統(tǒng)計在前r次檢索結(jié)果中出現(xiàn)正確的人物圖像的概率,當r=1時,代表Rank-1 精度;r=5時,代表Rank-5 精度,以此類推。mAP 是衡量圖庫集中出現(xiàn)多個匹配圖像時的檢索性能。

3.1.3 實施細節(jié)

該模型在PyTorch 框架上實現(xiàn),使用單個NVIDIA Tesla P100 GPU 進行模型訓練。模型采用ResNet50 作為骨干網(wǎng)絡(luò)進行特征提取,網(wǎng)絡(luò)初始化采用ImageNet 預處理后的模型參數(shù)。采用在PyTorch 中內(nèi)置的灰度化函數(shù)(Grayscale(3))來為每個可見圖像生成灰度圖像。首先將輸入圖像調(diào)整到288×144,然后采用隨機補零和隨機水平翻轉(zhuǎn)進行數(shù)據(jù)增強。對于注意力機制部分采用了文獻[3]中同樣的設(shè)置。采用隨機梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器進行優(yōu)化,動量參數(shù)設(shè)置為0.9。將兩個數(shù)據(jù)集的初始學習率都設(shè)置為0.1,學習率在第20 個Epoch 時衰減到0.01,在第50 個Epoch 時衰減到0.001,在兩個數(shù)據(jù)集上總共有80 個訓練輪次。將WSDR 損失中的裕量參數(shù)ρ設(shè)置為0.3,默認設(shè)置β=0.2。在測試階段,使用批量歸一化(Batch Normalization,BN)層的輸出進行檢索,并使用原始可見圖像進行特征提取。在此,將所提出的模型稱作BADIN。

3.2 消融實驗

3.2.1 組件評估

首先在全局搜索和室內(nèi)搜索兩種模式下對大規(guī)模SYSU-MM01 數(shù)據(jù)集進行評估。表1中,“B”代表基線模型,使用原始的DDAG 模型[5]。“H0”代表額外增加一組輸入圖像,通過模態(tài)共享身份分類器得到標簽損失進行訓練。“DHHI”代表了在模型中加入了DHHI。“SDR”代表普通的六向三元組排序損失。“WSDR”代表帶有加權(quán)的SDR 損失。

由表1 可以看出,當額外加入一組帶有灰度圖片輸入時,與基線模型B 相比,額外添加一組輸入的性能顯著提高,即Rank-1 精度從0.547 5 變?yōu)?.568 1,提升了2.06 個百分點,證明了帶有灰度圖像的額外輸入對跨模態(tài)人識別的有效性。當進一步在模型中加入DHHI 損失時,兩種設(shè)置下的性能都得到了進一步提高,這表明了平滑L1 損失有效地通過中間模態(tài)拉近了可見光和紅外的特征距離,提高了識別性能。當在模型中結(jié)合了SDR 損失,檢索性能大幅提升,表明SDR 損失為減小類內(nèi)間距、增大類間間距提供了強有力的監(jiān)督。最后當根據(jù)距離差異對SDR 損失進行加權(quán)計算時,性能略有提高。從整體來看,在全局搜索模式下,與DDAG 基線模型相比,所提模型在Rank-1 和mAP 評價指標上分別提升了4.66 和3.41 個百分點。

步驟4 將決策變量決策變量Wli的值Wlit代入下層模型目標函數(shù)中,獲得下層模型函數(shù)目標值θ,s-,s+及目標值符合滿意值范圍時(下層約束條件),則轉(zhuǎn)入步驟5;如果目標值未達到滿意值范圍時,根據(jù)松馳變量s-,s+的值,調(diào)整的Wlit值,轉(zhuǎn)入步驟1。

表1 在SYSU-MM01數(shù)據(jù)集上所提出的每個組件的評估Tab.1 Evaluation of each proposed component on SYSU-MM01 dataset

3.2.2 參數(shù)評估

為了評估所提總損失函數(shù)中超參數(shù)β(式(17))的影響。其在SYSU-MM01 數(shù)據(jù)集上全局搜索模式下的影響結(jié)果如圖5 所示。加權(quán)六向三元組排序損失充分利用了不同視角下的3 種模態(tài)間的關(guān)系,這增強了對跨模態(tài)變化的魯棒性。根據(jù)實驗結(jié)果,在所有實驗中將β設(shè)置為0.2。

3.3 深入分析

3.3.1 加權(quán)六向三元組排序損失

不同的三元組損失變體的性能比較,如表2 所示。與硬挖掘的三元組損失(Triplet(Hard))[37]、加權(quán)三向三元組排序損 失(Weighted Tri-Directional triple Ranking loss,WTDR)[2]相比,所提出的加權(quán)六向三元組排序損失通過顯式優(yōu)化6 個不同視圖中的跨模態(tài)關(guān)系來實現(xiàn)更高的性能,取得了較好的效果。

表2 不同三元組損失變體下的Rank-1和mAPTab.2 Rank-1 and mAP under different triplet loss variants

3.3.2 IWPA及CGSA有效性分析

對于本文加入的IWPA 和CGSA 模塊,也對其進行了有效性分析,結(jié)果如表3 所示。其中Base 模型表示BADIN 去除了IWPA、CGSA 模塊以及它們所對應(yīng)的計算損失。從表3 可以看出,Base 模型在全局搜索的模式下取得了0.573 3 的Rank-1 和0.542 6 的mAP;在Base 的基礎(chǔ)上分別加入IWPA和CGSA 模塊后,Rank-1 和mAP 都有了一定程度的提高;當兩者同時加入時,與Base 相比,Rank-1 和mAP 分別提高了2.08 和2.17 個百分點。從實驗結(jié)果可以看出,IWPA和CGSA 模塊對模型效果的提升是有益的。此外,Base 模型比所采用的DDAG 基線模型在Rank-1 的準確率上還高出2.58個百分點。這也從側(cè)面證明了本文模型的有效性。

表3 IWPA、CGSA模塊的有效性驗證Tab.3 Validity verification of IWPA module and CGSA module

3.3.3 復雜度分析

本節(jié)比較了本文模型與基線模型(DDAG)的額外計算時間和參數(shù)量。從表4 中可以看出,與DDAG 模型相比,本文模型的參數(shù)量只增加了1.05×106,幾乎可以忽略不計,而時間的增加量較多。這是由于在輸入時多增加了1.5 倍的數(shù)據(jù)量,從而導致訓練時間也增加了1.46倍,總體而言相較于DDAG 模型來說并未引入額外較大的計算開銷。

表4 不同模型的計算開銷Tab.4 Computational overhead of different models

3.3.4 t-分布式隨機鄰居嵌入分析

從SYSU-MM01 數(shù)據(jù)集上隨機選擇的10 個身份的t-分布式隨機鄰居嵌 入(t-distributed Stochastic Neighbor Embedding,T-SNE)繪制了圖6,包括可見光圖像和紅外圖像在通過初始模型和訓練后的模型的特征分布,其中每一個顏色代表一個不同的身份。由圖6 可以觀察到,在初始模型上可見光圖像和紅外圖像的特征分散在兩個不同的區(qū)域。將相同圖片輸入訓練過后的模型中,可以觀察到來自不同模態(tài)的每個身份的特征被聚集到嵌入空間同一位置中,說明了模型是有效的。

3.4 與現(xiàn)有技術(shù)的比較

將與現(xiàn)有的跨模態(tài)行人重識別方法進行比較,通過此項對比實驗進一步驗證了提出的解決方案的有效性。對比對象主要包括:

1)傳統(tǒng)特征提取方法。HOG[38]、局部最大出現(xiàn)次數(shù)(Local Maximal Occurrence,LOMO)特征[12]。

2)基于GAN 的模型。雙層差異減少學習(Dual-level Discrepancy Reduction Learning,D2RL)模型[20]、AlignGAN[4]。

3)深度度量學習。雙向中心約束的top-ranking(Bi-Directional center-constrained Top-Ranking,eBDTR)模型[25]。

4)基于共享特征學習方法。Zero-Padding[24]、AGW[39]、DDAG[5]以及超球面流形嵌入(HyperSphere Manifold Embedding,HSME)[27]、模態(tài)意識協(xié)同(Modality-aware Collaborative,MAC)學習[28]、特定模態(tài)表示(Modality-Specific Representations,MSR)學習[29]等。其中DDAG 模型通過動態(tài)雙注意力模型學習到了更加有效的特征表示,實現(xiàn)了良好的性能。

在SUSY-MM01 數(shù)據(jù)集上的兩種查詢模式的實驗結(jié)果(表5)表明,所提模型在性能相較于現(xiàn)有技術(shù)有著一定程度的提高,在具有挑戰(zhàn)性的SYSU-MM01 數(shù)據(jù)集全局查詢模式下實現(xiàn)了59.41%的Rank-1 精度和56.43%的mAP。

表5 在SYSU-MM01數(shù)據(jù)集上本文方法與先進水平方法的性能比較Tab.5 Performance comparison of the proposed method and advanced methods on SYSU-MM01 dataset

在RegDB 數(shù)據(jù)集(表6)上的實驗結(jié)果表明,所提模型在兩種查詢設(shè)置中都獲得了較高的性能,對于可見光到紅外查詢設(shè)置,Rank-1 和mAP 的數(shù)值分別為70.53%和66.76%。

表6 在RegDB數(shù)據(jù)集上本文方法與先進方法的性能比較Tab.6 Performance comparison of the proposed method and advanced methods on RegDB dataset

該實驗結(jié)果表明,模型可以通過額外的一組圖像輸入來學習更好的跨模態(tài)共享特征表示。但由于RegDB 數(shù)據(jù)集較小、圖片風格相近,導致額外的一組訓練沒能取得較大的提高,因此相較于SYSU-MM01 數(shù)據(jù)集來說,精度提升的幅度較小。

4 結(jié)語

本文為跨模態(tài)行人重識別提出了一個新的基于數(shù)據(jù)增強學習的方法。通過額外增加一組由可見光、紅外和齊次增強得到的灰度圖像組成的輸入,用兩組輸入圖像對網(wǎng)絡(luò)模型進行聯(lián)合訓練。進一步加強了對有限圖像中特征的利用,提高了模型匹配的精度。同時,引入了加權(quán)六向三元組排序損失進一步優(yōu)化跨模態(tài)三元組的相對距離,這個策略對所挖掘到的困難三元組的信息進行了充分的應(yīng)用,有效地減小了同一身份不同模態(tài)間的特征距離,也增大了不同身份間的特征距離。對于文中所引用的注意力模型也通過實驗證明了它的有效性。實驗結(jié)果表明,該模型在跨模態(tài)行人重識別的任務(wù)上取得了有效的精度提升。但本文模型中所采用的注意力模塊較為復雜,從而導致訓練需要花費較長時間,因此未來的工作將優(yōu)化注意力機制,提高模型訓練的整體效率。

猜你喜歡
模態(tài)特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
國內(nèi)多模態(tài)教學研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 国产精品久久久久鬼色| 日韩性网站| 成人国产三级在线播放| 国产欧美又粗又猛又爽老| 二级特黄绝大片免费视频大片| 日韩免费毛片视频| 午夜丁香婷婷| 不卡视频国产| 国产成人综合网在线观看| 国产三级a| 欧美一区二区自偷自拍视频| 2020国产精品视频| 日韩高清欧美| 4虎影视国产在线观看精品| 久久国产成人精品国产成人亚洲| 亚洲视频影院| 日韩精品亚洲一区中文字幕| 欧美一区二区丝袜高跟鞋| 国产福利一区在线| 啪啪啪亚洲无码| 婷婷色丁香综合激情| 国产激情无码一区二区三区免费| 日本尹人综合香蕉在线观看| 精品国产免费第一区二区三区日韩| 国产后式a一视频| 国产成人高清精品免费5388| 国产91在线|日本| 日本一区高清| 久久天天躁狠狠躁夜夜2020一| 91无码国产视频| 91久久青青草原精品国产| 97精品国产高清久久久久蜜芽| 2021国产精品自拍| 99热精品久久| 国产精品国产主播在线观看| 精品1区2区3区| 亚洲国产精品无码AV| 国产一级妓女av网站| 真实国产乱子伦视频| 免费毛片网站在线观看| 国产在线自在拍91精品黑人| 三级视频中文字幕| 美女视频黄频a免费高清不卡| 久操中文在线| 亚洲高清在线天堂精品| 国产成本人片免费a∨短片| 色噜噜中文网| 欧美日韩精品一区二区视频| 在线另类稀缺国产呦| 亚洲国产精品一区二区第一页免| 成年午夜精品久久精品| 免费va国产在线观看| 亚洲视频a| 亚洲精品少妇熟女| 久久永久视频| 无码专区在线观看| 国产av无码日韩av无码网站| 亚洲有码在线播放| 日韩a级片视频| 欧美日韩国产一级| 国产一级毛片yw| 亚洲三级a| 国产乱码精品一区二区三区中文 | 日本一区二区三区精品AⅤ| 又黄又爽视频好爽视频| 日韩少妇激情一区二区| A级毛片无码久久精品免费| 免费不卡在线观看av| 国产精品无码AV中文| 国产91在线|日本| 永久在线播放| 欧洲亚洲一区| 黑人巨大精品欧美一区二区区| 97成人在线视频| 精品少妇人妻av无码久久| 国产精品极品美女自在线网站| 欧美精品aⅴ在线视频| 国产乱子伦视频在线播放| 国产精品13页| 免费啪啪网址| 亚洲成A人V欧美综合天堂| 国产福利影院在线观看|