999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于可解釋注意力部件模型的行人重識別方法

2023-10-30 10:13:50王瀚正趙佳琦陳思霖
自動化學報 2023年10期
關鍵詞:特征實驗模型

周 勇 王瀚正 趙佳琦 陳 瑩 姚 睿 陳思霖

行人重識別(Person re-identification,ReID)旨在通過非重疊視角域多視圖下判斷行人是否為同一目標,屬于圖像檢索的子問題[1-2].對于一個包含目標行人的查詢圖像和圖像集,行人重識別技術會根據與查詢圖像的相似度對來自圖像集的圖像排名,進而找到同一目標,減少人力、物力在圖像序列中搜索的消耗.行人重識別技術可以與行人檢測、行人跟蹤技術相結合,在視頻監控、安檢、刑事偵查等方面有著廣泛應用[3],因此進行行人重識別研究具有較高的理論意義和實際價值.但是,人類可以解釋事物的來龍去脈,行人重識別任務用到的深度神經網絡卻不能做到.深度學習所用到的架構很大程度上依靠大量的經驗和技巧來設定,通過梯度下降算法[4]來優化模型參數,這一學習過程猶如“黑盒子”[5].基于深度學習模型的行人重識別研究存在可解釋性較弱的問題,而且模型預測結果缺乏符合人類邏輯的解釋.

近年來,很多學者使用的注意力機制在圖像顯著特征提取上展現出了強大的能力,可以利用人類視覺機制對模型進行直觀解釋,在一定程度上增加了行人重識別模型的可解釋性.其主要方法分為兩個方面,一方面為基于部件模型的注意力機制[6-8],用來學習身體部件的判別性特征;另一方面為前景注意力機制[9-12],使用行人掩碼以一種有監督的方式驅使注意力.前者往往對輸入圖像進行分割[7],或使用姿態評估作為輔助[13],能夠有效地提取部件的判別性特征,但由于行人的形態動作不一,會導致部件分割不對齊現象,影響模型性能,且對整體圖像分割容易引入復雜背景噪聲;后者能夠幫助低層網絡關注于前景區域,因此更容易學習到判別性的特征表示.但由于輸入圖像的分辨率較低,行人掩碼的質量往往較差,容易造成對底層網絡的誤導[12].更好的做法是將前景注意力和判別性特征學習融合到端到端的網絡,二者可以在訓練過程中實現互補.

上述方法均利用注意力機制,學習行人的顯著性特征,提高行人重識別模型性能.但現有基于注意力機制的行人重識別方法存在兩點不足:首先,注意力機制僅作為網絡提取顯著特征的輔助手段,無法體現網絡自身對區域是否顯著的判斷;其次,大多數方法只是通過可視化注意力掩碼[13-14]和熱值圖[15]來證明其提出的注意力模塊的有效性,缺少行人圖像對網絡輸出結果影響的量化研究.

本文基于上述兩點不足,提出了一種基于可解釋注意力部件模型(Interpretable attention part model,IAPM)的行人重識別方法.本方法受到文獻[16]啟發,利用注意力機制實現行人部件特征的提取,特別地,可以根據部件特征的顯著性來生成可解釋權重,以此作為行人重識別模型對于行人部件的顯著性判斷,從而獲取行人部件引起模型注意的程度,提高深度學習模型的可解釋性.

本文的主要貢獻包括以下方面:

1)提出一種基于可解釋注意力部件模型的行人重識別方法,該方法可以通過注意力機制實現靈活提取人體部件特征,特別地,可以依照部件的顯著性程度生成可解釋權重,量化人體部件在深度學習模型訓練過程中的作用,從而提高行人重識別模型的可解釋性.

2)提出一種新的可解釋權重生成模塊(Interpretable weight generation module,IWM),設計新的顯著部件三元損失(Salient part triplet loss,SPTL)端到端地自適應訓練來提高模型表征能力及可解釋性.

3)在Market-1501、CUHK03 及DukeMTMCReID 數據集上進行實驗驗證,分別達到了95.2%、72.6%、88.0%的Rank-1 準確率,高于基線論文及大多數現有方法.本文還進行了一項人群主觀測評,將主觀測評結果與生成的可解釋權重對比,證明本方法具有良好的可解釋性.

本文結構安排如下:第1 節介紹可解釋深度學習及行人重識別的相關工作;第2 節介紹本文提出的基于可解釋注意力部件模型的行人重識別方法;第3 節給出實驗設置與實驗結果分析;第4 節總結本文工作并對未來工作進行展望.

1 相關工作

1.1 可解釋深度學習

近年來,深度學習高速發展,但其模型內部的運行規律,如隱含層卷積核的特定激活情況、模型做出決策的直接依據等仍屬未知.盡管如此,人們依靠大量工程經驗,建立模型,初始化參數,并使用大量標注數據,依然可以得到一個特定場景下表現優異的深度學習模型,這也促使人們開始探索深度學習模型內部的運作機制.許多研究人員將深度學習模型與人類認知相結合,以找到二者的共通之處.目前針對深度學習可解釋領域的研究主要有以下4個方面:

1)可視化卷積神經網絡

研究人員通過計算圖像所對應神經元的梯度、偏導數以及輸出熱值圖、類激活映射等方法,可以很好地將神經網絡可視化,將卷積核與人類感知的可視語義概念聯系起來,直接觀察得到圖像分類的主要依據區域,對模型的輸出進行解釋.文獻[17]通過局部重新分配策略將預測f(x)反向傳播,直到將相關得分Ri分配到每一個輸入變量(如像素).在圖像級別上,通過這種方法可以得到圖像分類的主要依據區域.文獻[18]針對使用全局均值池化的分類網絡,將最后分類得分對應的全連接層中的權重取出,計算全局均值池化之前張量各通道的加權和,與原圖像進行對照,即可尋找出分類結果的主要依據.

2)網絡結構與語義信息的對應

Szegedy 等[19]發現深層次的神經網絡中,語義信息與深層網絡結構的整體有關.文獻[20]進行了網絡內卷積核與可視語義概念對應的研究,使用雙線性插值在每個卷積單元對應的激活映射進行上采樣,挑選出高于閾值的激活區域,計算與語義概念注釋之間的交并比,由此得到卷積核與可視語義概念的對應.

3)卷積神經網絡的缺陷及優化

如果一個深度學習模型具有可解釋性,那么所有參數對于實驗結果的影響應該是較清晰的,這樣就可以根據輸出,對算法及模型內部參數進行高效率的改良.因此深度網絡模型的可解釋性對于模型的優化有著重要意義.文獻[21]中提出了一種視頻字幕生成的可解釋性方法,該方法可以將神經元與視頻的主題聯系起來.在神經網絡輸出字幕丟失了某些主題時,可以直接找到與該主題相關聯的神經元,增加其對該主題的平均激活,進而對網絡微調,保證輸出不再丟失主題.

4)可解釋性模塊的引入

與上述方法不同,此方法并不是在預訓練的網絡中進行可解釋的嘗試,而是在網絡中加入可解釋模塊共同訓練,使網絡的隱含層不再是一個“黑盒子”.文獻[22]為神經網絡中每個卷積核增加了損失,使得訓練之后的卷積核對應特定的目標部件,將卷積核的特征對應加入到“端到端”訓練過程中,可以不使用人類標記指導來完成可解釋學習,得到高層卷積核中對應的特定語義概念.

1.2 行人重識別

行人重識別作為一個圖像檢索的子問題,旨在預測兩幅行人圖像是否屬于同一行人.隨著深度學習的發展,行人重識別問題的研究達到了前所未有的高度,利用卷積神經網絡(Convolutional neural network,CNN)可以實現行人特征的自動提取,行人重識別模型性能得到有效提升.

基于深度學習的行人重識別方法,可以按照學習方式分為兩類:基于表征學習的方法[23-26]和基于度量學習的方法[1,27-28].基于表征學習的行人重識別方法并沒有把比較兩個行人的相似度作為研究目標,而是將行人重識別問題當作一個分類問題來看待,將一幅行人圖像輸入到網絡中提取特征,將經過全局池化的特征向量送入全連接層,最后連接softmax 層,由softmax 激活函數得到每張圖像的身份預測,具有相同預測結果的兩個行人即判定為同一行人.文獻[23-24]將每一個行人的身份當作分類問題的標簽,用來對CNN 進行訓練.文獻[25]引入行人屬性標簽計算屬性損失,和行人身份損失結合起來訓練,增強網絡的泛化能力.文獻[26]提出在主干網絡后增加驗證子網絡和分類子網絡,同時使用驗證損失和分類損失對整個模型進行訓練,得到了較好的結果.

基于度量學習的行人重識別方法通過CNN 將行人特征映射到特征空間中,比較特征向量在特征空間中的距離(例如歐氏距離或者余弦距離).在訓練過程中,通過優化各種度量損失,得到一個圖像與特征向量的最佳映射關系,使得在同一個特征空間中,相同身份的行人特征向量有著盡可能小的距離,不同身份的行人特征向量有著盡可能大的距離.文獻[1]使用了余弦相似度和二項式偏差來進行度量學習.文獻[27]采用一種孿生網絡結構,并使用對比損失來對網絡模型進行優化.文獻[28]對三元損失進行了改進,提出了批量難三元組損失(Batch hard triplet loss),使用距離最遠的正例樣本對和距離最近的負例樣本對進行模型的優化.

魯棒的特征表示對于解決行人重識別問題來說至關重要,研究者們通常設計注意力模塊提取顯著性特征.如前景掩碼廣泛用于引導網絡注意行人身體的區域[11-12].文獻[29]設計了空間約束網絡(Spatial transformer network,STN)以提取行人局部特征.文獻[13]通過行人姿勢信息生成的注意力掩碼提取行人局部特征,并能有效處理遮擋問題.文獻[30]提出了一個雙線性的注意力網絡,使用雙線性池化來提取逐對的局部信息.文獻[31]使用長短期記憶網絡(Long short term memory network,LSTM)[32]構建了一個注意力模型,用來提取圖像的顯著特征.

通過以上方法可以發現,目前研究者們使用的注意力機制,大多數作為提取圖像顯著特征的輔助手段,無法體現網絡自身對局部區域是否顯著的判斷.此外,雖然有些方法[13-14]通過可視化注意力掩碼和熱值圖對注意力模型進行直觀解釋,但缺少行人圖像對網絡輸出結果影響的量化研究,存在可解釋性較弱的問題.本文基于以上兩點,提出可解釋注意力部件模型IAPM,該模型將人體部件在深度學習模型訓練過程中的作用量化,以此作為網絡自身對特征顯著程度的判斷,提高行人重識別模型的可解釋性.

2 基于可解釋注意力部件模型的行人重識別方法

本文基于注意力掩碼提取人體部件特征的模型EANet[16],針對其可解釋性差的問題,設計可解釋注意力部件模型IAPM.IAPM 的整體結構如圖1所示.該模型包括注意力部件對齊池化(Part aligned pool,PAP)模塊和可解釋權重生成模塊.為了增強部件對齊池化的規范性和嚴整性,增加了一個局部分割約束(Part segmentation,PS),減少人體部件之間的重疊特征.在本節中,首先介紹本文基線模型EANet 中的PAP 模塊和PS 模塊,之后介紹本文提出的可解釋性方法.

圖1 IAPM 整體結構Fig.1 Structure of IAPM

2.1 PAP 模塊與PS 模塊

本文使用ResNet50[33]作為主干網絡,將尺寸為384×128 像素的行人圖像x輸入到ResNet50中,得到C×H×W的三維張量T,其中H和W表示張量每個通道的高和寬,分別為24 和8;C表示張量的通道數,為2 048.

PAP 模塊主要實現人體特征的橫向分割,Huang等[16]在COCO (Common object in context)數據集上預訓練了一個關鍵點檢測模型,用來預測行人圖像中行人身體的17 個關鍵點,從而定位出9 個人體部件,包括頭、上軀干、下軀干、大腿、小腿、腳、上半身、下半身、全身.在本文方法中,人體部件個數P設置為7,從上至下依次為頭、上軀干、下軀干、大腿、小腿、腳、全身七個部件,如圖2 所示.

圖2 橫向分割示意圖Fig.2 Schematic diagram of horizontal split

根據這些部件在ResNet50 輸出張量中的對應位置,生成部件分割注意力掩碼Mi∈RC×H×W,其中i∈[1,P],Mi表示第i個部件的注意力掩碼.部件對應位置元素設為1,其他位置設為0.張量T經過PAP 模塊,得到橫向分割的P個部分的特征向量為

其中,fi∈RC,i∈[1,P],maxpool代表全局池化操作,?表示逐元素相乘.

PAP 模塊將張量T橫向分割成P個部分,經過全局池化得到P個部件的特征向量f1,···,fP.將每一個特征向量輸入到嵌入層(Embedding layer,EM),使每個部件特征向量長度由2 048 降至256.得到的輸出向量為

其中,ei∈Rd,d表示256,gi表示EM 對第i個部件進行的全連接操作.

行人的身份損失LID采用交叉熵損失.假設訓練集包含K個行人身份,給定一張標簽為y的輸入圖像x,將圖像x第i個部件的特征向量ei輸入到分類層進行一次全連接操作,得到預測向量zi=[z1,z2,···,zk]∈RK.經過softmax 函數處理,得到圖像x中行人第i個部件屬于第k(k∈1,2,3,···,K)個行人身份的概率,即

第i個部件的身份損失為

各部件的身份損失之和即為該行人的身份損失LID.由于遮擋和攝像頭視角的影響,一些行人只有部分身體呈現在圖像中,因此引入一個可視度得分vi來表示身體部件是否出現在圖像中:vi=1 表示身體部件i出現在圖像中;vi=0 表示身體部件i不可見.在進行部件對齊池化時,將不可見部件的特征向量設置為零向量,在計算身份損失時,僅由可見區域產生損失.行人身份損失函數定義為

其中,vi∈{0,1},表示第i個部件的可視度,P為人體部件總數.

在實驗中發現,通過PAP 模塊提取出的相鄰部件之間的相似度較高,即便模型提取到了多個具有判別性的特征,這對部件對齊的效果仍然有影響.為了降低不同部件之間的冗余度,在ResNet50 的conv5 的特征圖,即張量T上增加PS 模塊來強化部件對齊池化效果.

PS 模塊由一個步長為2 的3×3 的反卷積層及1 個1×1 的卷積層組成,反卷積層用于上采樣,1×1 卷積層用于逐像素的分類預測.分類類別包括8 類,即:背景、頭、軀干、前臂、后臂、大腿、小腿、腳.尺寸為C×H×W的張量T經過反卷積層之后,得到尺寸為d×2H×2W的中間張量.將中間張量輸入到1×1 的卷積層中,得到尺寸為R×2H×2W的預測結果U,其中,R表示類別總數,設置為8,8 個通道代表8 個類的分類結果.需要注意的是,PAP 模塊水平提取的人體部件特征,最后用于行人相似度的計算.而PS 模塊進行的部件分類預測,僅為了增強PAP 模塊提取部件特征的規范性和嚴整性,并未實際進行分割,其輸出張量U不作為行人相似度的判斷依據.

訓練PS 模塊使用的監督信號,是使用COCO數據集預訓練的部件分割模型在行人數據集上生成的偽標簽.部分偽標簽如圖3 所示.

圖3 PS 模塊使用的偽標簽[16]Fig.3 Pseudo-labels used by PS[16]

張量T經過PS 模塊得到預測U之后,計算其交叉熵損失作為部分分割損失LPS.部分分割損失的計算式為

其中,R表示部分的總數(包括背景),設置為8,與基線論文相同.表示第r個部分所有像素點的交叉熵損失的均值.取均值的原因在于避免某些部分面積過大導致其損失占比過多,忽略頭、腳這些面積小但仍含有判別性信息的部分.

2.2 IWM 模塊

基線模型利用注意力機制靈活提取人體部件特征,解決固定分割部件方法[8]存在的不對齊問題.但由于深度學習網絡具有“黑盒子”模型特點,無法獲取網絡內部對每個部件顯著程度的判斷,整個行人重識別模型的可解釋性較差.針對上述問題,設計一種可以依照部件顯著性程度來生成可解釋權重的注意力權重生成模塊,結構如圖4 所示.

圖4 注意力權重生成模塊結構Fig.4 Structure of IWM

IWM 由兩個全連接層FC1、FC2 以及一個softmax 層組成.IWM 將P個人體部件堆疊之后的特征矩陣作為輸入,最終得到每個部件的可解釋權重.

為了提升網絡性能,優化IWM 的權重生成能力,本文在批量難三元損失[31]的基礎上,提出一種新的顯著部件三元損失用于IWM 的訓練.SPTL改變原有批量難三元損失中正負樣本對距離的計算方式:計算兩幅圖像相同部件之間的L2距離,與兩部件經過IWM 生成的權重相乘得到部件之間的權重距離,如式(7)和式(8)所示.

其中,ea|i,epos|i,eneg|i分別表示錨點圖像、正例圖像以及負例圖像第i個部件的特征向量;wa|i,wpos|i,wneg|i分別表示錨點圖像、正例圖像以及負例圖像第i個部件經過IWM 生成的權重;da,pos|i和da,neg|i分別表示錨點圖像與正例圖像、錨點圖像與負例圖像之間的權重距離.將這個距離作為難負樣本挖掘依據.對每一個部件進行損失的計算,如式(9)所示.

其中,α為人為設定的參數,如果正樣本對距離與負樣本對距離相差小于α,則會產生損失.

所有部件損失的和作為最終的顯著部件三元損失LSPTL,如式(10)所示.

使用SPTL 對IWM 進行自適應訓練,若某部件對應的三元組內正負樣本對距離易于改變,即易于優化顯著部件三元損失,IWM 將對該部件生成較大權重.本文提出的可解釋模型將易于優化SPTL的部件作為顯著性部件,通過訓練賦予其可解釋性,從而使行人重識別模型對行人圖像顯著性的判斷可見,提高深度學習模型的可解釋性.

此外,在三元損失的計算中,往往考慮的是正負樣本之間的距離大小,沒有考慮優化每個類別內的距離.例如對于正負樣本對距離0.3 和0.5,以及正負樣本對距離1.3 和1.5,損失均為0.2,但第2種情況下正樣本對之間的距離更大,所以對整個數據集來說無法保證正樣本對之間的距離盡可能小.因此,本文使用中心損失[34]來同時學習優化每個類別在特征空間中的中心位置以及每個特征到對應的類別中心位置的距離,從而彌補上述三元損失的不足.具體形式為

其中,yj表示第j幅圖像的標簽,cyj表示標簽yj對應的中心,fj表示一個訓練批次中第j幅行人圖像的特征,B為Batchsize,即一次迭代訓練使用圖像的數量.

基于以上損失函數,可解釋注意力部件模型的總損失函數可以表示為

其中,LID代表身份損失,LSPTL代表顯著部件三元損失,LPS代表部分分割損失,LC代表中心損失.LID、LPS的系數及β均按照文獻[16] 設置為1 及0.0005,λ根據實驗結果設定為1,實驗細節在第3節具體描述.

3 實驗設置及實驗結果

本節首先介紹實驗設置和數據集及評價標準;其次將本文提出的方法與本文的基線模型及現有的先進方法在性能上進行比較實驗;然后對本文提出的方法進行多組消融實驗;最后將網絡輸出的可解釋權重與主觀測評結果進行比較.

3.1 實驗設置

本節實驗使用的軟硬件環境見表1.

表1 實驗環境Table 1 Experimental environment

本節實驗的參數設置見表2.

表2 實驗參數Table 2 Experimental parameters

網絡中的ResNet50 初始學習率為0.0001,在經過10 次迭代后,學習率由0.0001 線性增加到0.01,并且在50 以及80 次迭代時,降為原來的1/10.網絡中的EM 以及IWM 初始學習率為0.0002,經過10 次迭代后,學習率由0.0002 線性增加到0.02,并且在50 以及80 次迭代時,降為原來的1/10.

3.2 數據集及評價標準

Market-1501[35]數據集中的圖像包括1 501 個行人,總共32 668 幅圖像,由6 個攝像頭采集獲得.751 個人的12 936 幅圖像用來進行訓練,平均每人有17.2 幅訓練圖像;750 個人的19 732 幅圖像用來進行測試,平均每人有26.3 幅測試圖像.

DukeMTMC-reID[36]提供了一個由8 個攝像機拍攝得到的行人圖像集,包括1 404 個不同身份的行人,訓練集由1 404 中的702 個人的16 522 幅圖像構成,測試集由另外702 個人的17 661 幅圖像構成.

CUHK03[37]是在香港中文大學校園中采集的,數據集由1 467 個行人的14 097 幅圖像構成,平均每人9.6 幅訓練圖像.

本節實驗中,計算經過EM 層之后得到的各部件特征向量之間的歐氏距離之和,作為行人圖像之間的相似度度量.采用的評價標準為累積匹配特性曲線(Cumulative match characteristic,CMC)在第一匹配率的值(記為Rank-1)和平均準確率(Mean average precision,mAP).

3.3 對比實驗

1)與基線模型對比

將本文提出的方法與EANet 在上述3 個主流數據集上進行性能對比.主要評價指標為Rank-1以及mAP.所有實驗結果均在單查詢樣本及沒有進行重新排序的情況得到.實驗結果如表3 所示(表3 中數據為Rank-1 值,括號內數據為mAP 值).

表3 與EANet 的性能對比(%)Table 3 Performance comparison with EANet (%)

PAP-6P、PAP 分別指的是EANet 中使用6 個及9 個人體部件,且只使用LID訓練的單域模型;PAP-S-PS 指的是EANet 使用9 個部件且使用LID、IAPM-6P 和LPS訓練的單域模型;IAPM、IAPM-6P 和IAPM-9P 指的是本文使用7 個、6 個和9 個部件,且使用總損失函數L訓練的模型.

IAPM 在3 個主流數據集上的Rank-1 較EANet中單域表現最好的模型(PAP-S-PS)分別提升了0.6%,0.5%,0.1%;在mAP 上分別提升了0.6%,1.1%,0.4%.為了與PAP-S-PS 進行公平對比,使用與其相同的9 個部件進行實驗.在3 個主流數據集上,使用9 個部件的模型(IAPM-9P)得到的結果與PAP-S-PS 相比,Rank-1 分別提升了0.5%,0.4%,0.1%;mAP 分別提升了0.4%,1.0%,0.6%.為了與PAP-6P 進行公平對比,使用與其相同的6個部件進行實驗.在3 個主流數據集上,使用6 個部件的模型(IAPM-6P)得到的結果與PAP-6P 相比,Rank-1 分別提升了0.7%,1.3%,4.4%;mAP 分別提升了1.0%,1.9%,2.8%.

2)與其他方法對比

為了驗證本文提出的可解釋注意力部件模型的性能,在主流數據集上與近年來提出的行人重識別方法進行對比,主要評價指標為Rank-1 以及mAP.所有實驗結果均在單查詢樣本及沒有進行重新排序的情況得到.實驗結果如表4 所示(表4 中數據為Rank-1 值,括號內數據為mAP 值).

表4 與其他方法的性能對比 (%)Table 4 Performance comparison with other methods (%)

本文提出的方法在Market-1501 數據集中的Rank-1 達到95.2%,mAP 達到86.3%;在Duke-MTMC-reID 數據集中的Rank-1 達到88.0%,mAP 達到75.7%;在CUHK03 數據集中的Rank-1達到72.6%,mAP 達到67.2%.可以看出,在Rank-1及mAP 兩項主要評價指標上,本文方法均高于近年來提出的大多數行人重識別方法.

3.4 消融實驗

為了驗證本文提出的可解釋注意力部件模型各組成部分的有效性,本文在Market-1501 數據集上設計了多組消融實驗,包括驗證IWM 與中心損失函數的有效性,分析部件個數對模型性能的影響,以及分析SPTL 中α及λ對實驗結果的影響.

1)IWM 與中心損失函數的有效性

由第3.3 節實驗結果可以看到,本文模型在行人重識別精度上可以達到較好的效果.為進一步驗證可解釋權重生成模塊的有效性,從IAPM 中移除該模塊作為原始模型進行實驗.僅使用身份損失函數對原始模型進行訓練.之后在此基礎上依次增加IWM、SPTL 和中心損失函數.實驗結果如表5 所示.

表5 消融實驗1Table 5 Ablation experiment 1

由表5 可以看到,使用基線模型進行實驗,Rank-1和mAP 分別為92.4%和80.5%;增加可解釋權重生成模塊之后,Rank-1 和mAP 分別增加到了95.0% 和86.1%;在此基礎上增加中心損失后,Rank-1 和mAP 分別增加到了95.2%和86.3%.以上實驗結果說明,可解釋權重模塊及中心損失對模型性能具有提升效果.

2)人體部件個數對模型性能的影響

為了探究人體部件的個數對模型性能的影響,在Market-1501 數據集上,使用不同的部件個數進行實驗,實驗結果如表6 所示.

表6 消融實驗2Table 6 Ablation experiment 2

人體部件個數在本次實驗中分別設置為6,7,9,其中6 個身體部件包括頭、上軀干、下軀干、大腿、小腿、腳;7 個身體部件包括頭、上軀干、下軀干、大腿、小腿、腳、全身;9 個身體部件包括頭、上軀干、下軀干、大腿、小腿、腳、上半身、下半身、全身.使用6 個部件進行實驗時,Rank-1 和mAP 分別為95.0%及85.3%;使用7 個部件進行實驗時,Rank-1 和mAP 分別為95.2%及86.3%;使用9 個部件進行實驗時,Rank-1 和mAP 分別為95.1% 及86.0%.使用7 個和9 個部件得到的實驗結果,高于使用6 個部件得到的實驗結果,說明將全局或較大尺度特征作為局部特征的補充,對網絡模型性能的提升有一定的幫助.使用7 個部件得到的實驗結果高于使用9 個部件得到的實驗結果,說明使用全局特征作為局部特征的補充對本方法來說已足夠,如果增加較大尺度的特征(上半身或下半身特征),會造成部件特征的重疊,無法使網絡模型對相互獨立的人體部件做出顯著性判斷.

3)參數α對SPTL 的影響

三元損失中的α對模型的性能同樣起到非常重要的作用,因此本節使用4 個不同α的顯著部件三元損失,對7 個人體部件的IAPM 在Market-1501上進行實驗,α分別選為0.1,0.5,0.8,1.0,1.2,1.5,2.0,5.0,10.0,實驗結果如表7 所示.

表7 消融實驗3Table 7 Ablation experiment 3

可以看出,α選取1.2 時,得到最高的Rank-1和mAP.當α選擇較小時(α=0.8),會導致正負樣本對的距離無法有效拉大,當α選擇較大時(α=1.5),三元組中正負樣本對之間的距離被過度拉大,會導致不同三元組樣本之間的距離難以控制.容易造成三元組內的正負樣本對之間距離相差很大,而三元組之間的樣本的距離很近的結果,這同樣會導致網絡模型性能下降.

為了體現每個α對正負樣本之間距離的優化效果,選取α的4 個取值,繪制正負樣本對距離的折線圖,如圖5 和圖6 所示.

圖5 負樣本對距離變化圖Fig.5 Negative sample pair distance graph

圖6 正樣本對距離變化圖Fig.6 Positive sample pair distance graph

由圖5 可以看出,當α選取為1.5 時,負樣本對之間距離的優化過程有較多起伏,說明在α選取較大時,模型需要盡可能將正負樣本之間的距離進一步拉大,這就需要在特征空間中進行較多嘗試,最終才能達到較理想的狀態;同時也可以看到,隨著α的不斷增大,錨定圖片與負樣本圖片之間的距離不斷拉大,說明SPTL 有效地進行了特征空間中的特征向量之間距離的優化.我們還可以發現,50 次迭代之后,負樣本對之間的距離基本上不會有較大變化,所以選擇在50 次迭代后進行第1 次學習率的衰減,繼續訓練至80 次迭代后進行第2 次學習率的衰減,然后進行最后的20 次迭代.

由圖6 可以看出,當α選擇為1.5 時,正樣本對距離的優化效果較差,當選擇其他三種α時,可以使正樣本對之間的距離有效縮小.

除以上實驗外,本節還將每個α對應的SPTL損失進行對比,對比曲線圖如圖7 所示.

圖7 SPTL 損失曲線圖Fig.7 SPTL loss curve graph

由圖7 可以看出,當α為1.5 時,SPTL 損失的收斂過程相對不穩定,模型需要不斷調整映射關系來滿足正負樣本對之間的距離要求.當α選取較小時,SPTL 損失可以較好地收斂.

4)λ對模型性能的影響

λ旨在平衡LSPTL與其他損失函數的重要性.為了探究λ對模型性能的影響,在Market-1501 數據集上,使用不同的λ進行實驗,實驗結果如表8所示.

表8 消融實驗4Table 8 Ablation experiment 4

λ在本次實驗中分別設置為0.2,0.4,0.6,0.8,1.0.λ設置較小時,會減弱LSPTL的影響,降低模型性能.當選取為1.0 時,Rank-1 和mAP 分別為95.2%及86.3%,網絡模型的性能可以達到最優.

3.5 可解釋效果展示

除了在主流數據集上的識別準確率的提高外,本文另一貢獻是通過IWM 生成的權重來反映部件的顯著程度,從而提高模型的可解釋性.通過以下可解釋生成效果的展示以及與人群主觀測評結果的對比,證明提出的方法是具有可解釋性的.

1)IWM 權重生成效果展示

從Market-1501 和DukeMTMC-reID 兩個數據集中選取5 幅圖像,利用本文提出的可解釋模型得到的權重結果展示如圖8 所示.圖8(a)和圖8(b)選自Market-1501 數據集,圖8(c)、圖8(d)和圖8(e)選自DukeMTMC-reID 數據集.

圖8 可解釋權重展示Fig.8 The display of interpretable weights

圖8中右側及上側數值為顯著性模型生成的7個部件的可解釋權重.其中圖像右側數值從上至下依次表示頭、上軀干、下軀干、大腿、小腿、腳6 個部件,圖像上端數值代表的是全局特征(整幅圖像得到的特征)表示的第7 個部件的可解釋權重.數值越大表示在訓練過程中,深度學習模型認為這一部件的判別力越強,通過這一部件可以更有效地將不同身份的行人區分開來.

在使用測試集所有圖像生成的可解釋權重中,每幅圖像的第7 個部件(全局特征)權重大于任意一個局部人體部件的可解釋權重,說明網絡認為關注整體的全局特征與單個關注細節的人體部件特征相比,判別性更強.而第7 個部件權重小于其他6個部件權重之和,一方面說明局部的身體部件同樣具有判別性較強的特征,使用部件特征處理行人重識別任務仍可以獲得較好的效果[34];另一方面說明全局特征可以作為局部特征的有效補充,二者可以組成更加魯棒的特征表示,進一步提高行人重識別精度.

圖8(a)中,短褲對應的第4 個部件的可解釋權重較除整體外的其他5 個部件高,這與人類直觀的反應相一致;圖8(b)中,行人條紋上衣對應的可解釋權重相對較高,這也是與人類的直觀反應相一致.值得注意的是,Market-1501 這個數據集是2015 年夏天在清華大學校園內采集的,男生和女生身著短褲的居多,而短褲往往顏色鮮明,所以經過Market-1501 數據集訓練的部件可解釋權重模型,對于大腿這個部件尤為敏感,這也是為什么在圖8(b)中,大腿部件同樣會出現較高權重的原因.

在美國杜克大學冬天采集的數據集中,因為冬天下身服裝多為深色,判別性不強,所以并沒有出現像Market-1501 數據集中那樣對于大腿部件的較高響應.對于圖8(c),網絡將注意力集中在白色帽子對應的第1 個部件上,注意力權重較高;對于圖8(d),網絡將注意力集中在白色的羽絨服,對應著第2 個和第3 個部件;圖8(e)由于該行人的服裝整體顏色較暗,并沒有特征顯著的區域,因此除全身以外的6 個部件的特征所占權重幾乎相同.

2)人群主觀測評結果

為了體現本文可解釋模型生成權重的相對大小與人類直觀判斷的一致性,本部分進行了一項問卷調查,作為主觀評測依據.測評樣本采用與前面實驗相同的5 幅圖像,邀請50 位在校大學生進行問卷調查,對5 幅圖像中的6 個行人部件(頭、上軀干、下軀干、大腿、小腿、腳)進行選擇打分.打分等級分別為:很明顯、較明顯、一般、較不明顯、不明顯,分別對應5 分、4 分、3 分、2 分、1 分,用來表示測試者對行人部件顯著性的判斷.如果測試者認為頭部更能引起測試者的注意,那么他會在頭部對應的選項中選擇“很明顯”,對應的顯著得分為5 分.

將每幅行人圖像同一部件的顯著投票得分(5個選項的得分之和)累加并除以投票總人數來計算該部件平均得分,并用該部件平均得分除以總分(5 × 6=30),從而得到人類主觀顯著性判斷相對得分(以下簡述為相對得分),表示該部件相對于該圖像其他部件的顯著程度,得分較高的部件表示受到了測試者較多的注意,即對應著顯著性較高的人體部分.本文之所以使用投票平均得分除以總分來計算相對得分,而不是使用投票平均得分除以6 個部件的投票總得分,是因為前者對所有圖像都除以固定的總分(30 分),不僅可以體現出某部件相對于同一行人其他部件的顯著性(進行同一行人部件之間相對得分的比較),還可以直接通過相對得分,比較不同行人部件之間的顯著性.主觀測評階段的相對得分展示如圖9 所示(行人圖像左側為投票平均得分,右側為相對得分).

圖9 主觀測評結果Fig.9 The display of subjective evaluation results

圖9(a)中,測試者大多數認為第4 個部件(大腿)容易引起注意,因此得到了最高的投票得分,平均分為4.06,相對得分為0.14,在所有部件中得分最高.圖9(b)中,該行人的條紋上衣吸引了最多的測試者的注意.其條紋上衣對應的第2 個和第3 個部件的平均得分分別為3.88 和3.92,相對得分都為最高的0.13.后3 幅圖像選擇于DukeMTMC-re-ID 數據集,圖9(c)中,測試者認為行人白色的帽子最具有判別性,在參與測試的50 個測試者中,有28 個測試者對于頭部這個部件選擇了“很明顯”,有15 個測試者選擇了“較明顯”,平均得分為4.31,相對得分為最高的0.15.圖9(d)中,測試者認為行人頭發的顏色以及白色的羽絨服最具有判別性,第1 個部件對應著頭部,有22 位測試者選擇“很明顯”,有18 位測試者選擇“較明顯”,平均得分為4.16,相對得分為0.14;第2 個和第3 個部件對應的是白色的羽絨服,分別有23 位及18 位測試者選擇“很明顯”,平均得分為4.16 及3.96,相對得分分別為0.14 及0.13.圖9(e)中,由于該行人的服裝整體顏色較暗,并沒有特征顯著的區域,測試者的結果也顯示,大多數測試者對于每個部件選擇“一般”或者“較不明顯”,部件整體的平均得分相比于其他行人較低.

3)可解釋權重與主觀測評結果對比

由于全局部件權重比任何一個局部部件的可解釋權重大的特殊性,以及在下文人群主觀測評中額外加入完整圖像對人的主觀判斷造成的影響(完整圖像與局部部件的顯著性不便于直觀比較),所以下文進行的可解釋權重生成和主觀測評結果的對照僅考慮前6 個部件,這樣可以通過權重與測評結果部件之間的相對大小,得出顯著性模型可解釋權重與人群主觀評價的一致性.比較結果如圖10 所示,左側數值為可解釋注意力部件模型生成的可解釋權重,右側數值為主觀測評得到的相對得分.

圖10 可解釋權重與主觀測評結果對比Fig.10 Comparison of interpretable weights and subjective evaluation results

可以看到,通過本文顯著性模型生成的可解釋權重與人群主觀評測結果基本一致.圖10(a)中模型與測試者的注意力均集中在腰部至大腿之間,也就是第4 個部件;圖10(b)中模型與測試者的注意力均集中在上衣,對應著第2 個和第3 個部件,唯一不同的是,因為清華大學數據集中行人大腿部分裸露較多及短褲顏色鮮艷等自身數據集的特點,會使模型對腰部至大腿這一部件有較高的響應.圖10(c)中模型與測試者的注意力均集中在白色的帽子,模型輸出的第1 個部件的權重最高,與人群主觀測試結果一致.圖10(d)中模型與測試者的注意力均集中在上半身,對應著該行人的金色的頭發以及白色的羽絨服.圖10(e)中的行人因為衣服整體顏色較暗,無明顯的高判別性的特征,因此人群主觀測評結果顯示,人們認為各部件之間顯著程度相似且顯著得分較低,同時網絡模型輸出的可解釋權重之間相差無幾,表示模型認為行人中沒有具有高判別性的部件,與人群主觀測評結果基本一致.由此證明本文提出的部件顯著性模型輸出的可解釋權重與人類對于顯著性的認知基本相同,賦予了深度學習網絡在訓練過程中的可解釋性,幫助我們更好地理解網絡模型對于行人圖像的認知和判斷.

4 結束語

本文詳細介紹了一種基于可解釋注意力部件模型的行人重識別方法,該方法可以根據部件特征的顯著性程度生成可解釋權重,獲得行人重識別模型對行人圖像顯著性的判斷,提高深度學習模型的可解釋性.實驗結果驗證了本文方法的有效性.在未來的工作中嘗試使用孿生網絡來獲取屬于同一行人身份的特征區域依據,進一步提高行人重識別模型的可解釋性.

猜你喜歡
特征實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 国产无码高清视频不卡| 国产 在线视频无码| 色综合五月婷婷| 精品综合久久久久久97| 五月激情婷婷综合| 91系列在线观看| 国产96在线 | 久久免费观看视频| 国产成人盗摄精品| 97国产精品视频自在拍| 久夜色精品国产噜噜| 国模粉嫩小泬视频在线观看| 久久性妇女精品免费| 91免费国产在线观看尤物| 国产高清毛片| 人妻无码一区二区视频| 亚洲欧美不卡视频| yjizz视频最新网站在线| 亚洲看片网| 老司机精品一区在线视频| 国产91视频观看| 久久亚洲AⅤ无码精品午夜麻豆| 伊人丁香五月天久久综合| 无码综合天天久久综合网| 国产91av在线| 欧美成a人片在线观看| 久青草国产高清在线视频| 国产欧美精品午夜在线播放| 看看一级毛片| 亚洲品质国产精品无码| 18禁不卡免费网站| 国产成在线观看免费视频| 日韩专区第一页| 国产黄色视频综合| 国产精品hd在线播放| 国内精自视频品线一二区| 亚洲国产中文欧美在线人成大黄瓜| 欧美日韩导航| 青青热久麻豆精品视频在线观看| 国产va视频| AV色爱天堂网| 无码内射在线| 欧美黄网站免费观看| 国产主播一区二区三区| 久久国产V一级毛多内射| 色欲色欲久久综合网| 无码AV日韩一二三区| 国产精品无码久久久久AV| 国产第一色| 亚洲成人一区二区| 伊人成色综合网| 日本黄色a视频| 久久永久免费人妻精品| 欧美无专区| 亚洲无码精品在线播放| 国产一区二区丝袜高跟鞋| 91午夜福利在线观看| 亚洲AV无码乱码在线观看裸奔 | 婷婷五月在线| 98超碰在线观看| 天堂网亚洲综合在线| 日韩大乳视频中文字幕| 精品无码人妻一区二区| 国产精品专区第1页| 国产综合在线观看视频| 日韩AV无码免费一二三区| 欧美在线精品怡红院| 中文字幕66页| 亚洲高清日韩heyzo| 亚洲无码熟妇人妻AV在线| 国产精品香蕉在线观看不卡| 91在线中文| 青青热久麻豆精品视频在线观看| 国产网站免费| 国产成人亚洲毛片| 中文字幕无码制服中字| 国产白浆视频| 国产成人h在线观看网站站| 一区二区三区在线不卡免费| 亚洲精品福利视频| 91精品专区| 国产高清不卡视频|