陸 萍 董虎勝 鐘 珊 龔聲蓉
1(蘇州經貿學院信息技術學院 江蘇蘇州 215009) 2(浙江大學計算機科學與技術學院 杭州 310027) 3(常熟理工學院 江蘇常熟 215500)
在具有不重疊視域的攝像機監控網絡中,根據行人表觀信息進行跨攝像機身份關聯的工作也被稱為行人再識別[1],它是實現對特定目標的檢索[2]、持續跟蹤[3]和行為分析等智能視頻監控應用的一項關鍵技術.由于受到光照、視角、姿態與遮擋等因素的影響,同一行人在不同攝像機拍攝的畫面中可能會呈現出很大的外觀差異,這給行人再識別帶來了相當大的困難.由于在智能視頻監控中具有廣闊的應用前景,行人再識別引起了計算機視覺與機器學習領域廣泛的關注并開展了大量的研究[4-6].
目前對行人再識別的研究可分為傳統方法與基于深度學習的方法兩大類.其中深度學習方法需要有大量標注的訓練數據,因此在大型數據集上通常能夠取得比較優秀的性能[7-8].但在較小的數據集上,深度學習模型極易發生過擬合問題,在性能上仍弱于傳統的方法.本文工作主要關注小數據集上的行人再識別問題,且歸屬于傳統方法類別.應用傳統方法的行人再識別工作主要從特征描述子設計與度量學習算法兩個方面來開展.
為了從行人圖像中獲取具有判別性的表觀信息,研究人員設計了一系列用于行人圖像匹配的特征描述子,如局部最大出現特征[6](local maximal occurrence, LOMO)、顯著顏色名稱[9](salient color names, SCN)、條狀加權直方圖[10](weighted histograms of overlapping stripes, WHOS)等,它們有力地促進了行人再識別研究的進展.但是由于不同攝像機下行人外觀常常會存在很大的差異,同一攝像機下還會有行人外觀相近的情況,以及特征描述子在語意上的模糊性等原因,使得特征描述子的表達能力受到了一定的限制.
直接在原始特征表達空間中進行行人再識別的準確率通常都比較低,通過學習度量矩陣將它們投影到更具判別性的子空間中通常能夠帶來比較顯著的性能提升[11].度量學習旨在從訓練數據中學習到某一特定的投影空間,使得具有相同標簽的行人圖像在該嵌入子空間中距離被收縮,而具有不同標簽的圖像之間的距離被拉大[12-13].盡管度量學習方法能夠獲得更為優秀的匹配效果,它們仍然會受到特征表達能力的影響.
針對行人外觀描述子與距離度量表達能力受限的問題,本文提出了一種基于跨視角判別詞典嵌入(cross-view discriminative dictionary learning with metric embedding, CDDM)的行人再識別匹配模型.在該模型中通過學習跨視角的判別詞典將原始特征表達為過完備基(over-complete basis)的組合系數向量,從而獲得比原始特征描述子更為魯棒的表達.但與文獻[14-15]等僅學習詞典表達的方法不同,本文方法還利用了訓練樣本及標簽中蘊含的距離約束信息,在學習判別詞典的同時聯合學習了一個度量矩陣來進行子空間嵌入,這樣就可以在更具判別性的子空間中進行行人相似度的匹配.針對不同攝像機下行人圖像正負樣本對數量嚴重不均衡引起的度量偏差問題,本文還設計了樣本對自適應權重分配策略.在VIPeR,GRID,3DPeS數據集上的實驗結果驗證了本文算法的有效性.
在行人再識別的研究工作中,特征設計受到關注相對較早.為了抑制各種引起行人外觀變化的因素,在行人再識別特征描述子的設計中大多使用了顏色、紋理與形狀等信息.在Liao等人[6]設計的LOMO描述子中,從滑動窗口中提取了聯合HSV直方圖和尺度不變局部三值模式(scale invariant local ternary pattern, SILTP),并運用最大池化(max pooling)操作來增強描述子的抗視角變化能力.Matsukawa等人[16]使用層次化的高斯模型來表達圖像的顏色信息,設計了高斯化高斯(Gaussian of Gaussian, GOG)描述子.Yang等人[9]從像素概率分布的角度提出了顯著顏色名稱SCN特征.Zhao等人[17]通過學習最具有判別性的中層濾波器特征來表達行人圖像外觀.Ma等人[18]設計了使用協方差描述的生物啟發特征(bio-inspired features, BIF).
在獲得行人圖像的特征描述子之后,度量學習能夠利用訓練數據的標簽信息,根據特定的距離約束來學習獲得更有效的距離計算模型,取得更高的行人再識別準確率.Mignon等人[19]設計了成對約束元件分析(pairwise constrained component analysis, PCCA)算法從高維樣本中學習投影子空間;Liao等人[20]提出了對訓練樣本采用不對稱加權策略的度量學習方法.Zheng等人[21]提出了概率相對距離比較模型(probabilistic relative distance comparison, PRDC),You等人[22]在引入更嚴格的最近負樣本約束后設計了“頂推”(top push)學習模型.利用貝葉斯準則,K?estinger等人[23]提出了具有閉合形式解的簡單直接度量(keep it simple and straightforward metric, KISSME)學習方法.Liao等人[6]對KISSME加以改進后提出了聯合學習度量矩陣與投影子空間的跨視角二次判別分析(cross-view quadratic discriminant analysis, XQDA)方法.
從訓練數據中學習判別性詞典能夠將原始特征表達為更魯棒的組合系數向量,實現對原始特征的變換[24].在文獻[25]中,Liu等人通過學習跨視角的半監督耦合詞典來匹配行人圖像.Prates等人[26]通過學習核化的跨視角詞典,使用協同表達向量來對行人圖像進行匹配.Zhang等人[27]為每個行人學習了支持向量機(support vector machine, SVM)的判別向量,并進一步創建最小二乘半耦合詞典.Srikrishna等人[14]通過對相互關聯的稀疏編碼施加判別約束來解決行人圖像因視角變化引起的差異.Kodirov等人[28]通過引入L1范數的拉普拉斯圖正則項來進行無監督的行人再識別.
與上述工作不同,本文方法采用了聯合學習度量矩陣與判別詞典的策略.在學習模型中充分挖掘了不同視角下詞典表達的內在聯系與距離約束,把度量學習與詞典學習的優勢結合起來進行行人再識別.


(1)

在行人再識別中,需要對不同攝像機下捕捉到的行人圖像進行相似度匹配.但采用式(1)學習到的詞典無法捕捉不同視角下數據的內在結構,針對該問題,在本文方法中為每個攝像機視角分別學習了詞典表達.設Xp∈Rd×n與Xg∈Rd×n分別為訓練集中檢測集(probe set)與匹配集(gallery set)的特征矩陣;Y∈Rn×n為它們之間的匹配標簽矩陣;D∈Rd×m為對應的判別詞典;可以建立的跨視角判別詞典學習模型為

(2)
其中,λ1為調節系數;Zp∈Rm×n和Zg∈Rm×n分別指代Xp與Xg在使用詞典D表達時的組合系數向量,也就是變換后的特征表達.式(2)的前2項表達了學習詞典對原始特征數據的重建誤差,后2項為正則項,用來抑制模型的過擬合風險.
盡管式(2)能夠描述跨視角行人圖像數據的內在結構,但是對訓練數據與標簽中蘊含的距離約束信息卻未能有效利用.在行人再識別中,我們希望不同攝像機視角下正確匹配圖像(正樣本對)之間距離應盡可能的小,而錯誤匹配圖像(負樣本對)間的距離要盡可能的大,從而在正、負樣本之間建立起一個距離間隔.這樣就可以在給定某一檢索圖像后,達到將正確匹配圖像從所有待匹配圖像中識別出來的目標.為此,本文引入的約束損失函數為

(3)


(4)
其中M為待求解的距離度量矩陣,其半正定性(M0)保證了dM能夠滿足距離所需的三角不等式與非負性.對M可進一步作Cholesky分解得M=WTW,因此式(3)等價于:

(5)
在行人再識別中,由于不同攝像機下錯誤匹配行人圖像的數量遠多于正確匹配圖像,這會使得學習到的度量矩陣傾向于將所有行人圖像對判定為錯誤匹配,引起度量偏差問題[20].為了解決該問題,可以采用從訓練樣本鄰域學習度量矩陣的方案[29],通過減少容易識別的負樣本對在模型中的貢獻度來抑制數據不平衡問題.由此可以把整個訓練集上的損失函數表達為
(6)



(7)



Fig. 1 Partition of the hardmediumeasy sets圖1 困難中等容易匹配集劃分示意

根據分析,本文采用的訓練樣本對自適應加權方案為:若yij=1即為正確匹配時,取βij=1N+,這里N+為訓練集中正樣本對的數量;若yij=-1,βij取值為

(8)

根據式(2)與式(6),可以將本文提出的聯合學習跨視角判別詞典與度量嵌入的模型表達為

(9)


Fig. 2 Illustration of the adaptive weight assignment in 2-dimensional space圖2 二維空間中樣本自適應權重分配示例
在式(9)所示的模型中需要同時優化D,Zp,Zg,W這4個相互耦合的參數,模型并非關于所有參數聯合凸,因此無法對它們同時進行優化.但該模型中各項均為二次項或max函數,在固定其他參數僅優化某一變量時為凸模型,故本文采用交替優化的方法來求解各模型參數.
1) 更新Zp

(10)

(11)

2) 更新Zg
與優化Zp類似,在對式(9)固定D,Zp,W,對Zg進行優化時也需要采取逐列優化zg的方式,最終可以獲得的解表達式為

(12)

3) 更新D
在固定Zp,Zg,W對式(9)僅考慮D的優化時,等價于二次規劃問題:

聚焦精準施策。強化因村因戶因人施策,在全面實施脫貧攻堅“十大工程”的基礎上,結合實際,突出重點,分類施策,實施產業扶貧全覆蓋,推廣“選準一項優勢主導產業、組建一個合作組織、設立一筆貸款風險補償金、落實一個部門幫扶機制”四位一體的產業扶貧模式,因地制宜扶持貧困戶發展特色種養業及鄉村旅游、光伏、電商等新興產業實現增收脫貧。實施健康扶貧再提升,在全面筑牢基本醫保、大病保險、補充保險、醫療救助四道防線基礎上,探索“愛心”救助的第五道保障線。同時,推進教育扶貧再對接、易地扶貧搬遷再精準、貧困村村莊整治再推進重點工程,確保扶到點上、幫到根上。
(13)
為簡化求解,這里令X=(Xp,Xg)表示檢索集特征矩陣與匹配集特征矩陣的拼合矩陣;類似地,令Z=(Zp,Zg)為學習到的系數矩陣的拼合.對式(13)應用拉格朗日對偶方法可以解得:
D=XZT(ZZT+Λ*)-1,
(14)
其中,Λ*為由最優對偶變量組成的一個對角矩陣.在實際運算時ZZT+Λ*可能會出現奇異的情況,此時可以進行適當的正則平滑或取偽逆.
4) 更新W
在固定Zp,Zg,D時,式(6)關于W的優化目標等價于:
(15)
對式(15)計算關于W的導數:
(16)


(17)

最終,本文提出的聯合學習跨視角判別詞典與嵌入矩陣的算法模型可以被描述為算法1所示的流程框架,本文將其稱為跨視角判別詞典嵌入(cross-view discriminative dictionary learning with metric embedding, CDDM)算法.
算法1.跨視角判別詞典嵌入(CDDM)算法.
輸入:訓練集特征矩陣Xp,Xg,標簽矩陣Y,參數λ0,λ1,λ2;
初始化:根據式(2)獲得初始的D,Zp,Zg,W=I,μ=E[dI(zp,zg)];
① fort=1,2,…,Tdo
② 根據式(4)(7)(8)計算βij;
③ 根據式(11)更新Zp;
④ 根據式(12)更新Zg;
⑤ 根據式(14)更新D;
⑥ while不收斂do

⑨ end while
⑩ end for



(18)
2) 采用類似過程1)的方法根據式(18)獲得xpt的系數表達zpt.

4) 對距離向量d排序,獲得各匹配圖像按距離升序排序的列表.
本節對提出的跨視角判別詞典嵌入算法CDDM在VIPeR,GRID,3DPeS這3個常用的行人識別數據集上進行了性能測試,并對實驗結果進行了比較和分析.
1) 數據集
實驗使用3個數據集:
① VIPeR[30]是最早公開的專門用于檢測行人再識別算法性能的數據集,在行人再識別的研究中應用最為廣泛.該數據集中包含有從2個不重疊攝像機視角下拍攝的632個行人,每個行人在各攝像機下均只有1張圖像,因此該數據集共有1 264張圖像.這些行人圖像已經被統一為128×48的像素大小,他們在不同視角下的外觀差異主要來自于強烈的光照變化、姿態與視角差異.
② GRID數據集[3]由安裝在地鐵站中的8臺攝像機拍攝獲得,行人圖像被組織到了檢索集Probe與匹配集Gallery 2個目錄下.其中有250個行人在2個目錄下各有1張圖片,Gallery目錄下還有775個行人在Probe下沒有正確匹配的圖像.由于存在干擾圖像和強烈的光照視角變化,以及攝像機視角數多達8個,在GRID數據集上的行人再識別工作相當困難.
③ 3DPeS數據集[31]中包含有從8個攝像機視角下拍攝的192個行人,每個行人的圖像數為2~26張不等.由于3DPeS在采集時持續了數天中不同的時間段,因此該數據集中的圖像存在強烈的光照變化,另外行人在不同攝像機下的姿態差異也比較大.
圖3給出了從上述3個數據集中隨機選取的部分行人圖像示例,每一列的2張圖像取自于同一行人在不同攝像機下的視頻畫面.

Fig. 3 Example images from VIPeR, GRID, and 3DPeS圖3 VIPeR,GRID,3DPeS數據集中部分行人圖像
2) 特征提取
實驗中采用了文獻[32]中改進后的局部最大出現特征和使用深度殘差網絡[33](deep residual net, ResNet)提取的深度特征來表達行人圖像.在文獻[32]設計的特征描述子中融合了從密集網格提取的LOMO[6]描述子與從圖像前景兩層水平條空間中提取的LOMO變體,其中使用的基本特征有聯合HSV與RGB顏色直方圖、局部三值模式(local ternary pattern, LTP)和顯著顏色名稱SCN特征.該描述子中從密集網格提取的特征能夠比較好地捕捉圖像的細節,從水平條中提取的特征能夠更好地刻畫圖像的整體外觀,兩者的融合賦予了描述子“由粗到細”的行人外觀表達能力.在使用深度殘差網絡提取圖像特征時,使用了在ImageNet上訓練好的152層的ResNet-152網絡,提取的特征為2 048維.
3) 參數設置
實驗中模型的超參數通過交叉驗證獲得,具體設置為λ0=1,λ1=0.2,λ2=0.1.在使用梯度下降更新W時,學習率η的初始值設為0.01;在迭代中若目標函數值下降則對η擴大1.2倍,否則對η乘上0.9的收縮因子.在選擇詞典基的數量時取m=200,關于基數量的選擇將在3.4節中作進一步的討論.
4) 評價方案與指標
實驗中對各數據集均采用了單張-單張(single-shot vs single-shot)的匹配測試方案,由于在3DPeS中每個行人的圖像數不等,因此與文獻[34]中的方法相同,對每個行人隨機選擇一張圖像用于檢索,剩余圖像均作為匹配集.在評價指標上選擇了在行人再識別研究中應用最為廣泛的累積匹配特征(cumulative matching characteristic, CMC)曲線,它反映了在前個匹配集圖像中發現正確匹配的概率.為了便于和文獻公開的方法作性能對比,在表格中僅選擇了CMC曲線部分排序位置(rank)上的匹配精度.為了獲得更具有魯棒性的實驗結果,在每個數據集上都進行了10次隨機的訓練集測試集劃分,取它們的平均CMC作為最終實驗數據.
實驗中首先把本文CDDM算法在各個數據集上取得的行人再識別結果與文獻中公開的數值進行了對比.
在VIPeR數據集上進行行人再識別時采用了當前應用最為廣泛的等量劃分方案,數據集中632個行人被劃分為2組,每組316個行人.其中一組作為訓練集,另一組作為測試集.實驗對比的方法包含有監督平滑流形[35](supervised smoothed mani-fold, SSM)方法、空間約束相似度學習34](spatial constrained similarity learning on polynomial feature map, SCSP)算法、零空間Foley-Sammon變換[11](null Foley-Sammon transform, NFST)、度量組合[13](metric ensemble, ME)、攝像機相關性已知的特征擴增[36](camera correlation aware feature augmentation, CRAFT)、加權線性編碼[37](weighted linear coding, WLC)、基于核化跨視角協同表達分類[26](kernel cross-view collaborative representation based classification, KX-CRC)、基于加速近鄰梯度的度量學習[20](metric learning by accelerated proximal gradient, MLAPG)、XQDA[6]、GOG[16]、深度多層相似度[5](deep multi-level similarity, DMS)和SpindleNet[7]等.
表1與圖4(1)由于表1中部分方法未公開代碼或CMC,因此未能全部繪制.給出了CDDM算法及其他算法在VIPeR數據集上的行人再識別結果對比.從對比結果可以看出CDDM在性能上明顯優于其他方法.特別是在rank-1上,CDDM取得了60.93%的正確匹配率,也是唯一達到60%匹配率的方法.和此前SpindelNet取得的最優結果53.80%相比,CDDM比其高出了7.13%,這充分展現了CDDM優異的性能.在其他的各個rank上,CDDM也表現出顯著的性能優勢.在對比方法中,SpindelNet,CRAFT,DMS都是基于深度學習模型的方法,但是在VIPeR數據集上由于樣本相對較少,無法完全發揮它們的性能,雖然它們在rank-1上都達到50%以上的匹配率,但整體性能仍相對較弱.在對比方法中SSM,SCSP,NFST,MLAPG,XQDA等均為度量學習算法,KX-CRC與WLC為基于詞典學習的方法,與它們相比,CDDM聯合學習了判別詞典與度量矩陣,能夠同時利用兩者的優勢,因此具有更強的匹配性能.
在GRID數據集上,實驗中將在Probe與Gallery目錄下都有圖像的250人均分為2組.其中一組作為訓練集,另一組和Gallery目錄下的775張干擾圖像作為測試集.在該數據集上本文CDDM算法與樣本獨立的SVM[27](sample specific SVM, SSSVM),NK3ML[38](nullspace kernel maximum margin metric learning)等其他文獻中公開的結果對比如表2和圖5所示.從表2可知,CDDM再次取得了最優的結果.在rank-1上CDDM取得的正確匹配率達到了28.20%,比此前最優的NK3ML和SSM高出了1%,在其他rank上CDDM也取得了更為優秀的再識別性能.這說明CDDM能夠較好地應對GRID數據集中復雜的視角變化與光照等干擾.
Table 1Performance Comparison of CDDM with State-of-the-Art Algorithms on VIPeR
表1 CDDM與其他算法在VIPeR數據集上匹配率對比%

Methodrank-1rank-5rank-10rank-20ReferenceCDDM60.9386.6893.8998.35OursSpindelNet53.8074.1083.2092.10Ref[7]SSM53.7391.49 96.08Ref[35]SCSP53.5482.5991.4996.65Ref[34]KX-CRC51.4081.2089.7095.60Ref[26]WLC51.4076.4084.80Ref[37]NFST51.1782.0990.5195.52Ref[11]CRAFT50.2879.9789.5695.51Ref[36]DMS50.1073.1084.35Ref[5]GOG49.7279.7288.6794.53Ref[16]ME45.9077.5088.9095.80Ref[13]MLAPG40.7369.9682.3492.37Ref[20]XQDA40.0068.1380.5191.08Ref[6]

Fig. 4 CMC curves of different algorithms on VIPeR dataset圖4 不同算法在VIPeR數據集上的CMC曲線
在3DPeS數據集上實驗時采用了與文獻[34]相同的數據集分割方案,從該數據集隨機選擇96人作為訓練集,剩余96人作為測試集.對于每個行人,隨機選擇一張圖像來創建匹配集,剩余圖像均用于檢索.在該數據集上與本文CDDM算法進行對比的方法有核化局部Fisher線性判別[39](kernel local Fisher discriminant analysis, KLFDA)、深度排序大間隔度量學習[40](deep ranking by large adaptive margin learning, DRLAML)、域引導丟棄方法[41](domain guided dropout, DGD)、SpindelNet、SCSP和ME.表3列出了這些算法在rank1,5,10,20上取得的累積匹配正確率.
Table 2Performance Comparison of CDDM with State-of-the-Art Algorithms on GRID
表2 CDDM與其他算法在GRID數據集上匹配率對比%

Methodrank-1rank-5rank-10rank-20ReferenceCDDM28.2052.4064.0074.10OursNK3ML27.2060.9671.04Ref[38]SSM27.2061.1270.56Ref[35]KX-CRC26.9045.7057.5070.20Ref[26]CRAFT26.0050.6062.5073.30Ref[36]GOG24.7246.9658.4068.96Ref[16]SCSP24.2444.5654.0865.20Ref[34]SSSVM22.4040.4051.2861.20Ref[35]MLAPG16.6433.1241.2052.96Ref[20]XQDA16.5633.8441.8452.40Ref[6]

Fig. 5 CMC curves of different algorithms on GRID dataset圖5 不同算法在GRID數據集上的CMC曲線
從表3中的數據可以看出與其他方法相比,本文CDDM算法取得的匹配結果依然領先于其他方法.在rank-1上CDDM的匹配率為65.57%,比排在第2名的SpindelNet高出了3.47%,在其他rank上也均優于各對比方法.盡管基于深度學習方法的SpindelNet,DGD,DRLAML在該數據集上的識別性能比其他方法有所提升,但仍弱于本文CDDM算法.與SCSP,ME,KLFDA等度量學習方法相比,CDDM也具有明顯的性能優勢.
Table 3Performance Comparison of CDDM with State-of-the-Art Algorithms on 3DPeS
表3 CDDM與其他算法在3DPeS數據集上匹配率對比%

Methodrank-1rank-5rank-10rank-20ReferenceCDDM65.5784.5391.6096.24OursSpindelNet62.1083.4090.5095.70Ref[7]DRLAML58.3074.0088.50Ref[40]SCSP57.2978.9786.0291.51Ref[34]DGD55.2076.4084.9091.90Ref[41]ME53.3376.7984.9592.78Ref[13]KLFDA54.0277.7485.9092.38Ref[39]
在3.2節的行人再識別結果數據對比中,盡管各算法模型均采用了相同的數據集劃分方案,但是各模型的結構與使用的特征描述子各不相同,因此性能對比中必然存在一定的不公平性.特別是對于SpindelNet[7]等基于深度學習的方法,盡管已經取得比較優異的性能,但是受到數據集中樣本數量較少的限制,它們的性能難以得到完全發揮.為了進一步對CDDM算法的性能進行分析,本節對CDDM與其他可獲得源碼的算法在采用相同特征時的再識別性能進行了測試.實驗中對比的方法有SSSVM,MLAPG,XQDA,KLFDA,NFST,KX-CRC,其中SSSVM和KX-CRC為學習判別詞典的方法,其余為度量學習方法.
采用本文使用的特征描述子,在3個數據集上各算法取得的CMC曲線及rank-1匹配率如圖6所示.從圖6可以看出本文CDDM算法在3個數據集上均取得了優于其他算法的匹配性能.在VIPeR數據集上,CDDM的rank-1匹配率為60.93%,排在第2名的是XQDA,其正確匹配率為58.72%,比CDDM弱了2.21%.在GRID與3DPeS數據集上,排在第2名的方法分別是NFST和XQDA.與它們相比,CDDM分別具有1.08%和3.33%的rank-1性能優勢.綜合各方法在3個數據集上的再識別性能可以發現,在使用相同特征描述子時,盡管各方法在不同數據集上的性能會存在差異,但是本文CDDM由于同時學習了判別詞典與度量矩陣,始終表現出最優的行人再識別性能.該實驗充分說明了聯合學習判別詞典與度量矩陣所帶來的優勢.

Fig. 6 Performance comparison of CDDM with other algorithms using the same feature representation圖6 采用相同特征描述子時CDDM與其他算法的性能對比
在本文提出的CDDM算法中,學習的判別詞典中基向量的數量、樣本對權重的分配、使用的特征描述子等均會給算法的最終性能帶來很大的影響,在本節實驗中對它們分別進行了分析.
1) 詞典基向量數量對算法性能的影響
圖7給出了在VIPeR,GRID,3DPeS數據集上,采用本文CDDM算法進行行人再識別時不同的詞典基向量數量對rank-1正確匹配率的影響.從圖7可以看出,隨著詞典基向量數量的增長,各數據集上的rank-1匹配率均呈上升趨勢;但在詞典數達到200后,各匹配率基本上保持穩定.因此,本文選擇了200作為詞典基向量數.
2) 聯合學習判別詞典與距離度量的作用
在本文CDDM算法中聯合學習了判別詞典與度量矩陣,為了驗證聯合學習度量矩陣所帶來的性能提升,實驗中將算法1中的投影矩陣設置為單位矩陣進行了實驗(下面標記為CDDI),并與CDDM作了對比.表4給出了它們在不同數據集上的實驗結果,從表4數據可知聯合學習判別詞典與度量矩陣時,CDDM的匹配性能顯著優于CDDI.在VIPeR,GRID,3DPeS上,CDDM的rank-1匹配率比CDDI分別高出了7.13%,4.88%,5.15%,說明聯合學習度量矩陣更有助于發現數據的內在結構,獲得的投影子空間比使用歐氏距離具有更優的判別性.
3) 融合深度特征與手工特征帶來的性能提升
本文實驗中使用了手工設計的特征描述子(標記為HCFeat)與ResNet152學習到的深度特征表達(標記為DeepFeat),圖8給出了它們在融合使用(標記為ConFeat)與獨立使用時獲得的CMC曲線.從圖8可以發現2種特征融合后取得的匹配性能顯著優于分開獨立使用時的結果,本文認為這主要是因為它們捕獲了具有互補性的圖像低層外觀與高層語意信息.

Fig. 7 Influence of the number of bases for dictionary learning on rank-1 matching rate圖7 詞典基向量數m對rank-1匹配率的影響

Fig. 8 Performance comparison of feature descriptors圖8 特征描述子性能對比

Table 4 Matching Rate Comparison of CDDM with CDDI表4 CDDM與CDDI匹配率對比 %
4) 樣本對的權重分配對算法性能的影響
為了降低不均衡訓練樣本帶來的度量偏差問題,本文采用了自適應的樣本對權重分配策略.為了考查樣本對權重分配對算法性能的影響,實驗中對所有樣本對在不考慮權重(設置式(8)中βij=1)時的匹配性能與使用式(8)權重分配方案取得的結果進行性能對比.圖9給出了這2種情況下在各數據集上的rank-1匹配率.從圖9可以發現,使用了自動權重分配策略比不考慮權重分別帶來了7.07%,3.68%,8.66%的性能提升,說明本文權重分配策略對訓練樣本數量不平衡引起的度量偏差問題具有良好的抑制作用.

Fig. 9 Comparison of rank-1 matching rate圖9 rank-1匹配率對比
本文提出了一種跨視角判別詞典嵌入的行人再識別算法,該算法中通過交替迭代優化的方式聯合學習了跨視角的判別性詞典和嵌入子空間,從而將詞典表達與度量學習的優勢結合了起來.為了降低在學習距離度量時由于正負樣本對數量不均衡帶來的度量偏差問題,在算法中還引入了對訓練樣本自適應賦予權重的策略.在3個廣泛使用的行人再識別數據集上的實驗結果表明,本文方法取得了優秀的跨視角行人再識別性能.由于當前的工作主要關注于小數集上的行人再識別,在后續的工作中將嘗試基于深度學習模型學習判別詞典,并應用到更接近現實場景的大型數據集上.