鄧軒 廖開陽 鄭元林 袁暉 雷浩 陳兵



摘 要:傳統手工特征很大程度上依賴于行人的外觀特征,而深度卷積特征作為高維特征,直接用來匹配圖像會消耗大量的時間和內存,并且來自較高層的特征很容易受到行人姿勢背景雜波影響。針對這些問題,提出一種基于深度多視圖特征距離學習的方法。首先,提出一種新的整合和改善深度區域的卷積特征,利用滑框技術對卷積特征進行處理,得到低維的深度區域聚合特征并使其維數等于卷積層通道數;其次,通過交叉視圖二次判別分析方法,從深度區域聚合特征和手工特征兩個角度出發,提出一種多視圖特征距離學習算法;最后,利用加權融合策略來完成傳統特征和卷積特征之間的協作。在Market-1501和VIPeR數據集上的實驗結果顯示,所提融合模型的 Rank1 值在兩個數據集上分別達到80.17% 和75.32%;在CUHK03數據集新分類規則下,所提方法的 Rank1 值達到33.5%。實驗結果表明,通過距離加權融合之后的行人重識別的精度明顯高于單獨的特征距離度量取得的精度,驗證了所提的深度區域特征和算法模型的有效性。
關鍵詞:行人重識別;卷積神經網絡;區域聚合特征;加權融合策略;距離度量
中圖分類號:?TP183; TP391.4
文獻標志碼:A
Person re-identification based on deep multi-view feature distance learning
DENG Xuan1, LIAO Kaiyang1,2*, ZHENG Yuanlin1,3, YUAN Hui1, LEI Hao1, CHEN Bing1
Abstract:?The traditional handcrafted features rely heavily on the appearance characteristics of pedestrians and the deep convolution feature is a high-dimensional feature, so, it will consume a lot of time and memory when the feature is directly used to match the image. Moreover, features from higher levels are easily affected by human pose or background clutter. Aiming at these problems, a method based on deep multi-view feature distance learning was proposed. Firstly, a new feature to improve and integrate the convolution feature of the deep region was proposed. The convolution feature was processed by the sliding frame technique, and the integration feature of low-dimensional deep region with the dimension equal to the number of convolution layer channels was obtained. Secondly, from the perspectives of the deep regional integration feature and the handcrafted feature, a multi-view feature distance learning algorithm was proposed by utilizing the cross-view quadratic discriminant analysis method. Finally, the weighted fusion strategy was used to accomplish the collaboration between handcrafted features and deep convolution features. Experimental results show that the Rank1 value of the proposed method reaches 80.17% and 75.32% respectively on the Market-1501 and VIPeR datasets; under the new classification rules of CHUK03 dataset, the Rank1 value of the proposed method reaches 33.5%. The results show that the accuracy of pedestrian re-identification after distance-weighted fusion is significantly higher than that of the separate feature distance metric, and the effectiveness of the proposed deep region features and algorithm model are proved.
Key words:?person re-identification; Convolutional Neural Network (CNN); regional integration feature; weighted fusion strategy; distance metric
0 引言
行人重識別問題是通過多個攝像機視圖判斷行人是否為同一目標的過程,當前已廣泛應用于跟蹤任務的視頻分析和行人檢索中。但是在實際生活中,由于行人重識別受到視角、光照、姿態、背景雜波和遮擋等因素的影響,使得行人圖像在不重疊的攝像機視圖中的差異性較大,如何減少和降低這種差異性對行人重識別的影響,是當前行人重識別中存在的巨大問題和面臨的嚴峻挑戰。
特征表示和度量學習是行人重識別系統中的兩個基本要素,而且由于特征表示是構成距離度量學習的基礎,使其在行人重識別系統中顯得尤為重要。雖然度量學習具有一定的有效性,但它很大程度上取決于特征表示的質量。因此,當前許多研究致力于開發更加復雜和具有魯棒性的特征,用以描述可變條件下的視覺外觀,可以將其提取的特征劃分為兩類:傳統特征和深度特征。
部分學者對傳統特征的研究多集中于設計具有區分性和不變性特征,著手于不同外觀特征的拼接,克服了重識別任務中的交叉視圖的外觀變化,使得識別更加可靠。Liao等[1]提出局部最大出現特征(Local Maximal Occurrence Feature, LOMO)來表示每個行人圖像的高維特征,不僅從圖像中提取尺度不變的局部三元模式(Scale Invariant Local Ternary Pattern, SILTP)和HSV(Hue, Saturation, Value)顏色直方圖以形成高級描述符,還分析局部幾何特征的水平發生,并最大化出現以穩定地表示行人圖像。
當前深度學習提供了一種強大的自適應方法來處理計算機視覺問題,而無需過多地對圖像進行手工操作,廣泛應用于行人重識別領域。部分研究側重于通過卷積神經網絡(Convolutional Neural Network, CNN)框架學習特征和度量,將行人重新編碼作為排序任務,將圖像對[2]或三元組[3]輸入CNN。由于深度學習需要依賴于大量的樣本標簽,因而使得該方法在行人重識別領域中具有應用的局限性。
度量學習旨在開發一種判別式匹配模型來測量樣本相似性,例如針對類內樣本數目少于類間樣本數目的情況,丁宗元等[4]提出了基于距離中心化的相似性度量算法。Kestinger等[5]通過計算類內和類間協方差矩陣之間的差異,設計了簡單而有效的度量學習方法,但是所提出的算法對特征表示的維度非常敏感。作為一種改進,Liao等[1]通過同時學習更具辨別性的距離度量和低維子空間提出了一種交叉視圖二次判別分析(Cross-view Quadratic Discriminant Analysis, XQDA)方法。從實驗結果來看,XQDA是一種可以實現高性能的魯棒性方法。
卷積神經網絡提取的特征對圖像具有較強的描述能力,通常可以提取三維的卷積特征以及單維的全連接特征向量,但卷積層特征比全連接層特征更適合用來識別圖像,故本文使用微調過的Resnet-50模型作為研究的網絡模型,提取其卷積層的特征。由于卷積特征是三維特征,如果將其展成一維的特征向量,其維數必然很高,使用高維特征在數據庫中的圖像進行匹配,必然會花費大量的時間,增加計算的復雜度。因此如何將三維特征變成一維,并能夠保證特征的簡單化是本次研究的一個核心問題,基本思路是將通過滑框操作,將三維的卷積特征壓縮成一維的特征向量。由于來自較高層的特征具有大的感受野,容易受到人類姿勢和背景雜波的污染,不能充分地應用于行人的重識別。而手工制作的不同的外觀特征,旨在克服重新識別任務中的跨視圖外觀變化,有時會更加獨特和可靠。所以本次研究的另一個核心問題是如何通過操作完成深度特征和傳統手工特征的融合,使之相互影響、互相協作,進而提高識別的準確度。于是,本次研究利用區域特征向量聚合的方法,在微調卷積神經網絡的基礎上,提出了一個新的低維深度特征向量,并提出了一種深度多視圖特征距離學習的算法模型,從深度區域聚合特征和傳統手工特征兩個角度出發,利用加權策略,以一種有效的方式完成深度特征與傳統手工特征之間的協作,用參數加權融合來調整兩個特征的相對重要性。
本文的工作主要體現在以下兩個方面:
1)提出新的區域特征向量聚合的方法,將高維卷積特征向量變成低維的全局特征向量,并提高了圖像局部信息的描述能力。
2)提出了深度多視圖特征距離學習的新方案,從深度區域聚合特征和傳統手工特征兩個角度出發,通過XQDA度量學習完成傳統特征和深度特征之間的協作,利用參數加權融合的方式來判斷傳統特征和深度特征的相對重要性。
1 相關工作
特征表示是行人重識別的基本問題。許多現有的研究集中于開發強大和復雜的特征來描述在顯著不同的條件下產生的高度可變的視覺外觀。
手工制作的特征經常用于行人識別,例如通過利用對稱和不對稱的感性主體,Farenzena等[6]提取了三種特征類型來模擬人類外觀,包括最大穩定顏色區域、加權顏色直方圖和經常性高結構色塊。LOMO通過分析局部特征的水平發生,并最大化出現以穩定地表示重新識別圖像。這些方法對解決低分辨率和遮擋圖像以及姿態、照明和視點變化帶來的識別問題都很有效。由于傳統的顏色信息不是描述顏色的最有效的方法,張耿寧等[7]將顏色標簽特征與顏色和紋理特征融合,并通過區域和塊劃分的方式提取直方圖來描述圖像特征。不同外觀組合成的傳統特征向量通常維數較高,為了解決這個問題,孫金玉等[8]提出典型相關分析(Canonical Correlation Analysis, CCA)方法進行特征投影變換,通過提高特征匹配能力來避免高維特征運算引起的維數災難問題,
鑒于CNN的成功,使用CNN學習深度特征最近受到關注。目前有許多研究在尋求行人外觀的獨特和有效特征的組合,并且證明利用集成編碼的補充信息來發現完整數據表示的多視圖特征是可行的。Wu等[2]提出的特征融合網絡(Feature Fusion Network, FFN)將卷積神經網絡(CNN)深度特征和手工提取的特征(RGB、HSV、YCbCr、Lab、YIQ五種顏色空間提取的顏色特征和多尺度多方向Gabor濾波器提取的紋理特征)相結合,認為傳統的直方圖特征可以補充CNN特征,并將兩者融合,得到了一個更具辨別性和緊密性的新的深度特征表示。Tao等[9]提出用折衷參數來完成深度特征與傳統特征的協作,文中所構建的網絡模型卷積層數少,深度特征采用全連接層特征。相比之下,對于特定任務的識別來說,較高的卷積層特征更適合用于圖像識別,故本文采用微調的深度網絡模型,并對卷積特征采用滑框操作,形成區域特征向量,并利用加權融合策略來判斷深度區域特征和LOMO特征的相對重要性。
子空間 W 通過學習優化廣義瑞利熵來得到:
J( w )=? w T Σ E w?? w T Σ I w
(5)
其中具有交叉視圖數據的子空間 W =( w 1, w 2,…, w r),表示在r維子空間中去學習交叉視圖相似性度量的距離函數。
來自不同攝像機下的一對行人樣本數據( x i, x j)在子空間 W 的距離函數如式(6)所示:
d( x i, x j)= ( x i- x j)T W ×(( W T Σ I W )-1-( W T Σ E W )-1)× W T( x i- x j)
(6)
2.4 加權融合策略
由于提出的深度特征學習模型與實際問題直接相關,但來自較高層的特征可能受到行人姿勢背景雜波等顯著變化的污染,不能充分地定位于行人的重識別;并且深度網絡依賴大量的樣本標簽,而傳統的LOMO特征與樣本數量無關,在克服重新識別任務中的跨視圖外觀變化時會更加可靠。所以整合兩種特征的編碼補充信息以克服它們各自的缺陷是有效的。
具體而言,從深度區域聚合特征和LOMO特征這兩個角度考慮,XQDA從這兩個特征分別學習測試庫和查詢庫圖像之間的距離。基于 LOMO、本文提出的DRIF兩個特征,采用式(6)定義的距離函數可分別獲取每個特征優化的距離度量,如式(7)所示:
dk( x ik, x jk)= ( x ik- x jk)T W k×(( W Tk Σ I W k)-1-
( W Tk Σ E W k)-1)× W kT( x ik- x jk)
(7)
式中:k分別代表LOMO和DRIF兩個不變特征。
為了更好地表達傳統和深度學習功能之間的協作,最終用于排序的距離可以通過以下加權平均方案將深度特征得到的距離與傳統特征得到的距離融合:
d=αdLOMO+(1-α)dDRIF
(8)
其中
參數0≤α≤1用來調整區域聚合深度特征和傳統特征的相對重要性。
3 實驗結果與分析
3.1 數據集和評估協議
本文使用三個重識別數據集,其中在兩個大規模行人重識別基準數據集Market-1501[12]和CUHK03[13]上進行實驗,這兩個數據集包含每個測試圖像的多個正樣本。另外,本文還在具有挑戰性的數據集VIPeR上進行重識別實驗。
本文使用三個重識別數據集進行實驗,包括:Market-1501[12]、CUHK03[13]和VIPeR,它們的
具體信息如表1所示。其中:#ID表示數據集中含有的行人身份;#image表示數據集中含有的行人的圖像的數量;#camera表示該數據集使用的相機的數量;evaluation表示實驗中對數據集所用的評估方法。
所有行人圖像的大小調整為224×224,用調整后的行人圖像來微調網絡,提取卷積特征。
Market-1501是目前最大的基于圖像的行人基準數據集。它包含32668個標記的邊界框,其中包含從不同視點捕獲的1501個身份,每個行人身份的圖像最多由6臺攝像機拍攝。根據數據集設置,將數據集分為兩部分:訓練集有751人,包含12936張圖像;測試集有750人,包含19732張圖像。
實驗時,從測試集中人為選取750 人,共有3368幅圖像作為查詢集合,對于查詢集中給定的行人樣本,需要在測試集中找出和該樣本一樣的行人,最后根據相似度排名給出識別結果。
CUHK03包含1467位行人的13164幅圖像。每個行人都是由CUHK校園的兩臺攝像機拍攝的,每位行人在一個攝像頭下平均有4.8張圖像。該數據庫提供了labeled和detected兩個數據集,本文對這兩個數據集分別進行了實驗。
VIPeR是行人重識別中使用最廣泛的數據集,包含632個行人,每個行人包含不同視點中的兩幅圖像,這使得難以從兩個不同的視點中匹配同一個人。此外,諸如拍攝地點、照明條件和圖像質量等其他變化也使得匹配相同行人更加困難。因此,VIPeR數據集具有挑戰性。
本文將行人重識別作為圖像檢索問題來處理,使用Rank1即第一次命中的匹配準確率和平均準確率(mean Average Precision, mAP)兩個評估指標來評估Market-1501和CUHK03數據集上重識別方法的性能,而使用累計匹配曲線(Cumulative Matching Characteristic, CMC)來評估數據集VIPeR上重識別方法的性能。
3.2 在Market-1501上的實驗
本文首先在最大的基于圖像的重識別數據集上評估提出的算法模型。在此數據集中,在微調的ResNet-50上提取最后一層卷積特征,并對產生的卷積映射進行滑框操作,產生多個局部特征向量,經過L2歸一化處理,并直接相加操作后,得到低維的深度特征,其向量維數等于卷積層通道數,故得到的新的深度特征向量維數為2048維。接著使用LOMO特征和本文提出的區域整合特征向量通過參數α的加權融合完成二者的協作。在此數據集上,本文設置滑框尺度L=4,加權參數α=0.5,用參數α加權來評估傳統LOMO特征和區域聚合深度特征的相對重要性。
與本文提出的算法模型Fusion Model進行比較的算法包括:
對稱驅動的局部特征積累(Symmetry-Driven Accumulation of Local Features, SDALF)[6],詞袋模型(Bag-of-Words model, BOW)[12],LOMO[1],CAN[14],ID判別嵌入(ID-discriminative Embedding, IDE)[15](其中IDE(C)表示所用模型為Caffe,IDE(R)表示所用模型為Resnet-50),姿態不變嵌入(Pose Invariant Embedding, PIE)[161和Spindle Net[17]。
表2的結果顯示,本文的Fusion Model與PIE(Res50)相比Rank 1性能要高1.52個百分點。本文提出了深度區域聚合特征向量(DRIF),在此特征向量的基礎上提出了距離融合模型,所以將本文的Fusion Model與DRIF相比較,Rank1的值提高了3.77個百分點,mAP值提高了5.46個百分點,說明本文提出的算法模型是有效的。
為了說明通過微調網絡得到的新的區域整合特征向量的魯棒性,將XQDA度量應用于新的區域整合向量與另外幾種已有的特征包括BOW[12]、LOMO[1]、IDE(C)[15]、IDE(R)[15]進行比較,結果如表3所示,本文提出的DRIF特征與IDE(R)特征相比Rank1值提高了4.99個百分點,mAP值提高了7.15個百分點。
圖2是三個示例圖片的查詢結果,對應每一幅查詢圖片,右邊第一行和第二行分別是使用IDE和DRIF特征得到的排名結果,框中的行人圖片表示與查詢圖屬于同一個行人。由圖2可以看出,對于DRIF特征,在排名列表頂部能夠得到更多正確匹配的行人,而正確匹配的行人圖片在IDE的排名列表中被遺漏,進一步說明本文提出的DRIF特征是具有判別性的。
3.3 在CUHK03上的實驗
在CUHK03上數據集上,本文使用類似于Market-1501的新訓練/測試協議重新評估性能。新協議將數據集分為訓練集和測試集,分別由767個行人和700個行人組成。在測試中,從每個攝像機中隨機選擇一個圖像作為每個圖像的查詢,并使用其余圖像構建測試。新協議將數據集均勻地劃分為訓練集和測試集,有利于避免重復訓練和測試。對于CUHK03數據集的新的分類情況如表4所示。
本文設置滑框尺度L=4、加權參數α=0.5,表5的結果表明,本文提出的Fusion Model比LOMO特征[1]、IDE(C)[15]和IDE(R)[15]得到的性能要好。
本文提出的Fusion Model與DRIF相比:在訓練集“Labeled”上的Rank1值要高2.3個百分點,mAP值要高2.8個百分點;在測試集“Detected”上的Rank1值要高2.5個百分點,mAP值要高2.0個百分點。這說明本文提出的加權融合模型(Fusion Model)是有效的。
3.4 在VIPeR上的實驗
VIPeR數據集包含的行人圖像樣本數量少,因此無法用該數據集的圖像作為標簽來微調網絡,所以本文采用的仍然是使用Market-1501數據集的圖像微調過的Resnet-50模型。實驗結果表明,在提取同一層卷積特征,并都對卷積特征進行區域特征提取的條件下,使用微調過后的模型比未改進的模型效果要好,說明使用行人重識別數據集微調網絡使模型對于判別不同身份的行人是非常有效的。
本文采用了廣泛使用的CMC方法對性能進行定量評估。 對于VIPeR,隨機選取大約一半人(316人)進行訓練,其余人員用于測試。使用單次評估方法,并將VIPeR測試集劃分為參考集和測試集。在VIPeR數據集上,設置滑框尺度L=4,加權參數α=0.8,對比算法包括深度多視圖特征(Deep Multi-View Feature, DMVFL)[9]、Deep Feature Learning[3]、LOMO特征[1]、CNN[18]。當α=0.8時, Rank1的值為7532%。排名前1、5、10、20(即Rank1、Rank5、Rank10和Rank20)的結果見表6。
由表6可知,本文提出的加權融合策略在此數據集上得到的性能最好;而且與另外兩大數據集Market-1501和CHUK03相比,該算法模型在VIPeR數據集上得到的效果是最顯著的。
為了進一步說明文中所提融合模型在VIPeR數據集上的有效性,在使用同一度量方法XQDA的前提下,使用融合模型、LOMO特征、Resnet-50模型和微調的Resnet-50模型得到的性能如表7所示。表7中的結果表明本文所提算法模型效果顯著,由于LOMO特征強調HSV和SILTP直方圖,因此它在特定照明條件下表現效果更佳。視角和光照的多樣性是VIPeR數據集的特點,表7中的結果表明本文提出的加權融合模型在背景、照明和視點等方面有大幅變化的數據集上效果最明顯,能夠顯著提高行人重識別的性能。本文提出的融合模型得到的性能優于LOMO特征,與單獨使用
LOMO特征以及使用F-Resnet-50模型提取卷積特征并對特征進行滑框操作得到的區域聚合特征進行距離度量相比,融合
LOMO特征和深度區域聚合特征(DRIF)這兩個特征距離能夠得到較高的識別率,說明這兩個特征距離的融合具有強烈的判別能力,并進一步表明本文提出的區域聚合特征是LOMO特征的互補特征。
3.5 微調策略分析
使用MatConvNet(Convolutional neural Networks for Matlab)工具,利用ImageNet模型訓練Market-1501數據集。對于網絡Resnet-50使用默認參數設置,并從ImageNet預先訓練好的模型中進行微調。圖像在被送入網絡之前被調整224×224大小;初始學習率設置為0.001,并在每次迭代后減少至上一次的1/10,訓練迭代36次之后完成。
為了證明微調策略的有效性,在VIPeR數據集上用微調的模型進行實驗,分別用Resnet-50網絡以及微調過后的Resnet-50網絡(Fine-tuning Resnet-50, F-Resnet-50)提取卷積層特征,并對兩個模型提取的同一層三維卷積特征利用區域聚合特征方法變成2048維的特征向量,并進行距離度量。表8中的結果表明,利用行人重識別數據集微調過后的網絡模型提高了區分能力,減少了錯誤檢測對背景的影響,并提高了識別率。
3.6 參數分析
如圖1區域聚合部分所示,在滑框與滑框之間,都存在一定的重疊區域,而最終采用簡單的加和方式把局部的區域特征向量整合成全局特征,其中那些重疊的區域可以認為是給予了較大的權重。因此,并不是將特征平面分得越細越好。在本文中,滑框之間的重疊率取40%。在實驗中,使用L種不同尺度的滑框處理特征平面在數據集CUHK03上進行實驗,結果如表9所示,可以看出,當L=4時,將提出的新的區域聚合特征向量用于度量時的效果最好。
當L=4時,將提出的新的區域聚合特征向量用于度量時的效果最好。 為了克服傳統特征和深度特征各自的缺陷,用參數α加權評估深度區域特征向量和傳統LOMO特征的相對重要性。其中0≤α≤1,由圖3可知,當α=0.5時,在Labeled和Detected兩個數據集上的Rank1和mAP值都最高,即在CUHK03數據集得到的性能最好。
3.7 運行時間分析
如表10所示是VIPeR數據集上單個圖像的平均特征提取時間。可以看出,本文提出的深度區域特征提取方法比一些手工特征提取方法更快,例如基于生物啟發特征的協方差描述符(Covariance descriptor based on Bio-inspired features, gBiCov)[19];與LOMO手工特征、CNN特征、FFN特征相比,本文提出的DRIF特征的維度是2048維,具有更低的維度,并且其維度等于卷積層通道數。通過在速度和維度復雜性之間取得平衡,本文提出的區域特征向量提取算法可以實際應用。
4 結語
本文構建了一個完整的行人重識別的算法模型,通過微調的Resnet-50網絡提取三維卷積特征,并把不同尺度的滑框作用于卷積激活映射,得到了低維的區域聚合特征向量;從深度區域聚合特征和傳統手工特征LOMO兩個角度出發,用參數加權來評估各自的相對重要性,并利用有效的加權融合方式得到最終用于計算的距離,用最終距離進行識別排序。在Market-1501、CHUK03和VIPeR三個數據集上進行測試,在重新訓練網絡的情況下,大量實驗表明本文提出的算法模型在指標Rank1和mAP上均具有較明顯的提升,展示了所提算法模型的有效性。下一步的研究方向是提取出更魯棒性的特征,使其能夠更具有判別性,使多視圖特征融合方法能夠顯著提高行人重識別的性能。
參考文獻 (References)
[1]?LIAO S, HU Y, ZHU X, et al. Person re-identification by local maximal occurrence representation and metric learning [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 2197-2206.
[2]?WU S, CHEN Y-C, LI X, et al. An enhanced deep feature representation for person re-identification [C]// Proceedings of the 2016 IEEE Winter Conference on Applications of Computer Vision. Washington, DC: IEEE Computer Society, 2016: 1-8.
[3]?DING S, LIN L, WANG G, et al. Deep feature learning with relative distance comparison for person re-identification [J]. Pattern Recognition, 2015, 48(10): 2993-3003.
[4]?丁宗元,王洪元,陳付華,等.基于距離中心化與投影向量學習的行人重識別[J].計算機研究與發展,2017,54(8):1785-1794. (WANG Z Y, WANG H Y, CHEN F H, et al. Person re-identification based on distance centralization and projection vectors learning [J]. Journal of Computer Research and Development, 2017, 54(8): 1785-1794.)
[5]?KSTINGER M, HIRZER M, WOHLHART P, et al. Large scale metric learning from equivalence constraints [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012, 1: 2288-2295.
[6]?FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features [C]// Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2360-2367.
[7]?張耿寧,王家寶,李陽,等.基于特征融合與核局部Fisher判別分析的行人重識別[J].計算機應用,2016,36(9):2597-2600. (ZHANG G N, WANG J B, LI Y, et al. Person re-identification based on feature fusion and kernel local Fisher discriminant analysis [J]. Journal of Computer Applications, 2016, 36(9): 2597-2600.)
[8]?孫金玉,王洪元,張繼,等.基于塊稀疏表示的行人重識別方法[J].計算機應用,2018,38(2):448-453. (SUN J Y, WANG H Y, ZHANG J, et al. Person re-identification method based on block sparse representation [J]. Journal of Computer Applications, 2018, 38(2): 448-453.)
[9]?TAO D, GUO Y, YU B, et al. Deep multi-view feature learning for person re-identification [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(10): 2657-2666.
[10]?GONG Y, WANG L, GUO R, et al. Multi-scale orderless pooling of deep convolutional activation features [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8695. Cham: Springer, 2014: 392-407.
[11]?GRAY D, BRENNAN S, TAO H. Evaluating appearance models for recognition, reacquisition, and tracking [C]// Proceedings of the 2007 IEEE International Workshop on Performance Evaluation for Tracking and Surveillance. Piscataway, NJ: IEEE, 2007: 41-49.
[12]??ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: a benchmark [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1116-1124.
[13]?LI W, ZHAO R, XIAO T, et al. DeepReID: deep filter pairing neural network for person re-identification [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 152-159.
[14]?LIU H, FENG J, QI M, et al. End-to-end comparative attention networks for person re-identification [J]. IEEE Transactions on Image Processing, 2017, 26(7): 3492-3506.
[15]?ZHENG L, ZHANG H, SUN S, et al. Person re-identification in the wild [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 3346-3355.
[16]?ZHENG L, HUANG Y, LU H, et al. Pose invariant embedding for deep person re-identification [J]. arXiv E-print, 2018: arXiv:1701.07732.?[J/OL]. [2018-12-06]. https://arxiv.org/abs/1701.07732.
[17]?ZHAO H, TIAN M, SUN S, et al. Spindle net: person re-identification with human body region guided feature decomposition and fusion [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 907-915.
[18]?PAISITKRIANGKRAI S, SHEN C, van den HENGEL A. Learning to rank in person re-identification with metric ensembles [C]// Proceedings of the 2015 Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1846-1855.
[19]?MA B, SU Y, JURIE F. Covariance descriptor based on bio-inspired features for person re-identification and face verification [J]. Image and Vision Computing, 2014, 32(6/7): 379-390