,,,,
(浙江理工大學(xué) 信息學(xué)院, 杭州 310018)
行人再識別指的是在非重疊視域多攝像機監(jiān)控系統(tǒng)中, 匹配不同監(jiān)控畫面中的目標行人。行人再識別在目前的視頻監(jiān)控中有著許多重要的應(yīng)用,比如行人檢索[1]、多攝像機行人跟蹤[2]和行為分析。行人再識別技術(shù)節(jié)省了從海量的圖片和視頻中搜索目標行人所帶來的人力開銷。但由于在不同的攝像機場景中,行人圖像受到光照、視角和行人姿態(tài)等變化的影響,在監(jiān)控畫面中容易形成較大的外觀差異,使得行人再識別問題遇到了很大的挑戰(zhàn)。為了應(yīng)對這些挑戰(zhàn),研究人員主要從兩個方面開展研究。一方面是尋找魯棒的行人特征描述,另一方面是學(xué)習(xí)有效的度量學(xué)習(xí)方法。
魯棒的行人特征描述其最主要的是設(shè)計對不同行人圖像具有區(qū)分性和對視角、光照、背景的變化具有魯棒性的描述特征。許多已經(jīng)存在的行人再識別算法試圖通過建立一個特有的,健壯的代表特征來描述在各種變化環(huán)境下的行人外觀。文獻[3]利用人體的結(jié)構(gòu)信息,在人體不同區(qū)域提取空間直方圖和區(qū)域協(xié)方差特征。文獻[4]也提出了類似的方法,對人體部件區(qū)分對待,將行人圖像分割為頭、軀干和腿,再分別提取各部分的顏色直方圖、最大穩(wěn)定顏色和重復(fù)紋理特征。最近,顯著性信息也出現(xiàn)在行人再識別上的應(yīng)用研究,文獻[5]采用4種方向顯著性加權(quán)融合學(xué)習(xí)的方法來度量一對行人圖像的相似度。
除了有代表性的特征外,距離度量學(xué)習(xí)也是行人再識別的另一個研究方面。文獻[6]提出了一種叫KISSME(Keep It Simple And Straightforward Metric)的度量學(xué)習(xí)算法,該算法將樣本特征之間的差向量看作是高斯分布中的一個點,同類樣本特征的差向量分布在同一個高斯分布中,而不同樣本特征之間的差向量分布在另一個高斯分布中,然后用概率的比值來度量樣本之間的距離。文獻[7]提出了一種名為PCCA(Pairwise Constrained Component Analysis)的新方法,用于在高維輸入空間中從稀疏成對相似/不相似約束學(xué)習(xí)距離度量,并學(xué)習(xí)投影到低維空間。然而,這種方法容易過度擬合。在文獻[8]中,提出了正則化的PCCA(rPCCA)方法來改進PCCA,通過引入一個正則項來解決這個問題,該正則項使用可得到的附加自由度來最大化類間的邊界。文獻[9]提出一種名為XQDA(Cross-view Quadratic Discriminant Analysis)的度量算法,該算法在跨視角的訓(xùn)練樣本的子空間中用二次線性判別分析方法得到一個度量函數(shù)用于跨視角樣本的相似度計算。但是文獻[9]中直接在原始線性特征子空間中訓(xùn)練得到的相似度度量矩陣,進而得到表示樣本之間相似度函數(shù)??紤]到原始特征子空間線性不可分的性質(zhì),因此通過原始特征子空間直接訓(xùn)練得到的相似度度量矩陣不能準確的描述樣本之間的相似性和差異性。
本文提出了一種在核空間學(xué)習(xí)稠密水平條帶特征的度量學(xué)習(xí)算法。首先,在稠密的水平條帶上提取特征,將所有水平條帶上的特征串聯(lián)得到行人特征;然后,通過相應(yīng)的核函數(shù)將原始線性特征映射到非線性核空間中;最后,在核空間中學(xué)習(xí)得到一個對背景、視角、姿勢變化具有魯棒性的相似度函數(shù)。
文獻[9]中提出了一種XQDA的算法,該算法是在Bayesian Face[10]算法和KISSME算法的基礎(chǔ)上延伸得到的一種跨視角度量學(xué)習(xí)方法。度量一對行人的相似度可以表示為式(1)。
(1)
其中,xi,xj分別表示第i個樣本和第j個樣本的特征向量。同類樣本之間的特征向量之差可以表示為ΩI,不同類樣本之間的特征向量之差可以表示為ΩE。∑I和∑E分別是ΩI和ΩE的協(xié)方差矩陣。
文中利用線性判別分析的方法學(xué)習(xí)樣本數(shù)據(jù)的子空間W=(w1,w2,…,wr)∈Rdxr,并且同時在r維子空間中學(xué)習(xí)相似性度量的距離函數(shù)。那么距離函數(shù)式(1)在r維子空間中可以表示為式(2)。
(2)

根據(jù)前面提到的ΩI和ΩE分別服從均值為0,協(xié)方差矩陣為∑I和∑E的正太分布,在子空間W中的映射σI和σE也有著均值為0,并且它們的值可以區(qū)別代表不同的兩個類。因此我們可以在子空間W中用二次線性判別分析方法來優(yōu)化學(xué)習(xí)下面的公式(3)來計算相似度。
(3)
其中,σE(W)=WT∑EW,σI(W)=WT∑IW,則式(3)可以表示為式(4)。
(4)
J的值越大,表示樣本對(i,j)屬于同一個行人的概率越大。

原始特征空間中的特征向量xn通過核函數(shù)Φ映射到非線性核空間,則核空間中的特征向量表示為Φ(xn)。核函數(shù)映射的過程是求解原始特征空間中的特性向量的內(nèi)積,如式(5)所示。
k(x,y)=<Φ(x),Φ(y)>
(5)
其中,x,y∈Rd(d表示原始特征空間特征的維度)。把原始特征空間中任一特征向量xp映射到易區(qū)分的非線性核空間中得到非線性特征向量kp,如式(6)所示。
kp=[k(x1,xp),k(x2,xp,...,k(xn,xp))]
(6)

(7)
上述流程首先將原始線性特征空間中任一個特征向量xn通過核函數(shù)k映射到易區(qū)分的非線性核空間中得到非線性特征向量kp,然后在非線性特征的子空間學(xué)習(xí)得到相似度度量矩陣。在這里常用的核函數(shù)有線性核函數(shù)、徑向基核函數(shù)和二次有理核函數(shù)。經(jīng)過后面的實驗比較結(jié)果驗證,本文算法采用徑向基核函數(shù)。
行人圖像特征的描述是行人再識別算法中的一個重要環(huán)節(jié),本文采用HSV、YCbCr和Lab三種顏色空間的顏色直方圖和SILTP[11](scale invariant local ternary pattern)紋理直方圖來描述一張行人圖像。每種顏色空間都有各自的顏色描述體系,所以對同一張行人圖像的顏色特征描述的側(cè)重點也各不相同。SILTP是著名的LBP(local binary pattern)紋理描述算子的改進算法,LBP算法的缺點是對圖像噪聲比較敏感,所以SILTP算法還結(jié)合了LTP(local ternary patterns)算法取得了對圖像噪聲和光照變化具有更強的魯棒性。
我們把一張行人圖像歸一化為128×48像素,相同行人的目標圖像,對應(yīng)的局部區(qū)域在圖像的垂直方向上是不會發(fā)生較大的變化,不過在實際中行人目標由于姿態(tài)和視角的變化可能存在輕微的高度變化。因此,用一個大小為10×48像素大小的矩形作為滑動的水平條帶去描述行人圖像水平方向的局部細節(jié),水平條帶的滑動方向自頂向下,每次滑動的步長為5個像素。在每個水平條帶中,分別提取HSV、YCbCr和Lab三種顏色空間中每個通道的顏色直方圖和SILTP紋理直方圖。這樣得到的直方圖特征不但對行人圖像視角變化具有很好的魯棒性,而且可以捕捉到行人圖像的局部細節(jié)特征。圖1顯示滑動水平條帶提取特征的過程。

圖1 滑動水平條帶提取特征示意圖
在提取特征的過程,我們考慮到了行人圖像的多尺度信息。在不同的圖像尺度上,有著不同的圖像信息。因此在原始圖像128×48像素的基礎(chǔ)上進行兩次金字塔降采樣分別獲得64×24像素的尺度圖像和32×12像素的尺度圖像。在每個尺度上的行人圖像重復(fù)上述的特征提取過程。最后我們把所有特征級聯(lián)形成行人圖像的特性描述,該特征的維數(shù)為9 000維(3*3*16維顏色特征+34維SILTP紋理特征)*(24+11+5水平組)。
不同攝像機中行人視角的變化主要集中在水平方向上,而在垂直方向上并不很明顯。因此,該文提取的特征對于水平方向的移動具有一定的不變性。
本文算法分別在VIPeR[12]數(shù)據(jù)集和iLIDS[13]數(shù)據(jù)集上進行大量的實驗測試。算法性能的評價準則采用累積匹配特征(Cumulative match characteristic, CMC)曲線來評價算法的性能。給定一個目標行人圖像查詢庫和行人圖像候選庫,累積匹配特征曲線描述的是在行人圖像候選庫中搜索待查詢的目標行人,前r個搜索結(jié)果中包含正確匹配結(jié)果的比率。其中,第一匹配率(Rank=1)為真正的識別能力,所以比較重要。但是當Rank值較小時,也是可以通過人眼進行輔助識別查找目標,因此也具有現(xiàn)實意義。實驗中,隨機選擇t對行人圖像對作為訓(xùn)練集,余下的行人圖像對作為測試集。相機A中的行人圖像作為查詢目標庫,相機B中的行人圖像作為候選目標庫。每對行人圖像,任意選擇一張圖像加入查詢目標庫,另一張則加入候選目標庫。每個查詢目標庫與候選目標庫中的每張行人圖像都要有匹配。為了得到穩(wěn)定的實驗結(jié)果,以上過程重復(fù)10次,并將10次實驗的平均值作為最終的實驗結(jié)果。
VIPeR數(shù)據(jù)集是行人再識別領(lǐng)域最常用的且最具有挑戰(zhàn)性的數(shù)據(jù)集之一。它包含了632對行人圖像,每對行人圖像都是由兩個不重疊視角的攝像機在不同的室外環(huán)境下獲取的。在632對行人圖像中存在著許多視角,亮度,背景有著較大變化的圖像對。
實驗中測試樣本集和訓(xùn)練樣本集均為316對行人圖像。VIPeR數(shù)據(jù)集上的其他實驗,如果沒有明確說明測試集和訓(xùn)練集的個數(shù),則都默認為316對行人圖像。為了對比本文算法基于不同核函數(shù)的算法性能,實驗中其他條件都一樣。表1給出了該算法基于不同核函數(shù)的實驗對比結(jié)果。

表1 本文算法基于不同核函數(shù)的實驗結(jié)果
從表1可知,本文算法基于徑向基核函數(shù)的效果最優(yōu)。為了充分體現(xiàn)本文算法的效果,在后面的實驗效果對比中都是基于徑向基核函數(shù)。圖2給出了本文算法與已有行人再識別算法的性能比較的CMC曲線,表2是對應(yīng)的實驗結(jié)果的數(shù)據(jù)。

圖2 VIPeR數(shù)據(jù)集上本文算法與已有算法性能對比實驗結(jié)果

表2 VIPeR數(shù)據(jù)集上本文算法與已有算法性能對比實驗結(jié)果(訓(xùn)練集樣本規(guī)模t=316對圖像)
從圖2和表2可知,本文算法性能有較大的提升,尤其是Rank1比表中排第二的XQDA算法提升了約8.2%,并且在Rank20內(nèi)都有著較高的識別率。在一定程度上,本文算法的效果已經(jīng)能夠應(yīng)用到工程實踐中,尤其是在刑事偵查等方面,刑偵人員可以在行人再識別返回的前r個結(jié)果中快速搜索出目標行人,大大提高偵查辦案效率。
當訓(xùn)練集規(guī)模為t=200時,本文算法與已有算法的性能對比結(jié)果如表3。

表3 VIPeR數(shù)據(jù)集上本文算法與已有算法性能對比實驗結(jié)果(訓(xùn)練集樣本規(guī)模t=200對圖像)
從表3中可知,在只有少量訓(xùn)練樣本情況下,本文算法同樣優(yōu)于已有算法。由此可見,本文算法有效的解決了學(xué)習(xí)相似度度量函數(shù)中出現(xiàn)過擬合的問題。
為了說明本文算法的優(yōu)越性,表4給出了本文算法僅用一種特征情況下與其他算法效果對比。由于表中對比的算法都有HSV顏色空間特征和LBP紋理特征,因此實驗中分別選用HSV和LBP作為本文算法提取的特征。
由表4可知,該算法雖然只使用了一種特征,但是效果比其他采用多特征的算法更好。其中,KISSME算法融合了HSV、Lab和LBP等特征,Rank1僅有19.6%。而本文算法只用了HSV顏色特征,Rank1就達到了41.6%。當本文算法用到多特征時,算法的識別率又提升了一些,但是繼續(xù)增加特征,算法識別率提升的幅度會越來越小,而算法的時間復(fù)雜度會越來越高。因此,本文算法在最終的特征選擇上只選用了三種顏色空間特征和一種紋理特征。

表4 僅用一種特征情況下的本文算法與已有算法性能比較實驗結(jié)果
iLIDS數(shù)據(jù)集是在候機大廳中人群密集的場景下采集的。該數(shù)據(jù)集包含476張圖像,圖像全部來源于119個行人,其中每個行人的圖像從兩張到八張不等。該數(shù)據(jù)集里的行人圖像有嚴重的遮擋和光照變化等問題。實驗中對每個行人隨機選擇兩幅圖像,這樣得到一個具有119對行人圖像庫。由于iLIDS數(shù)據(jù)集中圖像的尺寸大小不一,所以我們統(tǒng)一把圖片的尺寸設(shè)置為128×48像素。隨機選擇59對行人圖像作為訓(xùn)練樣本集,剩下60對行人圖像作為測試樣本集。表5給出了本文算法與已有行人再識別算法的性能比較。

表5 iLIDS數(shù)據(jù)集上本文算法與已有算法性能對比實驗結(jié)果
從表5中數(shù)據(jù)可知,在iLIDS數(shù)據(jù)集里,本文算法性能明顯優(yōu)于表中的其他算法。其中本文算法的Rank1達到了60.8%,比表中排第二的XQDA算法提升了約14%,Rank10至Rank20也有明顯的提升,證明了本文算法的優(yōu)越性。
近幾年,行人再識別技術(shù)的研究面臨著許多問題。在不同攝像機視域下,行人圖像的光照、視角和姿態(tài)等情況會有所變化,這是研究行人再識別過程中比較棘手的幾個問題。目前,基于度量學(xué)習(xí)的行人再識別算法一般是在原始特征空間學(xué)習(xí)得到相似度度量矩陣,考慮到原始特征子空間線性不可分的性質(zhì),因此通過原始特征子空間直接訓(xùn)練得到的相似度度量矩陣不能準確的描述樣本之間的相似性和差異性。,從而導(dǎo)致識別效果較差。對此本文提出了一種在核空間學(xué)習(xí)稠密水平條帶特征的行人再識別算法。由行人再識別的公共數(shù)據(jù)集VIPeR和iLIDS上的實驗結(jié)果表明,基于本文算法學(xué)習(xí)得到有效的相似度函數(shù),識別性能優(yōu)于已有的行人再識別算法。但本文算法在在行人遮擋較嚴重時,會因丟失部分行人特征信息而使識別率下降的情況。因此在接下來的工作中將會針對行人遮擋較嚴重的情況下做進一步研究。