簡佳雁, 方志軍, 高永彬
(上海工程技術大學 電子電氣工程學院,上海 201620)
行人再識別的主要任務是匹配來自無重疊視野區域攝像頭的行人圖片或視頻[1],該技術廣泛應用于視頻監控、刑偵破案等領域[3]。
行人再識別任務大致為以下兩個主流方向[4]:特征提取的方法和距離度量學習的方法。前者的目的是提取行人具有區別性的特征,如:顯著性特征、中層特征、顏色特征等。后者主要尋找一個能更好度量行人特征的馬氏矩陣,使得相同人之間的特征距離盡量小,不同人之間的特征距離盡量大。2006年,該任務研究開始于用單幀圖像進行特征建模并完成一對一匹配的方法,到目前為止,單幀圖像的方法已經成為該領域內較成熟的研究方向。但在實際智能視頻監控環境中,光照變化、攝像機角度變化、行人服飾相似、背景復雜以及遮擋嚴重等因素導致行人再識別任務面臨著巨大的挑戰。若只考慮單幀圖像的二維特征很難解決以上問題,而視頻可以從時間和空間角度提供更多的特征信息,有助于進行行人匹配與再識別,因此基于視頻序列的行人再識別研究應運而生。
目前,基于視頻的行人再識別任務研究工作目前為數不多,早期的一部分工作是將其他研究領域的方法用在行人再識別任務上,例如文獻[5]的行為識別方法動態時間規整(dynamic time warping,DTW)、文獻[6]的視頻分割方法等。另外,也有不少方法嘗試提取視頻中的三維數據來進行外貌表征,如文獻[7]提出的HOGHOF,文獻[8]的3D-SIFT等。但在新的特征空間下,面臨的新問題是:由于運動特征相似,導致類間變化相似,即很難分辨不同的人,因此距離度量學習的研究工作在行人再識別任務中十分重要,2006年,Blitzer J等人[9]提出大間隔最近鄰(large margin nearest neighbor,LMNN)分類度量學習算法。該算法最大的亮點在于使用三元形式(xi,xj,xk),對不相似的樣本對進行約束,即y(xi)≠y(xj),y(xi)≠y(xk)。只要三元形式的樣本盡量可能多地滿足不等式d(xi,xk)≥d(xi,xj)+1就可以學習并且得到矩陣M。2008年,Mert D等人[10]在大間隔近鄰分類基礎上進行優化,提出LMNN-R算法,通過均值的引入,相應的約束比最初的LMNN更強。
本文輸入視頻序列,用HOG3D[11]提取時序動態特征,并融合顏色、紋理靜態特征,結合PFMLNN[12](parameter free large margin nearest neighbor for distance metric learning)距離度量學習,縮小類內距離的同時,約束最近鄰負樣本對的距離。與LMNN算法相比,PFLMNN專注于增大類間特征距離,且只約束距離目標樣本最近鄰的負樣本對距離,在減少參數量的同時,對于類間特征距離的約束力更強。在訓練過程中,根據迭代次數分段給定損失函數的相應權重,在公開數據集iLIDS-VID和PRID-2011(multi-shot)上的實驗達到了較好的行人再識別精度。
視頻監控攝像頭采集到的行人視頻數據會存在很大的噪聲,并且整段視頻連續幀中部分幀存在遮擋或者分辨率低等問題,根據FEP[13,14](flow energy prole)自動挑選出最具鑒別性的視頻序列片段作為輸入,如圖1所示。

圖1 挑選視頻序列幀
如上圖1所示,定義每一幀圖像為I,則一個行人的視頻序列定義為Q={I1,…,It},t表示視頻序列的幀數。e表示單幀圖像I的光流能量值,(vx,vy)表示單幀圖像的光流區域,U為圖像I下半部分的所有像素點。則FEP計算單幀圖像的光流能量值為
(1)
選擇光流能量值e最大的視頻幀為中心幀It,取以It為中心的前10幀與后10幀,共21幀作為輸入視頻序列連續幀。
在視頻序列上選擇HOG 3D[12]提取時間運動信息及空間梯度信息,整合特征為1 200維。并隨機選擇一幀圖像,基于文獻[8],將圖像裁剪為128×48,每幀圖像分為8×16的子塊,在水平和垂直方向上有1/2的像素點重疊,共有155個子塊提取顏色和紋理靜態特征,最終融合顏色和紋理特征向量為1 705維。以上兩部分描述了視頻中行人的動態特征和靜態特征,兩種特征互相補充輔助,共為2 905維。
采用距離度量學習算法,通過學習到的距離尺度變換,使得同一行人特征之間的距離減小,不同行人之間的距離增大。
(2)
(3)
(4)
若最近負樣本滿足式(4),根據幾何信息關系,則其他所有負樣本都符合式(4)的條件。定義最小類間距離的問題
(5)
綜上所述,結合式(3)和式(5),本文距離度量學習模型的目標函數為
(6)


(7)
結合式(2)和式(7),兩個任意樣本的特征距離表示為
(8)
結合式(5)和式(7)可得本文算法的損失函數為
(9)
對矩陣M正進行特征分解使其為半正定矩陣,并用隨機梯度下降投影法優化M。計算最小類間距離時,在t次迭代,令M=Mt,當類內距離大于類間距離時,構造(i,j,k)為一個異常情況,i,j,k為異常情況的三個點,i,j來自同一個人,k來自不同的人,通過式(10)調整M消除異常情況,式(9)對M求偏導可得梯度函數為式(10),優化之后的Mt+1也應為正半定矩陣,對Mt+1特征分解為式(11),并不斷更新去掉所有負特征值的矩陣Dt+1
(10)
(11)
實驗環境中軟硬件參數如下:CPU型號為Intel(R)Core(TM)i5—6 500,內存為8 GB,操作平臺為Windows 7,實驗平臺為MATLAB R2014a。
實驗中,圖片的大小為12 848,HOG3D提取到的時空特征向量為1 200維,顏色直方圖和LBP提取到的顏色特征以及紋理特征組合特征向量為1 705維,從而得到行人的總特征向量為2 905維,結合度量學習模型,訓練過程中迭代次數設置為1 000,損失函數中的參數λ采取分段訓練的形式,當t≥200時,λ=0.25;當200 本文采用視頻數據庫iLIDS—VID和PRID 2011來評估文中算法,兩數據庫拍攝的行人圖像分別如圖2所示,數據庫參數如表1所示。 圖2 兩個數據庫圖像 數據庫行人數量/位攝像機數量/臺平均幀數/幀圖像尺寸/像素iLIDS-VID30027364×128PRID 2011200210064×128 iLIDS-VID數據庫包括600個圖像序列,采用兩個非重疊攝像機隨機拍攝的300位行人,每個圖像序列的長度從23幀到192幀不等,平均幀長為73。由圖2(a)可知,該數據集拍攝的場合背景復雜,遮擋嚴重,加上行人著裝上的相似以及相機間視角的變化。 PRID 2011數據庫包括400個圖像序列,每個序列的長度為5~675幀,平均幀長為100幀。由圖2(b)可知,該數據集拍攝場合為比較空曠的室外,沒有遮擋且背景比較簡單,然而攝像機角度變化非常明顯,色彩空間差異較大,且其中一個攝像機中行人的陰影比較明顯。 在實驗中,為了平衡實驗的效果,挑選出數據庫PRID 2011中大于21幀的178個Multi-shot的行人作為實驗數據。對于兩個數據庫,將數據隨機的平均分為兩部分,一部分用作訓練,另一部分用作測試,即iLIDS-VID數據庫各為150人,PRID 2011數據庫各為89人。在測試時,設置攝像機Cama所拍攝的數據作為需要查找的目標,即查找集,攝像機Camb所拍攝的行人數據作為候選的對象,即候選集。實驗重復10次,并測量平均的累計匹配特性曲線(cumulative matching characteristic,CMC)來評價算法的性能。 將查找的對象在候選集中按距離的遠近由小到大進行排序,目標行人的排序越靠前,說明行人再識別的效果越好。假設總共由N個行人,即共進行次查詢和排序,每次查詢中目標行人的排序結果用r=(r1,r2,…,rN)表示,則CMC曲線表示為 (12) 分別對兩個數據庫采用排序在前r=1,5,10,20處的分數進行算法評估比較。 2.3.1 特征方法比較 基于視頻的行人再識別的問題相比單幀圖像的方法而言,最大的不同點在于:視頻處理的特征是三維數據,并且視頻存在時間相關性的特征。但行人再識別問題不同于行為識別問題,行人的走路姿勢區分性不大,如果只用HOG 3D提取時序信息與空間梯度信息,則視頻的行人特征提取不完整。DVR[6]中介紹了基于HOG 3D特征的重排序模型,實驗在公開數據庫iLIDS-VID和PRID 2011上,分別基于本文的度量學習模型和DVR[6]的重排序模型,分析比較只提取HOG 3D特征和組合靜態顏色、紋理特征后對最后行人匹配精度的影響。實驗結果如表2所示,CMC曲線圖如圖3所示。 表2 特征提取方法比較 圖3 特征提取結果 實驗結果表明,融合了靜態的顏色和紋理特征后,在數據集iLIDS-VID上,基于本文度量學習模型的行人再識別精度比單獨提取HOG 3D特征的Rank-1結果提高了22.4 %,基于DVR排序模型Rank-1結果提高了11.2 %。在數據集PRID 2011上,兩種模型Rank-1結果分別提高了28.7 %和8.7 %。說明不同于行為、動作識別等問題,基于視頻的行人再識別問題不能只考慮時間上的運動信息,融合動態與靜態特征可以較明顯提高行人再識別的匹配精度。 2.3.2 度量學習方法比較 為證明該度量學習方法可以有效提高行人再識別的匹配精度[9~15],實驗在HOG3D&顏色&紋理相同特征基礎上,比較分析幾個比較主流的度量學習方法。由于每個行人走路的姿勢相似,視頻中不同人之間的模糊性會更高,如2.2節所述,PFLMNN度量學習方法著重于增大負樣本對的距離。在公開數據庫iLIDS-VID和PRID 2011上,分別基于相同的特征條件,分析比較KISSME[15],LFDA[3],LMNN[9]與PFLMNN的度量學習方法,實驗結果如表3所示,CMC曲線圖分別如圖4所示。 表3 度量學習方法比較 圖4 度量學習結果 實驗結果表明,在相同特征基礎的條件下,PFLMNN度量學習方法在兩個數據庫上明顯優于KISSME[15],LFDA[3],LMNN[9]方法。由表3結果分析發現,在數據集iLIDS-VID上,該方法rank-1的結果比KISSME[15]提高了19.7 %,比LFDA[3]提高了17.2 %,比LMNN[9]提高了27.9 %;在數據集PRID 2011上,Rank-1的結果分別提高了24.1 %,11.2 %,31.3 %。由以上可得,基于PFLMNN的度量學習模型比較適合基于視頻方法的行人再識別任務。 2.3.3 整體方法比較 為了表明實現的整體方法在視頻行人再識別的問題上表現較好,實驗對比了近年來在數據庫iLIDS-VID和PRID 2011 三個比較先進的方法,包括SRID[16],DVDL[17],STFV3D+KISSME[18]。實驗結果如表4所示。 表4 整體方法比較 實驗結果表明,時空特征融合+PFLMNN度量學習方法在數據庫iLIDS-VID和PRID 2011上對比SRID[22],DVDL[23]均有明顯優勢,尤其是在數據庫iLIDS-VID上性能提高較為明顯。 與STFV3D+KISSME[24]方法比較發現,該方法在數據庫PRID 2011上的結果低于STFV3D+KISSME[24],但在數據庫iLIDS-VID上Rank-1結果提高了11.9 %。由表5可得,本文整體方法在數據庫iLIDS-VID和PRID 2011上均有較好的行人再識別精度,且比較適合基于視頻的行人再識別任務。 實驗結果表明:該方法在公開數據集iLIDS-VID和PRID 2011上取得了較好的匹配精度,分析結果發現,對于遮擋嚴重、背景復雜的數據集該方法提升效果較為明顯。2.2 實驗數據與評價指標


2.3 結果與分析





3 結 論