花 超,王庚潤*,陳 雷
(1.信息工程大學,鄭州 450001;2.解放軍31101部隊)
(?通信作者電子郵箱wanggengrun@gmail.com)
隨著監控設備的普及,大規模的攝像機網絡逐步在機場、地鐵站、校園以及商業辦公區等公共區域被廣泛部署,因此多攝像機跟蹤技術越來越被人們所重視。而如何在多攝像機中對同一個行人進行關聯,是多攝像機跟蹤分析的基礎。鑒于行人再識別廣闊的應用前景,目前有許多學者對其進行了深入的研究。
由于各個攝像機的光線、角度、遮擋和背景等所處的環境不同,同一行人在不同的攝像機圖像中存在較大的差異,導致行人再識別存在識別精度較低的難題。為了提高其識別精度,目前主要有兩種解決思路:一是從特征描述的層面致力于尋找更加有效描述目標的特征。Zhang等[1]利用行人的衣服、姿態、步態等信息構建行人模型;Wang 等[2]根據正樣本的特有特征和負樣本共有的全局特征,提出基于區域交互排序的算法;Satake 等[3]從各個方向采集行人圖像,利用尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征構建行人外觀模型,以此解決行人姿態變化的問題;Liu 等[4]對每一個模板的行人圖像提取特征,并根據它們自身和相互間的顯著性給予不同的權重;曾明勇等[5]根據人體的結構信息,提取行人圖像的空間直方圖和區域協方差特征,再融合這些外觀特征對目標進行建模。由于行人的整體特征易受遮擋和背景的干擾,目前大多數學者都傾向于將行人圖像進行部件分割或者分塊再進行特征提取。Bhuiyuan 等[6]將行人圖像進行分割,再提取不同部位的特征,然后再根據識別能力強弱,對身體各部位進行排序和選擇。文獻[7]中的SDALF(Symmetry-Driven Accumulation of Local Features)方法對圖像進行分割和檢測等預處理,從中提取出最大穩定顏色區域、重復紋理塊和色調飽和值(Hue,Saturation,Value,HSV)顏色直方圖特征后再對行人圖像進行識別。范彩霞等[8]利用行人外觀模型對行人圖像進行預識別,通過k-means 方法將行人圖像分為軀干、腿和頭,忽略頭部特征,再提取各部分主色區域的局部顏色和形狀特征。Huang等[9]對行人圖像進行分塊,利用稀疏模型對每一個行人圖像進行描述,并采用自適應的方式賦予不同圖像不同的權重。
二是采用度量學習的方法,尋找能夠度量同一行人不同外觀空間的變換矩陣,使變換后同一行人圖像間的距離盡可能小,同時最大化不同行人圖像之間的距離。杜宇寧等[10]不僅利用了行人圖像的特征差分空間,還關注了圖像中每個個體的外貌特征,通過學習二次相似度函數來估計行人間的相似度;Liong 等[11]同時利用正樣本信息和負樣本信息,以解決訓練圖像不足的問題,然后再用標準貝葉斯學習度量矩陣;杜宇寧等[12]利用統計推斷學習行人圖像間的度量函數,根據此函數度量圖像間的相似度;齊美彬等[13]利用不同子空間中的行人特征學習度量矩陣和相似度矩陣,并給予不同權重,構造出最終的相似度函數;Guillaumin 等[14]從度量估計的可能性角度提出LDML(Logistic Discriminant Metric Learnin)算法,該算法將每一對圖像在梯度方向的影響控制在可能性之內;Davis 等[15]提出ITML(Information-Theoretic Metric Learning)算法,通過信息論的方法規范估計度量,從而最小化預先定義的度量間的距離。
特征能增加行人的辨識度,而度量學習方法則可以使辨識度得到進一步的提升。當提取行人特征時,常見的行人再識別算法將先對行人圖像進行部件分割,以獲取更精細的特征。但行人部件檢測和分割準確率是難以保證的,針對這一問題,Zhao 等[16]提出基于塊匹配的行人再識別算法,通過行人圖像分成若干個小塊,再在小塊圖像上提取顯著度特征。由于利用了更為精細的粒度,因此該算法可以取得較好的識別效果;但該算法假定每一個小塊都是行人的特征小塊,而實際上因為遮擋和背景的干擾,有一些小塊并非某個行人的獨有特征,而多數行人圖像中都具有的相似小塊在行人間相似度計算上是無意義的,在數據稀疏時反而會影響正常的行人再識別。
針對上述多數行人圖像中所共有的相似小塊問題,本文利用通信系統中的低通濾波器原理,通過低通濾波系統對行人圖像進行處理。計算時,先將行人圖像進行分塊,通過計算各個小塊的相似性,得到相似小塊的個數,個數較多的被認為是高頻噪聲特征,個數較少的則被認為是有益特征;通過設置低頻截止頻率對高頻的噪聲特征進行抑制,同時對低頻有益特征進行適當增益;最后利用濾波后的行人圖像進行行人間相似度計算。實驗結果表明,本文算法可以取得較高的識別精度。
本文中的噪聲特征、噪聲頻率和截止頻率等概念具體定義如下:
噪聲特征 將行人圖像分成若干個小塊。不同行人圖像中都具有的相似特征小塊是不具有代表性的,對于行人間相似度的計算沒有太大幫助;而在數據稀疏的情況下,甚至會影響最終的識別結果。這些特征小塊被定義為噪聲特征,記為nos。
噪聲頻率 計算各小塊與圖像中其他小塊的歐氏距離,若小于一定值,則認為它們是相似的。統計各小塊在其他行人圖像中的相似小塊數目,定義為噪聲頻率,記為f(nos)。因為噪聲特征至少具有2 個相似小塊,所以f(nos) ≥2,否則不認為其為噪聲特征。f(nos)越大,該特征小塊具有越多的相似小塊,其越有可能為遮擋物或背景,在計算行人間的相似度時干擾越大、越有害;而f(nos)越小,則說明該小塊是某個行人的特有特征,具有較強的區分性。
截止頻率 低通濾波器中設置的低頻頻率值,稱為截止頻率,記為fq。
小塊權重 特征塊Pij經過低通濾波器時進行衰減或者增益的數值,記為
小塊相似度閾值 小塊間的相似度數值,小于等于這個值則認為它們是相似的,記為dq。
常見的行人再識別方法不能很好解決遮擋和背景干擾問題,而實際上因為遮擋和背景的干擾,有一些小塊并非某個行人的獨有特征。大多行人圖像都具有的相似小塊在行人間相似度計算上是無意義的,在數據稀疏時,甚至會影響最終識別結果。本文針對這一問題提出一種低通濾波行人再識別系統,該系統的組成框圖及圖像處理流程如圖1所示。

圖1 基于低通濾波的行人再識別系統Fig.1 Person re-identification system based on low-pass filtering
該系統中各模塊的作用如下:
行人圖像塊特征 對行人圖像進行分塊,再對小塊提取特征向量。
小塊間相似度 用L1 范數距離計算目標行人圖像P 中的小塊與其他行人圖像中小塊的相似度。
查找小塊 對目標行人圖像P 中的所有小塊查找在其他行人圖像中的相似小塊,服務于后面的噪聲提取和權重評分模塊。
噪聲提取 根據小塊與其他行人圖像中相似小塊的個數,提取該小塊的噪聲頻率。
低通濾波 對噪聲進行低通濾波,使得頻率高于截止頻率的高頻噪聲特征小塊迅速衰減,同時使低于截止頻率的有益特征小塊得到適當增益。
權重評分 低通濾波后得到的各個小塊的權重值。
小塊權重 經過權重評分后得到的目標圖像P 中各個小塊權重值矩陣。
乘法器 低通濾波得到的各個小塊的權重值與行人圖像中對應特征小塊相乘。
行人間相似度 計算出行人間相似度大小。
行人圖像分塊及特征提取 在行人圖像的垂直和水平方向上,分別用分辨率為v × h 的固定窗口進行滑動操作,滑動步長相應為v/2和h/2。因此,將得到m × n個小塊,其中m和n分別為水平和豎直方向上的小塊個數。該步長的設計,使小塊可以完整覆蓋行人圖像。本文將圖像分辨率統一標準化為128×48,窗口大小為8×24,滑動步長在垂直方向為12、水平方向為4。通過對分塊后的小塊進行提取特征,行人圖像P可以表示為:

其中Pij是圖像P中第i行、第j列的小塊所對應的特征向量。
小塊間相似度 利用L1 范數計算不同小塊間的相似度,例如行人圖像P中小塊Pij和行人圖像Q中小塊Qab,二者的相似度計算如下:

噪聲提取 Zhao 等[16]證明行人圖像在垂直方向上變化不大,而在水平方向上變化比較顯著。因此在計算圖像小塊間的相似度時,考慮到計算的復雜度,可以不用計算目標小塊與圖像中所有小塊間的距離,只需計算與該小塊在同一水平及上下位置小塊的相似度,即計算Pij與Qab(a=i -1,i,i +1;b=1,2,…,m)的相似度。若d(Pij,Qab)≤dq,則認為小塊Pij和Qab相似,其中dq是相似度閾值。
假設有l 張行人圖像,則圖像P 中小塊Pij的噪聲頻率f(nos)ij計算如下:

其中,噪聲基數fαPij定義為:

小塊相似度閾值 dq是小塊相似度閾值,小于等于這個值,則認為兩個小塊相似。dq值是預先定義的,找一個行人的2 張不同圖像,計算小塊間的相似度,取小塊間的相似度的均值 記作在ETHZ(Eidgen?ssische Technische Hochschule Zürich)[17]、VIPeR (Viewpoint Invariant Pedestrian Recognition)[18]和 i-LIDS(imagery Library for Intelligent Detection Systems)[19]數據集中各提取個行人的不同圖像,共β個行人的圖像來計算初始閾值dq′,計算如下:

低通濾波處理 低通濾波是本文的核心,是根據通信原理中的低通濾波器設計的。利用截止頻率,使得高于截止頻率的噪聲特征迅速衰減,低于截止頻率的有益特征得到適當增益。低通濾波的核心是設計濾波函數f和設置截止頻率fq,使得上述條件能夠得到滿足。
本文利用改進的Logistic 函數進行低通濾波。Logistic 函數常用于機器學習中,可以很好地表征人類學習和種群發展等過程。標準的Logistic函數定義如下:

其定義域為(-∞,+∞),值域為(0,1)。Logistic 函數圖像如圖2所示。
取flogistic關于y=0.5對稱的函數,其在x ≥0時的圖像如圖3所示。

其中:γ 是常數,用來調節衰減增益幅度的大?。籪(nos)Pij∈[1,β]為小塊Pij的噪聲頻率,β 是行人圖像個數;fq為截止頻率。f函數是以f(nos)Pij為自變量的單調遞減函數。

圖2 Logistic函數的圖像Fig.2 Figure of Logistic function

圖3 在x ≥0時的圖像Fig.3 Figure of when x ≥0
改進的低通濾波函數f需要滿足以下3個條件:
1)f(nos)Pij<fq時,特征小塊Pij的權重得到適當增益,且隨著f(nos)Pij的增大增益逐漸減少。為防止過度增益和自激,設定最大增益為1.1,即f(nos)Pij=1 時,f=1.1。該設定可滿足對行人特有特征進行適當增益的要求;
2)f(nos)Pij=fq時,f=1;
3)f(nos)Pij>fq時,f會快速衰減,且隨著f(nos)Pij的增大,f趨近于0。這樣可滿足對于共有的無用高頻噪聲特征小塊進行快速衰減的要求。
要滿足以上3 個條件,關鍵是選擇合適的γ 和fq。經計算當γ=5 時,f 可得到較好的效果。下面將推導以獲取合適的fq。
系統中需要一個合適的fq,使得不同頻率下的衰減和增益數值適當。令fq=0.5% × β、1% × β、2% × β(β 為所有行人圖像個數),即fq的選擇與圖像的個數有關,圖像越多則fq取值越大,這是符合實際的??紤]到ETHZ 數據集共有8 000 多張圖像、VIPeR 數據集共有1 264 張圖像、i-LIDS 數據集共有479 張圖像,為提高系統的普適性本文選取β=1000 進行實驗,即 fq=5、10、20。定義函數 g(fq),使得g(fq)=max(f(f(nos)Pij),則有:

g(fq)是以fq為自變量的函數,其含義是在噪聲頻率最低時的小塊可得到的最大增益。當fq=5 時,g(5) ≈1.124 3,即最大增益值為1.124 3;此時門限過低,在一些單個行人圖像數目較多情況下,會將一些行人有益特征小塊當成噪聲特征小塊。當fq=10 時,g(5) ≈1.11,即最大增益值為1.11,此時衰減合適,能較好滿足系統要求;當fq=20 時,g(5) ≈1.104,即最大增益值為1.104,此時衰減過于緩慢,當噪聲頻率較大時,不能有效抑制噪聲特征小塊。因此本文選擇fq=10,此時函數f設定為:

當fq=5、10、20 時,函數f隨自變量f(nos)Pij變化如圖4 所示??梢钥闯?,本文提出的低通函數f 在定義域是單調遞減,且迅速衰減趨于0 的。在噪聲頻率低于截止頻率時,特征小塊得到適當增益;而在噪聲頻率高于截止頻率時,特征小塊又得到快速衰減,這說明本文的函數符合低通濾波處理要求。

圖4 濾波函數f隨自變量f(nos)Pij變化Fig.4 Filtering function f varying with f(nos)Pij
小塊權重處理 行人圖像的小塊Pij經過低通濾波處理后得到的該小塊的權重為:

經過計算得到行人圖像中小塊權重WP為:

行人間相似度 經過前面的步驟計算出行人圖像P各個小塊的權重值,利用Zhao 等[16]的方法查找行人圖像Q 中與圖像P中對應的小塊,并計算小塊間的相似度,再乘以該小塊的權重,累計小塊間的距離即為2行人圖像間的相似度。

其中:D(P,Q)為圖像P 和Q 間的相似度,Qab為利用Zhao 等[16]的方法查找出的圖像P中小塊Pij在圖像Q中的對應小塊。
Schwartz 等[17]首先將ETHZ 數據集用于行人再識別研究。在ETHZ 數據集中,共有ETHZ1、ETHZ2 和ETHZ3 三個數據庫,這三個數據庫中分別有83、35 和28 個行人以及4 875、1 936 和1 762 張圖片。ETHZ 數據集中的行人圖像大小不一,實驗時需要先將所有圖像標準化為128×64像素。
VIPeR 數據集[18]是在學校中采集的,包含632 個行人,每個行人有2 張圖像。每個行人的圖像都來自2 個不同的攝像頭,因此該數據集的視角變化比較明顯。此外,該數據集的行人圖像姿態和光照變化比較顯著。同樣地,也需將所有圖像標準化為128×64像素。
I-LIDS 數據集是由Zheng 等[19]在i-LIDS 視頻數據集基礎上發布的。該數據集在機場大廳采集,其中的行人圖像由多個不同角度的攝像頭所拍攝,共有119 個行人479 張圖像,每張圖像也將被標準化為128×64 像素。該數據集的大部分行人圖像都存在遮擋的情況。
評價行人再識別算法的性能通常采用累計匹配特性曲線(Cumulative Match Characteristic,CMC)衡量。在CMC 中,曲線值表示前k個可能匹配行人結果里包含目標行人的概率。
在實驗中,利用文獻[16]中提到的顯著性特征和顏色直方圖來表示行人圖像的特征,對應的算法稱為顯著性特征的低通濾波方法和顏色特征的低通濾波方法。其中顏色直方圖用RGB(Red,Green,Blue)和HSV顏色空間表征,每個顏色通道都單獨提取一個8間隔(bin)的直方圖特征。
選取β 個行人的圖像來進行實驗,取β=90,150。當β=90 時,結果如圖5(a)所示。從圖中可以看出,當dq=dq′時,大多數小塊的噪聲頻率都很高,即大多數小塊都會被認為是噪聲特征,說明此時小塊相似度閾值設置過大;當dq=dq′/2時,噪聲頻率大于10 的特征塊數與小于10 的數近似相等,而實際中噪聲特征只是占很少一部分,因此說明此時小塊相似度閾值還是過大;當dq=dq′/3 時,特征塊的噪聲頻率大多在10 以下,同時有少部分噪聲特征的頻率在10 以上,這是符合實際噪聲分布的;而當dq=dq′/4 時,特征塊的噪聲頻率只有極少數是大于等于10 的,這與實際噪聲分布不符。因此,當β=90時可以選取dq=dq′/3作為小塊相似度閾值。
當β=150 時,噪聲頻率和行人特征塊數目關系如圖5(b)所示。從圖可以看出,噪聲頻率和特征塊數目的關系和β=90時二者的關系基本相似。
綜上,本文選取dq=dq′/3作為小塊相似度閾值。

圖5 β為90或150時,噪聲頻率和特征塊數的關系Fig.5 Relationship between noise frequency and the number of feature blocks when β is 90 or 150
下面對本文算法與常見行人再識別算法在數據集上的識別效果進行比較。其中,SDALF 方法[7]、曾明勇方法[5]、范彩霞方法[8]分別如前所述,而eSDC_knn 和eSDC_ocsvm 為Zhao等[16]根據不同的訓練方法提出的兩種不同的方法。為減少偶然性,每次實驗進行10次取均值作為最終結果。
首先,為了驗證前文選取的截止頻率fq和小塊相似度閾值dq的有效性,本文在ETHZ 數據集上對不同選值所能達到的識別精度分別進行了測試。實驗中,將ETHZ數據集3個子庫融合為一個,在其他參數不變的情況下,本算法所得到的實驗結果如圖6 和圖7 所示,結果表明,前述的fq和dq取值是符合預期的。

圖6 不同fq取值下的識別精度Fig.6 Identification accuracy with different fq

圖7 不同dq取值下的識別精度Fig.7 Identification accuracy with different dq
幾種常見算法在ETHZ 數據集上的累積匹配特性曲線如圖8 所示。從圖中可以看出本文算法的識別結果好于常見的算法。在排名等級為1(k=1)時,在幾種方法中顯著性特征的低通濾波算法識別率最高,達到了84%,高于eSDC_knn 的82%和eSDC_ocsvm 的81%,同時顯著性特征的低通濾波器比經典的SDALF 方法提高了近20%,而簡單的顏色直方圖特征低通濾波方法相比SDALF 方法也有近15% 的提高,與eSDC_ocsvm 相當。這對于實際應用是十分重要的,因為行人再識別就是在多個行人中查詢出目標行人。由于ETHZ 數據集比較簡單,遮擋和背景干擾較少,不能很好地體現本文算法的優越性,而接下來存在遮擋和背景干擾較多的VIPeR 和i-LIDS數據集,可以進一步展現本文算法的優勢。

圖8 幾種算法在ETHZ數據集上的累積匹配特性曲線Fig.8 Cumulative matching characteristic curves of several algorithms on ETHZ dataset
VIPeR數據集比ETHZ數據集復雜得多,因為該數據集中的行人圖像視角、姿態和光照變化比較明顯。實驗結果如圖9 所示,從圖中可以看出本文算法在該數據上的優勢比較明顯。在排序等級為1 時,本文的2 種算法識別率是最高的,其中顯著性特征的低通濾波方法比SDALF 方法有了近22%的提升,比其他幾種方法也有近15%的提升。排名等級為5 的識別率也是很重的,因為在現實應用中,為了提高最終識別精度,通常要令機器先給出排名靠前的幾張行人圖像,然后再人工選取出目標圖像。而在排名等級為5 時,本文的算法對幾種經典算法性能也有著顯著的提升,顯著性特征的低通濾波算法對SDALF 方法有著近25%的提升;對范彩霞和曾明勇的方法也有著近5% 和13% 的提升;與本文方法相近的eSDC_knn和eSDC_ocsvm相比,更有近15%和10%的提升。

圖9 幾種算法在VIPeR數據集上的累積匹配特性曲線Fig.9 Cumulative matching characteristic curves of several algorithms on VIPeR dataset
i-LIDS 數據集中遮擋物較多,這是其他數據集中所沒有的,雖然這更加符合實際情況,但也增加了識別難度。本文的算法主要解決的是遮擋和背景的干擾問題,因此在該數據集可以明顯體現出本文算法的優勢。該數據集上的識別結果如圖10 所示,圖中清晰地展示了本文算法比其他算法的優勢,特別是本文提出的顯著性特征的低通濾波方法。排序等級為1 時,顯著性特征低通濾波算法優勢明顯,比eSDC_knn 提高了近20%,比eSDC_ocsvn 提高了近15%;而顏色直方圖特征低通濾波算法識別率也明顯高于其他算法。當排序等級大于8時,本文的2種算法識別率均高于其他算法。

圖10 幾種算法在i-LIDS數據集上的累積匹配特性曲線Fig.10 Cumulative matching characteristic curves of several algorithms on i-LIDS dataset
為了進一步驗證本文算法在遮擋和背景干擾下的效果,研究中把i-LIDS 數據集上由于行人視角、姿態和光照方面的變化,存在大的光照變化和遮擋影響的95 個人的348 張圖像單獨制作成一個數據集,并在該數據集上對本文算法進行了測試。此時的測試結果如圖11 所示。可以看出,雖然由于圖像變差導致幾種算法的識別精度均有所下降,但本文算法仍取得了相對較高的識別率。
上述3 個數據集是行人再識別中比較常用的,如果某個算法能對這3 個數據集都能取得較好的識別結果,則可以說明該算法能較好地解決行人再識別問題。本文的行人再識別算法在上述3 個數據集中都取得了較好的識別結果,這在一定程度上說明了本文算法的優越性和實用價值性。實驗結果還證明本文算法比其他經典算法識別率更高,更能適應實際應用的需求。

圖11 幾種算法在修剪的i-LIDS數據集上的累積匹配特性曲線Fig.11 Cumulative matching characteristic curves of several algorithms on modified i-LIDS dataset
行人再識別技術在實際生活中的重要作用,已經引起了廣泛的關注。理想中的行人再識別可以實現類似《速度與激情》中的“天眼”系統、《碟中諜》中根據行人圖像查詢特定的目標那樣的功能。然而現階段遮擋和背景的干擾是行人再識別研究的難點和熱點之一,針對這一問題,本文提出了基于低通濾波的行人再識別方法。通過利用背景和噪聲出現在行人圖像中的頻率較高這一特征,結合改進的低通濾波算法,可以有效降低遮擋和背景的干擾。通過在常見的行人再識別數據集上進行驗證,本文算法達到了比現有算法更好的識別效果。在接下來的研究中,可以考慮在大數據背景下提升行人再識別技術的實時性,這將是該技術真正應用于實際的重要因素。