馬松華,徐伯慶
(上海理工大學 光電信息與計算機工程學院,上海 200093)
目標跟蹤指對視頻序列中目標的狀態進行持續推斷,通過定位視頻中每一幀目標生成運動軌跡。隨著研究的不斷深入,人們提出了很多目標跟蹤方法,但是對遮擋、姿態、快速運動、光照變化以及尺度變化等情況仍面臨許多問題[1]。目標跟蹤分為生成模型方法[2-5]和判別模型方法。生成模型方法是對當前幀進行目標區域建模,然后在下一幀中尋找與模型區域最相似的區域,就是預測的目標位置。判別模型方法主要是將目標和背景區分開來,以目標區域為正樣本,背景區域為負樣本,通過機器學習方法訓練分類器,使其在下一幀中找到最佳目標區域。
目前目標跟蹤主要采用判別模型方法,其中相關濾波的引入效果很好。Bolme等[6]利用誤差最小平方和建立一個目標背景分類器,找到一個濾波器,使其在目標上響應最大,同時在計算過程中使用快速傅里葉變換提升速度,對目標和背景區分效果很好。Henriques等[7]提出利用核函數基于檢測跟蹤的循環結構(Exploiting the Circulant Structure of Tracking-by-detection with Kernels,CSK),采用循環矩陣對目標進行密集采樣,通過核函數計算相鄰幀的相關性進而得到目標位置。CSK算法使用的是原始灰度特征,Henriques等[8]在此基礎上將單通道擴展至多通道,利用方向梯度直方圖(Histogram of Oriented Gradient,HOG)作為外觀模型特征代替原始的灰度特征,提出了核相關濾波(Kernelized Correlation Filters,KCF)以及雙相關濾波(Dual Correlation Filters,DCF),提升了跟蹤精度。Danelljan等[9]將顏色特征(color names,CN)應用到相關濾波中,提高了目標外觀的辨識能力,得到了很好的跟蹤效果。為實現自適應尺度及結合顏色特征的目標跟蹤,本文在CN算法基礎上提出一種尺度估計方法,采用標準跟蹤數據集OTB[10](Object Tracking Benchmark)中的視頻序列進行驗證,并與CN和其它跟蹤算法進行對比。
本文將自適應顏色特征[11-19]作為目標外觀模型,然后作用在CSK跟蹤器上,通過映射將目標區域中的所有RGB值與11種基礎顏色[20]進行關聯操作。為減少計算時間、提高跟蹤精度,將基礎顏色從較高的維度(11維)通過主成分分析法(PCA)降到二維,通過降維誤差最小化得到原始特征的大部分信息,見式(1)。
(1)

(2)

(3)

將顏色信息添加到擴展的多維顏色特征CSK跟蹤器中,通過使用大小為M×N中心的帶有顏色信息的圖像塊x,利用循環移位xm,n,(m,n)∈{0,…,M-1}×{0,…,N-1}作為分類器的訓練樣本,利用高斯函數y(m,n)通過最小化結構風險泛函式(4)訓練分類器。
(4)
其中,y(m,n)是xm,n的函數,λ是控制過擬合的正則化參數,φ是映射到核函數k引起的希爾伯特空間,定義內積為<φ(f),φ(g)≥k(f,g)。通過w=∑m,na(m,n)φ(xm,n)得到式(5)中的最小值。
對系數a有:
(5)
這里F是離散傅里葉變換(DFT),其中Y=F{y},Ux=F{ux},ux(m,n)=k(xm,n,x),同時對于所有的m、n、f和g,有k(fm,n,gm,n)=k(f,g),文獻[7]證明核函數k具有平移不變性,這樣就可通過循環矩陣和高斯核函數求解相關濾波,通過相關濾波得到最大響應位置。


(6)
其中,As為訓練分類器中的學習系數,Ys為分類器的輸出,Uxs=F{uxs},uxs(m,n)=k(xsm,n,xs)。
(7)

(8)
(9)

由于相鄰兩幀中尺度的變化相對于位置變化較小,因此先通過帶有顏色特征的位置濾波器確定目標位置,然后在目標位置的周圍取不同尺度,通過計算尺度濾波的最大響應值得到最佳尺度。
實驗計算機配置為Intel(R) Core(YM) i5-3230M CPU,主頻2.60GHz,內存4.0GB,軟件環境為MATLAB R2014a。對于視頻序列,算法參數保持不變。其中正則化參數λ為0.01,高斯核的標準差σ為0.2,學習因子α為0.075,空間帶寬s為1/16,尺度濾波器S為33,尺度因子γ為1.02,尺度學習因子β為0.25。
本實驗采用中心位置誤差(Center Location Error,CLE)、距離精度[18](Distance Precision,DP)和成功率[21](Success Rate,SR)這3個評估標準衡量跟蹤器情況,相應計算公式如下:
CLE表示估計的目標中心位置與真實位置之間的歐式距離:
(10)
其中,(xi,yi)表示目標的真實位置,(xi_st,yi_st)表示通過跟蹤算法得到第i幀的目標中心位置。
DP表示中心位置誤差小于特定閾值的幀數與總幀數之比,有
(11)
其中,m表示中心位置誤差小于特定閾值(實驗取20 pixel)的幀數,n表示視頻序列的總幀數。
SR計算公式為:
(12)
其中,Ri表示實驗獲取的跟蹤框面積,Rst表示視頻序列中標記的跟蹤框面積。
為驗證本文算法的跟蹤效果,選取CarScale,Girl,Human8,Shaking,Singer1,Skater,Skating1,Toy,Tiger1和Vase這10個視頻序列進行測試,表1給出了5種算法(CSK,KCF,DSST[10],CN,本文算法)對10個視頻序列進行跟蹤的平均CLE(in pixels)、DP(%)和SR(%),其中最好的結果被加粗。從表1可以看出,與CN算法相比,平均中心位置誤差由原來的14.52 pixel下降到9.53 pixel,距離精度由原來的77.9%增加到現在的86.0%,成功率由原來的44.4%增加到71.3%,跟蹤效果明顯優于CN算法,本文算法優于其它算法。

表1 不同算法的平均CLE、DP、SR
為更加直觀地和其它算法對比,本文選取了多組視頻序列,將所有的算法都在這些視頻序列上進行測試,其跟蹤結果對比如圖1所示。為區別不同算法,分別用不同顏色的方框標記,其中本文算法為紅色跟蹤框,CN算法為黑色跟蹤框,KCF為藍色跟蹤框,DSST為黃色跟蹤框,CSK為綠色跟蹤框。
在CarScale中,目標存在尺度變化情況,在第170幀時遮擋較嚴重,CSK算法跟蹤失敗。在整個跟蹤中,只有本文算法和DSST算法跟蹤效果好。在Dog1視頻中,目標的尺度變化很大,所有算法都能準確跟蹤到目標,但只有本文算法表現最好。在Girl視頻中,第116幀和316幀分別出現旋轉和姿態變化情況,本文算法能很好地適應。第437幀目標發生嚴重遮擋,DSST、KCF、CSK都將遮擋物當作目標進行跟蹤,在第471幀遮擋消失后,目標丟失,只有本算法和CN算法能夠準確跟蹤,而本文算法跟蹤比CN算法效果好。在Skating1序列中,目標存在著旋轉、遮擋、光照和尺度等變化,本文算法能準確跟蹤并適應尺度的變化,效果也比其它算法好。

圖1 不同跟蹤算法效果
為說明本算法跟蹤效果,現以Girl和Skating1視頻序列為例,圖2(a)、圖2(b)分別為Girl視頻序列的DP和SR曲線,圖2(c)、圖2(d)分別為Skating1視頻序列的DP和SR曲線,從圖中可以看出,本算法的跟蹤效果比其它跟蹤效果好。

圖2 DP和SR曲線
本文在CN算法基礎上增加了一種自適應尺度方法,通過顏色特征對目標區域進行采樣,利用核相關濾波器確定目標的位置和尺度。當目標大小發生改變時,算法的跟蹤框能夠自適應變化,獲取更多有效信息,同時通過更新濾波器的模板系數和尺度模板,使跟蹤精度更高。從10組視頻序列的跟蹤結果可知,本文算法不僅對尺度變化、遮擋、旋轉、光照變化、姿態變化具有很好的魯棒性,而且平均中心位置誤差達到9.53%,距離精度達到86.0%,成功率達到71.3%,這3個評估標準都優于其它算法。但是本文算法對快速運動效果不好,原因是目標位置由上一幀目標的中心決定,可搜索范圍有限。因此,下一步的研究重點是在復雜場景中通過引入運動狀態估計方法提高魯棒性及跟蹤精度。