張汝佳,楊小軍,王 海
(長安大學 信息工程學院,陜西 西安 710001)
視頻目標跟蹤是指在確定了跟蹤目標后,從連續不斷的圖像序列中跟蹤和定位目標[1]。視頻目標跟蹤是計算機視覺領域中的一個基本研究方向,在視頻監控、智能交通、人機交互和運動分析等多個場景中都有極為廣泛的應用[2]。
粒子濾波是20世紀90年代發展起來的一種基于Monte Carlo方法和遞推貝葉斯估計[3]的新濾波方法,在處理非線性、非高斯系統的參數估計和狀態濾波方面具有獨到的優勢,多年來一直被應用于視覺跟蹤:文獻[4]提出高斯混合自適應外觀模型的Rao-Backwellized粒子濾波算法。該算法估計了目標狀態和外觀模型的聯合分布;文獻[5]提出箱粒子濾波算法。該算法將區間分析技術和粒子濾波相結合;文獻[6]提出用粒子群算法對粒子濾波算法進行優化,一定程度改善了著名的粒子貧化和依賴問題。粒子濾波存在兩大問題[7]:第一,眾所周知,粒子濾波的思想是利用大量粒子模擬目標的狀態分布,粒子數量越大,對于目標最終的位置估計越精確,但是粒子數量大使粒子濾波的計算復雜性增加;第二,粒子濾波是根據采樣的粒子來確定目標的狀態,若采樣的粒子不能很好地覆蓋目標狀態,會導致錯誤跟蹤。
近年來,相關濾波被證明具有較高的速度和穩定性[8],相關濾波應用于目標跟蹤方面的思想是:設計一個濾波模板,使得當它作用在跟蹤目標上時,得到的響應最大,最大響應值的位置就是目標的位置。文獻[9]提出了CSK算法,該算法利用核空間中相鄰圖像塊的循環結構,其跟蹤目標的精確性與準確性在當時的評估基準中達到了最高;文獻[10]在CSK算法的基礎上提出了核相關濾波器KCF,同時,應用線性核提出了一個快速多通道擴展的線性相關濾波器DCF;文獻[11]提出DSST算法,該算法是在MOSSE和KCF基礎上的改進,主要成果有兩個方面:引入多特征融合機制;引入尺度估計。近年來,相關濾波的算法已經發展得較為成熟,但是這些基于相關濾波的跟蹤器仍然不能很好地處理尺度變化和遮擋。
基于此,有學者提出相關粒子濾波算法[7],該算法將粒子濾波與相關濾波進行結合,提高濾波器跟蹤目標時的精確性和魯棒性;文獻[12]提出了一個創新的實時性的視頻目標跟蹤算法,在預測階段將粒子濾波器與相關濾波器進行結合,使粒子濾波器能夠進行準確的預測,減輕預測目標位置時的漂移現象。
基于相關粒子濾波算法框架,該文提出了一種多級特征融合的視頻目標跟蹤算法,具體算法思想可以概述為:
(1)對目標狀態進行第一次粗略的估計:對于每個抽樣粒子,選取顏色特征作為觀測量進行濾波,并利用相關濾波算法訓練該特征,得出每個粒子的響應圖;
(2)再從得到的每個粒子響應圖上選取響應值最大位置處作為第二次濾波的粒子分布位置,針對每個粒子,再次選取邊緣特征作為觀測量進行濾波,并用相關濾波器訓練邊緣特征,得到每個粒子的響應圖,最后從得到的響應圖中選取峰值位置,得到的位置即為目標最終預測的位置。
該算法基于多特征的相關粒子濾波,相比相關粒子濾波算法的實時性可能有所下降,但是提高了視頻目標跟蹤的精確性;相比于基于多特征的粒子濾波算法,該算法融合了相關濾波算法來引導粒子模擬目標狀態的分布,減少了冗余粒子,降低了粒子濾波的計算復雜性,提高了跟蹤的實時性。
該文提出的相關粒子濾波算法是基于粒子濾波框架的,粒子濾波以貝葉斯推理和重要性采樣為基本框架,結構實際上就是在里面的Monte Carlo method加一層重要性采樣。該方法的基本思想是用一組粒子來近似表示系統的后驗概率分布,然后使用這一近似的表示來估計非線性系統的狀態。此思想區別于卡爾曼濾波器只能處理線性高斯分布的概率問題,它可以使粒子濾波在濾波過程中處理任意形式的概率。
在視頻目標的跟蹤中,粒子濾波的目標模型包括運動模型和觀測模型,預測階段通過狀態轉移模型與上一時刻的后驗概率分布得到該時刻的先驗概率分布,更新過程利用貝葉斯公式,由先驗概率得到此時的后驗概率:
(1)
其中,xt為t時刻目標的狀態函數,yt為目標的觀測函數。
相關濾波器應用于視頻目標跟蹤中,簡而言之就是衡量兩個信號相似值的度量,如果兩個信號越相似,其相關值就越高;如果兩個信號越不相似,其相關值就越低。而在視頻目標跟蹤中,就要設計一個濾波模板,當它作用于跟蹤目標上時,得到的響應最大。
相關濾波的原理可以如下表示:假設有兩個信號f和g,這兩個信號的相關性為:

(2)
相關濾波器實際意義就是可以將輸入圖像映射到一個最為理想的響應圖中,當這個響應圖的最高峰與目標的中心點對應起來,可以得到理想的目標跟蹤位置。映射的實現就是通過一個濾波器對測試圖像樣本的每個點積來評估相似度。
該文所提的相關粒子濾波器,是基于粒子濾波器與相關濾波器的改進。在視頻目標跟蹤中,通過在粒子濾波中結合相關濾波,在粒子濾波器的算法框架下,結合相關濾波器引導粒子分布,減少模擬目標狀態所需的粒子數,從而降低了粒子濾波算法的計算復雜度;再通過相關濾波器來訓練提取的目標特征,得到每個粒子的響應圖,最后從得到的響應圖中選取峰值位置,得到的位置即為目標最終預測的位置。
首選,在視頻目標的跟蹤中,粒子濾波的目標模型包括運動模型和觀測模型,它們可以表示為:
(3)
其中,st表示t時刻目標的狀態,ft表示模擬系統的傳遞函數,vt表示系統噪聲;yt表示觀測量,ht表示模擬系統的觀測函數,ut表示觀測噪聲。
預測階段通過狀態轉移模型與t-1時刻的后驗概率分布得到t時刻的先驗概率分布:
(4)
更新過程利用貝葉斯公式,由先驗概率得到t時刻的后驗概率:
(5)

其次,用相關濾波引導粒子至目標狀態分布的模式,最后要將濾波的結果集成到該跟蹤算法中,因此訓練的相關濾波器可以表示為:
ε=‖α*φ(x)-y‖2+λ‖α‖2
(6)
利用最小化脊回歸的損失函數獲得所需的濾波器α,其中*表示循環相關,λ>0是正則化系數,得到封閉形式的解如下:
(7)

在預測階段,通過粒子濾波器在前一個位置繪制樣本φ(zi),并在傅里葉域中計算關于第i個樣本的響應映射的峰值:
(8)
最后,該文所提的相關粒子濾波算法中,粒子權重可以更新為:ωi=max(gi),其中,g表示響應圖,i表示第i個粒子。
此時可以預測目標最終的位置為:
(9)
2.1.1 色彩特征
在視頻目標跟蹤過程中,色彩分布特征經常被選擇,來對跟蹤目標對象進行建模,因為它對部分遮擋、旋轉和尺度變化具有魯棒性。假設用點集{xi},i=1,2,…,n來描述跟蹤區域,目標區域的中心位置為x0,顏色分布被離散為m-bins,顏色直方圖用函數h(xi)表示。通常在RGB色彩空間內,設置8*8*8=512來構建目標的顏色直方圖,在位置xi處的顏色分布可以表示為:
(10)
其中,C是歸一化常數,K是核函數,h是核帶寬,δ是Kronecker delta函數[13],n是跟蹤目標區域中的總像素,h(xi)是目標區域xi處像素的色彩值,u是直方圖的色彩索引。
為了提高模型在跟蹤區域中的效率,該文定義了一個中心區域周圍像素的假設函數,具有更大權重,而區域邊距的像素具有較少的權重,該函數定義如下:
(11)
其中,r表示距離中心像素的距離。
在實時跟蹤方法中,通過加入新的觀測值來更新每一步的目標估計狀態,通常,用巴氏系數來度量目標模型和候選模型之間的相似性,公式表示為:
(12)
因此,獲得了目標的色彩特征響應值:
(13)
上式中,σ1為方差。
2.1.2 邊緣特征
邊緣特征作為傳統的目標特征之一,在目標識別、圖像分割等領域有著極為廣泛的應用。邊緣直方圖是描述目標邊緣特征的一種常見方式。在對跟蹤目標進行邊緣檢測時,可以選取Roberts算子、Prewitt算子、Sobel算子和Canny算子等算子方法進行檢測,得到目標的邊緣點[14]。該文使用Sobel算子與跟蹤目標圖像進行卷積運算,得到水平和垂直方向的差分圖像,分別用Gx,Gy表示,可以得到邊緣點的邊緣方向和梯度幅值的計算公式,分別如下:
(14)
上式中,xi表示像素點的坐標向量,θ表示邊緣點的特征值。
再對特征值θ進行量化,將其分為m等份,則目標的邊緣特征可以建模為:
(15)
與上述色彩特征的提取原理相似,得出目標邊緣特征的響應值:
(16)
上式中,σ2為方差。
該文所提多級串聯結構的相關粒子濾波算法可以通過圖1更為清晰地描述。
基于多特征目標跟蹤算法的核心就是如何融合多個特征來描述所要跟蹤的目標,因此,選擇多特征的融合方式顯得尤為重要。
該算法的思想是:采用相關粒子濾波框架,濾波的粒子分級融合了目標的不同特征。首先,跟蹤過程的第一級濾波:按照粒子濾波的方法用大量粒子模擬目標狀態分布st=ft-1(st-1,vt-1),然后選擇色彩特征作為濾波的觀測量對每個粒子進行評估,并用相關濾波器訓練色彩特征,得到每個粒子的響應圖,這時候粒子集已經集中于目標的真實狀態附近;接著在上述每個粒子響應圖上選取響應值最大位置處作為第二級濾波的粒子分布位置,針對每個粒子,再次選取邊緣特征作為觀測量進行濾波,并用相關濾波器訓練邊緣特征,得到每個粒子的響應圖,最后從得到的響應圖中選取峰值位置,得到的位置即為目標最終預測的位置。相比于已有的相關粒子濾波算法,該文提出的基于相關粒子濾波的多特征融合算法可以更為準確地預測出目標的位置,多個特征的選取可以使跟蹤目標更有效地區別于背景以及光照的變化,在面對復雜背景、目標形變和光照變化等多種具有挑戰性影響因素的情況下,展現出了更強的魯棒性。
光照條件、視角以及攝像機參數等因素都會影響粒子相關濾波器對于視頻目標跟蹤的性能[12]。為了克服這些問題,該文在緩慢變化的圖像觀測中更新目標模板,通過丟棄圖像序列中的異常值,在目標被遮擋或背景嘈雜的地方,可以確保當跟蹤器丟失對象時模型不會更新。更新條件為:πE[s]>πT,其中E[s]是平均狀態的觀測概率,T是閾值。目標模板的更新方程為:
(17)
其中,α是更新系數,α∈[0,1]。
因此,該文提出的多特征融合相關粒子濾波器的視頻目標跟蹤算法步驟可以詳述為:

Step2 第一次濾波:提取每個粒子的色彩特征作為濾波的觀測量對每個粒子進行評估,并用相關濾波器訓練色彩特征,得到每個粒子的響應圖,這時候粒子集已經集中于目標的真實狀態附近;
Step3 第二次濾波:從上一步每個粒子響應圖上選取響應值最大位置處作為第二次濾波的粒子分布位置,針對每個粒子,再次選取邊緣特征作為觀測量進行濾波,并用相關濾波器訓練邊緣特征,得到每個粒子的響應圖,最后從得到的響應圖中選取峰值位置,得到的位置即為目標最終預測的位置;
Step4 模板更新:所提視頻目標跟蹤算法的目標更新由公式(17)確定。
實驗部分主要從跟蹤精確度與跟蹤成功率上對該算法的跟蹤性能進行評價,為了方便比較,對于選取的與文中算法進行比較的算法,一律采用默認參數:正則化參數λ=0.01。由于粒子濾波器是通過增加粒子數來提高算法的跟蹤性能,但是粒子數過多時就會影響跟蹤的實時性,因此實驗設置的粒子數為4,來權衡跟蹤器的性能。
為驗證文中算法的跟蹤性能,選取公開的標準測試數據集OTB100中的Biker、Dancer2、david、blot、coke、couple、crossing、deer、fish、girl、Gym和Man這12段具有挑戰性的視頻序列進行實驗測試。
與近年來具有代表性的4個優異算法進行對比,包括:MOSSE、KCF、 BACF[15]和CPF。為了評價這些跟蹤器,用距離精度(DP)和成功率(SR)作為評價指標[16],中心位置誤差(CLE)即為預測目標中心和實際目標中心間的歐氏距離。
DP=lDP(CLE≤T0)/l
(18)
(19)
上式中,lDP表示中心位置誤差小于等于閾值的幀數,T0表示閾值像素,一般設置為T0=20 px,l表示當前視頻序列的總幀數;MT表示跟蹤所得的目標區域,MG表示目標的真實區域,T1為閾值,一般設置為T1=0.05。
與近年來跟蹤性能較為優異的4個算法進行了對比。文中算法是多級串聯多特征融合的相關粒子濾波算法,通過融合目標狀態的色彩特征和邊緣特征,極大地提高了跟蹤性能。其跟蹤結果的精確度和成功率如圖2所示。

圖2 算法的精確度、成功率
由圖2可以清楚地看出,不論是跟蹤的精確性還是成功率,該算法相比于所選取的其他算法,都顯示出了較好的性能。實驗選取的視頻序列中,包含了尺度變化、目標形變、平面旋轉和遮擋等多種挑戰性因素,為了更加凸顯該算法的優越性,針對這些挑戰性因素與選取的算法進一步進行測試比較。代表性地選取尺度變化這個挑戰因素,其對比如圖3所示。

圖3 尺度變化精確度、成功率
為了更好地體現文中跟蹤算法的優異性能,再次在數據集OTB100中選取了一些代表性的視頻序列進行測試,且與不同的算法進行對比。選取具有代表性的快速運動視頻序列Diving_1進行對比,實驗結果如圖4所示。

圖4 Diving_1
如圖4所示,在序列第12幀,即目標剛開始運動時,所有跟蹤器都準確地鎖定目標;而當序列進行到第143幀時,MOSSE和KCF跟蹤器已經丟失目標;當序列進行到188幀時,只有文中算法跟蹤器準確地鎖定目標,其他的都已經產生漂移現象。實驗說明,文中算法同樣適用于快速運動的情況,展現出了魯棒的跟蹤性能。
針對視頻目標跟蹤中遮擋和形變等問題導致單一特征目標跟蹤魯棒性弱的問題,該文提出了基于相關粒子濾波框架下的多特征融合的視頻目標跟蹤算法。在相關粒子濾波算法框架下,首先對于每個抽樣粒子,選取色彩特征作為觀測量進行濾波,用相關濾波器訓練色彩特征,得到每個粒子的響應圖;再從得到的每個粒子響應圖上選取響應值最大位置處作為第二次濾波的粒子分布位置,針對每個粒子,再次選取邊緣特征作為觀測量進行二級濾波,對于每個粒子,用相關濾波器訓練邊緣特征,得到每個粒子的響應圖,最后從得到的響應圖中選取峰值位置,得到的位置即為目標最終預測的位置。實驗結果表明,相對于現今已有的跟蹤算法,該算法顯示出了優越的性能,展現出了更強的魯棒性。