馬媛媛,楊小軍
(長安大學 信息工程學院,陜西 西安 710064)
計算機視覺[1-3]已經研究了幾十年,目標跟蹤問題通常是在目標運動時估計目標在圖像平面上的軌跡問題。雖然在文獻中已經對建立魯棒跟蹤框架做了大量的努力,但當目標出現(xiàn)外觀突變或遮擋時,跟蹤器往往會受到影響從而導致跟蹤目標失敗。
近年來,基于判別式的相關濾波器被證明能夠在跟蹤速度上有顯著提高且能精準跟蹤目標,因此得到了廣泛應用。為了跟蹤,一個相關過濾器通過計算每個學習模板(或過濾器)相對于測試圖像樣本的點積來評估相似度。利用卷積定理可以加快相關濾波器的計算速度,它表明空間域的卷積可以計算為頻域傅里葉變換的元素乘。雖然CSK[4]和KCF[5]方法在準確性和魯棒性方面都達到了最優(yōu),但這些基于相關濾波器的跟蹤器并不處理尺度變化。為了處理目標對象的尺度變化,Danelljan等人[6]提出了一種新的DSST跟蹤器,通過分別學習平移和尺度估計的相關濾波器,提出一種新的尺度自適應方法來精確估計目標的大小。盡管DSST跟蹤器在學習基于判別相關濾波器的魯棒尺度估計方面表現(xiàn)良好,但在金字塔尺度表示中,它不能很好地處理局部遮擋和完全遮擋。
另一方面,粒子濾波[7-8]可用于處理大尺度變化和局部遮擋。通過增加粒子數(shù)來提高跟蹤性能。但是,由于計算量的增加,跟蹤效率會降低。將外觀自適應模型[9]集成到粒子濾波框架中,其中粒子數(shù)取決于噪聲方差。與之前的方法不同,粒子濾波框架的主要區(qū)別在于觀測模型,在觀測模型中采用相關濾波器來減少粒子的數(shù)量。
然而,由于粒子濾波采樣過程計算量大,其實時應用受到限制。針對以上問題,該文提出了一種新的目標跟蹤算法,用尺度相關濾波器來訓練卷積神經網絡特征,通過對所獲得的置信圖進行加權融合,以得出目標的位置。該算法有效克服了上述問題,具有較強的魯棒性。
提出的粒子濾波框架是基于貝葉斯順序的重要性抽樣技術,該方法利用有限的加權樣本集遞歸逼近后驗分布,以估計動態(tài)系統(tǒng)的狀態(tài)變量的后驗分布。對象在時刻t狀態(tài)變量的參數(shù)為st,yt。st表示目標狀態(tài)變量,yt表示觀測變量。因此,視頻跟蹤可以建模為這樣一個問題:
st=p(st|y1:t-1)=
(1)
當一個新的觀測變量產生時,用貝葉斯定理更新目標狀態(tài):
(2)

(3)

(4)

KCF跟蹤[5]的基本思想是在探索循環(huán)矩陣結構的同時,利用大量的負樣本來增強檢測器跟蹤的鑒別能力,以獲得高效率。KCF跟蹤器使用在P×Q像素的圖像x上訓練的相關濾波器w來建模目標對象的外觀,所有的循環(huán)移位Xp,q,生成高斯函數(shù)標簽rp,q的訓練樣本。目的是找到最優(yōu)權重w。
(5)

(6)
F,F-1分別表示傅里葉變換及其反變換,其中r={r(p,q)}。給定學習的α和目標外觀模型x,通過計算響應映射,在新的一幀中進行任務跟蹤。
通過使用基于KCF跟蹤提出的區(qū)分尺度空間的跟蹤器,計算圖像位置尺度維度的分數(shù)。設S為尺度濾波器的大小,提取一個以P×R像素目標中心的圖像補丁In,將訓練樣本ft,scale在規(guī)模水平n下的值ft,scale(n)設為In的d維特征描述符,然后構建尺度樣本ft,scale,去訓練一個尺度濾波器ht,scale。
(7)

為了估計目標的平移量,采用標準平移濾波器。通常情況下,兩幀之間的目標尺度差相對于平移的差異較小。因此對給定的新的一幀,首先應用平移過濾器ht,trans,然后用尺度濾波器ht,scale估計目標新位置,用提取訓練樣本的方法在該位置提取一個尺度訓練樣本zt,scale,通過在傅里葉域計算最大尺度相關性得分,得到最終的尺度估計結果來估計當前目標狀態(tài)。

(8)
其中,A,B是前一幀中更新的濾波器的分子和分母。
最后,利用下式對尺度濾波器進行更新,用新樣本進行尺度變換。在這種情況下,使用一維高斯函數(shù)作為期望的相關輸出。
(9)
(10)
其中,η為尺度濾波器模型更新的學習率,t為第t個圖像塊。
通過尺度相關濾波器,利用粒子的循環(huán)位移信息,將粒子引導到目標物體的局部模式。為了簡單起見,定義尺度相關濾波算子,對于狀態(tài):ScfRd→Rd。

(11)

(12)
使用加權權重,在時刻t目標對象的最佳狀態(tài)估計為:
(13)
當出現(xiàn)嚴重的遮擋或物體外觀變異時,基于像素的淺層特征不能很好地處理。故采用已經訓練好的卷積神經網絡特征(deep convolutional neural network feature,CNN deep feature)[10-11]對目標的外觀進行編碼,這樣特征既能有很好的層表達,又能保留準確的空間信息。由CNN層數(shù)與語義信息和空間細節(jié)的關系可以看出,在靠前的層中,更容易確定圖像的一些定位信息,但是圖像的語義信息并不豐富;而在靠后的層中,圖像的語義信息更容易確定,空間信息則不易于獲取。因此可以得出低層特征具有更多的空間信息,對目標能夠進行更為精準的定位,而高層特征則具有較多的語義信息,能夠更好地處理目標劇烈變化以及防止跟蹤器漂移,可以對目標進行范圍定位。
采用CNN提取目標特征,不僅保留其最后一層輸出結果,同時中間層的輸出也保留下來,具體保留的是3、4、5三個層。
在以目標為中心的幀中裁剪出搜索窗口,用CNN獲取搜索的窗口特征。但在CNN中,由于池操作的存在,使得隨著層深度的增加,特征的空間分辨率會逐漸減小。需要用余弦窗對每一層提取的特征通道進行加權,對特征進行升采樣之后才能夠提取特征。
(14)
其中,xi表示升采樣后的特征圖,hk表示升采樣前的特征圖,i表示位置,k表示k領域的特征向量,α表示插值的權值。
在此過程用到CNN的3、4、5層,每一層的輸出特征為x(大小為M×N×D),將M維和N維上的所有循環(huán)移位作為訓練樣本,每一個移位樣本x(m,n),都有一個高斯函數(shù)標簽,然后可以通過公式(8)學習到跟x同樣尺寸的尺度相關濾波器。
空間域的卷積對應于傅里葉域中的逐元素乘法,所以卷積層的濾波器頻域表示可以寫作公式(15),Y是高斯標簽的頻域表示。這樣使得目標函數(shù)最小化。
(15)


(16)

文中算法是在粒子濾波和相關濾波的基礎上提出的。首先,使用粒子濾波器的概率系統(tǒng)轉移模型繪制樣本并重新采樣,然后使尺度相關濾波器應用于每個粒子,計算每個樣本三層CNN特征的響應圖進行融合,利用尺度相關濾波器的響應更新權重。最后,根據(jù)這些響應圖計算加權平均得到目標的位置。

F(αk)t=(1-η)F(αk)t-1+ηF(αk)
(17)

(18)
其中,η是學習速率參數(shù)。
實驗運行平臺為MATLAB R2016b,所有實驗均在Inter Core i7 CPU,主頻2.00 GHz,8 GB內存的電腦上完成。實驗對所有視頻序列采用一致參數(shù):正則化參數(shù)設置為λ=0.01,尺度金字塔取33層。另外,通過增加粒子數(shù)可以提高性能,但運行時性能會受到影響。設置合理的粒子數(shù)為6,這樣可以有效地權衡跟蹤器的準確性和效率。
選取標準測試數(shù)據(jù)集OTB100[12]中的視頻序列進行實驗,視頻序列為Biker、Bird1、Bird2、Blurbody、BlurCar1、BlurCar2、BlurCar3、Box、Car1、ClifBar,這些視頻序列包含目標變化中的各類顏色以及運動挑戰(zhàn),如運動模糊、尺度變化、快速運動和旋轉、遮擋等。
為了評估這些跟蹤器,在測試序列中從第一幀的基礎真值位置初始化它們,并采用距離精度(distance precision,DP)、成功率(success rate,SR)作為評價指標[13]。其中距離精度(DP)表示中心位置誤差(CLE)小于或者等于閾值像素T0的幀數(shù)(一般選取閾值為20像素)占視頻總幀數(shù)的百分比。中心位置誤差(CLE)如下,表示預估目標與實際目標中心的歐氏距離。
DP=lDP(CLE≤T0)/l
(19)
其中,lDP表示中心位置誤差小于或者等于閾值的幀數(shù),l是當前視頻的總幀數(shù)。而成功率(SR)表示跟蹤所得的目標區(qū)域MT和目標真實區(qū)域MG所得的重疊率大于等于閾值T1(一般設為0.5),表示跟蹤成功。通常用成功率圖曲線下方的面積(AUC)去評估是否跟蹤成功。

(20)
將該文提出的算法與其他較為優(yōu)越的算法進行比較。比較的算法有CSK[4]、KCF[5]、DCF[14]、fDSST[6]和SRDCF[15]。提出的算法由于使用多層深度特征的尺度相關粒子濾波器,因此在面對各種運動挑戰(zhàn)時,更具魯棒性。在不同的視頻幀中,提出的算法都取得了較好的結果。跟蹤結果精確度和成功率如圖1所示。

圖1 算法精確度、成功率
為了進一步驗證提出的算法在跟蹤過程中的魯棒性,圖2給出了該算法與其他算法在旋轉、尺度變化、遮擋等各種干擾因素下的算法精確度與成功率的對比。

(b)尺度變化

(c)遮擋

(d)形變
從圖2得出,提出的算法基于粒子濾波框架,對每一個模擬目標的狀態(tài)分布的粒子,提取CNN特征,并用尺度相關濾波器來訓練特征,對所得置信圖進行加權計算,最后得出目標的位置。因此該算法能夠在大多數(shù)干擾因素下取得較好的跟蹤效果。
為了體現(xiàn)提出的算法的跟蹤性能,在標準測試數(shù)據(jù)集上選取了一些視頻序列進行測試,對不同算法的跟蹤結果進行對比,如圖3所示。

(a)Bird2_1

(b)Biker_1

(c)BlurBody_1

(d)Bird1_1

圖3 算法在不同視頻下的跟蹤結果
綜合上述實驗的對比結果,可知文中算法對目標在快速運動以及尺度變化和遮擋旋轉方面更為優(yōu)越。從圖3中可以看出,在Bird2_1視頻序列中,由于目標存在快速運動以及尺度的變化,對算法跟蹤產生干擾,由99幀可以看出,文中算法較其他算法能夠準確地跟蹤目標。在Birker_1序列中,文中算法由于使用基于貝葉斯順序重要性抽樣技術的粒子濾波框架,能夠更好地跟蹤目標。在BlurBody_1視頻序列中,存在運動模糊的干擾,但文中算法依然精確地跟蹤到目標。在Bird1_1視頻序列中第64幀目標在快速運動時被跟丟,但文中算法卻由于跟蹤精度較高,仍能有效地跟蹤到目標,具有較好的魯棒性,同時也說明,文中算法在處理快速運動時更為優(yōu)越。
該文提出了一種基于多層深度特征的尺度相關粒子濾波方法?;诹W訛V波框架,對每一個模擬目標的狀態(tài)分布的粒子,提取CNN特征,用尺度相關濾波器來訓練特征,對每一層作置信度評分之后由粗到精地對所獲得的三個置信圖融合得到訓練特征之后的響應圖,最后根據(jù)這些響應圖計算加權平均,確定目標的位置。該算法可以解決部分或者全部遮擋的問題,在準確性以及魯棒性方面有較好的提高。在選定的視頻序列上的對比結果表明,該算法得益于新的尺度相關粒子濾波器模式,優(yōu)于相關的一些算法。