曹 潔, 解博江, 李 偉, 王進花
(1.蘭州理工大學 計算機與通信學院,甘肅 蘭州 730050;2.蘭州理工大學 電氣工程與信息工程學院,甘肅 蘭州 730050)
相關濾波是一種典型的判別式跟蹤方法[1~3],其在對目標建模時同時考慮了目標與背景信息,故有較高的跟蹤魯棒性[4]。Mosse方法將相關濾波概念引入目標跟蹤領域中。時空上下文(spatio-temporal context,STC)[5]方法以概率論的方式對相關濾波方法進行了封裝,并在模板更新中對目標尺度進行了估計。碼移鍵控(code shifting keying,CSK)[6]方法通過核化嶺回歸的方式訓練濾波器模板,增強了模板在非線性情況下的有效性。由于相關濾波原理在特征使用上的限制,故上述各種方法均采用了單一的灰度特征。核相關濾波(kernelized correlation filtering,KCF)[7]方法在CSK的基礎上,運用高斯核函數將單通道相關濾波器擴展為多通道,使其能夠使用較為復雜的梯度方向直方圖(histogram of gradient,HOG)特征進行建模。Danelljan M[8]等人將顏色名(color name,CN)特征成功應用于核相關濾波框架中,使之對彩色視頻序列的跟蹤效果得到了有效提升。但上述僅使用單一特征的跟蹤器很難適應復雜多變的場景如目標遮擋、光照變化、尺度放縮等,為此許多學者展開了相關研究工作[9~11]。但這些改進方法均采用多特征對目標進行建模,雖然提高了跟蹤精度,但各特征被等價看待,未能針對不同場景以及跟蹤情況分析選擇出合適的特征進行描述,顯然是不合理的。此外,相關濾波類算法本身并不具備目標的尺度估計能力,研究者們提出了相應的解決方案[11~13]但仍有提升空間。
為此,本文在核相關濾波器的基礎上,利用目標圖像的多特征的互補性,通對各特征樣本訓練過程中的最小均方損失函數分別設定權重,鑒別性的選擇最優和次優的兩種特征進行決策級融合;在尺度估計上,借鑒在MOSSE基礎上改進的DSST(discriminative scale space tracker)[12]方法,加入了一維尺度相關濾波器實現對最佳尺寸樣本的篩選。
KCF方法采用了核化嶺回歸方式對濾波模板進行訓練求解,主要是尋找一個最優的函數f(x)=wTφ(x)使得(1)式中的代價函數最小
(1)
式中x為輸入大小為M×N的圖像樣本,φ(x)為樣本x通過核函數向高維空間映射所得到的結果,w為所要訓練求解的濾波模板,yi為輸入樣本xi所對應的擬合目標,λ為為了防止過出現過擬合現象而添加的懲罰項。
文獻[8]利用循環矩陣的性質及快速傅里葉變換,在頻域中對濾波模板進行訓練求解,可以得到模板如式(2)的解析解。
(2)

(3)
當新一幀的圖像獲取后,首先以上一幀目標所在坐標為中心提取樣本z,再經由快速傅里葉變換到頻域后,與已訓練好的相關濾波模板w進行響應,生成當前幀目標所在位置的置信圖C,其最大值處即為目標所在位置。響應過程如式
(4)
本文使用三種互補性的特征即顏色名(CN)、局部二值(local binary patterns,LBP)及方向梯度直方圖(HOG)建立目標樣本特征集合Xf,則用特征樣本訓練濾波模板的過程(式(1))可改寫為
(5)


(6)

(7)

(8)
為解決尺度問題,本文參考DSST方法,獨立增加一組一維尺度核相關濾波器,具體方法如下:
在當前第T幀目標位置處利用高斯金字塔對目標進行s層多尺度采樣并用雙線性插值變換將其恢復成與原跟蹤框尺度相同的M×N大小圖像,提取其HOG特征作為多尺度樣本集xsi,利用式(5)對尺度響應濾波器進行訓練,可得到尺度濾波器模板Ws的解析解為
(9)

(10)
尺度濾波器更新過程如下
(11)
(12)

在相關濾波框架內,文獻[14]發現相關響應峰值的主旁瓣比(peak to sidelobe ratio,PSR)大小能夠反映出目標的跟蹤效果。但受到不同視頻背景雜波的影響,PSR幅值存在差異,因此很難統一定義去判定跟蹤效果。本文在PSR的基礎上通過參考視頻歷史信息所構造出的主旁瓣均值比(peak to sidelobe average ratio,PAR)能夠在一定程度上克服該問題。PAR統計方法如下
(13)
式中pt為融合后的置信圖Ct的峰值,其周圍區域定義為旁瓣,μ和δ分別為旁瓣區域的均值和標準差。當融合所得置信圖Ct的PARt小于遮擋判定閾值U時,表明當前幀圖像與目標模板間相關性較弱,目標被遮擋的可能性越高,此時應該停止模板更新,反之則正常更新模板。差異化模板更新過程如式
(14)
實驗部分所依托的硬件平臺為:3.8 GHz四核Core i7,16 GB內存;參數設置為:尺度響應濾波器參數與DSST一致;核相關濾波器與KCF參數相同;融合權重更新 取0.2,跟蹤質量評判閾值U為1.5。
實驗所采用的視頻序列均來自Benchmark[4]測試集。算法評估方面以國際通用的距離精度(distance precision,DP)、重疊精度(overlap precision,OP)為指標進行評價。
實驗一為了驗證本文算法在特征選擇及融合權重分配階段的有效性,以Deer視頻為例對其進行分析。結果如圖1所示。圖1(b)為依據本文算法在候選特征集合中選擇出的最優和次優特征,以及其所對應的自適應融合權重。
從圖1(a)中可以明顯看出在第24幀及43幀處,三種特征所對應的均方損失出現不同程度的波動,最優及次優特征的選取也出現了更替,如圖1(b)所示。

圖1 特征選擇與融合權重
結合圖2,第24幀目標因運動模糊造成邊緣結構信息缺失而且存在目標與背景間顏色相似,此時邊緣HOG特征及CN特征均不能很好區分數據,表現為對應特征的跟蹤置信圖在目標真實位置附近出現不同程度的噪聲,其中HOG特征置信圖較為發散,部分位置因受噪聲影響大于真實位置的置信度,如果選用該特征會造成目標中心位置的誤判,CN特征的置信圖能夠反映出真實位置,但在真實位置附近及顏色相似的背景區域出現多個偽峰值,而LBP特征表現最好,從最優特征(LBP)和次優特征(CN)自適應融合的結果可以看出,融合后的置信圖能夠有效抑制CN特征因背景相似引起的周邊偽峰值區域,且提高了目標真實位置的置信度。

圖2 各特征置信圖
實驗二采用定性分析是將本文所提算法與改進前的方法在同一視頻中進行對比分析,對比結果如圖3。

圖3 不同場景中算法跟蹤效果對比
1)遮擋場景分析:Coke和Lemming視頻中目標均出現不同程度的遮擋273,368幀。其中,Coke中第269幀,目標受到遮擋物的干擾,KCF和CN-KCF跟蹤框均出現不同程度偏移,鎖定在邊緣及顏色特征較為明顯的綠葉上。當目標出現長時間遮擋時,由于KCF容易將遮擋物錯誤的引入模板中;而本文算法實現了模板的差異化更新,有效抑制了目標漂移現象的發生;如Lemming中的368~385幀。
2)光照場景分析:Shaking和Tiger2視頻類似,目標均受到了背景光照變化的影響。其中Shaking視頻因光照陰影及光照突變,造成目標顏色信息改變及紋理細節缺失,導致LBP-KCF和CN-KCF跟蹤框偏移,但此時目標仍具有較好的邊緣輪廓特征,使用多特征建模的本文方法能夠有效彌補次優特征細節的損失,從而實現對目標穩定的跟蹤。

圖4 尺度變化場景中算法跟蹤效果對比
3)尺度變化場景分析:圖4中CarScale和Women視頻,目標存在明顯的尺度變化KCF算法因缺乏目標尺度估計能力,當目標縮小時,容易引入過多的背景噪聲導致跟蹤框滯留;STC只采用了簡單的灰度特征進行建模,容易受到相似灰度的遮擋物干擾,從而導致跟蹤精度的下降,如CarScale中的170幀;本文算法和DSST均采用了高斯金字塔構建目標多尺度模型,在尺度估計上具有一定優勢,但在目標被大面積遮擋時,DSST目標模板因引入遮擋物從而降低尺度估計效果,本文方法對跟蹤質量進行評價從而實現了模板的差異化更新,有效避免了遮擋物的影響,如CarScale的240幀及Women的288幀所示。
實驗三將本文算法與近些年來提出的典型跟蹤方法在Benchmark視頻集中進行充分評估,以檢驗所提跟蹤算法的性能,對比所選跟蹤算法具體屬性如表1。

表1 所選算法屬性
圖5為本文算法與所選算法間定量對比分析結果。本文算法相比未融合前方法(KCF,CN-KCF,LBP-KCF,DSST)在跟蹤精度與重疊率上有著明顯提升,與僅采用HOG,CN特征串聯的SAMF方法相比跟蹤精度有一定提高,覆蓋域方面則與SAMF相差不大。

圖5 算法定量對比分析
算法定性定量對比實驗表明:本文所提算法對部分遮擋及光照變化場景具有一定的魯棒性。但目標在因完全遮擋而無法被連續檢測的情況下,本文方法仍存在不足,此問題有待進一步研究解決。