孫佳男,孫 俊
(江南大學 物聯網工程學院,江蘇 無錫 214122)
視頻目標跟蹤是計算機視覺領域的重要組成部分,其主要任務是獲取視頻序列中感興趣目標的位置信息及運動狀態,為進一步提取語義信息建立基礎.在視頻監控,車輛導航,精確制導,無人機等領域有著重要的研究意義和應用價值.在視頻目標跟蹤過程中,由于光照,尺度變化,目標形變,遮擋,復雜背景等因素的影響,設計一種魯棒的跟蹤算法是一件具有挑戰性的工作[1-3].
目標特征表達是目標跟蹤中較為重要的部分.傳統特征大多是基于人工設計的特征,如histogram of oriented gradient (HOG),scale-invariant feature transform(SIFT)等,在處理不同的問題時,人工特征有一個較為明顯的缺陷是設計者需要較多的專業領域知識.隨著深度神經網絡理論被逐步引入到目標跟蹤框架中[4-10],利用神經網絡學習目標特征成為突破人工特征局限性的有效途徑,深度神經網絡能夠挖掘出目標的多層表征,而高層級的表征被認為更能夠反映目標的語義信息,這是人工特征所不能實現的.Wang等人[6]最早將深度學習技術引入跟蹤中,利用無監督特征學習得到的深度去噪自編碼器提取目標特征,以表達目標的本質信息,該方法在一定程度下取得了成功,但是在目標部分重疊場景下,跟蹤效果不甚理想.Hong等人[7]利用離線訓練好的卷積神經網絡,獲取若干幀目標顯著性圖構建目標外觀模型,并使用相關匹配算法實現目標定位,一定程度上解決了網絡誤分類引起的跟蹤漂移及目標重疊問題.雖然卷積神經網絡的池化操作針對目標尺度變化具有一定的魯棒性,但是由于跟蹤過程中變化較復雜,單純依靠池化操作并不能有效地估計尺寸信息.
本文的算法是基于文獻[8]的,與其不同的是:本文利用深度特征進行跟蹤的同時,將似物性采樣視為另一條獨立的跟蹤線索,目的是有效處理尺度變化問題,即利用目標檢測方法中的似物性采樣Edgeboxes算法[11],設計不確定性度量的目標確認機制及模板更新策略,自適應地調節跟蹤目標的尺度值,實現跟蹤過程中深度特征表示與似物性采樣之間的有效信息互補,從而維持對目標的準確跟蹤.在數據集OTB[1]上對文中算法進行測試,并與近些年提出的8種跟蹤算法進行比較.定性與定量分析顯示,本文提出的算法具有更好的跟蹤性能.
本文提出的算法以KCF[12]跟蹤算法為基礎,KCF算法通過循環偏移將樣本矩陣變化成循環矩陣,避免求解逆矩陣,并將解空間轉換至傅里葉域,有效降低算法復雜度.
KCF跟蹤算法以目標為中心,選取目標及其周圍一定范圍內的矩形區域圖像塊x來訓練分類器.假設圖像區域大小為M×N,訓練樣本由圖像塊x循環移位構成,記為xi,對應的標簽數據yi用高斯函數表達.在最小均方條件下,線性分類器f(Xi)的目標表達式為一個嶺回歸:
(1)
其中,w為分類器參數;λ≥0為正則化系數.

(2)
其中,⊙代表點積;F為離散傅里葉變換;F-1為離散傅里葉反變換.轉換后,問題求解從尋找最優w變為尋找最優α,設訓練樣本組成核矩陣Ki,j=κ(xi,xj),則α的解為:
α=(K+λI)-1y
(3)
借助核矩陣的循環性質,式(3)可進一步寫成:
(4)

KCF在下一幀中以M×N的窗口來搜索候選圖像塊z,計算得到響應值為:
(5)
最終,響應值最大的位置即為目標在當前幀中的位置.由于引入了傅里葉變換,式(1)的求解僅需計算點積和模值,大大節省了計算時間,提高了計算效率.除此之外,文獻[3]提出將多通道的圖像特征融入KCF中,即式(2)修改為:
κ(x,x′)=
(6)
由于引入多通道信息如顏色,HOG等特征,可以更好地描述目標外觀模型,進而提高跟蹤性能.
因為目標的外觀是實時變化的,濾波模板α和外觀模型x需要動態更新,更新方法為:
(7)
其中,ρ表示學習參數.
Edgeboxes[11]作為一種似物性檢測算法,通過結構化邊緣檢測算法計算得到每個像素點作為物體邊緣的可信度,統計這些邊緣信息并設計物體位置預測函數,對生成的目標框打分,分數代表物體框能夠框住一個物體的可能性,分數越高,目標框對目標的定位越準確.
通常,我們可以通過改變位置,大小和長寬比來控制物體框的生成.當按照步長分別改變位置,大小,長寬比三個變量時,定義所產生的相鄰兩個物體框的重合度(Intersection Over Union,IoU)為β1,即參數β1控制步長.根據文獻[11],對于寬為bw、高為bh的物體框b,其打分函數定義為:
(8)
其中,i表示b中的每一個像素點,像素點的平均梯度強度為m,bin代表b中大小為bw/2×bh/2的中間區域,wi∈[0,1]是一個權重值,用來衡量像素值是否完全屬于b,wi越大,置信度越高,η是懲罰項,其值設為1.5.
在獲得物體框集合B后,進行兩個重要的后處理操作:框體微調和非極大值抑制(NMS).非極大值抑制是用來過濾掉冗余物體框,由參數β2控制,當物體框bi和bj的重合度大于閾值β2,且框體bi包含物體的可能性大于bj時,框體bj就會被去除.
在目標跟蹤問題中,確定目標的位置比獲取目標語義更為重要,本文利用低層網絡提取目標的外觀特征,高層網絡獲取目標語義,在精確地定位目標位置的同時,有效地處理目標外形變化.
由于池化操作會導致特征圖尺寸不一,影響目標分辨率,文中首先使用雙線性插值算法改變目標特征圖大小,使其為定值,減小長寬比對分辨率的影響:
(9)
其中,h代表原始特征圖,x是上采樣后的特征圖,μ是由相鄰特征向量計算得到的插值系數.
由2.1節可知,多通道的相關濾波映射結果可通過公式(5)與公式(6)得到:
(10)
利用不同卷基層反映不同的特征映射,特征映射可以作為相關濾波在不同通道上的輸入這一特點.式(10)可寫作:
(11)
其中,rl表示在卷基層l上的濾波響應值.在得到濾波響應值集合{rl}后,充分利用網絡層級特征,層次化地構造濾波響應表達式Φc:
(12)
其中,ω是一個權重常量,由交叉驗證選取.目標最優位置坐標可通過式(13)得到:
(13)
在不同卷積層上做相關濾波處理,加權組合不同層的響應值,求解獲得跟蹤信息估計值Gc=(pc,hc,wc).
考慮到跟蹤過程中較為難處理的尺度變化問題,受到文獻[11]的啟發,本文將檢測方法中的似物性采樣融入目標跟蹤框架中.在目標特征表達方面,卷積神經網絡學習到的特征優于人工提取的特征,因此,文中選擇使用卷積層萃取得到的特征作為似物性采樣的輸入值.
在低層卷積層上,選取以pt-1為中心點的特征圖像塊ze.利用EdgeBoxes檢測機制在特征圖像塊ze進行似物性采樣,在非極大值抑制處理后,得到一系列按scoreb排序的物體框.根據文獻[11]中的結論,當采樣數目較小時,EdgeBoxes有著不錯的實驗效果,所以本文挑選scoreb靠前的200個采樣結果,定義為B′.為了進一步篩選集合B′中的采樣結果,進行拒絕采樣,計算集合B′中元素與Gc檢測框之間的IoU值,保留IoU在[θ1,θ2]范圍內的采樣結果,剔除此范圍外的結果,文中θ1=0.55,θ2=0.85.篩選后得到最優目標集合B″,為了計算似物性采樣下的跟蹤信息Ge,設計一個指標函數Φ去評價集合B″中的元素,將Ge與3.1節得到的跟蹤信息Gc進行對比,確定最終的目標中心位置,長與寬.針對集合B″中的物體框,首先將檢測框be的大小調整為與KCF中目標搜索框相同,指標函數Φ定義為:
Φ(be)=sum(kxbe·α)
(14)
其中,sum(·)表示矩陣中所有元素的和;核函數kxbe反映目標外觀x與物體框be之間的相似度;α通過式(3)得到;此處不需要做傅里葉變換處理.選取Φ(be)中最大值Φmax,它所對應的中心位置為pe,長he和寬we.如果Φmax小于Φc,即似物性采樣得到的物體框不能準確反映目標的位置尺度信息,目標信息仍由Gc=(pc,hc,wc)表示.如果Φmax>Φc,則利用下式計算并更新目標信息Gfinal=(p,h,w):
p=pc+γ(pe-pc),(w,h)=(wc,hc)+γ((we,he)-(wc,hc))
(15)
其中,γ作為一個阻尼系數防止位置與尺寸變化過于突然.
本文實驗中的測試視頻和實驗參數的設置均保持不變,所有的實驗基于Matlab2015平臺,在CPU為Intel Core I7,顯卡Nvidia Titan X,內存容量32GB的PC機上運行.
樣本區域設置為初始目標框區域的1.8倍,EdgeBoxes框體微調尺寸為目標區域1.4倍.正則化系數λ為0.001,高斯核的標準差σ取0.1,式(7)中學習參數ρ為0.075.EdgeBoxes窗口重疊率β1為0.65,非極大值抑制系數β2取0.75.采用VGG-19深度卷積網絡提取目標特征映射,選取卷基層conv3(4),conv4(4)和conv5(4)計算響應值集合{rl},權重常量ω={1,0.5,0.01},且EdgeBoxes在conv3(4)上計算檢測框.式(15)中阻尼系數γ取0.7.

為了評估引入深度特征及似物性采樣對跟蹤性能的影響,本文選取OTB中28個具有尺度變換特征的跟蹤序列,進行分模塊的實驗.DPCT為融合深度特征提取與似物性采樣的跟蹤算法,即本文算法;在核相關濾波算法框架下,比較實驗按組成模塊分為三組:
a)CT為利用深度特征信息但未引入似物性采樣的算法;
b)DPT為引入似物性采樣但未利用深度特征信息的算法;
c)KCF為原始基準算法.
表1 分模塊與DPCT比較
Table 1 Comparisons between DPCT and building blocks

評價指標DPCTCTDPTKCFCLE(像素)16.819.625.939.1DP(%)89.488.074.467.9OP(%)65.260.463.847.9
分析表1,文中的三種算法相對于KCF算法,在CLE,DP,OP等指標值上都有明顯的性能提升.以DPT及KCF為例,在KCF基礎上,引入以深度特征為基礎的似物性采樣后,DP提高6.5%,OP增幅達15.9%,CLE從39.1像素減少到25.9像素.同樣,比較DPCT與CT,似物性采樣的引入同樣使DP與OP指標得到提升,CLE值降低,這些都證明了文中引入的似物性檢測可以有效地處理尺度變化問題.此外,對比DPCT、DPT發現,利用卷積神經網絡得到的深度特征表達,大大地提升了跟蹤性能,尤其是DP增加了14.4%,CLE降低了9.1個像素.分模塊化的實驗結果較好地驗證了文中算法的有效性與魯棒性.
為了評估本文算法的性能,本文在KCF[12]的基礎上又選取了近年來出現的7種跟蹤算法:CSK[13]、DSST[14]、samf[15]、SCM[16]、Struck[17]、ASLA[18]、MEEM[19],使用文獻作者公布的原始代碼在相同的實驗條件下和本文算法做對比,分別記錄平均CLE、DP、OP和每秒處理幀數FPS.表2列出了每種算法的整體跟蹤性能,跟蹤結果用51段視頻跟蹤結果的平均值來表示,每個指標最好和次好的結果進行了加粗和下劃線處理.
從下頁表2可以得到,本文提出的算法(DPCT)在平均CLE、平均DP,平均OP三個指標值上都位列第一.在平均DP及CLE上,本文算法比第二名MEEM分別提升6.9%的準確率和減少6.6像素值.在平均OP上,比第二名samf增加3.4%的準確率.由于文中算法使用了深度卷積網絡,該過程需要將卷積核與圖像的每個像素進行卷積運算,復雜度為O(n2),該前向特征提取步驟導致算法的平均FPS值并不理想,同時根據統計,針對每一幀進行的似物性采樣操作,平均時間花費0.2s.
除此之外,跟蹤性能比較還可以通過成功率曲線和距離精度曲線體現,具體結果如圖1.圖1左側子圖為成功率曲線,數值通過計算每種算法成功率曲線與坐標軸圍成的區域面積(Area-under-the-curve,AUC)獲得,本文算法成功率為0.622,相比于第二名samf提高了7.4%,同KCF算法相比提高了21%;右側子圖為距離精度曲線,記錄了算法對目標中心的定位精度,本文算法排名第一,精確度為0.898,相比于第二名MEEM和基礎算法KCF分別提高了8.3%和21.3%.從圖1可以看出,本文跟蹤算法優于其它算法.
表2 本文算法與其它跟蹤算法性能對比圖
Table 2 Comparisons between DPCT and other trackers

評價指標本文算法CSKDSSTsamfSCMStruckASLAKCFMEEM平均CLE(像素)14.340.388.834.454.150.659.335.520.9平均DP(%)89.854.574.078.564.965.653.274.082.9平均OP(%)76.644.367.073.261.655.951.162.369.3平均FPS10.226941.757656149.624520.8

圖1 不同算法的成功率曲線與距離精度曲線Fig.1 Success plots and distance precision plots of different trackers
圖2列出了表2中取得最好效果的5個算法在10段視頻序列上的跟蹤結果(a)~(j),分別對應 CarScale、David、Shaking、Car4、Trellis、Jogging-1、Jogging-2、Tiger-2、MotorRolling和Soccer,每個視頻選取3幀.這些視頻序列中包含有尺度變化(a~e,i,j),遮擋(a,b,j,f~h)、光照變化(b~e,h~j)、目標變形(b,f~h)和運動模糊(b,i,j)等影響因素.觀察跟蹤序列,本文的算法均取得了較好的跟蹤效果.依靠深度卷積神經網絡和似物性采樣后,文中算法不僅能有效地處理尺度變化問題,同時在運動模糊、目標變形等方面均有較強的魯棒性.

圖2 5個跟蹤算法在10個視頻中的跟蹤效果Fig.2 Tracking results of 5 trackers on different challenging image sequences
然而,文中的算法仍存在一些不足,圖3中列出了兩個跟蹤失敗的視頻序列singer2和Lemming,其中目標真實位置由黑色框體標出,文中算法跟蹤位置由框體標出.對于singer2,由于存在較快的平面內外旋轉,目標模板更新速度無法滿足其外觀的快速改變,導致在第15幀就丟失目標.Lemming視頻序列屬于長時跟蹤且存在較大面積的目標遮擋,依舊按照公式(7)得到的目標模板x和濾波系數α會導致目標逐漸被背景替代,當目標再次出現時將無法正確定位.面對這類問題,需要動態的調整公式(7)的學習率或重新設計更新策略來改善跟蹤性能.
本文提出一種在核相關濾波跟蹤框架下,融合深度卷積神經網絡與似物性估計的混合跟蹤算法,該算法利用離線訓練好的卷積神經網絡提取目標特征映射,層次化地構造目標外觀模型;同時在提取好的深度特征圖上,結合似物性采樣Edgeboxes算法,設計了一種不確定度量的目標確認與模板更新策略,實現了對目標中心位置、尺寸信息的進一步精確.在目標跟蹤公開數據集上,通過定量與定性的分析本文算法與多種跟蹤算法比較的結果表明:本文在處理尺度變化、運動模糊等問題上具有較強的魯棒性和更好的性能;但是它在處理長時跟蹤、面積較大的遮擋問題上效果一般,下一步的研究目標是在有效處理尺度問題的同時,可以兼顧其它跟蹤難點.

圖3 跟蹤丟失情況Fig.3 Losses of the tracking
[1] Wu Yi,Lim J,Yang M.-H.Online object tracking:a benchmark [C].In IEEE Conference on Computer Vision and Pattern Recognition,2013:2411-2418.
[2] Guan Hao,Xue Xiang-yang,An Zhi-yong.Advances on application of deep learning for video object tracking [J].Journal of Automa tica Sinica,2016,42(6):834-847.
[3] Guan Hao,Xue Xiang-yang,An Zhi-yong.Video object tracking via visual prior and context information [J].Journal of Chinese Computer Systems,2016,37(9):2074-2078.
[4] Li Han-xi,Li Yi,Porikli F.DeepTrack:learning discriminative feature representations online for robust visual tracking [J].IEEE Transactions on Image Processing,2016,25(4):1834-1848.
[5] Li Han-xi,Li Yi,Porikli F.Robust online visual tracking with a single convolutional neural network [C].In the Asian Conference on Computer Vision,2015:194-209.
[6] Wang Nai-yan,D-Y.Yeung.Online robust nonnegative dictionary learning for visual tracking [C].In the International Conference on Computer Vision,2013:657-664.
[7] Hong S,You T,Kwak S,et al.Online tracking by learning discriminative saliency map with convolutional neural network [C].In the International Conference on Machine Learning,2015:597-606.
[8] Ma Chao,Huang Jia-bin,Yang Xiao-kang,et al.Hierarchical convolutional features for visual tracking [C].In IEEE Conference on Computer Vision and Pattern Recognition,2015:3074-3082.
[9] Szegedy C,Liu Wei,Jia Yang-qing,et al.Going deeper with convolutions[C].In IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9.
[10] Li Han-xi,Li Yi,Porikli F.Robust online visual tracking with a single convolutional neural network[C].In the Asian Conference on Computer Vision,2015:194-209.
[11] Lawrence Zitnick C.,Piotr Dollár.Edgeboxes:locating object proposals from edges[C].In the European Conference on Computer Vision,2014:391-405.
[12] Henriques J F,Caseiro R,Martins P,et al.High-speed tracking with kernelized correlation filters [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596.
[13] Henriques J F,Caseiro R,Martins P,et al.Exploiting the circulant structure of tracking-by-detection with kernels [C].In the European Conference on Computer Vision,2012:702-715.
[14] Danelljan M,H?ger G,Khan F S,et al.Accurate scale estimation for robust visual tracking [C].In the British Machine Vision Conference,2014:1-5.
[15] Li Yang,Zhu Jian-kang.A scale adaptive kernel correlation filter tracker with feature integration [C].In the European Conference on Computer Vision,2014:254-265.
[16] Zhong Wei,Lu Hu-chuan,Yang M.-H.Robust object tracking via sparsity-based collaborative model [C].In IEEE Conference on Computer Vision and Pattern Recognition,2012:1838-1845.
[17] Hare S,Saffari A,Torr P.Struck:structured output tracking with kernels[C].In IEEE International Conference on Computer Vision and Pattern Recognition,2013:2411-2418.
[18] Xu Jia,Lu Hu-chuan,Yang M.-H.Visual tracking via adaptive structural local sparse appearance model [C].In IEEE Conference on Computer Vision and Pattern Recognition,2012:1822-1829.
[19] Zhang Jian-ming,Ma Shu-gao,Sclaroff S.MEEM:robust tracking via multiple experts using entropy minimization [C].In the European Conference on Computer Vision,2014:266-278.
附中文參考文獻:
[2] 管 皓,薛向陽,安志勇.深度學習在視頻目標跟蹤中的應用進展與展望[J].自動化學報,2016,42(6):834-847.
[3] 管 皓,薛向陽,安志勇.融合視覺先驗與背景信息的視頻目標跟蹤算法[J].小型微型計算機系統,2016,37(9):2074-2078.