程 朋, 劉鵬程, 程 誠, 周祥東, 石 宇
(中國科學院大學 中國科學院重慶綠色智能技術研究院,重慶 400714)
目標跟蹤一直是計算機視覺領域研究的熱點問題,其相關研究成果在軍事科技、社會安全和生活娛樂等眾多領域有著廣泛的應用[1]。目標跟蹤算法的任務是只在視頻序列幀的第一幀通過一個矩形框的形式給出需要跟蹤的目標,即使在后續的視頻幀中出現多種變化,如形變,遮擋,光線的變化等,仍然可以定位到目標的位置。
許多研究將卷積神經網絡(convolutional neural network,CNN)[2]應用在目標跟蹤中,然而,跟蹤目標具有不確定性,使得在目標跟蹤領域充分利用CNN強大的表觀能力是非常困難的。于是大部分算法采用在線學習的方式,隨著目標的改變更新CNN模型。雖然取得了不錯的跟蹤效果,但實時更新模型帶來的巨大計算量嚴重地影響了算法的實時性。
本文提出了一種基于CNN的實時跟蹤算法,利用離線學習的方式,使網絡模型學習到跟蹤目標的表觀特征與運動之間的普遍規律,在不需要在線更新模型的情況下,得到目標的位置和對應預測結果的置信度,使算法在實時性和準確性上均有不錯的表現。置信度的預測與目標位置坐標的回歸預測具有正相關性,即正確的目標位置回歸區域應該有較高的置信度保證該區域包含待跟蹤目標,置信度的引入有助于提升算法的跟蹤性能,同時反饋了更多的跟蹤信息。
文獻[3]對具有5層卷積層的AlexNet[4]進行了分析,指出隨著卷積層的增加,網絡提取的特征具有更強的語義信息,但同時也會遺失含有精確位置的空間信息。不同于目標檢測等任務,物體的位置信息對目標跟蹤至關重要。本文為了保留較多的空間信息,使用AlexNet的前3層卷積層提取圖片的特征,具體網絡結構如圖1。為了使模型學習到由運動帶來的視頻幀間的差異,使用雙通道網絡,其中一通道的輸入用于目標跟蹤,另一通道的輸入為搜索區域。通過卷積層提取到兩部分特征信息后,將其拼接作為全連接層的輸入。全連接層具有3層,每一層有4 096個節點,用于學習表觀特征與運動之間的普遍規律。將全連接層的最后一層與只含有4個節點的輸出層連接,通過回歸得到預測結果,即目標的位置坐標,同時也與Softmax層相連,得到預測結果的置信度。置信度指當前幀的搜索區域含有跟蹤目標的可能性,與目標位置的預測具有正相關性,兩者的協同學習有助于提升各自估計模型的性能。

圖1 網絡結構
本文提出的算法中對一張圖像的損失函數定義為
(1)

(2)
對于位置坐標回歸損失,使用歐氏距離衡量準則,對應的損失函數定義為
(3)
利用數據增強在單張圖片上進行訓練,并用視頻幀進行fine-tune的方式進行訓練[5]。整個過程中通過反向傳播和隨機梯度下降法(stochastic gradient descent,SGD)[6]對網絡的參數更新。
1.3.1 使用圖片進行訓練

(4)
(5)
式中w,h為目標區域的寬和高;Δx,Δy為均值為0、尺度參數為1/5的拉普拉斯分布的隨機變量。經過平移后
w*=w·γw
(6)
h*=h·γh
(7)


圖2 數據增強示例
1.3.2 使用視頻幀進行fine-tune


圖3 視頻幀訓練樣本示例
在進行跟蹤時,首先根據標注信息得到第一幀中跟蹤目標的信息,然后從第二幀起,依次向網絡中輸入相鄰兩幀圖片中前一幀預測的目標區域和當前幀中相同位置的區域。通過網絡計算得到每一幀預測的結果和對應的置信度。整個跟蹤過程中,CNN不進行反向傳播,不需要在線學習更新模型參數。
在VOT2014數據集上對跟蹤算法的性能進行測試。VOT2014數據集包括25組視頻幀,涉及到目標跟蹤過程中目標發生的各種基本變化,如目標形變,目標遮擋,光線變化等。VOT測試工具在跟蹤算法丟失目標后會重新對其進行初始化,通過預測結果與標注信息計算準確性的同時,也會給出跟蹤算法跟蹤失敗的次數,即跟蹤算法的魯棒性。測試分為兩種類型:無噪聲干擾(Baseline)和有噪聲干擾(Region_noise)。關于測試工具更多的信息可以參考文獻[9]。通過與VOT2014挑戰賽的公開結果進行比較,得到排名結果如圖4所示,性能越好的跟蹤算法越接近圖中右上角,可以看出本文算法(圖中實心圓所示)的性能達到了當前領先水平。

圖4 排名結果
本文列出一些近期基于CNN跟蹤算法的實驗平臺和跟蹤速度,具體如表1。跟蹤算法具有很好的跟蹤效果,但由于在跟蹤時需要對網絡模型進行頻繁的更新,導致巨大的運算量,處理速度達不到實時性的要求。本文提出的基于CNN的跟蹤算法在跟蹤時不需要進行在線學習,速度可以達到90幀/s左右,具有較好的實時性。

表1 跟蹤速度的比較
提出的基于CNN的實時跟蹤算法,在公共視頻幀數據集不充足的情況下,利用靜態圖片進行數據增強,模擬現實運動,實現了雙通道CNN的離線訓練,學習相鄰兩幀之間的差異。在進行跟蹤時,將前一幀預測的位置信息作為當前幀的搜索區域,通過網絡回歸得到目標的位置和對應置信度的預測。通過在VOT2014數據集進行實驗,并與VOT2014挑戰賽的公開結果進行比較,在無噪聲干擾和有噪聲干擾條件下,本文算法的準確性和魯棒性的排名均處在領先位置。與此同時,算法運行速度可以達到90幀/s左右,相比其他方法具有更好的實時性。如何利用預測結果的置信度對算法在跟丟目標后進行處理是以后的工作方向。
參考文獻:
[1] Yilmaz A,Javed O,Shah M.Object tracking:A survey[J].ACM Computing Surveys,2006,38(4):13.
[2] Wang L,Ouyang W,Wang X,et al.Visual tracking with fully convolutional networks[C]∥IEEE International Conference on Computer Vision,IEEE,2015:3119-3127.
[3] Ma C,Huang J B,Yang X,et al.Hierarchical convolutional features for visual tracking[C]∥IEEE International Conference on Computer Vision,IEEE,2015:3074-3082.
[4] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]∥International Conference on Neural Information Processing Systems,Curran Associates Inc,2012:1097-1105.
[5] Chen K,Tao W.Once for All:A two-flow convolutional neural network for visual tracking[J].arXiv preprint arXiv:1604.07507,2016.
[6] Lecun Y,Boser B,Denker J S,et al.Back propagation applied to handwritten zip code recognition[J].Neural Computation,1989,1(4):541-551.
[7] Russakovsky O,Deng J,Su H,et al.ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.
[8] Held D,Thrun S,Savarese S.Learning to track at 100 fps with deep regression networks[C]∥European Conference on Compu-ter Vision,Springer International Publishing,2016:749-765.
[9] Kristan M,Pflugfelder R,Leonardis A,et al.The visual object tracking VOT2014 challenge results[M]∥Europen Conference on Computer Vision,ECCV 2014 Workshops,Springer International Publishing,2013:191-217.
[10] Smeulders A W M,Chu D M,Cucchiara R,et al.Visual tracking:An experimental survey[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,36(7):1442-1468.
[11] Wu Y,Lim J,Yang M H.Object tracking benchmark[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(9):1834-1848.
[12] Li H,Li Y,Porikli F.Deeptrack:Learning discriminative feature representations online for robust visual tracking[J].IEEE Tran-sactions on Image Processing,2016,25(4):1834-1848.
[13] Nam H,Han B.Learning multi-domain convolutional neural networks for visual tracking[C]∥Proceedings of the IEEE Confe-rence on Computer Vision and Pattern Recognition,2016:4293-4302.