管皓 薛向陽 安志勇
?
深度學習在視頻目標跟蹤中的應用進展與展望
管皓1薛向陽1安志勇1
視頻目標跟蹤是計算機視覺的重要研究課題,在視頻監控、機器人、人機交互等方面具有廣泛應用.大數據時代的到來及深度學習方法的出現,為視頻目標跟蹤的研究提供了新的契機.本文首先闡述了視頻目標跟蹤的基本研究框架.對新時期視頻目標跟蹤研究的特點與趨勢進行了分析,介紹了國際上新興的數據平臺、評測方法.重點介紹了目前發展迅猛的深度學習方法,包括堆疊自編碼器、卷積神經網絡等在視頻目標跟蹤中的最新具體應用情況并進行了深入分析與總結.最后對深度學習方法在視頻目標跟蹤中的未來應用與發展方向進行了展望.
目標跟蹤,視頻分析,在線學習,深度學習,大數據
引用格式管皓,薛向陽,安志勇.深度學習在視頻目標跟蹤中的應用進展與展望.自動化學報,2016,42(6):834-847
視頻目標跟蹤是計算機視覺領域的重要研究課題,其主要任務是獲取視頻序列中感興趣的目標的位置與運動信息,為進一步的語義層分析(動作識別、場景識別等)提供基礎.其定義是:給定視頻序列初始幀中目標的位置框(一般為矩形框),在接下來的視頻序列中自動給出該目標的位置框或者在目標離開視域時給出提示.視頻目標跟蹤研究在智能視頻監控、人機交互、機器人等領域有廣泛應用,具有很強的實用價值.視頻目標跟蹤同視頻目標檢測、視頻分類(識別)一樣,都是視頻內容分析的重要方面.在一個實用的計算機視覺系統中,跟蹤的初始狀態由檢測結果所提供,同時其所給出的運動信息為語義層的分類(識別)等任務所使用.因此,視頻目標跟蹤是處于視頻內容分析研究的中間層次模塊.
視頻目標跟蹤研究有較多分支,內容十分豐富.按照跟蹤目標是否已知,可分為特定目標跟蹤與非特定目標跟蹤.特定目標的跟蹤可以利用先驗知識對目標外觀進行建模,典型代表有手的跟蹤、人眼跟蹤、頭或臉部跟蹤等,其中手的跟蹤在人機交互方面有重要應用,是未來非接觸式交互工具的基礎.非特定目標跟蹤對目標無任何先驗知識,只能利用第一幀所給出的標注信息,因其較高的難度一直以來都是跟蹤研究的重點.按照跟蹤目標的數量,可分為單目標跟蹤和多目標跟蹤.單目標跟蹤是最早、最基礎也是目前研究最多的分支.多目標跟蹤研究隨著近年來數據關聯等方法的出現也日益增多并發展較快.按照獲取目標數據的攝像頭的特點,可以分為單攝像頭跟蹤、多攝像頭跟蹤和跨攝像頭跟蹤(也稱為重識別).單攝像頭跟蹤最為基礎,其特點是無法獲取目標的深度信息.多攝像頭跟蹤可以捕獲目標多個視角的圖像,從而獲取深度信息,但圖像融合難度較大.跨攝像頭跟蹤是近年來跟蹤領域里面新興的研究課題,旨在彌補目前固定攝像頭的視域局限,在目前的安防領域中具有重要的實用價值.
此外,還有剛體跟蹤與非剛體跟蹤、離線跟蹤與在線跟蹤、RGBD跟蹤、紅外小目標跟蹤等研究分支.限于篇幅,本文不再一一列舉.本文主要以單攝像頭下的單目標跟蹤進行說明,該部分研究的歷史較長,成果最為豐富,是目前視頻目標跟蹤的主流內容,最能體現跟蹤的本質特點,而其他分支的內容則多與圖形學、圖像識別以及具體領域知識等有所交叉融合.
將視頻中目標的運動信息進行提取一直以來都是多媒體內容分析研究中的重要方面,因此視頻目標跟蹤是一個研究歷史并不短的課題.許多經典的視頻目標跟蹤算法如均值漂移(Mean shift)已經作為標準模塊集成到影響較大的計算機視覺開發庫如OpenCV等當中.雖然其發展一直較為緩慢,但是隨著目前大數據時代的到來,在新時期下視頻目標跟蹤研究取得了突飛猛進式的發展并呈現出許多新的特點.這主要得益于機器學習理論和技術的發展以及較大規模跟蹤數據集和評測平臺的建設.尤其值得重視的是,目前機器學習的前沿領域,在多媒體識別領域中取得了巨大成功的深度學習方法也開始在視頻目標跟蹤研究中得以應用并取得了良好效果.本文在介紹視頻目標跟蹤研究的基本框架及自身特點的基礎上,重點介紹深度學習方法在視頻目標跟蹤研究中的最新應用情況.通過結合視頻目標跟蹤自身的特點,對具體應用深度學習時存在的困難與挑戰進行了分析和探討.最后對其未來發展進行分析和展望.
一般性視頻目標跟蹤系統的運行流程及框架如圖1所示.

圖1 視頻目標跟蹤系統框架Fig.1 The framework of video object tracking
從整體上分為輸入視頻、運動模型、特征提取、外觀模型、位置確定、模型更新等幾個步驟.初始化由視頻序列中的第一幀給定,一般由一個矩形框來標定待跟蹤的目標.運動模型利用視頻序列的時空關聯性,在目標潛在空間范圍內進行搜索或采樣,為后面的特征提取、外觀模型提供樣本.特征提取是對目標外觀進行有效編碼,從二維圖像空間映射到某一特征空間,從而為后面不同外觀模型的處理提供基礎.外觀模型旨在對目標外觀進行有效建模與描述,從而將目標以最大的區分度被跟蹤系統搜索到.具體跟蹤時,通過計算候選樣本的相似度、可信度,得分最高的樣本被確定為最終的預測結果.
目標在新一幀視頻中的位置最終確定以后,一般要利用新得到的數據對目標的外觀模型進行更新操作,這樣做的目的是適應目標在線運動過程中外觀的變化.
1.1運動模型
在視頻序列中對目標的位置進行預測時,會在上一幀跟蹤框的基礎上,在原目標位置周圍產生一定數量的候選位置.跟蹤算法就是要在這些候選位置中尋找出一個最優解.運動模型在此過程中起到核心作用,即按照一定規則產生候選位置樣本.連續兩幀之間目標的位置不會相距過遠,運動模型就是依據這個基本約束來以較高效率提供候選,這是與基于全圖像掃描的目標檢測的根本不同之處.目前運動模型主要分為三種:
1)均值漂移(Mean shift)
均值漂移,是一種基于核密度估計的非參數估計方法.文獻[1]中首先將均值漂移算法應用于跟蹤問題,此后成為經典跟蹤方法.在跟蹤時,需要設定一個目標函數來計算目標與候選窗口的核密度,而后利用Bhattacharyya準則作為匹配條件,通過移動均值向量來不斷優化目標函數從而完成目標搜索.由于通過梯度優化來完成搜索,因此基于均值漂移的跟蹤算法運行速度快、實時性高.
2)滑動窗口(Slide window)
在目標周邊正方形或者圓形范圍內進行窮舉搜索的采樣策略,也稱為密集采樣.這種方式將搜索范圍內所有可能的潛在位置都予以考慮,但是要付出較大的計算代價.
3)粒子濾波(Particle filter)
粒子濾波在經典的卡爾曼濾波的基礎上發展而來[2],先驗概率密度用加權粒采樣樣本(粒子)來近似表示.每個粒子的權值表示了該樣本的重要程度.每次跟蹤結果確定后,會根據不同粒子的重要程度進行重采樣.粒子濾波方法具有較高的計算效率,同時可以融入仿射變換信息,因此目前在一些較好的跟蹤算法中應用較多.
1.2特征提取
特征是對目標的抽象化表示,即從目標原始空間映射到某一特征空間.特征提取過程就是將原始圖像數據通過轉換得到更有利于描述需求的表達方式.在多媒體內容分析的各個領域,特征表達與提取都是最重要的內容之一.對于視頻目標跟蹤而言,好的特征應當具備兩個基本性質:1)具有較強的區分度;2)要具有較高的計算效率,以滿足跟蹤的實時性要求.
目前跟蹤算法采用的特征分為人工特征和學習特征兩類.人工特征可以分為外觀特征和運動特征.外觀特征是從目標的物理直觀出發,通過結合數學工具設計出來的特征.運動特征是針對視頻的特點,從視頻幀之間的時間關聯性出發設計的特征,這些特征是靜態圖像中所沒有的.由機器自動學習到的特征為學習特征.這些特征通過機器學習的方式自動提取,無需事先知道目標的物理性質,從而可以大大提高特征提取的效率.目前以深度學習為代表的特征學習方法已經成為計算機領域的前沿和熱點.
1.2.1人工特征
人工特征包含外觀特征和運動特征.目前跟蹤算法廣泛采用的外觀特征總體上可以分為四類:灰度特征、顏色特征、梯度特征和紋理特征.
灰度特征是最為簡單和直觀的特征表達方式,計算效率高,可以分為原始灰度特征、灰度直方圖特征、區域灰度變化特征(Haar特征)三種表征形式.原始灰度特征就是將輸入視頻圖像轉換為灰度圖,而后將標準化處理后的灰度圖作為模板來表示目標.這種方式較簡單,運算速度快.灰度直方圖通過統計手段來反映目標圖像整體或局部的灰度分布特征.Haar特征是一種反映目標圖像中區域灰度變化的特征表示手段,于文獻[3]中首次提出并成功應用于人臉檢測.Haar特征由于計算效率高,同時對于邊緣、水平、垂直敏感等優點被廣泛應用到目標檢測與跟蹤當中.
顏色特征主要分為兩種:一種以顏色直方圖來表征[4-5];另一種則是近年來興起的具有更好表征能力的Color name特征[6].顏色特征對姿態、尺度等不敏感,用于非剛體跟蹤時具有一定優勢.但其受光照影響較大,同時易受顏色相近背景的干擾.
紋理特征通過外觀表面的微觀變化來描述目標,是對目標外觀細節、規則程度的量化.目前跟蹤算法中常用的紋理特征是局部二值模式(Local binary pattern,LBP)[7].紋理特征可以較好地描述目標外觀的細節,但是對于紋理細節少、小尺度、遠距離或者背景紋理復雜的目標描述能力較差,此時跟蹤效果往往不理想.
梯度特征通過統計目標圖像局部的梯度分布來表征外觀.文獻[8-9]中采用在圖像中廣泛采用的SIFT(Scale invariant feature transform)特征及其加速版本SURF(Speeded up robust features)特征來表征跟蹤目標,但實時性較差.一種更為廣泛應用的梯度特征是HOG(Histogram of oriented gradient)特征,它于文獻[10]中首次被提出并成功用于行人檢測.HOG特征的思想是利用分塊單元對梯度進行統計,能夠非常好地反映局部像素之間的關聯.梯度特征對光照變化等具有不變性,性能穩定.其主要不足是無法描述外觀精確尺寸、角度、姿態等信息.
運動特征旨在挖掘視頻幀之間的時空關聯性,因此有效提取運動特征,可在外觀特征的基礎上增添輔助信息,有利于提高跟蹤性能.目前跟蹤中最重要的運動特征提取方法是光流法.光流(Optical flow)是對局部圖像運動的一種近似表達,主要通過計算給定視頻中局部圖像的時間與空間導數,近似得出二維運動場.兩種經典的光流算法是LK算法[11]和HS算法[12].前者更具運算效率優勢,在跟蹤中應用更多.
光流法效率較高,能夠應對攝像頭與目標相對運動的情況,但其計算存在一些光強、位移的限定條件.目前對復雜場景的跟蹤較少單獨使用光流特征,而是同其他外觀特征結合在一起,最典型的例子是TLD(Tracking learning detection)算法[13-14].
1.2.2學習特征
研究者們在一直努力,試圖讓機器能夠自動學習到特征.主成分分析法(Principle component analysis,PCA)可以視為最早的自動特征提取方法.
近三年來,深度學習(Deep learning)在圖像分類、目標檢測等領域取得了突出成績,成為目前最強有力的自動特征提取方法.深度神經網絡通過多層級的學習和映射,可以從邊緣、顏色等底層特征逐步得到高層的抽象特征.這些抽象特征維數高、區分力強,利用簡單的分類器即可實現高準確率的分類、回歸等任務.目前已經有一些基于學習特征的跟蹤方法被提出,利用離線訓練好的深度卷積網絡,在跟蹤時通過截取目標在網絡不同卷積層的特征來輔助實現目標定位.
關于深度學習在視頻跟蹤方向的研究進展是本文的核心內容,將在稍后部分進行詳細介紹.
1.3外觀模型
外觀模型是視頻目標跟蹤研究中的重要內容[15-16].好的外觀模型能較大提升跟蹤性能.近年來,外觀模型得到了極大發展,這主要得益于圖像處理、機器學習、目標檢測等相關領域所取得的豐碩成果.目前跟蹤算法的外觀模型分為兩類:產生式模型和判別式模型.
1.3.1產生式模型
產生式模型是一種自頂向下的處理方法[17].首先建立目標的外觀數據先驗分布,而后在候選區域中搜索與先驗模型最為匹配、重構誤差最小的區域作為下一幀中目標的位置,如圖2所示.產生式模型總體上分為三類:基于模板的模型[18-20]、基于子空間的模型[21-22]和基于稀疏表示的模型[23[27],它通過基函數字典表示的稀疏向量來建立目標的外觀模型.文獻[28]首次將稀疏表示方法引入到視頻目標跟蹤領域中,其核心思想是將跟蹤轉化為求解L1范數最小化問題.

圖2 產生式外觀模型Fig.2 The generative appearance model
產生式模型著眼于對目標外觀數據內在分布的刻畫,具有很強的表征能力.其最大不足是沒有利用背景信息,在遇到遮擋等情況時容易通過錯誤更新將噪聲混入模型中從而最終導致誤差和漂移.
1.3.2判別式模型(基于目標檢測的模型)
判別式模型也稱為基于檢測的模型(Tracking by detection),是近年來逐漸興起并逐漸占據主流的方法.其直接借鑒了機器學習理論及其在目標檢測中的成功應用.與產生式模型不同,判別式模型并不對目標外觀分布做事先的刻畫,而是將跟蹤問題等同于一個分類問題,利用一個在線分類器(目標檢測器)將跟蹤目標與背景分離,如圖3所示.

圖3 判別式外觀模型Fig.3 The discriminative appearance model
判別式模型充分利用了前景與背景信息,可以將兩者更好的區分,因而具有較強的魯棒性,這是較之于產生式模型的優勢所在.但在利用樣本進行在線學習與更新的過程中,也容易因樣本的標注錯誤影響分類器的性能,造成誤分類.盡管如此,各種改進與優化措施的出現,使得基于判別式模型的跟蹤器顯示出越來越強的優勢.
判別式模型有基于支持向量機的模型[29-31]、基于Boosting的模型[32-34]、基于多示例學習的模型[35]、基于嶺回歸的模型[36[13]、基于樸素貝葉斯的模型[38]等.
1.4更新
相比于離線訓練模型(目標及視頻都是已知的),在線跟蹤的優勢在于可以實時地獲取目標外觀變化并做出在線調整,體現出更大的靈活性與適應性.在線跟蹤的這種優勢主要體現于在線更新環節.利用第一幀給出的標注信息以及隨后各幀的跟蹤結果,在線外觀模型可以增量式更新.對于產生式模型,主要是對模板或基函數的更新;對于判別式模型,主要利用新采樣的樣本來對分類器進行增量式在線訓練,通過不斷融入的正負樣本,使分類器能夠不斷適應目標與背景的變化.目前更新策略研究相對較少,主要的更新策略有:
1)每一幀都進行更新.該方式較簡單,目前應用較多.但由于太過頻繁,增加了漂移的可能性.
2)每隔一定的幀數才更新一次.
3)當響應分數(匹配或分類得分)低于一定閾值時才更新.低于閾值往往說明目標外觀已發生較大變化.在該策略中,增加了對外觀變化程度的判斷,減少了更新頻率,因而比策略1)效果好一些.
4)分別計算正負樣本的響應分數,當兩者的差值低于一定閾值時更新.該方式在判別式模型中采用.由于考慮了前景與背景的差異度量,可使跟蹤器具有更好的鑒別能力.
2.1跟蹤算法的最新評測數據平臺
一個有代表性的數據集對于跟蹤算法性能進行全面而公正的評測是至關重要的.隨著大數據時代的到來,對訓練與測試數據集的重視與日倶增[39],如圖像識別領域的ImageNet[40]、目標檢測領域的Pascal VOC[41]、視頻檢索領域的TRECVID[42]等.具體到視頻目標跟蹤研究領域,權威的數據集與測試平臺的建立也是大勢所趨.
該方面突破性的工作是文獻[43]中所提出VTB數據集,它是目前最具影響力的視頻目標跟蹤算法測試數據集.起初包含50個測試視頻,隨后擴展到100個[44].該數據集的建立具有里程碑式的意義,結束了跟蹤算法在零散視頻集上測試的局面,使眾多跟蹤算法第一次有了真正意義上統一的測試平臺.
另一個有影響力的視頻目標跟蹤數據集是VOT數據集[45].該平臺效法著名的目標檢測數據平臺Pascal VOC,從2013年開始每年進行一次跟蹤算法的競賽并作排名.其規模與VTB相當,但在算法的性能評測指標上有一些不同.
以上兩個是目前最具影響力的視頻跟蹤數據集.
2.2跟蹤算法的評測準則與方法
對目標跟蹤算法有三個要求:準確性、魯棒性、高效性.目前很少算法能同時在這三點上表現優異.
準確性(Accuracy):有三個指標可反映跟蹤準確性.如果一個跟蹤器能盡量降低這三種誤差,則其準確性較高.這三個指標分別是:1)偏移(Deviation):預測位置同實際位置的距離;2)誤檢(False positive):將非目標物體視為物體;3)漏檢(False negative):沒有正確識別出目標.
魯棒性(Robustness):如果一個跟蹤器在一個視頻序列中取得高精度,但在另一些視頻中表現差,則其不夠魯棒.一個有較高魯棒性的跟蹤器應能在大多數的測試視頻序列中表現出較高性能,即能應對復雜多樣的場景.
高效性(Efficiency):視頻目標跟蹤是一個對實時性要求極高的研究領域,這是與檢測、識別的重要不同點.一個真正實用的跟蹤器必須實時運行.
對應于跟蹤器的總體性能要求,很多測量準則與方法被提出.下面進行詳細介紹.
1)中心誤差(Center location error):每一幀中跟蹤器輸出的矩形框中心與實際中心位置的歐氏距離.加和后取平均值為平均中心誤差.中心誤差越小,說明跟蹤效果越好.
2)重疊率(Overlap rate):設ST是跟蹤器輸出的跟蹤框區域,SG為實際目標區域,則重疊率的定義為兩者的交集與并集的比值,即:,重疊率越高,說明跟蹤效果越好.
3)成功率(Success rate):對于每一幀而言,若中心誤差小于一定閾值或重疊率大于一定閾值則認為該幀跟蹤成功.跟蹤成功的幀數同視頻序列總幀數的比值稱為成功率.
4)精度圖(Precision plot)與成功圖(Success plot):將3)中所設置的閾值在一定范圍內變動時,會得到一系列的成功率數值所構成的曲線圖,當對應于中心誤差時構成的曲線稱為精度圖;對應于重疊率時稱為成功圖.
5)時間魯棒性度量(Temporal robustness evaluation,TRE)和空間魯棒性度量(Spatial robustness evaluation,SRE).這兩個指標是在文獻[43]中為衡量跟蹤器魯棒性而提出的.TRE跟蹤器用測試視頻序列中的隨機的一幀進行初始化而不是第一幀,作出其相應的成功圖,以此來衡量跟蹤器在時間軸上的魯棒性.SRE跟蹤器用第一幀初始化,但對初始跟蹤框位置進行了一定的平移、縮放等微小擾動,做出相應的成功圖,以此來測試跟蹤器能否在隨后幀中穩定跟蹤住目標.
6)FPS(Frames per second):每秒處理的幀數,是一個用來衡量跟蹤算法處理效率和速度的常用指標.
3.1深度學習概述
深度學習(Deep learning)是近年來機器學習領域的一個新的研究方向.由于其在語音、文本、圖像、視頻等諸多方面相較于傳統方法所取得的巨大進展和突破,使得其成為目前計算機科學中最引人注目的研究課題,在某種程度上可以說是引領了一場大數據時代下的科技革命.
深度學習的產生和崛起并非一日之功,而是有著深厚的歷史積淀.直觀上,它是神經網絡在大數據時代新的發展,然而從“淺”走到“深”卻經歷了很長的曲折與積累.20世紀80年代,Rumelhart、Hinton和Williams三位科學家完整而系統的提出了基于反向傳播算法(Back propagation,BP)的神經網絡[46].此成果掀起了神經網絡研究的巨大浪潮.但BP神經網絡只能含有較“淺”的層次結構,原因是隨著層數的增加網絡很容易陷入局部最小和出現過擬合現象.隨著20世紀90年代以支持向量機(Support vector machine,SVM)為代表的更優秀的“淺”層模型的出現,神經網絡的研究相對沉寂.此局面在2006年被Hinton及其學生發表在著名的《科學》上的研究成果所打破[47].該文提出了深度網絡與深度學習的概念,拉開了深度學習的序幕.深度學習首先在語音識別領域取得突破[48],在圖像識別領域取得的突破性成果[49],其作者用深層卷積神經網絡在大規模圖像識別問題上取得了巨大成功.隨后在目標檢測任務中也超越了傳統方法[50-51],繼而在視頻分類方面也取得突破[52-53].
深度學習之所以在其產生和發展過程中不斷取得驚人的成功,根本原因在于其強大的特征表達能力.如圖4所示,在多媒體識別領域,一個最為基本和核心的問題就是如何對多媒體信息(圖像、語音等)進行有效表達.一個強有力的特征表達,對于多媒體內容識別和分析的效果是事半功倍的.

圖4 多媒體內容識別的框架Fig.4 The framework of recognition in multimedia
傳統的特征表達是通過人們手工設計的特征來實現的,比如上文所提到的HOG特征、LBP特征等,這樣做的缺點是費時費力,需要根據具體問題和任務的不同而重新設計.而深度學習則可以自動學習到反映目標的良好特征,完全不需要人的參與.同時,神經學的研究表明人對信息的處理是分級的[54-55],而深度學習的分層架構在某種程度上正是對人腦機制的模擬.相比于淺層模型,深度學習方法對于如圖像這種高度非結構化、分布復雜的數據的刻畫能力和泛化性能要強大很多.
特別需要指出的是,深度模型的成功有賴于兩個重要基礎條件,一個是容量巨大的訓練和測試數據集,它們為深度模型的訓練提供了數據保障;另一個是通用計算芯片GPU的發展,它為深度模型的訓練提供了硬件支持.GPU原本用于計算機圖形顯示,后來在大規模并行計算中的優勢使其成為深度學習的計算硬件基礎.目前主流的深度學習研究開發平臺如Caffe[56]、Theano[57]都已將對GPU的支持作為必備功能.
3.2深度學習基本模型
深度學習按照學習方法可以分為無監督學習模型和有監督學習模型.無監督深度學習模型主要包括基于受限玻爾茲曼機的深度置信網絡(Deep belief net,DBN)[58]和基于自動編碼器的深度網絡(Stacked autoencoder)[59]兩大類.監督學習深度模型包括多層感知機(Multilayer perceptron)和深度卷積神經網絡(Convolutional neural network,CNN)[60].
按照深度網絡中的組成單元之間是否存在閉環,可將深度學習模型分為前饋型深度網絡(Feedforward neural network,FNN)和遞歸型深度網絡(Recurrent neural network,RNN)[61],如圖5所示.值得一提的是遞歸型深度網絡是較其他類型深度網絡更加特殊的類型,它將著眼點放在“時間”的深度建模上.尤其是目前遞歸型神經網絡的主要代表之一—長短時記憶網絡(Long and short term memory,LSTM)[62-64],能夠對數據相對較長的時間跨度內的狀態進行記憶和學習,因此在序列問題的處理,如語音識別、自然語言處理、手寫體識別等方面表現優異,成為又一引人注目的深度模型.

圖5 深度學習的基本模型Fig.5 The basic models of deep learning
3.3深度學習方法在跟蹤中的應用概述
深度學習是一種強大的特征學習方法.本節對深度學習在視頻目標跟蹤領域中的應用做一個整體性的介紹與分析.盡管在多媒體領域諸多方面取得了巨大成功,但在視頻目標跟蹤這一特殊領域,深度學習的應用卻受到一定限制,成果數量較視頻識別、視頻目標檢測要少很多.主要原因是:
1)視頻目標跟蹤中,嚴格意義上講僅有第一幀的數據是真正的標注數據,在其后的在線跟蹤過程中,正負樣本的量級僅有幾百個.所以,視頻目標跟蹤是典型的小樣本在線學習問題,這使得以處理大數據見長的深度學習方法難以發揮優勢.
2)視頻目標跟蹤對實時性要求極高.而規模龐大的深度網絡很難達到實時性要求.這就需要在網絡規模和運行速度方面做綜合考慮.
盡管存在以上困難,由于深度學習在特征提取、外觀建模上的優勢,研究者們仍然通過不同手段,結合視頻目標跟蹤任務的特點,設計出一些基于深度學習的跟蹤算法.從目前的研究成果來看,研究者們在將深度學習應用于目標跟蹤的過程中主要遵循兩種思路:
1)利用深度神經網絡所學習到的特征的可遷移性,首先在大規模的圖像或視頻數據集上離線訓練某一特定類型的深度神經網絡.而后在具體的在線跟蹤時,利用之前基本訓練好的網絡對目標進行特征提取,并利用在線獲取的數據對該深度網絡進行微調節,以適應在線時目標外觀的具體變化.
2)將深度神經網絡的結構做一定的改變,使其能夠適應在線跟蹤的要求.主要的方法包括將網絡的層數維持在一個兼顧性能與效率的數量水平、將網絡中費時的訓練過程做適度簡化等.目前該方面的工作還處于起步階段,探索空間較大.
3.4堆疊自編碼器在跟蹤中的應用
3.4.1自編碼器基本原理
堆疊自編碼器是典型的非監督深度學習網絡,它的基本構成單元是自編碼器(Autoencoder).自編碼器的示意圖如圖6所示.其基本過程是將輸入信號進行編碼,而后利用解碼器在編碼后的信號的基礎上對原始信號進行重構,目標函數是使重建信號與原始信號的重構誤差最小.自編碼器的思想是通過對原始信號進行編碼的方式將其以更為簡潔的形式加以表達,從而去除冗余,反映信號更加本質的屬性.
將自編碼器逐層疊加就構成了堆疊自編碼器(Stacked autoencoder)這一深度學習網絡模型.在堆疊自編碼器中,下一層的輸出作為上一層的輸入,每一層進行單獨優化.這樣通過每一層編碼器的映射,逐步得到反映原始信號更本質屬性的高層特征.為了利用數據中的標注信息,還可以使用監督學習的方法對網絡參數進行微調,此時需在頂層增加一個邏輯斯諦回歸(Logistic regression)層.

圖6 自編碼器示意圖Fig.6 The illustration of autoencoder
自編碼器的一個重要改進是去噪自編碼器[59].其提出的目的是使深度網絡對于噪聲更加魯棒.去噪自編碼器的原理示意如圖7所示.它的核心思想是在原始信號上施加一定噪聲后作為訓練數據對深度網絡進行訓練.將重構信號與原始未加噪聲的信號作對比作為重構誤差.通過最小化重構誤差,使得去噪自編碼器可以適應一定程度的噪聲干擾,從而增強了網絡的魯棒性.

圖7 去噪自編碼器示意圖Fig.7 The illustration of denoise autoencoder
3.4.2自編碼器在跟蹤中的應用
由于堆疊自編碼器,尤其是去噪堆疊自編碼器的特征學習能力和抗噪聲性能,它被首先應用到非特定目標的在線視頻目標跟蹤當中.該方面的經典工作來自于文獻[65].該文作者首先在大規模的小尺度圖像樣本數據集[66]上對一個堆疊去噪自編碼器進行離線訓練.其深度網絡的結構如圖8中左圖所示.而后將訓練好的網絡用于跟蹤時對目標外觀的特征提取.為了利用在線標注信息,在網絡的頂端加入邏輯斯諦回歸二值分類器,“1”指示目標,“0”指示背景,如圖8中右圖所示.初始化時,利用第一幀給出的標注信息,對網絡進行微調整.在線跟蹤時,繼續通過實時采集的正負樣本對深度網絡進行微調(更新),以達到適應目標外觀變化的目的.

圖8 用于跟蹤的去噪自編碼器架構[65]Fig.8 Denoise autoencoder for video tracking[65]
為減少計算量,系統更新并非每一幀都進行,而是每隔一定幀數或系統置信度小于一定閾值時才更新一次.整個跟蹤系統的運動模型基于粒子濾波框架.實驗結果表明其跟蹤效果好于部分基于傳統特征表示的方法.該文工作首次將深度網絡用于非特定目標在線跟蹤問題,是典型的“離線訓練+在線微調”架構下的深度學習跟蹤方法,框架具有示范性.其網絡結構相對簡單,訓練容易.其不足主要是:1)對網絡進行離線的預訓練所使用的圖像數據都是較低分辨率下的小圖像,雖然網絡可以學習到一些一般性的圖像特征,但對于跟蹤任務而言,核心要求是對跟蹤目標特征的有效描述而非對整個圖像的描述.這些基于低分辨率圖像重構意義下所學習到的特征能否最大化區分目標與背景并沒有理論上保證. 2)其網絡后端為一個二值分類器,即只將跟蹤視為二值分類問題.在線樣本標注時,將與當前目標較近的樣本標為正樣本,較遠的標為負樣本.由于“近”和“遠”都需要設定具體的閾值,因此非常容易引入誤樣本從而使網絡得到錯誤的訓練信息.3)實時性低,特別是目標遭遇背景中較強干擾時,網絡頻繁的更新操作使得運行效率很低.
文獻[67]在文獻[65]的基礎上,將深度網絡同在線AdaBoost框架進行融合,將4個基于堆疊自編碼器的跟蹤器組成集成系統,將置信度最大的候選區域作為最終預測的目標位置.而后根據跟蹤結果在線調節每個自編碼器網絡的權重從而達到增強魯棒性的目的.該方法通過幾個網絡的融合互補,一定程度上彌補了單個網絡跟蹤時易受干擾而漂移的問題,但代價是使得計算負擔進一步加重.
文獻[68]同樣采用了先離線訓練深度堆疊自動編碼器,而后在線微調的策略.與文獻[65]不同的是,文獻[68]中的工作強調了深度網絡對于時間關聯性圖像的學習.在離線訓練階段并未利用離散的靜態圖像作為訓練樣本,而是采用帶標注的視頻序列圖像來訓練深度網絡.在網絡訓練算法上,除了增加重構誤差最小的約束項外,還增加了基于獨立子空間分析(Independent subspace analysis,ISA)的相鄰幀之間的時間連續性約束(Temporal slowness constraint).通過這樣的策略,使得訓練出的網絡在進行在線跟蹤時可以更好地提取運動不變性特征.實驗結果表明其效果要好于文獻[65]中的方法.
文獻[69]將深度自編碼器網絡用于跟蹤含有運動模糊的視頻目標.快速運動和運動模糊是視頻目標跟蹤中的一大類困難因素.該文通過高斯函數對模糊圖像建模與深度網絡進行特征提取相結合,在一定程度上克服了模糊幀對跟蹤器的影響.
文獻[70]的重點放在解決深度學習用于跟蹤時的實時性問題.文章作者的出發點有兩個:1)視頻跟蹤中的目標都是較小尺度的圖像,因此沒有必要用過多層數的深度網絡,這樣會加大在線計算負擔,作者認為用較少層數的深度網絡足可以充分表達目標特征.2)作者認為由于只有視頻第一幀是真正的標注數據,而在線運行時的標注數據都或多或少存在不準確性,因此在對離線訓練好的深度網絡進行在線微調時,第一幀與后繼幀采用不同的訓練策略,即在后繼幀中更新微調時,采用較少的訓練周期和較大的學習率,這樣可以進一步加快網絡的運行速度.
總體而言,作為優秀的非監督深度學習模型,堆疊自編碼器理論直觀而優美,體量適中,因此在視頻跟蹤中最先得到應用并取得了優良效果.
3.5卷積神經網絡在跟蹤中的應用
3.5.1卷積神經網絡基本原理
與堆疊自編碼器不同,深度卷積神經網絡(Convolutional neural network,CNN)是一種監督型的前饋神經網絡.鑒于其出色的效果,卷積神經網絡成為目前圖像與視頻識別領域的研究熱點.
卷積神經網絡的生理學理論基礎來自20世紀60年代科學家Hubel和Wiesel通過對貓視覺皮層的研究成果.他們提出了感受野(Receptive field)的概念[71].基于此發現,文獻[72]中提出的神經認知機(Neocognitron)首次將感受野概念應用于人工神經網絡,該模型可視為卷積神經網絡的初級版本.隨后LeCun等設計出基于BP算法的卷積神經網絡[60,73],該網絡集成了局部感受野、權值共享、降采樣三大特性,在計算機視覺的許多方面都獲得了很好的效果[74].在大數據時代,隨著大規模帶標注的圖像數據平臺ImageNet等的出現以及計算硬件水平的發展,卷積神經網絡在模式識別,特別是計算機視覺任務中體現出強大性能.革命性的標志是文獻[49]中,Krizhevsky等利用深層卷積神經網絡大幅度提高了圖像識別成功率.此后在目標檢測、視頻分類等任務中都取得了超越傳統方法的成果.
卷積神經網絡的基本結構如圖9所示,總體上分為特征提取部分、全連接部分和輸出部分.特征提取部分是卷積神經網絡的核心,由卷積、非線性變換和降采樣三種操作的周期性交替進行而組成.卷積操作就是通過卷積核來獲取特征圖(圖9中的C1,C2層),卷積核需要通過訓練優化得到.非線性變換就是將卷積階段得到的特征按照一定的原則進行篩選,提高模型的特征表達能力.降采樣操作采用池化(Pooling,通常的做法是取一定鄰域內像素的平均值或最大值)得到分辨率降低的圖像,目的是獲取一定的位移不變性,提高圖像識別的魯棒性.經過特征提取層后,得到的多個特征圖構成特征向量后通過全連接層與最終的輸出層相連.

圖9 卷積神經網絡的基本架構示意[60,73]Fig.9 The illustration of convolutional neural network[60,73]
卷積神經網絡通過誤差反向傳播算法進行有監督的學習和訓練.隨著當前一些技術實力強大的科技公司的推動,卷積神經網絡的層數在不斷加深,規模越來越龐大[75-76],但需耗費大量的訓練時間.
3.5.2卷積神經網絡在跟蹤中的應用
目前卷積神經網絡在跟蹤中的應用,主要研究思路有兩種:一種是先離線訓練好所采用的網絡,而后在線運行時微調;另一種則是設計簡化版的卷積神經網絡,力圖擺脫離線訓練而能夠完全在線運行.
文獻[77]中采用兩卷積層和兩降采樣層的卷積神經網絡進行特征提取.網絡后端接徑向基神經網絡來實現分類.該工作的主要不足是在線跟蹤時沒有采用實時更新的策略,因此對目標外觀變化的適應性不強.
文獻[78]中首先在輔助數據集上離線訓練一個兩層級的卷積神經網絡,而后將其應用于在線跟蹤當中.為使網絡學習到能夠應對復雜運動的特征,作者提出在視頻圖像而非離散圖像上進行離線訓練.在線跟蹤時,利用在線采集的樣本對網絡進行微調、更新.該工作的主要創新在于注重了網絡對于運動不變性特征的學習,因而對于跟蹤而言更具啟發意義.
文獻[79]中作者設計了一個含有7個卷積層和2個全連接層的深度卷積神經網絡.與大部分用于跟蹤的卷積神經網絡不同,作者所設計的網絡并不是二值化輸出(1代表目標,0代表背景),而是結構化輸出.通過一張響應圖來指示目標潛在區域的可能性.首先在ImageNet上離線訓練網絡,而后通過遷移學習將其用于在線特征提取.通過兩個卷積神經網絡的相互融合互補來實現穩定的跟蹤.該工作的主要創新在于對深度網絡用于跟蹤時的輸出端進行了關注.
文獻[80]中利用離線訓練好的深度卷積神經網絡在線提取目標的顯著性圖,跟蹤系統通過存儲若干幀跟蹤目標的顯著性特征圖,在線維護一個外觀模型模板,通過相關匹配來實現定位目標.該文的研究著眼點較為新穎,沒有直接利用深度卷積網絡給出跟蹤結果,而是先通過其得到目標的顯著性特征圖再進行操作,這在很大程度上避免了網絡誤分類造成跟蹤漂移的問題.
文獻[81-82]都借鑒了卷積網絡的最新發展,將更深層數、特征學習能力更強的卷積網絡引入到視頻目標跟蹤中.與之前的工作相比,兩者都注重了對不同層級特征的充分利用,在對跟蹤中應用深度網絡的理解上更進了一步.
以上工作都是首先離線訓練卷積神經網絡而后以在線數據對網絡進行微調和更新.除了這種思路外,還有少數工作試圖通過以完全在線的方式來利用卷積神經網絡進行目標跟蹤.
文獻[83-84]中提出了一種在線卷積神經網絡架構,其特點在于完全不依賴離線學習而只進行在線學習.其在采樣、訓練、更新等幾個方面都做了一定改進,主要考慮在線運行效率問題.其采用含有兩個卷積層和兩個降采樣層的卷積神經網絡.為獲取盡可能多的在線樣本,增加了一個預處理環節,得到若干不同參數的局部正則化圖像及梯度圖像作為多通道輸入.跟蹤系統維持一個記憶池,在線存儲跟蹤到的目標樣本作為網絡訓練和更新之用.
文獻[85]中對卷積神經網絡做了較大的簡化,沒有通過監督訓練的方式獲取卷積核,而是通過預先設計的濾波器作為卷積核來獲取層級特征.這些方式往往需要在特征表達能力與運行速度之間做權衡以便設計簡化版網絡.
3.6對比分析
3.6.1卷積神經網絡與傳統方法的對比分析
能夠將目標與其周邊背景有效區分的特征向量對視頻目標跟蹤的最終效果起到關鍵作用.傳統方法的局限首先在于往往只著眼于目標某一方面物理特性的刻畫,而忽視了其他特性.例如Haar特征在對人臉進行跟蹤時的效果較好,但應用于行人跟蹤時效果則不夠理想.這就使得這些方法的應用范圍受到很大限制,在含有各種干擾因素的最新跟蹤數據平臺上很難獲得全面優異的表現.而深度學習方法在輔助訓練數據的支撐下可以獲取普適性更高的特征[86].
其次,傳統方法如HOG特征幾乎都只著眼于底層特征,而卷積神經網絡可以通過層級映射提取從邊緣、紋理等底層特征到高層抽象語義特征等一系列不同層次的特征表示.與圖像分類等任務僅利用最后的語義性特征不同,卷積神經網絡所提取的不同層級的特征都可以為跟蹤任務所采用,這等同于為目標的位置分析提供了更多的視窗,這一點是傳統方法無法比擬的.
當然,傳統方法的主要優勢在于運行速度和對輔助數據的較少依賴,在目前而言更具工程實用價值,隨著硬件加速技術的進步,相信這種差距會逐步縮小.同時非深度學習跟蹤方法中的優秀思想也值得借鑒[87],如文獻[29]中提出的Struck算法所采用的結構化學習與輸出思想,體現出對目標跟蹤問題更深刻的理解,對于深度學習跟蹤方法而言非常值得借鑒.
3.6.2卷積神經網絡與堆疊編碼器的對比分析
通過對目前的研究成果的對比分析,基于卷積網絡的跟蹤架構比基于堆疊自編碼器的方法具有更大的優勢和更廣闊的發展空間.首先,卷積網絡的結構決定了其具有處理圖像數據的先天優勢,這是目前其他深度學習架構所不及的.同時,卷積網絡的架構具有很強的可拓展性,可以達到非常“深”的層數.相比深度卷積網絡而言,目前堆疊自編碼器的中間層數就少很多.卷積網絡的這種優勢使得其具有更強大的特征學習能力,可以為跟蹤任務提供更多的特征分析視窗.
圖10所示是一份基于卷積網絡最新成果的跟蹤方法與優秀的傳統方法及基于堆疊自編碼器方法的實驗對比結果圖(引自文獻[81]).其中,圖10(a)為精度圖,圖10(b)為成功圖,其物理意義分別是在不同的中心誤差閾值和重疊度閾值下,成功跟蹤到的幀數的百分比(具體定義詳見第2.2節).其中每個圖中的說明框是各個算法的性能排名,越靠上的算法性能越好.從結果可以看出,基于卷積網絡的跟蹤方法優于目前性能較好的基于傳統方法的跟蹤器,同時對比于基于堆疊自編碼器的跟蹤方法[65]也表現出明顯優勢.
3.7應用總結與困難分析
上面的一些工作盡管取得了一些成果,但是深度學習在視頻目標跟蹤中的應用仍然較少,盡管部分算法跟蹤效果很好,但總體而言,此方面仍有很大的探索空間.目前的問題和困難主要有:

圖10 基于卷積網絡的跟蹤算法與其他方法的對比實驗[81](FCNT為基于卷積網絡的跟蹤器,DLT為基于堆疊自編碼器的跟蹤器[65].)Fig.10 Comparison of CNN-based tracking method and other trackers[81](FCNT is a CNN-based tracker and DLT is an autoencoder-based tracker[65].)
1)通過預訓練深度網絡的方式需要耗費大量的時間,且此種方式更加適合于特定目標的跟蹤,如行人跟蹤等.當應用場合是非特定目標的跟蹤時,一個重要問題是選取什么樣的輔助訓練集能夠獲取更穩定的跟蹤效果.有些研究者認為應選取如ImageNet這樣包含物體類別豐富的海量圖像訓練集,這樣可以獲取更一般的圖像特征,另一些工作則更傾向于視頻數據集,認為可以獲取更好的時間特征表達能力.目前針對輔助訓練數據集的選取并沒有明確的理論指導,也沒有工作進行此方面的實驗來驗證,總體上訓練數據集的選取有著較大的隨意性.
2)卷積神經網絡的傳統架構在圖像識別、檢測等領域取得了巨大成功,但并不適用于跟蹤.這主要是因為其中的降采樣、池化等操作會降低圖像的分辨率.這些操作的目的是獲取圖像位移不變性從而降低因物體形變等因素對于識別的影響.然而降低分辨率后會損失空間位置信息,而這些信息對于視頻目標跟蹤來說是至關重要的.因此簡單套用卷積神經網絡未必會取得非常好的效果,必須對網絡結構進行一定的改進,不能夠在特征提取過程損失空間信息.
3)目前深度學習在視頻目標跟蹤中的應用中,大都以二值分類器作為最終的輸出,即在線跟蹤過程中所采樣的樣本都是以0和1作為樣本,這種在線標注方式顯得過“硬”,非常容易引入誤標簽,從而引起深度網絡的誤分類,最終導致誤差積累直致漂移.此時單純使用深度學習方法并不能解決跟蹤漂移問題,需要同其他方法相結合才能更好地發揮深度網絡的作用.
4)深度網絡用于視頻目標跟蹤的實時性問題是其應用的一大挑戰.由于深度學習算法及架構固有的性質,其實時性往往很難達到實用要求.一些工作對深度網絡作了過大的簡化,以犧牲特征表達能力來加速系統,似乎并不可取.如何做真正合理的簡化和改進,使得深度學習方法真正適用于實時應用,是值得深入研究的課題.
5)深度網絡的重要形式—遞歸神經網絡目前在視頻目標跟蹤中還沒有應用.遞歸神經網絡,尤其是其重要變體—長短時記憶網絡在序列識別問題上已取得了較大的成功.由于具有對序列的記憶能力,這種網絡是一種時間軸上的深度學習方法,也是對人類智能的一種重要的模擬形式.具體到視頻目標跟蹤領域,由于當前數據集中各種干擾因素的存在,如攝像機晃動等,使得跟蹤視頻序列往往成為很不規則的序列信號,這與語音信號等不同.因此目前對于非特定目標、非特定環境的視頻目標跟蹤問題,應用遞歸神經網絡還非常困難,僅有一些研究工作試圖從其他方面進行模擬[88].
作為多媒體內容分析的重要子領域,視頻目標跟蹤是一個復雜且困難的研究課題,因為在現實環境中有太多因素對跟蹤過程進行干擾.經過數十年的努力,雖然對一些簡單場景已經能夠很好處理,但面對更多更復雜環境時跟蹤效果仍不夠理想.深度學習方法的出現,為構建更加魯棒的目標外觀模型提供了可能.但為了設計出高精度、高魯棒性和實時性的跟蹤算法,仍然需要開展大量研究工作,目前的研究重點和發展趨勢主要集中于以下幾點:
1)深度學習與在線學習的融合.視頻目標跟蹤本質上是一個在線學習問題,最顯著的特點是在線數據集是在不斷擴充的.深度學習應用中所采用的先逐層訓練而后全局微調的訓練方式在純粹的在線環境是否真正適用,如何避免陷入局部極小值,都是值得深入研究的問題.
2)構建適合視頻目標跟蹤的深度網絡.需要在目標表征能力和實時性之間有所權衡,既要保持深度學習特征學習的優勢,同時也要兼顧跟蹤的高實時性要求.同時,如卷積神經網絡中的降采樣等損失空間信息的操作都是應用于跟蹤任務的障礙,因此要進行必要改進,才能使深度網絡真正適用于跟蹤問題.
3)跟蹤數據平臺的創建.目前建立大型的訓練與測試數據平臺并舉行定期的比賽,已經成為圖像與視頻研究的流行趨勢.因此如何根據視頻目標跟蹤研究的特點,建立起大規模、具有代表性、測試方法嚴謹、適合深度網絡訓練、測試的跟蹤視頻數據平臺,仍然是一個值得研究的課題.
4)遞歸神經網絡的應用.盡管應用于一般性目標及開放環境的視頻目標跟蹤問題困難較大,但作為對于時間序列建模的重要深度模型,遞歸神經網絡仍然可以在跟蹤中有所作為.可以預見,在特定目標、固定鏡頭等限定情況下,應用遞歸神經網絡可以幫助跟蹤系統更好地進行軌跡預測,從記憶角度來防止漂移發生.這方面有很大探索空間.
本文在對視頻目標跟蹤的研究框架進行說明的基礎上,首先介紹了跟蹤算法評測數據平臺與方法的最新發展.而后作為核心,本文重點介紹了目前在多媒體領域發展迅猛的深度學習方法在視頻目標跟蹤領域的應用情況.在已有工作的基礎上,對深度學習方法應用于跟蹤時的特點、問題及難點進行了深入分析和總結.文章最后對未來深度學習方法在跟蹤中的進一步應用進行了展望,相信對相關領域的研究人員會有較好的參考價值.
References
1 Comaniciu D,Ramesh V,Meer P.Real-time tracking of nonrigid objects using mean shift.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.Hilton Head Island,SC:IEEE,2000.142-149
2 Risfic B,Arulampalam S,Gordon N.Beyond the Kalman filter-book review.IEEE Aerospace and Electronic Systems Magazine,2004,19(7):37-38
3 Viola P,Jones M.Rapid object detection using a boosted cascade of simple features.In:Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Hawaii,USA:IEEE,2001.I-511-I-518
4 P′erez P,Hue C,Vermaak J,Gangnet M.Color-based probabilistic tracking.In:Proceedings of the 7th European Conference on Computer Vision.Copenhagen,Denmark:Springer,2002.661-675
5 Possegger H,Mauthner T,Bischof H.In defense of colorbased model-free tracking.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA,USA:IEEE,2015.2113-2120
6 Danelljan M,Khan F S,Felsberg M,van de Weijer J.Adaptive color attributes for real-time visual tracking.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014. 1090-1097
7 Ojala T,Pietikainen M,Harwood D.Performance evaluation of texture measures with classification based on Kullback discrimination of distributions.In:Proceedings of the 12th IAPR International Conference on Pattern Processing. Jerusalem:IEEE,1994.582-585
8 Zhou H Y,Yuan Y,Shi C M.Object tracking using SIFT features and mean shift.Computer Vision and Image Understanding,2009,113(3):345-352
9 Miao Q,Wang G J,Shi C B,Lin X G,Ruan Z W.A new framework for on-line object tracking based on SURF.Pattern Recognition,2011,32(13):1564-1571
10 Dalal N,Triggs B.Histograms of oriented gradients for human detection.In:Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA:IEEE,2005.886-893
11 Lucas B D,Kanade T.An iterative image registration technique with an application to stereo vision.In:Proceedings of the 7th International Joint Conference on Artificial Intelligence.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1981.674-679
12 Horn B K P,Schunck B G.Determining optical flow.Artificial Intelligence,1981,17(2):185-203
13 KalalZ,MikolajczykK,MatasJ.Tracking-learningdetection.IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(7):1409-1422
14 Kalal Z,Mikolajczyk K,Matas J.Forward-backward error:automatic detection of tracking failures.In:Proceedings of the 20th IEEE International Conference on Pattern Recognition.Istanbul:IEEE,2010.2756-2759
15 Li X,Hu W M,Shen C H,Zhang Z F,Dick A,van den Hengel A.A survey of appearance models in visual object tracking.ACM Transactions on Intelligent Systems and Technology,2013,4(4):Article No.58
16 Zhang Huan-Long,Hu Shi-Qiang,Yang Guo-Sheng.Video object tracking based on appearance models learning.Journal of Computer Research and Development,2015,52(1):177-190(張煥龍,胡士強,楊國勝.基于外觀模型學習的視頻目標跟蹤方法綜述.計算機研究與發展,2015,52(1):177-190)
17 Hou Zhi-Qiang,Han Chong-Zhao.A survey of visual tracking.Acta Automatica Sinica,2006,32(4):603-617(侯志強,韓崇昭.視覺跟蹤技術綜述.自動化學報,2006,32(4):603-617)
18 Adam A,Rivlin E,Shimshoni I.Robust fragments-based tracking using the integral histogram.In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,NY,USA:IEEE,2006.798-805
19 Alt N,Hinterstoisser S,Navab N.Rapid selection of reliable templates for visual tracking.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.1355-1362
20 He S F,Yang Q X,Lau R W H,Wang J,Yang M H.Visual tracking via locality sensitive histograms.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.2427-2434
21 Black M J,Jepson A D.EigenTracking:robust matching and tracking of articulated objects using a view-based representation.International Journal of Computer Vision,1998,26(1):63-84
22 Ross D A,Lim J,Lin R S,Yang M H.Incremental learning for robust visual tracking.International Journal of Computer Vision,2008,77(1-3):125-141
23 Zhang T Z,Liu S,Xu C S,Yan S C,Ghanem B,Ahuja N,Yang M H.Structural sparse tracking.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA:IEEE,2015.150-158
24 Jia X,Lu H C,Yang M H.Visual tracking via adaptive structural local sparse appearance model.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA:IEEE,2012.1822-1829
25 Zhang T Z,Ghanem B,Liu S,Ahuja N.Robust visual tracking via multi-task sparse learning.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA:IEEE,2012.2042-2049
26 Zhang S P,Yao H X,Sun X,Lu X S.Sparse coding based visual tracking:review and experimental comparison.Pattern Recognition,2013,46(7):1772-1788
27 Wright J,Ma Y,Mairal J,Sapiro G,Huang T S,Yan S C. Sparse representation for computer vision and pattern recognition.Proceedings of the IEEE,2010,98(6):1031-1044
28 Mei X,Ling H B.Robust visual tracking using L1minimization.In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto:IEEE,2009.1436-1443
29 Hare S,Saffari A,Torr P H S.Struck:structured output tracking with kernels.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona:IEEE,2011.263-270
30 Avidan S.Support vector tracking.IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(8):1064-1072
31 Bai Y C,Tang M.Robust tracking via weakly supervised ranking SVM.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA:IEEE,2012.1854-1861
32 Grabner H,Grabner M,Bischof H.Real-time tracking via on-line boosting.In:Proceedings of the British Machine Vision Conference.Edinburgh,UK:BMVA Press,2006.47-56
33 Grabner H,Leistner C,Bischof H.Semi-supervised on-line boosting for robust tracking.In:Proceedings of the 10th European Conference on Computer Vision.Marseille,France:Springer,2008.234-247
34 Stalder S,Grabner H,van Gool L.Beyond semi-supervised tracking:tracking should be as simple as detection,but not simpler than recognition.In:Proceedings of the 12th IEEE International Conference on Computer Vision Workshops. Kyoto:IEEE,2009.1409-1416
35 Babenko B,Yang M H,Belongie S.Visual tracking with online multiple instance learning.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA:IEEE,2009.983-990
36 Henriques J F,Caseiro R,Martins P,Batista J.Exploiting the circulant structure of tracking-by-detection with kernels. In:Proceedings of the 12th European Conference on Computer Vision.Florence,Italy:Springer,2012.702-715
37 Henriques J F,Caseiro R,Martins P,Batista J.High-speed tracking with kernelized correlation filters.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596
38 Zhang K H,Zhang L,Yang M H.Real-time compressive tracking.In:Proceedings of 12th European Conference on Computer Vision.Florence,Italy:Springer,2012.864-877
39 Huang Kai-Qi,Ren Wei-Qiang,Tan Tie-Niu.A review on image object classification and detection.Chinese Journal of Computers,2014,37(6):1225-1240(黃凱奇,任偉強,譚鐵牛.圖像物體分類與檢測算法綜述.計算機學報,2014,37(6):1225-1240)
40 Deng J,Dong W,Socher R,Li J J,Li K,Li F F.ImageNet:a large-scale hierarchical image database.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA:IEEE,2009.248-255
41 Everingham M,Van Gool L,Williams C K I,Winn J,Zisserman A.The PASCAL visual object classes(VOC)challenge.International Journal of Computer Vision,2010,88(2):303-338
42 Smeaton A F,Over P,Kraaij W.Evaluation campaigns and TRECVid.In:Proceedings of the 8th ACM International Workshop on Multimedia Information Retrieval.Santa Barbara,CA,USA:ACM,2006.321-330
43 Wu Y,Lim J,Yang M H.Online object tracking:a benchmark.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.2411-2418
44 Wu Y,Lim J,Yang M H.Object tracking benchmark.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1834-1848
45 Kristan M,Matas J,Leonardis A,Felsberg M,Cehovin L,Fern′andez G,Voj′?r T,H¨ager G,Nebehay G,Pflugfelder R.The visual object tracking VOT2015 challenge results. In:Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops.Santiago:IEEE,2015. 564-586
46 Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors.Nature,1986,323(6088):533-536
47 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507
48 Hinton G,Deng L,Yu D,Dahl G E,Mohamed A R,Jaitly N,Senior A,Vanhoucke V,Nguyen P,Sainath T N,Kingsbury B.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups.IEEE Signal Processing Magazine,2012,29(6):82-97
49 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceeding of Advances in Neural Information Processing Systems. Nevada,USA:MIT Press,2012.1097-1105
50 Girshick R,Donahue J,Darrell T,Malik J.Rich feature hierarchies for accurate object detection and semantic segmentation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.580-587
51 Ren S Q,He K M,Girshick R,Sun J.Faster R-CNN:towards real-time object detection with region proposal networks.In:Proceeding of Advances in Neural Information Processing Systems.Montr′eal,Canada:MIT Press,2015. 91-99
52 Karpathy A,Toderici G,Shetty S,Leung T,Sukthankar R,Li F F.Large-scale video classification with convolutional neural networks.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.1725-1732
53 Ji S W,Xu W,Yang M,Yu K.3D convolutional neural networks for human action recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231
54 Lee T S,Mumford D,Romero R,Lamme V A F.The role of the primary visual cortex in higher level vision.Vision Research,1998,38(15-16):2429-2454
55 Lee T S,Mumford D.Hierarchical Bayesian inference in the visual cortex.Journal of the Optical Society of America A:Optics Image Science and Vision,2003,20(7):1434-1448
56 Jia Y Q,Shelhamer E,Donahue J,Karayev S,Long J,Girshick R,Guadarrama S,Darrell T.Caffe:convolutional architecture for fast feature embedding.In:Proceedings of the 22nd ACM International Conference on Multimedia.Orlando,FL,USA:ACM,2014.675-678
57 Bergstra J,Bastien F,Breuleux O,Lamblin P,Pascanu R,Delalleau O,Desjardins G,Warde-Farley D,Goodfellow I J,Bergeron A,Bengio Y.Theano:deep learning on GPUS with python.In:Advances in Neural Information Processing Systems Workshops.Granada,Spain:MIT Press,2011. 1-4
58 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7):1527-1554
59 Vincent P,Larochelle H,Bengio Y,Manzagol P A.Extracting and composing robust features with denoising autoencoders.In:Proceedings of the 25th International Conference on Machine Learning.Helsinki,Finland:ACM,2008. 1096-1103
60 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-2324
61 Jozefowicz R,Zaremba W,Sutskever I.An empirical exploration of recurrent network architectures.In:Proceedings of the 32nd International Conference on Machine Learning. Lille,France:JMLR,2015.2342-2350
62 Hochreiter S,Schmidhuber J.Long short-term memory. Neural Computation,1997,9(8):1735-1780
63 Gers F A,Schraudolph N N,Schmidhuber J.Learning precise timing with LSTM recurrent networks.The Journal of Machine Learning Research,2003,3:115-143
64 Graves A,Liwicki M,Fern′andez S,Bertolami R,Bunke H,Schmidhuber J.A novel connectionist system for unconstrained handwriting recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(5):855-868
65 Wang N Y,Yeung D Y.Learning a deep compact image representation for visual tracking.In:Proceeding of Advances in Neural Information Processing Systems.Nevada,USA:MIT Press,2013.809-817
66 Torralba A,Fergus R,Freeman W T.80 million tiny images:a large data set for nonparametric object and scene recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(11):1958-1970
67 Zhou X Z,Xie L,Zhang P,Zhang Y N.An ensemble of deep neural networks for object tracking.In:Proceedings of the 2014 IEEE International Conference on Image Processing. Paris,France:IEEE,2014.843-847
68 Kuen J,Lim K M,Lee C P.Self-taught learning of a deep invariant representation for visual tracking via temporal slowness principle.Pattern Recognition,2015,48(10):2964-2982
69 Ding J W,Huang Y Z,Liu W,Huang K Q.Severely blurred object tracking by learning deep image representations.IEEE Transactions on Circuits and Systems for Video Technology,2016,26(2):319-331
70 Dai L,Zhu Y S,Luo G B,He C.A low-complexity visual tracking approach with single hidden layer neural networks. In:Proceedings of the 13th IEEE International Conference on Control Automation Robotics and Vision.Singapore:IEEE,2014.810-814
71 Hubel D H,Wiesel T N.Receptive fields,binocular interaction and functional architecture in the cat′s visual cortex. Journal of Physiology,1962,160(1):106-154
72 Fukushima K.Neocognitron:a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position.Biological Cybernetics,1980,36(4):193-202
73 LeCun Y,Boser B,Denker J S,Henderson D,Howard R E,Hubbard W,Jackel L D.Backpropagation applied to handwritten zip code recognition.Neural Computation,1989,1(4):541-551
74 LeCun Y,Kavukcuoglu K,Farabet C.Convolutional networks and applications in vision.In:Proceedings of 2010 IEEE International Symposium on Circuits and Systems. Paris,France:IEEE,2010.253-256
75 Szegedy C,Liu W,Jia Y Q,Sermanet P,Reed S,Anguelov D,Erhan D,Vanhoucke V,Rabinovich A.Going deeper with convolutions.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA:IEEE,2015.1-9
76 Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition.arXiv:1409.1556,2014.
77 Jin J,Dundar A,Bates J,Farabet C,Culurciello E.Tracking with deep neural networks.In:Proceedings of the 47th Annual Conference on Information Sciences and Systems (CISS).Baltimore,MD,USA:IEEE,2013.1-5
78 Wang L,Liu T,Wang G,Chan K L,Yang Q X.Video tracking using learned hierarchical features.IEEE Transactions on Image Processing,2015,24(4):1424-1435
79 Wang N Y,Li S Y,Gupta A,Yeung D Y.Transferring rich feature hierarchies for robust visual tracking.arXiv:1501.04587,2015.
80 Hong S,You T,Kwak S,Han B.Online tracking by learning discriminative saliency map with convolutional neural network.In:Proceedings of the 32th International Conference on Machine Learning.Lille,France:JMLR,2015.597-606
81 Wang L J,Ouyang W L,Wang X G,Lu H C.Visual tracking with fully convolutional networks.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago:IEEE,2015.3119-3127
82 Ma C,Huang J B,Yang X K,Yang M H.Hierarchical convolutional features for visual tracking.In:Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago:IEEE,2015.3074-3082
83 Li H X,Li Y,Porikli F.DeepTrack:learning discriminative feature representations online for robust visual tracking.IEEE Transactions on Image Processing,2016,25(4):1834-1848
84 Li H X,Li Y,Porikli F.Robust online visual tracking with a single convolutional neural network.In:Proceedings of the 12th Asian Conference on Computer Vision.Singapore:Springer,2015.194-209
85 He Y,Dong Z,Yang M,Chen L,Pei M T,Jia Y D.Visual tracking using multi-stage random simple features.In:Proceedings of the 22nd International Conference on Pattern Recognition.Stockholm:IEEE,2014.4104-4109
86 Danelljan M,H¨ager G,Khan F S,Felsberg M.Convolutional features for correlation filter based visual tracking.In:Proceedings of the 2015 IEEE International Conference on Computer Vision Workshop.Santiago:IEEE,2015.621-629
87 Wang N Y,Shi J P,Yeung D Y,Jia J Y.Understanding and diagnosing visual tracking systems.In:Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago:IEEE,2015.3101-3109
88 Hong Z B,Chen Z,Wang C H,Mei X,Prokhorov D,Tao D C.MUlti-Store tracker(MUSTer):a cognitive psychology inspired approach to object tracking.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA:IEEE,2015.749-758

管 皓復旦大學計算機科學技術學院博士研究生.主要研究方向為多媒體內容分析,深度學習.本文通信作者.
E-mail:guanh13@fudan.edu.cn
(GUAN HaoPh.D.candidate at the School of Computer Science,Fudan University.His research interest covers video analysis and deep learning.Corresponding author of this paper.)

薛向陽復旦大學計算機科學技術學院教授.主要研究方向為視頻大數據分析,計算機視覺,深度學習.
E-mail:xyxue@fudan.edu.cn
(XUE Xiang-YangProfessor at the School of Computer Science,Fudan University.His research interest covers big video data analysis,computer vision,and deep learning.)

安志勇復旦大學計算機科學技術學院博士后.2008年獲得西安電子科技大學博士學位.主要研究方向為圖像與視頻內容分析、檢索.
E-mail:azytyut@163.com
(AN Zhi-YongPostdoctor at the School of Computer Science,Fudan University.He received his Ph.D.degree from Xidian University in 2008.His research interest covers image and video content analysis and retrieval.)
Advances on Application of Deep Learning for Video Object Tracking
GUAN Hao1XUE Xiang-Yang1AN Zhi-Yong1
Video object tracking is an important research topic of computer vision with numerous applications including surveillance,robotics,human-computer interface,etc.The coming of big data era and the rise of deep learning methods have offered new opportunities for the research of tracking.Firstly,we present the general framework for video object tracking research.Then,we introduce new arisen datasets and evaluation methodology.We highlight the application of the rapid-developing deep-learning methods including stacked autoencoder and convolutional neural network on video object tracking.Finally,we have a discussion and provide insights for future.
Object tracking,video analysis,online learning,deep learning,big data
10.16383/j.aas.2016.c150705
Guan Hao,Xue Xiang-Yang,An Zhi-Yong.Advances on application of deep learning for video object tracking. Acta Automatica Sinica,2016,42(6):834-847
2015-10-26錄用日期2016-05-03
Manuscript received October 26,2015;accepted May 3,2016
國家自然科學基金 (61572138),上海市科技創新行動計劃項目(15511104402)資助
Supported by National Natural Science Foundation of China (61572138)and Science and Technology Commission of Shanghai Municipality(15511104402)
本文責任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.復旦大學計算機科學技術學院上海市智能信息處理重點實驗室上海201203
1.Shanghai Key Laboratory of Intelligent Information Processing,School of Computer Science,Fudan University,Shanghai 201203