李國友 紀執(zhí)安 張鳳煦
(* 燕山大學電氣工程學院 秦皇島 066004 )
目標跟蹤技術(shù)是計算機視覺的重要分支,隨著科學技術(shù)的發(fā)展,其在多個領(lǐng)域廣泛應(yīng)用[1],如智能視頻監(jiān)控、人機互動、手勢識別、虛擬現(xiàn)實等[2]。通常目標跟蹤算法根據(jù)第1幀目標框的信息,跟蹤整個視頻序列感興趣的區(qū)域。但在實際應(yīng)用中,由于光照、目標旋轉(zhuǎn)、遮擋等干擾[3],跟蹤過程中會產(chǎn)生漂移,甚至會跟丟標定目標。因此,設(shè)計一個魯棒的目標跟蹤算法是眾多學者追求的熱門課題。
傳統(tǒng)的跟蹤算法主要是對目標建立有效決策模型和提取有用的外觀特征,提取的目標特征多為灰度、顏色、方形梯度直方圖(histogram of oriented gradient,HOG)特征等[4],統(tǒng)稱為人工提取特征。相關(guān)濾波目標跟蹤算法,如最小輸出和的平方誤差濾波跟蹤[5](minimum output sum of squared error filter,MOSSE)、循環(huán)結(jié)構(gòu)核的目標跟蹤[6](circulant structure kernel,CSK)均是先對目標進行提取人工特征,然后通過分類器進行訓(xùn)練,最后完成對目標的跟蹤。在相關(guān)濾波算法中,最為出色的就是Henriques等人[7]提出的核相關(guān)濾波算法(kernel correlation filter,KCF),KCF通過循環(huán)矩陣和嶺回歸分類器[8]訓(xùn)練一個目標檢測器,來判斷目標的位置。
但人工特征僅僅能直觀獲得目標的外觀信息,不能很好捕捉目標的語義信息[9],對復(fù)雜環(huán)境下的目標跟蹤不具有魯棒性。最近,卷積神經(jīng)網(wǎng)絡(luò)[10](convolutional neural network,CNN)在計算機視覺領(lǐng)域有了突破性進展,其能對圖像信息進行更深層次的數(shù)據(jù)挖掘,主要應(yīng)用于圖像分割、動作識別[11]、圖像分類。在目標跟蹤中,基于CNN的深度特征跟蹤算法也相繼提出。文獻[12]中,Danelljan等人很早將卷積特征應(yīng)用在相關(guān)濾波器框架中,和標準人工特征相比,卷積特征提供了更好的跟蹤效果。……