施宗晗,趙海濤
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海200237)
近年來(lái)隨著人工智能等技術(shù)的興起,目標(biāo)跟蹤在機(jī)器人導(dǎo)航、無(wú)人駕駛、人機(jī)交互、智能交通和體育賽事轉(zhuǎn)播等領(lǐng)域具有廣泛的應(yīng)用,涉及到國(guó)防建設(shè)、航空航天、安全保障等眾多方面。目標(biāo)跟蹤根據(jù)給定視頻序列初始幀的目標(biāo)大小與位置來(lái)預(yù)測(cè)后續(xù)幀中該目標(biāo)的大小與位置[1],是計(jì)算機(jī)視覺中重要的研究方向之一。由于跟蹤目標(biāo)和場(chǎng)景的復(fù)雜多變,且訓(xùn)練樣本匱乏,能在有限的訓(xùn)練樣本中克服運(yùn)動(dòng)模糊、快速移動(dòng)、光照變化、尺度變化、旋轉(zhuǎn)、遮擋等這些極具挑戰(zhàn)性的問題[2],這考驗(yàn)著算法的速度、魯棒性和準(zhǔn)確性。早期的目標(biāo)跟蹤算法大多使用傳統(tǒng)方法,包括基于濾波理論的算法[3-5]、基于核方法的算法[6-7]以及基于相關(guān)濾波的算法[8-11]。隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的發(fā)展,目標(biāo)跟蹤的性能得到了很大提升,深度學(xué)習(xí)在該領(lǐng)域的實(shí)際應(yīng)用也在不斷地改進(jìn)和創(chuàng)新。
2013年,深度學(xué)習(xí)方法被首次應(yīng)用到目標(biāo)跟蹤領(lǐng)域。隨后,Ma 等人[12]提出的HCF(hierarchical convolutional features)算法將深度學(xué)習(xí)與相關(guān)濾波結(jié)合起來(lái),使用核相關(guān)濾波(kernel correlation filter,KCF)算法[9],并將其中使用的多通道梯度直方圖(histogram of oriented gradients,HOG)特征替換為深度卷積特征。而深度學(xué)習(xí)的功能十分強(qiáng)大,研究人員并不滿足于將深度特征僅用在目標(biāo)跟蹤中。Bertinetto 等人[13]提出的全卷積孿生網(wǎng)絡(luò)模型(fully-convolutional siamese networks,Siamese FC)實(shí)現(xiàn)了模型端到端的訓(xùn)練,使用大型數(shù)據(jù)集在孿生網(wǎng)絡(luò)框架上進(jìn)行離線預(yù)訓(xùn)練,提取目標(biāo)模板特征與候選區(qū)域特征并進(jìn)行卷積操作,得到的響應(yīng)圖中響應(yīng)最大的區(qū)域即為估計(jì)目標(biāo)位置。……