楊海清 許倩倩 唐怡豪 孫道洋
(浙江工業大學信息工程學院 杭州 310023)
視覺跟蹤是計算機視覺中眾多應用的基本問題之一[1],其典型場景是跟蹤由第1幀中的邊界框指定的未知目標對象。視覺跟蹤在近幾十年來取得了重大進展,但由于遮擋、變形、突然運動、光照變化和背景雜亂等引起的外觀變化,對跟蹤精度仍具有挑戰性。
目前,基于相關濾波器的目標跟蹤因使用快速傅里葉變換具有高效計算而引起了廣泛的關注,其思想是將所有輸入特征的循環版本回歸到目標高斯函數,因此不需要目標外觀的硬閾值樣本。Bolme等人[2]采用在亮度通道上的平方誤差濾波器的最小輸出和以進行快速跟蹤,已經提出了幾個擴展來提高跟蹤精度,包括核化相關濾波器[3]、多維特征[4]、上下文學習[5]、尺度估計[6]、基于多特征融合的尺度自適應跟蹤[7]和互補特征學習實時跟蹤[8]。最近,基于卷積神經網絡(convolutional neural network, CNN)[9]的特征在視覺跟蹤中體現出很好的效果[10]。Wang等人[11]提出要在視頻庫[12]學習一個雙層神經網絡。Hong等人[13]在目標對象的不同實例上構造多個CNN分類器,以在模型更新期間排除噪聲,從二進制樣本中學習2層CNN分類器,不需要預訓練過程。基于卷積特征的相關濾波算法(hierarchical convolutional features for visual tracking,HCF)[14]利用CNN中多個卷積層來提取目標特征,將高層高語義特征與低層高分辨特征進行有效的結合,提高了跟蹤精度。
但由于提取目標的特征不強,會使目標發生丟失、漂移。針對相關濾波不同特征的提取和融合……