張麗君, 李建民, 侯 文, 王 潔
(中北大學信息與通信工程學院,太原 030000)
視覺目標跟蹤技術是計算機視覺領域的一個重要研究方向,它廣泛應用于如人機互動、視頻監控和自動駕駛[1]。然而,由于存在諸如目標變形、相似物干擾、目標遮擋等外界因素,以及尺度變化和旋轉等因素,實現高精度、強魯棒性和強實時性的目標跟蹤仍然是一項具有挑戰性的任務[2]。
近年來,基于孿生網絡的方法在目標跟蹤領域比較流行[3-8]。SiamFC[3]是一項開創性的工作,它將特征相似性學習與連體框架相結合,顯著提高了基于深度學習方法的跟蹤器的跟蹤速度。SiamRPN[6]將孿生網絡與RPN[7]結合起來,利用深度相關進行特征融合,獲得了更精確的跟蹤結果。之后,相關深度學習跟蹤器也大多基于此方法進行改進和優化,如增加額外的分支[5]、使用更深的架構[6]和利用無錨的架構[8]等。大多數追蹤器,包括一些流行的在線追蹤器(如ATOM[9]和DiMP[10])都依賴于相關操作。然而,交叉相關操作執行的是局部線性匹配過程,容易陷入局部最優[11]。其次,交叉相關捕獲了關系,但破壞了輸入特征的語義信息,這對準確感知目標邊界是不利的。
Transformer由VASWANI等[12]首次提出并應用于機器翻譯。由于視覺領域的技術發展趨勢[13],以及受到Transformer在自然語言處理(NLP)領域取得巨大成就的啟發[14],文獻[15]將注意力機制與卷積模型相結合,以增強模型的感受野和全局依賴性。之后,RAMACHANDRAN等[16]考慮了注意力是否可以完全取代卷積,提出了一個Stand-Alone自注意力網絡(SANet),與原始基線相比,該網絡在視覺任務上取得了優異的性能。……