南京工程學院 陶媛媛
目標跟蹤是計算機視覺領域的作用是舉足輕重的,它在生活的各個領域中都有極其重要的研究價值。然而,大多數目標跟蹤算法由于其只使用離線訓練的方法,一定程度上存在著局限性。故本文將提出一種基于SiamRPN與自適應模板更新的目標跟蹤方法,以SiamRPN算法為基礎進行目標的特征提取,通過利用目標物體在初始模板、累積模板及預測模板的信息以及UpdateNet,并采用了相應的殘差策略,從而得到需要的更新模板,以此來提升算法的魯棒性。
數十年以來,盡管眾多研究者對目標跟蹤中出現的問題進行了持續地理論研究,也得到了對應的可行方案。但是鑒于目標跟蹤過程中復雜的變化特性,想要真正將其廣泛應用于生活中任然需要不斷地對目標跟蹤模型進行優化。目前而言,目標跟蹤面臨幾個問題:形狀及光照變化,快速移動、旋轉、背景模糊、干擾物遮蔽等情況。盡管許多基于孿生網絡的跟蹤算法都表現出了十分優越的性能,但大多數目標跟蹤器總是默認的在選取模板幀時,將目光鎖定在了視頻序列的第一幀,同時在后面的跟蹤過程中不會對模板進行更新。因此,當目標物體受到干擾時得到的預測結果往往會相差甚大。傳統的模板更新策略是線性的,由于目標在每一幀的變化范圍都是不一樣的,線性模板必然是無法使得我們得到理想結果的。故為解決這一問題,本文提出一種基于SiamRPN的一種自適應模板更新機制,使得目標跟蹤的結果較為準確。
SiamRPN是在SiamFC的基礎上加入了區域生成網絡的基于區域生成網絡的目標跟蹤算法。全卷機孿生網絡(SiamFC)是Luca Bertinetto等人提出的最早的Siamese結構,它能夠得到一個較大的搜索圖像,并將之輸入到卷積神經網絡中并求得模板之間的相似度。為使得網絡可以完成分類和回歸任務的聯合跟蹤,SiamRPN在孿生網絡中加入了區域機制(RPN)。RPN利用了一個可變長寬比值的邊界框來預估目標的初始位置,與原始的模型相比,在速度上擁有一定的優勢。
視覺跟蹤的關鍵是神經網絡對于特征的表達能力,而對卷積層進行疊加這個方法,在模型訓練過程中會造成一些梯度消失的難題。傳統的卷積神經網絡在深度增加的情況下,甚至會出現網格退化的問題,為此,在ILSVRC2015競賽成績中突出的深度殘差網絡ResNet-50結構很好地解決了上述問題,并且受到了廣泛的應用。因此在本文中,我們將在SiamRPN的基礎上,利用ResNet50代替AlexNet,同時加入多層融合,從而提高跟蹤精度。
本文以SiamRPN算法為基礎,利用原有的特征提取模型和深度殘差網絡進行對目標的特征提取。首先通過互相關的操作將問題轉為模板匹配的問題,利用一個嵌入式空間來計算出與目標模板匹配的最佳位置。其次利用SiamRPN算法中的區域候選網絡來產生候選目標的范圍并提取特征向量,從而生成回歸邊界的預測框。在對候選邊界框進行篩選時,利用非極大值抑制來確定預定義錨點框,再選出相應錨點框與真實目標框的長寬比例數據,進而對錨點框進行坐標回歸,最后得到最終的預測框。
據上文所述,本文提出了一種自適應模板融合的更新機制。該機制將通過對一個殘差計算函數進行學習從而得到更新模板。該函數利用卷積神經網絡UpdateNet實現,該網絡能夠較好地表達出特征,同時具有較強的學習能力。自適應模板更新網絡將需要三個輸入:視頻序列中第一幀的初始模板、前一幀的累積模板和當前幀的預測模板。殘差計算函數通過集成當前幀來更新上一幀的累積模板。此外,為了提高該函數的魯棒性,還考慮了初始模板,提高了生成的更新模板的可靠性。
首先,對初始幀的真實邊界框信息進行提取得到目標模板特征。其次利用累積模板特征來預測得到當前幀模板的特征,進而得到目標位置,并得到相應的特征信息。在UpdateNet中僅僅使用到了第一幀的真實準確信息,其他的后續輸入都是由目標跟蹤算法預測得到的,故需要采取相應的殘差策略,以便后續更好的跟蹤。處理幀之間的殘差計算模塊中有兩個組卷積層,分別為通道混洗模塊和跳連操作。第一個組卷積層主要提取輸入信號特征信息,并完成降維。通道混洗模塊讓組卷積的輸入和輸出通道處于完全相關的狀態。第二個組卷積層則進一步提取特征信息,并完成升維。
本文采用VOT測試集中的VOT2018。該數據集包含6種視覺屬性:相繼移動、光照變化、目標尺寸變化、目標動作變化和未退化。它的主要評估指標包括準確性(A)、魯棒性(R)以及預期平均重疊率(EAO)。
在進行自適應模板更新的參數設置時,本文僅在LaSOT標準數據集中挑選了20個訓練視頻圖像序列。通過實驗發現,自適應模板更新網絡并不適用于較大的訓練集,附加數據并不會大幅度提升模板更新網絡的性能。自適應模板更新網絡中兩個卷積層的尺寸分別為1×1×1536×192,1×1×192×512。所有的實驗是利用Pytorch進行的,為評估本文算法的性能,對自適應模板更新在相應數據集上進行測試,部分結果如表1所示。

表1 在VOT2018數據集上實驗結果對比
從表1中可以看出,本文提出的目標跟蹤算法具有一定的性能優勢,能夠達到較高的準確性和較低的跟蹤次數,一定程度上證明了算法是可行的。即使在跟蹤速度上不如一些算法,但在跟蹤次數上展現了良好的跟蹤效果。
現如今,大多數基于孿生網絡的目標跟蹤算法對在線模板更新機制的關注較少,僅用視頻序列的第一幀不一定能得到目標處于干擾情況下的預測位置,故利用自適應模板更新策略是有必要的。為解決該問題,本文將目標的初始模板、前一幀的累積模板和預測模板輸入到殘差計算模塊中,通過利用具有可學習的模板更新策略的卷積神經網絡UpdateNet來實現殘差計算函數,從而自適應當前幀的特定更新要求。實驗表明,本文提出的算法雖然在某些指標上不如一些主流的目標跟蹤算法,但在跟蹤丟失次數和準確性上具有一定的提升效果,這也證明了本文算法的可行性。