孫吉宇
摘要: 本文提出一種新的目標跟蹤架構,該架構由專用的目標估計和分類組件組成。通過廣泛的離線學習將高級知識納入目標估計。訓練目標估計部分以預測目標對象與估計的邊界框之間的重疊。通過仔細整合特定于目標的信息,實現了較高的邊界框精度。進一步引入了一個在線訓練的分類組件,以保證在干擾物存在的情況下具有高辨別力。我們的最終跟蹤框架在五個具有挑戰性的基準測試中設置了最新的先進技術。
關鍵詞:目標跟蹤;研究
中圖分類號:TP391.41文獻標識碼:A文章編號:1672-9129(2020)13-0034-01
1引言
通用的在線視覺跟蹤是一個困難和不適定的問題。跟蹤方法必須在最小監督下在線學習目標的外觀模型,通常是視頻中的單個起始幀。然后,模型需要概括到目標外觀的不可見方面,包括不同的姿勢,視點等。跟蹤問題可以分解為分類任務和估計任務。在前一種情況下,目的是通過將圖像區域分類為前景和背景來穩健地提供圖像中目標的粗略位置。然后,第二個任務是估計目標狀態,通常由邊界框表示。
本文著手彌合目標分類和視覺對象跟蹤估計之間的性能差距。引入了一種新穎的跟蹤架構,包括兩個專門用于目標估計和分類的組件。受最近提出的IoU-Net的啟發,訓練目標估計組件以預測聯合交叉(IoU)重疊,在目標和估計的邊界框之間。由于最初的IoU-Net是特定類別的,因此不適用于通用跟蹤,我們提出了一種新的架構,用于將目標特定信息集成到IoU預測中。我們通過引入基于調制的網絡組件來實現這一點,該網絡組件將目標外觀合并到參考圖像中以獲得目標特定的IoU估計。這進一步使目標估計組件能夠在大規模數據集上離線訓練。在跟蹤期間,通過簡單地最大化每幀中的預測IoU重疊來找到目標邊界框。
2通過重疊最大化的目標評估
在這項工作中,提出了一種新穎的跟蹤方法,包括兩個組成部分:1)離線學習的目標估計模塊;2)在線學習的目標分類模塊。也就是說,按照物體檢測的現代趨勢,我們將目標分類和估計的子問題分開。然而,這兩項任務都集成在統一的多任務網絡架構中。
我們為目標分類和估算任務使用相同的骨干網絡。為簡單起見,我們使用在ImageNet上訓練的ResNet-18模型,并避免在此工作中微調骨干。目標估計由IoU預測器網絡執行。該網絡在大規模視頻跟蹤和物體檢測數據集上離線訓練,并且在線跟蹤期間其權重被凍結。IoU預測器采用四個輸入:1)來自當前幀的主干特征,2)當前幀中的邊界框估計,3)來自參考幀的主干特征,4)參考幀中的目標邊界框。然后,它輸出每個當前幀邊界框估計的預測的聯合交叉(IoU)分數。在跟蹤期間,通過使用梯度上升最大化IoU分數來獲得最終邊界框。
目標分類由另一個神經網絡執行。與目標估計組件不同,分類網絡在在線跟蹤期間被完全學習。它被專門訓練以通過基于從當前幀提取的主干特征預測目標置信度得分來區分目標與場景中的其他對象。訓練和預測都以完全卷積的方式進行,以確保效率和覆蓋范圍。然而,使用傳統方法在線培訓這樣的網絡,例如隨機梯度下降,對于在線目的而言并不是最理想的。因此,我們建議使用基于共軛梯度的優化策略,以實現快速在線學習。
狀態估計組件的目的是在粗略的初始估算下確定目標邊界框。從IoU-Net中獲得啟發,該IoU-Net最近被提出用于對象檢測,作為典型的基于錨定邊界框回歸技術的替代方法。與傳統方法相比,IoU-Net經過訓練可預測圖像對象與物體之間的IoU 輸入邊界框候選。然后通過最大化IoU預測來執行邊界框估計。
網絡架構:為了進行目標檢測,需要為每個對象類別訓練獨立的IoU網絡。但是,在跟蹤目標類別時通常是未知的。此外,與對象檢測不同,目標不需要屬于任何預定義類別集或在任何現有的訓練數據集中表示。因此,特定于類別的IoU預測器很少用于通用視覺跟蹤,而是通過利用第一幀中的目標注釋來要求特定于目標的IoU預測。由于IoU預測任務的高級性質,在單個框架上在線訓練甚至微調IoU-Net都是不可行的。因此,我們認為目標估計網絡需要脫機訓練以學習IoU預測的一般表示。
訓練:可以使用帶邊界框注釋的圖像對以端對端的方式訓練整個IoU預測網絡。使用最近引入的大規模單對象跟蹤(LaSOT)數據集和TrackingNet的訓練方式。我們從視頻中采樣圖像對,最大間隔為50幀。使用來自COCO數據集的合成圖像對來擴充訓練數據,以具有更多不同的類別。在參考圖像中,對以目標為中心的正方形補丁進行采樣,其面積約為目標面積的52倍。從測試圖像中,采樣了一個類似的圖像塊,在位置和比例上有一些干擾,以模擬跟蹤情況。然后將這些裁剪區域調整為固定大小。對于每個圖像對,通過將高斯噪聲添加到地面真實坐標來生成16個候選邊界框,同時確保最小IoU為0:1。使用圖像翻轉和色彩抖動進行數據增強并將IoU歸一化為[-1,1]。
3快速在線學習的目標分類
雖然目標估算模塊提供了準確的邊界框輸出,但是它缺乏可靠地區分目標物體和背景干擾物的能力,因此在估算模塊上增加了第二個網絡頭,其唯一目的是執行這種區分。與估計組件不同,目標分類模塊僅在網上進行培訓,以預測目標置信度得分。由于目標分類模塊的目標是提供對象的大致坐標位置,因此希望它不會改變目標的大小和比例。相反,它應該通過最小化錯誤檢測來強調魯棒性。
4實驗驗證
我們在五個具有挑戰性的跟蹤數據集上介紹了我們的跟蹤器與最新方法的比較。我們對數據集的30 FPS版本進行評估。
5總結
本文提出了一種新穎的跟蹤體系結構,其中包含用于目標估計和分類的組件。估計組件在大規模數據集上進行離線訓練,以預測目標和邊界框估計之間的IoU重疊。分類組件由兩層全卷積網絡頭組成,并使用專用的優化方法進行在線培訓。
參考文獻:
[1]張靜,王文杰.基于多信息融合的多目標跟蹤方法研究[J].計算機測量與控制,2020,28(09):233-237.
[2]孟琭,李誠新.雙特征模型核相關濾波目標跟蹤算法[J].中國圖象圖形學報,2019,24(12):2183-2199.