李方用
(中國電子科技集團公司第五十四研究所,河北 石家莊 050081)
目標跟蹤技術現有方法大多基于深度學習技術,行人目標跟蹤技術主要包括兩類:單目標跟蹤、多目標跟蹤。單目標跟蹤算法主要通過構建復雜的外觀模型來跟蹤連續幀的單個目標,多目標跟蹤并不僅僅依賴外觀模型,因為在高度擁擠或目標間存在相似外觀的多目標跟蹤場景中,僅依賴外觀模型可能降低算法的效率和準確率。
基于孿生網絡算法的目標跟蹤技術是通過卷積神經網絡對目標與搜索區域的特征進行提取,并分析所提取的目標與搜索區域的特征之間的相關性,在目標相關性響應圖中,響應值最大則說明與目標相關性最強,相關性最強的位置即為目標所在位置。Bertinetto 等人[1]提出全卷積孿生網絡(Siamese fully-convolutional networks,Siam FC)算法,該算法使用全卷積層的輸出作為模板分支與搜索分支的特征。在訓練階段對兩個分支提取的特征進行相關性計算得到響應圖,生成相關性強度分布圖,并將相關性強度圖與標簽進行對比,將得到的誤差回傳至卷積層。在跟蹤階段,卷積層的參數固定不變,在一幀目標位置附近裁剪得到多尺度搜索區域,根據計算得到響應圖中最大響應值的位置即得到目標位置。Siam FC類算法能達到80FPS的跟蹤速度,但是此算法存在的問題在于其不對模板進行更新,因此不能有效的利用視頻中的目標物的特征與信息追蹤特征變化的物體。針對上述問題,Bertinetto等人[2]將相關濾波算法處理成可微網絡層嵌入到模板分支,提出端到端的相關濾波網絡算法(Correlation Filters Network,CFNet),該算法能夠與卷積神經網絡一起得到訓練,實現在線學習,使得模板分支能夠對變化目標提取鑒別能力強的特征。Bertinetto 等人[3]采用相關濾波層對模板分支與搜索域分支特征進行判別,訓練階段利用模型輸出的響應圖與響應圖標簽之間的誤差進行反向傳遞,形成輕量級的卷積神經網絡(Discriminative Correlation Filters Network,DCFNet)算法。DCFNet 算法在跟蹤階段,根據相關濾波層的響應圖確定目標位置。相比于Siam FC 與CFNet 算法,由兩層卷積層和一層相關濾波層組成的DCFNet 算法網絡結構更加簡單,在線更新并進行跟蹤速度能夠達到70 幀每秒的運行速度 。但是DCFNet 算法由于結構過于簡單,其提取的特征難以應對復雜背景環境,其適用性在一定程度上受到了限制。因此訓練抗干擾能力強的目標特征提取神經網絡是亟待解決的問題。LeCun 等人提出LeNet[4],模仿了視覺神經網絡的工作方式,并將其命名為卷積神經網絡。但由于當時硬件條件的限制,神經網絡算法并沒有得到較為廣泛的應用。到2012 年,AlexNet 在 ImageNet 競賽[5]中達到了80%以上的精度,自此卷積神經網絡成為研究熱點。如今,隨著硬件條件的提高以及標記數據處理能力的增強,促進了卷積神經網絡的快速發展,深度學習理論在計算機視覺的眾多領域大放異彩。
運動模型主要目的是捕獲目標的運動行為,學習目標運動的方式。在多目標跟蹤算法中引入運動模型,可以預估目標在后續幀中可能存在的位置,減少了網絡對圖像的搜索空間,相比于僅使用外觀模型的跟蹤算法,基于運動模型與外觀模型的跟蹤算法能夠大幅度提升目標跟蹤算法的準確度。一般情況下,我們把多目標跟蹤按照對數據的處理方式分類為在線跟蹤(online)和離線跟蹤(batch/offline)。在線和離線的主要區別在于,離線跟蹤的方式允許使用未來幀的信息,而在線跟蹤只能使用當前和時間序列之前的幀。雖然實時跟蹤算法是以在線方式運行,但由于計算性能瓶頸的限制,并不是所有在線跟蹤算法都在實時的環境中使用,尤其是在使用深度學習算法的時候。盡管多目標跟蹤有各種各樣的方法,但大多數算法還是包含以下的步驟:首先是檢測階段,目標檢測算法會分析每一個輸入幀,并識別屬于特定類別的對象,給出分類和坐標。第二是特征提取/運動軌跡預測階段,這個階段采用一種或者多種特征提取算法用來提取表觀特征,運動或者交互特征。此外,還可以使用軌跡預測器預測該目標的未來可能在的位置。接下來是相似度計算階段,在此階段表觀特征和運動特征可以被用于計算目標之間的相似性。最后是關聯階段,此階段使用計算得到的相似性作為依據,將屬于同一目標的檢測對象和軌跡關聯起來,并給檢測對象分配和軌跡相同的ID。
實驗步驟說明
首先在實際采集的13 個場景中測試行人跟蹤方法的效果。除了場景的變化因素之外,尺度因素、遮擋因素以及人數密集等問題都會對跟蹤效果產生影響,因此我們需要在不同場景、不同變化因素下對檢測器進行測試。測試步驟如表1 所示:

表1 行人目標跟蹤算法測試步驟
實驗結果介紹說明
將不同場景的典型案例測試結果進行展示,如圖3、圖4 所示:

圖3 場景1 的行人跟蹤效果:(a)、(b)、(c)、(d)分別表示同一視頻中的不同幀,數字表示行人的身份編號,跟蹤任務旨在判斷出各個行人的運動軌跡。

圖4 場景2 的行人跟蹤效果:(a)、(b)、(c)、(d)分別表示同一視頻中的不同幀,數字表示行人的身份編號,跟蹤任務旨在判斷出各個行人的運動軌跡。
結語:本文設計的基于無人機圖像的行人目標跟蹤技術基于優化設計的卷積網絡,對行人特征進行了較好的表達,并利用了外觀相似度、軌跡吻合度對不同時刻物體的關聯性進行評估。本文算法在無人機視角下的圖像中,克服了行人存在尺度、視角及圖像質量的變化,獲得了較好的行人目標跟蹤效果。