錢瀧



摘要:多目標跟蹤任務的目的,是對圖像序列中不同的目標設置不同的編號(ID),最終得到不同目標的運動軌跡。本文針對跟蹤過程中目標ID極易變化的現象,提出了一種新的在線多目標跟蹤算法。算法主要包含三個步驟:輸入預處理、特征提取和數據關聯。其中預處理步驟使用NMS算法對輸入的檢測結果進行篩選;特征提取步驟使用密集連接的特征提取網絡對目標進行外觀特征的提取,輸出特征向量矩陣;數據關聯步驟則使用級聯匹配的方式,依據目標的位置信息和外觀特征信息為其分配各自的ID。此外,該文還整理了一個具有挑戰性的無人機場景下的多目標跟蹤測試集。實驗結果表明,該方法有效地減少了錯誤的目標ID變化,提高了多目標跟蹤算法面對復雜場景時的精度,并保持較快的運行速度。
關鍵詞:多目標跟蹤;ID變化;密集連接;級聯匹配
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)02-0007-05
Abstract: The main purpose of the multi-target tracking task is to set different identity numbers (ID) for different objects in an image sequence, and finally get the motion trajectories of different targets. Aiming at the phenomenon that the target ID is easy to change in the tracking process, this paper proposes a new online multi-target tracking algorithm. The algorithm consists of three steps: input preprocessing, feature extraction and data association. In the preprocessing step, the NMS algorithm is used to filter the input detection results; in the feature extraction step, a dense connection feature extraction network is used to extract the appearance features of the target, and the feature vector matrix is output; in the data association step, the corresponding ID is assigned according to the location information and appearance feature information of the target. On the other hand, we propose challenging multiple people tracking test set for UAV scenarios. The experimental results show that this method can effectively reduce the error of target ID changes, improve the accuracy of multi-target tracking algorithms in complex scenes, and maintain a fast running speed.
Key words: multi-object tracking; ID switches; dense connection; cascade matching
1 背景
多目標跟蹤是視覺跟蹤領域的研究熱點之一,數十年來得到了中外學者的廣泛研究并取得了顯著的成果。借助目標檢測算法的發展[1-2]和行人再識別技術的革新[3-4],基于檢測的多目標跟蹤算法已經成為當下目標跟蹤的主流方法。在車輛導航、智能監控、人機交互、人群計數等領域都展現了重要的應用價值。然而,受制于真實場景的復雜性,例如遮擋、光照變化、尺度變化以及相機運動等因素的存在,如何保持跟蹤算法的準確性和魯棒性仍然被認為是一項具有挑戰性的任務。
多目標跟蹤可以視為一個跨幀的數據關聯任務,將位于不同視頻幀的檢測目標按照相似程度進行配對。依據關聯方式的不同,常用的檢測跟蹤算法可分為在線(逐幀)和離線(逐批)兩種。在線模式的跟蹤算法與視頻序列的播放同步運行,并實時輸出跟蹤結果。這種跟蹤算法首先通過提取每幀的檢測結果,生成包含跟蹤目標信息的特征向量,然后依據提取到的特征對目標進行跨幀的數據關聯?;谂幚淼母櫰骺梢允褂脕碜晕磥韼男畔韼椭鷾p少檢測噪聲,同時對整個視頻序列使用全局優化。雖然批處理算法較為容易獲得魯棒的跟蹤結果,但其運行工作量巨大,不能滿足實時跟蹤的需要。我們的工作重點是在線模式的跟蹤,因為它具有巨大的工業實用價值和發展潛力。
近年來,研究者們大多致力于獲得更為準確的檢測結果,以改進檢測的方式來改進跟蹤算法。但在實際應用中,大量跟蹤失敗的原因并非是出現了漏檢或誤檢,而是無法從檢測結果中提取到有價值的特征信息。因此,我們通過提升特征提取網絡的性能,以獲得描述更豐富、區分度更高的目標特征,以此來改善數據關聯的效果。另一方面,度量是衡量目標特征相似程度的規則,現有的度量方法難以應對越來越復雜的跟蹤場景所帶來的挑戰,例如常用的IOU距離度量在目標較小、間距較近的無人機場景下所能輸出的區分度很低,容易產生歧義進而導致關聯錯誤。我們通過對實驗反饋的研究分析,對關聯過程中常用的余弦相似度和IOU距離度量進行了改進。為了檢驗所做改進的效果,我們按照MOT Challenge提供的benchmark為本實驗標注和整理了一個具有挑戰性的無人機觀測場景數據集。
2 相關技術研究
在方法論的改進[5-8]和新的基準數據集的提出[9]的共同推動下,多目標跟蹤在過去十年中在速度和精度上都有了很大的提高[10-11]。在這一部分,我們簡要介紹幾種側重不同方向的跟蹤算法和當下多目標跟蹤的發展方向。
Bergmann等人[12]強調目標檢測在跟蹤中的價值。他們使用目標檢測器的檢測框來預測下一幀中目標的位置。這種將檢測器轉換為跟蹤器的方法簡單且高效,在不針對跟蹤數據進行訓練的情況下取得了良好的跟蹤效果。實驗結果表明,目標檢測在處理難以通過濾波算法和行人的再識別技術來解決的相似性問題上具有很大的潛力。這也為我們的算法研究提供了信心。
Li W等人[13]根據噪聲的來源不同而應用不同的優化策略。使用光流網絡解決相機運動問題,并利用輔助跟蹤器來處理丟失的檢測問題。此外,作者還同時使用外觀和運動信息來提高匹配質量。最終作者在VisDrone2019公共數據集中取得了優異的成績。實驗表明,根據其應用場景的特點將復雜問題分解為多個子問題的策略[14]可以有效地提高網絡的性能。比如顏色特征具有較好的抵抗目標形變的能力,但它難以描述目標的空間結構,且對光照過于敏感。運動特征可以在目標被遮擋后幫助恢復目標的跟蹤信息,但是隨著時間延長,運動模型會由于誤差積累而逐漸發散,難以保持長時間的穩定性。孤立地使用某一種運動或表觀信息都不能理想地解決多目標跟蹤問題,必須結合使用場景和目標特點綜合考慮跟蹤算法的設計方案。
Sort[15]和Deepsort[16]是實時輕量化多目標跟蹤算法的杰出代表。Sort主要關注目標的運動信息,將卡爾曼濾波算法應用于目標位置的預測,并采用匈牙利算法對幀間目標進行關聯。這種簡單而巧妙的設計使它能夠以200 fps的速度運行,但它在跟蹤的精度方面表現不佳。Deepsort在Sort的基礎上進行了改進,通過在匹配過程中引入深度關聯度量,大大地減少了身份切換次數,提高了跟蹤精度,并保持著較快的速度。Deepsort為后來的多目標跟蹤提供了一個簡潔可行的數據關聯方案,同時具有很高的可拓展性。本著Deepsort的思想,我們改進了其級聯匹配模塊的度量方法和ID的分配方式,并將其應用到我們的跟蹤算法中。
3 設計方案
3.1 整體架構
如圖1所示,算法與視頻序列的播放同步進行,實時輸入檢測與跟蹤的結果,直到視頻播放結束。由于相似的檢測內容會導致數據關聯中向量之間區分度的降低,最終導致誤跟蹤和ID變化的產生。因此,我們首先使用NMS算法對輸入進行過濾,減少冗余檢測框對跟蹤的干擾。特征提取的目的是從輸入的檢測信息中收集和整合我們想要的特征信息并將它們構建為特征矩陣,以便作為后續匹配的依據。生成的特征矩陣在下一幀視頻序列播放時被傳入數據關聯。在數據關聯階段,我們依據目標的運動信息、外觀信息將已知的目標與當前幀內的目標進行配對。如果當前幀出現了無法與已知目標配對的目標,則將其視作誕生了一個新目標。
3.2 特征提取網絡
由于我們無法直接利用目標檢測結果的邊界框構建跨幀的關聯,必須依賴框內的特征信息作為檢測與關聯之間的橋梁,因此特征提取網絡決定著數據關聯的結果。如果不能正確的從檢測信息中提取到目標的特征,即便我們正確檢測到了目標并且使用了合理的數據關聯算法,也無法跟蹤到目標。
多目標跟蹤的目標多為群體相似度較高的動態目標,如車輛和人群,普通架構的特征提取網絡很難做到性能和速度的兼顧。針對以上問題,我們基于DenseNet[17]所提出的架構思想,設計了一種基于密集連接的特征提取網絡。與廣泛使用的ResNet[18]相比,在網絡層之間建立了緊密的連接,并通過在通道上連接特征來實現特征重用,有很好的抗過擬合能力。經過大量的實驗對比,我們發現在規模較小的ReID數據集上訓練時,基于Dense連接的網絡更容易收斂,在運行時也能夠提取更充分的特征。
3.3 數據關聯
數據關聯算法是多目標跟蹤網絡的主要組成部分,它負責對檢測到的目標和軌跡進行匹配,并為匹配成功的目標分配ID。我們沿用Deepsort所提出的級聯匹配策略來判斷目標的身份,首先使用卡爾曼濾波依據目標在上一幀的位置信息預測目標在當前幀可能出現的位置即目標的軌跡,然后通過比較目標與預測軌跡所處坐標位置之間的馬氏距離和外觀特征之間的相似程度來判定它們是否匹配,然后對未匹配的目標和軌跡進行基于IOU的匹配。
在級聯匹配的第一個階段,Deepsort通過計算目標的外觀特征向量之間的余弦相似度來衡量它們的相似性,這種方法簡單高效,但會帶來一定的風險。余弦相似度衡量的是向量間的夾角大小,夾角越小相似性越高。其更多地關注向量在方向上的一致性,并不考慮向量本身的量綱和模的大小,且無法處理向量維度缺失的問題。我們假設向量組A = {a1, a2, a3,...,an},B = {b1, b2, b3,...,bn}可得余弦相似度的計算公式為:
如圖2所示:依據余弦相似度的定義,只要保證夾角α大于夾角β就可以恒滿足向量b與向量c 更為相似,即便它和向量a的模相等而向量c的模明顯更大。
我們使用皮爾森系數來代替余弦相似度。皮爾森系數對參與比較的向量分別進行中心化處理,消除了量綱對比較結果的影響,不僅反映了向量在方向上的差異,同時也反映了向量各維在值上的差異,相比余弦相似度更為契合實際情況的需求。我們經過實驗測試,將皮爾森系數閾值置為0.7。其計算公式如下:
在一輪級聯數據關聯結束時,對匹配失敗的軌跡和生存時間為1幀的未匹配軌跡進行GIoU匹配,以此作為匹配過程的補救。如果在跟蹤的最開始階段,此時視野中原無軌跡存在,則只用GIoU匹配對所有目標和新軌跡進行匹配,閾值為0.8。
如圖3所示,假設A為檢測框,B為預測框,[i=1nSi]。為包含A、B的最小閉包與[A∪B]面積的差值。圖中的兩種典型的重疊方式下的IoU數值同為0.33。但GIoU數值并不相同,左側GIoU數值為0.23,右側數值為0.33,兩者有較大的區分。由此可見,與原始IoU相比,GIoU能夠更準確地反映了檢測框與預測框的符合程度。
我們關注那些沒有成功匹配的軌跡。如果它們在接下來的30個連續幀中依然與任意目標都不匹配,我們可以認為該軌跡和關聯的目標已離開視野,不再考慮該軌跡的匹配。
4 實驗
在這一部分中,我們將詳細介紹完整的實驗過程并展開對實驗結果的分析。
4.1 實驗準備
4.1.2 模型訓練
為了滿足實時跟蹤網絡對速度的要求,我們設計了一個較短的密集連接的特征提取網絡,并選擇在1塊1080ti顯卡上進行訓練。如表1所示,4個網絡塊組成,每個網絡塊有6、16、24和16層,激活函數為elu,學習率為1e-3,并輸出128維向量。在MARS數據集[19]上的訓練曲線如圖4所示,縱軸代表損失函數的數值值,橫軸代表訓練次數。折線部分是放大后損失函數的波動情況。較平滑的為損失函數的擬合曲線??梢钥闯?,經過30萬次訓練后,損失趨于穩定,40萬次訓練后,損失趨于收斂。該網絡速度完全滿足實時性要求,并有很高的精度。
4.1.3 數據集
為了評估跟蹤算法的性能,我們整理了一個具有挑戰性的多目標跟蹤測試集UAV_MOT。此測試集包含7組在無人機視野下的場景中捕獲的視頻序列,并全部按照MOT Challenge的格式進行標注。其中2組選自VisDrone2020挑戰賽比賽數據集,1組選自于MOT16數據集,剩余4組由我們使用無人機實地進行拍攝。該數據集場景復雜,目標較小且遮擋頻繁,很適合用于跟蹤算法性能的測試。
4.2 對比測試
在UAV_MOT測試集上我們進行了多組對比測試,用以驗證我們的特征提取網絡的有效性與變更度量標準所帶來的改進。為避免檢測結果的優劣對實驗造成影響,我們使用YOLOV3作為公共的檢測器,以保證所有實驗組合使用相同的輸入。算法的輸出按照MOT Challenge提供的基準進行評估,其結果如表2所示。同時,我們還展示了可視化的實驗效果,如圖5所示,奇數行為Deepsort輸出,偶數行為我們的算法輸出。
4.3 實驗結果與分析
4.3.1 評估標準
我們嚴格按照MOT Challenge的評估標準對實驗結果進行分析,部分關鍵指標如下:
MOTA:跟蹤準確度,綜合IDs、誤報率(FP)和漏報(FN)的整體跟蹤精度,是評價跟蹤算法最重要的性能指標。
MOTP:跟蹤精度,指標注的信息與實際預測的包圍框的匹配程度。
IDF1:綜合考慮目標ID的準確率和召回率的指標。
IDs:身份變化數量,指目標的ID編號總共發生了多少次變化。
4.3.2 結果分析
首先對實驗進行定量的分析。如表2第2行所示,更換dense特征提取網絡后算法的主要指標均有所上升,說明在特征提取上的改進是有效的。如表2第3行所示,更換了特征提取網絡和關聯度量之后,算法性能進一步提升,在MOTA上提高了5.2個百分點,在ID變化上減少了112(約為13%)。
我們的算法在可視化效果也有明顯的提升。如圖5第1、第2行所示,6號目標在被幾乎完全遮擋后我們的算法仍可恢復其ID,但是在Deepsort的輸出中其ID變更為9。如圖5第3、第4行所示,在經過人群后,我們的1、2、3號目標ID都保持穩定,但Deepsort中多數ID都已發生變化。以上結果證明了我們的算法在目標小、干擾多的復雜場景下可以保持較為穩定的跟蹤性能以及更高的跟蹤精度。此外,我們的跟蹤算法具有較低的復雜度和較快的速度。
5 論文總結
本文提出了一種基于密集連接網絡的輕量級多目標跟蹤算法,能夠有效地抑制多目標跟蹤任務中身份數目的異常增長,減輕相似目標之間的相互干擾。我們通過使用密集連接的方式訓練和設計特征提取網絡,相比傳統的ResNet而言更為高效,在輸出維度相同的情況下可以輸出區分度更高的目標特征。同時,還采用了改進的級聯匹配模塊對跟蹤目標和軌跡進行匹配。在UAV_MOT數據集上的實驗表明,該方法有效地減少了身份切換次數,具有更高的跟蹤準確度和穩定性。
參考文獻:
[1] Lin T Y, Dollár P, Girshick R,et al. Feature pyramid networks for object detection[C].Computer Vision and Pattern Recognition(CVPR), 2017:936-944.
[2] Li T C,de la Prieta Pintado F,Corchado J M,et al.Multi-source homogeneous data clustering for multi-target detection from cluttered background with misdetection[J].Applied Soft Computing,2017,60:436-446.
[3] Wu D,Zheng S J,Yuan C A,et al.A deep model with combined losses for person re-identification[J].Cognitive Systems Research,2019,54:74-82.
[4] Choe C,Choe G,Wang T J,et al.Deep feature learning with mixed distance maximization for person Re-identification[J].Multimedia Tools and Applications,2019,78(19):27719-27741.
[5] Alahi A, Goel K, Ramanathan V,et al.Social lstm: Human trajectory prediction in crowded spaces[C].IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016:961-971.
[6] Luo W, Xing J, Zhang X,et al.Multiple object tracking: A literature review[C].Eprint Arxiv, 2017.
[7] Xiang Y, Alah A, Savarese S.Learning to track: Online multi-object tracking by decision making[C].Proceedings of the IEEE international conference on computer vision, 2015:4705-4713.
[8] Fagot-bouquet L, Audigier R, Dhome Y,et al.Collaboration and spatialization for an efficient multi-person tracking via sparse representations[C].IEEE International Conference on Advanced Video(AVSS), 2015:1-6.
[9] Milan A,Leal-Taixe L,Reid I,et al.MOT16:a benchmark for multi-object tracking[EB/OL].[2020-08-18].https://arxiv.org/abs/1603.00831.
[10] Riahi D,Bilodeau G A.Online multi-object tracking by detection based on generative appearance models[J].Computer Vision and Image Understanding,2016,152:88-102.
[11] Sadeghian A, Alahi A, Savarese S.Tracking the untrackable: Learning to track multiple cues with long-term dependencies[C].IEEE International Conference on Computer Vision (ICCV), 2017:300-311.
[12] Bergmann P, Meinhardt T, Leal-Taixe L.Tracking without bells and whistles[C].IEEE/CVF International Conference on Computer Vision (ICCV), 2019:941-951.
[13] Li Weiqiang,Mu Jiatong,Liu Guizhong.Multiple Object Tracking with Motion and Appearance Cues[C].IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), 2019:161-169.
[14] Jiang N,Bai S C,Xu Y,et al.Online inter-camera trajectory association exploiting person Re-identification and camera topology[C]//2018 ACM Multimedia Conference on Multimedia Conference - MM '18.October 15-26,2018.Seoul,Republic of Korea.New York:ACM Press,2018:1457-1465.
[15] Bewley A, Ge Z, Ott L, Ramos F,et al.Simple online and realtime tracking[C].IEEE International Conference on Image Processing (ICIP), 2016:3464-3468.
[16] Wojke N, Bewley A, Paulus D.Simple online and realtime tracking with a deep association metric[C].IEEE International Conference on Image Processing(ICIP), 2017:3645-3649.
[17] Huang G, Liu Z, Van Der Maaten L,et al. Densely Connected Convolutional Networks[C].Computer Vision and Pattern Recognition(CVPR), 2017:2261-2269.
[18] HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition[C].Computer Vision and Pattern Recognition(CVPR), 2016:770-778.
[19] Zheng L,Bie Z,Sun Y F,et al.MARS:a video benchmark for large-scale person Re-identification[C].Computer Vision - ECCV 2016,2016.
【通聯編輯:謝媛媛】