在線多類別逐點式多目標跟蹤與分割

2022-10-18 01:02:58譚錦鋼張廣慧

計算機工程與應用 2022年19期

畢鑫，譚錦鋼，張廣慧

1.中國科學院上海微系統與信息技術研究所仿生視覺系統實驗室，上海 200050

2.中國科學院大學，北京 100049

視頻目標跟蹤是計算機視覺領域的一個重要研究任務，在視頻監控、人機交互、自動駕駛等領域有著廣泛應用。目前絕大多數基于深度學習的目標跟蹤算法[1-14]都是聯合目標檢測與數據關聯算法來跟蹤目標，利用目標檢測得到的邊界框識別對象，并估計邊界框在后續幀中的位置，將后續幀通過關聯算法加入到之前幀的運動軌跡中，實現跟蹤的目的，這類算法稱為檢測-跟蹤（tracking-by-detection，TBD）算法。然而，當同一幀里目標過多發生遮擋時，目標之間的邊界框很容易產生重疊，很可能包含來自其他目標的信息多于來自其自身的信息，極大地影響了跟蹤的結果（見圖1）。

圖1 分割掩碼vs.邊界框Fig.1 Segmentations vs. bounding boxes

為了解決這個問題，近兩年有研究[15-18]探索了一項新的任務，該任務被稱為多目標跟蹤與分割（multi-object tracking and segmentation，MOTS），目的是分類、定位、分割、跟蹤整個視頻序列中出現的特定類別的所有實例。這些工作提出了一種新的跟蹤范式，即分割-跟蹤（tracking-by-segmentation，TBS）模式。它改變了以往工作基于邊界框的跟蹤模式，將其細化為基于實例分割掩碼的跟蹤，從對象級到像素級的過渡極大地提高了跟蹤精度。此外，實例分割掩碼精確地描繪了可見對象的邊界，并自然地分隔了相鄰區域，相比于基于邊界框的方法，MOTS 通過像素級分割，激勵網絡學習更具區分性的實例特征，實現了更魯棒的相似性度量。

TrackR-CNN[15]首次提出MOTS 任務，并設計了一個新穎的基準網絡架構和一套完整的評估體系。TrackR-CNN 將3D 卷積集成到MaskR-CNN[19]中，以利用時間上下文信息增強主干網絡特征。因此TrackRCNN需要同時輸入至少3幀的連續幀，網絡難免存在延遲，其速度僅有2 frame/s。同樣，MaskTrackR-CNN[16]在MaskR-CNN基礎上引入了一個新的跟蹤分支，以共同執行檢測，分割和跟蹤任務。TrackR-CNN和MaskTrackRCNN證明了將MaskR-CNN與跟蹤網絡及關聯算法聯合具有重要的研究意義。但是，這些方法均假定MaskRCNN可以有效的生成定位良好的邊界框和準確的分割結果。然而，在高度多樣化和非結構化的視頻中，一方面，跟蹤目標通常會遭受部分甚至完全的遮擋、變形以及姿勢變化；另一方面，在許多情況下目標的外觀相似且難以與凌亂的背景分隔開來。因此，目標檢測很可能沒有正確初始化，從而降低了后續邊界框內預測的分割掩碼的精確度以及鏈接掩碼產生的跟蹤結果的準確性。PointTrack[17]在無候選框的實例分割網絡SpatialEmbedding[20]的基礎上，提出逐點跟蹤的模式，很好地解決了上述問題。然而它只能跟蹤單個語義類別，比如車或者人，這在諸如自動駕駛的實際應用中非常受限。

為了實現快速的多類別多目標跟蹤與分割，本文提出了一種能夠以近實時的速度同時跟蹤多個類別的跟蹤與分割方法。本文的貢獻點總結為：（1）針對MOTS任務，提出了一種新的在線多類別逐點式多目標跟蹤與分割算法（category-free point-wise multi-object tracking and segmentation，CPMOTS），該算法能夠在不影響速度的情況下并行處理多個語義類別，比如人和車，在實際場景中更加實用；（2）引入了一個直觀且有效的注意力模塊來顯式建模通道間的相互依賴關系，進行基于通道的特征重標定，來促進神經網絡自適應地選擇最顯著的特征進行跟蹤；（3）在KITTI MOTS 數據集上的定性和定量實驗表明，所提出的CPMOTS 優于現有的許多相關算法。

1 相關工作

1.1 TBD方法

現有的大部分基于TBD 的算法[1-14，21-22]基本都采用以下四個步驟：（1）目標檢測；（2）特征提取和運動預測；（3）相似度計算；（4）數據關聯。算法性能在很大程度上受限于目標檢測的結果。很多基于圖的方法使用運動信息[5]、多重切割[6]、邊緣提升[7]或可訓練圖神經網絡[8]等來提升網絡性能，這些方法需要昂貴的資源和時間開銷，限制了在線跟蹤的實際應用范圍。還有一類基于外觀驅動的方法，這類方法最常用的是孿生網絡架構[23]，它具有先天的相似度計算優勢。可學習的重識別特征[13]、親和度估計[14]等算法也經常用來提升跟蹤精度。但基于外觀驅動的方法在許多物體互相遮擋的擁擠場景中進行重識別較為困難。

1.2 TBS方法

最近，少量研究開始嘗試用TBS 方法來做跟蹤，TBS方法利用像素級的分割結果能更精確地定位目標，極大地緩解了擁擠場景和模糊背景區域引起的常見外觀問題。文獻[18]提出了一種無模型的多目標跟蹤方法，該方法使用與類別無關的圖像分割方法來跟蹤目標。TrackR-CNN在MaskR-CNN的基礎上添加3D卷積來關聯不同時間的對象身份（ID）。MOTSFusion[24]提出了一種融合2D邊界框檢測、3D邊界框檢測和實例分割結果的MOTS 方法。Ruiz 等人[25]聯合弱監督實例分割與多目標跟蹤，在不需要掩碼標注的情況下實現多目標跟蹤與分割。基于MaskR-CNN，MOTSNet[26]添加了一個掩碼池化層，以提升對象關聯算法的準確度。GMPHD[27]利用分層數據關聯算法和一個簡單的親和度融合模型擴展了高斯混合概率假設密度濾波器。Lin等人[28]提出了一種基于MaskR-CNN的改進變分自編碼器（VAE）結構，一個共享編碼器和三個并行解碼器，產生三個獨立的分支，分別用于預測未來幀、目標檢測框和實例分割掩碼。PointTrack建立了一個新的MOTS數據集，并提出了一個新的跟蹤框架。與先前的工作不同，該方法的實例分割部分使用一階段的SpatialEmbedding方法，避免了常規兩階段方式實現的邊界框預測不準帶來的分割精度低的問題，并且速度上顯著優于MaskRCNN。

2 CPMOTS算法描述

CPMOTS 算法的整體框架如圖2 所示，受Point-Track[8]啟發也采用逐點跟蹤的范式，但與之不同的是，CPMOTS可以并行跟蹤與分割多個語義類別，且保持近實時的速度。此外，CPMOTS采用通道注意力機制實現特征重定向，使網絡能學習到更顯著的特征，提升算法的性能。具體地，CPMOTS首先將單幀圖片輸入到實例分割網絡（spatial embedding）[8]中得到實例分割掩碼。然后，從平面的實例分割掩碼中采樣得到無序的2D 點集合及其初始特征。接著通過多層感知機得到實例嵌入向量，嵌入向量經過通道注意力模塊獲取更具辨別性的特征。最后，通過關聯實例嵌入向量生成MOTS結果。

圖2 CPMOTS網絡架構Fig.2 Network architect of CPMOTS

2.1 多類別逐點式跟蹤網絡

CPMOTS是一個不限類別的跟蹤網絡，從圖3的多類別分割網絡可以看到，整體網絡結構是多分支并行結構，可以同時分割與跟蹤多個類別的目標。每一個類別分支在分割與跟蹤網絡的編碼階段特征共享，在解碼階段拆分成類別獨立的并行分支，因此網絡整體速度很快。在本文中，由于當前數據集只提供車和人兩個語義類別的標注，因此CPMOTS 只能同時跟蹤車和人兩個語義類別。

圖3 CPMOTS的多類別實例分割網絡Fig.3 Multi-category instance segmentation network of CPMOTS

為了使目標定位更加準確，在跟蹤階段，CPMOTS不僅考慮前景特征，也會考慮背景特征。對于一個實例I，它的分割掩碼為Is，最小外切矩形框為Ir。將這個矩形框從上下左右4 個方向用一個尺度縮放參數α(α=0.2) 擴展得到I?r，如圖2 中左下角分割掩碼外側的紅色和綠色矩形框所示。從Is中采樣得到的點集合看作是前景，定義為F。從擴展矩形框I?r中除Is以外的區域采樣得到的點集合看作是背景，定義為B。

中包含背景信息及周圍實例的信息，更有助于網絡辨別假陽性實例，精準跟蹤當前實例。因為有前景背景之分，CPMOTS 在訓練分割網絡時對前景賦予權重wf來提升前景特征提取的能力，并且針對不同的語義類別wf有不同的取值。點集合F和B中每一個點都由6個數據維度組成(x,y,C,R,G,B)，其中(x,y)表示該點在二維圖像中的位置。C指該點所屬的語義類別，本文用獨熱編碼來處理語義類別標簽。(R,G,B)表示該點的顏色信息。

對于每個實例I，CPMOTS 分別從前景點集合F和背景點集合B中隨機均勻地采樣NF(NF=1 500)和NB(NB=750 )個點。通過對圖像平面中NF個點的坐標求平均值可以得到一個實例中心點Q(xcF,ycF)，進而可以計算出每個點相對于Q的偏移量。網絡通過對這些點的位置、類別、顏色以及偏移量四種數據特征進行編碼，生成實例嵌入向量。

2.2 通道注意力模塊

如圖2上半部分所示，當采樣點的各個初始特征分別進行編碼后，為了促使神經網絡自適應地選擇最顯著的特征進行跟蹤，本文使用一個簡單卻高效的注意力模塊來顯式建模特征通道間的依賴關系。與其他大部分在圖像層面操作的注意力模塊不同，本文采用的注意力模塊是對點特征進行操作。考慮到通道層面的信息足以提取顯著性特征以滿足后續的跟蹤，同時鑒于跟蹤任務對于網絡運行效率的要求更高，本文和需要用到空間依賴關系的注意力模塊也不一樣，僅利用通道信息，采用特征重標定的策略，用學習的方式來自動獲取每個特征通道的重要程度，以達到強化有用特征的目的。

具體來說，對于NF個采樣點，特征為P=[p1,p2,…,pNF]，P∈?NF×c。為了獲得一個全局接收域，注意力模塊首先使用沿空間維度的全局平均池化來生成通道統計信息，此時輸出為oc∈?1×c：

該過程能夠強化重要程度較高的特征通道，抑制重要程度較低的特征通道。這個過程被稱為通道層面的原始特征重標定。

2.3 跟蹤網絡損失函數

CPMOTS 的目標輸出包含實例分割掩碼和相應的跟蹤ID。本文對于每一個待跟蹤的實例，不是像其他方法一樣都是從連續幀中選擇，而是從其軌跡中隨機選擇一幀作為中間幀，然后從其前后10 幀的范圍內各隨機選擇一幀作為前后幀。這樣引入隨機的方法可以增加每個實例軌跡內的差異性，得到更泛化的跟蹤結果。本文通過基于距離閾值δ的Triplet Loss[29]來訓練跟蹤網絡，跟蹤的損失函數定義為：

其中，Ei表示第i個實例的嵌入向量集合（一共三幀），ei、e′i分別表示其中任意不同兩幀的嵌入向量；I表示當前批次訓練數據中待跟蹤的所有實例；δ是為了防止過擬合而引入的閾值，默認值為0.2。從上式可以看出，該損失函數的目標是最小化相同實例對應的嵌入向量間的距離，同時最大化不同實例的嵌入向量之間的距離。最終，在嵌入空間中同一實例的嵌入向量會更相似，在后續實例關聯時的匹配度更高。而不同實例的嵌入向量會更不同，在實例關聯時可以降低匹配錯誤率。CPMOTS采用常用的匈牙利算法[30]做實例匹配，基于相似度做關聯輸出最終的跟蹤結果。

3 實驗結果及分析

3.1 數據集

KITTI MOTS 是最常用的用于多目標跟蹤與分割的基準數據集。該數據集中的視頻均來自于車載相機，訓練集總共包含21 個視頻序列，對應21 個不同的真實場景，分為12個訓練序列和9個驗證序列，一共有8 008幀圖像，其中標注了26 899 輛車和11 420 個行人，目標在幀間有一致的ID和實例標簽。測試集一共包含29個視頻序列，對應29 個不同的真實場景。本文在KITTI MOTS[8]數據集上對提出的CPMOTS算法進行了大量的實驗來驗證算法的有效性。

3.2 評價標準

MOTS的評價標準是由TrackR-CNN基于多目標跟蹤系統的標準評價措施CLEAR MOT[31]擴展得到的，主要是用多目標跟蹤與分割準確度（multi-object tracking and segmentation accuracy，MOTSA）及其soft 版本（soft multi-object tracking and segmentation accuracy，sMOTSA），以及多目標跟蹤與分割精度（multi-object tracking and segmentation precision，MOTSP）來評估。

形式上，具有T個時間幀，高度h和寬度w的視頻的標注真值由N個標注的分割掩碼M={m1,m2,…,mN}組成，其中mi∈{0,1}h×w，每個掩碼對應一個唯一的實例ID，但每個實例ID可能對應多個掩碼。對應地，網絡的輸出結果是K個預測掩碼H={h1,h2,…,hK} ，其中hi∈{0,1}h×w，每個預測掩碼也分配給一個實例ID。每個前景像素被唯一地分配給標注掩碼中某一個實例，而在預測掩碼中至多分配給一個實例。因此，對于給定的標注掩碼，至多存在一個預測掩碼與之交并比（intersection-over-union，IoU）大于0.5。于是，從預測掩碼到標注掩碼的映射c:H→M∪{? } 可以簡單地使用基于掩碼的IoU定義為：

sMOTSA 累計的是TP?（正確預測的掩碼的IoU 值之和），而不是TP（正確預測的掩碼數量），因此它能同時衡量分割檢測和跟蹤的質量。

3.3 實驗環境和參數設置

本文算法使用Python語言在Ubuntu16.04系統上用Pytorch框架進行實驗，實驗環境如表1所示。盡管本實驗所用設備顯存為24 GB，但在推理時分割階段只需要0.9 GB，跟蹤階段只需要1.5 GB 的顯存大小，對硬件的要求不高。

表1 實驗環境Table 1 Experimental environment

和之前的工作[15，17]一樣，由于KITTI MOTS 中訓練數據集有限，CPMOTS 先在KINS 數據集上預訓練實例分割網絡，一共訓練180 輪，此時的輸入是被裁剪之后的圖，車和人的前景權重wf分別設置為10 和20。隨后，分割網絡在KITTIMOTS 上微調，以5×10-6的學習率再訓練100 輪，由于此時輸入的是未被裁剪的原圖，車和人的前景權重wf分別設置為230和250，跟蹤階段以2×10-3的學習率訓練50 輪，損失函數中距離閾值δ設置為0.2。

3.4 KITTI MOTS數據集結果

如表2 所示，本文在KITTI MOTS 驗證集上與MOTS 之前的一些相關工作進行了對比：TrackRCNN[15]、MaskTrack R-CNN[16]、CAMOT[18]、MOTSNet[26]、GMPHD[27]、VAE[28]、CIWT[32]、BePixels[33]以及根據作者提供的代碼和方法訓練的PointTrack[17]（表中PointTrack-U）。本文著重關注sMOTSA 和IDS 兩個指標，因為它們能直接反映出跟蹤和分割的精度與算法的魯棒性。表2數據顯示，本文提出的CPMOTS算法性能優于之前發表的工作中同時跟蹤人和車的大多數算法，比如TrackR-CNN 和MOTSNet。從表中可以發現，GMPHD和PointTrack 等算法在性能上優于本文方法，究其原因是因為這些方法只同時跟蹤一個語義類別，可以使得網絡聚焦于學習該類別的專屬特征，因此其性能理論上會優于本文提出的多類別算法CPMOTS。

表2 KITTI MOTS驗證集不同網絡對比結果Table 2 Comparison results of different networks in KITTI MOTS validation set

如表3 是CPMOTS 上傳到KITTI MOTS 測試集上得到的結果，驗證集中大部分方法沒有上傳到測試集，但與TrackR-CNN和MOTSNet結果對比可以看到，本文提出的CPMOTS 算法在各項指標上都有明顯的提升，尤其是sMOTSA 和IDS 兩個最重要的指標。相對于TrackR-CNN 算法，sMOTSA 在車和人上分別提升了5.8%和11.2%，而IDS則分別大幅減少了289和272。對比MOTSNet算法，sMOTSA在車和人上分別提升了1.8%和9.8%，而IDS則分別減少了25和64。此外，CPMOTS保持了16 frame/s 的在線速度，充分證明了CPMOTS 算法的魯棒性和實用性。

表3 KITTI MOTS測試集不同網絡對比結果Table 3 Comparison results of different networks in KITTI MOTS test set

圖4 可視化了CPMOTS 和其他兩種典型方法在KITTI MOTS數據集上的效果，圖中選取了3種不同的問題場景，箭頭標注了重點目標，不同方法用不同顏色標出。在光照變化、完全遮擋、尺度變化等不利因素下，對比其他方法，CPMOTS依然可以準確定位目標并保持ID不變，證明了算法的魯棒性。由于PointTrack是單類別算法，因此每種場景有兩行圖像：第一行是車，第二行是人。第一個場景顯示在數次完全被遮擋的情況下，CPMOTS不僅依然能識別目標，而且全程保持ID不變，而TrackRCNN 在第三幀出現了ID 變換。盡管Point-Track可以準確地跟蹤車并保持ID不變，可是從第四行可以看出，它全程將交通指示牌誤檢成人，誤檢率較高。第二個場景展示了在光照變化、尺度變化等不利因素下，CPMOTS 依然能準確的跟蹤目標，其他兩種方法都出現了丟包現象。第三個場景表明在多個語義類別同時存在的擁擠場景中，即使存在完全遮擋、尺度變化、光照變化等不利條件，CPMOTS 依然可以準確跟蹤與分割每一個目標，并始終保持ID 不變，而TrackRCNN和PointTrack 不僅無法識別出騎自行車的人，在多次行人遮擋之后，4 輛車的ID 也發生了改變。在KITTI MOTS 數據集上的定性和定量實驗充分證明了本文提出的CPMOTS算法具有良好的性能以及對不同場景的適應能力。

圖4 不同方法在KITTI MOTS上的可視化結果Fig.4 Visualization results on KITTI MOTS of different methods

3.5 消融實驗

為了驗證通道注意力模塊和各個超參數設置對于CPMOTS 算法性能的影響，本文進行了大量的消融實驗，如表4所示。依次修改注意力模塊（Attention）、損失函數中的距離參數δ（Margin）以及分割網絡微調時的前景權重（Weight，第一列項是車第二列項是人），在實驗中發現此時的前景權重對于結果的影響比其他時刻大很多。當修改其中一項時，另外兩項保持不變。從表4 可以看到，CPMOTS 在搭載注意力模塊的基礎上，損失函數的距離參數設為0.2，分割網絡微調時車和人的前景權重分別設為230 和250 時，性能最佳。當未搭載注意力模塊時，算法性能出現大幅度的下降，說明注意力模塊對于CPMOTS算法性能的提升有很大作用。

表4 不同參數對性能的影響Table 4 Impact of different parameters on performance

從圖5的可視化結果也可看出，本文的注意力模塊能夠對不同的通道特征進行選擇，去強化重要程度較高的特征，抑制重要程度較低的特征。圖中越重要的特征通道顏色越亮，越不重要的特征通道顏色越暗，證明了注意力模塊的有效性。當選取不同距離參數時，算法表現差異略有下降。相比之下，當改變前景權重時，算法會出現較大的性能下降。這種表現差異表明，CPMOTS更多地關注目標的外觀特征和環境特征，對于損失函數中距離邊距的依賴較小。

圖5 經過注意力模塊的通道特征可視化結果Fig.5 Visualization result of channel feature through attention module

為了計算背景特征所需的運算復雜度，本文還做了一個對比實驗，對比去掉背景特征前后所需的時間以及顯存大小。實驗結果表明，去掉背景特征之后，跟蹤時每張圖片處理速度提升0.006 8 s，而顯存僅釋放6兆，說明背景特征所需的運算復雜度不太高。

4 結語

本文針對多目標跟蹤與分割任務，提出了一個快速的基于注意力模塊的多類別逐點式跟蹤與分割算法CPMOTS。在KITTI MOTS 數據集的評估結果表明，CPMOTS 算法在速度與精度的綜合對比中優于之前的許多算法。盡管本文的算法在部分性能上略低于一些單類別算法，但相對于單類別算法，CPMOTS 能夠并行地跟蹤與分割多個語義類別，且在1 242×375 的圖像上達到近實時（16 frame/s）的速度，更適用于真實場景。未來的研究方向將側重于提高CPMOTS 的速度，使其達到實時，進而可以應用在更多的實際場景。