翁培欣,吳林煌,蘇 喆
(福州大學 先進制造學院,福建 泉州 362200)
多目標跟蹤技術[1]涉及檢測和估計視頻流中多個目標的時空軌跡,是許多應用的基本問題。目前,檢測跟蹤已經成為多目標跟蹤(Multiple Object Tracking,MOT)任務中最有效的范例。這種技術模型包含目標檢測和跟蹤兩個步驟。跟蹤步驟通常包含兩個主要部分:一是使用運動模型和狀態估計預測后續幀中軌跡的邊界框,二是將新的幀檢測與當前一組軌道相關聯。
隨著人工智能和計算機硬件性能的提升,基于卷積神經網絡的深度學習在計算機視覺[2]領域顯著成功,尤其在多目標跟蹤方面。多目標跟蹤任務致力于在給定視頻中同時檢測和定位多個目標,并維持目標標識的穩定性和軌跡記錄。對于車輛跟蹤,在視頻監控、智能交通和軍事制導等領域具有重要的應用。
在深度學習興起之前,目標跟蹤領域主要集中于單目標跟蹤,多目標跟蹤研究較為有限。傳統的多目標跟蹤算法包括聯合概率數據關聯濾波、多假設跟蹤和條件隨機場等方法。這些算法在一定程度上解決了多目標跟蹤問題,但在目標數量較多時會面臨多目標跟蹤失敗的挑戰。
近年來,基于卷積神經網絡[3]的目標檢測器準確性和效率不斷提高,直接推動多目標跟蹤取得重大突破。一些跟蹤算法如SORT[4](Simple Online and Realtime Tracking,SORT)、DeepSort[5]和OCSORT[6]在多目標跟蹤領域取得顯著成果。這些算法利用卷積神經網絡檢測目標,并采用不同策略如卡爾曼濾波、重識別特征[7]和分層數據關聯等進行目標關聯,從而提高多目標跟蹤的準確性和健壯性。然而,目前這些算法存在一些局限,如恒速模型假設下的卡爾曼濾波器[8]的使用、無法準確預測邊界框形狀和目標相互遮擋所導致的目標丟失等問題。
為了解決這些問題,本文提出一種新的跟蹤器,首先針對卡爾曼濾波預測的目標邊界框與實際對象的邊界框存在較大偏差以及目標在長期遮擋下導致行人目標跟蹤丟失的問題,采用擴展卡爾曼濾波[9]替換ByteTrack 算法中的卡爾曼濾波,并直接將目標邊界框的寬度和高度作為擴展卡爾曼濾波器的待預測狀態。其次,使用C-BMIoU 作為跟蹤器的匹配規則,從而改進被遮擋目標的跟蹤效果。
目標跟蹤任務中,通常使用檢測器來定位和識別目標。然而,傳統的多目標跟蹤算法通常關注高分數的檢測結果,而忽略了一些低分數的檢測框,導致目標丟失和軌跡碎片化的問題出現。為了解決這個問題,ByteTrack[10]算法利用了所有的檢測框,并通過多次匹配來提高跟蹤的精度。
ByteTrack 算法首先根據檢測器的輸出得到一系列的邊界框和相應的檢測分數。然后,算法利用卡爾曼濾波來預測目標的位置和速度。通過匈牙利算法[11]優先匹配高分數的檢測框和已有的軌跡,再匹配低分數的檢測框和剩余的軌跡。匹配過程中,ByteTrack 算法還使用了與之前軌跡的相似度比較來恢復真實目標并過濾掉背景干擾,具體流程如圖1 所示。

圖1 ByteTrack 算法的流程圖
本文采用的目標檢測器是YOLOv8。YOLOv8[12]是一個全新的SOTA(State-of-the-Art)模型,結合了目標檢測和實例分割。模型提供了P5 640 和P6 1280 分辨率的目標檢測網絡,并基于YOLACT 實現了實例分割功能。與YOLOv5 相似,YOLOv8 還提供了不同尺度(N/S/M/L/X)的模型,以適應不同場景。在網絡結構方面,YOLOv8 采用了YOLOv7 ELAN 的設計思想,采用C2f 結構替代了YOLOv5的C3 結構,提升了梯度流的豐富度。同時,解耦頭結構將分類和檢測頭分離,并使用無Anchor 的方式進行檢測。在損失函數方面,YOLOv8 引入了Task-Aligned Assigner 正負樣本匹配方式,并應用DFL(Distribution Focal Loss)行優化。這些改進使得模型的性能得到了提升。此外,在訓練過程中,YOLOv8 采用了YOLOX 的策略,通過關閉Mosiac增強來提高精度。總之,它可以滿足不同場景的需求,并具備更高的準確性。
BYTE[10]的輸入有視頻片段V、檢測器D、卡爾曼濾波器KF,設置Thigh、Tlow、E共3 個閾值。前兩個為檢測分數閾值,后一個為跟蹤分數閾值。BYTE的輸出為視頻的軌跡T,每個軌跡包含目標的檢測框和ID。對于視頻中的每一幀圖像,使用檢測器預測其檢測框和分數。然后把所得到的檢測框按照置信度閾值分成高分檢測框Dhigh和低分檢測框Dlow,利用KF 預測計算軌跡的包圍框。使用高分檢測框Dhigh和軌跡進行第一次交并比(Intersection over Union,IoU)匹配,保留未匹配的檢測框Dremain和未匹配的高分軌跡Tremain。使用低分檢測框Dlow和繼續進行第二次IoU 匹配,繼續保留未匹配上的軌跡Tre-remain,刪除未匹配的低分檢測框。該操作可以過濾誤檢的背景,同時恢復被遮擋的目標。對于未匹配的軌跡Tre-remain,保留30 幀時間周期。該期間內如果沒有匹配到檢測框,則放入Tlost。對于上一次未匹配到軌跡的高分框的Dremain,如果檢測框得分高于E,且存活超過2 幀,則初始化為新的軌跡。
卡爾曼濾波(Kalman Filter,KF)算法是首先構建目標狀態的線性系統空間方程,通過預測和校正實現狀態的最小均方誤差估計。算法的優勢在于能夠在噪聲干擾下獲得最優的狀態估計值,從而提高估計精度;能夠實時更新狀態估計值,使得其具有實時性和追蹤能力。此外,該算法可以通過組合不同的狀態和觀測量,實現多維度的狀態估計和預測。
盡管KF 算法有諸多優點,但其只適用于線性系統,對于非線性系統則無法直接應用。同時,KF算法由于遮擋導致的目標信息不完整,其線性化模型不夠準確,導致產生錯誤的狀態估計結果。于是NASA Ames 等機構對卡爾曼濾波理論進行拓展,并應用于非線性系統中,提出了擴展卡爾曼濾波(Extended Kalman Filter,EKF)算法。
EKF 算法流程主要分為預測和更新2 個步驟。預測是基于上一個時刻狀態估計當前時刻狀態,更新則是綜合當前時刻的估計狀態與觀測狀態,估計出最優的狀態。預測的過程可表示為
式中:xk為k時刻的狀態向量,uk更為控制向量,f(·)為系統非線性狀態函數,Ak為狀態轉移矩陣,Pk為狀態向量的協方差矩陣,Q為預測狀態的高斯噪聲的協方差矩陣,xk-1|k-1為k-1 時刻對k時刻的轉臺預測,xk|k-1為k-1 時刻對k時刻的狀態預測,Pk-1|k-1為k-1 時刻的后驗估計誤差協方差矩陣,Pk|k-1為k-1 時刻到k時刻的估計誤差協方差矩陣。
更新的過程可表示為
式中:Pk為狀態向量的協方差矩陣,Ck為轉換矩陣,Rk為測量值的高斯噪聲的協方差矩陣,yk為傳感器測量值的狀態向量,h(·)為測量函數,Kk為卡爾曼增益。
式(1)是狀態預測,式(2)是誤差矩陣預測,式(3)是卡爾曼增益計算;式(4)是狀態更新,其輸出即最終的卡爾曼濾波結果;式(5)是誤差矩陣更新。
目前,大多數跟蹤方法都使用經典跟蹤器DeepSORT 中提出的KF 的狀態特征。它試圖估計框的長寬比而不是寬度,這將導致在預測下一幀的軌道邊界框時,使用KF 狀態估計作為跟蹤器的輸出會導致一個次優的邊界框形狀。本文提出改進的擴展卡爾曼濾波直接估計包圍框的寬度和高度,可以處理非線性系統和非高斯噪聲,具有更好的健壯性和準確性,并對遮擋的影響更小。
C-BMIoU(Cascaded Intersection over Union with Minimum Points Distance and buffer zone)方法是通過將緩沖區和MPDIoU(Minimum Point Distance Intersection over Union)進行結合來實現的。其中,緩沖區通過擴展檢測和跟蹤的匹配空間,可以直接匹配相鄰幀中相同但不重疊的檢測框和軌跡框,并且能補償匹配空間中的運動估計偏差。而MPDIoU[13]是針對大多數損失函數在不同預測結果下具有相同的值會使得邊界框回歸的收斂速度和準確性降低的問題提出的,能夠改善邊界框回歸的訓練效果,提高收斂速度和回歸精度。
2.2.1 緩沖區
緩沖區與原始檢測框和軌跡成正比,不會改變它們的位置中心、比例和形狀,而是擴展它們的匹配空間。緩存區權重計算如圖2 所示。

圖2 緩存區權重計算公式
與MOT 中的搜索窗口將擴展邊界框作為空間約束不同,本文是將擴展邊界框作為MPDIoU 的匹配特征。該方法可以解決跟蹤模型不能進一步優化的問題和針對檢測框、預測框之間的重疊面積為零問題。比如它們在緩存區范圍內,緩沖區會為最初不重疊的檢測和軌跡構建時空相似性。
2.2.2 MPDIoU
MPDIoU 是在這些現有度量方法的基礎上發展起來的,針對傳統的邊界框回歸損失函數難以優化預測框和真實框在寬高比相同但具體尺寸不同時的問題提出,旨在通過直接最小化預測框和真實框之間的關鍵點距離,提供一種易于實現的解決方案,用于計算兩個軸對齊矩形之間的MPDIoU。MPDIoU的計算如圖3 所示。

圖3 MPDIoU 計算公式
3.1.1 數據集
本實驗采用MOT17 數據集。該數據集由KITTI 研究組和CVPR2017 MOT Challenge 主辦方共同提供。MOT17 數據集包含14 個視頻序列,序列由單雙目攝像頭采集。這些視頻序列涵蓋不同的場景,包括商場、街道、交通路口和室內走廊等。每個視頻序列中都包含多個移動物體,這些物體在不同的幀中出現、消失、移動和交互。MOT17 數據集為每個物體提供了精確的邊界框注釋,以及每個物體的唯一ID 號。在MOT17 數據集上利用TrackEval評測工具對算法進行評估。
3.1.2 評估指標
為了評價多目標跟蹤算法的性能,需要使用一系列評價指標來進行定量評價。常見的多目標跟蹤評價指標包括MOTA(評價多目標跟蹤算法性能的綜合指標)、HOTA(綜合考慮目標跟蹤器的準確性和穩定性的指標)、IDF1(評價多目標跟蹤算法的準確率的指標)、MT(衡量了跟蹤算法成功跟蹤目標的幀數占測試序列總幀數的比例,從而反映算法的跟蹤成功率)和ML(衡量跟蹤算法的誤報率,即跟蹤算法將背景或者非目標物體錯誤地標記為目標的情況)。MOTA、MOTP 和IDF1 指標計算公式為
式中:NFN為未被成功匹配的真實軌跡,NFP表示生成的軌跡沒有被匹配成功,NGT表示視頻序列中真實的軌跡數量,NTP是成功匹配的真實軌跡。
式中:NIDTP、NIDFP和NIDFN分別表示目標標識真正例、假正例和假反例的數量。
3.1.3 實驗平臺
本文的實驗平臺環境是ubuntu7.5.0 系統,配置4 張NVIDIA GeForce RTX 2080Ti 顯卡。實驗的輸入大小設置為(1 440,800),batchsize 設置為48,初始學習率為0.001,迭代次數設置為300 次。
將本文改進的ByteTrack 算法與另外兩個性能優異的跟蹤算法ByteTrack、OC-SORT 進行性能對比,結果如表1 所示。

表1 性能對比結果
從表1 的測評結果可以看出,將改進的EKF 算法與C-BMIoU 算法相結合,可以有效地提高目標跟蹤過程的準確度。本文算法在3 種算法中各項指標都取得了相對較好的結果。與原ByteTrack 算法框架相比,MOTA、IDF1 和HOTA 分別提高了0.3%、1.5%和1.0%。針對邊界框寬度與對象的擬合度問題,通過改進的EKF 作為軌跡狀態的預測和更新,大大提高了邊界框寬度與對象的擬合度,并且在目標長期遮擋情況下能連續幀跟蹤多目標。使用C-BMIoU損失函數作為匹配規則,有效緩解了模型存在的不能進一步優化的問題,也能有效緩解由不規則運動引起的不匹配并提高跟蹤性能。該改進的算法模型有效減少了因目標遮擋造成的身份頻繁交換問題。
本文針對行人多目標跟蹤場景中存在的多目標遮擋干擾、目標多尺度變化等復雜場景所造成的跟蹤精度降低和目標邊界框與實際對象的邊界框存在較大偏差等問題,提出了一種基于改進ByteTrack算法的多目標跟蹤方法。實驗結果表明,改進算法有效地提高了多目標跟蹤的跟蹤精度,有針對性地提高了整體跟蹤算法的準確性和可靠度,實現了復雜場景下持續穩定的多目標跟蹤。但由于沒有考慮行人外觀特征,如果在長時間跟蹤中,行人從攝像頭視野中消失一段時間然后再次出現,那么該方法就不能將其視為新的目標,因此未來的研究方向是如何更好地做跨攝像頭跟蹤目標,以保證后續多目標跨攝像頭能夠持續穩定地跟蹤。