王 濤, 王文格
(湖南大學 機械與運載工程學院, 長沙 410082)
運動目標跟蹤是計算機視覺中的一個重要研究領(lǐng)域, 旨在通過對圖像中的運動目標進行檢測、提取、識別等操作, 獲得目標的各項運動參數(shù)并確定其位置,從而進行下一步的分析與處理. 隨著計算平臺的不斷升級完善以及人工智能技術(shù)的飛速發(fā)展, 行人跟蹤技術(shù)在不斷更新迭代的同時也變得越來越重要, 并已經(jīng)廣泛出現(xiàn)在智能視頻監(jiān)控、智能交通、智能人機交互、運動員比賽分析等各種場景[1,2].
從實現(xiàn)方法來看, 目前主流的跟蹤算法可粗略分為相關(guān)濾波類和深度學習類[3], 前者通過設計濾波模板進行預測或通過區(qū)域匹配來尋找跟蹤目標的位置, 大多數(shù)情況下僅使用較為簡單的手工特征. MOSSE[4]是最先出現(xiàn)的濾波跟蹤算法, 利用目標的多個樣本來進行訓練, 從而得到更優(yōu)秀的濾波器, 在此基礎上引入核函數(shù)并不斷改進優(yōu)化, 又形成了CSK[5]、KCF算法[6],在保證跟蹤速度的同時, 大大提高了跟蹤的準確性. 與此同時, Danelljan等人提出了C-COT算法[7], 利用神經(jīng)網(wǎng)絡提取特征, 并將學習過程推廣到連續(xù)空間域, 還進一步提出改進版的ECO算法[8], 并同時更好地解決了訓練過擬合的問題. 盡管相關(guān)濾波類算法在特定場景下有著優(yōu)異的實時跟蹤速度, 但使用的簡單特征在遇到遮擋、目標形變、快速運動等復雜場景時, 易出現(xiàn)跟蹤漂移和跟蹤失敗等問題.
深度學習類的算法往往更注重準確性, 多采用基于檢測的跟蹤(tracking-by-detection)方式. 2016年Nam等人提出的MDNet[9]利用一個輕量級的小型網(wǎng)絡來學習跟蹤目標的特征, 同時期的DeepSort[10]也是在原Sort[11]的基礎上對目標提取深度特征來提高跟蹤算法的準確率. Siam FC[12]則是使用了孿生網(wǎng)絡來訓練一個相似性度量函數(shù), 以匹配候選目標作為跟蹤結(jié)果.為進一步提高Siamese類算法的跟蹤速度和精度, Li等人結(jié)合RPN (region proposal network)網(wǎng)絡提出了Siam RPN算法[13], 在跟蹤階段構(gòu)造局部單目標檢測任務, 并拋棄了傳統(tǒng)的多尺度測試和在線微調(diào). Danelljan等人提出的ATOM[14]和DiMP[15]則將目標跟蹤分為目標分類和目標評價, 分別用于粗定位和精確定位, 后續(xù)又提出基于概率回歸的PrDiMP[16], 根據(jù)目標狀態(tài)的條件概率密度來確定目標位置, 從而進行跟蹤. 這類算法在準確性上有著非常出色的表現(xiàn), 但往往因為計算量過大且計算過程復雜, 在一定程度上影響了跟蹤算法的速度, 導致算法不能實時運行.
針對以上問題, 本文提出一種將目標圖像深淺特征融合的實時單目標行人跟蹤方法. 利用目標的顏色直方圖[17]來提取淺層顏色特征, 并利用YOLOv4檢測模型[18]獲取當前目標位置從而提取目標的深度特征,通過計算目標的相似性和不同的距離度量對目標進行匹配更新, 并通過更新策略協(xié)調(diào)準確性與速度. 經(jīng)實驗驗證, 本文算法可有效地在復雜場景中實現(xiàn)對單目標行人的長時間穩(wěn)定跟蹤, 同時還能達到實時跟蹤的效果.
DeepSort算法是一種采用遞歸卡爾曼濾波和逐幀數(shù)據(jù)關(guān)聯(lián)匹配的多目標傳統(tǒng)單一假設跟蹤方法, 算法對運動目標的跟蹤場景定義在一個8維狀態(tài)空間中, 其中包括目標框的中心坐標(u,v)、寬高比γ、高h、以及它們對應的一階導數(shù), 并使用具有常量速度模型和線性觀測模型的標準卡爾曼濾波器來預測目標框在下一幀圖像中的位置. DeepSort使用提前訓練好的Faster R-CNN[19]作為目標檢測器,并結(jié)合一個ReID的神經(jīng)網(wǎng)絡模型得到128維的深度特征來計算檢測結(jié)果與預測結(jié)果之間的代價矩陣, 用以評估二者的相似吻合程度. 算法的關(guān)鍵在于使用了級聯(lián)匹配的思想, 可以解決目標被遮擋或干擾后, 卡爾曼濾波預測的不確定性增大而導致的代價矩陣計算誤差增大的問題. 具體方案為計算檢測結(jié)果與預測結(jié)果之間的平方馬氏距離和余弦距離, 通過匈牙利算法完成指派問題得到代價矩陣后, 利用級聯(lián)匹配完成目標的跟蹤, 可以有效地減少跟蹤目標ID Switch的情況.DeepSort算法的基本框架如圖1所示.

圖1 DeepSort基本框架
YOLO系列是實時目標檢測中最具代表性的算法,其將目標檢測過程視作一個回歸問題, 通過一次前向推理就可得到目標框的位置及其分類結(jié)果, 檢測過程快速而高效. YOLOv4在輸入端訓練層面使用了Mosaic數(shù)據(jù)增強、DropBlock模塊和改進后的CmBN等防止過擬合的操作, 使其能夠在小目標檢測和小批量數(shù)據(jù)集訓練上取得更好的效果. 在YOLOv4的網(wǎng)絡模型中,使用CSPDarknet53作為骨干網(wǎng)絡, 通過FPN層的上采樣, 對輸入檢測圖像的最小特征圖自上而下地傳遞強語義特征, 同時在其后添加包含PAN結(jié)構(gòu)的特征金字塔, 從最大的特征圖自底向上地傳遞強定位特征, 從而實現(xiàn)對不同檢測層的參數(shù)整合, 能夠更好地獲取目標特征并進行同時定位與分類, 提高目標檢測的準確性.
本文使用YOLOv4模型作為跟蹤算法的檢測器,在跟蹤初始化、軌跡更新或跟蹤誤差較大時進行調(diào)用,來對跟蹤器進行調(diào)整與修正.
目標的跟蹤過程包括對跟蹤目標的預測、檢測、匹配以及軌跡更新, 本文將目標圖像的淺層顏色特征與深度特征相融合, 共同作為預測和匹配的評價指標,并通過提出的軌跡更新策略協(xié)調(diào)跟蹤的速度與準確性.
跟蹤目標的位置確定是跟蹤過程中非常重要的一個環(huán)節(jié), 決定了跟蹤結(jié)果的準確性與可靠性. 一般情況下, 跟蹤算法通過當前幀或歷史幀的跟蹤結(jié)果來預測或迭代搜索出下一幀的目標位置, 由于使用了先驗信息來跟蹤, 因此不會再進行額外的目標匹配來驗證預測結(jié)果, 這在一定程度上降低了預測目標的可靠性. 而在區(qū)分出前景目標和背景之后, 目標圖像所擁有的部分淺層表觀特征例如顏色、形狀、紋理等信息也可以是跟蹤過程中重要的匹配工具, 而其中顏色特征具有比其他特征對于目標尺度、姿態(tài)的變化比較不敏感的特性. 因此將淺層顏色特征作為跟蹤算法預測結(jié)果相似性匹配的一個評價指標, 并采用計算目標區(qū)域顏色直方圖的方式來提取目標的顏色特征.
位置預測多采用濾波的方式, 而對于跟蹤問題這樣的非線性系統(tǒng), 可以采用擴展卡爾曼濾波、無損卡爾曼濾波或粒子濾波, 但這三者相對來說計算量偏大,影響實時效果. 因此本文將跟蹤過程近似視為分段每兩幀之間的線性過程, 并沿用DeepSort的遞歸卡爾曼濾波預測. 在每一幀的匹配和更新結(jié)束后, 卡爾曼濾波器首先會通過前一幀目標位置的均值與方差進行更新,預測出當前幀目標可能會在的位置. 預測均值為DeepSort中的8維向量, 且由于卡爾曼濾波對于目標框的預測主要在于目標框運動方向和大小的變化, 而直接計算整個預測目標框區(qū)域的顏色直方圖易受到相似背景的干擾而降低可靠性, 因此將目標框裁剪并縮放至50×50的大小, 再將其均分為4個部分, 分別計算目標各部分的顏色直方圖Hi_pre(i=1, 2, 3, 4), 如圖2所示.

圖2 獲取預測結(jié)果的四分顏色直方圖
距當前幀最近的一次檢測器成功調(diào)用的檢測結(jié)果被儲存在數(shù)組中, 此數(shù)組共儲存最近5次的成功檢測結(jié)果并不斷更新. 與預測結(jié)果一樣, 將每次的成功檢測結(jié)果裁剪、縮放并分成4個部分, 分別計算相應的顏色直方圖Hn_i(n=1, 2, …, 5). 把每一個預測結(jié)果的顏色直方圖分別與5次檢測結(jié)果的顏色直方圖作對比, 由式(1)可得到預測結(jié)果的相似度Similarn, 將其中最小的相似度值作為預測結(jié)果的最終相似度, 并由此來評定當前幀跟蹤目標位置預測的結(jié)果好壞.

其中,j表示像素值的大小,Hi_pre_j和Hn_i_j分別表示預測直方圖和檢測直方圖在像素值為j時的值.
如果只利用卡爾曼濾波器的預測作為跟蹤結(jié)果, 則容易產(chǎn)生累計誤差并導致跟蹤失敗, 因此使用YOLOv4模型作為目標檢測器來提高算法的跟蹤準確性. 調(diào)用檢測器時, 獲得當前幀的可能目標序列detection_indices,計算檢測結(jié)果的匹配代價矩陣, 該代價矩陣共由3個不同的代價部分組成, 且其中包含每一個檢測結(jié)果的代價值, 并根據(jù)其中最小的代價值找出正確的跟蹤目標.
第一個代價矩陣cm1首先通過式(3)計算每個檢測目標與當前幀預測目標的平方馬氏距離, 以獲取該檢測目標對于運動預測偏移位置的不確定性, 不確定性越大則說明該檢測是跟蹤目標的可能性越低. 再通過式(4)分別計算每個檢測目標與儲存的前5次成功檢測的深度特征之間的最小余弦距離, 以獲取目標外觀特征之間的相似程度. 對兩種度量分別設置距離閾值, 并利用式(5)將兩種距離度量的線性加權(quán)融合作為檢測目標的一個代價矩陣.

其中,di為第i個檢測框位置及大小,p為目標預測位置及大小,Si為檢測框與平均跟蹤位置的協(xié)方差,fi為第i個檢測特征向量,fn為儲存的前5次成功檢測的特征向量,n=1, 2, …, 5,λ為代價矩陣加權(quán)系數(shù).
當跟蹤過程某一階段出現(xiàn)連續(xù)預測且預測相似性均不滿足閾值時, 認為遇到目標遮擋情況, 一般情況下,跟蹤行人目標的遮擋時間大概在30–50幀左右. 由于遮擋時無法檢測到目標行人而多采用預測結(jié)果直接輸出, 并不對軌跡進行檢測更新, 平方馬氏距離則會因為協(xié)方差的累計變化而降低準確性, 容易產(chǎn)生誤跟蹤. 為解決這種情況, 再添加由當前幀和前第10次成功檢測的深度特征的匹配, 由于只采用一次先驗信息, 無法通過平均預測偏移來考慮檢測的不確定性, 因此只計算檢測結(jié)果的最小余弦距離.

其中,f10為前第10次成功檢測的特征向量.
在跟蹤算法中使用目標檢測模型有助于提高算法跟蹤結(jié)果的準確性, 但檢測器的深度神經(jīng)網(wǎng)絡提取的抽象深度特征圖無法完全準確地描述目標的特征, 且容易丟失目標的一部分淺層信息, 同時目標的空間信息也會隨著網(wǎng)絡的深度而被逐漸稀釋. 為進一步提升匹配的準確性, 并充分利用目標圖像的深淺信息, 同樣引入顏色直方圖來描述檢測目標的淺層顏色特征. 計算每一個檢測目標框的顏色直方圖, 可以得到一個256×3的多維矩陣, 將其中每相鄰兩個的像素值個數(shù)取平均并賦給像素值小的像素, 從而得到128×3的多維矩陣,以對應ReID模型對目標提取的128維深度特征. 與預測相似性一樣, 計算每個檢測目標與前5次成功檢測的目標之間的最小相似性距離, 不同的是此處輸出的是最小的不相似程度.

其中,Hi_j為第i個檢測目標的第j個像素值個數(shù),Hn_j為儲存的第n個成功檢測目標的第j個像素值個數(shù).
上述距離度量分別從跟蹤目標的預測偏移、深度特征、淺層特征3個方面來判斷檢測結(jié)果的匹配情況,可以有效地提升匹配的準確性, 因此將三者的線性加權(quán)融合作為檢測匹配的最終代價矩陣, 并通過閾值比較找出匹配的目標, 若沒有代價值滿足匹配閾值條件,則說明當前幀沒有與跟蹤軌跡匹配的目標.

其中,Ci為第i個檢測結(jié)果的最終代價值, ωi為加權(quán)系數(shù), 且認為沒有遮擋時, ω2為0.
表1為分別使用不同特征進行目標匹配時, 跟蹤算法在數(shù)據(jù)集上的跟蹤測試精度. 在檢測器識別行人目標并獲取目標框后, 分別通過淺層特征、深層特征以及融合特征對跟蹤目標進行匹配, 可以看出算法在使用融合特征時比單獨使用深層或淺層特征具有更好的跟蹤精度, 說明了融合特征能夠更好地描述目標淺層顏色特征以及深層語義特征, 從而提升目標匹配和跟蹤的精度.

表1 不同特征匹配的跟蹤精度
相關(guān)濾波類的跟蹤算法已經(jīng)證明了它的快速性,但誤差的累計也可能造成跟蹤漂移和失敗, 而如果每一幀都調(diào)用檢測器再進行目標匹配, 則需要極大的算法運算量, 從而無法實現(xiàn)對目標的實時跟蹤. 為達到跟蹤速度與準確性的協(xié)調(diào)統(tǒng)一, 本文算法首先設定在跟蹤目標和軌跡初始化后, 成功檢測并更新時每隔固定幀數(shù)再次調(diào)用YOLOv4檢測器對跟蹤軌跡進行微調(diào),確保跟蹤的準確性. 如表2, 經(jīng)過實驗對比, 選擇成功檢測后每隔6幀再次調(diào)用檢測器的方法.

表2 檢測器不同間隔幀數(shù)調(diào)用的跟蹤結(jié)果
計算檢測目標距離度量的代價矩陣后, 再通過級聯(lián)匹配將正確的檢測結(jié)果與軌跡相關(guān)聯(lián), 從而實現(xiàn)跟蹤軌跡的更新. 每兩次調(diào)用檢測器之間的視頻幀采用預測相似性匹配, 計算當前預測結(jié)果的相似度Similar,并設定一個相似度閾值Simi_threshold. 若得到的相似度結(jié)果大于該閾值, 則認為當前幀的預測結(jié)果是有效的,并將其作為當前幀的目標位置對跟蹤軌跡進行更新;若相似度小于該閾值, 則認為當前幀的預測結(jié)果不夠準確, 并重新調(diào)用YOLOv4檢測器, 檢測并匹配當前幀的目標位置, 從而避免因預測準確性過低導致的跟蹤錯誤.
另外, 由于跟蹤目標快速運動、遮擋、背景相似等原因, 檢測器在某些情況下可能出現(xiàn)檢測不到或誤檢測跟蹤目標的情況. 因此在調(diào)用YOLOv4檢測器時會向跟蹤系統(tǒng)反饋輸入匹配的檢測框個數(shù)和匹配完畢后檢測框的剩余個數(shù), 二者若相等則說明當前幀沒有與跟蹤軌跡相匹配的檢測結(jié)果, 此時算法反饋No_Match_Detection, 并繼續(xù)利用卡爾曼濾波器預測當前幀的目標位置, 且不再計算相似性匹配, 直接利用預測結(jié)果更新軌跡, 并在下一幀重新調(diào)用檢測器以改善跟蹤結(jié)果.
本文跟蹤算法的整體框架如圖3所示.

圖3 本文跟蹤算法的整體框架
本文所進行的行人檢測器網(wǎng)絡訓練以及跟蹤算法驗證測試均在PC主機平臺上實現(xiàn), 具體配置為AMD R5 3600 型號的CPU以及NVIDIA GTX 1660顯卡. 測試平臺為Ubuntu 16.04操作系統(tǒng), 測試過程使用CUDA 10.1和OpenCV 3.4.0進行前期圖像處理和結(jié)果輸出.
本文跟蹤算法的目的是實現(xiàn)長時、實時且有效的單目標行人的運動識別與跟蹤, 在檢測器網(wǎng)絡訓練和跟蹤算法測試過程中均只考慮對行人這個單一類別的實現(xiàn)效果. 因此, 本文選用PASCAL VOC 2007、2012以及INRIA DATA數(shù)據(jù)集對YOLOv4目標檢測器進行訓練. 3個數(shù)據(jù)集一共包含22 405張圖片, 其中有9 004張包含行人目標的正樣本, 行人個數(shù)達到19 610個, 按照8:2的比例對數(shù)據(jù)集劃分訓練集與測試集. 訓練后的檢測模型對測試集行人目標進行檢測的mAP(mean average precision)為0.869, 在GPU上的檢測速度可達到38 FPS, 滿足算法需求.
由于對單目標行人進行運動跟蹤需要達到一個長時且穩(wěn)定的效果, 同時要體現(xiàn)出跟蹤算法對于遮擋、目標尺度變化、目標形變、快速運動以及相似性干擾等問題的解決情況, 因此本文選擇Fan等人在2019年推出的大規(guī)模單目標跟蹤標準數(shù)據(jù)集LaSOT[20]中的Person類作為跟蹤算法的主要測試集, 共包含20個不同場景的測試視頻序列, 總時長達到35.6分鐘, 每個視頻序列的平均幀數(shù)為3 206幀. 同時, 為保證算法的可靠性, 以及僅對單目標行人進行跟蹤的要求, 還選取了OTB100數(shù)據(jù)集[21]中33個包含行人的視頻序列, 平均幀數(shù)為452幀. 兩個測試數(shù)據(jù)集均具有相似目標多、目標形變明顯、尺度變化和光照變化等特點.
為進一步比較本文算法的單目標行人跟蹤效果,使用近年來表現(xiàn)出色的部分相關(guān)濾波類及深度學習類算法與本文算法來進行測試數(shù)據(jù)集的跟蹤結(jié)果的對比.跟蹤測試過程中, 所有算法進行跟蹤軌跡初始化的目標位置均使用數(shù)據(jù)集視頻序列的第一幀真實目標位置ground truth給定. 跟蹤算法獲取視頻序列中指定行人目標的位置以及相應的目標框, 并將后續(xù)每一幀的跟蹤目標框與數(shù)據(jù)集序列的真實目標框ground truth進行比較和誤差分析. 采用OPE (one pass evaluation)方法計算跟蹤結(jié)果的成功率(success rate)和精度(precision)作為算法比較的主要評價指標, 并同時計算跟蹤框與目標真實框的平均重疊率EAO (expected average overlap)以及跟蹤速度對每種算法的跟蹤效果進行評估.
不同跟蹤算法在OTB100數(shù)據(jù)集和LaSOT數(shù)據(jù)集上的測試結(jié)果分別如圖4和圖5所示.

圖4 不同算法在OTB100數(shù)據(jù)集上測試結(jié)果
由于兩個測試數(shù)據(jù)集的特性不同, 且OTB100數(shù)據(jù)集的視頻分辨率較小, 同時真實框并不一定完全覆蓋行人, 因此各類算法在測試結(jié)果上均存在一定程度的波動. 從圖4和圖5中可以看出, 在兩個測試數(shù)據(jù)集上, 對算法分別設置不同的中心位置誤差閾值和目標框重疊率閾值時, 本文算法在所有進行比較的跟蹤算法中均有比較優(yōu)異的表現(xiàn), 在跟蹤精度和成功率上遠好于相關(guān)濾波類的KCF和ECO算法, 同時也要優(yōu)于深度學習類的SiamFC、SiamRPN和ATOM, 與DiMP表現(xiàn)基本持平, 略遜于改進后的PrDiMP.

圖5 不同算法在LaSOT數(shù)據(jù)集上測試結(jié)果
表3給出了本文算法與其他比較算法在目標框中心位置誤差閾值和重疊率閾值分別設置為20和0.5時的跟蹤準確性和快速性的表現(xiàn). 可以看出, 在兩個數(shù)據(jù)集上, 本文提出的單目標跟蹤算法在整體性能上均能實現(xiàn)比較優(yōu)秀的實時跟蹤效果. 融合目標圖像的淺層顏色特征和深度學習特征之后, 跟蹤算法的準確性相對于原DeepSort算法有了明顯的提高, 在OTB100和LaSOT數(shù)據(jù)集的測試中分別提升了27.9%和21.1%.與其他算法的對比中, PrDiMP在平均重疊率EAO上表現(xiàn)出色, 兩個數(shù)據(jù)集測試均為最優(yōu), 但無法達到30 FPS的實時跟蹤速度; KCF的跟蹤速度最快, 但在準確度上卻表現(xiàn)最差. 本文算法同時結(jié)合了準確性和快速性, 在兩個數(shù)據(jù)集上的EAO分別為0.581和0.453, GPU上的測試跟蹤速度分別為33.64 FPS和35.32 FPS, 能夠?qū)崿F(xiàn)實時單目標行人跟蹤的效果.

表3 不同算法在測試數(shù)據(jù)集上的跟蹤表現(xiàn)
圖6為跟蹤算法測試過程中截取的部分跟蹤結(jié)果圖, 左上角數(shù)字表示圖片在該視頻序列中的幀數(shù), 每一幀的綠色框均為ground truth真實位置. 其中, 圖6(a)和圖6(b)來自LaSOT數(shù)據(jù)集, 圖6(c)和圖6(d)來自OTB100數(shù)據(jù)集. Person-1和David3序列的跟蹤環(huán)境較為簡單, 主要是目標姿態(tài)發(fā)生變化以及幾幀的短時遮擋, 除了KCF和ECO會偶爾出現(xiàn)跟蹤漂移, 以及ATOM出現(xiàn)誤跟蹤之外, 各個算法均可以比較好地定位到目標的位置. Girl2序列相對于前兩個序列又增加了尺度變化和較長遮擋等屬性, 可以看出ATOM在100幀時有誤跟蹤現(xiàn)象, 但隨后成功進行了調(diào)整, 而ECO則在后續(xù)過程跟蹤失敗. Person-5是測試集中跟蹤環(huán)境相對復雜的視頻序列, 圖像中存在多個行人對象, 同時還包括了目標快速形變、目標遮擋和相似背景干擾等跟蹤過程中的難點. 這種情況下, 由于運動目標不易檢測準確, 利用神經(jīng)網(wǎng)絡的深度學習類ATOM和DiMP算法以及采用了深度信息的ECO算法反而容易出現(xiàn)跟蹤漂移或誤跟蹤的問題, 而本文算法則能通過位置預測和目標匹配達到比較好的跟蹤效果.

圖6 部分數(shù)據(jù)集視頻序列跟蹤結(jié)果
總體上來說, 本文算法將目標的淺層顏色特征和深度特征融合之后, 在較為復雜的場景下能夠長時間穩(wěn)定地對目標行人進行跟蹤, 并且具有出色的跟蹤準確性和實時跟蹤速度, 在與目前一些主流單目標跟蹤算法的比較中也表現(xiàn)出色, 體現(xiàn)出了特征融合的思想在目標跟蹤領(lǐng)域的優(yōu)勢. 實驗過程中, 軌跡更新策略可有效解決短時遮擋無法通過特征匹配識別目標的問題,但在一些具有相似目標、光影變化或長時間遮擋的環(huán)境下, 偶爾會出現(xiàn)特征誤匹配或無法匹配的情況, 此時若長時間使用預測位置進行跟蹤, 則易導致跟蹤漂移.
通過研究相關(guān)濾波類與深度學習類跟蹤算法分別在精度與速度上的不足, 為協(xié)調(diào)跟蹤準確性與快速性,同時充分利用目標圖像的特征信息, 提出了一種將目標淺層顏色特征與深度特征相融合的實時單目標行人跟蹤算法. 利用目標的四分顏色直方圖獲取淺層顏色特征, 并以此計算預測相似性進行評估, 提高預測結(jié)果的可靠性. 使用不同深淺特征計算的距離度量融合加權(quán)作為代價矩陣進行目標匹配, 同時采用新的軌跡更新策略來進行目標預測和檢測, 對系統(tǒng)跟蹤結(jié)果進行微調(diào)和修正, 從而進一步提升跟蹤的準確性與實時性.
在OTB100數(shù)據(jù)集和LaSOT數(shù)據(jù)集的算法測試實驗證明, 本文跟蹤算法可以有效地實現(xiàn)對單目標行人長期且穩(wěn)定的實時跟蹤. 預測結(jié)果的相似性匹配和后續(xù)策略可以解決一定程度的目標遮擋問題, 進一步提高算法的魯棒性, 但在多相似目標和長時間遮擋等情況下, 本文算法還存在一定的不足. 后續(xù)在多特征融合以及策略協(xié)同等方面還可以進一步學習與研究, 對長時間遮擋等跟蹤問題實現(xiàn)優(yōu)化.
增強出版
本文附有深淺特征融合的實時單目標行人跟蹤演示視頻, 可點擊視頻鏈接或手機掃描二維碼觀看.
