基于PTLD的長時間視頻跟蹤算法

2016-05-11 02:14:38劉建郝礦榮丁永生楊詩宇東華大學信息科學與技術學院上海060數字化紡織服裝技術教育部工程研究中心上海060

化工學報 2016年3期

關鍵詞：模型

劉建，郝礦榮,，丁永生,，楊詩宇（東華大學信息科學與技術學院, 上海 060；數字化紡織服裝技術教育部工程研究中心，上海 060）

基于PTLD的長時間視頻跟蹤算法

劉建1，郝礦榮1,2，丁永生1,2，楊詩宇1
（1東華大學信息科學與技術學院, 上海 201620；2數字化紡織服裝技術教育部工程研究中心，上海 201620）

摘要：對于化工廠、電廠等重要場所，火災、爆炸和有毒物質泄漏等安全生產舉足輕重。因此對工業現場的監控至關重要。作為一種有效實時的視頻目標跟蹤算法，TLD算法（tracking-learning-detection）吸引了全世界的廣泛關注。提出了一種PTLD的改進算法（prediction-tracking-learning-detection）。它是通過將卡爾曼預測器用于估計目標的位置以降低探測器的掃描區域，提高檢測速度；增加基于目標運動方向的預測用于跟蹤目標與背景相似的情況。通過增加位置和速度的預測并使用時空分析有效提高視頻跟蹤精度和速度。實驗結果表明，PTLD算法為魯棒實時的視頻跟蹤提供了一種方向。

關鍵詞：預測；模型；時空分析；實時跟蹤

2016-01-03收到初稿，2016-01-10收到修改稿。

聯系人：郝礦榮。第一作者：劉建（1986—），男，博士研究生。

引言

為了現代化的大規模生產，化工廠需要投入巨大的能源。帶來的后果是生產過程中經常發生火災、爆炸、有毒物質泄漏等危險事故。遠程視頻監控是在無人監控化工廠的必要手段。這些都需要視覺跟蹤技術。在未知環境中的長時間視覺跟蹤是一個非常具有挑戰性的難題：可能無限長的視頻序列，運動目標的快速移動，跟蹤目標出現各種形變，跟蹤目標被短時間或長時間遮擋等。在這樣的環境中，就需要一個魯棒的跟蹤算法以應對上述幾種特殊的難題。

現有提出的視覺跟蹤方法，如粒子濾波（particle filter）算法和均值偏移（mean-shift）算法，完成視頻跟蹤需要假定目標沒有完全遮擋或消失[1-3]。這些方法的研究側重于提高速度和精度以延長跟蹤器的跟蹤時間。但它們不解決跟蹤失敗后的行為，因此不能直接使用在長期跟蹤問題。檢測過程和跟蹤過程是視覺跟蹤中最重要的步驟。在最早的視頻跟蹤算法中，檢測過程和跟蹤過程是獨立的，或是只通過檢測算法跟蹤目標，或是只通過跟蹤算法對目標進行跟蹤。例如先跟蹤后檢測算法（track-before-detect）和利用檢測的跟蹤算法（tracking-by-detection）。可以稱這兩種算法為TBD算法。TBD算法在計算量和算法復雜性方面是比較簡單的，但是卻只能被稱作短期跟蹤算法。因為它在跟蹤模塊失敗時才進行全屏的檢測。長時間視覺跟蹤問題的優勢就是提升它的一些檢測能力，它的檢測模塊是一直工作而不僅是在跟蹤失敗后[4]。利用檢測的跟蹤方法是集成一個跟蹤器和一個檢測器，用于解決上述問題[5]。但是這種方法嚴格分開訓練階段和測試階段。這意味著訓練集從來沒有表示外觀變化而成為模型的一部分。 2012年Kalal[6]提出了TLD算法，即把長時間跟蹤任務分為3個子任務：跟蹤、學習和檢測。每個子任務是由一個單一的模塊處理。跟蹤模塊利用幀與幀的跟蹤對象的漂移，檢測模塊是把目標與模型庫中的模板進行匹配識別，學習模塊是更新模板庫中模板。這種算法的優點是：①3個模塊相互協作，同時工作，而不是跟蹤失敗時才啟動檢測模塊，而且PN學習模塊使檢測模塊和跟蹤模塊更加魯棒；②分類器和目標模型庫實時更新，從而使長期實時跟蹤成為可能。

上述提出的算法表現出的某些方面的不足和缺陷需要解決：①因為長時間的遮擋而丟失跟蹤目標或跟蹤錯誤的目標。②由于跟蹤目標是移動的，多個跟蹤目標相互重疊。③跟蹤目標快速移動。 ④跟蹤目標和背景過于類似，如圖1所示。

圖1 跟蹤失敗示例Fig.1 Tracking failure

本文提出在TLD算法基礎上添加預測模塊的PTLD算法。改進的部分包括采用Kalman預測器用于估計目標的位置以降低探測器的掃描區域，提高檢測速度；增加基于目標運動方向的預測以應用于跟蹤目標與背景相似的情況。通過增加的位置和速度的預測并使用時空分析有效提高視頻跟蹤精度和速度。

1 TLD算法

TLD算法[3]的設計用于未知目標的長期視頻跟蹤。其框圖如圖2所示。跟蹤算法的實現是利用連續幀之間對象的運動。但是為了成功跟蹤到目標，需要假設幀與幀之間的運動是有限的，而且跟蹤目標必須是可見的。當跟蹤對象移動出攝像機視域，跟蹤器很可能失敗并且無法恢復。檢測器獨立地對每一幀圖像進行整幅圖像的掃描，利用模板庫中的模型定位跟蹤目標的位置。與其他檢測器不同的是，TLD檢測器有兩種類型的檢測樣本：假陽性和假陰性。學習模塊的功能是：觀察跟蹤器和檢測器的性能，估計誤差檢測器，并產生訓練樣本，以避免在將來重復同樣的錯誤。學習模塊可以允許跟蹤器和檢測器失敗。利用學習模塊，檢測器可以成功檢測到更多的物體外觀模型和相類似的背景模型。

圖2 TLD算法Fig.2 Block diagram of TLD framework

TLD算法的目標是利用實時視頻處理算法提高目標檢測器的性能。對于視頻的每一幀，希望評估目前的探測器、識別錯誤并更新模板庫使它在未來避免這些錯誤。P-N學習的關鍵思想是探測器的錯誤可以被兩種類型的“專家”標示，P-expert只標識假陰性， N-expert只識別假陽性。由兩種類型專家獨立地檢測錯誤。且其獨立性能相互補償自己的欠缺部分。

同時，TLD算法有明顯的不足應該解決：①因為長期的遮擋而丟失跟蹤目標或跟蹤錯誤的目標；②由于目標的運動，多個移動目標互相重疊；③對象快速行動；④目標和背景太相似。

2 卡爾曼預測位置信息

使用卡爾曼濾波器來估計當前幀位置的中心目標，并確定TLD在當前幀的目標探測區域[7]。卡爾曼濾波是一種動態系統狀態序列的線性最小均方誤差估計算法。通過系統之前的狀態序列預估下一個狀態的最優估計，使用的當前狀態測量值修正估計。卡爾曼濾波的數學模型描述為：狀態方程

觀測方程

式中，xk為k時刻的系統狀態向量，zk為k時刻的系統觀測向量，A為系統狀態轉移矩陣，H為觀測矩陣，wk1?和vk是兩個相互獨立的零均值高斯白噪聲，分別表示狀態轉移噪聲和觀測噪聲。

選取每幀圖像中目標的中心位置信息來構建濾波器中的狀態變量和觀測值，即：

狀態變量

觀測變量

式中，px和py分別代表目標中心在水平方向和豎直方向上的坐標分量，Vx和Vy分別表示目標在水平方向和豎直方向上的速度。在實際視頻序列中，相鄰兩幀間的時間間隔很短，可以認為目標在相鄰兩幀間做勻速運動，系統為線性模型。

2.1 對跟蹤模塊的卡爾曼預測

將卡爾曼濾波器應用到視頻跟蹤需要3個重要的假設：①建模系統是線性的；②預測和測量噪聲是白噪聲；③噪聲是高斯分布。第1個假設是k時刻的系統狀態等于k1?時刻的狀態和參數矩陣的乘積[8-9]。第2個和第3個假設是噪音與時間無關，只有振幅均值和協方差有關。基于卡爾曼濾波器的3個假設，要求系統必須是線性的。在實時跟蹤時，由于相鄰兩幀的時間間隔很小（約10 ms），故相鄰幾幀的目標運動可以近似認為是線性的。因此，使用卡爾曼濾波器來提高跟蹤的TLD算法性能是可行的。本文在檢測模塊、跟蹤模塊和學習模塊的基礎上添加了預測模塊，其流程如圖3所示。

圖3 PTLD算法流程Fig.3 Block diagram of PTLD framework

該算法的主要思想如下：首先，在系統初始化時，中心邊界框的起始點提供pt-current和pt-predict，并作為濾波器系統的狀態初始測量和預測。利用最初的卡爾曼濾波器的這兩個起始點去跟蹤每一幀，可以預測pt-predict給出的系統狀態的時間。同時，中值流跟蹤已確定目標的位置中心的邊界框位置并提供pt-current。使用新的系統狀態預測和后一個新系統卡爾曼濾波狀態正確地測量。通過卡爾曼濾波器預測目標邊界框中心點，然后使用跟蹤框的寬度和高度恢復跟蹤目標邊界框。

在更新pt-current之前對每一幀的處理是在一個新的系統狀態測量之前，利用舊系統狀態的記錄pt-last進行測量。目的是獲得兩幀之間的目標位移更新系統狀態預測方程中的卡爾曼濾波參數矩陣F。

每一幀的目標是預測下一幀的邊界框位置。為了得到這個結果，必須計算分類可信度，即計算結果和最近鄰分類器也是相似的。如果可信度大于0.85（實驗驗證所得），即確定這個邊界框為最精確的邊界框。用其替換中值流的結果并將結果傳遞給后續的檢測模塊和學習模塊。相反，如果實驗可信度小于0.6，將使用中值流跟蹤結果初始化狀態測量系統和系統狀態預測對卡爾曼濾波器進行初始化。

盡可能地擬合非線性系統，每一個特定的框架，系統狀態測量和預測將被初始化，流程如圖4所示。

圖4 基于卡爾曼預測的目標檢測模塊Fig.4 Object detect module based on Kalman prediction

2.2 分析測試儀器

檢測器是基于TLD算法的窗口掃描。探測器需要掃描每個可能包含目標的圖像子窗口來確定圖像窗口中的對象是否為跟蹤目標。因為TLD算法可以設置子窗口的大小卻不能設置子窗口的位置，所以子窗口的數量需要檢測。例如一幅470×310像素的圖像，TLD算法可能需要檢測大約30000子窗口。大多數的子窗口不包含跟蹤目標造成了極大的資源浪費。因此，利用卡爾曼濾波器預測可以縮小目標的檢測區域。具體方法如下：

（1）卡爾曼濾波器估計當前幀目標的中心；

（2）在中心位置畫一個矩形區域，其長寬比與跟蹤框的長寬比保持一致，將當前幀中的矩形區域作為待檢測區域（如圖5中黑色矩形框）；

（3）找出所有的指定矩形區域的所有重疊子窗口，將它變成檢測器，檢測器子窗口的對象有可能就是目標。

圖5顯示了使用卡爾曼濾波器來縮小檢測區域。在圖中，矩形框由卡爾曼濾波器估計，結合目標框架的大小和位置信息給出當前幀的大致區域。圖5顯示了A、B、C 3個子窗口。兩個子窗口與矩形框都與重疊區域的矩形框有交疊，因此A和B被保留到檢測器測試，而子窗口C與預測目標區域不重疊，將不再被檢測。

圖5 檢測重疊區域的子窗口Fig.5 Detecting child windows in intersection area

3 目標被遮擋時的預測

跟蹤目標可以由目標對象及其周圍背景信息來確定（見圖6矩形內紅色標記）。外界環境保持不變時兩個連續幀之間的變化可以認為是光滑的，即時間間隔通常很小。因此，連續幀中包含跟蹤對象局部區域存在一個強大的時空關系。例如，圖6中的目標遮擋使對象出現顯著變化。然而，包含對象的局部情況不會改變整體外觀。這些連續幀短暫的鄰近信息可以應用到視頻檢測[10-12]。此外，對象之間的空間關系和其本地位置的上下文信息提供了某些場景的特殊信息。

圖6 預測方向演示Fig.6 Predict for orientation

4 實驗結果與討論

實驗是基于一些公開視頻測試庫驗證完成[13-18]。利用5個視頻序列評估所提出的PTLD算法在特殊環境下的跟蹤情況，例如跟蹤目標長時間遮擋、計算時間太長、跟蹤目標快速地移動、亮度信息發生較大變化和跟蹤對象突變等。在第一幀初始化跟蹤目標，找到感興趣的跟蹤目標。跟蹤框的性能評估由平均百分比確定，而后者是按照邊界框之間的重疊和真實的邊界框至少50%計算[19]。

圖7實驗跟蹤目標是籃球運動員。普通的TLD在一開始可以跟蹤目標，但其良好的性能不會持續很長時間。如在29幀，跟蹤性能就出現惡化，即黃色矩形框逐漸出現偏差。盡管TLD算法可以在一段時間后進行修正，但常規的偏差可能導致錯誤的跟蹤。PTLD算法可以預測下一幀與前一幀的中心位置并完成修改跟蹤偏差。根據中央位置的預測模塊，可以檢測圖像框在中心位置，而不是所有的屏幕的子圖像。從而也減少檢測時間。

圖7 傳統TLD算和PLTD跟蹤籃球運動員第29幀結果Fig.7 Results from TLD and PLTD algorithms tracking basketball player in 29 frame

圖8實驗的跟蹤目標是快速變向的小球。乒乓球從上向下降落到桌面之后迅速反彈。普通的TLD算法會在第30幀跟蹤失敗，但PLTD算法可以成功地跟蹤，如圖8(b)所示。最后的跟蹤結果是跟蹤模塊和檢測模塊的結合所得。最初的TLD算法的跟蹤模塊的權重高于檢測模塊的權重，很容易丟失跟蹤目標[20]。

圖9實驗的跟蹤目標是與背景有相似性的籃球。在第198幀，普通的TLD算法跟蹤目標變成籃球筐，從而后面的所有幀都是一致跟蹤籃球筐。通過添加預測模塊， PTLD算法提高了檢測速度，所增加的檢測模塊提高跟蹤效果并減少跟蹤錯誤。即使PTLD算法也在第201幀跟蹤失敗，但第214幀又重新跟蹤到正確的目標，如圖9(b)所示。

圖8 傳統TLD算和PLTD跟蹤小球第30幀結果Fig.8 Results from TLD and PLTD algorithms tracking ball in 30 frame

圖9 傳統TLD算和PTLD跟蹤籃球結果Fig.9 Results from TLD and PLTD tracking basketball

圖10實驗的跟蹤目標是摩托車。由于現實生活的跟蹤目標的運動肯定是一個光滑的運動[21]。因為從前一幀到下一幀只有10 ms，目標在視頻序列中的平移是平滑的，而不會出現瞬間移動。但是普通的TLD算法會出現瞬間移動，如圖10(a)所示。在26幀之前，跟蹤目標一直是摩托車。但是在第26幀跟蹤對象瞬間變成了旁邊的石頭，從而導致跟蹤失敗。PTLD算法利用優先檢測來預測下一幀的位置。前一幀的位置和下一幀的位置，當像素，便認為跟蹤失敗，不再顯示矩形框。這樣做，可以減少幀的跟蹤失敗，也減少錯誤的樣本添加到模板庫的概率，如圖10(b) 所示。

圖10 傳統TLD和PTLD跟蹤摩托車第27幀結果Fig.10 Results from TLD and PLTD algorithms tracking motocross in 27 frame

圖11實驗的跟蹤目標是籃球運動員。跟蹤目標周圍明顯的亮度變化使得TLD算法不能繼續跟蹤籃球運動員[22]。但PTLD算法開始搜索找到周圍位置能匹配的特征點。如圖11(b)所示，通過檢測運動員腿上的特征點，PTLD算法跟蹤再次回到正確的跟蹤目標。

圖11 傳統TLD算和PTLD跟蹤籃球運動員第140幀結果Fig.11 Results from TLD and PLTD algorithms tracking basketball player in 140 frame

表1是關于視頻跟蹤的定量結果分析。本文的評估方法是計算籃球運動員、乒乓球、籃球、摩托車和人等5組實驗的成功跟蹤幀數。為了驗證方法的有效性，添加與經典TLD算法的比較。

表1 成功跟蹤幀數的數目Table 1 Number of successful tracking frames

5 結論

為了實現化工廠、電廠等安全生產的監控，把視頻目標跟蹤應用到現實生活生產中。與傳統的目標檢測和視頻跟蹤問題不同，在實際應用中待跟蹤目標和背景的表觀特征經常會發生目標長時間遮擋、跟蹤目標與背景相似、目標快速且劇烈的運動變化等情況。這些現象對跟蹤算法的魯棒性和快速適應能力提出了極高的要求。實驗結果表明，所提出的PTLD算法提供了一種魯棒的實時視覺跟蹤系統。下一階段計劃添加顏色特征和紋理特征用于視頻跟蹤。此外，計劃把單一攝像機跟蹤目標擴展到攝像機網絡進行更全面的跟蹤。

References

[1] SUN X. Active-matting-based object tracking with color cues [J]. Signal Image and Video Processing, 2014, 8: 85-94.

[2] COMANICIU D. Mean shift: a robust approach toward feature space analysis [J]. Pattern Analysis and Machine Intelligence, 2002, 24 (5): 603-619.

[3] HAN H, DING Y S, HAO K R. An evolutionary particle filter with the immune genetic algorithm for intelligent video target tracking [J]. Computers and Mathematics with Applications, 2011, 62 (7): 2685-2695.

[4] HAN H, DING Y S, HAO K R. Particle filter for state estimation of jump Markov nonlinear system with application to multi-targets tracking [J]. International Journal of Systems Science, 2013, 44 (7): 1333-1343.

[5] KALAL Z. P-N learning: bootstrapping binary classifiers by structural constraints [C]//Proc. 23rd Intern. IEEE Computer Vision and Pattern Recognition. San Francisco, 2010.

[6] KALAL Z. Tracking-learning-detection [J]. The IEEE Pattern Analysis and Machine Intelligence, 2012, 34 (7): 1409-1422.

[7] ZHAO L Q, WANG J L, Y T. Nonlinear state estimation for fermentation process using cubature Kalman filter to incorporate delayed measurements [J]. Chinese Journal of Chemical Engineering, 2015, 23 (11): 1801-1810.

[8] LI L L, ZHOU D H, WANG Y Q, et al. Unknown input extended Kalman filter and applications in nonlinear fault diagnosis [J]. Chinese Journal of Chemical Engineering, 2005, 13 (6): 783-790.

[9] BERNARDIN K. Evaluating multiple object tracking performance: the CLEAR MOT metrics [J]. EURASIP Journal on Image and Video Processing, 2008: 1-10.

[10] GAO L. Communication mechanisms in ecological network-based grid middleware for service emergence [J]. Information Sciences, 2007, 177 (3): 722-733.

[11] GAO L. A web service trust evaluation model based on small-world networks [J]. Knowledge-Based Systems, 2014, 57: 146-162.

[12] GRAY D, BRENNAN S, TAO H. Evaluating appearance models for recognition, reacquisition, and tracking [C]//Proc. 11th Intern. IEEE Performance Evaluation of Tracking and Surveillance. Rio de Janeiro, 2007.

[13] JAVED O, SHAFIQUE K, RASHEED Z. Modeling inter-camera space time and appearance relationships for tracking across non-overlapping views [J]. Computer Vision and Image Understanding, 2008, 109 (2): 146-162.

[14] REDDY V, SANDERSON C, LOVELL B C. Improved foreground detection via block-based classifier cascade with probabilistic decision integration [J]. Circuits and Systems for Video Technology, 2013, 23 (1): 83-93.

[15] CHEN W, WANG X, WANG H, et al. A hybrid approach using map-based estimation and class-specific hough forest for pedestrian counting and detection [J]. IET Image Process, 2014, 8 (12): 771-781.

[16] MADDEN C, CHENG E D, PICCARDI M. Tracking people across disjoint camera views by an illumination-tolerant appearance representation [J]. Machine Vision and Applications, 2007, 18: 233-247.

[17] SHITRIT H B. Tracking multiple people under global appearance constraints [J]. Computer Vision, 2011: 137-144.

[18] POLIKAR R, DEPASQUALE J, SYED H. Learn++. MF: a randomsubspace approach for the missing feature problem [J]. Pattern Recognition, 2010, 43 (11): 3817-3832.

[19] BOUKHAROUBA K, BAKO L, LECOEUCHE S. Incremental and decremental multi-category classification by support vector machines [J]. Machine Learning and Applications, 2009: 294-300.

[20] KARAMI A H. Online adaptive motion model-based target tracking using local search algorithm [J]. Engineering Applications of Artificial Intelligence, 2014, 37: 307-318.

[21] GILBERT A, BOWDEN R. Incremental, scalable tracking of objects inter camera [J]. Computer Vision and Image Understanding, 2008, 111 (1): 43-58.

[22] YU Y, HARWOOD D. Human appearance modeling for matching across video sequences [J]. Machine Vision Applications, 2007, 18 (3): 139-149.

研究論文

Received date: 2016-01-03.

Foundation item: supported by the Key Project of the National Natural Science Foundation of China (61134009), the National Natural Science Foundation of China (61473077, 61473078, 61503075), the Cooperative Research Funds of the National Natural Science Funds Overseas and Hong Kong and Macao Scholars (61428302), the Program for Changjiang Scholars from the Ministry of Education, the Specialized Research Fund for Shanghai Leading Talents, the Project of the Shanghai Committee of Science and Technology (13JC1407500), the Innovation Program of Shanghai Municipal Education Commission (14ZZ067), Shanghai Pujiang Program (15PJ1400100) and the Fundamental Research Funds for the Central Universities (15D110423, 2232015D3-32).

Long-term visual tracking using PTLD algorithm

LIU Jian1, HAO Kuangrong1,2, DING Yongsheng1,2, YANG Shiyu1
(1College of Information Sciences and Technology, Donghua University, Shanghai 201620, China;2Engineering Research Center of Digitized Textile & Apparel Technology, Ministry of Education, Shanghai 201620, China)

Abstract:Along with such dangerous sources as big fire, explosion and toxic matter leak in the chemical plants，the visual tracking technology is a simple yet effective solution. As an effective real-time visual target tracking algorithm, the tracking-learning-detection (TLD) has drawn wide attention around the world. In this paper, we propose a prediction-tracking-learning-detection (PTLD) based visual target tracking algorithm, which is obtained by making several improvements based on the original TLD algorithm. The improvements include employing Kalman filter in the detector of TLD for estimating the location of the target to reduce the scanning region of the detector and improve the speed of the detector; adding Markov model based target moving direction predictor in the detector of TLD to increase the discretion for target with similar appearance. In addition to ascending in the tracking speed by increasing the position and speed prediction, we use the spatiotemporal analysis that also greatly

improves the tracking precision. Experimental results show that the proposed PTLD algorithm provides a means for robust real-time visual tracking.

Key words:prediction; model; algorithm; spatiotemporal analysis; real-time

DOI：10.11949/j.issn.0438-1157.20160001

中圖分類號：O 235；TQ 086

文獻標志碼：A

文章編號：0438—1157（2016）03—0967—07

基金項目：國家自然科學基金重點項目（61134009）；國家自然科學基金項目（61473077，61473078，61503075）；國家自然科學基金海外及港澳學者合作研究基金項目（61428302）；教育部長江學者獎勵計劃項目；上海領軍人才專項資金；上海市科學技術委員會重點基礎研究項目（13JC1407500）；上海市教育委員會科研創新項目（14ZZ067）；上海市浦江人才計劃項目（15PJ1400100）；中央高校基本科研業務費專項資金（15D110423，2232015D3-32）。

Corresponding author:Prof. HAO Kuangrong, krhao@dhu.edu.cn

基于PTLD的長時間視頻跟蹤算法

引 言

1 TLD算法

2 卡爾曼預測位置信息

3 目標被遮擋時的預測

4 實驗結果與討論

5 結 論

引言

5 結論