羅 建 華
(河源職業技術學院 廣東 河源 517000)
為了提升視頻目標跟蹤的魯棒性,基于機器學習的視頻目標跟蹤得到了許多研究人員的研究和發展[1-4]。其中半監督學習技術在目標跟蹤中得到了廣泛使用。使用半監督學習的優點在于可以利用大量的無標簽數據信息,這樣將減少對目標進行打標簽而帶來的人工成本,具有較強的實用價值。但是,半監督學習不能完全解決視頻跟蹤的目標外觀變化問題。文獻[5]研究表明,當無標簽樣本信息和有標簽樣本信息的統計分布不同時,半監督學習的分類預測性能相比有監督學習沒有任何優勢可言。
因此,根據運動的視頻幀具有連續性的特點,并且假定視頻目標跟蹤中包含較多的先驗信息。在此基礎上,對獲取的目標先驗信息進行編碼,以作為訓練樣本的置信度。在視頻目標跟蹤過程中,視頻目標所在的前景和背景信息有時候可能比較相近,而且視頻幀的相關內容信息可能有助于目標的檢測,雖然這些內容信息不是真實所需要跟蹤目標的一部分;如果跟蹤器在某些地方沒有精準地定位到目標所在位置,這樣目標的外觀表征模型將基于這些不準確的標簽數據進行更新,相應的,跟蹤誤差將會不斷累積,最終導致跟蹤失敗。
因此,為了減少目標跟蹤的累積誤差,提升跟蹤的魯棒性能,提出一種基于改進提升學習模型的目標跟蹤方法。對有標簽數據和無標簽數據分別設計基于一種置信度最大化的分類器,然后將分類器進行加權組合,形成一個強分類器,用于目標跟蹤。
融合有標簽數據和無標簽數據,基于改進提升學習策略,減輕目標跟蹤的誤差累積。同時,在樣本選擇的過程中基于權重配置策略,選擇置信度較高的樣本用于分類器學習,以減少訓練樣本的數量,保障目標跟蹤方法的效率。

E[C(i)]=p+(i)e-F(xi)+p-(i)eF(xi)
(1)
進一步,基于訓練樣本數據的損失函數可表示為:
(2)
式中:C被稱為置信度。為了最小化置信度C,考慮一種兩階段的組合分類器F(x)+αtft(x),其中F(x)是第一階段的分類器,ft(x)是第二階段產生的分類器函數,相應的,損失函數可表示為:
(3)
設ft(xi)={1,-1},損失函數對投票權重αt求導,可得:
(4)
(5)

(6)

綜合以上分析,ft可重寫為:
(7)
2) 結合無標簽樣本的提升改進算法 在視頻跟蹤中,無標簽樣本的數據信息要豐富得多,原因是標簽樣本需要花費大量的人力、物力去給樣本打標簽。由于無標簽樣本沒有標簽類別信息,所以假設這些無標簽數據的標簽類別為隨機變量,定義為:U=[u1,u2,…]。因此,對所有無標簽樣本,損失函數可表示為:
(8)
由于無標簽樣本U=[u1,u2,…]為無觀測隨機變量,所以采用期望最大化算法EM(Expectation Maximization)來最小化損失函數。主要的步驟如下:
(1) E步Q函數為:
(9)
式中:第一項與u不相關,所以有:
(10)

(11)
(12)

綜上分析,基于改進提升模型的視頻跟蹤算法詳細步驟為:
步驟1對第一視頻幀V1訓練弱分類器。
步驟2對接下來的每個視頻幀Vj,重復以下步驟:
步驟2.1獲取前t個視頻幀Vj-1,…,Vj-t,相應的矩形框位置設置為:lj-1,…,lj-t,對在這些矩形框內和外部的圖像像素值和相應的標簽數據進行整合,形成標簽樣本集。
步驟2.2提取前t個視頻幀Vj-1,…,Vj-t中的局部二值模式LBP(Local Binary Pattern)特征信息,采用最小二乘方法預測出前t個視頻幀Vj-1,…,Vj-t中無標簽樣本的類別標簽信息,結合步驟2.1中的有標簽數據,形成整個有標簽數據。

步驟2.4將步驟2.2和步驟2.3獲取的標簽樣本和無標簽樣本分別采用自適應提升的改進算法和結合無標簽樣本的提升改進算法進行分類,然后將兩個分類器進行加權組合,獲取最終的強分類器。
步驟2.5輸出目標跟蹤結果,即在視頻幀Vj上給出分類器在無標簽樣本上的分類置信度和相應的矩形框位置lj。
步驟3根據步驟2獲得所有視頻幀的跟蹤結果,輸出跟蹤結果的矩形框位置l2,…,ln。
為了測試視頻目標跟蹤算法的性能,采用Benchmark測試集[6]中的視頻序列數據用于跟蹤性能的比較分析,并且與近年來的三種目標跟蹤算法進行比較,分別是文獻[7]給出的目標跟蹤方法[7]TLD(Tracking-Learning Detection)、在線多示例學習跟蹤算法[8]MIL(multiple instance learning)、稀疏協同目標跟蹤方法SCM(Sparse Collaborative Model)[9]。 實驗測試環境為一臺普通計算機、CPU為Intel CoreTM i5 處理器、主頻3.3 GHz、內存8 GB ,操作系統為64位Windows 7,算法仿真平臺為MATLAB2012b。其中測試的對象為Caviar和Car6兩組視頻序列。
由于每種跟蹤算法都具有一定的隨機性,所以每種方法在測試集上都運行了10次并取平均結果作為最終的比較數據。在樣本數據的選擇中,每一個樣本均提取了 120個LBP 特征用于分類器學習。
為了度量視頻跟蹤的性能,采用平均中心點誤差和平均重疊率作為衡量準則。其中中心點誤差能反映目標跟蹤方法的穩定性,一般情況下,如果在一個視頻序列中中心點平均誤差不超過20個像素就認為跟蹤成功。平均重疊率可以體現跟蹤性能的魯棒性,因為它不但考慮了跟蹤框的位置還考慮了跟蹤框的姿態、面積、旋轉等因素。
表1和表2分別給出了文中跟蹤算法與其他幾種跟蹤算法的平均中心點誤差和平均重疊率結果比較。從表1和表2中可以看出,文中提出的跟蹤改進算法性能較好,表明提出的跟蹤改進算法具有較強的魯棒性。

表1 平均中心點誤差 像素

表2 平均重疊率 %
為了更進一步驗證上述幾種跟蹤算法的性能,圖1-圖4分別給出了文中算法與其他三種跟蹤算法的誤差對比曲線結果。從圖1-圖4中也可以看出,文中提出的跟蹤改進算法較其他三種算法性能較好,總結起來,原因包括以下兩點:
1) 文中提出的跟蹤改進算法有效利用了樣本的無標簽先驗信息,將有標簽樣本和無標簽樣本結合起來,設計了一種改進提升的強分類器,提高了跟蹤的準確率。
2) 在樣本采集過程中基于權重策略來選擇置信度較大的樣本,并利用樣本的LBP特征,用于視頻跟蹤的分類器學習中,有效解決了視頻跟蹤中隨目標外觀變化而造成的誤差累積問題,提高了目標跟蹤的穩定性和魯棒性。

圖1 Caviar視頻的中心點誤差比較
隨著視頻目標跟蹤技術的發展,為減少跟蹤中出現的累積誤差問題,本文結合無標簽樣本和有標簽樣本數據,提出了一種基于改進提升的視頻目標跟蹤算法。本文利用選擇的樣本集來訓練分類器,利用了無標簽樣本的局部二值模式特征信息,有效保留了樣本空間的局部幾何結構,進一步減少了視頻跟蹤中隨目標外觀變化而造成的誤差累積問題,提升了視頻目標跟蹤的魯棒性能。
[1] Li G,Huang Q,Qin L,et al.SSOCBT:A Robust Semisupervised Online CovBoost Tracker That Uses Samples Differently[J].IEEE Transactions on Circuits and Systems for Video Technology,2013,23(4):695-709.
[2] Zhang T,Liu S,Ahuja N,et al.Robust Visual Tracking Via Consistent Low-Rank Sparse Learning[J].International Journal of Computer Vision,2015,111(2):171-190.
[3] Lee K H,Hwang J N.On-Road Pedestrian Tracking Across Multiple Driving Recorders[J].IEEE Transactions on Multimedia,2015,17(9):1429-1438.
[4] Li A,Lin M,Wu Y,et al.NUS-PRO:A New Visual Tracking Challenge[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(2):335.
[5] Li Y F,Zhou Z H.Towards making unlabeled data never hurt[C]//International Conference on International Conference on Machine Learning.Omnipress,2011:1081-1088.
[6] Wu Y,Lim J,Yang M H.Online object tracking:A benchmark[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR),2013:2411-2418.
[7] Kalal Z,Mikolajczyk K,Matas J.Tracking-Learning-Detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(7):1409-1422.
[8] Babenko B,Yang M H,Belongie S.Robust object tracking with online multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1619-1632.
[9] Zhong W,Lu H,Yang M H.Robust object tracking via sparse collaborative appearance model[J] .IEEE Transactions on Image Processing,2014,23(5):2356-2368.