蔡自興 彭 夢 余伶俐
?
基于時序特性的自適應增量主成分分析的視覺跟蹤
蔡自興 彭 夢*余伶俐
(中南大學信息科學與工程學院 長沙 410083)
當前基于增量主成分分析(PCA)學習的跟蹤方法存在兩個問題,首先,觀測模型沒有考慮目標外觀變化的連續性;其次,當目標外觀的低維流行分布為非線性結構時,基于固定頻率更新模型的增量PCA學習不能適應子空間模型的變化。為此,該文首先基于目標外觀變化的連續性,在子空間模型中提出更合理的目標先驗概率分布假設。然后,根據當前跟蹤結果與子空間模型之間的匹配程度,自適應調整遺忘比例因子,使得子空間模型更能適應目標外觀變化。實驗結果驗證了所提方法能有效提高跟蹤的魯棒性和精度。
視覺跟蹤;主成分分析;增量子空間學習;遺忘因子;自適應增量
視覺跟蹤可以看成在連續的視頻序列中根據目標運動模型和目標外觀模型,尋找置信度最大的候選圖像區域。在現實環境中目標物的外觀通常受到光照變化、目標姿態變化、目標大小變化以及部分遮擋等因素的影響,因此如何建立一個具有增量學習能力的外觀模型成為跟蹤的最重要問題。目前已有的基于外觀模型學習的跟蹤方法主要分為3大類,基于生成模型的跟蹤方法、基于判決模型的跟蹤方法,以及基于生成模型和判決模型相結合的跟蹤方法[8,9]。生成模型的優點是能夠反映同類數據本身的相似度,缺點是對目標和背景的區分能力不足。判決模型的優點是反映了不同類別數據之間的差異,缺點是不能反映訓練數據本身的特性。在復雜的背景環境下,由于背景樣本的不完備、不準確和復雜性,基于判決模型的跟蹤方法很難準確建立目標和背景的決策邊界。另一方面,基于生成模型的跟蹤方法反映了同類樣本的分布,僅僅需要足夠多的目標樣本就能保持非常好的跟蹤精度和跟蹤魯棒性。
在圖像原始的高維空間中,包含大量冗余信息以及噪聲信息。主成分分析(Principal Component Analysis, PCA)將高維圖像數據映射到低維子空間獲取目標模板內部的本質結構特征,因此反映了目標模板在低維流行中的分布特性,減少了噪聲所造成的誤差。在此基礎上,文獻[1]提出了一種基于PCA的IVT(Incremental Visual Tracker)跟蹤算法,并實時增量地更新子空間模型以適應目標外觀的變化,在目標外觀緩慢變化情況下的IVT算法能取得較好的跟蹤性能。目前基于IVT算法的擴展研究非常多,主要集中在以下幾個方面進行改進。文獻[10,11]在IVT算法基礎上賦予目標模板不同的權值,強調目標模板對于子空間構造的不同影響程度。文獻[12]采用加權平均方式融合IVT算法和基于稀疏表達跟蹤算法的跟蹤結果。文獻[13]使用增量PCA方法構建子空間的基向量作為稀疏字典中的目標模板,然后利用稀疏表達的分類能力進行跟蹤。文獻[14]基于SIFT特征將圖像分成若干區域,然后使用IVT算法進行跟蹤。文獻[15,16]首先通過色彩、紋理、灰度、梯度方向直方圖等特征分別使用IVT算法進行跟蹤,然后融合多特征的跟蹤結果和子空間模型。
但是IVT及其所有改進的算法中存在以下兩個缺點:(1)這些方法都是基于低維子空間模型來計算候選目標的相似度,沒有充分考慮到目標變化的時間連續特性。因此一旦目標外觀發生突變或者相似背景時,容易跟蹤失敗。(2)當目標外觀的低維流行分布為非線性結構或者局部線性結構時, IVT算法按照固定的遺忘比例因子對線性子空間模型更新,顯然不能滿足復雜目標外觀變化下的魯棒跟蹤需求。對原有知識遺忘過快會降低子空間模型對目標外觀描述的精確性,對原有知識遺忘過慢則會降低子空間模型的適應性。
針對以上兩個問題,本文在IVT算法的基礎上提出了改進方法。首先針對IVT算法的觀測模型的不足,基于子空間模型中目標外觀的變化,本文提出更合理的目標的先驗概率分布假設。其次,為了能適應目標外觀變化,本文根據當前跟蹤結果與子空間模型之間的符合程度,自適應調整遺忘比例因子,使子空間模型更新頻率能適應目標外觀變化的頻率,提高了子空間模型對當前時刻目標物外觀的描述能力。
IVT算法是基于增量子空間的粒子濾波跟蹤算法,將視覺跟蹤問題看成一個隱馬爾科夫模型。設狀態變量描述了視頻圖像中時刻的目標位置和運動參數,給定一組目標圖像的觀測值,是一個維圖像向量。視覺跟蹤的本質是基于隱馬爾科夫模型由觀測數據估計出目標的當前狀態的后驗概率分布,如式(1)所示,其中為觀測模型,為相鄰時刻目標狀態間的運動模型。



為了提高子空間模型對目標物外觀變化的適應性,IVT算法采用增量更新的子空間作為目標的外觀模型,在跟蹤過程中有效地學習和更新目標的特征子空間。隨著跟蹤過程的推進,為了平衡新舊觀測數據的比重,IVT算法在更新子空間模型時引入了遺忘比例因子,在每次更新子空間模型時都給先前的均值和特征值乘上一個系數。
本文針對IVT算法的不足進行如下改進:本文首先基于子空間模型內的目標外觀變化的時序性改進了目標的先驗概率分布假設,使得目標外觀發生突變或者相似背景時,仍能進行魯棒的目標跟蹤,不出現發散現象。其次,本文設計了一種方法來評價當前跟蹤結果與子空間模型之間的匹配程度,通過自適應調整遺忘比例因子,平衡特征子空間模型的新舊觀測數據比重,使得子空間模型更能適應目標外觀變化。
IVT算法的觀測模型只關注于候選目標的相似性,而忽略了子空間模型內的目標外觀變化的時間連續特性。因此本節改進了IVT算法的觀測模型,把時序特性引入到觀測模型中,使得目標在子空間模型內的先驗概率分布假設更為合理。本文的觀測模型是建立在以下兩個合理假設之上的。(1)假設上一時刻,即時刻,目標跟蹤的結果是可信的。(2)假設時間序列上相鄰兩幀跟蹤結果在子空間模型上投影的變化不大。
本文提出的基于時序特性的觀測模型的推導過程,如式(4)所示。首先,引入變量,根據全概率公式可以得出式(4)中的第1步推導。然后,根據文獻[17]的關于PCA特征子空間中概率分布的計算原理,認為除將為的子項保留,其它對應的很小,故不予考慮,因此可以得出式(4)中的第2步推導。最后,在滿足以下條件:給定,則與和相互獨立;給定,和相互獨立,可以得出式(4)中的第3步推導。

IVT算法的觀測模型[1],如式(3)所示,只對應了新的觀測模型的第1子項部分,如式(4)所示。然而目標外觀的先驗概率分布,即式(4)的第2子項部分被簡單設置為1。因此一旦目標外觀不符合子空間模型或者子空間模型對目標和背景的區分性很低時,容易跟蹤失敗。本文的觀測模型充分考慮到目標外觀變化的時間連續特性,即上述的假設(2),使用時間序列上相鄰兩幀跟蹤結果在子空間模型上投影的差異作為子空間模型內目標外觀的先驗概率分布的度量準則,構建更有效的觀測模型。基于子空間模型,式(4)中的和由服從高斯分布的概率密度函數可以獲得[17],如式(5)和式(6)所示,其中為特征空間中心。由于在觀測模型中引入了目標外觀變化的時間序列特性,因此當子空間模型與當前目標外觀存在偏差時或者子空間模型對目標和背景的區分性降低時,本文的跟蹤方法仍然能憑借觀測模型的時序特性保持魯棒的跟蹤。


僅僅依靠在觀測模型中引入了目標外觀變化的時間序列特性(3.1節),只能在特征子空間模型還未出現較大偏差的短時間內保持穩定的跟蹤。當目標外觀的低維流行分布為非線性結構時,為了適應目標的外觀變化,需要跟蹤算法能夠及時重新構建或者修正特征子空間模型。針對這一問題,當前IVT的一些改進方法采用將低維子空間模型構建成多個線性子空間模型,并且結合稀疏表達分類的原理進行目標跟蹤。但是這些方法憑經驗設置劃分子空間的閾值,不可能滿足各種目標形變和光照環境;同時多線性子空間模型增加了模型的復雜度,構建模型時容易出現過擬合。為此本文設計了一種評價子空間模型描述當前跟蹤結果準確性的判決機制,通過自適應調整遺忘比例因子,平衡特征子空間模型的新舊觀測數據比重,提高子空間模型對當前時刻跟蹤結果的描述準確性。
基于當前跟蹤結果是正確的假設前提下,評價子空間模型是否準確描述當前時刻的跟蹤結果,從圖像觀測的角度來看本質上就是當前跟蹤結果區域(即3.1節的跟蹤結果)和基于子空間模型相似度最大區域之間的重疊部分的比例大小,重疊區域比例越大表明當前跟蹤結果與模型之間的符合程度越高。因此本文根據使用式(4)新的觀測模型估計的目標中心位置和使用式(3)原有觀測模型估計的目標中心位置之間的差異,判斷子空間模型的可靠性。當兩者的中心位置之間的差異越大時,表明重疊區域比例越小,模型的可靠性越低,應該盡快更新模型拋棄舊樣本的知識來適應目標和環境變化,所以給遺忘比例因子設置較大值;當兩者的中心位置之間的差異越小時,表明重疊區域比例越大,模型的可靠性越高,應該盡量保存舊樣本的知識來維持模型對目標外觀描述的精確性,所以給遺忘比例因子設置較小值。


綜合上述兩節對IVT跟蹤算法進行的改進(3.1節和3.2節),本文提出了一種基于時序特性的自適應增量PCA的目標跟蹤算法,算法流程圖見表1。其中子空間模型和子空間均值的更新具體步驟見文獻[1],為候選目標的粒子權重,為粒子濾波的粒子個數。

圖1 遺忘比例因子和的變化關系曲線
表1本文提出的跟蹤算法

輸入:圖像,粒子數,目標的初始狀態。輸出:每幀圖像中目標的跟蹤結果。(1)根據目標的初始狀態初始化子空間模型,樣本均值;(2) Fordo;(3) 根據運動模型預測當前的粒子狀態,并獲取對應的觀測值,式(2);(4) 根據式(4)計算為目標的置信值;(5) 根據式(8)計算遺忘比例因子;(6) 取置信值最大的粒子作為跟蹤結果,并根據和更新子空間模型和樣本均值;(7) 根據對粒子進行重采樣獲取新的;(8) End for
為了評估本文算法執行結果,我們在多個經典的公開測試視頻序列上進行了一系列的實驗,并將本文算法和當前流行的經典跟蹤算法IVT[1], L1APG[2]以及最新的跟蹤算法MIML[7]進行了比較。這些視頻中包含了各種有挑戰性的情形:包括目標遮擋、光照變化、相似背景、旋轉變化和尺度變化等。
本文所有算法統一將粒子數定為300個。通過仿射變化將目標區域規則化,IVT和本文算法將目標區域規則化為矩陣,L1APG算法和MIML將目標區域規則化為矩陣。
第1個測試視頻Sylvester包含了光照變化和劇烈的姿態變化。如圖2所示在第400, 700, 1000和1200幀比較各算法結果,IVT, L1APG和MIML算法不能適應變化而偏離了實際目標,本文算法由于考慮了目標外觀變化的時間序列連續特性并且自適應調整遺忘比例因子,所以跟蹤結果表現出較好的魯棒性。
第2個測試視頻Car4包含了較大的光照變化和復雜背景。如圖3所示在第200, 300, 400和600幀比較各算法結果,L1APG算法不能適應變化而偏離了實際目標,IVT算法從第300幀以后都引入太多背景。本文算法由于考慮了目標外觀變化的時間序列連續特性,對目標能進行更穩定而精確的跟蹤。
第3個測試視頻Cardark包含了劇烈的光線變化和相似背景。如圖4所示在第100, 200, 300和390幀比較各算法結果,IVT和MIML算法不能適應變化而偏離了實際目標,本文的算法由于考慮了目標外觀變化的時間序列連續特性,能較好地區分目標和相似背景,對目標能進行穩定而精確的跟蹤。
本節對跟蹤誤差進行定量的分析,使用了平均中心位置誤差和平均重疊率作為定量分析的統計量。中心位置誤差是指圖像中跟蹤結果的中心位置與實際值的中心位置之間的歐式距離,單位是像素。重疊率指的是跟蹤結果的區域和目標真實值的區域之間的重疊部分所占的比率。表2比較了不同算法在6個經典視頻中的跟蹤結果的平均中心位置誤差,表3比較了不同算法在6個經典視頻中的跟蹤結果的平均重疊率,可以看出本文算法在大部分視頻中保持了較低的平均中心位置誤差和較高的平均重疊率,表現出好于其它算法的跟蹤精度,具有較好的跟蹤魯棒性。
IVT算法只關注于候選圖像樣本之間的相似性,而忽略了子空間模型內的目標外觀變化的時間連續特性,并且采用固定頻率更新線性的子空間模型。因此在測試視頻中,當目標外觀發生突變或者目標和背景不容易區分時,跟蹤結果發生了嚴重的漂移,容易跟蹤失敗。
L1APG算法缺乏根據目標樣本的分布準確地描敘目標流行結構的能力,區分背景和目標的能力差。并且采用基于固定閾值的模板更新策略,字典的樣本更新過慢,不能適應目標外觀的變化。因此在所有長時間序列的測試視頻中,容易跟錯目標。
MIML算法通過單一的線性映射將高維空間中的樣本特征投影到低維空間進行特征提取,并且采用基于固定頻率的度量空間更新策略。因此,當目標外觀的低維流行分布為非線性結構時,很難構建一個有效的線性的度量空間。當發生劇烈的目標姿態變化或者遮擋時,度量空間中的距離不能準確反映候選目標的置信度,因此容易引入背景造成跟蹤漂移。
本文的算法把目標外觀變化的時序特性引入到觀測模型,使得目標在子空間模型內的先驗概率分布假設更為合理。同時,本文算法根據子空間模型和當前跟蹤結果符合程度,及時進行修正子空間模型,平衡特征子空間模型的新舊觀測數據比重。因此本文算法對目標能進行魯棒而精確的跟蹤。

圖2 視頻Sylvester跟蹤結果比較

圖3 視頻Car4跟蹤結果比較

圖4 視頻Cardark跟蹤結果比較
表2比較不同算法在6個測試視頻的平均中心位置誤差(單位為像素)

測試視頻IVT算法L1APG算法MIML算法本文算法 Sylvester34.2 23.5 56.8 8.1 Car416.9 63.8 5.2 4.5 Cardark 8.4 2.0 9.1 1.2 Dudek14.1112.8 68.510.4 Basketball 8.5 28.9153.411.2 David 9.9 73.9 24.7 4.9
表3比較不同算法在6個測試視頻的平均重疊率(%)

測試視頻IVT算法L1APG算法MIML算法本文算法 Sylvester0.520.480.210.62 Car40.510.250.460.78 Cardark0.660.830.280.88 Dudek0.730.560.620.71 Basketball0.300.270.070.45 David0.560.230.350.65
基于增量PCA學習的跟蹤方法只關注于圖像樣本之間的相似性,而忽略了子空間模型內的目標外觀變化的時間連續特性。為此,本文首先改進了目標的先驗概率分布假設,構建更有效的觀測模型。其次,為了平衡特征子空間模型的新舊觀測數據比重,本文設計了一種評價子空間模型描述當前跟蹤結果準確性的判決機制,通過自適應調整遺忘比例因子,提高子空間模型對當前時刻目標外觀描述的準確性。因此當子空間模型與當前目標外觀存在偏差時,本文的跟蹤方法仍然能保持魯棒的跟蹤,適應目標外觀的突變和復雜背景。實驗結果定性和定量地顯示本文方法能有效提高跟蹤的魯棒性和跟蹤的精度。
[1] Ross D A, Lim J W, Lin R S,.. Incremental learning for robust visual tracking[J]., 2008, 77(1-3): 125-141.
[2] Bao C L, Wu Y, Linh H B,.. Real time robust L1 tracker using accelerated proximal gradient approach[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Rhode Island, 2012: 1830-1837.
[3] MeI X and Ling H B. Robust visual tracking and vehicle classification via sparse representation[J]., 2011, 33(11): 2259-2272.
[4] Babenko B, Yang M H, Belongie S,.. Robust object tracking with online multiple instance learning[J]., 2011, 33(8): 1619-1632.
[5] Grabner H and Bischof H. On-line boosting and vision[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York, 2006, 1: 260-267.
[6] Avidan S. Ensemble tracking[J]., 2007, 29(2): 261-271.
[7] Yang M, Zhang C X, Wu Y W,.. Robust object tracking via online multiple instance metric learning[C]. Electronic Proceedings of the 2013 IEEE International Conference on Multimedia and Expo Workshops, San Jose, 2013: 1-4.
[8] Zhong Wei, Lu Hu-chuan, and Yang M. Robust object tracking via sparse collaborative appearance model[J]., 2014, 23(5): 2356-2368.
[9] 呂卓紋, 王科俊, 李宏宇, 等. 融合Camshift的在線Adaboost目標跟蹤算法[J]. 中南大學學報(自然科學版), 2013, 44(2): 232-238. Lu Zhuo-wen, Wang Ke-jun, Li Hong-yu,.. Online Adaboost target tracking algorithm combined fused with Camshift[J].(), 2013, 44(2): 232-238.
[10] 錢誠, 張三元. 適用于目標跟蹤的加權增量子空間學習算法[J]. 浙江大學學報(工學版), 2011, 45(12): 2240-2246. Qian Cheng and Zhang San-yuan. Weighted incremental subspace learning algorithm suitable for object tracking[J].(), 2011, 45(12): 2240-2246.
[11] Cruz-Mota J, Bierlaire M, and Thiran J. Sample and pixel weighting strategies for robust incremental visual tracking[J]., 2013, 23(5): 898-911.
[12] Xie Yuan, Zhang Wen-sheng, Qu Yan-yun,.. Discriminative subspace learning with sparse representation view-based model for robust visual tracking[J]., 2014, 47(3): 1383-1394.
[13] Ji Zhang-jian, Wang Wei-qiang, and Xu Ning. Robust object tracking via incremental subspace dynamic sparse model[C]. Proceedings of IEEE International Conference on Multimedia and Expo, Chengdu, 2014: 1-6.
[14] Guo Yan-wen, Chen Ye, and Tang Feng. Object tracking using learned feature manifolds[J]., 2014, 118(1): 128-139.
[15] Chen Wei-hua, Cao Li-jun, and Zhang Jun-ge. An adaptive combination of multiple features for robust tracking in real scene[C]. Proceedings of the IEEE International Conference on Computer Vision, Sydney, 2013: 129-136.
[16] Yang Han-xuan, Song Zhan, and Chen Ru-nen. An incremental PCA-HOG descriptor for robust visual hand tracking[J]., 2010, 6553: 687-695.
[17] Moghaddam B and Pentland A. Probabilistic visual learning for object detection[C]. Proceedings of the IEEE International Conference on Computer Vision, Cambridge, 1995: 786-793.
[18] Chen Feng, Wang Qing, Wang Song,.. Object tracking via appearance modeling and sparse representation[J]., 2011, 29(11): 787-796.
[19] Wang Dong, Lu Hu-chuan, and Yang M H . Online object tracking with sparse prototypes[J]., 2013, 22(1): 314-325.
[20] Wang Qing, Chen Feng, Xu Wen-li,.. Object tracking via partial least squares analysis[J]., 2012, 21(10): 4454-4465.
Adaptive Incremental Principal Component Analysis Visual Tracking Method Based on Temporal Characteristics
Cai Zi-xing Peng Meng Yu Ling-li
(,,410083,)
Existing visual tracking methods based on incremental Principal Component Analysis (PCA) learning have two problems. First, the measurement model does not consider the continuation characteristics of the object appearance changes. Second, when the manifold distribution of target appearance is non-linear structure, the incremental principal component analysis learning based on fixed update frequency can not adapt to changes of subspace model. Therefore, the more reasonableprobability distribution of targets is proposed based on the continuity of the object appearance changes in the subspace model. Then, according to the matching degree between the current tracking results and the subspace model, the proposed method adaptively adjusts forgetting factor, in order to make the subspace model more adaptable to the object appearance change. Experimental results show that the proposed method can improve the tracking accuracy and robustness.
Visual tracking; Principal Component Analysis (PCA); Incremental subspace learning; Forgetting factor; Adaptive increment
TP391
A
1009-5896(2015)11-2571-07
10.11999/JEIT141646
2014-12-25;改回日期:2015-07-20;
2015-08-25
彭夢 pengmeng_pm@csu.edu.cn
國家自然科學基金重大研究計劃(90820302);國家自然科學基金(61175064, 61403426, 61403423)
The Major Research Project of the National Natural Science Foundation of China (90820302); The National Natural Science Foundation of China (61175064, 61403426, 61403423)
彭 夢: 男,1978年生,博士生,研究方向為視覺跟蹤和多傳感器融合.
蔡自興: 男,1938年生,教授,博士生導師,研究方向為人工智能、智能控制、機器人.