曾 旭,王元全
(天津理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,天津300384)
視覺(jué)跟蹤的主要難點(diǎn)是解決在跟蹤過(guò)程中出現(xiàn)的一些問(wèn)題,例如,光照變化、外觀改變、以及部分或全部遮擋。在當(dāng)前的追蹤技術(shù)中,產(chǎn)生模型和區(qū)別模型是兩種主要的方法。產(chǎn)生模型是學(xué)習(xí)一種模型來(lái)表示目標(biāo)物體,然后用它來(lái)搜索具有最小重構(gòu)誤差的圖像區(qū)域。在IVT 方法[1]中提出在線模型來(lái)應(yīng)對(duì)外觀變化,以此來(lái)改善了通過(guò)離線學(xué)習(xí)進(jìn)行追蹤導(dǎo)致的目標(biāo)丟失問(wèn)題。最近,稀疏表示[2]被用于實(shí)現(xiàn)跟蹤,它對(duì)于部分遮擋、光照變化和位姿改變有很好的效果。然而,這些產(chǎn)生算法并沒(méi)有考慮背景信息,而這個(gè)因素有可能提高追蹤的準(zhǔn)確性。
區(qū)別模型把追蹤當(dāng)作一個(gè)分類器來(lái)構(gòu)建,它目的在于從背景中區(qū)分出目標(biāo)。Grabner等[3]提出一個(gè)在線半監(jiān)督boosting算法來(lái)減緩漂移問(wèn)題;Collins等[4]已經(jīng)證明一個(gè)在線方式的選擇性區(qū)別特征能提高追蹤效果;Kalal等[5]提出P-N 學(xué)習(xí)算法利用潛在的正負(fù)樣本結(jié)構(gòu)來(lái)進(jìn)行物體追蹤。
本文提出了基于局部稀疏表示的目標(biāo)跟蹤方法,將產(chǎn)生模型和區(qū)別模型結(jié)合起來(lái)進(jìn)行目標(biāo)物體的跟蹤,其中本文通過(guò)對(duì)目標(biāo)區(qū)域局部圖像塊進(jìn)行稀疏編碼來(lái)表示目標(biāo),這種基于局部特征的跟蹤器能夠很好的應(yīng)對(duì)目標(biāo)的外觀變化,同時(shí),將遮擋情況進(jìn)行了分類處理:對(duì)于物體中遮擋的部分和其余剩下的部分,跟蹤器會(huì)采用不同的處理方法。通過(guò)邏輯回歸分類器進(jìn)行分類,很好地區(qū)分出目標(biāo)和背景,從而實(shí)現(xiàn)準(zhǔn)確的跟蹤。
在本文方法中,通過(guò)局部稀疏表示建模目標(biāo)的觀測(cè)模型,即對(duì)局部圖像塊稀疏編碼表示目標(biāo)。第一幀初始化目標(biāo)物體,在目標(biāo)區(qū)域內(nèi)用有重疊的滑動(dòng)窗提取局部圖像塊,矢量化后得到目標(biāo)集T =[t1,t2,…,tn1]∈Rd×n1,d代表圖像塊的大小,n1是圖像塊的數(shù)目。同樣,在目標(biāo)區(qū)域附近用滑動(dòng)窗采樣圖像塊,矢量化后得到背景集Tb=[tb1,tb2,…,tbn2]∈Rd×n2,為了便于表示,令n1+n2=n,則我們的字典構(gòu)造由如下所示

通過(guò)字典D,即可對(duì)目標(biāo)區(qū)域的圖像塊進(jìn)行編碼表示,Y =[y1,y2,…,yN]∈Rd×N表示從目標(biāo)區(qū)域提取的矢量化后的圖像塊,那么,與y1相對(duì)應(yīng)的稀疏編碼ai∈Rn×1,可由下式計(jì)算得到

式 (2)實(shí)際上就是Lasso回歸,可以通LARS有效地解決。
最后,連接所有的稀疏編碼表示目標(biāo)的觀測(cè)型

遮擋問(wèn)題作為目標(biāo)追蹤過(guò)程中一個(gè)不可避免的因素,我們通過(guò)對(duì)目標(biāo)的觀測(cè)模型進(jìn)行表示的時(shí)候,修改相應(yīng)的稀疏系數(shù),從而達(dá)到具有遮擋的圖像塊被排除的效果,進(jìn)而這個(gè)干擾問(wèn)題得到了處理。假設(shè)屬于目標(biāo)的圖像塊的重構(gòu)誤差很小,那么就可通過(guò)設(shè)定閾值的方法對(duì)遮擋進(jìn)行判斷。如果所檢測(cè)到的圖像塊的重構(gòu)誤差比較大,則認(rèn)定其為遮擋了的圖像塊,從而設(shè)置與之相對(duì)應(yīng)的圖像塊的權(quán)重為0;相反,當(dāng)檢測(cè)到的圖像塊其重構(gòu)誤差比較小的時(shí)候,認(rèn)定其沒(méi)有被遮擋,因此設(shè)置相應(yīng)的系數(shù)為1,最終通過(guò)這些圖像塊的信息對(duì)目標(biāo)的觀測(cè)模型進(jìn)行表示。
在本章中,候選目標(biāo)的遮擋情況用向量表示,第i個(gè)元素表示第i 個(gè)圖像塊的遮擋情況。
方法如下

式中:εi= yi-Dαi是圖像塊yi的重構(gòu)誤差,ε0是預(yù)先定義完的閾值,可以用來(lái)判定圖像塊遮擋情況。如圖1所示,向量i 包含N 個(gè)元素,對(duì)應(yīng)于N 個(gè)圖像塊,每個(gè)元素取值的大小由相對(duì)應(yīng)圖像塊的重構(gòu)誤差決定,如果圖像塊具有較大重構(gòu)誤差,判定為被遮擋,設(shè)置對(duì)應(yīng)的稀疏為0。因此,加權(quán)的稀疏系數(shù)為

式中:⊙——點(diǎn)乘。

圖1 候選圖像遮擋情況
近幾十年來(lái),目標(biāo)跟蹤問(wèn)題被看作為分類問(wèn)題,成為了新的研究方向,目標(biāo)就是要把背景和目標(biāo)分開。該種方法通過(guò)找到一個(gè)決策邊界進(jìn)行目標(biāo)和背景的分離,因此,對(duì)于背景混亂的情況,該種方法可以很好地解決。另外,對(duì)于具有復(fù)雜運(yùn)動(dòng)的物體可由在線監(jiān)測(cè)進(jìn)行解決,通過(guò)不斷的更新決策邊界情況,很好地適應(yīng)目標(biāo)物體的變化。最近,有很多通過(guò)boosting算法來(lái)學(xué)習(xí)分類器[6]的鑒別追蹤算法,本文中不同,我們使用邏輯回歸分類器[7]來(lái)分類。
邏輯回歸模型可以認(rèn)為是一種logistic方程歸一化后的廣義的線性回歸模型,通過(guò)特征學(xué)習(xí)進(jìn)行分類。邏輯回歸模型的數(shù)學(xué)表達(dá)式

式中:x——n維特征向量,函數(shù)g為logistic函數(shù)。
邏輯回歸的損失函數(shù)

注意,式 (7)括號(hào)中的公式正是對(duì)邏輯回歸進(jìn)行最大似然估計(jì)中的最大似然函數(shù),對(duì)于最大似然函數(shù)求最大值,從而得到參數(shù)θ的估計(jì)值,所以,這里求一個(gè)合適的參數(shù),需要最小化損失函數(shù)即:minθJ(θ)。
本文中使用邏輯回歸分類器能夠很好的區(qū)分出目標(biāo)物體和背景,首先進(jìn)行分類器的初始化,即通過(guò)在第一幀提取正負(fù)樣本來(lái)初始化分類器,這里,假定在第1幀中給定的目標(biāo)物體的位置L1=(x1,y1),那么在附近小于半徑γ的范圍內(nèi)提取正樣本,其位置Lpos滿足 Lpos-L1<γ。同樣,負(fù)樣本的選取滿足環(huán)形區(qū)域γ< Lneg-L1<η,γ和η 為采樣半徑,即與選定目標(biāo)物體中心有一定距離的一個(gè)環(huán)形區(qū)域內(nèi)。
本文中我們?cè)O(shè)定yi∈{+1,-1},計(jì)算得到每個(gè)圖像塊的稀 疏編碼形 成 訓(xùn) 練 數(shù) 據(jù) 為{zi,yi}Mi=1,其 中zi∈Rn,M 為訓(xùn)練樣本的數(shù)目。
通過(guò)最小化下面損失函數(shù)來(lái)學(xué)習(xí)分類器

式中:w——分類器參數(shù),λ控制正則項(xiàng)的長(zhǎng)度,由于yi∈{+1,-1}根據(jù)式 (7)可得

對(duì)于任一候選z,其分類器的分?jǐn)?shù)計(jì)算如下

一旦分類器被初始化,分類器的分?jǐn)?shù)能夠被用于相似性度量進(jìn)行跟蹤。具有最大分類器分?jǐn)?shù)的樣本即maxh(z),表明更加有可能屬于前景目標(biāo)級(jí),所以,一般具有最大分類器分?jǐn)?shù)的樣本被看作當(dāng)前幀的追蹤結(jié)果。
根據(jù)上述的局部稀疏表示和線性分類器兩部分,提出一個(gè)基于貝葉斯推理框架下的追蹤方法,即將目標(biāo)跟蹤問(wèn)題當(dāng)成是貝葉斯推理問(wèn)題。
給定物體的觀測(cè)值z(mì)1:t={z1,…,zt}后,可以通過(guò)最大后驗(yàn)概率估算目標(biāo)狀態(tài)變量xt,即

后驗(yàn)概率p(xt|z1:t)由貝葉斯理論推理得到



式中:h(·)為式 (11)定義的分類器。
為了驗(yàn)證本節(jié)提出的算法的跟蹤性能,我們選取5組測(cè)試視頻作為實(shí)驗(yàn)視頻,這5個(gè)視頻圖像序列包含的挑戰(zhàn)性情形如:包括光照變化,背景混亂,姿態(tài)變化,遮擋,平面內(nèi)外旋轉(zhuǎn),尺度變化等等。表1總結(jié)了本文使視頻序列包含的跟蹤挑戰(zhàn)。實(shí)驗(yàn)中對(duì)本章方法、MIL (multiple instance learning)[8]和 OAB (online AdaBoost)[9]、Frag Tracker[10]4種方法進(jìn)行了比較,其中短劃線矩形框表示OAB算法的跟蹤結(jié)果,長(zhǎng)劃線-點(diǎn)矩形框表示Frag算法的跟蹤結(jié)果,點(diǎn)點(diǎn)矩形框表示MIL 算法的跟蹤結(jié)果,實(shí)線矩形框表示本章的跟蹤結(jié)果,分析結(jié)果如下。

表1 用于實(shí)驗(yàn)測(cè)試的視頻序列
圖2中是CarDark視頻序列,它的特點(diǎn)是光照的劇烈變化,汽車在這種環(huán)境下行駛,就容易造成目標(biāo)和背景對(duì)比度很低的問(wèn)題,這種較低的對(duì)比度和劇烈的光照變化都使得準(zhǔn)確跟蹤目標(biāo)很有挑戰(zhàn)性。從圖2中可以看出,汽車在行駛的道路上一直存在著較大的光照變化,在#32Frag跟蹤器有一些漂移,當(dāng)對(duì)面迎來(lái)的汽車燈光照在目標(biāo)汽車上 (如#75、#135 和#225),這種劇烈的光照變化使得Frag跟蹤器漂移到路面背景上,目標(biāo)丟失,MIL 跟蹤器則逐漸發(fā)生漂移從#75有少量漂移到#225丟失目標(biāo)跟蹤到其它車輛上,而OAB跟蹤器只是有些漂移,還能跟蹤到目標(biāo)汽車。#280 汽車改變方向逐漸到路邊 (如#280 和#378),并且汽車正上方的路燈不斷閃爍,我們看到Frag跟蹤器依然丟失目標(biāo),MIL 跟蹤器也逐漸遠(yuǎn)離目標(biāo),而OAB跟蹤器由于汽車改變方向和路燈閃爍而丟失了目標(biāo)。本文的方法在整個(gè)汽車行駛過(guò)程中跟蹤的都很好,充分展示了該方法的準(zhǔn)確性和魯棒性。

圖2 CarDark視頻序列
圖3中是對(duì)Bird 視頻序列進(jìn)行追蹤的部分結(jié)果。圖中小鳥悠閑的走來(lái)走去,經(jīng)歷了走路和轉(zhuǎn)身等的姿態(tài)變化,旁邊還有幾只小黃鳥干擾著目標(biāo),這種姿態(tài)變化和局部遮擋給準(zhǔn)確追蹤目標(biāo)增加了難度。圖3中從#22開始Frag跟蹤器就發(fā)生了漂移,到最后也沒(méi)有準(zhǔn)確跟蹤上。而MIL 和OAB追蹤器在小鳥轉(zhuǎn)身前只是有少量的漂移,在#58小鳥轉(zhuǎn)過(guò)身后由于外觀發(fā)生了較大的變化同時(shí)旁邊還有干擾產(chǎn)生局部遮擋,MIL和OAB追蹤器漂移量逐漸增大,到#89時(shí)OAB追蹤器完全丟失了目標(biāo)。而從結(jié)果中可知我們的方法全程都可以實(shí)現(xiàn)較好的跟蹤,這種基于局部特征的跟蹤器能很好的應(yīng)對(duì)目標(biāo)外觀變化。

圖3 Bird視頻序列
從圖4中可以看出,Board視頻對(duì)于準(zhǔn)確追蹤目標(biāo)很有挑戰(zhàn)性,因?yàn)橐曨l序列中的目標(biāo)經(jīng)歷了背景凌亂、面外旋轉(zhuǎn)以及尺度變化。從#73和#120可以看出Frag 跟蹤器只有在外觀沒(méi)有劇烈變化的情況下才能夠跟蹤準(zhǔn)確,當(dāng)目標(biāo)加快速度移動(dòng)和旋轉(zhuǎn)時(shí) (從#490 和#502 可以看出),F(xiàn)rag跟蹤器不能完成跟蹤任務(wù)。而OAB 和MIL 跟蹤器在一開始目標(biāo)經(jīng)過(guò)背景凌亂的情況下就不能準(zhǔn)確跟蹤目標(biāo),當(dāng)目標(biāo)發(fā)生旋轉(zhuǎn)時(shí),MIL 跟蹤器能夠跟上目標(biāo) (#490 和#502),但是到后來(lái)還是發(fā)生了漂移,到最后丟失了目標(biāo)(#652)。從圖4中我們可知OAB 跟蹤器一直都沒(méi)能準(zhǔn)確跟蹤到目標(biāo)。本文的方法能夠比較好的進(jìn)行跟蹤,因?yàn)樵诰€構(gòu)造的字典既包含了目標(biāo)信息又包含了背景信息,具有一定的區(qū)別性,邏輯回歸分類器的使用也能很好的出目標(biāo)和背景。從圖6中也可看出我們的方法跟蹤誤差最小。

圖4 Board視頻序列
圖5是Sylv視頻序列的部分跟蹤結(jié)果,該視頻中玩偶在房間內(nèi)做出各種變化姿態(tài)旋轉(zhuǎn)角度,同時(shí)還在不同的光照條件下來(lái)回移動(dòng),因此Sylv視頻的挑戰(zhàn)在于對(duì)不同光照條件下長(zhǎng)時(shí)間的移動(dòng)且過(guò)程中伴隨著各種姿態(tài)角度的變化。從圖5中可以看出,4種跟蹤方法幾乎都能準(zhǔn)確跟蹤 (如#130),隨著玩偶不停地長(zhǎng)時(shí)間的移動(dòng)變化姿態(tài),MIL 跟蹤器開始出現(xiàn)了漂移現(xiàn)象,一直到#462 都跟蹤的不是很準(zhǔn)確;Frag跟蹤器在前面300幀表現(xiàn)很好,但是經(jīng)歷了長(zhǎng)時(shí)間的來(lái)回移動(dòng)后出現(xiàn)跟蹤失效 (如#386);OAB 跟蹤器的跟蹤效果比MIL跟蹤的好,從圖中#386出現(xiàn)明顯漂移現(xiàn)象,最后#462 的視角變化時(shí)也沒(méi)有準(zhǔn)確跟蹤到玩偶。而我們的方法在整段視頻中無(wú)論是光照下長(zhǎng)時(shí)間來(lái)回移動(dòng)還是平面外旋轉(zhuǎn)的變化下都能準(zhǔn)確跟蹤到目標(biāo)。

圖5 Sylv視頻序列
為了客觀準(zhǔn)確的評(píng)估本文方法和其它3 種跟蹤方法,本文使用目前廣泛流行的跟蹤結(jié)果與真值間的中心點(diǎn)位置誤差作為衡量準(zhǔn)則。其計(jì)算公式如下

式 (15)是xg和yg分別代表人工標(biāo)定的目標(biāo)真實(shí)值的x 方向和y 方向的坐標(biāo)值:xt和yt分別代表不同方法的跟蹤結(jié)果在兩個(gè)坐標(biāo)軸上的值。
如圖6所示中心位置誤差的曲線圖,這里橫縱坐標(biāo)分別表示的是序列幀號(hào)和中心位置誤差像素個(gè)數(shù),結(jié)果表明本文方法在4種具有不同跟蹤挑戰(zhàn)的視頻中都有比較好的表現(xiàn),相對(duì)于另外3種跟蹤方法有一定的優(yōu)勢(shì)。
本文通過(guò)局部稀疏表示目標(biāo)物體,使得這種基于局部特征的跟蹤器能夠很好的應(yīng)對(duì)目標(biāo)的外觀變化,同時(shí)文中對(duì)遮擋做了處理,使得跟蹤器對(duì)遮擋部分和未遮擋部分采用不同的處理方式,即通過(guò)修改稀疏系數(shù)剔除被遮擋的圖像塊,最后通過(guò)邏輯回歸分類器進(jìn)行分類,很好地區(qū)分出目標(biāo)和背景。文本方法很好地解決了由于位姿或遮擋等局部細(xì)節(jié)變化而造成的跟蹤失敗問(wèn)題。實(shí)驗(yàn)結(jié)果表明,我們的跟蹤方法與其它主流跟蹤方法相比具有更好的性能。

圖6 4種視頻圖像的跟蹤誤差曲線
[1]Ross D,Lim J,Lin R,et al.Incremental learning for robust visual tracking [J].International Journal of Computer Vision,2008,77 (1-3):125-141.
[2]Mei X,Ling H.Robust visual tracking using l1 minimization[C]//International Conference on Computer Vision,2009:1436-1443.
[3]Grabner H,Leistner C,Bischof H.Semi-supervised on-line boosting for robust tracking [C]//European Conference on Computer Vision,2008:234-247.
[4]Kwon J,Lee KM.Visual tracking decomposition [C]//IEEE Conference on Computer Vision and Pattern Recognition,2010:1269-1276.
[5]Kalal Z,Matas J,Mikolajczyk K.P-N learning:Bootstrapping binary classifiers by structural constraints [C]//IEEE Conference on Computer Vision and Pattern Recognition,2010:49-56.
[6]Avidan S.Ensemble tracking [J].IEEE Transactions on PAMI,2007,29 (2):261-271.
[7]Ng A,Jordan M.On discriminative vs.generative classifier:A comparison of logistic regression and naive Bayes [C]//Neural Information Processing Systems,2002:841-848.
[8]Babenko B,Yang M,Belongie S.Robust object tracking with online multiple instance learning [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33 (8):1619-1632.
[9]Grabner H,Leistner C,Bischof H.Semi-supervised on-line boosting for robust tracking [C]//European Conference on Computer Vision,2008:234-247.
[10]Adam A,Rivlin E,Shimshoni J.Robust fragments-based tracking using the integral histogram [C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2006:798-805.