肖少明 何小海 王正勇 卿粼波
(四川大學電子信息學院 四川 成都 610065)
視頻目標跟蹤的實質可以理解為:在第一幅圖像里獲取目標的基礎信息后,如何在以后的圖像幀中精確地找到目標位置。人類跟蹤目標是通過眼睛獲取目標信息,經(jīng)過大腦處理,找到目標的一些固定特征,繼而當目標運動時,能夠根據(jù)這些固定特征跟蹤上目標。但是在計算機利用攝像頭跟蹤時,會遇到一些問題:計算機該通過圖像獲取哪些特征,且獲取的這些特征最好是當目標運動時改變也比較小,這樣有利于計算機在后續(xù)圖像提取特征之后進行比較;提取特征時的計算量不能太大,否則就達不到實時的要求。因此目標跟蹤領域最重要的就是能實時獲取良好的特征,比如方向梯度直方圖特征、顏色特征等[1]。
2010年Bolme等[2]提出基于相關濾波的判別式方法——誤差最小平方和濾波器MOSSE,證實了相關濾波的潛在能力,但實時性極強。牛津大學Henriques等[3]提出了CSK,之后加入了核函數(shù)(Kernel-trick),便演變?yōu)榻?jīng)典的核相關濾波器[4](KernelizedCorrelationFilter,KCF)。但是由于實際應用環(huán)境的各種干擾,如何提取目標更加不易變化的特征仍然是難點。
在特征提取方面,KCF使用的是方向梯度直方圖(HistogramofOrientedGradient,HOG)特征,DAT[5]使用的是顏色特征。HOG特征值對于光照變化、局部遮擋等效果較好,但是不適應快速運動、快速變形,而顏色特征對于快速運動、快速變形效果較好,但是不適應光照變化和局部遮擋,因此這兩種算法互補。針對目標尺寸變換,有兩個經(jīng)典算法:一個是SAMF[6]算法,濾波器同時更新位置與尺度,速度較快;另一個是DSST[7]算法,多尺度方法是先平移濾波找到最佳位置,再尺度濾波,找到最佳尺度大小。上述各類基于相關濾波的算法的本質都是獲得更加可靠的特征,其中HOG特征作為相關濾波類算法最常用的特征,對于圖像輪廓和邊緣有很強的描述能力,但是對于快速運動、低分辨率等造成的邊緣模糊跟蹤性能較差,因此若能改進HOG特征適應邊緣模糊問題,就能更加穩(wěn)定地跟蹤目標。本文考慮對圖像進行銳化預處理來獲取更好的HOG特征。
本文在獲取改進的HOG特征值后,為了實現(xiàn)核相關濾波能夠用于各類復雜情況,如目標遮擋、快速運動變形、“漸變”目標等情況,提出一種利用兩個互補跟蹤器預測框交并比的方法自適應改變模型更新系數(shù),以適應復雜的實際情況。在兩種濾波模板均跟蹤到目標的情況下,利用兩個跟蹤器的預測框的交并比自適應改變模型更新系數(shù),來獲得更好的跟蹤結果。若有一個跟蹤器跟蹤不正確時,則利用另一個跟蹤器繼續(xù)跟蹤目標;若都沒有跟蹤到目標,此時目標可能已經(jīng)被遮擋了,因此保留當前模板,停止模板更新,擴大搜索檢測范圍,當目標不遮擋時就能快速檢測匹配到目標。
本節(jié)介紹核相關濾波算法,以此為基礎研究解決核相關濾波三個主要問題:(1) 傳統(tǒng)的HOG特征值不足以適應于各類復雜場景跟蹤[8];(2) 濾波窗口固定,對于“漸變”目標,不能準確地跟蹤;(3) 濾波器模型更新系數(shù)固定,不能用于有遮擋時的長期跟蹤[9]。
KCF算法為圖像提供了一個基于嶺回歸的分析模型,可以獲得堪比支持向量機(SVM)這類復雜方法的性能。模型訓練主要是獲得一個函數(shù)f(z)=wTz最小化樣本xi與它的嶺回歸目標yi的平方誤差:
(1)
為了獲得所有的樣本xi,在樣本的采樣過程當中,我們把基礎樣本循環(huán)位移來進行密集采樣。這樣獲得的樣本,進行傅里葉變換之后的矩陣可以進行對角化,減少了矩陣的運算量,最后得到一個閉式解:
(2)
在目標跟蹤中,考慮到目標是處于變化當中的,因此目標模型也需要實時更新,KCF采用的是線性差值,更新公式如下:
(3)
式中:η是更新率;αt表示第t幀的系數(shù)矩陣;xt表示目標第t幀的外觀模板。
核相關濾波的流程如下:(1) 由基礎樣本構建循環(huán)樣本,提取HOG特征;(2) 循環(huán)樣本核空間矩陣離散傅里葉變換,訓練分類器;(3) 新樣本檢測;(4) 更新分類器,再次循環(huán),進入步驟(1)。
對于圖像而言,利用圖像邊緣梯度的方向,就能很好地描述目標的輪廓以及形狀,而HOG特征就是對圖像當中像素點的梯度描述。算法流程為:(1) 獲取圖像后進行灰度化和歸一化;(2) 圖像分小塊后獲取每個像素點的梯度,再統(tǒng)計每個塊內的直方圖;(3) 合并所有小塊的直方圖進行歸一化,得到圖像的HOG特征。
圖像中任意一個位置為(x,y)的像素點的方向梯度可以表達為:
(4)
式中:Gx(x,y)、Gy(x,y)表示像素點(x,y)處的水平方向和垂直方向的梯度,H(x,y)表示像素值。
如前文所述,HOG特征值被廣泛使用于基于相關濾波的判別式算法中,所以加強HOG特征值提取,獲得更好的HOG特征值是十分必要的。特別地,對于快速形變、遮擋等造成的圖像邊緣模糊,HOG特征值提取的效果較差,基于以上情況我們可以考慮增強目標邊緣的信息或加強目標的紋理。本文利用拉普拉斯濾波來獲得邊緣信息增強的圖像,即銳化圖像。假定取圖像中一個3×3的塊,那么其對應的拉普拉斯濾波模塊也就是取一個3×3的塊,中心點取-8,其余點取1,將兩個塊進行時域的點乘就可以獲得中心點新的像素值。假設中心點原始的像素值表示為H0(x,y),中心點新的像素值表示為H(x,y),其余8個點的像素值和表示為H1(x,y),那么這三個值之間的關系表示如下:
H(x,y)=H1(x,y)-8×H0(x,y)
(5)
對于圖像邊界上像素點可以進行拓展,拓展區(qū)域的值是其對應的另一個邊界。在所有像素點更新之后,把像素值進行歸一化處理,就可以得到最后的結果。其表達式如下:
(6)
式中:max、min分別表示圖像像素值在一個顏色通道內的最大值和最小值。處理之后的圖像能夠提供更好的HOG特征值,可以在不同的目標與場景下獲得較好的跟蹤效果。
由于核相關濾波使用的是濾波窗口固定的余弦窗口,所以在處理“漸變”目標時存在很大的不足[10]。這是因為余弦窗口的窗口大小固定,當目標尺寸變小時,會將非目標的冗余信息包含進來;而當目標尺寸變大時,則會丟棄目標的有用信息。為此,文獻[11]在KCF算法的基礎上加入了自適應高斯窗口函數(shù)和基于關鍵點的尺度估計[12],提出了sKCF,能夠自適應目標尺度的變化以及摒棄冗余特征,在運行速度上也有了一定的改進,但是當目標運動的尺寸變化較大時,容易丟失目標。因此本文采用DSST算法的思想,單獨訓練一個尺度濾波器,當位置濾波器確定目標位置之后,在該位置使用尺度濾波器,找到最佳的濾波窗口尺寸。
核相關濾波中除了“漸變”目標不好跟蹤以外,當目標運動姿態(tài)變化較大或者有輕微遮擋時,跟蹤的目標也容易丟失,其根本原因是目標模型更新速率是固定的,這種更新方式僅能適應運動姿態(tài)的微弱變化。其中目標模型更新就是根據(jù)以前的觀測數(shù)據(jù)和目標模型估計下一時刻的目標模型。模型更新存在“模型漂移”問題,會導致跟蹤結果準確性降低。傳統(tǒng)相關濾波更新算法會將錯誤的背景信息加入到目標模型中,造成目標模型的更新錯誤,這樣的錯誤積累會導致模型偏離正確的跟蹤目標。因此,為了避免目標模型更新過程中出現(xiàn)“模型漂移”,需要采取合適的模型更新策略。
KCF算法以固定更新速率對當前模型進行更新,更新公式為:
Modlenext=α×Modleresult+(1-α)×Modlecurrent
(7)
式中:α為固定值;Modleresult為根據(jù)當前跟蹤結果訓練出的預測模型;Modlecurrent為當前模型;Modlenext為下一幀圖像進行跟蹤時所采用的模型。使用式(7)更新模型,對于一些運動姿態(tài)變化不大的目標效果尚可,但是對于一些在跟蹤過程中姿態(tài)變化較大的目標并不適用,因為利用式(7)進行模型更新并不能反映被跟蹤目標的真實運動姿態(tài),極易導致跟蹤失敗。
為了使當前模型更能夠反映被跟蹤目標的最新變化,本文以HOG特征模塊和顏色特征分別進行跟蹤,以兩個互補的跟蹤器預測框的交并比來確定模型更新系數(shù)。兩個跟蹤器的跟蹤結果可通過相關濾波的峰值來判定,具體有三種情況:
(1) 兩個跟蹤器均能跟蹤,此時采用交并比的方式來進行模板更新,更新公式如下:
(8)
式中:Siou(HOG,Color)表示兩種跟蹤模板預測框面積重疊部分所占比例;Aera(HOG)和Aera(Color)分別表示基于HOG特征和顏色特征的濾波器的預測框的面積,分子是兩個面積的交集,分母是兩個面積的并集;β是自適應變化因子,β=c×Siou(HOG,Color);c是常數(shù)。
(2) 一個跟蹤器正確,另一個不能正確跟蹤,此時采用正確模板跟蹤結果與第一幀目標模型的相似系數(shù)來更新模板,為了提高實時性,相似性使用直方圖相交來衡量,更新公式如下:
(9)
式中:Hfirst和Hresult分別是第一幀目標模型和預測模板圖像塊的直方圖;Dinteraction(Hfirst,Hresult)是直方圖相交系數(shù),取值范圍是[0,1],匹配程度與值的大小成正比;β=c×Dinteraction(Hfirst,Hresult);c是常數(shù)。
(3) 兩個跟蹤器均跟蹤失敗,停止模板更新,擴大搜索檢測范圍。
在上述三種情況中,使用自適應因子進行模型更新可以對模型的更新速進行有效的控制,可以真實反映出被跟蹤目標的姿態(tài)變化情況。對于如何評判是否跟蹤到目標,本文使用峰值旁瓣比(PSR)來衡量相應的質量,其公式如下:
(10)
式中:max表示響應的最大值;μ、σ分別表示響應的均值和標準差。PSR的閾值設置為P,若當前跟蹤器的跟蹤結果的PSR大于P,則當前模板能夠正確跟蹤,否則就不能正確跟蹤。
綜上所述,本文提出的基于改進的HOG特征值的互補跟蹤算法框架如圖1所示。

圖1 基于改進的HOG特征的互補跟蹤算法框架
本文采用數(shù)據(jù)集OTB2015[13]驗證算法的有效性,并與近幾年流行的算法進行對比。測試了OTB2015上全部的100個視頻序列,同時選取 Staple[14]、SRDCF[15]、SAMF、KCF、DAT五種方法做對比實驗,其中基于HOG的KCF和基于顏色的DAT是本文算法的基準算法,Staple、SRDCF、SAMF均在OTB2015具有良好的跟蹤結果,便于與本文算法進行對比。
本文選取2組具有代表性的視頻序列來進行跟蹤效果上的對比,給出的視頻序列分別是Shaking、Bird1。跟蹤效果如圖2所示:第一行表示基于改進的HOG特征的KCF算法的跟蹤結果,第二行表示基于顏色特征的DAT算法的跟蹤結果,第三行是本文算法的跟蹤結果。

圖2 本文算法與其他算法跟蹤效果圖定性對比
可以看出:KCF算法對于光照變化和局部遮擋效果較好,但是不適應于快速運動和快速形變;DAT算法對于快速運動和快速形變效果較好,但是不適應于光照變化和局部遮擋;本文算法充分發(fā)揮了兩種算法互補的優(yōu)勢,既能適應光照變化和局部遮擋,也能適應快速運動和快速形變,說明本文算法在復雜環(huán)境中也能跟蹤目標。從圖2(b)的Bird1視頻序列中還可以看出:最開始所有算法均能準確跟蹤,但是在遇到遮擋之后,也就是第190幀時,只有本文算法能夠準確跟蹤,其他算法均已漂移。在第285幀目標劇烈形變時,本文算法也能夠快速地再次跟蹤上,說明本文算法抗遮擋性能較好,而且對于目標劇烈形變也具有良好的適應性。
為了更加精確地分析本文算法跟蹤的準確性,同時也方便與其他算法對比,實驗的衡量標準[16]采用OPE(One-Pass Evaluation),包括精確度曲線(precision plot)和成功率曲線(success plot)。其中精確度描述的是給定的中心位置誤差閾值之內跟蹤正確的幀數(shù)占總幀數(shù)的比例,成功率描述的是大于給定的重疊率的跟蹤正確的幀數(shù)占總幀數(shù)的比例,精確度和成功率的取值范圍都是[0,1]。對于精確度曲線,我們采用閾值為20像素時的精確度來評價跟蹤器的表現(xiàn);對于成功率曲線,我們用曲線下面積AUC(the Area Under Curve)來評價跟蹤器的表現(xiàn)。本文算法與Staple、SRDCF、SAMF、KCF、DAT在OTB2015上的對比結果如圖3所示。

圖3 OTB2015測試集上本文算法與其他5種優(yōu)秀算法在精確度和成功率上的OPE指標對比
可以看出,DAT和KCF的跟蹤精確度和跟蹤成功率都不高,這是由于DAT只考慮顏色特征,而KCF只考慮HOG特征,沒有發(fā)揮出顏色特征與HOG特征的互補性,并且不適應于尺度變化,所以跟蹤誤差較大。而本文算法充分發(fā)揮出了顏色特征與HOG特征的互補性,并且采用了尺度濾波和自適應模型更新,因此本文算法的精確度和成功率比KCF和DAT提高了很多。本文算法相比于DAT,精確度提高了38.2%,成功率提高了29.1%;相比于KCF,精確度提高了30.2%,成功率提高了24.5%;相比于SAMF,精確度提高了8.3%,成功率提高了9.1%;相比于Staple,本文算法的平均速率不高,但是精確度提高了5.3%,成功率提高了5.8%;相比于SRDCF,精確度提高了3.7%,成功率提高了3.7%。雖然本文算法較SRDCF算法在精確度和成功率上提升不大,但是SRDCF的平均速率只有3.6FPS,本文算法平均速率為15FPS,實時效果更好。綜上所述,本文算法充分發(fā)揮了互補特征的優(yōu)勢,提升了精確度和成功率,雖然平均速率有所下降,但也基本滿足實時性要求,具有良好的應用價值。
本文算法在充分考慮基于HOG特征值的核相關濾波方法的基礎上,以圖像銳化來獲取更好的HOG特征值,同時利用基于改進的HOG特征值與顏色特征值的兩個跟蹤器預測框的交并比來自適應地更新位置濾波器,提升了跟蹤目標的成功率。視頻序列實驗表明,本文算法適應于各類復雜情況,在目標變形模糊或目標遮擋之后仍能準確跟蹤,與其他當前優(yōu)秀算法的比較,也說明本文算法能夠獲得更好的跟蹤精度,具有良好的應用價值。