鄧 豪, 劉桂華, 楊 康, 包 川, 鄧 磊
(西南科技大學 信息工程學院,四川 綿陽 621010)
由于存在目標表觀變化、遮擋問題、周邊環境的干擾和光照變化等諸多因素的影響,目前還不存在性能優良的通用目標跟蹤算法,而根據不同應用需求衍生了不同跟蹤算法[1~7]。但多數在短時間跟蹤上表現良好,長時間魯棒性不足。Adam A等人[8]用多個圖像塊來表示目標借以進行滑動搜索表決目標,但由于圖像塊是固定放置的,而不能對旋轉或者有粘連性的目標進行跟蹤。Hua G等人[9]提出了基于馬爾科夫網絡的基于部分目標跟蹤的方法,檢測出不一致的部分目標,這種方法對遮擋、背景雜亂和目標變形有較好的魯棒,但由于圖像的描述以及馬爾科夫網絡,導致其連續跟蹤效果差。Grabner M等人[10]提出一種用自適應分類器的方法匹配關鍵點進行跟蹤,當前圖像幀中目標的可信關鍵點用來訓練樣本并更新分類器,但其對于分類器的訓練需要大量的正負樣本,對環境的適應性差。Hare S等人[11]提出一種與Grabner的方法相似的目標跟蹤算法,給每個關鍵點賦權重,并在一個統一結構性輸出的學習框架中更新這些權值,但對于非平面的目標,這類方法的對應性估計并不好。
一種目標跟蹤算法的重要功能是:能夠在任何時間都可以在目標被遮擋、目標在視野中消失等情況下,避免再次手動初始化,進行快速強魯棒地找出圖像中的目標。應用最為廣泛的是無任何先驗知識的無模型跟蹤方法,跟蹤器唯一知道的就是視頻序列中第一幀的信息,然后利用第一幀初始信息在后續的視頻幀中對目標在圖像中的位置進行估計。其優點在于不需要任何先驗知識或訓練學習,因而可廣泛應用在不同場合。但無模型跟蹤對于目標跟蹤領域目標遮擋、背景雜亂、光照變化等挑戰性情況還是沒有很好地解決。
本文提出一種雙邊界限定下的運動目標跟蹤算法。圖像幀的關鍵點可以通過匹配和跟蹤相結合的方法得到,并將兩種方法得到的關鍵點進行融合。其次是利用一致性約束來確定目標的中心位置、當前圖像幀中目標相對于第一幀圖像的旋轉角度與尺度變化。最后利用雙邊界限定解決尺度變化中邊界關鍵點殘缺、初始化目標區域背景點對長時間跟蹤的影響。
在給定視頻序列I1,…,In,圖像幀I1中給定初始目標區域b1,在后續視頻序列的每一圖像幀中,確定感興趣的語義目標的位置、姿態,或判定其丟失(圖像幀中不可見),即確定目標在圖像幀中的位置b2,…,bn。
在視頻序列第一幀中,在初始化條件I1及b1下,建立關鍵點集模板如下
(1)
每個關鍵點標記一個坐標點r∈R2和一個描述符f,為了跟蹤過程中計算簡便,本文采用二元描述符f∈{0,1}d。在I1中,將初始化O的關鍵點位置均值歸一化。在第t(t≥2)幀圖像目標識別與跟蹤時,對應關鍵點的描述如下
(2)
式中α為圖像中對應關鍵點的位置,m為當前關鍵點對應關鍵點集O的索引。
本文采用金字塔光流[12]進行視頻幀的目標跟蹤,通過計算前向光流和后向光流的歐氏距離,將兩次光流距離相差大于閾值的點予以排除,得到關鍵點集T。其圖像約束方程為
I(x,y,z,t)=I(x+Δx,y+Δy,z+Δz,t+Δt)
(3)
在第t(t≥2)幀圖像It中,利用FAST及BRISK方法得到的關鍵點集P為
(4)
每一個關鍵點與第一幀關鍵點集O進行K最近鄰(K-nearest neighbor,KNN)匹配,取K值為2,即每個匹配返回兩個最近鄰描述符。對P中每一個關鍵點計算其描述符和在第一幀的關鍵點描述符的漢明距離,并將滿足以下條件之一的關鍵點去除:
1)匹配到了背景關鍵點,則將該關鍵點從前景關鍵點更新至背景關鍵點;2)最佳匹配的漢明距離大于閾值;3)最大匹配與次佳匹配的匹配距離之比大于閾值。采用這種方法,實時更新關鍵點集O中前景特征點P_fg與背景特征點P_bg,并確保識別到的關鍵點與關鍵點集O具有良好匹配,增加了跟蹤算法的魯棒性。
對于跟蹤及匹配到的關鍵點集T和M,由于存在計算差異等問題,兩個關鍵點集并不完全一樣,被跟蹤目標同一關鍵點在兩個關鍵點集中有著不同的表示,故將關鍵點集T與M進行融合,兩個關鍵點集合并為大小為NKt的關鍵點描述集Kt,并刪除其中重復冗余的關鍵點,得到融合后特征點描述集K′。理論看來,匹配到的關鍵點的魯棒性更好,因為其并不依賴于對運動目標的運動估計。
為了便于描述,將圖像中目標的運動歸一化為相機靜止,目標運動。目標在運動過程中,尤其是背景也在隨著目標發生變化的運動過程中,因為目標在圖像中尺度與角度的變化,導致跟蹤效果魯棒性急速下降。
在第t(t≥2)幀圖像It中,進行目標的識別與跟蹤重點是獲取到目標中心在當前圖像幀中的位置,故使K′的每個關鍵點(a,m)都對目標中心h(a,m)→R2進行表決,即
(5)
目標在僅發生平向運動情況下,目標中心可表示為
hT(a,m)=a-rm
(6)
式中rm為關鍵點集O中相應關鍵點的相對位置。當目標在移動過程中引起目標在圖像中尺度變化時,式(5)及式(6)并不能很好地得到目標的中心,這時引入尺度因子S。于是式(6)可寫為
hS(a,m)=a-S*rm
(7)

S=med‖Kdi,j‖/‖Odi,j‖,i≠j
(8)
目標在運動過程中在圖像上必不可少地會產生旋轉,則上述投票方法魯棒性很低,在式(7)上加入旋轉因子,有
hR(a,m)=a-S*R*rm
(9)
式中R為一個二維旋轉矩陣,其表示如下

(10)
圖像中兩點相對于歸零化極軸的角度如圖1所示。圖1(a)表示在第一幀圖像I1中關鍵點i與關鍵點j相對于極軸所成角度,圖1(b)表示在第t(t≥2)幀圖像It中,關鍵點i與關鍵點j相對于極軸所成角度,由圖可得Δαi,j=α1(i,j)-αt(i,j)=90°。其中,αi,j可以通過反正切求得。
在第一幀及第t(t≥2)幀圖像中分別求特征點集O及特征描述集K′的角度集Oαi,j(i≠j)及Kαi,j(i≠j),并利用中值方法增強系統的魯棒性,旋轉因子Δα可表述為
Δα=med{Kαi,j-Oαi,j,i≠j}
(11)

圖1 目標運動過程中角度變化示意
在跟蹤過程中,無論坐標α還是索引m出錯,都會導致表決結果錯誤,指向圖像中隨機位置。故在特征描述集K′確認目標位置前,通過對關鍵點的一致性約束來確認和移除異常關鍵點,通過層次凝聚方法[13]對特征點集V聚類,核心思想是基于歐氏距離測量的差異度量,在聚類過程中,數據根據一個相似度矩陣被組織成層次結構,形成一個樹狀表示,并通過閾值δ進行剪枝。從V1,V2,…,Vn多個聚類結果中選取最大的類V_max,該類中關鍵點集作為目標的有效描述,并去除其他類的關鍵點。這種方法減少了對目標的是否只能平面移動的限制,并允許關鍵點從初始位置有少許漂移,增強跟蹤系統的魯棒性。
層次聚類過程中,其計算量較大,若特征點集V的元素過多,對系統資源消耗過大,會造成跟蹤系統實時性指數性下降,并間接影響跟蹤系統的魯棒性。故設定特征點集元素閾值τ(經驗值250),在超過閾值時,利用壓縮感知中的正交匹配追蹤(orthogonal matching pursuit,OMP)算法[14,15]對V進行壓縮傳感。稀疏度γ為
(12)
式中 |V|為特征點集V的元素個數,「?為向上取整,由式(12)確保V的元素個數不大于τ。
由于目標在運動過程中不可避免會出現遮擋、從視野丟失、正常跟蹤等多種情況,故在由一致性約束從V中得到最大的類V_max后,V_max元素的個數很大程度上能反映出目標的跟隨狀態,設定ε1(經驗值0.15)、ε2(經驗值0.55)分別為目標丟失、遮擋的閾值,其具體含義為:
|Vmax|<ε1|O|:目標丟失;
ε1|O|≤|Vmax|≤ε2|O|:遮擋;
ε2|O|<|Vmax|≤τ:正常跟蹤。
目標在運動過程中從視野丟失(圖像幀中不可見),則令其目標框為丟失前目標框,并在整個圖像幀中逐步擴大,直到圖像邊界。目標被遮擋或正常跟蹤過程中,利用上述方法得到目標的有效描述集V_max,并利用中值公式得到目標的中心μ,再利用上述求得的目標尺度因子和旋轉因子可得到目標的大小及旋轉角度,以確定目標在當前圖像幀中的位置。
一致性約束下目標跟蹤過程中目標在縮放以及旋轉過程中,不可避免會丟失掉外鄰邊界的關鍵點以及邊界上部分關鍵點,而這部分關鍵點被更新到背景點集中后,對當前以及之后的跟蹤魯棒性存在負影響。且在手動初始化目標時,不可避免會在目標區域存在部分背景關鍵點,這一部分關鍵點作為初始前景關鍵點集中元素,后續圖像幀中關鍵點與其進行匹配會引起極大的誤差,且對尺度因子、旋轉因子的計算產生影響,進而降低整個跟蹤系統的魯棒性。
為了解決上述問題,引入雙邊界對一致性約束予以限定。在保證Δα計算方法不變的情況下,將式(8)尺度因子S進行擴張為S′,擴張程度由ξ(0≤ξ≤0.2,經驗值0.08)限制。則式(8)改寫為
S′=(1+ξ)med‖Kdi,j‖/‖Odi,j‖,i≠j
(13)
將擴張后邊界內以及邊界上所有點作為特征描述集V′,并利用同求取Δα的方法求取該特征描述集相對應旋轉因子Δβ,在S′及Δβ的條件下進行特征描述集V′的一致性約束,得到關于目標的邊界bx2,并將其作為bx1的約束邊界。在目標被良好識別與跟蹤情況下,目標邊界bx1與約束邊界bx2的中心應重合或其歐氏距離Δx在一定范圍內;目標邊界bx1與約束邊界bx2相對角度Δθ應保持不變或在一定變化范圍內。故設立距離變化閾值為x,角度變化閾值θ。當Δx>x時,縮小ξ直到Δx≤x,當Δθ>θ時,以bx2為基準,以第一幀目標邊界與約束邊界角度β1為變化量,確定目標邊界bx1。
分別于室內及室外兩種外部環境下對目標進行長時間連續跟蹤,實驗平臺為Manifold嵌入式開發板,主頻為2.2 GHz,RAM為2 GB DDR3。在跟蹤過程中人為使目標被遮擋、脫離視野、旋轉平移等,檢測目標識別與跟蹤系統魯棒性。在兩個場景下對目標各進行3 600幀圖片序列跟蹤,目標識別與跟蹤系統具有極好的適應性,對于上述常見問題魯棒性極好。
由于本文提出方法基于特征點檢測與跟蹤,特征點數目的多少在一定程度上反映出跟蹤情況,實驗過程中,跟蹤過程中各觀測點特征點個數如圖2所示,可以看出跟蹤系統在目標尺化、運動、旋轉等情況下特征點保持相對平衡狀態,而在目標被遮擋、丟失時,圖像幀特征點相對會有劇烈變化。在目標被遮擋后恢復視野以及丟失后恢復視野可以避免再次手動化,對目標進行快速強魯棒性跟蹤處理。

圖2 目標跟蹤過程中觀測點特征點數目

dt=
(14)
(15)
(16)
(17)
在已有實驗平臺上分別將該方法與CT[18],TLD[19]這兩種目標跟蹤經典算法進行對比,從各自的專題網站上獲取源碼,并按其最理想要求進行配置,其平均幀率(fps)、中心距離均值、重疊率實驗結果為TLD幀率為10.44 fps,中心距離均值為6.7 px,重疊率為71 %;CT幀率為51.62 fps,中心距離均值為11.4 px,重疊率為47 %;本文方法幀率為13.68 fps,中心距離均值為4.4 px,重疊率為82 %。
相對于CT及TLD經典目標識別與跟蹤算法,本文方法具有中心誤差距離較小、重疊率較大的優點TLD因P-N學習機制,提高了跟蹤系統重疊率,但因重檢測及訓練學習,導致幀率不高,實時性不好。CT基于壓縮感知理論,實時性較高,但中心誤差距離較大,重疊率較低。由于本文對一致性約束進行雙邊界限定,并進行兩次聚類,計算量偏大,故其實時性遜于CT跟蹤算法等。
但對于平均重疊度為50 %,以上分析不能區分只是視頻的50 %表現完全精確還是整個視頻表現不是很精確。在式(16)中用了一個閾值ω來將每幀分為真實的正樣本(TP)和假的負樣本(FN)。TP控制了每幀的精度要求。將ω賦值為25 %,50 %,75 %分布表明為低、中、高的精度,將recall[18]設為每幀的效果衡量值,即查全率,表明目標可見時有多少幀滿足重疊度ω的要求。計算方法
recall=TP/(TP+FN)×100 %
(18)
將CT,TLD以及本文方法,分別在跟蹤過程中計算查全率,具體為:低精度(ω≥0.25)時,CT為43 %,TLD為87 %,本文方法為92 %;中等精度(ω≥0.50)時,CT為28 %,TLD為55 %,本文方法為57 %;高精度(ω≥0.75)時,CT為17 %,TLD為19 %,本文方法為19 %。本文方法在低中高精度要求情況下取得了最佳結果,并分別領先第二名5 %,2 %,2 %的查全率。
本文提出了一種雙邊界限定下聚類一致性約束的目標識別與跟蹤算法,不需要進行學習與訓練,根據第一幀的初始化信息建立基本特征描述集,并在后續的跟蹤識別過程中更新該特征描述集。目標在運動過程中,尺度相對于初始尺度在一定縮放比例下是確定的,關鍵點相對于歸零化極軸的角度相對于初始角度是確定的,以及約束邊界與目標邊界的角度、中心點歐氏距離是一定的。本文充分利用這些初始條件,使跟蹤算法具有在后續視頻序列中,在目標被遮擋、視野丟失等多種情況下,避免再次手動初始化,進行強魯棒性跟蹤處理。