孫新領,張 皓,趙 麗
(1.河南工學院 計算機科學與技術系,河南 新鄉 453003;2.山西大學 軟件學院,太原 030013)
基于視頻的運動跟蹤在許多領域有著重要的作用,跟蹤應用基于高精度信息,特別是在動態背景的情況下。另外,還需克服遮擋、雜亂背景、對象尺度變化等問題[1]。均值漂移(mean-shift)算法[2-6]是一種常用的跟蹤算法,其通過計算連續幀中目標模型和目標候選者的Bhattacharyya系數對目標相似性進行估計,從而實現目標跟蹤。其目標模型和候選者的表示主要基于顏色直方圖描述。
Mean-Shift算法只利用顏色特征進行跟蹤,實際上,為了應對不同的情況,應利用多個圖像特征,因為單個特征不能提供不同成像條件下的不變性。為此,學者提出了多種改進的Mean-Shift算法。例如,校正后的背景加權直方圖(CBWH)通過減少候選目標計算中背景特征的影響[7],但是,CBWH方法無法處理顏色和光照的變化情況。為減少Mean-Shift算法中光照變化引起的干擾,Ju等[8]描述了通過構造模糊聚類的模糊顏色直方圖,其生成的顏色區域的數量取決于目標圖像。Stolkin等[9]提出了一種新的基于顏色的跟蹤算法,名為自適應背景的跟蹤器(ABCshift),它使用貝葉斯概率方法對背景進行建模。Zivkovic等[10]將最大期望算法(EM)與Mean-Shift相結合,提出了EM-shift算法,可同時估計描述局部模式的近似形狀和位置的協方差矩陣,但是EM-shift僅使用顏色信息來描述模型,并且這種算法的性能很大程度上依賴于目標表示,當背景混亂復雜時,不能很好地實現跟蹤[11]。
缺乏空間信息會導致在某些條件下目標位置的丟失,例如遮擋和光照變化。因此,更準確的目標表示是實現精確跟蹤的前提。為此,一些學者使用顏色和紋理的兩個加權特征空間來描述對象,通過它們的互補性來確保對目標的位置、尺度和方向變化的準確估計[12]。例如,楊德紅等[13]采用局部二值模式(LBP)紋理和顏色特征相結合的LBP-MS算法,以便增強Mean-Shift算法中自適應尺度和方向均值漂移框架內的目標表示。另外,還有學者通過融入一些智能濾波器來提高跟蹤精度,應對遮擋情況。例如,Jeong等[14]提出將卡爾曼濾波與尺度和方向自適應MS算法(SOAMS)相結合。Sangale等[15]將粒子濾波與MS算法相結合,提出一種多特征視頻序列目標跟蹤方法。但是這類方法都存在計算量較大的問題,較難滿足實時跟蹤的要求。
本文針對Mean-Shift算法的缺陷,采用了一種尺度和方向自適應的Mean-Shift跟蹤器,在均值漂移跟蹤框架下估計目標的尺度和方向。另外,將LTP紋理特征與顏色特征相結合,進一步增強目標模型的表示,提高目標跟蹤準確性。實驗結果證明了所提出算法的有效性。
Mean-Shift算法的基本思想就是不斷把跟蹤窗口中心向樣本均值移動使之收斂(重合)的過程。傳統Mean-Shift跟蹤器中使用顏色直方圖來構建目標模型。被跟蹤對象的目標模型定義為



需要注意的是,k(x)是一個各向同性的核,它將較小的權重歸因于遠離中心的像素。目標模型和目標候選者之間的相似性是使用Bhattacharyya系數計算的,該系數定義了兩個標準化直方圖和(y)之間的對應關系:

尺度方向自適應Mean-Shift跟蹤算法使用Bhattacharyya系數來估計目標位置、尺度和方向。當目標區域(在前一幀中)中的顏色分布接近候選區域(在當前幀中)中的顏色分布時,該相似度函數的值較高(接近1)。因此,如果物體及其背景具有顯著不同的顏色分布,隨著Bhattacharrya系數增加,目標候選者則更有可能捕獲當前幀中的實際物體[16-17]。因此,目標模型與候選模型之間的距離為


其中y0是目標在前一幀的位置,ωi可以根據下式計算得到:

Jianhua等開發了一種尺度和方向自適應的Mean-Shift跟蹤算法,在均值漂移跟蹤框架下估計目標的尺度和方向。已經證明該跟蹤器在解決跟蹤對象的尺度和方向變化的問題上是有效的[18]。
由給出的目標候選區域中的像素權重值描述了它屬于目標的概率。零階矩M00即為所有像素的權重之和,是對目標區域的估計,表示如下:

每當來自目標像素的權重ω(xi)變大時,估計誤差將是顯著的,反之亦然。根據Jianhua等的說法,通過以下等式,Bhattacharyya系數可用于調整估計目標區域[18]:

其中c(ρ)是一個單調遞增函數。它用于將M00縮小到實際目標比例,可以定義為

在(0≤ρ≤1)時,Jianhua等發現σ的最佳值設置在1和2之間[18]。如果ρ近似取上限值1,則意味著目標候選模型接近目標模型。如果它更接近0,則候選模型與目標模型不同,因為c(ρ)變得非常小并且M00一直擴大,直到它超過目標區域。假設候選區域中每個像素的坐標是(xi,1,xi,2),則候選區域的矩可以定義為


y1的1階矩與零階矩的比率描述了其位置,而2階中心矩描述了目標的形狀和方向。使用式(8)(10)和(12)可以重寫式為:

要估計跟蹤對象的尺度和方向,可以將式(14)轉換為協方差矩陣:

使用奇異值分解(SVD)方法,可以將其轉換為


在估計當前幀中目標的位置、尺度和方向之后,可以使用式(18)協方差矩陣定義下一幀中目標候選者的大小。

其中Δd用于在下一幀中遞增目標候選區域。目標候選區域的初始位置由式(19)橢圓區域給出。

LBP算子在紋理分析和模式識別的研究領域中被廣泛應用。LBP是一個高效而簡單的運算符,描述了圖像局部紋理的空間結構。該方法利用中心像素對每個像素的P個鄰居進行閾值化,將閾值化的值乘以二項式權重,并將結果連接起來得到LBP碼。最后,將得到的二進制代碼分配給中心像素。給定圖像中的一個像素,通過將其與其鄰居進行比較來生成LBP。

其中:pc表示中心像素的灰度值;pn表示其鄰居的灰度值;N表示鄰居的數量;R表示鄰居的半徑。假定圖像的尺寸是I×J,則pc的坐標是(0,0),pn的坐標為那么,LBP紋理可以通過構建一個直方圖來獲得。

其中T是最大LBP碼值。在具有均勻外觀的圖像幀的區域中,中心像素及其鄰居的灰度值非常接近。因此,LBP算子對目標的描述不具判別性。Marko等成功修改了閾值策略,使得LBP更具判別性,即通過將式中的LBP算子項sn(pn-pc)替換為sn(pn-pc+a)[19]。為了增強LBP算子的魯棒性,a的值應該相對小。
局部三元模式(LTP)紋理描述符是LBP的一種改進形式[20]。LTP是二進制模式到三元組模式的一種簡單擴展。與LBP一樣,考慮幀中心像素周圍的3×3鄰域,權值設為2n,LTP的數學表達式描述如下:

式中,t表示用戶定義的閾值。在LTP方法中,與以中心像素值為閾值的LBP不同,根據預先設置的閾值t對原始圖像區域進行三值化,生成具有3個值(1,0,-1)的編碼。為使LTP特征在光照及復雜背景下具有魯棒性,這里設置t=5。將像素x與領域像素pn、中間像素pc和閾值進行比較,小于pn-pc-5記為-1,大于pn-pc+5記為1,范圍內取值為0。
為了消除負值,將三元模式轉換為兩個LBP單元。正數是高LTP(LTPU),負數是低LTP(LTPL)。LTPU是通過將原始LTP中的負值替換為零來生成的,生成LTPL有兩步:首先,將原始LTP中的所有值1都替換成0;之后,將所有負值都替換成1。計算用于正和負分量的兩個單獨的LBP描述符,最后將結果連接起來。類似LBP編碼的推導過程,LTP算子的計算過程如圖1所示。

圖1 LTP計算過程
幾種Mean-Shift跟蹤算法利用顏色信息來表示目標。雖然時間效率較高,但在考慮非剛性物體時通常會失敗。基于目標顏色辨別的均值偏移會受到部分遮擋的影響,尤其是當跟蹤對象與相應背景具有相同顏色時。此外,如今大多數相機使用濾鏡來調整其白平衡并根據全局圖像強度執行一些色彩校正,這會極大地影響準確性。
為了解決這些問題,人們提出了各種類型的擴展。很多學者通過將Mean-Shift與局部方法相結合來改進該過程,或通過引入對象、背景分類處理嚴重的遮擋。本文使用LBP紋理的一種變體(局部三元模式LTP)來構建基于尺度的自適應Mean-Shift跟蹤算法。通過顏色和紋理特征的精確組合,顯著增強目標的位置、尺度和方向變化的估計精度,提高在高動態和嘈雜場景中跟蹤非剛性物體的準確性。
對于尺度的變化,連續幀中對象的縮小或放大通常是一個漸進的過程。實際上,相鄰幀中尺度的突然變化使得跟蹤任務非常具有挑戰性。因此,本文假設目標大小的改變是緩慢的,并且這種假設在大多數視頻中是符合現實的,包括那些具有高動態場景的視頻。
本文運用的方法是通過計算從目標模型和目標候選者導出的權重圖像來確保移動物體的尺度和方向的估值。在尺度自適應Mean-Shift跟蹤算法中,每個像素的權重值表示它屬于目標候選者的概率,并且由(7)定義與的顏色概率的比率的平方根。在本文的方法中,可以通過LTP紋理與目標候選區域中的目標模型的密度分布函數的組合來生成這樣的權重圖像值,即通過LTP紋理和RGB通道描述目標模型和目標候選者(y)。
為了獲得目標區域的紋理和顏色分布,本文在式(7)中添加一個紋理分量LTP。因此,其變為u=R×G×B×LTP。前3個維度說明了顏色通道的量化區間,第4個維度(LTP維度)是紋理圖案模式的量化區間。
本文方法的具體步驟如下:
步驟1初始化迭代次數k,k→0,設定Mean-Shift算法收斂過程中的最大迭代次數N0為15,兩次迭代的最小距離ε為0.1。
步驟2在初始幀中確定目標區域,計算LTP紋理和顏色直方圖,得到目標模型,目標的初始化位置為y0。
步驟3在當前幀中,以y0為候選目標的中心位置,計算候選區域的LTP紋理和顏色直方圖,得到候選模型。
步驟4計算候選目標區域內的各像素權值ω(xi)。
步驟5迭代計算得到新的窗口中心y1,令距離迭代次數+1;如果距離小于閾值(d<ε)或達到最大迭代次數,則停止迭代,輸出當前幀上的跟蹤結果,并執行下一步。否則,返回步驟3,繼續在當前幀中進行迭代跟蹤。
步驟6如果當前幀是最后一幀,則跟蹤過程結束;否則,讀取下一幀作為當前幀,返回步驟2。
為驗證本文算法的有效性,采用3個不同的視頻測試算法的性能。從包含真實世界視頻序列的PETS標準數據集中選擇出乒乓球(Ball)序列,汽車(Car1)序列和滑板(Skateboarding)序列作為測試集。其中,乒乓球序列存在目標快速移動;汽車序列包含了遮擋情況;滑板序列包含了尺度變化情況。
選擇傳統Mean-Shift算法、EM-shift算法和基于LBP紋理的Mean-Shift算法(LBP-MS)與本文算法(LTP-IMS)進行對比實驗。另外,本文選擇了RGB顏色作為特征空間,并將其量化為16×16×16位。
所有算法均在Matlab2013a中實現,并在具有Intel@Core i5 2.5GHzCPU和8GB RAM的PC上運行。
首先,為了驗證融入紋理特征的有效性,將本文LTP-IMS算法與沒有紋理特征的傳統Mean-Shift和EM-shift算法進行比較。這3種算法在乒乓球視頻上的跟蹤結果如圖2所示。視頻中,乒乓球快速移動,使得它在連續幀之間的位移很大。
從跟蹤結果可以看出,Mean-Shift和EM-shift算法都不能跟蹤目標,而LTP-IMS算法可以穩定地跟蹤目標。這是因為Mean-Shift和EM-shift算法只采用顏色特征,而LTP-IMS算法使用了紋理和顏色特征來描述目標,使得這些特征對圖像模糊不敏感。

圖2 乒乓球視頻上的跟蹤結果
在滑板視頻序列中的3個幀上,EM-shift跟蹤器、LBP-MS跟蹤器和本文LTP-IMS跟蹤器的跟蹤結果如圖3中展示。這個視頻序列中目標的尺度發生了很大的變化,而且背景較為復雜。

圖3 滑板視頻上的跟蹤結果
可以看出,各種算法在一開始時都能定位目標。但當目標尺度大幅度變化時,EM-shift跟蹤器無法跟蹤滑板運動員并最終丟失目標。另外,滑板與腿部具有與道路相同的顏色,這導致目標邊界的重疊。由于使用了LBP紋理,LBP-MS和LTP-IMS的跟蹤效果較好。然而,LBP-MS算法可以跟蹤目標,但無法準確確定其尺度和方向,因為其無法處理姿態變化。相比之下,LTP-IMS中采用了一種尺度和方向自適應的改進型Mean-Shift跟蹤算法,可以成功實現準確跟蹤,能夠應對虛假邊緣和邊界間隙問題。這是因為在目標模型和候選模型之間使用Bhattacharyya系數、零階矩和校正的2階中心矩,使得高度、寬度和方向變化的估計非常準確,可準確定位并調整滑板的尺度和方向。
為了評估跟蹤算法的跟蹤精度,使用中心位置誤差(CLE)作為性能指標,它可以測量估計物體的中心位置與實際數據之間的誤差,定義如下:

其中:xe和ye表示跟蹤結果的中心位置;xg和yg表示實況數據的中心位置。
各種算法在3個視頻序列上的平均CLE如表1所示。可以看到,本文LTP-IMS算法獲得的跟蹤誤差最小。對于Ball序列,目標快速移動,使得它在連續幀之間的位移很大。但由于其背景相對簡單,所以各種算法的性能都不差。在Skateboarding序列中,背景復雜,且目標與背景顏色存在重疊。為此,僅利用顏色特征的EM-shift算法不能很好地實現跟蹤。LBP-MS算法結合了紋理和顏色特征,所以性能比EM-shift算法要好。而本文LTPIMS算法不僅將LTP紋理特征與顏色特征相結合,還估計了目標的尺度和方向,所以獲得了最佳性能。

表1 平均中心位置誤差(CLE)
表2列出了3種跟蹤器在實驗序列上的平均迭代次數。LTP-IMS算法的迭代次數略微大于LBP-MS算法,但都比較低。這是因為這些算法都能比較準確地對目標進行建模,因此不需要進行大量迭代來收斂。影響EM-shift跟蹤器收斂速度的主要因素是協方差矩陣的計算。對于每次迭代,EM-shift進行估計并運行3次平均移位算法,而LBP-MS和LTP-IMS僅在估計每幀時進行迭代。

表2 各種方法的平均迭代次數
本文在Mean-Shift框架中嵌入LTP紋理特征,構建一種高效且穩定的跟蹤器。該特征提取方法不僅適用于動態運動,還適用于外觀、姿態和方向變化的復雜情況。與其他跟蹤算法進行比較評估,實驗結果證明了LTP-IMS算法的優越性。在下一步工作中,將考慮融入字典學習功能以實現隨機對象的跟蹤研究,提高跟蹤器的效率。