田應仲,劉伊芳,李 龍
(1.上海大學 機電工程與自動化學院,上海 200444;2.上海市智能制造及機器人重點實驗室,上海 200444)
計算機視覺是人工智能的一個研究熱點,具有極大的理論研究價值[1-3]。目標跟蹤是計算機視覺研究的熱門方向之一,在各行各業都發揮著重要的作用,比如智能交通系統、無人駕駛領域、移動機器人等[4-6]。目標跟蹤主要根據視頻給定的第一幀確定一個區域作為目標,在接下來的幀中繼續得到目標的運動及位置信息,持續跟蹤該目標,并輸出目標的位置。
核相關濾波(kernel correlation filter)視覺跟蹤算法[7]通過循環矩陣構造正負訓練樣本,將時域的卷積轉換到頻域的點乘完成濾波器的訓練,降低計算復雜度從而顯著提高計算速度,因此受到廣泛關注。但是,核相關濾波算法存在一定局限性。循環樣本會帶來不必要的邊界效應,目標搜索區域將受到限制。此外,傳統核相關濾波跟蹤算法還存在未能充分利用顏色特征、模板單一、搜索框不能適應目標尺度變化等問題。
現實環境復雜多變,難以預測,存在遮擋、光照變化、背景模糊、尺度變化、外觀變形、快速運動等挑戰,給視覺跟隨跟隨算法的研究帶來了較大困難。針對現實環境存在光照變化、目標尺度變化等干擾因素的影響,提出了多特征的核相關濾波自適應尺度變化型跟蹤算法。此外,核相關濾波器沒有充分運用目標的背景信息,在面對遮擋、環境復雜等挑戰時,容易跟蹤失敗,為此提出了聯合判別式的背景感知與干擾判別策略。
全文首先簡要介紹核相關濾波算法[7]的原理,然后從兩個方面來改進核相關濾波算法,分別是多特征的自適應尺度變化策略和聯合背景感知干擾判別策略。最后通過公開視頻訓練集OTB-50[8]仿真實驗,驗證改進后算法的效果。
核相關濾波[7]基本理論是判斷兩個信號的相似性,如果兩個信號越相似,說明相關度越高。在目標跟蹤領域,運用核相關濾波跟蹤器,便是通過每幀的圖像和第一幀標定的目標做匹配,得到響應值最大的區域。假設目標塊像素為向量x=[x1,x2,…,xn]T,把向量x作為基礎樣本,通過循環移位操作得到樣本集[9],這樣就得到了訓練分類器所需要的正負樣本。由循環移位構造的訓練樣本集可以換算到傅里葉頻域實現高度對角化,避開矩陣求逆運算,提高運算速度。循環矩陣可以表示為公式(1):
(1)
在通過循環移位操作獲取正負訓練樣本后,需要對這些樣本進行訓練,生成目標跟隨的分類器。樣本訓練是一個嶺回歸過程或正則化最小二乘問題,這個過程有一個簡單的閉式解。核相關濾波算法的目的是讓訓練樣本集與標簽集{yi}的回歸誤差的平方和最小,也就是使式(2)損失函數值最小[10]。

(2)
其中,λ‖w‖2是懲罰項,λ是正則化系數,用來防止目標模型出現過擬合的現象,n是訓練樣本總數。
令線性回歸函數式(2)導數等于0,可得唯一最優解的閉合形式如下:
w=(XTX+λI)-1XTy
(3)
訓練和更新濾波器的公式為:
(4)
其中,⊙表示逐元素相乘,可通過傅里葉反變換輕松得到空間域w。利用快速傅里葉變換的優勢,計算效率大幅提升。
目標檢測的方程如下:

(5)

(6)
其中,訓練樣本是z,^是傅里葉變換,⊙是元素間點乘,*是對應元素的共軛變換,F-1是傅里葉逆變換,λ是正則化參數。
通過以上證明過程,時域計算成功轉化到頻域,避免了大量運算,進而降低計算復雜度,核相關濾波器跟蹤速度達到飛躍增長。
針對跟蹤過程中背景模糊、低像素等問題,提出多特征融合方案。針對目標受到較長時間遮擋的問題,提出一種模板庫策略,即用多模板替代原有的單一模板。針對目標尺度發生變化的問題,提出一種自適應尺度變化策略,讓目標框尺寸隨目標改變,可避免目標識別出現誤差。
在跟蹤器中,將各種簡單而有效的特征融合進濾波器,可以有效地提高濾波器的判別能力。通過大量特征因子的調研,最終選定漸變直方圖特征(HOG)、顏色特征(color-naming)和色度飽和度亮度特征(HIS)。利用顏色特征對目標快速形變的不敏感特性、漸變直方圖特征對光照變化不敏感的特性以及色度飽和度亮度特征對顏色信息的補充[11],各類特征優勢互補,提升跟蹤器的精度。
漸變直方圖是視覺組合中最受歡迎的視覺功能之一,它從圖像中提取31維梯度信息來確定特征。顏色特征越來越廣泛應用在目標檢測領域,它采用11維的顏色向量。色度飽和度能進一步豐富顏色的表征。將三種特征線性組合,提高算法的魯棒性。首先構造一個得分函數f(x)。f(x)是特征圖像?x在通道上的線性函數。
f(x)=γhogfhog(x)+γcolorfcolor(x)
(7)
直方圖分數是從特征圖像φx計算得到,并定義在一個有限網絡上:
fhog(x,β)=g(φx,β)
(8)
直方圖特征在空間排列是不會發生變化的,所以可采用平均特征像素的線性函數。
(9)
或者是圖像的得分平均值ζ(β,φ)[u]=βTφ[u]

(10)
顏色分數fcolor(x,h)是從特征圖像?x計算得到,并定義在另一個有限網絡上。?x是特征圖像,h[u]是模板函數。
(11)
系數γhog和γcolor分別代表HOG特征和顏色特征的權重,隱含在h和β中。本節采用訓練損失函數的方法尋找最優參數,假設融合后的結構參數為θ=(h,β),每幀圖片損失的線性加權值是L(θ;XT)。
(12)
理想情況下,上式可寫成:

(13)
表示通過結構化的學習優化目標約束,樣本采用核相關濾波器中具有循環移位特征的樣本。學習模型采用嶺回歸方法可得:
(14)
(15)
令λcolor=1-a,λhog=a,采用得分函數的凸組合來獲得參數h和β。其中a是訓練集中選用的參數,可根據實際情況測試得到,本實驗中a=0.5。
多特征融合后,在提高準確率的同時,也會加大特征維度,影響跟蹤速度,為此考慮加入主成分分析方法[12]。主成分分析可以對高維特征向量降維,去除冗余部分,加快濾波器的訓練速度,并且保留其中主要特征。
此外,核相關濾波算法采用的是單一模板。單一模板無法應對目標物體非剛性變形的復雜場景,因此提出構造模板庫。模板庫的構造機制是通過采集跟蹤過程中目標不同姿態構造樣本模板庫,用多模板庫替代原有的單一模板,并及時更新模板庫。
在視頻訓練的第一幀,給定跟蹤目標作為模板,后續幀采集的圖像不斷與原有模板進行對比,可得到評價分數。
(16)
其中,Ci表示前i幀時的模板庫,xt表示t幀檢測的目標結果,f表示t幀檢測結果與模板庫匹配的評價函數,scoret表示一個視頻訓練集的平均評價分數。當scoret大于一個設定的臨界τc時,認定xt即是跟蹤目標的描述,于是xt將會加入模板庫,該模板庫得到實時的更新。
假設xt和xt-1兩個相鄰幀都滿足條件,加入目標模板庫,但是由于視頻具有連貫性,xt和xt-1可能非常相似,如果都允許加入目標訓練庫,造成模板庫的大量冗余。為此,需要挑選相鄰幀的相似姿態進行融合,或挑選出姿態變化較大的樣本進入模板庫。同時,為了避免給濾波器造成過大的負擔,給模板庫T數量設置上限N。分兩類進行討論,第一種,當模板數量i小于模板庫數量上限N時,模板庫仍有剩余空間,用式(17)進行判斷,符合條件的樣本繼續加入模板庫。

(17)

另一種情況,當模板數量i等于模板庫數量上限N時,模板庫已滿。此情況下,不再新加模板,只對模板庫已有模板不斷融合,提高模板庫質量。式(18)將符合條件的樣本xt與模板庫中最相似模板進行融合。
(18)
式(18)第一行表示在模板庫中選出與樣本xt相似度最高的模板k'。第二行表示對模板庫中k'和樣本xt進行融合,將融合后的結果Tk'替代原有模板k',進而更新模板庫。因此,模板庫機制在遇到連續遮擋類問題時,為避免目標模板庫錯誤,則停止更新。構建模板庫可以有效地識別不同姿勢下的目標對象,提升跟蹤算法的魯棒性。
圖1中可以看出傳統核相關濾波算法并沒有應對目標物體尺度變化的機制。當物體的外觀發生尺度變化時,跟隨器的識別框依舊保持初始幀標定的大小,未能隨著目標尺度的變化而變化。在圖1(a)中,汽車由遠及近,汽車與攝像頭的距離越來越近,汽車外觀尺度越來越大,直到視頻訓練集的后期,跟隨器的識別框無法再獲取目標的全部圖像信息,給濾波器的模板庫帶來誤差。與之相反,在圖1(b)中,女子在商場中由近及遠,女子和攝像頭的距離越來越遠,女子外觀尺度越來越小,視頻訓練集的后期,跟隨器的識別框無法再獲取目標的圖像信息,造成目標漂移。通過上面的實驗可以看出,需要提出一種自適應尺度變化,來滿足現實情況中目標尺度變化的挑戰。

圖1 傳統核相關濾波算法跟隨尺度變化場景
本節采用一個簡單有效的特征金字塔方法。第一步,對目標位置中心M×N區域內做多尺度采樣,提取anM×anN的圖像塊當做訓練樣本,其中n為特征金字塔層數,a為尺度因子,保證訓練樣本的尺寸。第二步,將所有的樣本調整到相同的大小構造特征金字塔。設定特征金字塔的層數為s,則ft(s)表示特征金字塔第s層訓練樣本的特征向量。在特征圖像中,目標所在區域為f,提取f1,f2,…,ft作為訓練樣本,每一層都有d維的特征向量。當構造好特征金字塔后,選用基于核相關濾波器的最小化分類誤差準則,通過最小化代價函數訓練尺度濾波器。

其中,hl為尺度濾波器的第l層通道;g為尺度濾波器的期望輸出;fl為第l層通道訓練樣本;?為空間中循環樣本的元素相乘;f,g和h都是d維M×N大小的矩陣;λ是正則化參數,防止過擬合。
將式(19)轉換頻域,通過離散傅里葉變化可得:

(20)

計算尺度濾波器和候選圖像塊特征金字塔的相關響應公式為:
(21)

求取最大響應結果y就是目標位置s:
s=max(F-1(Yt))
(22)
由于對每個像素求解d×d線性方程組,計算量太大,無法應用于在線學習的跟蹤器,所以此處給予近似,對式(20)的分子分母分別更新。

(23)
(24)
其中,η是尺度濾波器的學習速率。
在跟蹤過程中,如果出現目標出視野范圍,或者長時間目標被障礙物遮擋(目標長時間失蹤)的問題,模板會出現更新錯誤。再或者,當跟蹤器出現漂移時,不正確的目標會對濾波模板進行錯誤修正,從而引起濾波模板的精確度越來越低,并最終造成跟蹤失敗。因此,需要對模板更新進一步設置條件,來防止模板過擬合。
由于傳統核相關濾波算法的訓練樣本是通過循環移位構造而來,循環移位構造的負樣本和正樣本具有相同的地位,并且樣本只有剛性變化。在面對環境目標旋轉等挑戰時,核相關濾波器的判別能力明顯不足。此外,核相關濾波器沒有充分運用目標的背景下信息,減少了對背景感知能力。在面對環境背景復雜等挑戰時,核相關濾波器容易漂移。所以,本節在第2節的基礎上進一步改進,提出基于聯合判別式的背景感知與干擾判別機制。以目標對象的相近區域為正樣本,以目標的背景區域為負樣本,分別開展訓練,使濾波器具有更強的判別能力,此外,根據響應圖實時判斷遮擋系數,自適應更新模型,以適應運動模糊、背景模糊,遮擋等干擾。
算法以目標為中點并聯合目標周圍一定區域內的上下文信息共同建立模型,當跟蹤過程中目標受到遮擋時,可以通過構建的上下文信息模型中參照物的位置信息找到目標中心位置。利用目標周圍背景的相關區域在時間軸上相鄰幀間的相關性,通過在圖像低階特征上進行建模,來計算最大似然概率,其中概率最大值即為預測的目標位置。所以跟蹤問題就可以等效為通過計算置信圖中最大似然概率c(x)。目標置信圖函數為:
c(x)=P(x|y)
(25)
其中,x是目標所在位置,y是跟蹤區域,c(x)是最大值作為目標所在的位置。
以目標所在中心提取附近上下文背景信息:
Xc=v(c)=(I(z),z)|z∈Sc(x*)
(26)
其中,x*是目標所在位置x的中心,Sc(x*)是x*的附件上下文背景信息,I(z)是灰度值。
目標置信度函數可表達成條件概率形式:

(27)
其中,P(x|v(z),y)表示在跟蹤區域中存在目標的概率值,P(v(z)|y)表示上下文背景信息先驗概率模型,表達式為:
P(v(z)|y)=I(z)wσ(z-x*)
(28)
wσ是高斯加權函數:

(29)
其中,σ是x的方差,a為修正系數。
進一步可以表示為:

(30)
為了將概率模型的結果規范化,上式引入規則化常數,由此可建立背景感知模型。
將目標圖像作為正樣本,目標周圍采集的一系列圖像是負樣本:
(31)
其中,正樣本是f(x0),負樣本是f(xi),背景樣本數量是k,濾波器參數是w。由于背景樣本標簽值是0,回歸目標是y,合并化簡后可得:
(32)

(33)
式(31)是關于(wy')的凸函數,求解式最小值,可令一階導數為0得:
(34)
其中,A是循環矩陣,可表示為如下形式:

(36)
(37)
上下文背景感知可以增強濾波器模型的判別能力,抑制背景響應值,降低噪聲干擾。


(38)
仿真實驗部分用公開數據集OTB(object tracking benchmark)[8]。OTB主要的評估方式:一次通過的評估(one-pass evaluation,OPE)。采用精確度和成功率兩個標量來評價跟蹤算法性能。精確度采用中心位置誤差進行評估,中心位置誤差指算法跟蹤到的目標中心位置與實際目標中心位置之間的平均歐氏距離。目標跟蹤精確度是跟蹤過程每一幀中心位置誤差小于指定閾值的幀數占總幀數百分比的平均值。通常情況下,閾值設定為20像素。成功率是通過重疊率來評估,重疊率是指跟蹤器預測的目標框與真實框的重疊面積與兩個目標框的面積比。
通過OTB-50實驗定量分析Ours算法,并與四種流行跟蹤算法fDSST[13]、Staple[14]、CSK[15]、KCF[7]相比較,如圖2所示。由OTB-100中的測試結果可以看出,Ours在精確率和成功率上都排名第一,平均準確性達到了81.6%,相比于KCF提高了16.1%,平均成功率達到了79.5%,相比于KCF提高了38.5%。本節實驗從定量的角度與其他四種算法進行比較,可以看出跟蹤效果明顯提升。

(a)準確率曲線

(b)成功率曲線圖2 OPE跟蹤性能對比曲線
在對核相關濾波的目標跟蹤算法原理剖析的基礎上,針對算法中存在的各類不足進行改進,進而提高目標跟蹤算法在復雜條件下的準確性和實時性,同時也為機器視覺的發展做出積極貢獻。