韓亞君,楊德東,李 勇,李雪晴
(河北工業大學 人工智能與數據科學學院,天津 300130)
紅外目標跟蹤在生活以及軍事方面有著廣泛的應用,具有研究價值。因其自身所具有的分辨率低、對比度差、信噪比低、紋理信息缺失等特點,同時在目標跟蹤過程中又存在著目標形變、遮擋、快速運動、旋轉等需要解決的問題,從而使得紅外目標跟蹤成為一項較難的挑戰。
紅外目標跟蹤算法最初是由可見光目標跟蹤算法發展而來的,而在可見光目標跟蹤算法中,核相關濾波器[1](KCF)、空間正則化判別式相關濾波器[2](SRDCF)和上下文感知濾波器[3](CA-CF)是相關濾波算法中兼備較好的實時性和有效性的跟蹤算法,因此,有許多學者在此基礎上進行了算法改進并應用于紅外目標跟蹤,從而解決紅外目標跟蹤過程中的問題。趙東[4]等提出一種基于圖像引導濾波和核相關濾波的紅外弱小目標跟蹤算法,可以有效區分背景邊緣和紅外弱小目標。Asha[5]等提出了一種基于判別法和生成法相結合的紅外圖像目標跟蹤方法。利用空間特征的核相關濾波器和像素強度特征的AdaBoost分類器兩種互補方法進行并行運算,在通過判別方法獲得優化位置后,通過線性搜索方法來確定最佳目標位置。劉先紅[6]等將引導濾波、高斯低通濾波與非下采樣方向濾波器組相結合,提出一種新的圖像融合方法。楊福才[7]等提出基于稀疏編碼直方圖(HSC)特征和擾動感知模型(DAM)的紅外目標跟蹤方法,利用擾動感知模型來減輕背景干擾影響。Gao等[8]提出了一種結合背景自相關特征和目標在時空域的共性特征的紅外目標協同檢測模型,通過對Logistic Sigmoid函數構造非線性權重和在局部加權熵設置入口權重方法來抑制背景,然后對單個幀的密集和稀疏重構映射進行位置關聯,提高區分目標和背景能力。
目標跟蹤算法跟蹤成功的關鍵之處在于特征的提取。方向梯度直方圖(HOG)特征利用梯度信息,可以很好地描述圖像局部的形狀信息,對平移、旋轉和光照變化魯棒性強。運動特征信息能夠描述目標的大致運動方向,是描述目標的一個重要視覺特征[9]。位移光流法對大目標的運動變化魯棒性強。
受上述算法和背景感知相關濾波器跟蹤算法[10]的啟發,本文提出一種基于多特征融合的穩健紅外目標算法,并利用空間加權窗代替余弦窗來抑制邊緣效應。為了更好地驗證本文算法的性能,在VOT-TIR2016數據集上進行測試,同時與15種流行算法進行比較。實驗結果表明本文提出算法在精確度和成功率上的得分都得到了提升,具有一定的研究價值。
針對紅外目標跟蹤任務中存在的問題,提出多特征融合的方法對紅外目標進行跟蹤,使用線性求和方式對HOG特征和運動特征的響應圖進行綜合,并利用空間窗加權方法代替余弦窗,更好地突出跟蹤目標中心的特征,抑制邊緣效應。
在空間域中,多通道背景感知濾波器模板[10]可通過最小化以下目標函數來實現:

(1)
其中:Q為訓練樣本數,K是特征通道數,y∈RT是期望響應值,T是濾波器模板維數,xk∈RT和hk∈RD分別為第k個通道的目標特征和濾波器(T?D),P是D×T維的二進制矩陣,用于對目標特征x進行裁剪,Υ為矩陣轉置符號,λ為正則化系數。
為了提高計算效率,可將上式變換到頻域中進行相關計算。在頻域內,目標函數可表示為:

(2)

為了求解公式(2),可用增廣拉格朗日函數進行擴展,可得:

(3)

(4)

(5)

采用式(6)對拉格朗日系數進行更新:
(6)
本文算法原理圖如圖1所示,主要跟蹤步驟如表1所示。下面將對本文算法關鍵部分進行闡述。

圖1 本文算法原理圖Fig.1 Block diagram of the algorithm

表1 基于多特征融合相關濾波的紅外目標跟蹤算法

步驟2;對目標進行HOG特征提取,得到HOG特征響應圖;步驟3:對目標進行運動特征提取,得到運動特征響應圖;步驟4:進行特征融合,得到目標最終響應圖,響應圖的最大值即為目標預測位置;步驟5:對目標進行尺度估計;步驟6:對濾波器模板使用ADMM優化方法進行更新。
本文算法通過融合HOG特征和運動特征來增強算法在復雜背景環境中的判別力,從而提高算法跟蹤紅外目標的魯棒性。
2.2.1 HOG特征
HOG特征最早是由Nvaneet和Bill Triggs提出的,之后就成為了機器視覺中廣泛使用的手工特征。提取HOG特征首先將圖像灰度化,通過gamma校正法調整圖像整體亮度;其次計算梯度,對x,y的梯度計算定義為:
Gx(x,y)=I(x+1,y)-I(x-1,y),
(7)
Gy(x,y)=I(x,y+1)-I(x,y-1),
(8)
其中:Gx、Gy分別是圖像I的水平和垂直梯度,計算每個像素點的梯度。(x,y)點的梯度值和方向分別為下式:
(9)
(10)
梯度計算完成后,將圖像劃分為若干個8×8像素的胞元(cell),統計各個胞元的梯度方向直方圖,將4×4大小的胞元串聯成一個塊(block),對塊內的梯度方向直方圖進行歸一化就得到了目標圖像的HOG特征。
2.2.2 運動特征
利用LDOF[11]計算出相鄰兩幀像素之間的光流,然后對其進行運動特征提取,最后得到運動特征響應值。根據[11],我們可假設對應的點應該具有相同灰度值或顏色,可用能量表示為:
(11)
其中:Ι1,Ι2:(Ω?2)→d分別為當前幀和前一幀圖像,d=1是灰度圖像,d=3是彩色圖像,x:=(x,y)T為圖像域Ω中的一點,l:=(u,v)T為光流域。
由于光照變化影響,匹配顏色或灰度值并不總是可靠的,可通過對梯度和光流域總變化的約束對式(11)進行補充,表達式分別為:
(12)
(13)
將上述3個約束結合在一起,可建立模型為:
E(l)=Ecolor+γEgradient+αEsmoooth,
(14)
LDOF對上式提出了優化方案,在此模型上進行了補充,增加了兩項約束,分別為:
(15)
(16)
其中:f1和f2分別表示第1幀和第2幀特征向量的稀疏區域,代入所有約束項,可得到優化模型:
E(l)=Ecolor(l)+γEgradient(l)+
αEsmoooth(l)+βEmatch(l,l1)+Edesc(l1),
(17)
其中:α、β、γ為E(l)自動估計視頻數據的可調參數。利用上述光流模型,可得到視頻幀間的光流信息。對得到的光流信息進行運動特征提取,得到運動特征響應值。
MOSSE[12]算法提出通過對目標原始像素值賦予余弦窗權重來突出靠近中心位置的目標,但對目標的邊緣信息缺乏魯棒性,導致跟蹤性能下降,因此本文算法提出使用空間加權窗[13]來替代余弦窗,更加能突出目標中心位置的特征,同時也能抑制邊界效應。


(18)

(19)
求ε(w)關于wm的偏導數,并讓其為0,即:
(20)
(21)

k=T-1{T{w⊙x}H*-G},
(22)
s=F-1{K⊙H},
(23)
利用km和sm可以高效的計算偏導數:
(24)
分別求出HOG特征響應值fHOG(I)和運動特征的響應值fMO(I)后,利用線性求和的方法,對其進行融合,可得到最終響應值為:
f(I)=γfHOG(I)+(I-γ)fMO(I),
(25)
得到最終響應圖后,通過尋找響應圖的最大值來確定目標中心位置,目標預測位置為:
pt=argmaxf(I).
(26)
本文算法采用傳統CF的線性插值模型更新策略,可對形變、尺度和光照變化魯棒。第t幀的模型更新可用下式表示:
(27)


本文算法是在MATLAB 2014b,Intel Core i3,主頻為2.5 GHz,4G內存,64位WIN10操作系統上進行所有實驗。為了保證實驗結果的客觀性,使用VOT-TIR2016紅外目標跟蹤數據集[14]對算法進行測試。該數據集共包括25個視頻序列和跟蹤目標所對應的11種屬性,平均序列長度為740幀,分辨率從305×225到1 920×480像素不等。VOT-TIR 2016數據集與VOT-TIR 2015數據集相比,刪除了Crossing,Horse和Rhino_behind_tree序列,引入了更困難的Bird,Boat1,Boat2,Car2,Dog,Excavator,Ragged,和Trees2序列。為了證明本文算法的有效性,提供本文算法和其他15種算法進行比較,分別是SRDCF[2],Staple[15],Staple_CA[3],TGPR[16],SAMF[17],DSST[18],ACT[19],KCF[1],DST[20],KCF_DP[21],RPT[22],HRP[23],KCF_MTSA[24],ASLA[25],PDMFD[26]。
本文使用精確度(precision)和成功率(success rate)兩種評價標準對本文算法的性能進行評價。精確度指的是小于中心位置誤差閾值的視頻幀數占總幀數的百分比,而中心位置誤差定義為算法得到的跟蹤目標框中心位置和標定的真實目標框的中心位置之間的歐式距離。成功率指的是跟蹤目標的重疊率大于重疊率閾值的視頻幀數占總幀數的百分比,重疊率定義為跟蹤目標框和標定的真實目標框之間交集與并集比值[14]。
本文通過大量的試驗來確定該算法最優的參數設置,實驗參數設置如下:選擇31維HOG特征,cell大小設置為4×4并乘空間窗,正則化系數設置為λ=0.001,尺度池設置為5,步長為1.01。ADMM優化算法中,設置迭代次數和懲罰因子分別為2和1,第i+1次的懲罰因子用μi+1=min(μmax,βμ(i))更新,其中β=10,μ=10-3,特征融合系數設置為γHOG=0.7和γMO=0.3,更新率設置為η=0.013。
本文使用OPE(one-pass evaluation)方法[27]在所有視頻序列上進行本文算法的測試。設置中心位置誤差閾值為20來評估算法的精確度,設置重疊率為0.5來評估算法的成功率。為顯示清晰,圖2和圖3分別給出結果排名前10算法的精確度圖和成功率圖。由圖可知,本文算法與排名第二的算法相比,精確度提高了8.8%,成功率提高了15.4%,兩項指標均有顯著的提升,證明了本文算法的有效性和魯棒性。

圖2 25個視頻序列上得到的不同算法的精確度Fig.2 Accuracy of different algorithms tested on 25 sequences

圖3 25個視頻序列上得到的不同算法的成功率Fig.3 Success rate of different algorithms tested on 25 sequences
圖4和圖5為不同算法在11種屬性上的精確度圖和成功率圖,為顯示清晰,給出排名前十算法的結果,11種屬性分別為變形(deformation)、光照變化(illustration variation)、平面內旋轉(in-




圖4 在11種屬性上不同算法的精確度。(a)形變;(b)光照變化;(c)平面內旋轉;(d)快速運動;(e)背景雜亂;(f)運動模糊;(g)低分辨率;(h)遮擋;(i)平面外旋轉;(j)出視野;(k)尺度變化。Fig.4 Precision plots of different algorithms on 11 attributes. (a) Deformation; (b) Illumination variation; (c) In-plane rotation; (d) Fast motion; (e) Background clutter; (f) Motion blur; (g) Low resolution; (h) Occlusion; (i) Out-of-plane rotation; (j) Out of view; (k) Scale variation.




圖5 在11種屬性上不同算法的成功率。(a)形變;(b)光照變化;(c)平面內旋轉;(d)快速運動;(e)背景雜亂;(f)運動模糊;(g)低分辨率;(h)遮擋;(i)平面外旋轉;(j)出視野;(k)尺度變化。Fig.5 Success rate plots of different algorithms on 11 attributes. (a) Deformation; (b) Illumination variation; (c) In-plane rotation; (d) Fast motion; (e) Background clutter; (f) Motion blur; (g) Low resolution; (h) Occlusion; (i) Out-of-plane rotation; (j) Out of view; (k) Scale variation.
plane rotation)、快速運動(fast motion)、背景雜亂(background clutter)、運動模糊(motion blur)、低分辨率(low resolution)、遮擋(occlusion)、平面外旋轉(out-plane rotation)、出視野(out of view)、尺度變化(scale variation)[28]。從圖4中可看出,本文算法在運動模糊和出視野兩種屬性上精度排名第二,在其余9種屬性上均表現出良好效果。可證明本文算法可以很好的處理紅外目標尺度變化、變形、快速運動、平面內外旋轉等問題。從圖5中可看出,對于在出視野之外的屬性,本文算法比排名第二的算法均有顯著提高,說明融合特征以及空間窗的引入可以極大的提高算法的精確度和成功率,證明了本文算法的有效性。
為了更好的分析本文算法的性能,給出本文算法和其他9種算法在25個視頻序列上的目標跟蹤結果,如圖6所示。當跟蹤目標經歷不同變化時,針對相應的屬性進行分析和比較。
(1)形變。在birds和crouching視頻序列中,當目標發生形變時,只有少數算法能夠利用有效的紅外信息提取關鍵特征,實現精準目標跟蹤,本文算法為其中之一。在birds視頻序列中,當目標在第105幀和第225幀發生形變時,只有本文算法和SRDCF、Staple、Staple_CA和TGPR算法能正確跟蹤。在crouching視頻序列中,當目標在第232幀下蹲之后又在第354幀站起來行走時,發生了較大的形變,只有本文算法和TGPR、ASLA算法沒有發生漂移,能正確跟蹤,說明了本文算法較好的魯棒性。
(2)遮擋。遮擋視頻序列有hiding和trees1。其中,hiding視頻序列屬于完全遮擋,而trees2視頻序列屬于部分遮擋。在hiding視頻序列中,當第173幀目標完全被遮擋,第248幀目標再出現的時候,只有本文算法和HRP、ASLA算法能準確跟蹤,并且在后續跟蹤中,本文算法沒有發生漂移。在trees1視頻序列中,當目標經歷遮擋后可從第272幀和第403幀看出,有4種算法跟蹤失敗,而本文算法能夠正確跟蹤,證明本文算法有很好的處理遮擋能力。
(3)平面外旋轉。25個視頻序列中有很多視頻都具有平面外旋轉屬性,其中包括birds、car1、crouching、depthwise_crossing和jacket等。下面將針對car1和jacket視頻序列進行該屬性分析。在car1視頻序列中,當目標在第574幀、第762幀、第1 138幀發生平面外旋轉時,只有本文算法未發生漂移,能夠準確跟蹤目標,其他算法都跟蹤失敗。在jacket視頻序列中,當目標在第586幀發生平面外旋轉(轉身)時,只有本文算法和SRDCF、Staple算法沒有跟蹤失敗,得益于本文算法的特征融合,能夠對紅外目標正確跟蹤。


(4)背景雜亂。由于紅外目標缺少顏色、紋理等信息,當目標處在背景雜亂的情況下,目標跟蹤十分困難。而在mixed_distractors和staturated視頻序列中都存在背景雜亂的情況。下面將逐一進行分析。在mixed_distractors視頻序列中,由于背景有很多相似物體,使得目標跟蹤算法很容易發生漂移。在視頻的第114幀,當目標經過第一個相似物體時,只有本文算法會和SRDCF算法未發生漂移,其他算法都跟蹤失敗,但是在后續跟蹤中,SRDCF算法發生了漂移,導致跟蹤失敗,而本文算法可以一直很好的跟蹤。在staturated視頻序列中,我們可看出背景中有很多和目標相似的物體,具有很大的干擾性,而本文算法可以很好的跟蹤目標。證明了本文算法適用于背景雜亂的場景,有很好的魯棒性。
(5)尺度變化。尺度變化是目標跟蹤中比較常見和基礎的問題,當目標縮小時,濾波器就會學習到大量背景信息,當目標擴大時,濾波器就會跟著目標局部紋理走丟。視頻序列boat2和mixed_distractors都存在尺度變化情況。在boat2視頻序列中,從第951幀可看出,當目標越來越近時,目標尺度也是越來越大,只有本文算法能有效的對變化的目標進行尺度估計,其余算法都跟蹤失敗。在mixed_distractors視頻序列中,目標在第218幀坐下時,本文算法可對目標尺度變化進行自適應估計,調整為相應大小的目標框,減少了背景信息的引入,提高了跟蹤算法的精度和成功率。由此可說明本文算法尺度估計的有效性。
本文提出基于多特征融合的紅外目標跟蹤算法,在背景感知相關濾波器的框架下,對紅外目標進行HOG特征和運動特征提取,通過線性求和方式對特征進行融合,使得跟蹤算法對目標的形變、快速運動、遮擋等屬性能有較好的魯棒效果。同時采用空間加權窗代替傳統相關濾波器中的余弦窗,更加突出目標特征,也能抑制邊界效應。本文算法采用VOT TIR2016數據集進行性能測試,并和15種流行算法進行了分析和比較,結果表明,本文算法在精確度和成功率上的得分分別為0.751和0.697,在精確度和成功率方面分別提高了8.8%和15.4%,證明了本文算法的有效性和魯棒性,具有一定的研究價值。目前本文算法不適用于紅外低分辨率目標跟蹤任務,對光照變化情況處理不是很好,這將是未來改進的主要方向。