羅劉敏,楊鐵軍,崔蘭超
(1.鄭州工商學院 工學院,河南 鄭州 451400;2.河南工業大學 人工智能與大數據學院,河南 鄭州 450001;3.洛陽職業技術學院 信息技術與城建學院,河南 洛陽 471000)
目標跟蹤的主要任務是根據視頻第一幀中的感興趣目標特征實現對后續視頻序列中目標的位置和狀態的跟蹤,目前比較主流的一類跟蹤算法是判別式相關濾波跟蹤算法,其主要思想是通過濾波器學習實現從背景中將目標區分出來[1-5]。
判別式相關濾波類跟蹤算法的開創性算法是核相關濾波算法[6](KCF),因其具有較快的跟蹤速度而引起了目標跟蹤領域研究者們的廣泛關注。為了提高KCF算法的準確性和有效性,研究者們相繼提出DeepSRDCF[7]、CSRDCF[8]、CACF[9]等跟蹤算法,分別從與深度學習結合、多通道評估、上下文感知等多角度對算法進行改進。
上述改進算法具有較好的穩健性和精確性,但是仍有一些不足之處,例如沒有考慮到特定幀的特征適用性,沒有考慮到由于引入背景信息可能帶來的響應圖畸變問題。為了進一步提高算法性能,本文以判別式相關濾波算法為基礎框架,提出一種學習畸變抑制濾波器的多特征決策目標跟蹤算法。首先,引入裁剪矩陣方法擴大目標搜索區域;其次,利用正則化項方法限制響應圖畸變;再次,采用多特征決策方案實現每幀自適應最佳特征組合篩選;最后通過公開數據集測試所提算法的有效性,實驗結果表明所提算法在遮擋、形變、光照變化等場景下跟蹤效果良好,性能優于多種對比算法。
判別式相關濾波跟蹤算法的目標是使用視頻序列中感興趣的目標圖像的循環移位樣本訓練濾波器,在后續幀中,利用上一幀訓練好的濾波器估計當前目標的狀態并利用當前幀中估計出的目標狀態信息更新濾波器,進而實現目標跟蹤。判別式相關濾波器通過最小化估計目標狀態與實際目標狀態之間的誤差來實現濾波器的學習,其目標函數如下
(1)
式中:X是級聯所有循環移位樣本產生的數據矩陣,w是需要學習的判別式相關濾波器,y是所有循環移位樣本對應的高斯真值標簽,λ是用于防止過擬合的正則化因子。
目標函數(1)是一個典型的嶺回歸問題,而且由于X是循環移位樣本產生的數據,所以其具備循環數據結構,可以將其變換到傅里葉域內求解以降低計算復雜度,通過系列求解可得如下封閉解
(2)

在下一幀中,根據上一幀循環移位樣本訓練得到的濾波器計算當前圖像中目標響應圖得分,具體如下

(3)

傳統判別相關濾波跟蹤算法通過正樣本循環移位產生負樣本,這樣產生的負樣本很多為虛假負樣本,這樣訓練出的濾波器判別能力較差,為了克服這一缺點,本文算法采用文獻[10]中的方法,通過擴大循環矩陣采樣區域和裁剪矩陣來獲得真實負樣本,同時擴大了目標搜索區域。其目標函數具體如下
(4)

引入裁剪矩陣采樣方法訓練出的濾波器可以利用目標背景信息增強判別力,但是卻又容易帶來另一個問題,那就是這樣容易使得濾波器過多學到背景噪聲,使得在嘈雜環境下獲得的目標響應圖容易發生畸變,導致跟蹤目標產生漂移現象。為了解決這一問題,首先需要對響應圖是否發生畸變進行判別,如果發生畸變應采用適當策略進行抑制,所提算法引入正則化項對響應圖畸變現象進行抑制。
為了實現響應圖的畸變抑制,首先要對響應圖是否發生畸變進行判斷,所提算法引入歐幾里德范數來定義兩個響應圖M1和M2的差異程度,如下所示

(5)
式中:p和q表示二維空間中兩個響應圖的峰值位置, [φp,q] 表示為了使得響應圖M1和M2的峰值重合所采取的移位操作,Θ的值表示響應圖畸變程度,當Θ的值較大時表示響應圖M1和M2的相似度下降,可能發生了響應圖畸變。
為了在訓練過程中抑制響應圖畸變,則對訓練濾波器的目標函數(4)進行調整,采用下式作為優化濾波器的目標函數

(6)
式中:下標k和k-1分別表示視頻序列的第k幀和第k-1幀,式(6)的第3項即為在訓練過程中限制響應圖畸變的正則化項,參數γ為畸變懲罰因子。
為了使式(6)中目標函數便于轉化到頻域求解,首先將其轉化為矩陣表達形式,具體如下

(7)
式中: Xk是第k幀訓練樣本xk的矩陣表達形式,ID是D×D的單位矩陣,?表示克羅內克積,T表示共軛轉置操作,Mk-1表示前一幀的響應圖,其值為Xk-1(ID?BT)wk-1。
為了降低計算復雜度,需要將式(7)轉化到頻域內進行求解,轉化后公式如下

(8)
由于式(8)是一個典型的凸函數,所以可以采用交替方向乘子法來獲得全局最優解,因此首先需要將其寫為增廣拉格朗日形式

(9)


(10)

(11)

(12)

在跟蹤過程中,所選用的表征目標外觀模型的特征至關重要,傳統判別相關濾波跟蹤算法采用傳統特征、深度特征或其特征組合用于跟蹤,即便采用特征組合方法通常也是使用固定權重系數法將特征組合用于跟蹤,這樣并不能使得特征表征能力完全適應于各跟蹤場景和各幀視頻序列,在某些場景下可能由于當前特征不能較好描述目標外觀模型導致目標跟蹤失敗,因此所提算法提出建立組合特征池的方式通過多種特征組合跟蹤效果對比的方式決定該幀采用哪種特征進行跟蹤,這樣可以通過多特征決策方案解決特征不適應跟蹤場景問題。
當深度語義特征引入到目標跟蹤領域后,之前用于目標跟蹤的HOG特征、CN特征等便視作低層特征,因為它們更多表征目標的輪廓信息,而深度特征則更多揭示了目標內在屬性信息即語義信息,因此深度特征通常被視為中高層特征,而實際上根據場景的不同特征的表征能力適應性也有差別,所以所提算法采取建立組合特征池的方式來選擇相對適應特征以進行目標跟蹤,所用組合特征池見表1,使用HOG特征作為低層特征、VGG-19的Conv4-4層特征作為中層特征、VGG-19的Conv5-4層特征作為高層特征,通過采用文獻[11]中的組合系數來對3種特征進行組合以建立特征池。在跟蹤時將提取到的各特征輸入到濾波器中可得到需要跟蹤的目標的位置框,通過對目標位置框進行評估,選擇出該幀的最優目標位置框即可得到該幀最佳目標狀態信息。

表1 組合特征池
選擇最佳特征組合時需要全面判斷其產生的效果最佳,所提算法采用對評估與自評估方式進行判斷,所謂對評估就是利用7個組合特征所得目標位置框做橫向對比,自評估計就是估計相鄰幀目標軌跡波動程度,從而判別目標可靠性。
4.2.1 多特征對評估方法
在跟蹤過程中多數特征的跟蹤相對準確,因此在對評估過程中所提算法采用折中策略,即選取與其它特征所得結果一致性最高的結果作為當前幀最優結果。按照對評估策略首先需要計算不同特征之間的重疊率,其計算公式如下
(13)

(14)

(15)

為了進一步使得評估分數更具時間穩定性,所提算法進一步引入了時間序列加權分數W={ρ0,ρ1,…,ρΔk} 去使得評估分數更接近實際情況,這里ρ>1是加權常數因子。最終采用下式作為特征對評估標準
(16)

4.2.2 特征自估方法
各特征得到的軌跡平滑度在一定程度上表明了其跟蹤結果的可靠性,所提算法采用歐氏距離衡量相鄰幀軌跡平滑程度,具體公式如下
(17)

(18)

4.2.3 最佳特征選擇
特征對評估策略從所用特征角度客觀反應了特征所得跟蹤結果一致性程度,特征自評估策略則從單個特征角度反應了獲得目標軌跡平滑度,將二者進行有機結合才能較好選出最優特征即最佳特征組合,因此所提算法采用下式進行最優特征篩選

(19)
式中:Rk(Ei)表示特征i的綜合評估分數, Υ表示對評估與自評估折中參數,最后通過比較各特征綜合評估分數,選取分數最大的作為最優特征以獲得當前幀最優目標位置框。
本文算法流程如圖1所示。首先,利用上一幀裁取的樣本訓練濾波器,即通過求解式(7)獲得用于下一幀跟蹤的最優濾波器,由于公式中融入了限制響應圖畸變方法,所獲濾波器具備抑制響應圖畸變效果;然后,通過提取當前幀待搜索圖像的HOG特征、深度特征,將這些特征進行組合以獲得特征池;最后,利用特征池中特征分別與上一幀訓練得到的濾波器進行相關運算獲得多個位置框,通過自評估與互評估策略結合選擇出最優目標位置框和對應最優特征。

圖1 本文算法流程
為了較好評估所提算法的性能,實驗中利用OTB-2015[12]中視頻集測試所提算法效果,通過與KCF[6]、DeepSRDCF[7]、CSRDCF[8]、BACF[10]、MCCT[13]、ARCF[14]等多種算法進行定性與定量對比分析,從算法成功率、精確度、中心位置誤差、直觀效果等多角度評價對比各算法的性能,對所提算法做出客觀評價。
實驗硬件平臺配置包括:CPU 8核3.6 G Hz Intel I7處理器,內存(RAM)為32 G,顯卡為RTX2080TI。軟件平臺包括:64位操作系統windows10,編程環境為Matlab2016。實驗參數通過大量實驗挑選出較優參數值進行設定:對評估與自評估折中參數Υ設置為0.1,加權常數因子ρ值為1.1,防止過擬合的正則化因子λ設置為0.01,優化懲罰因子μ設置為0.125。
實驗中通過測定算法在遮擋、形變、光照變化等場景下的9個視頻序列中的成功率、精確度、中心位置誤差,從而定量分析算法的性能。表2為9組視頻序列的長度、屬性、分辨率介紹,表中OCC、IPR、OPR、SV、DEF、MB、OV、IV、BC、FM分別對應表示遮擋、平面內旋轉、平面外旋轉、尺度變化、形變、運動模糊、出視野、光照變化、背景雜亂、快速運動等屬性。

表2 視頻序列介紹
為了定量分析算法的總體效果,實驗中對7種算法的成功率和精確度進行對比分析具體如圖2所示,從圖中可以看出所提算法的成功率為0.828,精確度為0.881,其較基礎算法KCF分別提高26.4%和28.5%,在7種算法中成功率與精確度排名第一。

圖2 算法的成功率和精確度對比
為了分析算法的穩健性,實驗中詳細記錄了7種算法在各視頻的中心位置誤差曲線具體如圖3所示,所提算法在9個視頻序列測試下中心位置誤差性能均排名前三,在其中7個視頻序列測試下中心位置誤差性能排名第一,這說明所提算法不僅總體成功率和精確度高,而且算法在多種挑戰場景下穩健性也較好。

圖3 各算法的中心位置誤差曲線
為了從直觀角度分析算法效果,分別截取了部分實際跟蹤效果圖進行分析具體如圖4所示,主要針對在遮擋、光照變化、尺度變化等條件下的跟蹤效果進行分析。
圖4(a)~圖4(c)為遮擋情況下跟蹤效果,在圖4(a)所示的suv序列的第558幀中DeepSRDCF、KCF、BACF等算法由于缺乏最佳特征選擇機制,導致發生跟蹤漂移,而所提算法由于采用多特征決策方案選擇出最優特征組合表征目標外觀,因此能較好跟蹤到目標;在圖4(b)所示的faceocc1序列的第705幀中MCCT算法由于缺乏響應圖畸變抑制機制導致跟蹤漂移,而所提算法由于采用了正則化方法能夠抑制響應圖畸變因此能正確跟蹤目標;在圖4(c)所示girl2序列的第120幀由于出現了嚴重遮擋和相似目標,其它跟蹤方法由于缺乏特征選擇機制或響應圖畸變抑制導致跟蹤失敗,而所提算法由于跟蹤策略較完善,因此仍能準確跟蹤目標。
圖4(d)~圖4(f)為光照變化情況下跟蹤效果圖,在圖4(d)所示tiger1序列的第141幀、279幀、349幀和圖4(f)所示coke序列的第98幀、256幀中目標所處關照環境發生明顯變化,而且伴隨著目標部分遮擋,因此多數算法由于缺乏抑制光照變化環境帶來的響應圖畸變策略和自適應選擇特征機制導致跟蹤失敗,但是所提算法由于改進方案較為恰當,所以在各幀中都能準確跟蹤目標;在圖4(e)所示basketball序列第659幀、725幀中ARCF、BACF算法由于在跟蹤時引入環境上下文信息,從而帶來了背景干擾,因此導致其跟蹤失敗,但是所提算法在使用背景信息的同時利用正則化策略降低響應圖畸變影響,所以跟蹤較為準確。
圖4(g)~圖4(i)為形變情況下跟蹤效果圖,在圖4(g)所示girl序列的第112幀、334幀和圖4(h)所示diving序列的第105幀、175幀中目標發生了劇烈形變,使用傳統特征且缺乏特征選擇機制的ARCF、KCF、CSRDCF、BACF算法相繼跟蹤失敗,而DeepSRDCF、MCCT算法由于使用了深度特征表征目標只發生了輕度漂移,所提算法由于采用傳統特征與深度特征組合方式表征目標外觀,而且使用了自適應特征選擇策略使得其能夠準確表征目標,因此所提算法實現了精確跟蹤目標。在圖4(i)所示bird1序列中鳥成群飛行過程中身體形態發生了劇烈改變,而且背景中存在大量相似目標干擾,因此特征表征能力弱的KCF、CSRDCF算法在第63幀中率先發生跟蹤漂移,到后面的第332幀、403幀中其它算法均跟蹤失敗,所提算法綜合了裁剪矩陣擴大搜索區域、多特征決策選擇最佳特征、正則化項限制響應圖畸變三大策略實現了準確和穩健的目標跟蹤。

圖4 各算法實際跟蹤效果
為評價所提算法的實用性,實驗中還記錄了如表3所示的算法的平均運行速度以進行時間復雜度分析。可以看出所提算法速度為23.6 幀/秒,其速度低于KCF、BACF、

表3 算法平均運行速度對比
MCCT、ARCF等算法,這是由于所提算法綜合了畸變抑制策略和多特征決策方案,在運行中需對多個執行多個算法操作進行對比選取最佳特征跟蹤結果,所以其速度受到了較大影響,但是由于所提算法采用多個算法并行運行方案,所以常規情況下仍可以實現實時跟蹤。所提算法較DeepSRDCF、CSRDCF速度快,這是由于DeepSRDCF算法不僅使用了深度特征,還需要進行比較耗時的高斯賽德爾迭代優化,因此速度比較慢,而CSRDCF需要進行較為復雜的時間和空間信道可靠性評估,所以其速度較本文所提算法稍慢。
本文在KCF算法的基礎上,提出一種學習畸變抑制濾波器的多特征決策目標跟蹤算法。針對在跟蹤過程中KCF算法容易發生響應圖畸變問題,提出采用裁剪矩陣擴大搜索區域的同時利用正則化學習方案抑制響應圖畸變,使得算法能夠充分利用背景信息的同時不容易引起跟蹤漂移;針對傳統特征和組合特征不能較好表征目標外觀問題,提出使用多特征決策方案選擇最佳特征方式實現最佳特征自適應,從而使得跟蹤精確度獲得大幅度提升。通過在公開數據集上測試,實驗結果表明本文算法具備較高成功率與精確度,在遮擋、形變、光照變化等情況下能夠較為準確跟蹤目標。