張方方,曹家暉,王海靜,趙鵬博
(鄭州大學 電氣與信息工程學院,河南 鄭州 450001)
隨著人工智能的大力發展,計算機視覺領域也飛速發展,視頻跟蹤技術應用到了很多的領域、如智能交通、物流倉儲、生活服務等[1]。但是由于實際的場景十分復雜,存在光照變化、尺度變化、障礙物遮擋、快速運動等問題。如何在上述因素存在的情況下準確快速地跟蹤目標,仍需要繼續深入的研究。常見的目標跟蹤算法可以分為兩類:生成式算法和判別式算法[2]。生成式算法的主要原理是在當前幀的位置進行建模,根據上一幀目標物體建立的模型在下一幀找到最相似的位置作為預測位置。此類型算法原理簡單,目標模型的建立不復雜,但是跟蹤效果較差,原因是單一的數學模型描述物體具有局限性,在面對光照變化、遮擋等因素時模型的建立受到一定的影響。判別式算法是基于圖像特征和機器學習、深度學習的方法在分類好的樣本上訓練分類器,使用訓練好的分類器對被檢測的圖像進行分類。隨著機器學習、深度學習的大力發展,判別式算法表現出了優越的速度和較高的精度,成為近年來專家學者研究的熱點[3]。
判別式算法可以分為基于深度學習思想的算法和基于相關濾波思想的算法。深度學習類的代表算法有Bertinetto 等人提出了SiamFC 算法[4],因其簡潔高效的特點作為跟蹤算法研究的基礎框架。研究人員在此基礎提出了SiamRPN[5]、CFNet[6]等算法。基于深度學習的跟蹤算法可以表現出優越的性能,但是由于算法往往需要巨大的算力支撐,算法的速度慢、難以移植到機器人平臺等缺點。相關濾波來源于信號處理的概念,是比較兩個信號相似程度的量,最早將相關濾波引入到視頻跟蹤計算的是最小平方誤差和算法(minimum output sum of squared error,MOSSE)[7],主要是通過快速傅里葉變換進行求解,降低了算法的計算量并且提升了跟蹤速度,可以達到每秒幾百幀。2012年,Henriques 等人提出的循環核濾波算法(circulant structure kernel,CSK)將循環矩陣的概念引入進來增加了訓練樣本的多樣性[8]。2015年,Henriques 等人在CSK 的基礎上將灰度特征替換成方向梯度直方圖特征,提出了核相關濾波算法(kernelized correlation filter,KCF)算法[9],取得了非常好的性能。2015 年Martin 等人對于循環樣本存在邊界效應問題進行了改進,提出了空間正則項相關濾波(spatially regularized discriminant correlation filter,SRDCF)算法[10]。2016 年Bertinetto 等人提出的Staple算法[11],該算法利用了HOG 特征和CN 顏色直方圖分別進行訓練,兩個特征采用固定比例的方式進行融合,跟蹤速度和跟蹤性能都取得了不錯的成績。2018年,Li 等人在SRDCF 的基礎上加入了時間正則化,提出了基于時空正則項的跟蹤器(spatial-temporal regularized correlation filters,STRCF),由于加入時間正則化后采用交替方向乘子法(alternating direction method of multipliers,ADMM)算法來進行迭代求解加快了計算的速度[12]。2020 年同濟大學團隊提出的AutoTrack 算法是在STRCF 算法的基礎上進一步改進,采用自適應的空間正則化和時間正則化來適應更多更復雜的情景[13]。盡管基于相關濾波跟蹤器取得較好的發展,但是在包含不同挑戰因素的視頻場景中跟蹤仍存在一些問題,如圖像的特征仍然不能夠準確反應目標外觀變化,缺少對于跟蹤響應質量的評估,當發生遮擋的時候目標模板容易被污染等。
針對上述分析問題,本文提出了多特征自適應融合的抗遮擋算法來解決在有遮擋或模糊的情況下移動目標的跟蹤問題。算法以最大化檢測響應圖質量為目標,自適應地融合HOG 特征和顏色直方圖CN 的檢測得到的響應圖,增強了跟蹤的魯棒性;針對目標遮擋與運動模糊等都會導致響應圖振蕩,難以對目標遮擋進行判定的問題,采用高質量模板和正常更新模板檢測響應圖的質量差值來檢測目標的遮擋情況,當目標重新出現時,將濾波器回溯到高質量模板中來實現重新跟蹤。
首先引入圖像特征的濾波模板的訓練方法,將訓練得到的濾波模板與特征進行快速檢測可以得到不同特征的響應,但將響應進行簡單的線性融合無法充分發揮特征的優勢,因此采用了自適應融合不同特征響應的方式來增強算法的魯棒性。
近年來,多通道相關濾波器在視覺跟蹤領域的發展非常的迅速。設在一個通道數為N的圖像中特征為f={f1,f2,…,fN},濾波模板設為H={h1,h2,…,hN},每個通道上的特征和濾波模板都是C×D大小,將圖像特征和濾波模板進行循環相關得到了相關濾波響應g,目標位置出現在響應g的最大值的位置。表達式為:
式中:*表示循環相關,fd表示第d個通道的圖像特征;hd表示第d個通道的濾波模板;其中關于濾波器h的求解方法,則是通過最小化損失函數ε(h)來求解:
式中:gh為期望輸出,為二維高斯函數;λ為正則化參數,可以防止過擬合,為L2 范數的平方。
循環相關操作轉換到傅里葉域中可以提升計算效率,所以將損失函數轉換到傅里葉域中進行計算:
式中:⊙表示點積運算;I為C×D×1 大小,且元素全為1 的列向量;進行傅里葉逆變換可以得到多通道的濾波器模板H,將濾波模板代入到式(1)中可以得到最終的響應圖。
本文算法用的特征是HOG 特征和顏色直方圖特征,將圖片的兩種特征和濾波模板H代入到式(1)中可以得到兩個響應:gHOG和gCN,將兩個響應進行融合可以發揮HOG 特征對于目標的形狀變化的魯棒性,CN 特征對于目標的顏色變化的魯棒性,兩者響應可以采用線性的方式進行融合如下:
式中:α和β分別代表的是HOG 特征響應和顏色直方圖特征響應的融合系數,融合后的響應圖中最高點的位置即為目標所在的位置。
為了避免跟蹤器模型變化過快,將由式(4)求解出的第N幀濾波器模板Hn與N-1 幀算出來的模板Hn-1′進行線性結合,得到最終的濾波器模型更新公式:
式中:η代表跟蹤器的學習率,描述了跟蹤器學習新圖像特征的快慢程度。
公式(5)中將響應進行線性融合的方式簡單有效,但在復雜多變的視頻中,固定的融合比例難以滿足跟蹤器高精度需要,因此根據不同視頻的特點自適應地調節融合系數可以充分發揮不同特征的優勢,提高跟蹤器的準確率。因此本文算法中的融合系數采取自適應的方式更新。
顏色特征和HOG 特征對于不同類型的圖像具有不同的表征能力,為了充分利用他們的互補性,需要將兩者的響應進行自適應融合。首先介紹提出的評價響應圖質量的指標,然后再基于所提出的響應圖質量指標函數來實現自適應融合響應得到最終的響應。
1.2.1 跟蹤質量評價指標
自適應融合多個特征的目的就是提高跟蹤的準確性。準確性體現在跟蹤的準確度非常高,對應到響應圖上就是響應圖的形狀接近單峰值情況。但實際圖像響應圖的形狀復雜多變,不容易判斷質量的好壞,因此提出一個可以準確評價響應質量好壞的質量評價指標非常必要。Goutam Bhat 在UPDT(unveiling the power of deep tracking)算法中指出,跟蹤算法的準確性體現為峰值的尖銳程度,魯棒性體現為目標峰值和干擾區域峰值的高度差距,峰值高度相差越大,證明結果越魯棒[14]。
我們設計跟蹤質量指標DIS(distance)來評價不同質量的跟蹤結果,主要考慮從響應圖振蕩程度和最高峰值的尖銳程度來度量響應圖的跟蹤質量,DIS 定義如下:
式中:f表示融合后得到的響應圖;z表示響應圖中峰值的位置,峰值的形狀類似于二維高斯函數。如圖1 所示,圖中z*表示的是最高峰值的位置坐標,峰值大小用Fmax表示;z1,z2,…,zn表示峰值高度低于Fmax的次高峰的位置坐標,次峰值大小用Fi表示。gapi表示第i次峰值與最高響應值之間的高度比。gapi越大說明峰值的差距較小,圖像更加振蕩,質量評價的數值越小;反之gapi越小質量評價數值越大。γ表示最高峰值附近的斜率,斜率越大代表峰值越尖銳,質量評價數值越大。峰值高度較低的次峰值,表示跟蹤器對于當前位置是目標位置的確信度是較低的,對于跟蹤結果的影響非常小,為了提高計算的效率,我們不考慮峰值高度較低的次峰值對于DIS 指標的影響。DIS 指標可以有效評估響應圖的質量好壞,比較兩個不同響應圖的質量,較好的情況是沒有次峰,或者次峰值都較為低,此時取值接近于0,因此DIS 最大取值是1,當響應圖劇烈振蕩時,DIS取值接近0。

圖1 響應圖所有的峰值Fig.1 All peaks in response graph
DIS 性能指標主要考慮了響應圖中的次峰值對于響應圖振蕩性的影響,還有峰值的尖銳程度。常見響應質量評價指標如平均峰值相關能量(average peak to correlation energy,APCE)[15]、峰值旁瓣比(peak to sidelobe ratio,PSR)[7]等在評價時均沒有考慮峰值的尖銳程度對于響應圖質量的影響;其次只考慮響應圖中的最高值和最低值,忽略了眾多次峰值對于響應圖的質量的影響,因此不能很好地反應跟蹤質量。
1.2.2 特征響應圖自適應融合方式
在視頻跟蹤的過程中,由于圖像存在很多光照變化、跟蹤目標形狀發生變化等很多情況,這樣會影響跟蹤的質量,影響響應圖的DIS 值。HOG 特征對于形狀特征具有很強的魯棒性,能夠很好地表達出目標的形狀特征;顏色直方圖對于目標的顏色特征具有很強的魯棒性。充分發揮兩個不同特征在不同情況下的優勢,自適應調整特征的融合參數可以提高跟蹤的穩定性。本文算法主要是設計響應圖質量評價指標DIS,以最大化DIS 為目標規劃多個特征的融合系數α和β,算法的思想簡潔高效,公式如下:
對于規劃問題(9)每一幀圖像得到的gHOG和gCN都是已知的,問題就是非線性優化問題,優化的目標是最大化DIS 值。采用常規求解算法,如基于黃金分割搜索算法和拋物線插值算法結合的迭代求解的方法求解(α,β),具體求解步驟不再展開介紹。如在圖2中(b)、(c)兩圖的顏色變化明顯,顏色特征對于目標的檢測具有干擾的因素,會導致響應圖遮擋,顏色直方圖模板系數α降低0.1;(a)和(d)圖片中,目標顏色變化不大,顏色模板對于的系數則相對較高,分別為0.5 和0.4。

圖2 自適應調整融合系數Fig.2 Adaptive adjustment of fusion coefficient
遮擋問題一直以來都是目標跟蹤領域的非常常見的問題。當目標被完成遮擋的時候,濾波器只能學習到遮擋物的特征,引起了模型識別時的偏差。除此以外,單從響應質量對遮擋進行檢測是容易與圖像運動模糊等情況進行混淆。本文首先定義高質量模板,是當某一幀的響應圖的DIS 較高時,儲存此時濾波器模板為高質量模板。然后在之后幀的檢測中,用高質量模板和正常更新的濾波器模板同時檢測目標得到響應圖的DIS 得分的差值來判斷遮擋的發生。為了防止DIS 出現個別異常值情況影響遮擋情況的判斷,采用鄰近的K幀的?作為遮擋判斷的依據:
式中:DIS 表示采用正常跟蹤的濾波器檢測當前幀得到的響應圖的DIS 數值,DISH使用高質量模板檢測得到響應圖的質量分數。采用鄰近K幀的差值?mean作為遮擋判斷條件可以防止濾波器跟蹤的過程中出現因濾波器錯誤檢測導致?突然增大,從而導致濾波器跳出遮擋循環的情況發生,因此跟蹤器對于遮擋情況消失的判定會滯后目標出現幾幀,但是這樣可以提高遮擋判定的準確性。
本文采用一種新的方式對遮擋情況進行判斷,同時能夠區分遮擋情況和其他挑戰因素導致響應圖遮擋進行區分,算法原理是:當目標受到遮擋的時候,濾波器采用正常的更新方式,會逐步學習遮擋物的特征信息,因此正常濾波器檢測到的響應圖DIS 值會逐步升高。但是之前存儲的高質量模板都是目標物體的特征的描述,因此高質量模板得到響應會比較低。因此當兩者的差值達到閾值時,代表物體已經被完全遮擋。當目標處于遮擋狀態時,高質量模板hhigh檢測得到的當前幀畫面的響應圖處于較低水平,但當目標重新出現時,DISnhigh會突然增大,此時可以判斷出目標已經重新出現,將此時的濾波器模板回溯到之前存儲的高質量模板可繼續接下來的跟蹤。具體的遮擋情況處理子算法A 流程如下:
Step 1:設定高質量模板閾值ε,當上一幀的響應質量指標DIS>ε時,定義上一幀濾波模板為高質量模板,并定義為hhigh,并存儲下來。
Step 2:用上一幀的濾波模板hn-1和高質量濾波模板hhigh檢測第n幀目標,得到目標響應,計算個響應圖的DIS 差值,記為?n。
Step 3:設定遮擋閾值ζ,當?mean>ζ時,判定目標發生了遮擋,進入遮擋后檢測目標再出現部分,進入Step 4;當?mean<ζ時,未發生遮擋,正常更新濾波器位置,跳出遮擋情況處理算法A。
Step 4:采用上一幀模板更新目標位置正常更新濾波器,讀取下一幀圖像。
Step 5:設定跳出遮擋循環閾值γ,用hhigh檢測當前幀的圖像特征得到響應圖的質量評價值DISnhigh。當?mean>γ時,判定目標已經重新出現,進入Step 6;否則跳回Step 4。
Step 6:將目標位置更新為高質量模板檢測到的響應圖的最高點的位置,同時將高質量模板賦值給當前濾波器模板,讀取下一幀圖像。
本文針對在跟蹤器目標遮擋等情況下容易跟蹤失敗的問題,提出了多特征自適應融合的抗遮擋算法,算法主要有兩個重要的部分,一部分是自適應融合,另一部分是判定遮擋及遮擋后重新出現處理。算法的流程如下:首先對第一幀進行初始化,后續每一幀的跟蹤結果都進行遮擋的判定,如果判定為不存在遮擋,算法以最大化DIS 為目標自適應融合不同特征的響應圖;如果判定發生了遮擋,跟蹤器進行遮擋循環部分,當判定目標重新出現后,跳出遮擋循環,將濾波器模板回溯到最近一幀的高質量模板,整個算法的流程如圖3 所示。

圖3 完整的算法流程Fig.3 Complete algorithm flow
算法的實驗平臺為:處理器是Intel(R) Core(TM)i7-10750H CPU @ 2.60 GHz,內存20 GB,64 位操作系統,2016b 版MATLAB。實驗中的參數如下:HOG特征的cell 是4×4,模板的學習率為ηtmpl=0.01,ηhist=0.04。
測評的數據集為OTB10016]和UAV123 數據集[17]。lOTB100 中視頻分為11 種屬性,分別是光照變化(illumination variation,IV)、尺度變化(scale variation SV)、遮擋(Occlusion,OCC)、形變(deformation,DEF)、運動模糊(motion blur,MB)、快速移動(fast motion,FM)、平面內旋轉(in-plane rotation,IPR)、平面外旋轉(out-of-plane rotation,OPR)、離開視野(out-ofview,OV)、相似背景(background clutters,BC)、低分辨率(low resolution,LR)。UAV123 主要針對大范圍視野下目標的跟蹤,包含高度比變化(aspect ratio change,ARC)、背景雜波(background clutter,BC)、攝像機運動(camera motion,CM)、快速運動(fast motion,FM)、完全遮擋(full occlusion,FOC)、光照變化(illumination variation,IV)、低分辨率(low resolution,LR)、視野外(out-of-view,OV)、部分遮擋(partial occlusion,POC)、相似目標(similar object,SOB)、尺度變化(scale variation,SV)、視角變化(viewpoint change,VC)共12 種不同的屬性。實驗的評估指標主要分為成功率和精確度,實驗中采用的評價方式是一次成功率(one-pass evaluation,OPE)。
成功率(S)定義公式如下為:
式中:rt指候選框;r0指人工標注的跟蹤框;表示區域的像素數目。當某一幀的成功率大于設定的閾值時,則該幀被視為成功的。
精確度的定義公式如下:
式中:Nt、Ns分別指第t幀幀數和總幀數。
本文算法在OTB100[16]中與當前主流的算法進行對比:包括 Staple、SRDCF、SRDCFdecon、LMCF[15]、MCCT-H[18]、AutoTrack[13]。對比的算法都是屬于相關濾波算法,并且算法都使用的手工特征作為圖像特征。數據集一共100 視頻序列,每一個視頻序列都包含11 種挑戰中的幾種。同時算法在UAV123數據集上進行了測試,UAV123 數據集包含12 種挑戰因素,對比算法將LMCF 替換成STRCF 算法,其他對比跟蹤器算法不變。
圖4、圖5 是本文提出的算法在OTB100 與UAV123 數據集中精度和成功率排名,圖表中OUR表示的是本文算法,由圖可以看出,本文算法在不同數據集的精度分別為0.769 和0.6373,成功率分別為0.692 和0.596。兩項指標在不同數據集中均排名第一,說明算法的綜合性能表現比較突出。

圖4 OTB100、UAV123 數據集中精度排名Fig.4 Accuracy ranking of OTB100 and UAV123 data sets

圖5 OTB100、UAV123 數據集中成功率排名Fig.5 Ranking of success rate of OTB100 and UAV123 data sets
如表1、2 所示,針對11 種不同的挑戰因素,精度方面算法在OPR、SV、OCC、DEF、IPR、OV 中排行第一。成功率方面,算法在SV、OCC、DEF 中排行第一,在IV、OPR、MB、IPR 中排行第二。

表1 OTB100 的精度Table 1 Accuracy of OTB100
表3、表4 所示,在UAV123 數據集上做了實驗,實驗結果顯示,本文算法在多種挑戰因素視頻中均排行第一,表現出了較好的性能。綜合所有的視頻挑戰因素,本文算法是表現最好的算法。在速度方面,算法在兩個數據集共223 個視頻中平均的處理速度為37.64 幀/s,大于30 幀/s,能夠實現實時跟蹤的要求。

表3 UAV123 的精度Table 3 Accuracy of UAV123

表4 UAV123 成功率Table 4 Success of UAV123
為了探究濾波器各個模塊對于跟蹤器的整體影響,設置消融實驗。對比的算法為:OUR-S、UPDTOUR。OUR-S 算法是將本文算法目標遮擋處理模塊去除,只留下目標的多特征自適應融合模塊的跟蹤器;UPDT-OUR 算法將融合指標公式(7)替換成UPDT 提出的公式(14),算法命名為UPDT-OUR,將上述兩種算法在OTB100 數據集中進行對比,結果如圖6 所示。
圖6 中可以看出,本文算法在精度和準確度方面以0.769 和0.692 均領先于其他兩種跟蹤器,說明遮擋處理模塊可以有效提高跟蹤器性能;同時OUR-S 以0.733 的精度和0.656 的成功率優于UPDT-OUR,說明本文跟蹤器的融合不同特征的方式更有效果,UPDT 的融合方式可以對不同特征進行自適應的融合,但是由于UPDT 沒有考慮多個峰值的振蕩情況,同時對于響應圖最大峰值的尖銳程度沒有考慮,因此對于跟蹤的性能效果提升沒有本文算法的提升效果明顯。除此以外,增加遮擋檢測處理模塊可以提升算法在面對遮擋、運動模糊等因素視頻的跟蹤效果。

圖6 OTB100 數據中各個模塊消融實驗的跟蹤結果Fig.6 Tracking results of ablation experiment of each module in OTB100 data

表2 OTB100 成功率Table 2 Success of OTB100
如圖7 所示,選取具有代表性的6 個典型視頻序列進行實驗定性分析,視頻序列Box、Human3、Birld 是OTB100 數據集的序列,group2、person7、uav1 屬于UAV123 數據集。在Box 序列中主要存在很多遮擋的問題,在465 幀時,目標完全處于遮擋狀態。本文算法的遮擋檢測機制檢測到了處于遮擋,本文算法進入遮擋環節,將高質量模板的響應恢復到較高水平這一條件作為算法跳出遮擋環節,進行正常跟蹤環節。這一機制可以有效地處理遮擋問題;同樣存在遮擋問題的還有Human3 序列,50 幀開始,行人被障礙物遮擋,本文算法檢測到并跟蹤上目標。在1439 幀時,由于周邊出現了相似目標,本文算法優化后融合系數最大化地發揮了各個特征的優勢,最后本文算法正確跟蹤到了結束;Birl 序列在121 幀之后目標處于完全遮擋的狀態,并且遮擋的時間較長。本文算法一直保留著之前存儲的高質量模板,當目標重新出現的時候,濾波器可以回溯到之前幀,對目標重新進行跟蹤,而其他大多數的算法由于濾波器長時間學習障礙物的特征已經不能再有效跟蹤目標;groub視頻的跟蹤目標是人群中的一個,包含較多的遮擋,相似目標等干擾,本文算法在617 幀之后能夠正常跟蹤目標。在Person7 中76 幀時,staple 和MCCT 跟蹤器都跟丟了目標,本文算法跟蹤器可以一直保持準確跟蹤。uav1 視頻中包含大量的快速移動、目標旋轉等挑戰因素,最后顯示只有本文算法跟蹤器可以一直成功跟蹤目標,不出現錯誤跟蹤的情況。


圖7 7 種算法在不同視頻的關鍵幀中對比結果Fig.7 Comparison results of seven algorithms in key frames of different videos
本文提出的多特征自適應融合抗遮擋目標跟蹤算法,從跟蹤結果的魯棒性和準確性角度設計出合理的響應圖質量評價函數DIS,以最大化響應圖評價函數DIS 為目標規劃HOG 模板和顏色直方圖模板的融合系數,利用不同特征的互補性提高了算法的魯棒性。在跟蹤的過程中存儲響應質量較高的模板,以高質量模板和正常更新的模板檢測當前圖像特征得到的響應圖質量的差值作為判別發生遮擋的依據,有效地檢測到了目標發生遮擋,當遮擋消失后,跟蹤器可以重新跟蹤上目標。最后在數據中驗證跟蹤器的性能,結果顯示跟蹤器在光照劇烈變化、形狀劇烈變化、運動模糊、遮擋等挑戰的時候仍能保持較高的準確性和魯棒性,結果顯示算法相較于其他種類的主流跟蹤算法具有良好的表現,具有一定的現實意義。下一步考慮如何自適應融合更多的特征信息,增強目標的表達能力,同時考慮將跟蹤算法移植到機器人中,實現現實中的目標跟蹤。