何志偉 聶佳浩 杜晨杰* 高明煜 董哲康
①(杭州電子科技大學電子信息學院 杭州 310018)
②(浙江省裝備電子研究重點實驗室 杭州 310018)
③(香港理工大學電機工程系 香港 999077)
視覺目標跟蹤一直是人工智能和計算機視覺領域的一項基本而富有挑戰(zhàn)性的任務。近年來,視覺目標跟蹤正廣泛應用于智能視頻監(jiān)控、無人機、機器人等[1]。然而,由于各種挑戰(zhàn),例如目標被遮擋、尺度變化及背景雜亂等[2],如何實現實時、準確的目標跟蹤算法成為研究的熱點和難點。
目標跟蹤的核心問題在于從復雜的背景區(qū)分出前景目標,僅給定第1幀中任意目標的位置,跟蹤器旨在后續(xù)幀成功區(qū)分并定位該目標[3]。近幾年,基于相似性判別的相關濾波類跟蹤器[4–7]受到研究人員的廣泛關注。以KCF (Kernel Correlation Filter)[4]為代表的傳統(tǒng)相關濾波跟蹤器[4–6]利用手工制作的特征比較跟蹤目標和搜索區(qū)域之間的相關性,相關性最大的區(qū)域即待跟蹤目標,并采用在線更新模板機制來應對復雜場景的變化。但由于相似性判別過程所采用的特征是傳統(tǒng)的淺層特征(如紋理、顏色等),導致該類方法應對尺度變化、遮擋等復雜場景的能力有限。為了解決這個問題,
DeepSRDCF (Spatially Regularized Deep Correlation Filter)[7]等將卷積特征集成到相關濾波的方法中,利用圖像高層次的抽象語義特征進行相似性判別,增強了跟蹤器的魯棒性、提高了準確率。然而,由于卷積特征的復雜性及其高內存開銷,執(zhí)行在線更新模板的時間代價昂貴,因此,這類跟蹤器的跟蹤速度(5~10 fps)低于實時要求(>30 fps)。
為了使跟蹤器在兼顧準確率的同時保持實時速度,同為相似性判別的孿生網絡[8]跟蹤器[9–12]不斷涌現,并成為當下主流跟蹤框架。這類跟蹤器摒棄了相關濾波類跟蹤器中耗時嚴重的在線更新模板機制,采用端到端的離線訓練方式,使模型具有泛化能力,無需通過在線更新模板以獲取更多關于目標的先驗知識,就能夠從復雜場景中區(qū)分出前景目標。SINT (Siamese INstance search for Tracking)[9]第1次將孿生網絡應用到目標跟蹤領域,由于其采用了全局搜索策略,跟蹤器準確率較高,同時相似性判別使用的樣本大量冗余,嚴重影響跟蹤器的實時性。SiamFC (Full Convolutional Siamese Networks)[10]是孿生網絡跟蹤器的進一步探索,它將相似性判別過程嵌入網絡模型進行訓練,通過全卷積的方式學習目標與搜索區(qū)域卷積特征的相關性,由于SiamFC相似性判別所采用樣本幾乎沒有額外開銷,因此跟蹤器能實時運行(文獻[10]的實驗環(huán)境:86 fps)。此后的研究工作致力于提升孿生網絡跟蹤器的準確率,CFNet (Correlation Filter Siamese Network)[11]將相關濾波器融入孿生網絡,使網絡能夠離線學習與相關濾波緊密耦合的抽象特征,以此對SiamFC進行改進。SiamRPN (Siamese Region Proposal Network)[12]在孿生網絡的輸出端嵌入區(qū)域建議網絡 (Region Proposal Network, RPN)[13],有效提高了跟蹤器的性能。
上述孿生網絡跟蹤器雖然取得了一定的跟蹤準確率,但仍然有限,還存在亟待解決的問題。首先,這些跟蹤器利用較為淺層的AlexNet[14](去除全連接層)網絡來提取用于相似性判別的卷積特征,導致模型學習到的特征缺乏更具區(qū)分性的表征能力,進而影響判別準確性;其次,孿生網絡跟蹤器摒棄了耗時的在線更新機制,導致其應對復雜場景變化的能力較弱,容易受到背景信息,尤其是相似物體的干擾,從而發(fā)生漂移。本文嘗試直接使用ResNet[15]和GoogleNet[16]等網絡替換AlexNet時,性能不增反降。經調查可知,這些深層網絡是為圖像分類任務設計的,不能簡單應用于跟蹤任務中。SiamRPN++[17]和SiamFC-DW[18]都證明了孿生網絡跟蹤器無法簡單使用深層的特征提取網絡的核心原因在于:卷積、池化等過程的填充操作使抽象特征缺乏平移不變性。因此SiamRPN++提出了一種簡單有效的空間感知采樣策略來打破這一限制,并成功使用ResNet50[15]來提高模型判別能力,但深層網絡大量的參數導致其跟蹤速度下降嚴重。基于與SiamRPN++相同的目的,SiamFC-DW提出了新的裁剪殘差單元塊(Cropping-Inside Residual units, CIR)來構建ResNet22[18],以此緩和填充的負面影響,但同時也存在不足,該網絡需要依靠大量的訓練數據才能發(fā)揮其效果。另外,ATOM (Accurate Tracking by Overlap Maximization)[19]是結合孿生網絡跟蹤器和在線更新模板的典范,通過不斷融合后續(xù)搜索圖像作為模板信息的補充,隨著場景的變化而適應性變化,以此來應對復雜場景。然而ATOM在準確性和實時性上兩級分化較為嚴重,跟蹤速度約30 fps。
為了提高孿生網絡跟蹤器的準確率,本文采用了不同于上述的改進策略,在保持實時性的基礎上,創(chuàng)新提出了一種全新的關鍵特征信息感知模塊來提高孿生網絡模型的判別能力,該模塊包括多尺度特征提取和注意力機制兩部分。本文沿用了去除全連接層的AlexNet作為特征提取網絡,提出一種多尺度下采樣方式來提取目標的多尺度特征信息,并利用注意力機制增強目標的關鍵信息,用以捕捉目標最具區(qū)分性的抽象語義特征,然后利用該特征進行相似性判別,實驗結果顯示,跟蹤準確率提升顯著;此外,為了增強孿生網絡跟蹤器應對復雜場景的能力,本文還提出了一種低時耗的在線自適應掩模策略。與在線更新模板不同,本文通過互相關輸出學習搜索圖像中背景噪聲的復雜度,根據復雜情況自適應地對搜索圖像掩模,抑制了大量的背景噪聲干擾,使得跟蹤器能夠在復雜的場景下保持魯棒的性能。本文將提出的兩點創(chuàng)新應用于Siam-FC,在OTB100[20], GOT-10k[21]測試集進行大量實驗,結果展示跟蹤器性能有較大的提升,獲得了9.4% (OTB100), 26.1% (GO T-10k)的相對改進。
孿生網絡跟蹤器SiamFC[10]可以用式(1)建模,

其中,x和z分別為輸入的模板圖像和搜索圖像,φ表示特征提取網絡,corr為互相關運算,R表示矩陣響應圖,通過R中的最大值定位到目標中心位置。式中φ參數共享于模板圖像和搜索圖像分支。簡單地使用AlexNet[14]作為特征提取網絡不能充分挖掘孿生網絡結構的潛力,于是本文提出了一種關鍵特征信息感知模塊并嵌入AlexNet,如圖1所示。為了證明該模塊的通用性和有效性,本文還額外地以SiamFC-DW[18]為基準進行對比實驗。

圖1 本文跟蹤器框圖
本文選擇在AlexNet第3層后嵌入該模塊,原因在于前3層提取的特征都是較為淺層的圖像特征,而后兩層則是更加抽象的語義特征。本文設計的關鍵特征信息感知模塊如圖2(a),首先通過多種尺度的最大池化下采樣層來獲取不同尺度的特征信息并融合,豐富卷積特征每個像素的感受野,以此提供更多關于目標位置信息的先驗知識給跟蹤器,本文采用的下采樣池化核大小為3× 3 和5× 5。然而在不同尺度的特征信息融合過程中,同時帶來了大量的干擾信息,導致跟蹤器的性能不夠穩(wěn)定。如表1所示,在SiamFC基礎上使用多尺度特征提取策略下以同樣方式多次訓練模型,并測試它們的性能,結果顯示性能浮動較大且提升不夠明顯。

表1 訓練模型在OTB100上的AUC性能(%)

圖2 關鍵特征信息感知模塊結構
為了得到穩(wěn)定且更加魯棒的性能,網絡要選擇性地對目標的關鍵特征信息增強并抑制無用特征信息,即只捕捉目標最顯著的圖像屬性。一種簡單有效的方式是對卷積特征的不同通道賦予不同的權重,可以用式(2)表示



本文還提出了另一種可替代圖2(a)的結構,如圖2(b)所示,與圖2(a)不同的是,圖2(b)通過多尺度最大池化下采樣得到特征后并沒有直接融合,而是對這些不同尺度的特征分別輸入通道注意力進行權重賦值,最終將校準后的特征融合。本文以SiamFC和SiamFC-DW為基準算法對這兩種結構進行對比。對比結果如表2,使用結構1的SiamFC相較于基準準確率提高了6.8%,且超過了表1中的最大提升4.3%,速度下降了17 fps;使用結構2準確率提高達到了7.5%,速度下降增加到30 fps,但也遠超實時要求。SiamFC-DW在兩種不同結構下分別提升了2.6%和4.0%,表明本文提出的關鍵特征信息感知模塊在網絡判別能力足夠強大的基礎上還有提升。

表2 兩種不同關鍵信息感知結構對比
本文將圖2(a)的結構1嵌入SiamFC的特征提取網絡AlexNet后,經過端到端的訓練,將模型應用在OTB100[20]的兩個視頻序列Bolt, Board上,并可視化模型學習到的互相關層輸出的特征信息。如圖3所示,每個視頻序列隨機抽取某幾幀,上行是SiamFC模型學習到的特征可視化情況,下行是嵌入關鍵特征信息感知模塊后模型學習到的情況。從中可以看出,嵌入該模塊后,跟蹤器關注的目標特征熱點更加聚集,排除了大量干擾,有效提升了模型的判別能力。

圖3 互相關層輸出的特征可視化
在特征提取網絡中嵌入關鍵特征信息感知模塊后,模型的判別能力有了質的提升。然而,跟蹤器的性能在復雜場景下仍不夠魯棒,無法抵抗一些嚴重相似物體的干擾,如圖3 Bolt的第5幀所示,跟蹤器表現出了漂移到目標左側的相似干擾物體上的趨勢,這類干擾物體的突出特征會分散模型的注意力。因此,本文還提出了一種在線自適應掩模策略抑制干擾信息,突出前景目標,以此來應對復雜場景。如圖1所示,該策略通過在線學習掩模參數以達到自適應的效果。相比于傳統(tǒng)的圖像掩模方式,本文的自適應掩模可以捕捉視頻流中目標的動態(tài)變化信息。而傳統(tǒng)的方法無法適應目標變化,抑制過程會給圖像的前景信息帶來損耗。


圖4 在線自適應掩模示意圖

表3 在線自適應掩模

本文基于Python的Pytorch實驗平臺,PC配置CPU為Intel i7-10700F,GPU為NVIDIA GeForce RTX 1080Ti,內存大小12 GB。基準SiamFC以及本文提出的算法統(tǒng)一在GOT-10k標注訓練集上訓練。訓練過程采用隨機梯度下降(Stochastic Gradient Descent, SGD)優(yōu)化器進行優(yōu)化,epoch為50,初始學習率為1e-2,并以指數形式衰減,batch size為8。測試時使用了OTB100, GOT-10k數據集對本文跟蹤算法測試分析。本文提出算法模型的關鍵參數可在圖1查看。實驗時關鍵信息特征感知模塊采用具有代表性的圖2(a)結構1。
本文基于成功率(Success Rate, SR)和精度(Precision)兩個性能指標來評估跟蹤器性能。成功率通過計算跟蹤預測框與實際標注框的重疊率(Intersection-over-Union, IoU)在給定閾值下的曲線下面積(Area Under Curve, AUC);精度通過中心位置誤差(Center Location Error, CLE)在給定的20個像素距離閾值下的成功跟蹤率。

其中,S表示跟蹤目標框的面積,pre表示算法預測框.truth表示實際標注框,L表示目標中心所在位置,使用的是歐氏距離。
4.2.1 OTB100實驗結果
OTB100是目標跟蹤領域最常用的評估數據集,共包含100個視頻序列,視頻的具體場景有背景復雜(Background Clutter, BC)、光照變化(Illumination Variation, IV)、尺度變化(Scale Variation, SV)、遮擋(OCClusion, OCC)、形變 (DEFormation, DEF)、運動模糊(Motion Blur, MB)、快動作(Fast Motion, FM)、平面內旋轉(In-Plane Rotation, IPR)、平面外旋轉(Out-of-Plane Rotation, OPR)、離開視野(Out-of -View, OV)、低分辨率(Low Resolution, LR)11種,是最常用的評估數據集。實驗將本文所提跟蹤算法與當前主流的孿生網絡跟蹤器SINT[9], SiamFC[10], CFNet[11],SiamRPN[12], SiamFC-DW[18], SiamRPN++[17]和相關濾波跟蹤器DeepSRDCF[7], SRDCF[6],Staple[5], KCF[4]進行對比。實驗結果如圖5所示,本文算法AUC=0.639, Precision=0.861,相較于基準算法SiamFC分別提高了9.4%和11.5%。

圖5 10種算法在OTB100數據集上的跟蹤性能對比
針對11種不同的場景,表4展示了本文跟蹤算法跟主流孿生網絡跟蹤算法在這些復雜場景下的AUC對比。從表4可以看出本文算法幾乎在所有場景下都取得了最優(yōu)或次優(yōu)的性能結果,并且在尺度變化、背景復雜和運動模糊場景下相較于基準提升近10.4%, 16%和19%,這進一步驗證了本文所提的跟蹤器模型具有很強的判別能力,能夠在各種復雜場景下區(qū)分出前景目標。

表4 10種算法在OTB數據集上不同場景的AUC定量對比
4.2.2 GOT-10k 實驗結果
GOT-10k是最新發(fā)布的大規(guī)模和多樣性的目標跟蹤評估數據集,評價指標包括平均重疊(Average Overlap, AO), SR。AO表示所有評估的邊界框和標注框之間的平均重疊率,SR0.5和SR0.75分別表示閾值0.5和0.75下的SR。
10種算法的性能對比如圖6所示,本文跟蹤算法相較于基準算法SiamFC,AO由0.326增加到0.411,提升了26.1%。對比于主流算法SiamRPN,SiamFC-DW有12.0%和7.0%的性能優(yōu)勢。除次之外,本文還將SR0.5和SR0.75展示于表5,本文算法的SR0.5, SR0.75相較于SiamFC提升了39.4%和78.6%。

表5 10種算法在GOT-10k數據集上性能對比

圖6 10種算法在GOT-10k數據集上的跟蹤性能對比
4.2.3 消融實驗
為了驗證本文提出的兩個創(chuàng)新點:關鍵信息特征感知模塊(創(chuàng)新1)、在線自適應掩模(創(chuàng)新2)的有效性,以SiamFC算法為基準在OTB100數據集上做了消融實驗。實驗結果如表6所示,僅采用關鍵信息感知模塊或在線自適應掩模的曲線下面積和Precision提升分別為曲線下面積(6.8%, .7%),精度(7.6%, 6.0%),而結合二者提升可達曲線下面積(9.4%)和精度(11.5)。

表6 本文算法在OTB100上的消融實驗結果
本小節(jié)直觀地對比了本文算法和對比算法的跟蹤效果,實驗選取了基準算法SiamFC和在本文實驗表現最優(yōu)的算法SiamRPN, SiamFC-DW, Deep-SRDCF在OTB100數據集上的4個視頻序列(Board,Soccer, Singer2, Dragonbaby)進行跟蹤效果對比,這些序列都包含相似物體干擾、背景信息雜亂、目標形變等復雜場景。
對比結果如圖7所示,每種顏色代表一種算法的預測框。Board序列中第30幀和40幀由于背景雜亂導致SiamFC漂移嚴重,而本文算法能夠準確跟蹤;Soccer序列存在大量相似干擾物,在第232幀只有本文算法精確定位了目標物體且重疊率最高;Singer2視頻中目標形變以及背景顏色干擾嚴重,從第32幀開始所有跟蹤器都漂移,只有跟蹤器能在此復雜場景中區(qū)分出前景目標;Dragonbaby中男孩臉部存在目標形變及運動模糊等情況,在第44幀時,SiamFC, SiamFC-DW, DeepSRDCF都發(fā)生漂移,并且SiamFC在后續(xù)跟蹤過程再也無法找回目標,而本文跟蹤器卻能保持準確的跟蹤狀態(tài)。

圖7 5種算法的跟蹤實例對比
本文為了提高孿生網絡跟蹤器精度,基于通道注意力機制,提出了一種通用關鍵信息特征感知模塊來選擇性地增強有用信息,并將該模塊嵌入特征提取網絡從而有效提高了網絡模型的判別能力;本文還提出了一種低時耗的在線自適應掩模策略,以此來突出前景目標,很大程度上抑制了背景信息的干擾,在兼顧跟蹤速度的同時進一步提高了跟蹤器精度。通過OTB100和GOT-10k實驗表明,本文提出的跟蹤算法具備優(yōu)秀的跟蹤性能,并且能夠在各種復雜場景下保持魯棒性能。