基于深度像素級(jí)特征的孿生網(wǎng)絡(luò)目標(biāo)跟蹤方法

2023-11-29 00:21:04王向軍郝忻王霖

傳感技術(shù)學(xué)報(bào) 2023年10期

關(guān)鍵詞：特征

王向軍，郝忻，王霖

(1.天津大學(xué)精密測(cè)試技術(shù)及儀器國(guó)家重點(diǎn)實(shí)驗(yàn)室，天津 300072；2.天津大學(xué)微光機(jī)電系統(tǒng)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室，天津 300072)

近年來(lái)，隨著科學(xué)技術(shù)的不斷發(fā)展，計(jì)算機(jī)視覺(jué)已成為一個(gè)熱門的領(lǐng)域。其中，目標(biāo)跟蹤作為計(jì)算機(jī)視覺(jué)的一個(gè)重要研究方向[1]，也受到了越來(lái)越多的關(guān)注。目前，目標(biāo)跟蹤技術(shù)在監(jiān)控安防、無(wú)人駕駛和增強(qiáng)現(xiàn)實(shí)等不同領(lǐng)域都有了廣泛的應(yīng)用[2－3]。目標(biāo)跟蹤任務(wù)包括單目標(biāo)跟蹤和多目標(biāo)跟蹤，單目標(biāo)跟蹤(Single Object Tracking，SOT)，是指在視頻的某一幀中框選出需要跟蹤目標(biāo)的矩形坐標(biāo)框，并在后續(xù)的視頻序列中，通過(guò)某種相似度計(jì)算，尋找并給出跟蹤對(duì)象在后續(xù)幀序列中的信息，包括位置和尺度等信息。

目前目標(biāo)跟蹤算法的主要方向有兩類:生成式目標(biāo)跟蹤算法和判別式目標(biāo)跟蹤算法，其中判別式目標(biāo)跟蹤算法又可以細(xì)分為相關(guān)濾波類目標(biāo)跟蹤算法和深度學(xué)習(xí)類目標(biāo)跟蹤算法。相關(guān)濾波類目標(biāo)跟蹤通過(guò)對(duì)第一幀框選的模板進(jìn)行建模，利用“相關(guān)性”[4]計(jì)算得到目標(biāo)的跟蹤信息，設(shè)計(jì)并訓(xùn)練出一種能鑒別搜索區(qū)域中目標(biāo)與背景的分類器。然而隨著近年來(lái)機(jī)器學(xué)習(xí)的不斷發(fā)展，深度學(xué)習(xí)也逐漸應(yīng)用于目標(biāo)跟蹤領(lǐng)域，算法在強(qiáng)大的GPU 支持下完成離線訓(xùn)練和在線跟蹤。2016 年，Bertinetto 等[5]提出了SiamFC(Fully-Convolutional Siamese Networks)算法，利用孿生網(wǎng)絡(luò)(Siamese Network)提取模板和搜索區(qū)域圖像特征，再經(jīng)過(guò)互相關(guān)方法和后端網(wǎng)絡(luò)得到輸出響應(yīng)，成功將孿生網(wǎng)絡(luò)與深度學(xué)習(xí)目標(biāo)跟蹤相結(jié)合；2018 年Li 等[6]將檢測(cè)網(wǎng)絡(luò)中的區(qū)域推薦網(wǎng)絡(luò)(Region Proposal Network，RPN)引入到了目標(biāo)跟蹤領(lǐng)域，提出的SiamRPN[7]算法分別對(duì)前背景分類和偏移回歸進(jìn)行了預(yù)測(cè)，在提高尺度估計(jì)精度和效率的同時(shí)，加快了模型的收斂速度；2019 年，Li等[8]提出了SiamRPN＋＋算法，通過(guò)均勻分布的采樣方式讓目標(biāo)在中心點(diǎn)附近進(jìn)行偏移，緩解了網(wǎng)絡(luò)因?yàn)槠茐牧藝?yán)格平移不變性帶來(lái)的影響，并利用深度可分離卷積進(jìn)一步提升了網(wǎng)絡(luò)精度；隨著Transformer 結(jié)構(gòu)在深度學(xué)習(xí)中的流行，2021 年，Yan等[9]利用Transformer 的編碼器和解碼器具有全局感受野的優(yōu)勢(shì)來(lái)進(jìn)行目標(biāo)跟蹤，并輸出跟蹤框?qū)屈c(diǎn)的預(yù)測(cè)，在LaSOT 和GOT10K 等數(shù)據(jù)集上取得了當(dāng)時(shí)最好的效果，為后續(xù)跟蹤模型提供了使用Transformer 跟蹤框架的思路。

針對(duì)跟蹤算法面對(duì)變化目標(biāo)以及低分辨率場(chǎng)景時(shí)跟蹤性能下降的問(wèn)題[10]，本文在SiamRPN＋＋算法的跟蹤結(jié)構(gòu)框架基礎(chǔ)上進(jìn)行了改進(jìn)，對(duì)原有的深度可分離卷積進(jìn)行替換，使用了模板與搜索區(qū)域像素級(jí)特征融合的方法，并為后續(xù)輸出增加自適應(yīng)的模塊，以應(yīng)對(duì)低分辨率下小目標(biāo)特征不足的問(wèn)題；同時(shí)，為特征抽取網(wǎng)絡(luò)的輸出部分增加了深度特征抽取模塊；最后，設(shè)計(jì)基于時(shí)間上下文的模板更新策略，在跟蹤任務(wù)中依據(jù)判據(jù)，從歷史信息中篩選出合適的時(shí)空特征，利用跟蹤特征的相關(guān)性，提升算法在跟蹤目標(biāo)不斷變化時(shí)的適應(yīng)能力和算法魯棒性。

1 基于深度像素級(jí)特征的目標(biāo)跟蹤網(wǎng)絡(luò)

1.1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

本文跟蹤算法采用經(jīng)典孿生網(wǎng)絡(luò)的結(jié)構(gòu)，具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。網(wǎng)絡(luò)的輸入有兩個(gè)，分別為參考模板z(Template)和依據(jù)上一幀目標(biāo)為中心進(jìn)行裁剪后的搜索區(qū)域x(Search Region)，輸入圖像經(jīng)Resnet50 骨干網(wǎng)絡(luò)提取特征后，將其中的Layer3、Layer4 和Layer5 三級(jí)特征抽取出來(lái)。經(jīng)過(guò)Neck 層將多級(jí)特征整合，再分別通過(guò)預(yù)測(cè)器分支，用來(lái)預(yù)測(cè)圖像中的前景背景類和回歸錨框偏移量，其中每個(gè)預(yù)測(cè)器中均加入了基于殘差網(wǎng)絡(luò)和拓?fù)浣Y(jié)構(gòu)的特征深層提取模塊，用于提取深度語(yǔ)義特征信息。將模板與搜索區(qū)域特征通過(guò)像素級(jí)特征融合進(jìn)行互相關(guān)計(jì)算得到響應(yīng)置信圖，最后依據(jù)預(yù)測(cè)器得到的分類響應(yīng)和回歸響應(yīng)結(jié)果計(jì)算目標(biāo)前景背景及錨框偏移量。同時(shí)，為跟蹤器加入了基于時(shí)間上下文信息的模板更新策略，提升網(wǎng)絡(luò)魯棒性。

圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖

1.2 像素級(jí)特征融合方法及輸出適應(yīng)模塊

為尋找模板與搜索區(qū)域之間的關(guān)聯(lián)性，進(jìn)行精確定位，本文改進(jìn)算法使用了像素級(jí)卷積方法[11]以替代深度可分離卷積。深度可分離卷積相較于粗樸素卷積提升了互相關(guān)操作的速度，將模板特征逐通道地與搜索區(qū)域進(jìn)行卷積，降低了計(jì)算復(fù)雜度，進(jìn)而提升了推理速度。但仍存在兩個(gè)問(wèn)題:①為了提升計(jì)算速度，深度可分離卷積將目標(biāo)特征逐通道拆分，損失了部分模板特征通道間的關(guān)聯(lián)性；②利用整個(gè)模板特征去滑窗與搜索區(qū)域特征進(jìn)行匹配，鄰近的特征窗之間會(huì)產(chǎn)生相似的響應(yīng)，從而損失很多邊緣信息，造成空間信息的模糊；像素級(jí)卷積方法以模板特征中的所有通道上同一個(gè)位置的像素值為卷積核，與單個(gè)通道上整個(gè)搜索區(qū)域的特征進(jìn)行互相關(guān)運(yùn)算，使輸出響應(yīng)可以逐通道地編碼目標(biāo)模板中每個(gè)像素點(diǎn)的信息，同時(shí)相較其他兩種互相關(guān)方法，輸出響應(yīng)中包含了更多搜索區(qū)域的目標(biāo)邊緣和尺度信息。圖2 是三種互相關(guān)方法的示意圖。

圖2 三種互相關(guān)方法示意圖

像素級(jí)互相關(guān)計(jì)算可以用式(1)表示，其中，輸入的模板特征為z，其尺寸為b、c、hz、wz；搜索區(qū)域特征為x，尺寸為b、c、hx、wx，經(jīng)過(guò)像素級(jí)卷積f作用后，網(wǎng)絡(luò)的輸出響應(yīng)則會(huì)變成b、hz×wz、hx、wx。

像素級(jí)特征融合方法較粗樸素卷積和深度可分離卷積來(lái)說(shuō)更關(guān)注模板與搜索區(qū)域間的邊緣信息等像素級(jí)細(xì)節(jié)特征，但對(duì)隱含在模板內(nèi)像素空間信息關(guān)聯(lián)性的挖掘有所降低。本文在使用像素級(jí)特征融合方法替代深度可分離卷積的同時(shí)，設(shè)計(jì)了輸出適應(yīng)模塊，在補(bǔ)充跟蹤器對(duì)目標(biāo)全局信息關(guān)注的同時(shí)，提升維度，便于預(yù)測(cè)結(jié)果計(jì)算。模塊參考GoogLeNet的Inception[12]結(jié)構(gòu)并進(jìn)行了一定的改造，設(shè)計(jì)了圖3 所示的輸出適應(yīng)結(jié)構(gòu)，網(wǎng)絡(luò)塊由兩部分組成，其中一部分是經(jīng)4×4 的卷積核將特征維度由16 直接提升到128，用來(lái)進(jìn)行特征維度的粗提升；另一部分是先經(jīng)2×2 的卷積核將特征維度提升到64，然后再經(jīng)過(guò)3×3 的卷積核將特征維度提升到128，用于特征維度的精提升。最后將2 組特征響應(yīng)圖并聯(lián)拼接起來(lái)(Concatenate)，以重新聚合形成新的高維融合特征響應(yīng)。這種網(wǎng)絡(luò)塊以兩種方式對(duì)輸入的響應(yīng)圖進(jìn)行特征抽取，同時(shí)讓信息通過(guò)更少的連接傳遞以達(dá)到更加稀疏的特性。

圖3 像素級(jí)特征融合的輸出適應(yīng)模塊

1.3 基于殘差網(wǎng)絡(luò)和拓?fù)浣Y(jié)構(gòu)的特征深層提取

為提高跟蹤器特征抽取的性能，本文設(shè)計(jì)了基于殘差網(wǎng)絡(luò)和拓?fù)浣Y(jié)構(gòu)的模塊來(lái)對(duì)骨干網(wǎng)絡(luò)輸出的三級(jí)特征進(jìn)行深層挖掘。本文特征深層抽取網(wǎng)絡(luò)塊主要參考了ResNeXt[13]的設(shè)計(jì)思想，不需要人工設(shè)計(jì)復(fù)雜的Inception 結(jié)構(gòu)細(xì)節(jié)，而是每個(gè)分支都采用相同的拓?fù)浣Y(jié)構(gòu)，另外在輸出結(jié)果處引入殘差部分，防止網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于復(fù)雜帶來(lái)過(guò)擬合問(wèn)題。其中唯一的超參數(shù)為基數(shù)(Cardinality)，來(lái)控制分組卷積組的個(gè)數(shù)，最后將結(jié)果并聯(lián)起來(lái)，以得到更深層特征的輸出。網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。

圖4 基于殘差網(wǎng)絡(luò)和拓?fù)浣Y(jié)構(gòu)的特征深層抽取模塊

網(wǎng)絡(luò)塊的主要運(yùn)行邏輯為:分割－變換－合并(Split-transform-merge)，提取基礎(chǔ)算法SiamRPN＋＋的骨干網(wǎng)絡(luò)ResNet50 的Layer3、Layer4 和Layer5 的特征作為本網(wǎng)絡(luò)塊的輸入，輸入的特征維度為256維，首先輸入分別進(jìn)入4 組結(jié)構(gòu)相同但參數(shù)不共享的拓?fù)浣Y(jié)構(gòu)中，每條分支均完成:將輸入經(jīng)過(guò)2 次1×1的卷積核以提取深層特征，同時(shí)將特征向量由256 維降維到64，再將4 種64 維度的分支特征合并，重新獲得與輸入結(jié)構(gòu)相同的特征。最后，再將原256 維輸入作為殘差與合并后的特征進(jìn)行相加操作。本文設(shè)計(jì)這種殘差結(jié)構(gòu)的目的是解決加深網(wǎng)絡(luò)可能帶來(lái)的過(guò)擬合問(wèn)題，最終得到可靠的輸出響應(yīng)。

1.4 基于時(shí)間上下文信息的模板更新策略

在線目標(biāo)跟蹤任務(wù)(Online)較離線目標(biāo)跟蹤任務(wù)(Offline)缺少了視頻圖像序列的全局信息，在線跟蹤器很難獲得一個(gè)全局最優(yōu)解，并且在線跟蹤任務(wù)若有其中的任何一幀跟蹤丟失，跟蹤器就會(huì)產(chǎn)生巨大偏移，從而極大地影響跟蹤結(jié)果的精度。本文為充分利用在線目標(biāo)跟蹤任務(wù)中包含大量目標(biāo)時(shí)序信息的特點(diǎn)，設(shè)計(jì)使用基于時(shí)間上下文信息的模板更新策略作為更新判據(jù)，來(lái)對(duì)跟蹤器進(jìn)行實(shí)時(shí)更新，更新策略流程如圖5 所示。

圖5 基于時(shí)間上下文信息的模板更新策略流程圖

基于時(shí)間上下文信息的模板更新策略執(zhí)行流程是:首先，初始化網(wǎng)絡(luò)并保存第一幀的目標(biāo)模板特征；后續(xù)的視頻序列圖像依據(jù)上一幀跟蹤器推理得到的目標(biāo)坐標(biāo)截取搜索區(qū)域，完成跟蹤網(wǎng)絡(luò)對(duì)于本幀圖像的推理；跟蹤網(wǎng)絡(luò)經(jīng)后處理會(huì)得到預(yù)測(cè)的目標(biāo)空間信息及置信度得分，模板更新策略會(huì)先對(duì)當(dāng)前視頻序列幀數(shù)進(jìn)行判斷，若間隔幀數(shù)超過(guò)設(shè)定閾值，這時(shí)對(duì)當(dāng)前幀推理得到的目標(biāo)置信度得分進(jìn)行判斷:當(dāng)目標(biāo)此時(shí)得分大于設(shè)定閾值，說(shuō)明當(dāng)前目標(biāo)包含了足夠特征信息且還包含很多的時(shí)間信息，可以進(jìn)行更新來(lái)提升跟蹤器對(duì)后續(xù)圖像的適應(yīng)能力，以獲取更好的跟蹤結(jié)果；若得分太低，說(shuō)明當(dāng)前對(duì)跟蹤器進(jìn)行模板更新會(huì)影響跟蹤性能，這種情況包括未達(dá)到規(guī)定更新間隔閾值，均正常進(jìn)行下一幀的跟蹤。完成所有視頻序列的跟蹤后，跟蹤結(jié)束。

2 實(shí)驗(yàn)及結(jié)果分析

2.1 數(shù)據(jù)準(zhǔn)備與參數(shù)設(shè)置

本文網(wǎng)絡(luò)模型利用Pytorch 框架實(shí)現(xiàn)。模型的構(gòu)建、訓(xùn)練及推理實(shí)現(xiàn)使用一臺(tái)搭載AMD 的5800x處理器(主頻3.8GHz)、32G 內(nèi)存和一塊NVIDIA RTX 3080 顯卡的計(jì)算機(jī)。

骨干網(wǎng)絡(luò)使用經(jīng)過(guò)ImageNet 數(shù)據(jù)集訓(xùn)練后的ResNet50。跟蹤模型的訓(xùn)練使用數(shù)據(jù)集為COCO、ImageNet DET、ImageNet VID 和YouTube-Bounding-Boxes。訓(xùn)練時(shí)圖像被裁減為255×255 和127×127的尺寸，分別作為搜索區(qū)域圖像和模板圖像同時(shí)輸入網(wǎng)絡(luò)中，經(jīng)跟蹤網(wǎng)絡(luò)前向運(yùn)行得到分類和回歸結(jié)果并計(jì)算損失，以反向修正網(wǎng)絡(luò)參數(shù)。

本文網(wǎng)絡(luò)訓(xùn)練時(shí)使用的優(yōu)化器(Optimization)為隨機(jī)梯度下降法(Stochastic Gradient Descent，SGD)，批次大小(Batchsize)為16，并且使用不斷變化的學(xué)習(xí)率對(duì)網(wǎng)絡(luò)的訓(xùn)練進(jìn)行調(diào)整，前5 個(gè)訓(xùn)練周期使用0.001 到0.005 逐漸遞增的學(xué)習(xí)率，之后的周期學(xué)習(xí)率從0.005 指數(shù)衰減到0.000 5。

網(wǎng)絡(luò)RPN 層輸出的每個(gè)特征點(diǎn)給出5 個(gè)推薦錨框(Anchor Number)，輸出分類向量的維度為10，回歸向量的維數(shù)為20；骨干網(wǎng)絡(luò)為ResNet50 時(shí)，跟蹤器抽取骨干網(wǎng)絡(luò)的3、4、5 層特征進(jìn)行后續(xù)回歸和分類。

為驗(yàn)證本文算法的有效性，分別在2 個(gè)目標(biāo)跟蹤領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)集VOT2018 和OTB2015 上進(jìn)行了測(cè)試，并與多種優(yōu)秀算法進(jìn)行了整體性能的比較，以及針對(duì)特定場(chǎng)景分析了本文算法較其他優(yōu)秀算法的優(yōu)勢(shì)所在。完整模型在Ubuntu 系統(tǒng)下推理運(yùn)行速度為65 fps(Frame Per Second)以上。

2.2 VOT2018 實(shí)驗(yàn)結(jié)果

VOT2018 公共數(shù)據(jù)集是目前用于評(píng)估在線單目標(biāo)跟蹤的主流數(shù)據(jù)集之一，由60 個(gè)視頻序列組成并具有不同的挑戰(zhàn)因素。VOT 系列主要涉及三個(gè)重要的評(píng)價(jià)指標(biāo):準(zhǔn)確性(Accuary)、魯棒性[14](Robustness)和EAO(Expected Average Overlap)。

準(zhǔn)確性，是通過(guò)數(shù)據(jù)集來(lái)評(píng)價(jià)算法在跟蹤目標(biāo)任務(wù)中跟蹤精度的指標(biāo)[15]。對(duì)于單個(gè)視頻序列，用Np表示整個(gè)序列的有效幀數(shù)量，A(i)表示跟蹤器在該視頻序列上重復(fù)跟蹤N次時(shí)在第i幀的準(zhǔn)確度，則準(zhǔn)確性的計(jì)算如下:

式中:對(duì)于跟蹤器重復(fù)跟蹤N次視頻序列的某單幀的準(zhǔn)確度A(i)，定義為:

式中:A(i，k)表示跟蹤器在第k次跟蹤第i幀圖像的準(zhǔn)確率，若用Ag(i，k)表示跟蹤標(biāo)注框內(nèi)的圖像像素區(qū)域，At(i，k)表示跟蹤器預(yù)測(cè)的跟蹤框內(nèi)的圖像像素區(qū)域，準(zhǔn)確率表示為:

魯棒性，是用來(lái)評(píng)價(jià)跟蹤算法在完成跟蹤任務(wù)時(shí)穩(wěn)定性能的指標(biāo)。跟蹤器的魯棒性可用跟蹤器在同一個(gè)視頻序列下重復(fù)跟蹤N次的平均魯棒性來(lái)表示:

式中:R(i)表示跟蹤器對(duì)視頻序列進(jìn)行第i次重復(fù)跟蹤時(shí)跟蹤丟失的次數(shù)。當(dāng)視頻序列中某一幀的標(biāo)注框與跟蹤器預(yù)測(cè)框無(wú)重疊時(shí)，跟蹤丟失次數(shù)加1。

EAO，即期望平均覆蓋率，是對(duì)準(zhǔn)確率和魯棒性的綜合評(píng)估，是VOT2018 用來(lái)評(píng)估在線單目標(biāo)跟蹤算法的主要指標(biāo)。

利用VOT2018 數(shù)據(jù)集對(duì)本文算法以及其他優(yōu)秀算法進(jìn)行評(píng)估，得到結(jié)果如表1 所示。由表1 中數(shù)據(jù)可以發(fā)現(xiàn)，本文改進(jìn)算法較基礎(chǔ)算法SiamRPN＋＋來(lái)說(shuō)，EAO 值由0.414 提升到了0.436，提升了5.31%；準(zhǔn)確率由0.6 提升到了0.605，提升了0.83%；魯棒性由0.234 降低到了0.225，降低了3.85%。相較于UPDT來(lái)說(shuō)，本文算法雖然在算法魯棒性方面不如UPDT，上升了0.041，但在算法精度方面提升明顯，比其0.536的準(zhǔn)確率高了12.87%，且EAO 值也比UPDT 的0.378高了0.058，提升了15.34%。圖6 中所示準(zhǔn)確率作為橫軸，魯棒性作為縱軸時(shí)，將各算法的性能更明確地繪制出來(lái)。可以發(fā)現(xiàn)，本文算法在VOT2018 評(píng)價(jià)中取得了最優(yōu)的準(zhǔn)確率和EAO 值，以及不錯(cuò)的魯棒性，并且本文算法能在NVIDIA RTX 3080 顯卡上運(yùn)行達(dá)到65 幀/s 以上的速度。

表1 VOT2018 數(shù)據(jù)集各算法結(jié)果對(duì)比

圖6 VOT2018 數(shù)據(jù)集各算法魯棒性和準(zhǔn)確性

2.3 OTB100 實(shí)驗(yàn)結(jié)果

OTB100 數(shù)據(jù)集包含有100 個(gè)富有挑戰(zhàn)性的視頻序列，這些視頻序列被官方分為11 個(gè)標(biāo)注屬性，包括快速運(yùn)動(dòng)(Fast Motion，F(xiàn)M)、背景雜波(Background Variation，BV)、運(yùn)動(dòng)模糊(Motion Blur，MB)、目標(biāo)形變(Deformation，DEF)、光照變化(Illumination Variation，IV)、平面內(nèi)旋轉(zhuǎn)(In-Plane Rotation，IPR)、低分辨率(Low Resolution，LR)、目標(biāo)遮擋(Occlusion，OCC)、平面外旋轉(zhuǎn)(Out-of-Plane Rotation，OPR)、目標(biāo)超出視野(Out-of-View，OV)、尺度變化(Scale Variation，SV)。

本文選擇OTB100 測(cè)試數(shù)據(jù)集對(duì)算法性能進(jìn)行評(píng)價(jià)，并與相關(guān)濾波算法CSK、VTD、STRUCK 和深度學(xué)習(xí) 類算法 SiamFC、SiamRPN、SiamDW、DaSiamRPN 以及基礎(chǔ)算法SiamRPN＋＋進(jìn)行對(duì)比實(shí)驗(yàn)。9 種算法的精確率和成功率對(duì)比如圖7 所示。每種算法在該屬性下的評(píng)估性能指標(biāo)標(biāo)在中括號(hào)中。本文算法精確率為91.4%，成功率為71.7%，與基礎(chǔ)算法SiamRPN＋＋相比，精確率提升了3.28%，成功率提升了5.13%。

圖7 OTB100 數(shù)據(jù)集各算法精確率和成功率

針對(duì)幾種特殊情況，對(duì)算法有效性進(jìn)行分析:

①尺度變化(SV):本文算法在標(biāo)注為尺度變化的數(shù)據(jù)集上精確率為91.7%，成功率為72.9%，高于基礎(chǔ)算法精確率3.26%，成功率6.73%；表2 和表3中統(tǒng)計(jì)了OTB100 數(shù)據(jù)集上幾種算法在標(biāo)注為尺度變化的典型視頻序列的精確率和成功率，其中波浪線表示幾種算法中的指標(biāo)最優(yōu)，雙下劃線表示指標(biāo)排名第二，單下劃線表示指標(biāo)第三。

表2 OTB100 數(shù)據(jù)集各算法成功率對(duì)比

表3 OTB100 數(shù)據(jù)集各算法精確率對(duì)比

本文算法在目標(biāo)尺度發(fā)生變化時(shí)仍能較為準(zhǔn)確地進(jìn)行跟蹤，在幾個(gè)視頻序列中精確率和成功率都位居第一第二位。圖8 中的測(cè)試序列是一位行人在過(guò)馬路的過(guò)程，目標(biāo)周圍有汽車和人的運(yùn)動(dòng)，同時(shí)場(chǎng)景由近及遠(yuǎn)再到近處，跟蹤任務(wù)包括了遮擋、相似物干擾和尺度變化等影響因素，本文改進(jìn)后算法的精確率和正確率均為第一，主要原因是利用基于時(shí)間上下文信息的模板更新策略在復(fù)雜場(chǎng)景下目標(biāo)尺度發(fā)生變化時(shí)，及時(shí)對(duì)跟蹤器的跟蹤模板進(jìn)行調(diào)整以實(shí)現(xiàn)了更好跟蹤。

圖8 目標(biāo)可視化跟蹤結(jié)果(目標(biāo)尺度變化)

②低分辨率(LR):在OTB100 數(shù)據(jù)集標(biāo)注為低分辨率的測(cè)試序列中，本文改進(jìn)算法較基礎(chǔ)算法的準(zhǔn)確率和成功率分別提高了2.75%和0.2%。低分辨率場(chǎng)景是當(dāng)搜索區(qū)域中目標(biāo)的圖像特征較少時(shí)，以考驗(yàn)算法的跟蹤性能，本文改進(jìn)算法使用了像素級(jí)互相關(guān)方法以及基于殘差結(jié)構(gòu)和拓?fù)渚W(wǎng)絡(luò)的特征深層提取，對(duì)比基礎(chǔ)算法SiamRPN＋＋，在有限的骨干網(wǎng)絡(luò)特征中提取到了更深層的語(yǔ)義信息，輔助網(wǎng)絡(luò)的跟蹤。如圖9 中為RedTeam 跟蹤序列，視頻序列為一輛汽車在遠(yuǎn)方道路行駛，汽車不斷由遠(yuǎn)到近，再由近到遠(yuǎn)，目標(biāo)像素最小為13×7，本文改進(jìn)算法較其他算法有更為良好的跟蹤表現(xiàn)。

圖9 目標(biāo)可視化跟蹤結(jié)果(低分辨率)

2.4 消融實(shí)驗(yàn)結(jié)果

為比較改進(jìn)算法每一部分在整體跟蹤模型中的作用，本文在VOT2018 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。

如表4 所示，當(dāng)像素級(jí)特征融合及輸出適應(yīng)網(wǎng)絡(luò)塊單獨(dú)作用于基礎(chǔ)算法時(shí)，EAO 提升2.86%；當(dāng)基于殘差網(wǎng)絡(luò)和拓?fù)浣Y(jié)構(gòu)的特征深層提取網(wǎng)絡(luò)塊單獨(dú)作用于基礎(chǔ)算法時(shí)，EAO 提升1.27%；而當(dāng)兩者結(jié)合作用時(shí)，算法EAO 提升為4.35%，高于兩種方案的單獨(dú)作用，說(shuō)明像素級(jí)特征融合更適合作用于更深層的語(yǔ)義信息，并且殘差結(jié)構(gòu)在保留了原特征的同時(shí)，很好地避免了過(guò)擬合的問(wèn)題；當(dāng)基于時(shí)間上下文信息的模板更新策略加入時(shí)，跟蹤器充分結(jié)合了空間與時(shí)間的信息，跟蹤EAO 達(dá)到最高0.436。與未添加時(shí)間信息的跟蹤器相比，EAO 提升了0.004，提升了0.93%。

表4 VOT2018 數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果

為更為直觀地展現(xiàn)改進(jìn)方法的有效性，將各改進(jìn)方法與基礎(chǔ)算法的不同組合得到的輸出響應(yīng)圖進(jìn)行可視化。如圖10 所示，不加入時(shí)序信息更新策略的改進(jìn)算法可明顯降低基礎(chǔ)算法中噪點(diǎn)帶來(lái)的錯(cuò)誤目標(biāo)預(yù)測(cè)估計(jì)，且加入更新策略后，目標(biāo)更加突出，很好地突出了目標(biāo)而降低了其他噪聲的影響。

圖10 輸出響應(yīng)圖可視化結(jié)果

3 結(jié)論

本文對(duì)復(fù)雜場(chǎng)景中的目標(biāo)跟蹤算法進(jìn)行了研究，并針對(duì)目標(biāo)尺度變化和低分辨率的場(chǎng)景進(jìn)行了三點(diǎn)主要的算法改進(jìn):本文將深度可分離卷積替換為像素級(jí)卷積，將模板和搜索區(qū)域的多層特征進(jìn)行融合計(jì)算，以得到更為準(zhǔn)確的輸出響應(yīng)；本文在原網(wǎng)絡(luò)提取到的多層特征基礎(chǔ)上，加入了基于殘差網(wǎng)絡(luò)和拓?fù)浣Y(jié)構(gòu)的模塊以對(duì)圖像特征進(jìn)行深度挖掘；本文通過(guò)對(duì)跟蹤器歷史信息進(jìn)行判別以更新目標(biāo)模板，來(lái)提高改進(jìn)算法的魯棒性。在VOT2018 數(shù)據(jù)集上，本文改進(jìn)算法比基礎(chǔ)算法的EAO 值高5.31%，準(zhǔn)確率提高到了0.605，魯棒性為0.225；在OTB100 數(shù)據(jù)集上，本文算法精確度為91.4%，成功率為71.7%，與基礎(chǔ)算法相比，精確度提升了3.28%，成功率提升了5.13%。