基于顯著性區(qū)域加權(quán)的相關(guān)濾波目標(biāo)跟蹤

2021-03-25 12:23:16朱均安曹景太

光學(xué)精密工程 2021年2期

朱均安，陳濤，曹景太

（1.中國(guó)科學(xué)院長(zhǎng)春光學(xué)精密機(jī)械與物理研究所，吉林長(zhǎng)春130033；2.中國(guó)科學(xué)院大學(xué)，北京100049）

1 引言

視覺(jué)目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)中的一個(gè)重要的研究問(wèn)題，是高層語(yǔ)義分析的基礎(chǔ)，例如場(chǎng)景理解、行為理解等。視覺(jué)目標(biāo)跟蹤要解決的問(wèn)題可以表述為：在視頻序列中，給出第一幀中目標(biāo)的位置及大小（通常是一個(gè)矩形邊界框），需要在后續(xù)幀中預(yù)測(cè)出目標(biāo)的位置及大小。視覺(jué)目標(biāo)跟蹤中存在許多挑戰(zhàn)［1-2］，包括光照變化、遮擋、旋轉(zhuǎn)、形變等。研究人員提出了許多跟蹤算法來(lái)解決這些問(wèn)題，主要分為生成模型［3］和判別模型［4-8］兩類(lèi)。基于生成模型的目標(biāo)跟蹤算法，采用歷史幀的結(jié)果來(lái)生成用于描述目標(biāo)特征的統(tǒng)計(jì)模型，能夠有效處理跟蹤過(guò)程中目標(biāo)丟失的情況，但是基于生成模型的方法忽略了目標(biāo)周?chē)谋尘靶畔ⅲ诿鎸?duì)背景混亂時(shí)容易丟失目標(biāo)。與生成模型不同，判別模型主要是學(xué)習(xí)出一個(gè)決策邊界，利用這個(gè)決策邊界來(lái)區(qū)分目標(biāo)區(qū)域與背景區(qū)域。

近年來(lái)，基于判別模型的相關(guān)濾波跟蹤算法取得了良好的跟蹤性能。2010年，誤差最小平方和（Minimum Output Sum of Squared Error，MOSSE）［9］跟蹤算法首次將相關(guān)濾波器引入目標(biāo)跟蹤領(lǐng)域。通過(guò)最小化均方誤差，在后續(xù)幀中找到目標(biāo)的最佳位置。2012年，循環(huán)結(jié)構(gòu)的檢測(cè)跟蹤（Circulant Structure of Tracking-by-detection with Kernels，CSK）［10］算法提出了一種使用循環(huán)移位對(duì)數(shù)據(jù)進(jìn)行密集采樣的方法，并通過(guò)快速傅立葉變換（Fast Fourier Transformation，F(xiàn)FT）快速訓(xùn)練出分類(lèi)器。2014年，核相關(guān)濾波器（Kernelized Correlation Filter，KCF）［11］跟蹤算法對(duì)CSK進(jìn)行了擴(kuò)展，由單通道特征拓展到多通道特征，并引入核方法提高了基于相關(guān)濾波的目標(biāo)跟蹤算法的精度。為了更好地應(yīng)對(duì)尺度變化，區(qū)分尺度空間跟蹤算法（Discriminative Scale Space Tracking，DSST）［12］和多特征的尺度自適應(yīng)跟蹤算法（Scale Adaptive with Multiple Features tracker，SAMF）［13］分別提出了不同的解決方案。DSST將目標(biāo)跟蹤看成目標(biāo)中心平移和目標(biāo)尺度變化兩個(gè)獨(dú)立的問(wèn)題，通過(guò)添加尺度濾波器來(lái)更好地應(yīng)對(duì)尺度變化。SAMF則對(duì)候選區(qū)域的目標(biāo)采用固定的七個(gè)尺度，同時(shí)檢測(cè)目標(biāo)平移變化和尺度變化，快速確定目標(biāo)的位置和尺度。2015年，為了抑制邊界效應(yīng)并擴(kuò)大搜索范圍，空間正則化的判別相關(guān)濾波器（Spatially Regularized Discriminative Correlation Filter，SRDCF）［14］跟蹤算法采用了更大的檢測(cè)區(qū)域，同時(shí)加入空域正則化。2016年，連續(xù)卷積算子跟蹤算法（Continuous Convolution Operator Tracker，C-COT）［15］在連續(xù)域中應(yīng)用多分辨率特征，并在VOT2016競(jìng)賽上實(shí)現(xiàn)了較好的跟蹤性能。模板與像素互補(bǔ)學(xué)習(xí)（Sum of Template and Pixelwise Learners，Staple）［16］跟蹤算法采用梯度方向直方圖（Histogram of Oriented Gradients，HOG）特征［17］和顏色直方圖來(lái)建立目標(biāo)的外觀(guān)模型，這兩種特征具有一定的互補(bǔ)性，通過(guò)分別求解他們的響應(yīng)圖，然后對(duì)響應(yīng)圖進(jìn)行加權(quán)融合獲得了較好的跟蹤效果。2017年，在C-COT跟蹤算法的基礎(chǔ)上，高效卷積算子跟蹤算法（Efficient Convolution Operators for Tracking，ECO）［18］將手工設(shè)計(jì)的特征和卷積特征相結(jié)合，使用因式分解的卷積來(lái)減少特征的維數(shù)，并壓縮學(xué)習(xí)模型中的訓(xùn)練樣本以提高跟蹤速度和魯棒性。

基于判別模型的相關(guān)濾波跟蹤算法雖然在精度和速度上取得了較好的效果，但是這些算法目標(biāo)位置的定位精度依然有待提升。為了解決這個(gè)問(wèn)題，本文在ECO的基礎(chǔ)上提出了基于顯著性區(qū)域加權(quán)的相關(guān)濾波目標(biāo)跟蹤算法，首先使用改進(jìn)的殘差網(wǎng)絡(luò)（SE-ResNet）［19］來(lái)提取多分辨率特征，可以充分利用淺層和深層特征的不同特性。然后，提出了一種顯著性區(qū)域加權(quán)策略，通過(guò)對(duì)相關(guān)濾波器的響應(yīng)進(jìn)行重新加權(quán)來(lái)提高定位精度。最后，在視覺(jué)目標(biāo)跟蹤（Visual Object Tracking，VOT）［1-2］競(jìng)賽上進(jìn)行評(píng)估，實(shí)驗(yàn)結(jié)果表明本文算法取得了較好的效果，具有良好的跟蹤性能。

2 基于相關(guān)濾波的目標(biāo)跟蹤

相關(guān)性是用來(lái)描述兩個(gè)信號(hào)的聯(lián)系，分為互相關(guān)和自相關(guān)，在基于相關(guān)濾波的目標(biāo)跟蹤中，相關(guān)指的是互相關(guān)。

假設(shè)有兩個(gè)信號(hào)f和g，當(dāng)他們分別為連續(xù)信號(hào)和離散信號(hào)時(shí)的相關(guān)性計(jì)算方法如下：

其中：?代表卷積運(yùn)算，f*表示f的共軛。互相關(guān)就是衡量?jī)蓚€(gè)信號(hào)在某個(gè)時(shí)刻τ時(shí)的相似程度。因此，將相關(guān)濾波應(yīng)用到目標(biāo)跟蹤領(lǐng)域最基本的思想就是：設(shè)計(jì)一個(gè)濾波模板，使得該模板與跟蹤目標(biāo)的感興趣區(qū)域（Region of Interest，ROI）做相關(guān)運(yùn)算，得到最大的輸出響應(yīng)。該思想用數(shù)學(xué)語(yǔ)言可以描述為：

其中：g表示相關(guān)濾波的輸出響應(yīng)，f表示輸入原始圖片的特征，h表示濾波模板。在相關(guān)濾波的跟蹤框架中，只需要不斷地修正濾波模板，得到最大的輸出響應(yīng)即可。

由于卷積運(yùn)算的計(jì)算量較大，采用快速傅里葉變換FFT的性質(zhì)將空間域的卷積運(yùn)算轉(zhuǎn)化為頻率域的乘法運(yùn)算，可以極大地提高運(yùn)算速度。公式（3）可以轉(zhuǎn)化為：

其中：⊙表示逐元素相乘，F(xiàn)表示FFT變換，采用對(duì)應(yīng)字母的大寫(xiě)表示其FFT變換后的結(jié)果，公式（4）可以簡(jiǎn)化為：

因此，相關(guān)濾波器可以采用如式（6）求出：

3 本文算法

3.1 算法總體結(jié)構(gòu)

本文提出的跟蹤算法的整體結(jié)構(gòu)如圖1所示，該算法由兩部分構(gòu)成，即相關(guān)濾波響應(yīng)的計(jì)算和顯著性圖的計(jì)算。對(duì)于相關(guān)濾波的響應(yīng)圖的計(jì)算，本文算法在ECO的跟蹤框架基礎(chǔ)上，采用SE-ResNet-50來(lái)提取多分辨率特征，Rc是求出的相關(guān)濾波的響應(yīng)；對(duì)于顯著性圖的計(jì)算，采用背景對(duì)象模型［20］來(lái)獲取目標(biāo)的顯著性圖，Rs是求出的顯著性圖。最后，將相關(guān)濾波的響應(yīng)圖與顯著性圖的響應(yīng)相乘，即可得到最終的響應(yīng)圖，最終的響應(yīng)圖Rfinal可以通過(guò)如式（7）計(jì)算出：

把響應(yīng)圖Rfinal取得最大值時(shí)的位置映射到原圖中就可以求得在后續(xù)幀中目標(biāo)的位置。

圖1 本文算法的跟蹤框架Fig.1 Framework of proposed algorithm

3.2 分層卷積特征

近年來(lái)，手工設(shè)計(jì)的特征，如HOG特征和顏色名（Color Name，CN）［21］特征在目標(biāo)跟蹤領(lǐng)域取得了良好的效果，但手工設(shè)計(jì)的特征已經(jīng)成為了跟蹤精度提升的瓶頸。Yosinski等人［22］研究發(fā)現(xiàn)，在卷積神經(jīng)網(wǎng)絡(luò)中低層的部分學(xué)習(xí)的是一些顏色、紋理等簡(jiǎn)單信息，而高層部分學(xué)習(xí)的是綜合的語(yǔ)義信息。卷積神經(jīng)網(wǎng)絡(luò)中的不同卷積層的特征圖的可視化的結(jié)果如圖2所示。卷積神經(jīng)網(wǎng)絡(luò)特征在圖像分類(lèi)和目標(biāo)檢測(cè)領(lǐng)域都取得了較高的精度。因此，本文采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取淺層和深層的特征，充分利用卷積神經(jīng)網(wǎng)絡(luò)不同層的特性。

圖2 卷積神經(jīng)網(wǎng)絡(luò)中的不同卷積層的特征圖的可視化［23］Fig.2 Visualization of deep feature maps from different convolutional layers of different CNN architectures

3.3 相關(guān)濾波的響應(yīng)圖的計(jì)算

為了進(jìn)一步提升跟蹤算法的性能，在計(jì)算相關(guān)濾波的響應(yīng)圖時(shí)，采用了ECO的跟蹤框架，并使用了改進(jìn)的殘差網(wǎng)絡(luò)SE-ResNet-50網(wǎng)絡(luò)來(lái)提取多分辨率特征，充分利用不同層的特征信息，并結(jié)合高層抽象的特征和低層基礎(chǔ)的圖像特征的特點(diǎn)。本文算法選擇Conv1x，Res3d和Res4f層作為多分辨率特征圖，輸出的特性在ReLU激活之前，提取的特征圖的大小為112×112，28×28和14×14。由于提取的特征的分辨率不同，采用C-COT中的隱式插值模型。每個(gè)樣本xj都包含D維的特征通道，從同一圖像塊中提取的D維通道的特征為表示特征通道x中空間采樣點(diǎn)的數(shù)目，d∈｛0，1，2，...｝。特征通道x∈RNd可以看作一個(gè)關(guān)于離散空間變量n∈｛0，...，Nd-1｝的函數(shù)x［n］。為了學(xué)習(xí)連續(xù)的卷積算子，特征圖被轉(zhuǎn)換到連續(xù)的空間域［0，T）∈R。其中常數(shù)T代表支持區(qū)域的大小。插值算子Jd被構(gòu)造為：

其中，bd∈L2（T），它表示插值函數(shù)。

式中a是固定系數(shù)。通過(guò)插值函數(shù)將不同分辨率的特征插值到相同尺寸，然后采用ECO中的因式分解的卷積來(lái)減小特征的維度，使用一組較小的基濾波器f1，f2，...，fC，在這里C＜D。然后使用一組學(xué)習(xí)的系數(shù)Pd，c將特征層d的濾波器構(gòu)造為一個(gè)線(xiàn)性組合的濾波器fC，系數(shù)Pd，c可以緊湊地表示為D×C的矩陣P=（Pd，c）。新的多通道濾波器可以寫(xiě)成矩陣向量乘積Pf，因式分解的卷積算子可以表示為：

公式（10）的最后一步是卷積的線(xiàn)性組合，可以將因式分解卷積過(guò)程分為兩步操作，其中每個(gè)位置t的特征向量J｛x｝（t）首先與矩陣PT相乘，然后將生成的C維的特征圖與濾波器f進(jìn)行卷積。因此，矩陣PT的作用類(lèi)似于線(xiàn)性的降維算子。Rc即為相關(guān)濾波的響應(yīng)圖。

考慮從單個(gè)訓(xùn)練樣本x中學(xué)習(xí)因式分解的卷積算子公式（10），為了簡(jiǎn)化表示，使用z^d[k]=Xd[k]b^d[k]表示插值特征圖z=J｛x｝的傅立葉系數(shù)。傅立葉域中的相應(yīng)的損失函數(shù)可推導(dǎo)為：

公式（11）相比于C-COT中的損失函數(shù)，添加了P的Frobenius范數(shù)作為正則化項(xiàng)，其約束效果由參數(shù)λ控制。損失函數(shù)公式（10）是一個(gè)非線(xiàn)性最小二乘問(wèn)題，為了解決這個(gè)非線(xiàn)性最小二乘問(wèn)題，首先采用了高斯-牛頓方法將上述非線(xiàn)性最小二乘問(wèn)題轉(zhuǎn)化為線(xiàn)性最小二乘問(wèn)題，然后再通過(guò)共軛梯度的方法來(lái)求解。

相關(guān)濾波的響應(yīng)圖的求解過(guò)程總結(jié)如下：

Step1：采用公式（8）對(duì)不同分辨率的特征圖進(jìn)行雙三次插值操作，將不同分辨率的特征圖轉(zhuǎn)換到連續(xù)空間域；

Step2：通過(guò)采用公式（11）最小化損失函數(shù)，求出相關(guān)濾波器；

Step3：采用公式（10）進(jìn)行因式分解的卷積求出相關(guān)濾波的響應(yīng)圖Rc。

3.4 顯著性區(qū)域提取

視覺(jué)顯著性（Visual Saliency）［24］是指人眼可以自動(dòng)地從真實(shí)世界的場(chǎng)景中識(shí)別出感興趣區(qū)域，并對(duì)感興趣的區(qū)域進(jìn)行處理而忽略掉不感興趣的區(qū)域。作為對(duì)人類(lèi)視覺(jué)注意機(jī)制的模擬，顯著性檢測(cè)算法的目標(biāo)是將輸入圖像轉(zhuǎn)化為一幅顯著圖，顯著圖表現(xiàn)為將圖像中可能的感興趣區(qū)域進(jìn)行高亮顯示，并抑制背景區(qū)域的顯示。通過(guò)在計(jì)算機(jī)視覺(jué)任務(wù)中引入視覺(jué)顯著性，可以為視覺(jué)信息處理任務(wù)帶來(lái)幫助和改善。通常，跟蹤任務(wù)中的目標(biāo)是運(yùn)動(dòng)中的前景物體，因此，在目標(biāo)跟蹤中采用視覺(jué)顯著性可以幫助快速定位目標(biāo)，提高定位的準(zhǔn)確率，顯著性檢測(cè)算法的計(jì)算結(jié)果對(duì)于目標(biāo)跟蹤任務(wù)具有重要的指導(dǎo)作用。

圖3 目標(biāo)區(qū)域和環(huán)繞區(qū)域Fig.3 Object region and surrounding region

本文采用背景對(duì)象模型來(lái)獲取目標(biāo)的顯著性圖。假設(shè)輸入圖像為I，為了從背景中分離出目標(biāo)像素x∈θ，采用基于顏色直方圖的貝葉斯分類(lèi)。如圖3所示，給出一個(gè)目標(biāo)的矩形框區(qū)域O和它的環(huán)繞區(qū)域S。在x處的像素屬于目標(biāo)像素的概率為：

其中bx表示分配給輸入圖像I（x）的顏色分量，由于是從顏色直方圖直接估算，因此顏色分量屬于目標(biāo)區(qū)域和環(huán)繞區(qū)域的概率可以分別表示為：

HIΩ（b）表示在區(qū)域Ω∈I上計(jì)算的非標(biāo)準(zhǔn)化直方圖H的第b個(gè)計(jì)算區(qū)間，先驗(yàn)概率可以近似為：

根據(jù)公式（15），公式（12）可以被簡(jiǎn)化為：

分配給背景的像素值的最大熵為0.5，采用背景對(duì)象模型可以從背景像素中區(qū)分出目標(biāo)像素。通過(guò)搜索前一幀目標(biāo)位置的一個(gè)矩形區(qū)域Ot-1，當(dāng)前幀的顯著性圖Rs的計(jì)算公式如式（17）所示：

其中：sv（Ot，i）表示基于目標(biāo)模型的概率分?jǐn)?shù)，sd（Ot，i）是基于到前一個(gè)目標(biāo)中心的歐式距離中心ct-1的距離分?jǐn)?shù)，它們的計(jì)算公式如下：

在跟蹤階段，由于目標(biāo)的外觀(guān)是不斷變化的，所以需要不斷地更新目標(biāo)外觀(guān)模型，采用線(xiàn)性插值的方式來(lái)更新目標(biāo)外觀(guān)模型，公式如下：

其中η是學(xué)習(xí)率。

3.5 模型更新策略

在相關(guān)濾波響應(yīng)圖和顯著性圖的計(jì)算中都需要更新模型，并且采用了不同的更新策略。

在相關(guān)濾波響應(yīng)的計(jì)算過(guò)程中，本文采用了相關(guān)濾波的跟蹤框架，如果對(duì)每一幀都更新模型，由于圖像幀間樣本特征的差異較小，所以基于相關(guān)濾波方法的圖像幀間的損失函數(shù)變化也很小，每一幀都更新使得整個(gè)樣本集內(nèi)存在大量的冗余樣本信息，給目標(biāo)跟蹤算法帶來(lái)很大的計(jì)算負(fù)擔(dān)。為了解決上述逐幀更新模型的策略帶來(lái)的內(nèi)存與算力問(wèn)題，采用與ECO相同的更新策略，使用稀疏的模型更新方法，直接設(shè)置每NS幀圖像進(jìn)行一次模型更新。

在顯著性圖的計(jì)算中，本文采用背景對(duì)象模型來(lái)獲取目標(biāo)的顯著性圖，由于目標(biāo)的外觀(guān)是不斷變化的，需要不斷的更新目標(biāo)外觀(guān)模型。因此在顯著性圖的計(jì)算過(guò)程中，采用公式（20）在獲取每一幀的目標(biāo)后都更新目標(biāo)外觀(guān)模型。

3.6 目標(biāo)跟蹤過(guò)程

在目標(biāo)跟蹤過(guò)程中，給定第一幀的目標(biāo)位置，跟蹤算法在后續(xù)幀中根據(jù)前一幀中目標(biāo)的位置，在其周?chē)M(jìn)行搜索，從而預(yù)測(cè)目標(biāo)在后續(xù)幀中最佳的位置和尺度。為了更好的應(yīng)對(duì)尺度變化，本文算法采用了與SAMF中相同的尺度策略，采用了七個(gè)尺度。本文算法的跟蹤過(guò)程可以作如下描述：

算法：基于顯著性區(qū)域加權(quán)的相關(guān)濾波目標(biāo)跟蹤算法輸入：圖像序列和第一幀圖像的目標(biāo)位置和尺寸大小輸出：圖像序列后續(xù)幀中的目標(biāo)位置和尺寸大小Begin if第一幀手動(dòng)選定需跟蹤的目標(biāo)，提取目標(biāo)區(qū)域的多層卷積特征，最小化式損失函數(shù)得到初始濾波器f；else Step1：根據(jù)上一幀目標(biāo)的位置和尺寸大小裁剪出七個(gè)不同尺度的候選區(qū)域，并提取預(yù)測(cè)目標(biāo)區(qū)域的多層卷積特征；Step2：利用公式（10）計(jì)算相關(guān)濾波的響應(yīng)圖Rc；Step3：利用公式（17）計(jì)算顯著性圖Rs；Step3：利用公式（7）計(jì)算得到最終的響應(yīng)圖，得到的目標(biāo)位置和尺度；Step4：通過(guò)公式（11）更新濾波器f和公式（20）更新外觀(guān)模型；Step5：如果不是最后一幀，返回Step1。End

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)設(shè)置

始于2013年的VOT是一項(xiàng)目標(biāo)跟蹤算法的競(jìng)賽，本文算法在VOT2016［1］和VOT2017［2］上進(jìn)行評(píng)估，它們都包含60個(gè)手動(dòng)標(biāo)記的圖像序列，但VOT2017用10個(gè)困難的視頻序列代替了VOT2016中10個(gè)簡(jiǎn)單的視頻序列，并且重新標(biāo)記了一些視頻序列，使VOT2017比VOT2016更具挑戰(zhàn)性。VOT競(jìng)賽中，跟蹤性能按三個(gè)主要指標(biāo)進(jìn)行排序，即精度（Accuracy）、魯棒性（Robustness）和平均重疊期望（Expected Average Overlap，EAO），使用VOT競(jìng)賽的評(píng)估工具包（VOT toolkit）來(lái)評(píng)估本文算法。

本文使用一臺(tái)搭載Intel i7-8700K CPU和GTX 1080 Ti顯卡的電腦對(duì)提出的跟蹤算法進(jìn)行了評(píng)估，使用的軟件是MATLAB 2016a和它的工具包MatConvNet［25］（版本為MatConvNet-1.0-beta25），改進(jìn)殘差網(wǎng)絡(luò)SE-ResNet-50模型可以公開(kāi)下載（http：//www.robots.ox.ac.uk/～albanie/models/se-nets/SE-ResNet-50-mcn.mat）。實(shí)驗(yàn)使用的參數(shù)如下：在相關(guān)濾波部分搜索區(qū)域范圍設(shè)置在200×200和250×250之間，尺度數(shù)量為7，尺度因子為1.03，固定更新頻率NS為5；在顯著性圖的計(jì)算中，學(xué)習(xí)率η設(shè)置為0.05。根據(jù)Mat-ConvNet的官方說(shuō)明，不同版本的MatConvNet會(huì)影響運(yùn)行結(jié)果，為了避免采用不同版本導(dǎo)致的結(jié)果差異，其他跟蹤算法的測(cè)試結(jié)果來(lái)自作者個(gè)人主頁(yè)或者VOT競(jìng)賽的官方網(wǎng)站（https：//www.votchallenge.net/vot2016/results.html；https：//www.votchallenge.net/vot2017/results.html）。

4.2 消融實(shí)驗(yàn)

為了驗(yàn)證本文提出的顯著區(qū)域加權(quán)策略的有效性，在VOT2016和VOT2017上進(jìn)行了消融實(shí)驗(yàn)，將本文算法與沒(méi)有顯著區(qū)域加權(quán)策略的算法進(jìn)行了比較。Ours_N代表沒(méi)有顯著區(qū)域加權(quán)策略，其他與本文算法相同。實(shí)驗(yàn)結(jié)果如表1和表2所示，從這兩個(gè)表中可以看出，本文算法的EAO、準(zhǔn)確性和魯棒性方面都優(yōu)于沒(méi)有顯著區(qū)域加權(quán)策略的算法。實(shí)驗(yàn)結(jié)果表明，顯著區(qū)域加權(quán)策略能夠有效地改善跟蹤性能。此外，與本文的基準(zhǔn)算法ECO相比，本文算法即使沒(méi)有顯著區(qū)域加權(quán)策略，在EAO的準(zhǔn)確性和魯棒性方面仍然比ECO好。實(shí)驗(yàn)結(jié)果表明，利用改進(jìn)的殘差網(wǎng)絡(luò)SE-ResNet-50網(wǎng)絡(luò)在相關(guān)濾波框架中提取多分辨率特征的策略是有效的，有助于提升跟蹤性能。

表1 VOT2016上的消融實(shí)驗(yàn)結(jié)果對(duì)比Tab.1 Ablation study results on VOT2016

表2 VOT2017上的消融實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Ablation study results on VOT2017

4.3 VOT2016實(shí)驗(yàn)結(jié)果

本文算法與8種先進(jìn)的跟蹤算法（包括ECO［17］，Staple［15］，DeepSRDCF［26］，SRDCF［13］，SiamFC［27］，KCF［10］，DSST［11］和SAMF［12］）在VOT2016上進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表3所示，表中最好的三個(gè)結(jié)果分別用紅色、綠色和藍(lán)色表示（彩圖見(jiàn)期刊電子版）。從表中可以看出本文提出的算法的平均重疊期望、準(zhǔn)確性和魯棒性均優(yōu)于其他跟蹤算法，獲得了比其他算法更好的精度和魯棒性，具有良好的跟蹤性能。

表3 多種算法在VOT2016上的對(duì)比Tab.3 Comparison of trackers on VOT2016

VOT2016測(cè)試數(shù)據(jù)集上的精度-魯棒性圖和平均期望重疊率圖如圖4和圖5所示，精度-魯棒性圖中橫坐標(biāo)為指數(shù)化處理后的魯棒性值，縱坐標(biāo)為精度，算法在圖中的位置越靠近右上總體性能越好；平均期望重疊率圖中橫坐標(biāo)為算法排名，縱坐標(biāo)為平均期望重疊率，算法在圖中的位置越靠近右上總體性能越好。從圖4和圖5可以看出本文算法在圖中都處于右上的位置，這表示本文算法在9個(gè)跟蹤算法中總體跟蹤性能最好。

圖4 VOT2016測(cè)試數(shù)據(jù)集上的精度-魯棒性排名Fig.4 AR plot for experiment baseline on VOT2016

圖5 VOT2016測(cè)試數(shù)據(jù)集上的平均期望覆蓋率排名Fig.5 Expected overlap scores for baseline on VOT2016

4.4 VOT2017實(shí)驗(yàn)結(jié)果

本文算法與7個(gè)先進(jìn)的跟蹤算法（包括ECO［17］，CFNet［28］，DCFNet［29］，Staple［15］，SRDCF［13］，KCF［10］和DSST［11］）在VOT2017上進(jìn)行了比較，實(shí)驗(yàn)結(jié)果如表4所示，最好的三個(gè)結(jié)果分別用紅色、藍(lán)色和綠色標(biāo)注（彩圖見(jiàn)期刊電子版）。從表中可以看出，在8個(gè)跟蹤算法中，本文提出的跟蹤算法在EAO和魯棒性上都排名第一，精度略低于Staple排名第二。本文算法在VOT2017上也取得了較好的結(jié)果，具有良好的跟蹤性能。本文算法在VOT2017數(shù)據(jù)集上的精度-魯棒性圖和平均期望重疊率圖如圖6和圖7所示，本文算法在圖中都處于右上的位置，這代表本文算法的總體跟蹤性能較好。

表4 多種算法在VOT2017上的對(duì)比Tab.4 Comparison of trackers on VOT2017

圖6 VOT2017測(cè)試數(shù)據(jù)集上的精度-魯棒性排名Fig.6 AR plot for experiment baseline on VOT2017

圖7 VOT2017測(cè)試數(shù)據(jù)集上的平均期望覆蓋率排名Fig.7 Expected overlap scores for baseline on VOT2017

4.5 定性分析實(shí)驗(yàn)

為了直觀(guān)地對(duì)比本文跟蹤算法的效果，從VOT數(shù)據(jù)集中選擇了5個(gè)有代表性的圖像序列（Bag，Bmx，Butterfly，F(xiàn)ish1和Matrix）進(jìn)行定性分析實(shí)驗(yàn)。這些圖像序列幾乎包含了跟蹤任務(wù)中所有的挑戰(zhàn)，不同跟蹤算法預(yù)測(cè)的目標(biāo)邊界框如圖8所示。為了更好地展示不同算法的結(jié)果，圖8只展示了本文提出的跟蹤算法和本文算法的基準(zhǔn)算法ECO的對(duì)比。如圖8所示，本文算法的跟蹤框與基準(zhǔn)算法ECO的跟蹤框相比位置更準(zhǔn)確，具有更好的跟蹤性能。甚至，在某些ECO丟失目標(biāo)的情況下，本文提出的算法依然可以很好的跟蹤目標(biāo)。

圖8 與基準(zhǔn)算法ECO相比，在五個(gè)具有挑戰(zhàn)性的序列（從上到下：Bag，Bmx，Butterfly，F(xiàn)ish1和Matrix）上對(duì)所提出算法的定性評(píng)估Fig.8 Qualitative evaluation of the proposed algorithm compared with ECO on five challenging sequences（from top to bottom：Bag，Bmx，Butterfly，F(xiàn)ish1，and Matrix）

4.6 運(yùn)行速度對(duì)比實(shí)驗(yàn)

運(yùn)行速度是目標(biāo)跟蹤算法評(píng)價(jià)的重要指標(biāo)，本文算法在Intel i7-8700K CPU和GTX 1080 Ti顯卡的電腦上的運(yùn)行速度為平均8幀速率（Frames Per Second，F(xiàn)PS），與另外三種跟蹤算法的運(yùn)行速度對(duì)比如表5所示。從表中可以看出本文算法的運(yùn)行速度與采用卷積特征的跟蹤算法ECO和DeepSRDCF相比相差不大，但是與采用手工設(shè)計(jì)特征的Staple跟蹤算法相比運(yùn)行速度有一定差距，這是由于本文算法采用改進(jìn)的殘差網(wǎng)絡(luò)SE-ResNet-50來(lái)提取多分辨率特征，在這個(gè)特征提取的過(guò)程中計(jì)算量較大，導(dǎo)致在跟蹤過(guò)程中即使采用GPU進(jìn)行加速仍然不能實(shí)時(shí)運(yùn)行。

表5 與3個(gè)跟蹤算法的速度對(duì)比Tab.5 Speed comparisons with three trackers

5 結(jié) 論

本文在ECO的跟蹤框架的基礎(chǔ)上，提出了基于顯著區(qū)域加權(quán)的相關(guān)濾波目標(biāo)跟蹤算法。首先采用SE-ResNet-50來(lái)提取多分辨率特征，增強(qiáng)特征表達(dá)；然后采用顯著性圖來(lái)對(duì)相關(guān)濾波的響應(yīng)圖進(jìn)行加權(quán)，提高定位精度。最后，在VOT數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，VOT2016和VOT2017的EAO得分達(dá)到了0.415 7和0.341 2，實(shí)驗(yàn)表明采用特征表達(dá)更強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取特征對(duì)跟蹤算法的精度有較大提升。而且，采用視覺(jué)顯著性來(lái)加權(quán)相關(guān)濾波的響應(yīng)圖也可以有效地改善跟蹤精度。