朱均安,陳 濤,曹景太
(1.中國(guó)科學(xué)院長(zhǎng)春光學(xué)精密機(jī)械與物理研究所,吉林長(zhǎng)春130033;2.中國(guó)科學(xué)院大學(xué),北京100049)
視覺(jué)目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)中的一個(gè)重要的研究問(wèn)題,是高層語(yǔ)義分析的基礎(chǔ),例如場(chǎng)景理解、行為理解等。視覺(jué)目標(biāo)跟蹤要解決的問(wèn)題可以表述為:在視頻序列中,給出第一幀中目標(biāo)的位置及大小(通常是一個(gè)矩形邊界框),需要在后續(xù)幀中預(yù)測(cè)出目標(biāo)的位置及大小。視覺(jué)目標(biāo)跟蹤中存在許多挑戰(zhàn)[1-2],包括光照變化、遮擋、旋轉(zhuǎn)、形變等。研究人員提出了許多跟蹤算法來(lái)解決這些問(wèn)題,主要分為生成模型[3]和判別模型[4-8]兩類(lèi)。基于生成模型的目標(biāo)跟蹤算法,采用歷史幀的結(jié)果來(lái)生成用于描述目標(biāo)特征的統(tǒng)計(jì)模型,能夠有效處理跟蹤過(guò)程中目標(biāo)丟失的情況,但是基于生成模型的方法忽略了目標(biāo)周?chē)谋尘靶畔ⅲ诿鎸?duì)背景混亂時(shí)容易丟失目標(biāo)。與生成模型不同,判別模型主要是學(xué)習(xí)出一個(gè)決策邊界,利用這個(gè)決策邊界來(lái)區(qū)分目標(biāo)區(qū)域與背景區(qū)域。
近年來(lái),基于判別模型的相關(guān)濾波跟蹤算法取得了良好的跟蹤性能。2010年,誤差最小平方和(Minimum Output Sum of Squared Error,MOSSE)[9]跟蹤算法首次將相關(guān)濾波器引入目標(biāo)跟蹤領(lǐng)域。通過(guò)最小化均方誤差,在后續(xù)幀中找到目標(biāo)的最佳位置。2012年,循環(huán)結(jié)構(gòu)的檢測(cè)跟 蹤(Circulant Structure of Tracking-by-detection with Kernels,CSK)[10]算法提出了一種使用循環(huán)移位對(duì)數(shù)據(jù)進(jìn)行密集采樣的方法,并通過(guò)快速傅立葉變換(Fast Fourier Transformation,F(xiàn)FT)快速訓(xùn)練出分類(lèi)器。2014年,核相關(guān)濾波器(Kernelized Correlation Filter,KCF)[11]跟蹤算法對(duì)CSK進(jìn)行了擴(kuò)展,由單通道特征拓展到多通道特征,并引入核方法提高了基于相關(guān)濾波的目標(biāo)跟蹤算法的精度。為了更好地應(yīng)對(duì)尺度變化,區(qū)分尺度空間跟蹤算法(Discriminative Scale Space Tracking,DSST)[12]和多特征的尺度自適應(yīng)跟蹤算法(Scale Adaptive with Multiple Features tracker,SAMF)[13]分別提出了不同的解決方案。DSST將目標(biāo)跟蹤看成目標(biāo)中心平移和目標(biāo)尺度變化兩個(gè)獨(dú)立的問(wèn)題,通過(guò)添加尺度濾波器來(lái)更好地應(yīng)對(duì)尺度變化。SAMF則對(duì)候選區(qū)域的目標(biāo)采用固定的七個(gè)尺度,同時(shí)檢測(cè)目標(biāo)平移變化和尺度變化,快速確定目標(biāo)的位置和尺度。2015年,為了抑制邊界效應(yīng)并擴(kuò)大搜索范圍,空間正則化的判別相關(guān)濾波器(Spatially Regularized Discriminative Correlation Filter,SRDCF)[14]跟蹤算法采用了更大的檢測(cè)區(qū)域,同時(shí)加入空域正則化。2016年,連續(xù)卷積算子跟蹤算法(Continuous Convolution Operator Tracker,C-COT)[15]在連續(xù)域中應(yīng)用多分辨率特征,并在VOT2016競(jìng)賽上實(shí)現(xiàn)了較好的跟蹤性能。模板與像素互補(bǔ)學(xué)習(xí)(Sum of Template and Pixelwise Learners,Staple)[16]跟蹤算法采用梯度方向直方圖(Histogram of Oriented Gradients,HOG)特征[17]和顏色直方圖來(lái)建立目標(biāo)的外觀(guān)模型,這兩種特征具有一定的互補(bǔ)性,通過(guò)分別求解他們的響應(yīng)圖,然后對(duì)響應(yīng)圖進(jìn)行加權(quán)融合獲得了較好的跟蹤效果。2017年,在C-COT跟蹤算法的基礎(chǔ)上,高效卷積算子跟蹤算法(Efficient Convolution Operators for Tracking,ECO)[18]將手工設(shè)計(jì)的特征和卷積特征相結(jié)合,使用因式分解的卷積來(lái)減少特征的維數(shù),并壓縮學(xué)習(xí)模型中的訓(xùn)練樣本以提高跟蹤速度和魯棒性。
基于判別模型的相關(guān)濾波跟蹤算法雖然在精度和速度上取得了較好的效果,但是這些算法目標(biāo)位置的定位精度依然有待提升。為了解決這個(gè)問(wèn)題,本文在ECO的基礎(chǔ)上提出了基于顯著性區(qū)域加權(quán)的相關(guān)濾波目標(biāo)跟蹤算法,首先使用改進(jìn)的殘差網(wǎng)絡(luò)(SE-ResNet)[19]來(lái)提取多分辨率特征,可以充分利用淺層和深層特征的不同特性。然后,提出了一種顯著性區(qū)域加權(quán)策略,通過(guò)對(duì)相關(guān)濾波器的響應(yīng)進(jìn)行重新加權(quán)來(lái)提高定位精度。最后,在視覺(jué)目標(biāo)跟蹤(Visual Object Tracking,VOT)[1-2]競(jìng)賽上進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明本文算法取得了較好的效果,具有良好的跟蹤性能。
相關(guān)性是用來(lái)描述兩個(gè)信號(hào)的聯(lián)系,分為互相關(guān)和自相關(guān),在基于相關(guān)濾波的目標(biāo)跟蹤中,相關(guān)指的是互相關(guān)。
假設(shè)有兩個(gè)信號(hào)f和g,當(dāng)他們分別為連續(xù)信號(hào)和離散信號(hào)時(shí)的相關(guān)性計(jì)算方法如下:

其中:?代表卷積運(yùn)算,f*表示f的共軛。互相關(guān)就是衡量?jī)蓚€(gè)信號(hào)在某個(gè)時(shí)刻τ時(shí)的相似程度。因此,將相關(guān)濾波應(yīng)用到目標(biāo)跟蹤領(lǐng)域最基本的思想就是:設(shè)計(jì)一個(gè)濾波模板,使得該模板與跟蹤目標(biāo)的感興趣區(qū)域(Region of Interest,ROI)做相關(guān)運(yùn)算,得到最大的輸出響應(yīng)。該思想用數(shù)學(xué)語(yǔ)言可以描述為:

其中:g表示相關(guān)濾波的輸出響應(yīng),f表示輸入原始圖片的特征,h表示濾波模板。在相關(guān)濾波的跟蹤框架中,只需要不斷地修正濾波模板,得到最大的輸出響應(yīng)即可。
由于卷積運(yùn)算的計(jì)算量較大,采用快速傅里葉變換FFT的性質(zhì)將空間域的卷積運(yùn)算轉(zhuǎn)化為頻率域的乘法運(yùn)算,可以極大地提高運(yùn)算速度。公式(3)可以轉(zhuǎn)化為:

其中:⊙表示逐元素相乘,F(xiàn)表示FFT變換,采用對(duì)應(yīng)字母的大寫(xiě)表示其FFT變換后的結(jié)果,公式(4)可以簡(jiǎn)化為:

因此,相關(guān)濾波器可以采用如式(6)求出:

本文提出的跟蹤算法的整體結(jié)構(gòu)如圖1所示,該算法由兩部分構(gòu)成,即相關(guān)濾波響應(yīng)的計(jì)算和顯著性圖的計(jì)算。對(duì)于相關(guān)濾波的響應(yīng)圖的計(jì)算,本文算法在ECO的跟蹤框架基礎(chǔ)上,采用SE-ResNet-50來(lái)提取多分辨率特征,Rc是求出的相關(guān)濾波的響應(yīng);對(duì)于顯著性圖的計(jì)算,采用背景對(duì)象模型[20]來(lái)獲取目標(biāo)的顯著性圖,Rs是求出的顯著性圖。最后,將相關(guān)濾波的響應(yīng)圖與顯著性圖的響應(yīng)相乘,即可得到最終的響應(yīng)圖,最終的響應(yīng)圖Rfinal可以通過(guò)如式(7)計(jì)算出:

把響應(yīng)圖Rfinal取得最大值時(shí)的位置映射到原圖中就可以求得在后續(xù)幀中目標(biāo)的位置。

圖1 本文算法的跟蹤框架Fig.1 Framework of proposed algorithm
近年來(lái),手工設(shè)計(jì)的特征,如HOG特征和顏色名(Color Name,CN)[21]特征在目標(biāo)跟蹤領(lǐng)域取得了良好的效果,但手工設(shè)計(jì)的特征已經(jīng)成為了跟蹤精度提升的瓶頸。Yosinski等人[22]研究發(fā)現(xiàn),在卷積神經(jīng)網(wǎng)絡(luò)中低層的部分學(xué)習(xí)的是一些顏色、紋理等簡(jiǎn)單信息,而高層部分學(xué)習(xí)的是綜合的語(yǔ)義信息。卷積神經(jīng)網(wǎng)絡(luò)中的不同卷積層的特征圖的可視化的結(jié)果如圖2所示。卷積神經(jīng)網(wǎng)絡(luò)特征在圖像分類(lèi)和目標(biāo)檢測(cè)領(lǐng)域都取得了較高的精度。因此,本文采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取淺層和深層的特 征,充分利用卷積神經(jīng)網(wǎng)絡(luò)不同層的特性。

圖2 卷積神經(jīng)網(wǎng)絡(luò)中的不同卷積層的特征圖的可視化[23]Fig.2 Visualization of deep feature maps from different convolutional layers of different CNN architectures
為了進(jìn)一步提升跟蹤算法的性能,在計(jì)算相關(guān)濾波的響應(yīng)圖時(shí),采用了ECO的跟蹤框架,并使用了改進(jìn)的殘差網(wǎng)絡(luò)SE-ResNet-50網(wǎng)絡(luò)來(lái)提取多分辨率特征,充分利用不同層的特征信息,并結(jié)合高層抽象的特征和低層基礎(chǔ)的圖像特征的特點(diǎn)。本文算法選擇Conv1x,Res3d和Res4f層作為多分辨率特征圖,輸出的特性在ReLU激活之前,提取的特征圖的大小為112×112,28×28和14×14。由于提取的特征的分辨率不同,采用C-COT中的隱式插值模型。每個(gè)樣本xj都包含D維的特征通道,從同一圖像塊中提取的D維通道的特征為表示特征通道x中空間采樣點(diǎn)的數(shù)目,d∈{0,1,2,...}。特征通道x∈RNd可以看作一個(gè)關(guān)于離散空間變量n∈{0,...,Nd-1}的函數(shù)x[n]。為了學(xué)習(xí)連續(xù)的卷積算子,特征圖被轉(zhuǎn)換到連續(xù)的空間域[0,T)∈R。其中常數(shù)T代表支持區(qū)域的大小。插值算子Jd被構(gòu)造為:

其中,bd∈L2(T),它表示插值函數(shù)。

式中a是固定系數(shù)。通過(guò)插值函數(shù)將不同分辨率的特征插值到相同尺寸,然后采用ECO中的因式分解的卷積來(lái)減小特征的維度,使用一組較小的基濾波器f1,f2,...,fC,在這里C<D。然后使用一組學(xué)習(xí)的系數(shù)Pd,c將特征層d的濾波器構(gòu)造為一個(gè)線(xiàn)性組合的濾波器fC,系數(shù)Pd,c可以緊湊地表示為D×C的矩陣P=(Pd,c)。新的多通道濾波器可以寫(xiě)成矩陣向量乘積Pf,因式分解的卷積算子可以表示為:

公式(10)的最后一步是卷積的線(xiàn)性組合,可以將因式分解卷積過(guò)程分為兩步操作,其中每個(gè)位置t的特征向量J{x}(t)首先與矩陣PT相乘,然后將生成的C維的特征圖與濾波器f進(jìn)行卷積。因此,矩陣PT的作用類(lèi)似于線(xiàn)性的降維算子。Rc即為相關(guān)濾波的響應(yīng)圖。
考慮從單個(gè)訓(xùn)練樣本x中學(xué)習(xí)因式分解的卷積算子公式(10),為了簡(jiǎn)化表示,使用z^d[k]=Xd[k]b^d[k]表示插值特征圖z=J{x}的傅立葉系數(shù)。傅立葉域中的相應(yīng)的損失函數(shù)可推導(dǎo)為:

公式(11)相比于C-COT中的損失函數(shù),添加了P的Frobenius范數(shù)作為正則化項(xiàng),其約束效果由參數(shù)λ控制。損失函數(shù)公式(10)是一個(gè)非線(xiàn)性最小二乘問(wèn)題,為了解決這個(gè)非線(xiàn)性最小二乘問(wèn)題,首先采用了高斯-牛頓方法將上述非線(xiàn)性最小二乘問(wèn)題轉(zhuǎn)化為線(xiàn)性最小二乘問(wèn)題,然后再通過(guò)共軛梯度的方法來(lái)求解。
相關(guān)濾波的響應(yīng)圖的求解過(guò)程總結(jié)如下:
Step1:采用公式(8)對(duì)不同分辨率的特征圖進(jìn)行雙三次插值操作,將不同分辨率的特征圖轉(zhuǎn)換到連續(xù)空間域;
Step2:通過(guò)采用公式(11)最小化損失函數(shù),求出相關(guān)濾波器;
Step3:采用公式(10)進(jìn)行因式分解的卷積求出相關(guān)濾波的響應(yīng)圖Rc。
視覺(jué)顯著性(Visual Saliency)[24]是指人眼可以自動(dòng)地從真實(shí)世界的場(chǎng)景中識(shí)別出感興趣區(qū)域,并對(duì)感興趣的區(qū)域進(jìn)行處理而忽略掉不感興趣的區(qū)域。作為對(duì)人類(lèi)視覺(jué)注意機(jī)制的模擬,顯著性檢測(cè)算法的目標(biāo)是將輸入圖像轉(zhuǎn)化為一幅顯著圖,顯著圖表現(xiàn)為將圖像中可能的感興趣區(qū)域進(jìn)行高亮顯示,并抑制背景區(qū)域的顯示。通過(guò)在計(jì)算機(jī)視覺(jué)任務(wù)中引入視覺(jué)顯著性,可以為視覺(jué)信息處理任務(wù)帶來(lái)幫助和改善。通常,跟蹤任務(wù)中的目標(biāo)是運(yùn)動(dòng)中的前景物體,因此,在目標(biāo)跟蹤中采用視覺(jué)顯著性可以幫助快速定位目標(biāo),提高定位的準(zhǔn)確率,顯著性檢測(cè)算法的計(jì)算結(jié)果對(duì)于目標(biāo)跟蹤任務(wù)具有重要的指導(dǎo)作用。

圖3 目標(biāo)區(qū)域和環(huán)繞區(qū)域Fig.3 Object region and surrounding region
本文采用背景對(duì)象模型來(lái)獲取目標(biāo)的顯著性圖。假設(shè)輸入圖像為I,為了從背景中分離出目標(biāo)像素x∈θ,采用基于顏色直方圖的貝葉斯分類(lèi)。如圖3所示,給出一個(gè)目標(biāo)的矩形框區(qū)域O和它的環(huán)繞區(qū)域S。在x處的像素屬于目標(biāo)像素的概率為:

其中bx表示分配給輸入圖像I(x)的顏色分量,由于是從顏色直方圖直接估算,因此顏色分量屬于目標(biāo)區(qū)域和環(huán)繞區(qū)域的概率可以分別表示為:

HIΩ(b)表示在區(qū)域Ω∈I上計(jì)算的非標(biāo)準(zhǔn)化直方圖H的第b個(gè)計(jì)算區(qū)間,先驗(yàn)概率可以近似為:

根據(jù)公式(15),公式(12)可以被簡(jiǎn)化為:

分配給背景的像素值的最大熵為0.5,采用背景對(duì)象模型可以從背景像素中區(qū)分出目標(biāo)像素。通過(guò)搜索前一幀目標(biāo)位置的一個(gè)矩形區(qū)域Ot-1,當(dāng)前幀的顯著性圖Rs的計(jì)算公式如式(17)所示:

其中:sv(Ot,i)表示基于目標(biāo)模型的概率分?jǐn)?shù),sd(Ot,i)是基于到前一個(gè)目標(biāo)中心的歐式距離中心ct-1的距離分?jǐn)?shù),它們的計(jì)算公式如下:

在跟蹤階段,由于目標(biāo)的外觀(guān)是不斷變化的,所以需要不斷地更新目標(biāo)外觀(guān)模型,采用線(xiàn)性插值的方式來(lái)更新目標(biāo)外觀(guān)模型,公式如下:

其中η是學(xué)習(xí)率。
在相關(guān)濾波響應(yīng)圖和顯著性圖的計(jì)算中都需要更新模型,并且采用了不同的更新策略。
在相關(guān)濾波響應(yīng)的計(jì)算過(guò)程中,本文采用了相關(guān)濾波的跟蹤框架,如果對(duì)每一幀都更新模型,由于圖像幀間樣本特征的差異較小,所以基于相關(guān)濾波方法的圖像幀間的損失函數(shù)變化也很小,每一幀都更新使得整個(gè)樣本集內(nèi)存在大量的冗余樣本信息,給目標(biāo)跟蹤算法帶來(lái)很大的計(jì)算負(fù)擔(dān)。為了解決上述逐幀更新模型的策略帶來(lái)的內(nèi)存與算力問(wèn)題,采用與ECO相同的更新策略,使用稀疏的模型更新方法,直接設(shè)置每NS幀圖像進(jìn)行一次模型更新。
在顯著性圖的計(jì)算中,本文采用背景對(duì)象模型來(lái)獲取目標(biāo)的顯著性圖,由于目標(biāo)的外觀(guān)是不斷變化的,需要不斷的更新目標(biāo)外觀(guān)模型。因此在顯著性圖的計(jì)算過(guò)程中,采用公式(20)在獲取每一幀的目標(biāo)后都更新目標(biāo)外觀(guān)模型。
在目標(biāo)跟蹤過(guò)程中,給定第一幀的目標(biāo)位置,跟蹤算法在后續(xù)幀中根據(jù)前一幀中目標(biāo)的位置,在其周?chē)M(jìn)行搜索,從而預(yù)測(cè)目標(biāo)在后續(xù)幀中最佳的位置和尺度。為了更好的應(yīng)對(duì)尺度變化,本文算法采用了與SAMF中相同的尺度策略,采用了七個(gè)尺度。本文算法的跟蹤過(guò)程可以作如下描述:

算法:基于顯著性區(qū)域加權(quán)的相關(guān)濾波目標(biāo)跟蹤算法輸入:圖像序列和第一幀圖像的目標(biāo)位置和尺寸大小輸出:圖像序列后續(xù)幀中的目標(biāo)位置和尺寸大小Begin if第一幀手動(dòng)選定需跟蹤的目標(biāo),提取目標(biāo)區(qū)域的多層卷積特征,最小化式損失函數(shù)得到初始濾波器f;else Step1:根據(jù)上一幀目標(biāo)的位置和尺寸大小裁剪出七個(gè)不同尺度的候選區(qū)域,并提取預(yù)測(cè)目標(biāo)區(qū)域的多層卷積特征;Step2:利用公式(10)計(jì)算相關(guān)濾波的響應(yīng)圖Rc;Step3:利用公式(17)計(jì)算顯著性圖Rs;Step3:利用公式(7)計(jì)算得到最終的響應(yīng)圖,得到的目標(biāo)位置和尺度;Step4:通過(guò)公式(11)更新濾波器f和公式(20)更新外觀(guān)模型;Step5:如果不是最后一幀,返回Step1。End
始于2013年的VOT是一項(xiàng)目標(biāo)跟蹤算法的競(jìng)賽,本文算法在VOT2016[1]和VOT2017[2]上進(jìn)行評(píng)估,它們都包含60個(gè)手動(dòng)標(biāo)記的圖像序列,但VOT2017用10個(gè)困難的視頻序列代替了VOT2016中10個(gè)簡(jiǎn)單的視頻序列,并且重新標(biāo)記了一些視頻序列,使VOT2017比VOT2016更具挑戰(zhàn)性。VOT競(jìng)賽中,跟蹤性能按三個(gè)主要指標(biāo)進(jìn)行排序,即精度(Accuracy)、魯棒性(Robustness)和平均重疊期望(Expected Average Overlap,EAO),使用VOT競(jìng)賽的評(píng)估工具包(VOT toolkit)來(lái)評(píng)估本文算法。
本文使用一臺(tái)搭載Intel i7-8700K CPU和GTX 1080 Ti顯卡的電腦對(duì)提出的跟蹤算法進(jìn)行了評(píng)估,使用的軟件是MATLAB 2016a和它的工具包MatConvNet[25](版本為MatConvNet-1.0-beta25),改進(jìn)殘差網(wǎng)絡(luò)SE-ResNet-50模型可以公開(kāi)下載(http://www.robots.ox.ac.uk/~albanie/models/se-nets/SE-ResNet-50-mcn.mat)。實(shí)驗(yàn)使用的參數(shù)如下:在相關(guān)濾波部分搜索區(qū)域范圍設(shè)置在200×200和250×250之間,尺度數(shù)量為7,尺度因子為1.03,固定更新頻率NS為5;在顯著性圖的計(jì)算中,學(xué)習(xí)率η設(shè)置為0.05。根據(jù)Mat-ConvNet的官方說(shuō)明,不同版本的MatConvNet會(huì)影響運(yùn)行結(jié)果,為了避免采用不同版本導(dǎo)致的結(jié)果差異,其他跟蹤算法的測(cè)試結(jié)果來(lái)自作者個(gè)人主頁(yè)或者VOT競(jìng)賽的官方網(wǎng)站(https://www.votchallenge.net/vot2016/results.html;https://www.votchallenge.net/vot2017/results.html)。
為了驗(yàn)證本文提出的顯著區(qū)域加權(quán)策略的有效性,在VOT2016和VOT2017上進(jìn)行了消融實(shí)驗(yàn),將本文算法與沒(méi)有顯著區(qū)域加權(quán)策略的算法進(jìn)行了比較。Ours_N代表沒(méi)有顯著區(qū)域加權(quán)策略,其他與本文算法相同。實(shí)驗(yàn)結(jié)果如表1和表2所示,從這兩個(gè)表中可以看出,本文算法的EAO、準(zhǔn)確性和魯棒性方面都優(yōu)于沒(méi)有顯著區(qū)域加權(quán)策略的算法。實(shí)驗(yàn)結(jié)果表明,顯著區(qū)域加權(quán)策略能夠有效地改善跟蹤性能。此外,與本文的基準(zhǔn)算法ECO相比,本文算法即使沒(méi)有顯著區(qū)域加權(quán)策略,在EAO的準(zhǔn)確性和魯棒性方面仍然比ECO好。實(shí)驗(yàn)結(jié)果表明,利用改進(jìn)的殘差網(wǎng)絡(luò)SE-ResNet-50網(wǎng)絡(luò)在相關(guān)濾波框架中提取多分辨率特征的策略是有效的,有助于提升跟蹤性能。

表1 VOT2016上的消融實(shí)驗(yàn)結(jié)果對(duì)比Tab.1 Ablation study results on VOT2016

表2 VOT2017上的消融實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Ablation study results on VOT2017
本文算法與8種先進(jìn)的跟蹤算法(包括ECO[17],Staple[15],DeepSRDCF[26],SRDCF[13],SiamFC[27],KCF[10],DSST[11]和SAMF[12])在VOT2016上進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表3所示,表中最好的三個(gè)結(jié)果分別用紅色、綠色和藍(lán)色表示(彩圖見(jiàn)期刊電子版)。從表中可以看出本文提出的算法的平均重疊期望、準(zhǔn)確性和魯棒性均優(yōu)于其他跟蹤算法,獲得了比其他算法更好的精度和魯棒性,具有良好的跟蹤性能。

表3 多種算法在VOT2016上的對(duì)比Tab.3 Comparison of trackers on VOT2016
VOT2016測(cè)試數(shù)據(jù)集上的精度-魯棒性圖和平均期望重疊率圖如圖4和圖5所示,精度-魯棒性圖中橫坐標(biāo)為指數(shù)化處理后的魯棒性值,縱坐標(biāo)為精度,算法在圖中的位置越靠近右上總體性能越好;平均期望重疊率圖中橫坐標(biāo)為算法排名,縱坐標(biāo)為平均期望重疊率,算法在圖中的位置越靠近右上總體性能越好。從圖4和圖5可以看出本文算法在圖中都處于右上的位置,這表示本文算法在9個(gè)跟蹤算法中總體跟蹤性能最好。

圖4 VOT2016測(cè)試數(shù)據(jù)集上的精度-魯棒性排名Fig.4 AR plot for experiment baseline on VOT2016

圖5 VOT2016測(cè)試數(shù)據(jù)集上的平均期望覆蓋率排名Fig.5 Expected overlap scores for baseline on VOT2016
本文算法與7個(gè)先進(jìn)的跟蹤算法(包括ECO[17],CFNet[28],DCFNet[29],Staple[15],SRDCF[13],KCF[10]和DSST[11])在VOT2017上進(jìn)行了比較,實(shí)驗(yàn)結(jié)果如表4所示,最好的三個(gè)結(jié)果分別用紅色、藍(lán)色和綠色標(biāo)注(彩圖見(jiàn)期刊電子版)。從表中可以看出,在8個(gè)跟蹤算法中,本文提出的跟蹤算法在EAO和魯棒性上都排名第一,精度略低于Staple排名第二。本文算法在VOT2017上也取得了較好的結(jié)果,具有良好的跟蹤性能。本文算法在VOT2017數(shù)據(jù)集上的精度-魯棒性圖和平均期望重疊率圖如圖6和圖7所示,本文算法在圖中都處于右上的位置,這代表本文算法的總體跟蹤性能較好。

表4 多種算法在VOT2017上的對(duì)比Tab.4 Comparison of trackers on VOT2017

圖6 VOT2017測(cè)試數(shù)據(jù)集上的精度-魯棒性排名Fig.6 AR plot for experiment baseline on VOT2017

圖7 VOT2017測(cè)試數(shù)據(jù)集上的平均期望覆蓋率排名Fig.7 Expected overlap scores for baseline on VOT2017
為了直觀(guān)地對(duì)比本文跟蹤算法的效果,從VOT數(shù)據(jù)集中選擇了5個(gè)有代表性的圖像序列(Bag,Bmx,Butterfly,F(xiàn)ish1和Matrix)進(jìn)行定性分析實(shí)驗(yàn)。這些圖像序列幾乎包含了跟蹤任務(wù)中所有的挑戰(zhàn),不同跟蹤算法預(yù)測(cè)的目標(biāo)邊界框如圖8所示。為了更好地展示不同算法的結(jié)果,圖8只展示了本文提出的跟蹤算法和本文算法的基準(zhǔn)算法ECO的對(duì)比。如圖8所示,本文算法的跟蹤框與基準(zhǔn)算法ECO的跟蹤框相比位置更準(zhǔn)確,具有更好的跟蹤性能。甚至,在某些ECO丟失目標(biāo)的情況下,本文提出的算法依然可以很好的跟蹤目標(biāo)。

圖8 與基準(zhǔn)算法ECO相比,在五個(gè)具有挑戰(zhàn)性的序列(從上到下:Bag,Bmx,Butterfly,F(xiàn)ish1和Matrix)上對(duì)所提出算法的定性評(píng)估Fig.8 Qualitative evaluation of the proposed algorithm compared with ECO on five challenging sequences(from top to bottom:Bag,Bmx,Butterfly,F(xiàn)ish1,and Matrix)
運(yùn)行速度是目標(biāo)跟蹤算法評(píng)價(jià)的重要指標(biāo),本文算法在Intel i7-8700K CPU和GTX 1080 Ti顯卡的電腦上的運(yùn)行速度為平均8幀速率(Frames Per Second,F(xiàn)PS),與另外三種跟蹤算法的運(yùn)行速度對(duì)比如表5所示。從表中可以看出本文算法的運(yùn)行速度與采用卷積特征的跟蹤算法ECO和DeepSRDCF相比相差不大,但是與采用手工設(shè)計(jì)特征的Staple跟蹤算法相比運(yùn)行速度有一定差距,這是由于本文算法采用改進(jìn)的殘差網(wǎng)絡(luò)SE-ResNet-50來(lái)提取多分辨率特征,在這個(gè)特征提取的過(guò)程中計(jì)算量較大,導(dǎo)致在跟蹤過(guò)程中即使采用GPU進(jìn)行加速仍然不能實(shí)時(shí)運(yùn)行。

表5 與3個(gè)跟蹤算法的速度對(duì)比Tab.5 Speed comparisons with three trackers
本文在ECO的跟蹤框架的基礎(chǔ)上,提出了基于顯著區(qū)域加權(quán)的相關(guān)濾波目標(biāo)跟蹤算法。首先采用SE-ResNet-50來(lái)提取多分辨率特征,增強(qiáng)特征表達(dá);然后采用顯著性圖來(lái)對(duì)相關(guān)濾波的響應(yīng)圖進(jìn)行加權(quán),提高定位精度。最后,在VOT數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),VOT2016和VOT2017的EAO得分達(dá)到了0.415 7和0.341 2,實(shí)驗(yàn)表明采用特征表達(dá)更強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取特征對(duì)跟蹤算法的精度有較大提升。而且,采用視覺(jué)顯著性來(lái)加權(quán)相關(guān)濾波的響應(yīng)圖也可以有效地改善跟蹤精度。