朱文球,鄒廣,曾志高
(1.湖南工業大學計算機學院,湖南株洲 412000;2.湖南省智能信息感知與處理技術重點實驗室,湖南株洲 412000)
最近幾年,機器學習和深度學習在跟蹤任務中被廣泛應用,使跟蹤器的各種性能都有了很大提升。目前,目標跟蹤仍然面臨著很大挑戰,比如目標快速移動、背景干擾、尺度變換、低分辨率等。為解決在現實場景中遇到的問題,各個專家學者有針對性地提出了不同的目標跟蹤算法。
Bertinetto 等[1]提出了全卷積孿生網絡的目標跟蹤(Fully-Convolutional Siamese network for object tracking,
SiamFC)算法,通過AlexNet 模型提取模板特征和搜索區域特征,采用相似度度量的方法對特征進行互相關運算,得到響應圖,根據響應圖得分預測目標位置;Valmadre 等[2]結合相關濾波和深度學習,提出CFNet(end-to-end represention learning for Correlation Filter in deep neural Network)跟蹤算法,并且實現了網絡端到端訓練,有效地提升了算法精度,但面對目標遮擋等問題時跟蹤效果不佳;Zhang 等[3]通過分析深層網絡應用在孿生網絡中的問題,提出一個能夠擴展更深層數的網絡結構SiamDW(Deeper and Wider Siamese Network),利用了深層網絡提取特征更充分的優勢;Li 等[4]在SiamFC 基礎上引入了目標檢測中常用的區域候選網絡(Region Proposal Network,RPN),并提出孿生區域候選網絡(SiamRPN)算法,將目標跟蹤問題看成兩階段問題,分為檢測分支和回歸分支,但對不同通道和位置特征一視同仁,沒有突出感興趣區域;Wang 等[5]采用三種不同的注意力機制[6]相融合的方式得到目標位置的映射,僅僅利用到了網絡最后輸出的語義特征,缺少位置特征,不利于目標定位。在實際場景中,目標跟蹤過程中經常由于目標快速運動[7]、尺度變換[8]、背景復雜干擾、圖像分辨率低等問題導致跟蹤失敗或者跟蹤漂移。SiamFC 算法由于其較淺網絡層數和簡單模板圖像裁剪,導致:1)特征不具有目標強判別性,面對干擾場景容易跟蹤失敗;2)模板圖像中包含的背景信息被當成正樣本處理,在跟蹤過程中遇到背景相似物體時會跟蹤失敗,導致跟蹤精度下降。
針對上述存在的僅利用語義信息作為對目標的判別依據和忽略不同通道、位置特征之間權重等問題,本文在孿生網絡框架基礎上,提出結合特征融合與注意力機制的跟蹤算法(簡稱DeepSiamFC-Attn),主要工作如下:1)主干網絡采用改良的ResNet50[9],結合空洞卷積[10]增大感受野(Receptive Field),獲取更豐富的上下文信息。2)融合空間自注意力[11]和通道注意力[12]的混合注意力機制(Hybrid-Attn)對通道數和空間位置進行選擇。本文根據目標跟蹤任務特性設計了不同于傳統的通道注意力和空間注意力,使用計算量更小的通道注意力。通過空間自注意力反映任意兩個位置之間的相關關系,得到不同位置的響應,幫助更好地定位目標。3)目標特征經過網絡中混合注意力機制篩選,能夠提取高層次語義信息,并且同低層紋理、位置、顏色等特征進行互相關計算后再自適應加權融合,得到更充分的目標外觀特征,以適應目標外觀變化,從而提高網絡判別力,更好地區分目標和背景。4)本文算法在基準數據集上取得了不錯的跟蹤效果,速度達到52 frame/s,滿足實時性要求。
SiamFC 跟蹤算法關鍵點是采用離線訓練,在線微調網絡,能有效提高算法速度。SiamFC 網絡結構如圖1 所示。

圖1 SiamFC網絡結構Fig.1 Network structure of SiamFC
在采用全卷積網絡時,搜索圖像尺寸不需要同模板圖像一致,能夠為網絡提供更大的搜索區域,計算更多子窗口的相似度。互相關計算函數公式如式(1)所示:

式中:x是輸入搜索圖像,z是輸入模板圖像;φ為特征提取網絡;?代表卷積操作;b1表示在得分圖中每個位置取值的偏差值;f(z,x)表示z與x相似度得分。得分最高的位置即目標位置。
基于孿生網絡思想,本文采用層數更深的ResNet50 作為特征提取主干網絡。在網絡中嵌入混合注意力機制分別對通道特征進行選擇性增強和對空間特征進行選擇,獲取圖像更豐富的上下文信息。
網絡結構和各層對應操作如表1 所示。網絡共分5 個塊,第2~5 個網絡塊的殘差塊個數分別為(3,4,6,3),其中Block 代表網絡塊,Hybrid-Attn 表示混合注意力機制。Block1中的7×7 代表卷積核大小,64 代表輸出通道數,maxp代表最大池化,s=2 表示下采樣操作,步長為2。

表1 網絡結構及各網絡塊執行的操作Tab.1 Network structure and corresponding operation of each block
本文算法的目標是不僅在深度網絡中學習到目標語義特征,更要學習到低層顏色、外觀等輪廓特征,把兩者相融合,更好地幫助目標定位。在模板分支和模板下,對經第2個網絡塊(Block2)輸出的特征進行選擇,篩選較為明顯的底層特征(紋理、位置、顏色等);對第4 個網絡塊(Block4)輸出的較高層語義特征進行選擇,給予響應得分高的位置更大權重,提高模型對正負樣本的區分能力。本文在3.4 節進行了網絡塊選取對比實驗。
最后,對經過3 個網絡塊模板圖像輸出特征和搜索圖像輸出特征進行互相關操作,將低層次響應圖和高層響應圖做自適應融合,得到最后輸出特征響應圖。低層次特征做互相關得到的響應圖能凸出目標大致位置與輪廓,幫助定位目標;而高層次響應圖對目標與背景有更好區分度。響應圖中得分最高的位置即為目標位置,映射到原圖像中定位當前目標位置。總體算法模型如圖2所示。本文算法流程如圖3 所示。

圖2 DeepSiamFC-Attn網絡模型Fig.2 Network model of DeepSiamFC-Attn

圖3 DeepSiamFC-Attn算法流程Fig.3 Flowchart of DeepSiamFC-Attn algorithm
ResNet50 網絡總步長為32,會導致模板圖像經過主干網絡提取特征后,特征圖分辨率會變得過小。為了避免這種情況,對最后3 個網絡塊不進行下采樣操作,而是使用空洞率分別為2 和4 的空洞卷積。其中Block2 設置空洞率為2,Block4 設置空洞率為4,使用空洞卷積的優勢就是能夠在同樣分辨率下增加感受野。在不做池化操作損失信息的情況下,加大了感受野,能讓每個輸出位置像素都包含較大范圍的信息,從而聚合圖像中不同尺寸的上下文信息,獲取多尺度信息。通過提高分辨率可以更加精確地定位目標,同時消除因為卷積填補操作對目標帶來的平移影響。感受野增大的效果如圖4 所示,卷積核大小為3×3,左上角的矩形框代表一個點的感受野大小,外圍最大的矩形框代表整體感受野大小。
每個元素感受野大小計算公式如式(2)所示:

式中:k0,k1,…,ki,…,kn-2均為3× 3 大小,F表示經卷積計算后的圖像,F0表示原圖像。每一層元素感受野大小都是在得到上一層圖像卷積結果上進行計算。由此可見第i層采用2i大小的空洞率時,得到第i+1 層每個元素感受野大小為(2i-1)×(2i-1)。由圖4 可見使用空洞卷積后,感受野的大小明顯增大。

圖4 感受野結果Fig.4 Receptive field results
本文算法以孿生網絡為基礎,經過網絡提取特征后,對模板特征圖和搜索特征圖進行互相關操作,如圖5 所示。對目標提取了三種不同層次(Block3、Block4、Block5)的卷積特征,模板分支和搜索分支進行互相關操作得到3 個特征圖,對其進行加權融合特征。加權融合的權重根據經過混合注意力機制得到的空間和通道置信圖響應位置分配。通過通道注意力機制,根據Sigmoid 函數給出的各位置響應大小,依據置信圖,響應位置高給予更高的權重,更符合目標定位特征。如圖5 中響應特征圖所示,響應值越高的位置,對應特征圖所占比權重就越大。計算公式如式(3)所示:統計響應值高的位置數目,依次找出最大值,通過一個softmax 函數得到各權重大小。

圖5 相似度計算結構Fig.5 Structure of similarity computing

式中:R表示置信圖,i、j、k表示置信圖中的位置,w(·)表示各位置響應值。根據注意力機制篩選的置信圖位置得到自適應權重,能更充分地結合低層模板特征與高層語義特征。


式中:C代表響應值高的位置數目,X1、X2、X3分別表示網絡塊Block3、Block4、Block5 的輸出特征,α1、α2、α3分別為三層特征權重,F代表最終融合特征。
本文通過引入混合注意力機制,篩選出對目標響應程度高且能反映目標語義特征和位置特征的通道信息和空間信息,更關注這部分信息,賦予更大權重,有效提高對特征信息的處理準確率,提升對正負樣本的辨別力。
根據目標跟蹤任務特性,本文算法設計了一種混合注意力機制,由空間注意力模塊和通道注意力模塊組成。空間注意力模塊是基于特征圖相同位置像素之間相關依賴結構來表征特征,更強調內部元素之間相關關系。因此采用更能捕捉內部數據與特征之間關系的空間自注意力機制,建立任意兩個位置間相關關系,對其中某個特定位置的特征可通過所有位置特征信息進行加權求和來更新。通道注意力模塊是基于特征圖不同通道之間對不同目標的響應程度不同的相關關系來表征目標特征。響應相關程度高的通道代表的是同一目標,給予高響應權重,響應程度低的通道給予低響應權重,從而自適應調整特征響應。傳統的通道注意力機制采用多層感知機的方式計算各通道權重,這種方式由于大量全連接層的使用,增加了巨額參數,降低了計算速度,影響算法實時性。本文算法設計引入了ECA-Net[13]中的ECA(Efficient Channel Attention)模塊,避免了采用全連接層降維帶來的負面影響,同時適當跨信道交互可以顯著減少模型參數。該策略通過一維卷積實現,利用卷積操作權值共享特性,同采用多層感知機全連接層彼此相連相比,參數量明顯降低,從而保證了算法實時性。
卷積層注意力模塊分成通道模塊和空間模塊,沿著兩個獨立維度對特征進行推斷。通過與輸入特征相乘,自適應地對特征進行提優。這種注意力模塊可以與卷積神經網絡(Convolutional Neural Network,CNN)結構一起使用,不會增加額外參數,并且能實現端到端訓練。混合注意力模塊框架如圖6 所示。通道注意力和空間注意力模塊以并聯方式進行工作,卷積層輸出特征圖同時通過通道注意力模塊和空間注意力模塊篩選,得到加權結果后進行元素級相加,最終經過加權得到結果。

圖6 混合注意力模塊框架Fig.6 Framework of hybrid-attention module
整個過程表示如式(6)所示:

式中:F∈RC×H×W為輸入特征,AttnC為通道注意力模塊,AttnS為空間注意力模塊,?表示逐元素相乘(element-wise multiplication),F′是最終精煉后的輸出特征。
混合注意力機制具體實現如圖7 所示,通道注意力模塊(C-Attn)對輸入特征圖F進行尺寸壓縮,經全局平均池化得到一個特征向量f=(f1,f2,…,fc),作為一維卷積層的輸入,其中fi∈R。經 過Sigmoid 函數得到權重向量P=(p1,p2,…,pc),其中pi∈R,然后將權重向量與輸入特征F進行元素級相乘,經張量變換操作調整特征圖大小后,最終得到經通道注意力篩選的特征∈RC×h×w。其中卷積核K的大小通過自適應計算得到并應用于一維卷積中,具體計算方法如式(7):

圖7 混合注意力實現模塊Fig.7 Hybrid-Attention implementation module

本文實驗根據通道一般都取2 的指數的情況,設定r=2,b=1。通過自適應卷積核大小K來完成跨通道間信息交互,讓擁有較多通道數的網絡層可以更多地進行通道間交互。
空間注意力模塊是對通道注意力的一種補充。通過考慮元素級之間的內部特征關系,建立任意兩個位置間的相關關系。通過空間自注意力機制增強對特征的表征能力,幫助更好地定位目標。本文算法將輸入特征圖F經過一個單獨的1× 1 卷積并通過三個轉換函數執行張量轉換操作得到三個特征向量Q、K∈RC′×HW,V∈RC×HW,對向量Q轉置后與向量K進行矩陣乘法后再通過一個softmax 層,得到結果βi,j。計算如式(8)所示:

其中βi,j表示第i個位置區域與第j個位置區域之間的權重。將結果βi,j與向量V進行元素級乘法,再經過一層卷積核大小為7×7 卷積和Sigmoid 激活函數作用,得到帶有權重的特征向量Ω=(ω1,ω2,…,ωc),其中ωi∈R。
如式(9)所示,Ω同輸入特征F相乘并經過一個張量轉換操作,使之能同通道注意力模塊篩選的特征進行相加,得到最后與目標相似度高的輸出特征∈RC×h×w。

其中α是一個超參數。初始化為0.000 1,然后漸漸增大賦予更大的權重,能夠適應剛開始時的簡單任務,到后期面對更復雜的任務。
最后混合注意力的輸出是將經通道注意力模塊和空間注意力模塊篩選后的特征進行相加,得到表征能力更強的特征圖。本文算法采用相加的方式是因為任何一種估算都無法準確地同時獲取不同視頻中目標的共同特征和外觀,而相加操作能疊加局部和全局信息來實現這種估算可能性。

網絡通過對正負樣本進行訓練,構造損失函數,通過最小化損失值來最優化模型參數。本文使用logistic 函數來求損失值。正樣本表示為不超過中心一定距離范圍(一般這個范圍設置為20~30 個像素距離)的點,超過這個范圍即標記為負樣本。單個圖像像素點損失函數定義為:
l(y,v)=log(1+exp(-yv)) (11)
式中:y∈(+1,-1)表示樣本真實標簽值;v表示單個搜索圖像候選對的實際得分。網絡訓練時采用所有位置點的平均損失值來表示損失,如式(3)所示:

式中:D表示得分圖,u為每個搜索位置,v[u]表示每個位置的得分。

本文算法在原來的損失函數基礎上追加一個時間序列上的權重函數ω(i,j),其中μ是一個常數,讓網絡能夠選取到與目標幀相近的幀圖像而不是相距較遠的幀圖像。選取相鄰幀圖像對能夠有效避免過擬合,因為選取到的模板圖像中若包含有過多的背景信息,會導致loss值過小,陷入過擬合狀態。
網絡訓練時采用隨機梯度下降(Stochastic Gradient Descent,SGD)來最小化損失函數,如式(15)所示:

式中:θ為網絡參數;E 表示數學期望。算法具體訓練實現過程和測試過程如算法1、2 所示。
算法1 離線訓練。
輸入 模板圖像Z和對應目標真實邊界框,搜索圖像X和對應目標真實邊界框,隨機初始化網絡參數θ,設置超參數α=0.000 1。
輸出 打印loss值print(loss),刷新緩存sys.stdout.flush()。
預處理 使用crop_and_resize(Z,X)裁剪和調整圖像Z、X的大小。設置torch.device(“cuda:0”)GPU和cuda加速計算過程。定義主干網絡和互相關函數self.Net=(backbone,cross_correlation)。定義損失函數self.criterion=BalancedLoss()。定義優化器self.optimizer=optim.SGD(param,learning_rate,weight_decay,momentum)。
Whileepoch>0&輸入視頻序列不為空do
算法2 測試推理。
輸入 測試視頻序列;初始幀X和對應的目標真實邊界框;計算φ(Z)、φ(X);計算:self.channel_attention(features);計算:self.spatial_self_attention(features)。
輸出 Show_image()。
預處理 裁剪和調整圖像X大小crop_and_resize(X);設置torch.device(“cuda:0”)GPU 和cuda加速計算過程;設置3個不同的尺度圖像塊X1、X2、X3。
While 測試視頻序列不為空do


實驗環境及硬件設備如下:CPU 為Intel Core i5-9400F CPU 2.90 GHz,顯卡為NVIDIAGeForce RTX 2070Super,內存內32 GB DDR4 RAM,使用Python 3.8 和Pytorch1.6、CUDA10.2 和CuDNN7.6。
實驗在GOT10K 數據集[14]上離線訓練。GOT10K 數據集包含超過10 000 個真實移動物體視頻片段和超過150 萬個手動標記邊界框,涵蓋560 多個類別,驗證集和測試集各包含180 個視頻序列。實驗選取了其中前4 000 個視頻序列進行訓練。在OTB50[15]、OTB100[16]、VOT2018[17]和LaSOT 數據集[18]進行測試。OTB50 有50 個視頻序列,OTB100 有100 個視頻序列,VOT2018 包含60 多個具有挑戰性的視頻序列。模板圖像大小為127×127×3,搜索圖像大小為255×255×3,均為RGB 三通道圖。ResNet50 經過大量數據預訓練,網絡訓練時設置初始學習率為0.01,學習率由10-2按指數型衰減至10-5,批尺寸(batch_size)大小為8,訓練50 輪(epoch),采用SGD 優化器,動量值(Momentum)設置為0.9,L2 懲罰項(weight_decay)設置為5E-4。實驗使用3 個尺度比例([0.963 8,1,1.037 5])對搜索圖像進行縮放。超參數α初始為0.000 1,按照指數型增加至10-2。網絡訓練過程中loss變化如圖8 所示,驗證集下loss 變化如圖9 所示。

圖8 訓練過程中loss值隨迭代次數變化Fig.8 Loss value changes with iterations during training process

圖9 驗證集上loss值隨迭代次數變化Fig.9 Loss value varies with iterations on validation set
OTB 數據集評測工具通過跟蹤精率(Precision)和跟蹤成功率(Success)這兩個指標對跟蹤算法進行評價。VOT2018數據集使用準確率(Accuracy)、魯棒性(Robustness)和期望平均重疊率(Expected Averaged Overlap,EAO)三個指標來對算法進行評估。
3.2.1 在OTB 與LaSOT 數據集上的跟蹤結果分析
跟蹤精度的評估標準是中心位置誤差在T1(實驗設置為20)個像素以內的幀數占整個視頻序列幀數的百分比。跟蹤成功率指的是算法預測的目標框和真實目標框之間的交并比(Intersection-over-Union,IoU)大于閾值T2(實驗設置為0.5)的幀數占整個視頻序列幀數的百分比。計算公式如式(16)所示:

式中:Boxt、Boxg分別代表目標預測框所圍成的區域面積和目標真實框圍成的區域面積。
從圖10 可以看到本文算法在OTB50 數據集上的跟蹤成功率和跟蹤精度分別為58.38%和77.54%,相較于使用AlexNet 網絡模型的SiamFC 分別提升6 個百分點和8 個百分點,相較于基于通道性可靠的方法CSR-DCF(Discriminative Correlation Filter with Channel and Spatial Reliability)[19]提高5個百分點和3 個百分點。

圖10 OTB50數據集上算法評測結果Fig.10 Algorithm evaluation results on OTB50 dataset
從圖11 可以看到本文算法在OTB100 數據集上的跟蹤成功率和跟蹤精度分別為64.06%和81.25%,相較于基礎算法SiamFC 分別提升了5 個百分點和4 個百分點,比結合了相關濾波和SiamFC 的CFNet 算法分別高出5 個百分點和4 個百分點,比CSR-DCF 算法高出5 個百分點和1 個百分點。可以看到,本文算法在OTB100 數據集上的跟蹤成功率比同樣引入了ResNet50 網絡的SiamDW 提高1 個百分點。本文算法在對ResNet50 進行下采樣改進的同時融合了混合注意力機制,選擇對目標更具判別力的特征,因此能夠提高算法的穩健性。由于本文算法樣本不同尺度選取方法的原因,雖然跟蹤效果遜色于融合了多維度尺度信息的MDNet(Multi-Domain convolutional neural Network)算法[20],但實時性更高。因此尺度選取方法也成為本文算法將來的改進方向。

圖11 OTB100數據集上算法評測結果Fig.11 Algorithm evaluation results on OTB100 dataset
本文算法與其他10 種算法在已有的深度數據集上測試結果如表2 所示。本文算法在跟蹤精度和跟蹤成功率上都取得了不錯成績。對比SiamFC,本文算法跟蹤成功率和跟蹤精度分別高出11.9 個百分點和7.4 個百分點。

表2 LaSOT數據集上算法評測結果 單位:%Tab.2 Algorithm evaluation results on LaSOT dataset unit:%
3.2.2 在VOT 數據集上的跟蹤結果分析
通過計算每幀預測目標框同目標真實框之間的交并比(IoU),再對整個視頻序列求平均值,得到算法準確率。魯棒性用來評估算法穩健性,其數值越大,穩健性越差。
期望平均重疊率同準確率和魯棒性有關,首先定義視頻序列中幀長度Ns的平均幀覆蓋率:

式中Φi為預測目標框與真實目標框之間的準確率。EAO 計算如式(18)所示:

EAO 可作為對算法進行綜合性能評估的指標。
為了進一步驗證本文算法的有效性,在VOT2018 數據集對本文算法和上述幾種算法進行評估,結果如表3 所示。由表3 數據可以看出,本文算法同基準算法SiamFC 對比,在VOT2018 數據集上的準確率比SiamFC 提高了7 個百分點,期望平均重疊率提高了9 個百分點,比基于通道加權的算法CSR-DCF 分別高出12 個百分點和4 個百分點,同時本文算法魯棒性也得到了增強。通過使用融合空洞卷積的深層次特征提取網絡模型,能夠提取對目標更具判別力的特征,提高算法準確率。平均跟蹤速度為52.2 frame/s,滿足實時性。

表3 在VOT2018數據集上的評估結果Tab.3 Evaluation results on VOT2018 dataset
為了驗證本文算法有效性,從OTB 數據集選擇了具有挑戰性的序列對算法進行測試,同時對比CFNet、結合深度學習特征的相關濾波算法(DeepSRDCF)和基準孿生網絡算法SiamFC,以及基于通道加權可靠性算法CSR-DCF 等四種跟蹤算法。OTB 數據集中包含多個具有挑戰性的場景,如平面內旋轉(In-Plane Rotation,IPR)、平面外旋轉(Out-of-Plane Rotation,OPR)、尺度變換(Scale Variation,SV)、低分辨率(Low Resolution,LR)、部分遮擋或完全遮擋(OCClusion,OCC)、光照強度(Illumination Variation,IV)、發生形變(DEFormation,DEF)、快速運動(Fast Motion,FM)、背景干擾(Background Clutters,BC)等。在對比實驗中選取了Bolt、David3、Matrix、Singer2、Skating1、Walking2 六個視頻序列,這六個視頻序列包含多種挑戰,如表4 所示。

表4 各測試序列包含的挑戰屬性Tab.4 Challenge attributes included in each test sequence
圖12 展示了包含本文算法在內共5 種算法的跟蹤效果對比。

圖12 各算法跟蹤結果定性比較Fig.12 Qualitative comparison of tracking results of various algorithms
從實驗結果可以看出,在這些有挑戰性的序列中本文算法都實現了比較好的跟蹤效果。
1)平面內外旋轉(IPR、OPR):在Bolt、Matrix、Singer2 三個序列中都存在著平面內(外)旋轉挑戰。其中,在Bolt 序列中,CFNet 和SiamFC 算法在跟蹤過程中都出現了丟失目標的情況,并且不能夠再找回目標。本文算法和DeepSRDCF、CSR-DCF 算法能夠比較好應對目標平面內外旋轉。
2)部分遮擋或完全遮擋:在David3 序列中,目標人物經過樹旁時被遮擋,基礎算法SiamFC 對處理遮擋時不具有魯棒性,直接在第85 幀時丟失目標,而本文算法和其他三種算法都能較好應對目標任務被遮擋的場景。
3)光照強度發生變化:在Matrix 序列和Singer2 序列以及Skating1 序列中,存在著強烈的光照強度變化,在目標與背景顏色特征相同時,包含CSR-DCF 在內其他四種算法很容易就丟失目標,在第44 幀、第75 幀、第318 幀均沒有跟蹤到目標。只有本文算法能夠跟到目標,本文算法融合多層特征對目標特征更具判別力,因此能夠較好地跟蹤到目標,也證實了本文算法的有效性。
4)低分辨率:在Walking2 序列中,存在低分辨率、目標被遮擋、尺度變化等挑戰。可以看到在第219 幀和第241 幀中有相似背景出現時,CSR-DCF 算法和DeepSRDCF 算法會把背景當作目標,本文算法則能較好地跟蹤到目標。可見在低分辨率圖像下,本文算法也具有不錯的跟蹤效果。
為了驗證本文算法有效性,對算法的主要組成模塊進行消融實驗對比。本文算法在基準數據集OTB100 和VOT2018上進行對比實驗。
表5 展示了不同層次網絡塊組合經過混合注意力篩選后,進行特征融合對算法性能的影響。可以看到Block1+Block2 和Block1+Block3 網絡塊的組合效果較差,因為這些組合沒有得到目標的語義信息,僅有外觀和位置信息不能很好地識別目標。同樣,Block3+Block4、Block3+Block5 和Block4+Block5 由于特征中缺乏目標的外觀、位置等低層次信息,這使得定位目標變得很困難。對于Block1+Block4、Block1+Block5 組合而言,由于Block1 的原因,一是提取特征圖像分辨率過高,導致網絡計算參數增大;二是因主干網絡層數過少,提取到的特征對目標輪廓和位置的表達都較為模糊,不足以幫助精確定位目標。經過實驗數據對比,Block2+Block4 這種組合能使得跟蹤效果達到最好。

表5 不同網絡塊組合在OTB100數據集上的實驗結果對比 單位:%Tab.5 Experimental results comparison of different network block combination on OTB100 dataset unit:%
此外,本文算法為了驗證混合注意力機制的有效性,對通道注意力和空間自注意力兩部分單獨進行實驗。如圖13所示,其中,Base 是指使用分層融合的ResNet50,CA(Channel Attention)代表通道注意力模塊,SA(Spatial Attention)代表空間自注意力模塊,DeepSiamFC-Attn 對應表6中的Base+CA+SA 組合。以基準算法SiamFC 和基于通道加權的CSR-DCF 算法為對照,通過在OTB100 數據集上進行實驗,本文算法都優于基準算法。其中,添加通道注意力模塊和分層特征融合的方法在OTB100 數據集上的跟蹤成功率比基準算法SiamFC 提高4 個百分點,比CSR-DCF 提高4 個百分點。而使用空間自注意力和分層融合的方法在跟蹤成功率上比SiamFC 提高4 個百分點。

圖13 不同混合注意力機制在OTB100數據集上結果對比Fig.13 Result comparison of hybrid-attention mechanism on OTB100 dataset
如表6 所示,在VOT2018 數據集上,本文算法各部件在準確率(A)、魯棒性(R)和平均重疊率(EAO)上單獨作用的性能都比基準網絡有提升,并且隨著獨立部件的增加,跟蹤性能隨之增加。其中,在主干網絡分層融合的情況下增加空間自注意力模塊,在準確率和平均重疊率指標上相較于SiamFC 分別提升5 個百分點和7 個百分點。得益于注意力機制對目標特征的篩選,算法的魯棒性得到了明顯提升(58.8%→30.7%)。

表6 不同混合注意力機制在VOT2018數據集上的實驗結果對比Tab.6 Experimental results comparison of various hybrid attention mechanism on VOT2018 dataset
本文基于孿生網絡SiamFC 算法提出了一種改進的算法DeepSiamFC-Attn。該算法使用融合空洞卷積的深層次主干網絡ResNet50 對目標進行特征提取,同時融合多層特征和混合通道注意力機制做相似度計算,得對目標更具判別力的特征,提升了模型的判別能力,在處理目標遮擋、變形、旋轉時更具魯棒性。本文算法可以應用于視頻行人監控、車輛跟蹤、無人機跟蹤等方面,在處理尺度變化太大和目標跑出視野外的場景下還會出現目標框丟失或只能框住部分的情況,后續將考慮同圖像分割和目標檢測相結合,引入更復雜的模型,進一步提高算法的精度。