基于注意力機制和不對稱卷積的目標跟蹤算法

2023-11-03 11:33:24李錦瑞

計算機工程與設計 2023年10期

李錦瑞，張軼

(四川大學視覺合成圖形圖像技術國防重點學科實驗室，四川成都 610065)

0 引言

目前目標跟蹤[1，2]主要使用基于深度學習方法，其中基于孿生網絡的跟蹤方法成為了主流算法之一。一般基于孿生網絡的跟蹤算法會先在兩分支上分別輸入大小不同的模板圖像和搜索圖像，再分別通過同樣的網絡得到特征圖，然后進行互相關得到響應圖。目標位置即為響應圖中的分數最高位置，將該位置經過上采用還原后即為目標所在區域。孿生區域候選網絡(siamese region proposal network，SiamRPN)[3]融合了區域候選網絡，每個位置都有k個不同錨點，然后對這些錨點做分類和回歸來預測目標。SiamRPN++[4]算法以SiamRPN為基準進行改進，采用一種均勻分布的采樣方式，消除位置偏見。成功應用更深的網絡作為主干網絡提取特征，還使用深度互相關(depthwise cross correlation，DW-XCorr)操作來融合特征。SiamFC++[5]、SiamCAR[6]、SiamBAN[7]等算法引入無錨框思想，不需要預先定義錨框，自適應目標外形，提高對目標外形變化的魯棒性。

大多數基于孿生網絡的跟蹤算法在融合特征時都是使用深度互相關(DW-XCorr)，但DW-XCorr存在一些問題[8]：對干擾物區分能力較弱，容易將干擾物識別為目標；激活的通道少，會抑制不同的相關特征通道，被抑制的通道不能幫助網絡得到準確的結果；會在背景上進行響應，對目標邊界的分辨能力較弱。Han等[8]提出了一種不對稱卷積，可以從大量的離線數據中可學習地融合特征。

在以往的大多數基于孿生網絡的目標跟蹤算法中，模板特征在整個跟蹤過程中都不會進行更新，并且兩分支的特征在計算過程中是相互獨立的，以至于無法利用一些有效的背景信息。

針對上述問題以及受到以上工作的啟發，本文提出了一種基于注意力機制和不對稱卷積的孿生網絡跟蹤算法。主要工作可以概括為：

(1)本文中提出了一種跟蹤方法，以增強注意力網絡(enhance attention networks，EAN)為核心，以此來提升孿生網絡跟蹤器的特征學習能力。EAN包括自注意力機制和互注意力機制。自注意力機制利用空間注意力學習全局信息，更好地區分目標和背景，利用通道注意力選擇性增強判別能力強的特征；而互注意力機制能夠有效融合兩分支圖像的語義信息，這樣就可以自適應地隱式更新模板特征。

(2)本文采用了不對稱卷積模塊(asymmetric convolution model，ACM)來融合模板特征和搜索特征。這樣可以從大量離線數據中學習如何融合兩分支特征，引入一個可學習的參數。

(3)在3個常用的測試數據集上，將本文算法與多種主流的跟蹤算法相比較，本文的跟蹤方法性能優于現有的方法。

1 相關工作

單目標跟蹤領域是近幾十年來的熱門研究課題之一，其中的基于深度學習的跟蹤算法是近年來最熱門的方向。這里簡要介紹本文相關的基于孿生網絡的跟蹤器與注意力機制。

1.1 基于孿生網絡的目標跟蹤算法

在基于深度學習的跟蹤器中，使用孿生網絡的跟蹤方向是近年來最熱門的方向之一。SiamRPN[5]借鑒了區域候選網絡，使用錨點機制預測目標。SiamRPN++[4]改進了SiamRPN，它解決了更深的網絡在視覺跟蹤中會有更糟的表現的問題。SiamBAN[7]提出了一種無錨策略直接預測邊界框，還提出了一種使用兩個橢圓來標記正負樣本的新方法。

1.2 注意力機制

近年來，注意力機制被廣泛的應用于各種任務中。SENet[9]算法通過注意力來建模通道之間的關系，增強網絡的適應性。RASNet[10]算法在基于孿生網絡的跟蹤器引用注意力機制，但是只是利用了模板信息，這可能會限制其表達能力。因為大多數算法在整個跟蹤過程中只使用了第一幀作為模板，并且不會更新，所以在復雜背景下會受到干擾物的影響，缺乏適應性。鑒于此，我們設計了一個使用注意力機制自適應地融合歷史信息和層次信息的策略。

2 基于注意力機制和不對稱卷積的孿生網絡跟蹤算法

我們提出的總體跟蹤框架如圖1所示。它包含一個孿生網絡通用結構和兩個核心模塊：不對稱卷積模塊(ACM)和增強注意力網絡(EAN)模塊。孿生網絡通用結構和我們的算法框架將在2.1節中描述，EAN模塊將在2.2節中描述，ACM將在2.3節中描述。

圖1 基于注意力機制和不對稱卷積的跟蹤網絡框架

2.1 跟蹤器的孿生網絡結構

孿生網絡將視覺跟蹤任務描述為一個模板分支和搜索分支之間的相似性學習問題。兩個分支通過同樣的主干網絡且共享參數，模板分支將人工選擇的區域作為輸入(用z表示)，搜索分支將搜索區域作為輸入(用x表示)。然后計算響應圖f(z，x) 來度量它們之間的相關性，計算過程為

f(x)=φ(z)*φ(x)+b

(1)

這里的φ表示特征提取器，用來提取z和x的深度特征，b是偏移量。我們以SiamBAN[7]為基礎提取特征，之后使用增強注意力網絡(EAN)模塊來對提取出的特征進行增強，以此提高目標和搜索圖像中目標和背景的區分性。并且在進行特征互相關時，使用我們引用的不對稱卷積模塊，然后再聚集多層特征。最后使用無錨點機制的Head來分類與回歸，如圖2所示。

圖2 無錨點的Head

分類和回歸的響應圖表達式為

(2)

(3)

其中，f(z，x；θac)cls是分類分支的響應圖，f(z，x；θac)reg是回歸分支的響應圖，αi和βi是主干網絡中不同層的權重，會隨著網絡一起進行優化。用相同的主干網絡φ對z和x提取特征之后，我們使用EAN模塊來增強提取的特征，以此來隱式的更新模板，并獲得能更好的描述目標的特征。算法使用不對稱卷積模塊ACM來代替深度互相關，θac代表額外的卷積參數，可以從訓練中進行優化學習，找到更好的融合兩個分支特征的方法。

2.2 增強注意力網絡

增強注意力網絡模塊如圖3所示，使用主干網絡提取的一對卷積特征作為輸入，然后通過孿生注意力機制進行特征增強并輸出增強特征且尺度不變。EAN模塊由自注意力模塊和互注意力模塊所構成。我們記模板圖像提取的特征圖為Z，搜索圖像提取的特征圖為X，特征圖形狀為C×h×w和C×H×W。

圖3 增強注意力網絡(EAN)模塊

自注意力：算法中的自注意力模塊由通道自注意力和空間自注意力構成。在深度卷積特征圖中，每個通道圖通常都響應著某種特定的類別，目標和大多數通道的響應類別都不一樣，所以平等對待所有通道響應反而會損害特征的表達能力。通道注意力首先計算出通道的注意力特征圖，再利用其自適應地對每個通道的響應進行加權，以此抑制不相關的通道響應。此外，受到感受野的限制，特征中的每一個空間位置只反映一小塊的局部信息，因此從整張圖像中學習到全局的上下文信息對于特征表達也是關鍵。空間注意力則利用計算出的空間注意力特征圖獲得圖像的全局上下文信息，使網絡更加關注與目標相關的關鍵區域，更好區分目標與背景。

在目標分支和搜索分支分別計算通道自注意力和空間自注意力。以搜索分支的空間自注意力為例。假設輸入特征為X(C，H，W)，對X使用1×1卷積，再使用reshape操作得到特征Q(C1，N)，為了減少計算量，將特征降維為C1=C/8，N=H×W。再使用同樣的方式得到特征K(C1，N)。則通過矩陣相乘和按列的softmax操作得到空間自注意力特征圖為A(N，N)=softmaxcol(QTK)。對輸入特征X使用1×1卷積和reshape操作得到特征V(C，N)，再對X直接使用reshape操作得到特征X1(C，N)，則使用空間自注意力機制融合后的特征如式(4)所示

XS(C，N)=αVA+X1

(4)

其中，α為參數，再通過reshape操作即可輸出原始尺度(C，H，W)大小的融合特征圖。使用類似的方式可以得到融合通道自注意力的特征圖，但在計算通道注意力中使用的Q、K、V等，不適用1×1卷積，直接使用原始的特征進行reshape操作。

互注意力：在特征提取過程中，一個分支的特征信息對另一個分支很重要。在目標跟蹤過程中，同時存在多個物體或者遮擋是很常見的。針對搜索分支，這時能夠學習到目標的特征信息至關重要，這可以讓搜索分支輸出更能準確表達目標的特征，從而更準確跟蹤目標。針對模板分支，將搜索圖像的上下文信息進行編碼，可以使模板分支的特征信息更有表達性，并且這也是使用搜索圖像的上下文信息來隱式更新模板的策略。因此，我們使用了互注意力模塊作為兩個分支信息傳遞的橋梁，讓兩個孿生分支可以相互學習對方的信息，以此增強特征。互注意力模塊首先計算出每個分支的注意力特征圖，再將注意力特征圖信息傳送給另一分支，另一分支根據捕獲的注意力特征圖來與自己的特征圖做計算，以此來增強自己的特征，得到更有效的特征表達。

XC(C，N)=βACX1+X1

(5)

其中，β為參數，再使用reshape操作輸出原始尺寸(C，H，W)大小的特征圖。

每個分支計算出自注意力和互注意力特征之后，將特征圖進行相加操作，生成該分支的注意力特征，最后通過一個3*3的卷積層輸出增強后的注意力特征。

2.3 不對稱卷積

深度互相關(DW-XCorr)是無參數的方法，不能從大規模的離線數據訓練中學習如何融合特征。我們采用不對稱卷積模塊(ACM)來解決。

傳統的DW-XCorr融合如圖4(a)所示，融合方式如式(6)所示

圖4 DW-XCorr(a)、簡單融合策略(b)和ACM(c)的比較

f(zF，xF)=zF?xF

(6)

其中，zF，xF模板分支和搜索分支參與互相關的特征。?表示互相關。

因為跟蹤中模板特征和搜索特征的尺度不相同，為了引入可學習的參數，最簡單的策略是先將搜索特征按照滑動窗口的方式拆分為n個子窗口，其中每個子窗口與模板特征的尺度相同，然后將這n個不同子窗口分別和模板特征按通道軸拼接串聯，最后進行卷積操作輸出n個新的子特征vi，如圖4(b)所示。但是這樣就需要對每個子窗口重復卷積操作，計算量非常大。我們引用了不對稱卷積模塊(ACM)來解決這個問題。ACM使用了兩個獨立的卷積等價代替了圖4(b)中的過程，如圖4(c)所示。如式(7)所示

(7)

(8)

f(zF，xF，θac)=ReLU(θz*zF+bθx*xF)

(9)

這樣就得到了帶有參數的融合方法，比DW-XCorr更能有效學習如何在大規模的離線訓練中融合特征，緩解使用DW-XCoor帶來的問題。

2.4 離線訓練

實驗使用大規模的數據集來端到端的離線訓練跟蹤器。使用的訓練集包括ImageNet VID[11]、ImageNet DET[11]、GOT10K[12]、LaSOT[13]、YouTube-BoundingBoxes[14]、COCO[15]等。先預訓練特征提取主干網絡，然后在前10輪訓練中，主干網絡的網絡參數被固定，只訓練特征提取之后的模塊。從第11輪開始將主干網絡的后三層與整個網絡一同進行訓練，整個網絡總共訓練20輪。其中模板圖像大小為127×127像素，搜索圖像大小為255×255像素。

2.5 在線跟蹤

在線跟蹤時，整個跟蹤網絡算法的流程如下。

(1)首先從第一幀中給定的位置裁剪一個大小為127×127像素的模板圖像，并使用特征提取網絡來提取特征。提取出來的特征將被緩存下來，后續不必再使用主干網絡進行提取，只需使用搜索圖像的特征來更新。對于后續幀，根據前一幀的預測位置來裁剪一個大小為255×255像素作為搜索圖像，然后送入主干網絡進行特征提取。

(2)使用主干網絡可以提取到兩分支的多層特征，將兩分支的多層特征送入EAN模塊進行特征增強，輸出增強之后的多層特征，特征尺度不變。

(3)將兩分支的多層特征使用不對稱卷積進行融合，得到不同分辨率特征融合后的多層融合特征，并分別送入分類網絡與回歸網絡。

(4)將多層融合特征輸入到分類網絡和回歸網絡，再將網絡輸出的多個分類結果圖和回歸結果圖進行加權融合。在分類網絡得到的分類結果找到目標響應最大值的位置(i，j)，然后找到位置(i，j)在回歸網絡中對應的四元組，以此得到跟蹤目標中心位置和尺度。

3 實驗與結果分析

3.1 實驗細節

訓練采用隨機梯度下降(SDG)優化器，批大小為28。總共訓練20輪，其中在前5輪使用網絡預熱，學習率從0.001逐漸變為0.005。在后15輪中學習率從0.005呈指數衰減至0.000 05。在后10輪中，微調主干網絡的學習率為當前學習率的1/10。本實驗借助PyTorch框架，使用Python語言對程序進行編寫，并訓練與測試。硬件環境：CPU型號是Intel(R)i7-9700K，內存大小64 G，GPU型號兩張Nvidia GeForce RTX 2080Ti顯卡。

3.2 OTB100[2]數據集及實驗結果

OTB100是一個具有100個視頻序列的短期視頻跟蹤數據集，它歸納了11種視覺跟蹤的各種難點，包括最常見的運動模糊、快速移動、外形變化、光照變化、遮擋、旋轉和復雜相似背景等等，且每個視頻序列至少具有兩種屬性。OTB100數據集有兩個評估指標：成功率和精度。成功率代表預測框與真實目標框重疊率大于所設置的閾值的幀數比上視頻總幀數，精度代表預測框中心位置與真實目標框中心位置的差值小于所設置的閾值的幀數比上視頻總幀數。本實驗在OTB100數據集上選取了多個主流跟蹤器與本文算法進行比較，包括ECO[16]、Ocean[17]、DaSiamRPN[18]、SiamFC++[5]、ATOM[19]、DiMP[20]、SiamRPN++[4]、SiamBAN[7]。精度和成功率的實驗結果如圖5和圖6所示。

圖5 OTB100精度曲線

圖6 OTB100成功率曲線

從圖5和圖6中得知，我們所提出的算法在成功率和精度上都比目前的主流跟蹤器更好，有較大提升。精度得分為92.3%，成功率得分為70.5%，在比較的跟蹤器中排名第一。相較于基準算法SiamBAN，成功率提升了0.9%，精度提升了1.3%。與在線訓練的跟蹤器DiMP相比，成功率提升了1.7%，精度提升了2.3%。這些都驗證了我們所提算法的有效性。

3.3 LaSOT[13]數據集及實驗結果

LaSOT是一個大規模且廣泛使用的單目標跟蹤視頻序列，由1400個視頻序列所構成，平均每個視頻序列超過2500幀，所以LaSOT更加關注跟蹤算法的長期跟蹤性能。它具有尺度變化、背景雜斑、快速運動等難點，這就要求模板特征能夠感知目標的變化。LaSOT評估跟蹤器性能的方法與OTB100類似，也是使用成功率與精度。實驗中使用了LaSOT中包含280個視頻序列的測試集來評估我們的跟蹤器，并與C-RPN[21]、UpdateNet[22]、SiamDW[23]、Ocean[17]、ATOM[19]、SiamRPN++[4]、SiamBAN[7]等進行比較。

精度和成功率如圖7和圖8所示，我們的跟蹤器在LaSOT上取得了先進的性能，比一些主流跟蹤器更能準確的預測目標。精度得分為53.8%，成功率得分為52.9%，都排名第一。相較于基準算法SiamBAN，成功率提升了1.5%，精度提升了1.7%。LaSOT的跟蹤結果反映了目前基于孿生網絡的跟蹤器在目標信息更新中的缺陷，這使得在長期跟蹤中的魯棒性降低。

圖7 LaSOT精度曲線

圖8 LaSOT成功率曲線

3.4 VOT2019[24]數據集及實驗結果

VOT2019(visual object tracking challenge 2019)包括了60種具有不同挑戰性的視頻。跟蹤器的性能由兩個評價指標確定：精度和魯棒性。并由此結合形成一個新的綜合性指標EAO(expected average overlap rate)。在VOT2019數據集中，與9個跟蹤器(SA_SIAM_R[24]、SiamCRF_RT[24]、SPM[25]、SiamRPN++[4]、SiamMask[26]、ARTCS[24]、SiamDW_ST[23]、DCFST_ST[23]、SiamBAN[7])進行了比較，結果見表1，我們的跟蹤器在多個算法中排名第一。相比于基于孿生網絡的跟蹤器SiamRPN++和SiamMask，我們的EAO分別提升了21.7%和20.9%。相比于基準算法SiamBAN，我們的EAO提升了6.1%，同時魯棒性的降低意味著我們更少丟失目標。

表1 不同算法在VOT2019上的比較結果

4 結束語

本文提出了以增強注意力網絡為核心的一個全新的跟蹤方法，可以加強特征表達并使得分支間的信息能夠傳遞更新，并且在跟蹤器中融合了新穎的不對稱卷積模塊來融合兩分支特征，更好地可學習地進行訓練，增強跟蹤器的判別能力。

通過實驗驗證了我們的跟蹤器有更好的性能。在OTB100[2]、LaSOT[13]、VOT2019[24]這3個主流數據集上進行對比實驗，我們的跟蹤器在精度、成功率、EAO等方面均超過了目前的多個先進跟蹤器，都有著較大提升。這些結果表明，我們的跟蹤器在面臨形變、快速運動、尺度變化等不利條件下表現更出色。