鐘曉偉,王志勝,叢玉華
(南京航空航天大學自動化學院,江蘇 南京 211106)
隨著計算機視覺的快速發展,無人機視覺跟蹤技術已廣泛應用于安防偵察、災情檢測、人員搜救等領域[1]。然而,與一般的目標跟蹤任務相比,基于無人機的目標跟蹤任務更具挑戰性。由于無人機機載處理器資源受限,要求跟蹤算法具有低參數量和低運算復雜度[2]。此外,無人機跟蹤還涉及尺度變化、低分辨率、部分遮擋等極具挑戰性的任務場景,跟蹤算法需要具有良好的跟蹤性能才能保證跟蹤任務完成。因此,如何平衡視覺跟蹤算法的實時性和跟蹤性能,以使其適用于無人機跟蹤任務,是當前研究的熱點技術問題。
目前,目標跟蹤算法主要分為生成式跟蹤算法和判別式跟蹤算法[3]。生成式跟蹤算法,如均值漂移、粒子濾波等算法,通常忽略背景對目標的影響,因此無法滿足復雜場景的跟蹤需求。
主流的判別式跟蹤算法可以分為基于相關濾波和基于深度學習兩類。基于相關濾波的跟蹤算法,如MOSSE[4]、CSK[5]、KCF[6]等,基本思想是利用設計的濾波模板確定目標在當前幀的位置。此類算法雖然具有較低的計算復雜度,但只能利用簡單特征進行學習,準確率和魯棒性較差。
基于深度學習的跟蹤算法中,以孿生神經網絡為核心的算法具有強大的特征提取和學習能力,使其在目標跟蹤任務上有優越表現。其中,SiamFC(fully-convolutional siamese networks)算法[7]將跟蹤任務定義為相似性匹配任務,以較快的速度實現了目標跟蹤任務。SiamRPN[8]把孿生網絡和區域推薦網絡融合,將目標跟蹤問題抽象成為樣本檢測問題,提高了準確率和運算速度。SiamRPN++[9]選用復雜度高的神經網絡,進一步提高了跟蹤性能,但復雜的網絡導致算法實時性降低。TCTrack利用歷史幀的時空信息[9-10],提高了算法的跟蹤性能,但引入Transformer增加了模型的參數量。Stark[11]算法使用了臃腫的編碼器-解碼器架構,運算速度無法滿足目標跟蹤的實時性要求。
基于上述分析,文中提出了一種基于輕量化設計的孿生網絡目標跟蹤算法SiamLD(siamese network target tracking algorithm based on lightweight design)。該算法在特征提取的主干網絡中引入了MobileNetV3輕量級神經網絡并進行改進。同時,在特征提取網絡中采用了ECA(efficient channel attention)注意力機制[12],提高圖像的分類能力。接著,對高低層網絡的特征進行融合,使得最終的特征圖能夠增加對低層細節信息的關注,降低背景干擾、形變等問題的影響。同時,還采取了多分支交叉相關,增強了模板局部特征的作用。最后,在回歸分支中引入完全交并比以獲取更準確的目標預測框。
文中提出的跟蹤算法整體框架如圖1所示。該框架主要由輕量化特征提取網絡、特征融合模塊、多分支交叉相關、分類回歸分支和邊界框回歸分支組成。對于一個待跟蹤的視頻序列,文中算法SiamLD首先利用改進后的MobileNetV3網絡對3×127×127的目標模板和3×255×255的搜索圖像進行特征提取,然后通過特征融合模塊得到強化低層語義信息的特征圖。接著,經過深度相關和像素相關處理后,通過分類回歸分支和邊界框回歸分支得出被跟蹤目標在搜索圖像上的預測邊界框。

圖1 文中算法整體結構框架圖Fig.1 Overall framework diagram of the algorithm
為了在視覺跟蹤算法中兼顧準確性和實時性,文中引入了輕量化網絡MobileNetV3,并對其進行了改進。MobileNetV3使用深度可分離卷積取代傳統卷積進行特征提取。深度可分離卷積利用深度卷積使每個通道只被一個卷積核提取特征,并通過逐點卷積將深度卷積得到的特征圖進行組合。這種卷積方式將傳統卷積的特征提取和組合過程分開進行,使特征提取網絡可以用更少的參數和計算量來學習空間和通道特征,從而大幅度減小了模型大小和計算復雜度。原始的MobileNetV3網絡需要多次下采樣操作才能得到圖像特征圖,而過多的下采樣會導致輸出特征圖分辨率降低,容易在跟蹤過程中丟失部分信息,同時還會增加計算資源消耗。因此,文中對網絡結構進行了調整,減少了下采樣次數,去除了冗余部分網絡。改進后的主干網絡參數如表1所示。

表1 輕量化主干網絡參數Table 1 Lightweight backbone network parameters
MobileNetV3采用了SE(squeeze-and-excitation)注意力機制,在通道內對特征圖進行全局池化操作,通過全連接層和激活函數得到特征圖的權重,并與特征圖相乘,以提高圖像的分類能力。然而,SE注意力機制中包含兩個全連接層,會增加神經網絡的計算量,并且SE通道注意力中的降維操作會破壞通道之間的交流,導致產生的通道權重較差。因此,文中引入ECA注意力機制來代替MobileNetV3中的SE注意力機制,ECA注意力機制的示意圖如圖2所示。ECA注意力機制去除了全連接層,而直接在全局平均池化層后使用1×1卷積層。該模塊只需利用少量參數就可以達到良好的特征提取效果。

圖2 ECA注意力機制示意圖Fig.2 Schematic diagram of ECA attention mechanism
卷積神經網絡中不同特征層所包含的信息起到的作用不同。低層特征包含更多的細節信息,例如顏色、紋理等,但由于經過較少的卷積層,因此其語義性較低,同時也伴隨著更多的噪聲。相比之下,高層特征具有更強的語義特征,能夠降低背景干擾和形變等因素對跟蹤效果的影響,但通過多層神經網絡后,分辨率會降低,無法感知細節信息。在無人機航拍視角下,目標物體成像較小,目標分辨率較差,因此更需要關注低卷積層的特征信息。
為了進一步提高文中跟蹤算法的準確性和魯棒性,提出一種高低層特征融合模塊,其整體結構如圖3所示。該模塊主要由全局平均池化GAP(global average pooling)、點卷積層、ReLU激活函數和Sigmoid激活函數構成。

圖3 高低層特征融合模塊結構圖Fig.3 Structure diagram of the feature fusion module
對于給定的兩個特征X和Y進行特征融合,其中X表示包含更多細節信息的低層特征,Y表示具有更多語義信息的高層特征。首先這兩個特征經過全局平均池化提取全局特征注意力,然后經過點卷積和ReLU激活函數處理,得到特征圖M。接下來,通過點卷積和歸一化處理BN(batch normalization)進行調整,最后通過Sigmoid激活函數得到權重值Z。具體的計算公式為:
M=δ1(Conv(GAP(X+Y)))
(1)
Z=δ2(B(Conv(M)))
(2)
式中:GAP表示全局平均池化;Conv表示點卷積;δ1、δ2分別表示ReLU和Sigmoid激活函數;B表示歸一化處理。
文中目標模板X和搜索圖像Y通過權值共享的孿生神經網絡φ,分別得到對應的模板特征fX=φ(X)和搜索圖像特征fY=φ(Y)。通過對模板特征fX和搜索圖像特征fY進行互相關操作,可以得到模板與圖像在當前位置的相似程度。
SiamRPN++采用深度相關操作(depth-wise correlation)實現模板與圖像的互相關,逐通道互相進行內積運算,最終得到特征相似圖。盡管深度相關能夠注重整體特征的相似性,但是由于需要進行卷積,會增加模型參數和計算復雜度。
為了減少計算復雜度,文中提出了多分支交叉相關。在深度相關的基礎上,引入逐像素相關(pixel-wise correlation)。逐像素相關將模板特征分解成H×W個1×1特征,將這H×W個特征分別與搜索圖像特征相乘,得到通道數為S的相關圖。逐像素相關并將相關操作轉化為矩陣計算,提高了運算速度,同時使得相關特征圖具有更小的核尺寸和更多樣化的目標表達,更好地保留了目標的邊界信息和尺度信息。
文中設計了多分支交叉相關,既保留了深度相關的優點,又引入了逐像素相關的特點。同時,還將孿生網絡輸出的目標特征圖和搜索圖像特征圖進行交叉相關,具體的計算過程為:
(3)
(4)
式中:φ(X)、φ(Y)分別表示模板圖像特征和搜索圖像特征;Pixel表示逐像素相關;Depth表示深度相關;pcls和preg分別表示經過逐像素相關后得到的分類響應圖和回歸響應圖;dcls和dreg分別表示經過深度相關后得到的分類響應圖和回歸響應圖。
將不同相關分支得出的特征圖進行拼接,并經過3×3卷積,可得到最終的分類響應圖和回歸響應圖,其數學表達式為:
Zcls=Conv(pcls+dcls)
(5)
Zreg=Conv(preg+dreg)
(6)
式中:Conv表示點卷積;Zcls和Zreg分別表示最終的分類響應圖和回歸響應圖。
損失函數的設計會對孿生神經網絡的性能起到較大的影響,文中在分類分支采用二分類交叉熵損失函數進行訓練,其數學表達式為:

(7)
式中:Lcls表示分類損失;(i,j)表示響應圖上的位置;y(i,j)表示對應位置的標注值;p(i,j)表示該位置預測的概率。
在回歸分支中,目標框的預測準確度直接影響跟蹤器的性能優劣。完全交并比同時考慮到重疊面積、高寬比和中心點距離,可以在回歸分支得出更準確的目標框。因此,文中在設計回歸分支損失函數時考慮了完全交并比RCIOU,其數學表達式分別為[13]:
(8)
(9)
(10)
式中:Bgt和bgt表示真實框和真實框的中心位置坐標;B和b表示預測框與預測框的中心位置坐標;ρ表示真實框和預測框的中心距離;c表示相交的真實框和預測框的對角線距離;w,h和wgt,hgt分別表示預測框的寬與高和真實標注框的寬與高。
回歸分支損失函數Lreg可表示為:
(11)
式中:(i,j)表示響應圖上的具體位置;p(i,j)表示該位置預測的概率。
孿生網絡最終損失函數Lloss可表示為:
Lloss=λ1Lcls+λ2Lreg
(12)
式中:λ1和λ2分別表示對應損失函數的損失權重因子。
文中將目標模板大小設置為3×127×127,將搜索圖像大小設置為3×255×255。將批量大小設置為64,采用隨機梯度下降法SGD(stochastic gradient descent),并將初始學習率設置為0.005,最終衰減至0.000 5。網絡總共訓練50個epoch,每個epoch迭代次數為32 000。
2.2.1 數據集
文中選取GOT-10K[14],Lasot[15],ImageNet VID[16],COCO[17]四個數據集進行網絡訓練,并在無人機目標跟蹤數據集UAV123和DTB70上分別進行算法性能測試。UAV123大小約14 G,包含123個視頻序列[18],這些視頻序列涵蓋了室內、室外、天空、城市和農村等多種復雜場景,數據集中的運動目標包括人、車、動物等,且在不同的環境中以不同的速度和方向移動,所有視頻都是由無人機拍攝的,具有高動態范圍和高清晰度,同時包含了具有挑戰性的多種跟蹤場景,這使得UAV123數據集成為目標跟蹤算法評估的理想數據集之一。DTB70數據集包括短期和長期空中目標[19],包含70個視頻序列,總共大小約1.34 G。此數據集中的視頻序列是由攝像機實際拍攝的,具有真實性和可靠性,可以更好地反映實際應用場景中的目標跟蹤問題。上述兩個無人機基準數據集可以全面地評估文中算法在無人機視角下的跟蹤性能。
2.2.2 評估指標
文中利用準確率和成功率評估算法的跟蹤性能,利用幀率評估算法的實時性能。跟蹤算法的成功率Psuc是指預測邊界框和人工標注邊界框的重疊率大于某一閾值的幀數占總幀數的比例,其計算公式為:
(13)
式中:α代表閾值,通常設置為0.5。
重疊率RIoU是指預測邊界框與真實邊界框之間的交并,其計算公式為:
(14)
式中:B和Bgt分別表示預測框和真實標注框。
準確率是指預測邊界框的中心位置與人工標注邊界框的中心位置的距離δ小于某一閾值的幀數占總幀數的比例,計算公式為:
(15)
式中:β代表閾值,通常設置為20。
目標中心位置誤差δ的計算公式為:
(16)
式中:(xr,yr)和(xp,yp)分別表示預測邊界框的中心位置坐標和人工標注邊界框的中心位置坐標。
2.3.1 UAV123跟蹤基準實驗結果
在UAV123跟蹤基準上對文中提出的SiamLD算法進行跟蹤性能評估,并與11種跟蹤算法進行對比,用于對比的算法包括:KCF,DSST[20],SRDCF[21],UDT[22],SiamFC,ECO_HC[23],TADT[24],SiamDW[25],SiamRPN,SiamBAN[26],TcTrack。
在UAV123跟蹤基準上,文中算法與其他11種對比算法的成功率和準確率如圖4和圖5所示。從實驗結果可以看出,文中提出的SiamLD算法跟蹤成功率達到了0.612,跟蹤準確率達到了0.8,取得了具有競爭力的跟蹤性能。

圖4 不同算法在UAV123跟蹤基準的成功率圖Fig.4 Success rate chart of different algorithms on UAV123 tracking benchmark

圖5 不同算法在UAV123跟蹤基準的準確率圖Fig.5 Accuracy charts of different algorithms for tracking benchmarks in UAV123
在無人機空中目標跟蹤過程中,由于無人機飛行特性,目標尺寸變化、相機移動等跟蹤場景頻發,容易引發目標框選漂移或者丟失。為了應對這些挑戰性場景,測試文中算法在挑戰性場景的跟蹤性能和魯棒性,在UAV123跟蹤基準上選擇了縱橫比變化、相機移動、目標尺寸變化三種場景,對文中提出的跟蹤算法進行性能評估。
圖6展示了在三種挑戰性場景下,文中算法的跟蹤成功率和準確率。

圖6 文中算法在挑戰性場景下的跟蹤成功率和準確率圖Fig.6 Tracking success rate and accuracy chart of the algorithm in challenging scenarios in this article
由圖6可以看出,在縱橫比變化、相機移動、目標尺寸變化場景下,文中所提出跟蹤算法的成功率均為最優,準確率也均為優秀,說明了在具有挑戰性的無人機跟蹤場景下,文中算法依然能擁有良好的性能。
當無人機跟蹤場景出現縱橫比變化、相機移動、目標尺寸變化等情況時,搜索圖像中會包含干擾信息。為了應對這些干擾,文中算法改進了特征提取網絡的網絡結構,減少下采樣次數,使得分辨率得以提高。同時,引入了ECA機制,提高算法的圖像分類能力。文中算法引入了多分支交叉相關,通過深度相關和逐像素相關,使得相關特征圖在注重整體特征的相似性的同時,更好地保留了目標的邊界信息和尺度信息,提高了算法的抗干擾能力。
2.3.2 DTB70跟蹤基準實驗結果
DTB70數據集包含了70個劇烈運動的無人機視角下的視頻,穩定跟蹤目標是該數據集中的難點。將文中提出的算法在DTB70跟蹤基準中進行性能評估,并與11種跟蹤算法進行對比分析。用于對比的算法包括:KCF,DSST,SRDCF,UDT,TADT,SiamFC,ECO_HC,SiamAPN[27],SiamRPN,SiamAPN++[28],TcTrack。
表2展示了12種跟蹤算法在DTB70跟蹤基準上的跟蹤性能。提出算法在70個無人機劇烈運動的場景下取得了具有競爭力的跟蹤性能,跟蹤成功率和準確率分別達到了0.638和0.830。相較于參數量巨大的次優算法TcTrack,文中算法在跟蹤成功率和準確率上提升了2.6%和2.1%,充分說明了文中算法能夠適用于運動變化較大的無人機平臺。

表2 不同算法在DTB70跟蹤基準上的實驗結果Table 2 Experimental results of different algorithms on the DTB70 tracking benchmark
文中算法提出了高低層特征融合模塊,特征提取能夠關注到低層神經網絡中包含的顏色、紋理等細節信息,使得文中算法可以適應在目標分辨率低無人機視角下的跟蹤。由于文中算法在損失函數中引入了完全交并比,可以在回歸分支得出更準確的目標框,提高了目標跟蹤算法的精確度和魯棒性。
2.3.3 算法實時性分析
考慮到無人機機載嵌入式平臺計算資源有限,文中算法采用了輕量化的特征提取主干網絡,并在高低層特征融合和特征互相關中均考慮到輕量化設計。因此,文中所設計的跟蹤器框架具有較低的參數量和運算量。表3展示了文中算法與其他算法在參數量和運算量上的對比結果。對比結果表明,文中算法的輕量化設計,能夠讓算法的運算量和參數量大幅降低。

表3 不同算法參數量和運算量對比Table 3 Comparison of parameter quantity and operation quantity of different algorithms
為充分評估文中設計的目標跟蹤算法的實時性能,在PC端和無人機機載嵌入式平臺上進行了算法實時性測試實驗。文中算法與其他算法在PC端和嵌入式NUC機載電腦上的幀率對比如表4所示。通過輕量化設計,文中算法在PC端運行速率達到155 幀/s,在無人機嵌入式平臺上運行速率達到41 幀/s,遠高于其他算法,能夠滿足實時性要求。

表4 不同算法實時運行速度對比Table 4 Comparison of real time running speeds of different algorithms
此外,在運行過程中,文中算法僅占用機載電腦內存容量的4.7%,節約了有限的計算資源,有利于接入其他運算需求,充分說明了文中算法輕量化設計的有效性和部署至無人機平臺的可行性。
為了直觀地展示實驗中各不同跟蹤算法的跟蹤效果,從UAV123中挑選了4組視頻序列,并與ECO_HC,SiamFC,SRDCF,SiamBAN和TADT 5種跟蹤算法進行了對比,對比效果圖如圖7~圖10所示。不同的算法用不同顏色的預測框表示,其中綠色框代表真實標注(ground-truth)。預測邊界框與真實標注邊界框重疊的面積越大,說明此算法的跟蹤性能更優。

圖7 UAV123視頻序列不同算法跟蹤船9目標結果對比圖Fig.7 Comparison of tracking boat 9 results of different algorithms for UAV123 video sequences
在圖7 boat 9視頻序列中,被跟蹤目標表現出快速運動和分辨率較低的特點。各算法在序列號(SN)第102幀時還能夠準確跟蹤目標,但隨著被跟蹤目標分辨率的持續降低,到第896幀時,SiamBAN算法已經出現丟失目標的情況。從第1 390幀可以看出,被跟蹤目標經過多次尺度變化后,只有文中提出的算法與綠色標注框重合面積最大,跟蹤效果最佳。
在圖8 car 6_2視頻序列中,出現了相機視野、視角變化兩種挑戰性的跟蹤場景。在第799幀目標超出相機視野時,SRDCF算法已經丟失了目標,在第961幀目標重新出現在視野中時,文中算法相較于其他算法,與綠色人工標注框重合率最大,效果更優。

圖8 UAV123視頻序列不同算法跟蹤轎車6_2目標結果對比圖Fig.8 Comparison of tracking car 6_2 results of different algorithms for UAV123 video sequences
在圖9 group3_1視頻序列中,被跟蹤目標出現相似目標干擾、部分遮擋的特點。在第903幀目標出現部分遮擋時,TADT和SRDCF算法無法繼續跟蹤目標,而文中算法依然可以準確跟蹤部分被遮擋的目標,體現了文中算法的抗干擾性能。

圖9 UAV123視頻序列不同算法跟蹤group 3_1目標結果對比圖Fig.9 Comparison of tracking group 3_1 results of different algorithms for UAV123 video sequences
在圖10 truck1視頻序列中,被跟蹤目標出現了尺寸變化和多個相似目標干擾的特點。在第154幀出現多個相似目標干擾時,只有文中算法和SiamBAN能夠準確跟蹤目標,但文中算法與綠色標注框重合率高于SiamBAN,說明文中算法跟蹤性能優于其他對比算法。

圖10 UAV123視頻序列不同算法跟蹤卡車1目標結果對比圖Fig.10 Comparison of tracking truck 1 results of different algorithms for UAV123 video sequences
綜上所述,文中提出的SiamLD算法在較為復雜的無人機跟蹤場景下具有更好的跟蹤效果和抗干擾性能,可以為無人機任務中的目標跟蹤應用提供可靠的支持。
針對無人機平臺下目標跟蹤算法難以平衡跟蹤性能和實時性的問題,文中提出了一種基于輕量化設計的孿生網絡目標跟蹤算法SiamLD,并在UAV123和DTB70無人機跟蹤基準上完成了算法整體性能評估。實驗結果表明,文中提出的SiamLD算法在DTB70跟蹤基準上跟蹤成功率和準確率分別達到了0.638和0.830,并且在嵌入式NUC機載電腦中運行速率達到41 幀/s,實現了跟蹤性能和實時性的平衡。下一步工作將時空上下文信息引入跟蹤算法,進一步提高算法跟蹤性能。