譚建豪 殷 旺 劉力銘 王耀南
(湖南大學電氣與信息工程學院 長沙 410082)
(機器人視覺感知與控制技術國家工程實驗室 長沙 410082)
目標跟蹤是計算機視覺領域最基本也是最有挑戰的熱點研究問題之一,基于視覺的運動目標跟蹤已經廣泛應用在監控系統、無人機視覺系統、軍事偵查、人機交互以及無人駕駛等領域[1]。
近年來,目標跟蹤主要分為兩類,基于相關濾波的方法和基于深度網絡方法。相關濾波方法如Henrique等人[2]提出的核相關濾波器(Kernelized Correlation Filter, KCF)算法、Danelljan等人[3]提出的空間正則化判別相關濾波器(S p a t i a l l y Regularized Discriminative Correlation Filters,SRDCF)算法,該類方法引入了核技巧,提高了跟蹤器效率,但相關濾波方法僅考慮相鄰幀間的相關特征信息,當目標出現漂移或遮擋時容易出現跟丟。隨著深度卷積神經網絡的發展,以孿生卷積網絡來提取深度特征,進行相似度衡量的方法具有較好的跟蹤性能。孿生全卷積(Siamese Fully-Convolutional, SiamFC)算法[4]采用兩個網絡分支,模板分支和目標分支,通過相關層計算相似性,在速度和精度上獲得較好的性能。基于相關濾波器的跟蹤(Correlation Filter based tracking, CFNet)算法[5]在目標分支中引入相關濾波層對文獻[4]進行改進,在線調整目標模型。動態孿生網絡(Dynamic Siamese network, DSiam)[6]通過設計在線動態調整模型,提高了性能。上述Siamese系列算法雖然取得了一定的跟蹤精度和速度,但仍存在一些問題。首先,大多數孿生網絡算法是基于AlexNet骨干網絡,其提取的特征都是淺層的外觀特征,缺乏深度特征,雙分支孿生神經網絡(twofold Siamese network, SA-Siam)算法[7]使用兩個Siamese網絡,一個用于提取語義信息的網絡,另一個用于構建外觀模型,將語義信息合并到響應圖中,彌補深度信息的不足,但它們都是直接從卷積神經網絡(Convolutional Neural Networks, CNN)中獲取的局部特征,并沒有獲取全局上下文特征。
針對以往骨干網絡難以提取深層特征,且外觀模型不具有全局上下文特征兩個問題,本文在Siamese網絡思想的基礎上重新進行網絡設計與搭建,提出一種引入全局上下文信息模塊的Dense-Net孿生網絡目標跟蹤算法。其創新有:(1)采用密集網絡DenseNet作為骨干網絡,提出一種全新端到端深度密集連體結構網絡,它在減少網絡參數的同時,將層與層之間的特征在channel上進行拼接從而達到特征重用,提高了泛化能力;(2)在網絡中加入全局上下文模塊(Global Context feature Module, GC-Model),通過全局池化、 1×1特征變化、特征融合等步驟將全局上下文信息進行聚合,用以提升該算法的跟蹤性能。
網絡的深度對于模型的性能是至關重要的,He等人[8]在實驗中發現,網絡層數增加到一定程度時,網絡準確度會出現飽和,甚至出現下降,并且不是過擬合所導致的問題,因此,殘差網絡由此產生,對于一個堆基層結構,當輸入為 x時其所學習到的特征記作H (x),我們期望真實地學習到殘差

因此,原始的學習特征為 F(x)+x,殘差學習相比原始特征學習容易,且實際殘差不會為0,這讓堆基層在輸入特征的基礎上能夠學習到新特征,從而具有更好的性能。
ResNet網絡是在VGG19網絡的基礎上進行修改,并引入殘差模塊,該網絡為后續密集型網絡DenseNet提供了理論與經驗基礎。

非局部神經網絡(Non Local neural Network,NLNet)[11]采用自注意力機制來建模像素對關系,但是其對于每一個位置學習不受限制依賴的注意力圖(attention map), 造成了很大的計算資源浪費。
NLNet旨在從其他位置聚集信息來增強當前位置的特征, x 和z 定義為該網絡結構的輸入與輸出,則NLNet可以表示為

NLNet[11]將每個查詢位置進行全局上下文聚合,提供了一種非局部特征捕獲的開創性方法,該類方法旨在提取視覺場景的全局理解,廣泛應用于識別、物體檢測、分割等領域。為了模擬全局上下文特征,SENet[12],GENet[13]對不同通道執行重新加權操作,以重新校準具有全局上下文的通道依賴性。
如圖2(b)所示為SENet網絡結構,其可以大致理解成3個過程:網絡中全局平均池化用于上下文建模,增強位置的特征;通道權值計算,即1×1卷積、RELU和Sigmoid等計算,使用特征轉換來獲取通道間的依賴;通道特征重標定。
GC-Model是結合了SENet計算量小以及NLNet全局上下文能力等優點提出了非局部操作網絡[14],其計算量相對較小,又能夠很好地融合全局信息,在目標檢測中取得了重要的提升。
GC-Model中非局部操作可分為3個過程[14]:(1)用于上下文建模的全局注意力集中機制,采用1×1卷積Wk和Softmax函數來得到自注意權重,然后進行注意力集中獲取全局背景特征;(2)特征轉換獲取通道依賴性;(3)特征融合,全局上下文模型的詳細結構如圖3所示,可表示為式(4)GC-Model是輕量級的模型,能夠獲取遠程非局部特征,且能靈活地插入各個視覺問題的網絡架構中,本文將GC-Model放入骨干DenseNet網絡架構中,用以提升網絡訓練的泛化性能。


圖1 DenseNet的網絡結構

圖2 兩種長距離依賴模型圖
近年來,SiamFC開啟了深度學習方法在目標跟蹤領域的大門,通過端到端網絡學習,使用相似度學習的方法來實現目標跟蹤。其網絡框架如圖4所示。
孿生網絡通過建立兩個分支進行訓練,兩分支所使用的骨干網絡完全一致,在SiamFC中,采用互相關函數 f(z,x)作 為相似度函數,計算經過φ 之后的特征提取后的特征圖相似性[15]


圖3 全局上下文GC-Model模塊
其中,*表示卷積, kI表示響應圖在每個位置的取值。
上述第2節,第3節詳細地介紹了骨干網絡架構和孿生網絡架構的基本信息。(1)DenseNet網絡是一種密集連接型網絡,在構建更深層網絡的同時減少了層之間的參數量,能夠增強算法的泛化性能,并且能夠解決訓練過程中的梯度消失問題;(2)GCNet綜合了SENet計算量小以及NLNet全局上下文能力等優點,其計算量相對較小,又能夠很好地融合全局信息,可融入任何骨干網絡當中用以提升性能;(3)孿生網絡的網絡架構方式已經在目標跟蹤上取得了較好的跟蹤性能,且實時性較好。據此以上述3個研究成果為出發點,整理思路,本文通過假設、組合、實驗驗證等一系列步驟,最終得出本文SDGCNet目標跟蹤網絡框架。其網絡框圖如圖5所示。
本文提出一種引入全局上下文信息模塊的Dense-Net孿生網絡目標跟蹤算法SiamDenseNet+GCModel,簡稱SD-GCNet,其核心思想是以密集型網絡DenseNet作為孿生網絡的骨干[16],在骨干網絡中引入GC-Model,搭建SD-GCNet網絡框架。
為了更加明顯地表示網絡結構,特以表1形式進行展示。
SD-GCNet網絡實際上是一種判別的二分類方法,在正負樣本對上采用極大似然估計進行訓練,本文采用Logistic損失函數,如式(6)


圖4 孿生網絡目標跟蹤框架圖

圖5 SD-GCNet算法框架

表1 網絡結構
對每一個像素位置o ,都有對應的標簽y。當位置 o 與圖像中心位置的距離在一個閾值內時,將其視為正樣本,否則視為負樣本。
本文算法實現與調試在ubuntu16.04操作系統下,計算機硬件配置為Intel Core i7-8700k 主頻3.7 GHz, GeForce RTX2080TI顯卡。
SD-GCNet算法在ILSVRC2015和GOT-10K數據集共6000個視頻序列上進行訓練,該數據集具有各種各樣的視頻目標對象,具備一定的普遍性。本文采用隨機梯度下降(Stochastic Gradient Descent,SGD)優化算法以動量參數為0.9訓練網絡,學習率從10?8~ 10?3在訓練過程中逐漸遞減,用高斯函數初始化參數,batchsize設置為16。通過5種尺寸1.0327{?2,?1,0,1,2}上的搜索對象來調整尺寸變化,輸入候選圖像尺寸為127×127,搜索圖像尺寸為255×255,使用線性插值來更新尺寸。
為驗證本文提出的SD-GCNet算法可靠性,特在VOT2017數據集上對算法進行定量評估,在OTB50數據集上對算法進行定性分析,從多個數據集多種角度驗證算法的有效性和優越性。
5.2.1 定量分析
如表2所示,為本文算法在VOT2017[17]數據集上與目前較為主流的6種目標跟蹤算法SiamFC,SiamVGG[18], DCFNet[19], SRDCF[3], DeepCSRDC,Staple[20]在精確度、魯棒性等指標上的性能對比,其中表中魯棒性用跟丟次數來衡量,SiamFC,SiamVGG, DCFNet為深度學習算法,SRDCF,DeepCSRDCF, Staple為相關濾波算法。
由表2可知,本文算法在目標跟蹤的精確度上均高于其余算法,與用VGG-16作為骨干網絡SiamVGG算法相比,在VOT2017數據集上,其精確度提升了1.9%,平均重疊期望提升了1.0%,與以AlexNet作為主干網絡的SiamFC算法相比,則性能提升更多,這更進一步驗證了本文DenseNet作為主干網絡的優越性。
為了進一步分析該算法的優缺點,本文提供了其在VOT2017數據集上的具體屬性對比,包括相機移動、目標丟失、光照變化、運動變化、目標遮擋、尺度變化共6種屬性。
表3和表4分別列出了上述6種屬性下算法的跟蹤精度和跟蹤魯棒性,其中,加粗數字表示排名第1,藍色數字表示排名第2,從表中可以看出,本文算法除光照變化外,其跟蹤精度均處于最優位置,在跟蹤魯棒性上,相機移動和尺度變化也處于領先位置,其余均排在前列。由此表明,本文算法具有較好的跟蹤精度,在較多復雜的條件下也能有較好的跟蹤魯棒性。
5.2.2 定性分析
圖6給出了本文算法與另外4種算法SiamFC,SRDCF, Staple, Struck[21]在OTB50[22]上的跟蹤結果,表5表示了測試序列的影響因素。
根據圖6的跟蹤結果和表5的影響因素對算法進行如下定性分析:
(1) 快速運動:以測試序列Bolt和Ironman為例,目標快速移動,目標外觀和背景都發生快速變化,對匹配性算法和更新模板類算法都會產生較大的影響。SRDCF和Struck算法在序列Bolt上第10幀就完全丟失了目標,并且基于模板更新,后續不能恢復跟蹤,在序列Ironman第38幀,SRDCF,Staple, Struck已經完全丟失目標,只有本文算法在兩種干擾因素下保持良好跟蹤。
(2) 背景干擾、雜波,光照變化:以測試序列carDark為例,在背景干擾嚴重,光照變化明顯的條件下,對于前景特征提取的準確性顯得尤為重要。在carDark序列第295幀,匹配類算法SiamFC已經出現目標丟失,這進一步說明DenseNet骨干網絡優于AlexNet在背景干擾上的特征提取能力。

表2 在VOT2017數據集上與主流算法的基礎模型結果對比
(3) 遮擋:以測試序列Jogging-2為例,在該序列第53幀時出現跟蹤目標完全被遮擋情況,當遮擋消失,Staple算法和Struck算法全部跟丟,本文算法,SiamFC, SRDCF能夠重新恢復跟蹤,本文算法和SiamFC采用第1幀目標匹配方法,能夠在目標消失遮擋時恢復跟蹤。
本文所提算法有上述優點,在快速運動、背景干擾、遮擋等方面具備一定的性能,但其涉及較深的深度網絡,在運行時對計算機性能要求頗高,如果將其運用在機器人或旋翼無人機等實際設備上,對小型機載計算機性能有要求,才能確保達到實時跟蹤狀態,且本文算法并沒有設定自適應目標跟蹤框,也沒有使用動態孿生網絡方法進行參數更新,后續可以考慮在這幾個方面進行進一步的研究,以便達到更好的跟蹤性能。
本文提出了一種引入全局上下文特征模塊的DenseNet孿生網絡目標跟蹤算法。使用較深層的密集型DenseNet網絡,獲取更深層的前景外觀特征和語義背景,增強了算法的泛化性能;將全局上下文特征模塊嵌入孿生網絡分支,提高算法跟蹤精度。在兩個流行的數據集VOT2017, OTB50上評估,實驗結果表明了該算法具備良好的跟蹤精度與魯棒性,在尺度變化、低分辨率、遮擋等情況下具有良好的跟蹤效果。

表3 不同屬性下算法的跟蹤精度對比

表4 不同屬性下算法的跟蹤魯棒性對比(數字表示失敗次數)

圖6 本文算法與4種算法的跟蹤結果對比

表5 OTB50中測試序列與其影響因素