陳茂林, 侯志強, 余旺盛, 馬素剛, 蒲 磊
(1.西安郵電大學計算機學院,西安,710121;2.西安郵電大學陜西省網絡數(shù)據(jù)分析與智能處理重點實驗室,西安,710121;3.空軍工程大學信息與導航學院,西安,710077;4.火箭軍工程大學作戰(zhàn)保障學院,西安,710025)
目標跟蹤是計算機視覺領域中最重要的研究方向之一[1],是指在視頻初始幀中給出目標,在后續(xù)幀中對目標進行狀態(tài)估計和精準定位的過程[3],在安防、監(jiān)控和巡檢等領域有著廣泛的應用[4-5]。
目前,要實現(xiàn)魯棒的目標跟蹤器依然面臨著諸多困難,主要包括相似背景、尺度變化和目標遮擋等[6]。Wang等[7]通過實驗表明:良好的特征表達是實現(xiàn)魯棒的目標跟蹤系統(tǒng)的關鍵因素之一。眾多學者也先后設計了灰度、顏色和方向梯度直方圖等手工特征,在簡單場景中具有良好的性能表現(xiàn),但是在復雜場景中性能不佳。近年來,卷積神經網絡(convolutional neural networks, CNN)[8]在計算機視覺領域中得到了廣泛應用,并在圖像分類、目標檢測和圖像分割等任務中獲得大幅度的性能提升。Bertinetto等[9]提出全卷積的孿生網絡目標跟蹤算法SiamFC,將目標跟蹤問題轉化為相似性匹配問題,取得了良好的跟蹤性能。Li等人[10]提出SiamRPN算法,將孿生網絡與區(qū)域建議網絡結合,實現(xiàn)了靈活應對目標尺度的變化。Zhu等[11]提出DaSiamRPN算法,通過引入干擾感知模塊,增加訓練時的負樣本,使模型有效地捕捉更多上下文信息以適應目標外觀變化。
但是,孿生網絡對同類目標中特定目標的特征表達能力不足,不能很好地將特定目標從同類目標中區(qū)分出來,同時,由于基于孿生網絡的目標跟蹤算法大多數(shù)都只使用了一階圖像信息表示,這嚴重限制了孿生網絡的非線性建模能力,因此需要學習高階統(tǒng)計信息表示來增強非線性建模能力[12]。高階統(tǒng)計信息能夠很好地描述同類目標中特定目標的信息,并在圖像分類和細粒度圖像分類等任務中得到應用。
本文針對基于孿生網絡目標跟蹤算法對相似目標表達能力不足的問題,提出一種輕量級的基于二階池化特征融合的孿生網絡目標跟蹤算法。
本文算法框架見圖1。該算法使用了結構相同并且權值共享的孿生網絡結構,其主干網絡是AlextNet,該算法將視頻序列的第1幀作為模板幀,后續(xù)幀作為搜索幀[13]。首先,使用孿生網絡結構獲取模板幀目標的特征和搜索幀中候選樣本的深度特征;然后,在孿生網絡結構末端并行添加二階池化網絡和輕量級通道注意力,獲取目標的二階池化特征和通道注意力特征,其中二階池化特征是對深度特征的細化和增強,可以提高對相似目標的判別能力;通道注意力特征更關注目標的語義信息,最后,將目標的深度特征、二階池化特征和通道注意力特征以Add方式進行融合,使用融合后的特征進行互相關操作,得到的響應圖能很好地區(qū)分目標和背景,提高模型的判別能力,改善目標定位的精度,從而提升跟蹤性能。

圖1 算法框架圖
SiamFC[9]分為離線訓練和在線評估兩個階段。
1)離線訓練階段:首先,對訓練集中的視頻幀進行裁剪縮放,得到以目標為中心,大小為127×127的模板圖像z和255×255的搜索圖像x;然后,使用AlexNet端到端的訓練相似度匹配函數(shù)f(z,x):
f(z,x)=φ(z)*φ(x)+b1
(1)
式中:φ表示卷積嵌入函數(shù);*表示卷積互相關操作;b1表示得分圖中各個位置的不同偏置項。
Gao等人[14]指出二階池化網絡能夠顯著增強卷積神經網絡模型的非線性擬合能力,受此工作啟發(fā),本文將二階池化網絡應用到SiamFC算法中,所使用的二階池化網絡如圖2所示,包括擠壓模塊(squeeze module)和激勵模塊(excitation module)。

圖2 SoP模型
擠壓模塊的目的是在通道維度上對輸入張量的信息進行二階統(tǒng)計建模,獲取具有通道相關性的協(xié)方差矩陣。假設特征提取網絡最后一層的輸出張量X″∈Rw×h×d,其中d代表特征通道數(shù),w和h為特征圖的寬和高。為了降低后續(xù)計算開銷,采用卷積進行降維處理,得到張量X′∈Rw×h×d′,并進行二階池化操作,其過程如圖3所示。

圖3 二階池化操作
首先將X′進行兩次Reshape操作,得到X∈Rd′×(w×h)和XT∈R(w×h)×d′的特征矩陣,然后計算特征圖X′的協(xié)方差矩陣:
(2)

P=UΛUT
(3)
式中:Λ=diag(λ1,λ2,…,λn)為對角矩陣;λi為特征值;U=[u1,u2,…,un],為對應的特征向量。通過上述的特征值分解可以將對矩陣的冪運算轉換為對特征值的冪運算進行求解:
P?UF(Λ)UT
(4)
在本文中α=0.5,F(xiàn)(Λ)=diag(f(λ1),f(λ2),…,f(λn)),其中f(λi)表示對特征值進行冪運算:
據(jù)云南陸軍講武堂歷史博物館編輯的官方資料,這26年中,講武堂培養(yǎng)學員8300人,其中有300多人先后被北洋政府、廣州民國政府、南京國民政府、中華人民共和國以及韓國、朝鮮等授銜為將軍、元帥。其比例之高,世所罕見,真可謂“將帥搖籃”。
(5)
協(xié)方差矩陣是為獲得各通道中像素間的相關性,描述如下:
(6)
式中:Xi表示第i個通道的特征圖,i∈[1,d′]。
激勵模塊的目的是在通道維度上對輸入張量的信息進行重新標定,獲取具有通道相關性的輸出張量。為保持輸入張量的原始結構信息,首先對d′×d′協(xié)方差矩陣進行逐行卷積操作,得到一個d′×1的向量;然后使用卷積和非線性激活函數(shù)Sigmoid,得到一個d×1的權重向量;最后執(zhí)行權重向量和通道之間的點積操作,得到具有通道相關性的輸出張量,該張量是對原始深度特征的細化,對相似目標具有良好的判別能力。
本文算法使用的實驗平臺為Ubuntu 16.04,GPU為1080 Ti,采用PyTorch1.6實現(xiàn)。所提算法僅使用Got-10k[15]數(shù)據(jù)集進行端到端的訓練,在訓練過程中,batch_size設置為8,學習率從0.01衰減到0.000 01,動量設置為0.9,使用平衡損失函數(shù)提高跟蹤精度,使用隨機梯度下降優(yōu)化器擬合收斂速度,測練周期為50個批次。在兩個具有代表性的目標跟蹤測試集OTB100[16]和VOT2018[17]來驗證本文算法的有效性。
在OTB100上對本文算法進行消融實驗來驗證所提算法各個模塊的有效性和對目標跟蹤的實時性影響。實驗結果如表1所示(最優(yōu)性能加粗表示),首先,復現(xiàn)基準算法SiamFC,精確度和成功率分別為0.777和0.580,速度為37FPS;然后,在SiamFC中添加ECA模塊,精確度和成功率分別為0.807和0.604,速度為35FPS,表明ECA模塊在增加少量運算的同時可以獲取更多目標的語義信息,優(yōu)化跟蹤模型,使跟蹤性能得到一定的提升;其次,在SiamFC中添加SoP模塊,精確度和成功率分別為0.828和0.616,速度為32FPS,表明SoP模塊在增加一定運算的基礎上可以獲取目標的二階信息,能夠更好地優(yōu)化跟蹤模型增強對目標的判別能力,使跟蹤性能得到顯著的提升;最后,在SiamFC中添加ECA模塊和SoP模塊,精確度和成功率分別為0.852和0.632,速度為31FPS,表明融合目標的原始特征、二階池化特征和通道注意力特征可以更好地優(yōu)化跟蹤模型,提高目標定位的精確性,從而獲得良好的跟蹤性能。

表1 ECA模塊和SoP模塊在OTB100上的消融實驗
OTB100[16]由100個視頻序列組成,是目標跟蹤領域中最流行的數(shù)據(jù)集之一,該數(shù)據(jù)集的兩個重要評價指標是精確度(Precision)和成功率(Success)。將本文算法與KCF[18]、SRDCF[19]、SiamFC[9]、Staple[20]、BACF[21]、SiamRPN[10]、SiamDW-FC[22]、ATOM[23]、UniTrack[24]、SiamSE[25]等具有代表性的目標跟蹤算法進行比較,其中SiamFC作為所提算法的基準算法。在OTB100數(shù)據(jù)集上進行定性和定量分析。
2.2.1 定性分析
為了定性分析本文算法的性能,在OTB100數(shù)據(jù)集中挑選6組視頻進行比較。圖4給出了本文算法和另外5種對比算法的部分跟蹤結果,下面對跟蹤中存在的3個挑戰(zhàn)屬性進行定性分析。

圖4 選定視頻序列跟蹤效果(注:第1行為Bird1,第2行為Box,第3行為Girl2,第4行為Jump,第5行為Motor Rolling,第6行為Skilling)
1)快速運動:以視頻Bird1和Skilling為例,快速運動導致目標表觀信息發(fā)生變化。由于KCF和SRDCF等相關濾波類算法訓練模型的判別性不足,導致跟蹤漂移;快速運動對互相關類跟蹤算法也會產生較大的影響,SiamFC在快速運動后丟失目標,后續(xù)過程不能恢復跟蹤;而本文算法使用二階池化網絡和輕量級通道注意力可以提高模型的判別能力,在快速運動過程中能夠持續(xù)穩(wěn)定地進行跟蹤。
2) 目標遮擋:以視頻Box和Girl2為例,在目標被遮擋時,AlexNet提取特征的能力有限,導致SiamFC跟蹤漂移;雖然Staple結合了HOG和CN特征能很好地解決目標尺度變化問題, 但是由于沒有采用CNN提取深度特征,在目標被遮擋時,提取的特征能力有限,導致跟蹤漂移;而本文算法使用二階池化網絡和通道注意力,在目標特征提取上更能關注到目標的顯著特征,提取的特征更具有魯棒性。
3) 目標形變:以視頻MotorRolling和Jump為例,目標視角和姿態(tài)的變換,導致目標發(fā)生形變和旋轉,從而會引入一定的背景干擾信息。由于SiamFC判別能力不足,導致跟蹤漂移;然而BACF沒有考慮目標形變問題,導致提取的特征不能完全表示目標整體特征信息;而本文算法使用二階池化網絡和通道注意力可以提高表觀模型的抗干擾能力,提取的特征更具有泛化性。
2.2.2 定量分析
圖5給出了本文算法與其它10種對比算法在OTB100數(shù)據(jù)集上的整體精確曲線和成功曲線,本文算法的精確度和成功率分別為85.2%和63.2%。精確度高于現(xiàn)主流算法UniTrack、SiamDW-FC和SiamRPN;成功率高于UniTrack,與SiamDW-FC和SiamRPN相當。由于ATOM和SiamSE算法比較復雜,都使用了性能更優(yōu)的網絡和更復雜的優(yōu)化策略,故本文算法的性能略低于ATOM和SiamSE,但本文算法性能相較于現(xiàn)主流算法依然有一定的競爭力。與基準算法SiamFC相比,跟蹤性能取得了顯著提升,精確度提升了7.5%,成功率提升了5.2%。


圖5 OTB100的定量對比結果
為進一步分析本文算法的優(yōu)缺點,提供了基于屬性的性能分析來說明本文算法在關鍵屬性上的優(yōu)勢。OTB100中的視頻序列標注了11個具有挑戰(zhàn)性的屬性,包括:光照變化(illumination variation, IV)、尺度變化(scale variation, SV)、遮擋(occlusion, OCC)、形變(deformation, DEF)、運動模糊(motion blu, MB)、快速移動(fast motion, FM)、平面內旋轉(in-plane rotation, IPR)、平面外旋轉(out-of-plane rotation, OPR)、離開視野(out-of-view, OV)、相似背景(background clutters, BC)、低分辨率(low resolution, LR)。
表2列出了11種屬性下的本文算法和對比算法的精確度(結果最優(yōu)加粗表示,次優(yōu)加下劃線表示,第三優(yōu)加點式下劃線表示)。通過分析表2,本文算法在多個跟蹤場景中均取得了較好的跟蹤效果,尤其是在相似背景(BC)、尺度變化(SV)、快速運動(FM)等挑戰(zhàn)屬性下精確度處于次優(yōu)和較優(yōu)位置,同時,在其它屬性下精確度均處于較優(yōu)位置。這是因為本文算法在相似背景、尺度變化、快速運動等屬性下,通過二階池化網絡獲取目標特征信息的全局依賴關系,通過通道注意力分配網絡中的權重參數(shù),更好地關注目標特征中的重要信息,改善了特征提取網絡的表達能力,提高了跟蹤模型的判別能力,從而取得了良好的跟蹤性能。

表2 不同屬性下算法的跟蹤精確度結果
VOT2018[17]數(shù)據(jù)集包含60個具有挑戰(zhàn)性的彩色視頻序列,是目標跟蹤領域中最流行的數(shù)據(jù)集之一,該數(shù)據(jù)集的主要評價指標是預期平均重疊率(expected average overlap, EAO)、準確率(accuracy)和魯棒性(robustness)。
表3展示了本文算法與具有影響力的跟蹤器SiamFC[9]、DCFNet[26]、DSiam[27]、DensSiam[28]、SiamRPN[10]、SiamDW-FC[22]、SiamSE[25]的各項指標結果(性能最優(yōu)結果加粗表示,次優(yōu)結果加下劃線表示,第三優(yōu)結果加點式下劃線表示),本文算法的預期平均重疊率為0.231,準確度為0.516,魯棒性為0.503。在預期平均重疊率指標上略高于主流跟蹤器SiamDW-FC,在準確度指標上高于主流跟蹤器SiamDW-FC和SiamRPN,在魯棒性指標上比SiamDW-FC、SiamPRN、SiamSE略低。相較于基準算法SiamFC,預期平均重疊率提高了4.3%,準確度提升了1.6%,魯棒性提升了5.6%,其原因是本文算法使用二階池化網絡和通道注意力可以提高跟蹤模型的判別能力,在目標特征提取上更能關注到目標的顯著特征,提取的特征具有魯棒性和泛化性。

表3 VOT2018實驗結果
本文提出一種輕量級的基于二階池化特征融合的孿生網絡目標跟蹤算法。首先,使用孿生網絡結構獲取目標的深度特征;然后,在孿生網絡結構的末端并行添加二階池化網絡和輕量級通道注意力,獲取目標的二階池化特征和通道注意力特征;最后,將目標的深度特征、二階池化特征和通道注意力特征進行融合,使用融合后的特征進行互相關,得到的響應圖能很好地區(qū)分目標和背景,提高模型的判別能力,改善目標定位的精度,從而提升跟蹤性能。
在未來的研究中,將進一步挖掘二階池化網絡的潛力,使用性能更優(yōu)的主干網絡,獲取中間層特征與圖像全局的依賴關系,充分利用中間層特征潛在的信息,增強特征提取網絡的表達能力,提高模型的判別能力,從而更有效地提升目標跟蹤的性能。