基于FasterMDNet的視頻目標跟蹤算法

2020-07-17 08:19:52李巖芳

計算機工程與應用 2020年14期

王玲，王輝，王鵬，李巖芳

長春理工大學計算機科學技術學院，長春 130022

1 引言

視頻目標跟蹤是計算機視覺的重要研究課題，目的是估計目標在各種場景下的位置，它在視頻監控、機器人、人機交互[1]等方面具有廣泛應用。人們可以很容易地選擇有用特征來區分目標和背景。然而，視頻目標跟蹤由于復雜的背景干擾，如目標缺失、遮擋、天氣、光照以及人為因素等，成為計算機視頻跟蹤領域最難解決的問題之一。目標跟蹤模型一般歸于兩類：生成式模型和判別式模型，生成式模型主要通過學習目標外觀模型，然后以此為模板在搜索區內進行最小化重構誤差的模式匹配，從而實現目標跟蹤。Tao等人[2]提出的具有代表性的生成式模型，通過引入孿生網絡，計算目標外觀模型的表示誤差，選擇與目標模型最接近的區域作為跟蹤結果；Zhang等人[3]利用循環稀疏結構模板和傅里葉變換增大樣本空間，以此提高跟蹤速度。判別式模型主要把跟蹤問題看成二分類問題，通過訓練圖像序列區分目標和背景。經典的判別式跟蹤算法代表有KCF[4]、C-COT[5]、Staple[6]，在標準視頻跟蹤上取得了較好的效果。近年卷積神經網絡（CNN）在目標檢測和識別方面取得巨大成功，基于CNN的目標跟蹤算法屬于判別式方法[7]。但上述模型存在問題是，目標跟蹤速度提高的同時準確率不高，而準確率提高的同時速度不高。

MDNet[8]提出了一種新的CNN架構，通過學習不同視頻圖像序列的通用目標進行目標跟蹤，并具有很好的跟蹤準確率。但是，它的網絡結構具有明顯的缺陷：它采用選擇性搜索的方式對視頻圖像提取ROI，然后分別將候選框輸入網絡提取特征，增加計算復雜度，沒有共享完整圖像卷積特征，采用選擇性搜索的方式還導致產生很多對訓練網絡模型沒有作用的ROI，跟蹤速度和準確性均受到影響。

本研究針對上述問題提出了快速多域卷積神經網絡（FasterMDNet），在模型中加入RPN網絡和ROIAlign層，將整張圖像作為輸入來提取特征，卷積層輸出的完整特征圖作為RPN網絡的輸入，采用滑動窗口的形式在整張特征圖上提取ROI，然后在ROIAlign層利用雙線性插值[9]對每個ROI提取特征，最后池化成固定大小的特征圖，將其送入全連接層進行視頻目標跟蹤性能評估。

2 相關工作

2.1 基于CNN目標檢測

基于區域建議候選框卷積神經網絡的提出使目標檢測取得巨大成功，R-CNN[10]第一次將CNN網絡應用在目標檢測中并達到很高的準確率，它利用深度網絡在少量的檢測數據中訓練很高的特征表示模型，從而高效地實現目標的定位性能。但R-CNN采用選擇性搜索的方式提取ROI，沒有共享圖像卷積特征，對每個ROI單獨提取特征，重復輸入到卷積層進行計算，增加了計算復雜度。Fast R-CNN[11]通過使用ROIPooling層把大小不同的ROI特征映射成一個固定尺度的特征向量的方式，達到共享圖像卷積特征的目的從而減少了計算的復雜度，但是由于候選框的選取仍采用了選擇性搜索的方式，大部分時間都消耗在ROI的提取上。Faster R-CNN[12]很好地解決了Fast R-CNN的問題，通過加入RPN網絡，對整張圖像特征提取ROI，然后通過ROIPooling的方式固定ROI特征大小，很大程度上減少了計算復雜度，提高網絡模型性能。

2.2 基于CNN目標跟蹤

基于CNN的網絡模型在計算機視覺中展現了杰出的特征表示能力，目前最新的相關濾波技術通過融合深層神經網絡學習表示，達到很好的跟蹤性能。Song等人[13]提出將特征提取、模型更新集成到神經網絡中進行端到端的訓練，采用殘差學習減少在線模型更新退化，達到不錯的跟蹤效果；Danelljan等人[14]提出通過分解卷積因子，減少模型參數，通過訓練緊湊的樣本數據和保守的模型更新策略，降低模型計算復雜度，提高跟蹤速度。目前基于CNN的大部分跟蹤算法在跟蹤準確率上是成功的，但是由于多樣本特征計算、模型反向傳播更新、深度學習提取特征等使計算復雜性很大，導致計算成本大大提高。所以出現了一些基于CNN的離線訓練，在線不更新的目標跟蹤模型[15-16]，但跟蹤準確率較低。MDNet通過利用自然語言處理中廣泛采取的多域學習，對CNN進行離線訓練和在線模型更新，通過學習多域信息最后整合多域信息特征表示，取得很好的跟蹤效果。

3 快速多域卷積神經網絡（FasterMDNet）

本章詳細介紹改進的MDNet網絡結構，在它的網絡結構中通過引入RPN和ROIAlign層，從而加快候選區域建議框特征的提取，降低特征空間信息量化損失，改進的MDNet網絡結構在保持跟蹤準確率提高的同時并加快特征提取以提高跟蹤速度。

3.1 網絡架構

改進的快速多域卷積神經網絡（FasterMDNet）網絡模型架構如圖1所示。網絡中有三個卷積層用來提取整張圖片的特征，通道依次為96、256、512；RPN網絡層用來在圖片的特征圖上提取ROI，512-d表示輸入特征為512個通道，網絡內部輸出一個2分類分支和一個4位置邊框回歸信息分支，k表示RPN定義的每個錨點產生k個錨盒；ROIAlign層對ROI進行特征提取，將得到的特征作為全連接層的輸入，RPN網絡層和ROIAlign層的輸入和輸出如表1所示；網絡中共有三個全連接層用于二分類，區分目標和背景，前兩個全連接層（FC4、FC5）表示目標和背景特征，輸出均為512個單元，第三個全連接層(FC61～FC6k)表示多域層，具有k個域分支，每個視頻序列對應一個域，訓練期間用于學習區分目標和背景，其中紅色表示目標，黃色表示背景。

表1 RPN網絡層和ROIAlign層輸入和輸出

3.2 RPN網絡

RPN網絡將最后一層卷積層的輸出作為輸入，輸出一組不同大小矩形目標框。網絡由相關部分和監督部分組成，監督部分有兩個分支，一個是目標和背景分類分支，一個是邊框回歸分支；相關部分是將特征通道各自通過兩個卷積層增加到兩個分支上。如圖2所示，在FasterMDNet網絡中，對每個視頻序列中第一幀圖片進行兩次輸入提取特征處理，第一次輸入選取原圖像作為輸入，用W表示，第二次根據第一次輸入選取與原圖像重疊域最大的ROI作為RPN的輸入，用Q表示，兩次輸入共享CNN參數。把第一次輸入提取得到的最后一層卷積特征用α(W)表示，第二次輸入特征用α(Q)表示。對于RPN網絡如果有k個錨盒則會輸出2k個分類通道和4k個邊框回歸通道，α(Q)輸入到RPN網絡中分別通過兩個卷積層增加到兩個分支上，兩個分支由[α(Q)]cls和[α(Q)]reg表示，它們分別有2k和4k個通道，相應的α(W)特征的兩個分支由 [α(W)]cls和 [α(W)]reg表示，但通道倍數不變，保持一個2分類通道，一個4位置邊框回歸通道。[α(Q)]以組的方式作為[α(W)]的相關濾波器，得到分類分支和邊框回歸分支的計算公式為：

第二次輸入得到的特征圖[α(Q)]cls和[α(Q)]reg作為內核，其中?表示卷積符號。例如公式（1）包含2k個通道向量，表示每個錨盒在原圖上映射的正樣本和負樣本，包含 4k通道向量，表示預測目標位置 (εx,εy,εw,εh)，其中 (εx,εy)表示預測目標包圍框中心點坐標，(εw,εh)表示目標包圍框寬和高。

MDNet損失函數僅能區分相同視頻域中目標和背景，不能區分不同視頻域中目標和背景，在對網絡上多個錨盒進行訓練時，本文的損失函數遵循FasterR-CNN，分類損失函數采用交叉熵分類損失函數，回歸損失函數采用smooth L1和歸一化坐標的方式。用 (βx,βy,βw,βh)表示錨盒真實位置，歸一化距離為：

圖1 FasterMDNet網絡模型架構圖

圖2 RPN網絡第一幀兩次輸入結構圖

優化的損失函數為：

其中，Lcls為交叉損失熵函數，θ為平衡兩部分的超參數，Lreg定義為：

smooth L1損失函數為：

3.3 ROIAlign

本文網絡還有一個ROIAlign層，ROIPooling是一個粗量化的特征信息提取方法，它是從每個ROI中提取小特征的標準操作，對ROI提取特征時需要兩次空間量化信息操作，為了消除ROIPooling量化操作，在網絡中引入ROIAlign層，利用雙線性插值的方法正確地將提取特征與輸入對齊。取消ROIPooling在第一步和第二步執行量化時將浮點數四舍五入取整操作，使用雙線性插值的方法計算每個ROI單元中四個采樣位置輸入的精確要素值。ROIAlign具體實現如下，已知要被池化的目標位置(dstx,dsty)，根據公式：

求其被池化前在原圖的位置(srcx,srcy),srcwidth,srcheigh和dstwidth,dstheigh分別表示原圖和目標圖的大小。求得原圖位置是一個浮點數，由此可得四個位置坐標Q1,Q2,Q3,Q4。根據圖3先對X軸方向R1,R2進行插值，再對Y軸方向P點進行插值，得到像素點計算公式f，所以可得本研究目標圖像素F(dstx,dsty)計算公式為：

通過減少特征圖空間信息的量化損失，從而獲取更高分辨率和含有豐富語義的特征信息表示。

圖3 雙線性插值

4 FasterMDNet訓練和跟蹤

4.1 網絡初始化與輸入輸出

網絡中輸入的圖片大小為107×107，共享卷積層權重從VGG-M[17]網絡相對應部分傳遞，RPN采用3×3的滑動窗口，在最后一層卷積層輸出特征圖上進行滑動，滑動窗口中心定義為錨點，每個錨點產生k個錨盒，每個錨盒對應一個二分類分支和一個邊框回歸的四位置信息分支，所以k個錨盒有2k個二分類通道和4k個邊框回歸通道，通過對錨盒進行篩除，輸出ROI。根據本文的網絡設置，ROIAlign層會產生一個7×7×512的特征圖，并用一個最大池化層將特征映射為3×3×512，然后輸入全連接層為512個單元特征圖，最后由第三個全連接層評估目標位置最優得分并輸出跟蹤目標。

4.2 離線訓練

使用在ImageNet-Vid[18]上預先訓練好的網絡參數來初始化本文網絡，本文網絡離線訓練時對于每個視頻序列第一幀使用RPN來提取ROI特征，需要兩次輸入處理，從而獲得更高特征語義信息表示。采用隨機梯度（SGD）的方式在大量的標準目標跟蹤視頻數據集上對FasterMDNet網絡實現端到端的離線預訓練。使用的錨盒固定比為[0.3，0.5，1，2，3]，用錨盒與實際邊界框的重疊最高交并比(IoU)和兩個參數thhi和thlo作為測量標準。當IoU>thhi作為正樣本，IoU

4.3 在線跟蹤

FasterMDNet完成網絡預訓練后，需要將最后一個全連接層(FC61～FC6k)的多個分支由單個分支FC6替代，訓練階段的目的是學習目標表示用于目標跟蹤，在線微調跟蹤時每個測試視頻序列第1幀，根據離線訓練中IoU標準，在第一幀選取500個正樣本和5 000個負樣本，從第2幀開始收集每幀跟蹤后的數據，用于在線更新的訓練數據，然后根據IoU標準大于0.7為正樣本，小于0.3的為負樣本，最后收集50個正樣本和200個負樣本，從第1幀到第n幀正負樣本結果展示如表2所示，每10幀進行一次長期更新模型，然后由RPN輸出最后收集的正負樣本，ROIAlign對樣本提取ROI特征，將特征作為輸入送進全連接層，通過網絡進行評估，最后由對應的視頻域全連接層softmax層輸出目標分數f+(xi)和背景分數 f-(xi)，其中i=1,2,…,N,xi表示第i幀目標狀態，網絡第i幀目標最大得分為：

表2 正負樣本展示

FasterMDNet在線跟蹤算法偽代碼：

算法1 FasterMDNet算法

輸入：預訓練好的FasterMDNet卷積權重{w1,w2,w3,w4,w5}、RPN網絡，初始化目標狀態x1。

輸出：預測幀輸出之后目標狀態x*。

1.隨機初始化最后特定域層權重為w6

2.訓練邊界框回歸模型

3.if(i==1)

4.輸出第1幀圖像卷積特征α(W)和α(Q)

5. else if

6.輸出第2幀和之后圖像卷積特征α(Wλ)

7. RPN由第4步或第6步結果輸出ROI為Si

11.重復步驟3～9

12.繪制目標候選樣本狀態xi

14. if f+()≥0.5 then

22. end for

23.直到視頻序列結束

24.end for

4.4 在線模型更新

為了保證模型的健壯性和自適應性，采用長期更新和短期更新，長周期收集的正樣本定期應用于長期更新，當目標估計分數低于定義域值并且結果不可靠時（目標得分小于0.5），就會觸發短期正樣本更新。然而，在本文網絡中正樣本數量遠小于負樣本數量，很多負樣本通常是不重要或是冗余的，在每一次迭代中通過采用難例小批量挖掘技術在得到的負樣本中選取得分最高的一部分作為困難負樣本，然后把得到的困難負樣本放進網絡中不斷進行迭代訓練，加強網絡辨別能力。一個小批量樣本是由128個樣本組成，其中有32個正樣本和96個負樣本，采用難例小批次挖掘方式進行迭代學習，將1 024個負樣本作為測試。

4.5 網絡學習

在快速多域卷積神經網絡中，采用隨機梯度下降（SGD）方法進行1 000次迭代訓練，網絡離線訓練期間將卷積層的學習率設置為0.000 1，在線跟蹤時迭代的損失函數變化值如圖4所示，優化后圖4（b）的損失函數比優化前的損失函數圖4（a）值更小，很小的誤差值變化會對目標跟蹤結果產生很大的影響。訓練時，先對每個視頻序列初始化第一幀，然后全連接層FC4、FC5和FC6 30次迭代的學習率前者是0.000 1，后者是前者10倍。網絡在線跟蹤期間，微調迭代次數設置為15，學習率設置為網絡離線訓練期間全連接層FC4、FC5學習率的3倍，在線跟蹤期間網絡全連接層FC4、FC5和FC6為10次迭代，其學習率分別設置為0.000 3和0.003，權重損失因子和動量分別設置為0.000 5和0.9。

5 實驗

5.1 實驗環境

圖4 在線跟蹤損失函數變化值

本文算法的跟蹤性能是在三種標準數據集上進行測試的，數據集分別是OTB2013[19]、OTB100[20]、VOT2016[21]，前兩個數據集包含51個視頻序列和100個視頻序列，它們都被地面真實距離包圍框和各種屬性注釋，后一個數據集包含60個視頻序列。本文的實驗環境是在Matlab R2017b，MatConvNet1.0-beta10，CUDA9.0，CUDNN7.5，Visual Studio2015，Intel?CoreTMi5-7500CPU@3.40 GHz，NVIDIA Quadro K60。

5.2 評估OTB數據集

OTB視頻性能評估的標準有兩個，一個是中心定位誤差即精確率，一個是包圍框重疊比即成功率。圖5、圖6分別是在OTB2013和OTB100進行測試的結果。

從圖5和圖6中可以看出，選擇了與當前目標跟蹤較好的算法 C-COT、STRCF[22]、DeepSTRCF[22]、ECO[14]、BACF[23]、DSST[24]、Staple、KCF、MDNet結果作對比。

表3表示使用雙線性插值前后在OTB數據集上目標的跟蹤結果和感受野分辨率變化值，可以看出插值前后感受野分辨率值相差不大，但較小的感受野分辨率差別對目標跟蹤算法準確率和成功率有很大的影響。

表3 雙線性插值前后目標跟蹤結果和感受野分辨率值變化

圖7展示了不同跟蹤算法在幾種具有挑戰性的OTB數據集上實時跟蹤結果，在光照變化、復雜背景、尺度變化下本文的跟蹤算法效果優于其他跟蹤算法。

圖5 OTB2013目標跟蹤結果

圖6 OTB100目標跟蹤結果

圖7 幾種具有挑戰環境下實時目標跟蹤

由實驗結果可知：（1）本文算法在OTB2013數據集上精確率達到95.0%，成功率達到70.2%，在OTB100數據集上精確率為92.5%，成功率為69.6%，對比MDNet分別提高7%、1.2%、2.5%、2.8%。（2）從圖5（a）、圖6（a）中看出，本文算法在兩個評估跟蹤性能標準上均明顯高于其他測試跟蹤算法，在像素閾值設置為30時，表明本文算法跟蹤目標效果很穩定。（3）圖5（b）、圖6（b）可以看出隨著重疊閾值設置變大，跟蹤成功率變小，但當重疊閾值設置為一樣時本文算法跟蹤效果優于其他方法。（4）重疊閾值≤0.5時，本文跟蹤算法成功率開始趨于下降趨勢，其他測試算法也是如此，這是目前跟蹤算法存在的缺陷。

5.3 評估VOT2016數據集

VOT2016包含60個具有挑戰性的視頻序列，性能評估主要有4個指標，報告準確性表示跟蹤邊框重疊率；魯棒性表示發生故障次數；預期平均重疊率表示跟蹤一定幀之后下一幀跟蹤成功的幾率；成功率則類似OTB評估標準中的AUC（成功率圖）。通過上面4個指標更加全面評估跟蹤算法性能。與C-COT、Staple、STAPLEp[21]、SiamRPN[25]、DeepSRDCF[26]、MDNet 6 種較好的跟蹤算法性能做對比。

從表4看出本文跟蹤算法相比于其他測試算法在VOT2016數據集上跟蹤性能具有較明顯優勢，特別是與MDNet算法比較，跟蹤準確率提高8.04%，魯棒性也優于MDNet算法，降低了27%。本文算法的跟蹤幀率為15幀/s，雖然比其他速度快的跟蹤算法慢，但相比于MDNet算法的跟蹤速度提高了近12倍，并且本文算法的預期平均重疊率為33.10%，如圖8所示，優于其他算法。通過實驗證明本文算法的有效性。

表4 不同跟蹤算法在VOT2016上精確度和魯棒性得分，跟蹤算法幀率以及預期重疊率對比表

圖8 預期重疊率從右到左（Order為對應算法）

圖9 中趨勢展示了本文算法在閾值為0.7之前都是優于其他算法，在0.7之后具有明顯下降趨勢，這是因為CNN自身存在的缺陷，當重疊閾值設置過大時容易丟失跟蹤目標。

圖9 不同重疊閾值下平均成功率

6 結語

在三種標準的視頻數據集上，證明了本文算法的跟蹤性能均優于MDNet算法，并且跟蹤速度達到15 FPS，充分說明了對MDNet算法改進的有效性。通過引入RPN網絡加快ROI的產生，加入ROIAlign層，采用雙線性插值的方法對ROI提取特征，減少空間信息量損失，從而獲得更顯著的信息特征表示。實驗證明，提出的FasterMDNet網絡結構是合理的。雖然FasterMDNet的算法速度比MDNet算法提高12倍，但對比其他速度快的算法優勢并不明顯，這將是今后著重研究的方向。

基于FasterMDNet的 視頻目標跟蹤算法