許 龍 魏 穎 商圣行 張皓云 邊 杰 徐楚翹
視覺目標跟蹤算法廣泛應用于水下機器人,無人機協同,機器人設計等諸多領域[1-3],得到一個跟蹤精度高,速度快的跟蹤器面臨著各種各樣的挑戰.近些年來,大量的研究成果涌現出來,極大地推進了該領域的發展,其中又以基于孿生網絡的跟蹤算法性能最好[4-8].
目標跟蹤的核心問題是目標與背景的分類問題,在第1 幀中給定任意要跟蹤的目標,目標跟蹤算法都能在接下來的幀中給出該目標的準確位置.近年來,以基于粒子濾波加分類為代表的多域卷積神經網絡(Multi-domain convolutional neural network,MDNet)[9]和基于相關濾波為代表的核化相關濾波(Kernel correlation filter,KCF)[10]等判別類跟蹤方法受到了研究人員的廣泛重視,以這兩類跟蹤框架為基礎,又衍生出了大量的跟蹤算法[11-15].Wang 等[13]首先將編碼器特征引入到目標跟蹤的任務中,取得了不錯的跟蹤性能,但是由于該方法得到的特征比較簡單,該模型很難應付目標發生較大變化時的情景.為解決這個問題,Ma 等[12]充分利用卷積神經網絡不同層之間的卷積特征進行跟蹤,利用更高效的圖像特征提高了跟蹤的性能.進一步地,Nam 等[9]提出了一種多域學習的算法 MDNet,并引入了一個更大的卷積神經網絡用于提取目標特征,在當時的基準上取得了最好的性能.但是,由于MDNet 基于粒子濾波算法,速度較慢,因此越來越多的研究轉移到了相關濾波的框架下.Bolme 等[16]首先將相關濾波器引入到了目標跟蹤的任務中,將目標跟蹤由分類任務變成了相似度計算的任務,通過求解最小二乘問題得出可能是目標位置的最高響應.為了解決 Bolme 等[16]的算法在跟蹤過程中訓練樣本過少的問題,Henriques等[10]將循環矩陣的思想引入到訓練樣本的生成過程中,同時充分利用了循環矩陣的特點,從而能以很快的速度優化一個非閉合的二次優化問題.出于計算速度的考慮,相關濾波的相關性計算都在頻域中進行[16],在實際的應用中會遇到截斷誤差 (邊界效應) 的問題,為了解決這一問題,Danelljan 等[11]在求解濾波器的過程中引入了一個空間正則化項,并使用Gauss-Sediel[11]求解濾波器,同時將原始的圖像特征[8,14] 替換為對應圖像的深度特征,進行相關濾波器的計算,進一步提高了跟蹤的性能.為了解決濾波器在離散空間計算導致的跟蹤精度損失問題,Danelljan 等[14]使用插值的方法,將濾波器的計算轉移到了連續域空間,并取得了很好的跟蹤效果,但是由于需要計算的濾波器數量比較多,這導致算法速度較慢.為了解決這一問題,Danelljan 等[14]提出了一種降維的方法,求解出對響應貢獻最大的幾組濾波器進行跟蹤,同時利用高斯混合模型進行樣本空間的管理,實現了速度與精度的提升.
隨著相關濾波算法的發展和完善,同為相似度計算的孿生網絡模型進入了人們的視野.Held 等[4]將孿生網絡的結構引入到了目標跟蹤的相似度計算中.Bertinetto 等[5]進一步設計了訓練數據集的結構,以此為基礎衍生出了大量的基于孿生網絡的跟蹤算法.Li 等[6]將檢測中的RPN (Region proposal network)[17]結構引入到了跟蹤中,利用邊框回歸以及錨點的方法,緩解了邊界框結果精度低的問題.為進一步解決邊界框定位精度的問題,Danelljan 等[18]將目標檢測算法中的IOUNet (Intersection over union-network)[19]邊框回歸組件引入到了跟蹤中,提出了一個非孿生網絡結構的跟蹤器,相比于RPN 結構,IOUNet 有著更高的邊界框回歸的精度,這幫助該算法獲得了更高的跟蹤性能,同時由于該算法可以在線更新,因此其具有更高的判別性能.Zhu 等[7]和Li 等[8]提出了更深網絡結構的Siam-RPN++[8]、DaSiamRPN[7]和將分割引入到孿生網絡跟蹤器的SiamMask[20],進一步提高了跟蹤器的精度.但是這些基于孿生網絡的跟蹤算法只通過離線訓練獲得一組網絡參數,其相似度的計算很大程度上依賴于目標的語義信息,這導致其在在線跟蹤時很難處理具有相同語義干擾物的識別問題.
為解決基于孿生網絡的跟蹤器對于相似目標判別能力弱的問題,本文提出了一種異步相關的理論模型,并基于此提出了一種新的具有判別性的跟蹤方法.在進行在線更新的過程中,本文使用了二階優化的方法對所提出的模型進行更新,相比于傳統的一階優化,本文使用的方法可以在更少的迭代次數下實現更快的收斂.為了驗證本文提出算法的有效性,本文在 Got-10k[21]、TC128[22]、OTB[23]和VOT2018[24]上分別進行了對比實驗,實驗結果表明本文所提出的方法可以有效地提升在線跟蹤器的判別能力以及魯棒性,同時還能保證較高的跟蹤速度.
在目標跟蹤中,跟蹤任意目標的任務可以看作是相似性學習的問題.基于孿生網絡的跟蹤器利用孿生網絡可以學習相似性的特點實現跟蹤.假設要學習的相似性函數由孿生網絡f(x,z|θ) 表示,其中x表示搜索區域,z表示樣本圖像,θ表示該網絡的參數.經過f(x,z) 的計算,得到一個目標樣本z在搜索區域x中不同位置的打分,當前位置得分越高,說明當前的目標越有可能處于這個位置.在實際應用中,x和z并不直接參與相似性的計算,而是先經過一個特征提取器φ得到相應的特征φ(x) 和φ(z),然后將這些特征送入相似度計算函數g來進行打分,得到相應的相似性度量函數如式 (1) 所示:
式中,φ是一個基于卷積的特征提取器.Li 等[6]通過提升φ的結構,并引入檢測中的邊框回歸提升了性能.Zhu 等[7]和Li 等[8]通過將φ做的更深更大,進一步提升了跟蹤器的性能.相似性函數g是一個簡單的距離或者相似性度量函數,在基于孿生網絡的跟蹤器中,g的形式與高效卷積算子(Efficient convolution operators,ECO)[22]相似,都是使用相關濾波的操作進行相似度計算.
式(1) 得到的孿生網絡f通過在通用數據集上構造特定形式的數據集進行離線訓練,在訓練的過程中,利用判別的方法對f進行訓練.設定正樣本的概率為 1/(1+e-v),負樣本的概率為1-1/(1+e-v),將其代入交叉熵的計算公式,得到相應的損失函數定義為:
式中,y∈[-1, 1],表示是否是目標,v表示相似性計算后的實際得分.在訓練過程中,利用所有候選位置的平均損失來表示最終的訓練損失函數:
式中,D表示最后得到的相關性計算得分圖,u表示D中的所有位置.通過隨機梯度下降的方法最小化式(4)所示的損失函數,從而得到網絡的參數θ:
式中,訓練樣本對 (z,x) 從精心標注好的視頻數據集采樣,搜索區域x以目標區域z為中心,保持目標寬高比例不變,裁剪固定大小的區域,超出區域的部分用圖像像素平均值填充.所有操作都是在離線狀態下進行,即此時跟蹤器不進行跟蹤,只進行訓練.
為了給目標跟蹤器引入判別性,本文以SiamRPN[6]為基準算法做了大量的實驗工作,發現了孿生網絡跟蹤器的一些異步相關特性可以對相同語義特征的目標進行有效的抑制,同時可以緩解跟蹤過程中目標發生形變的問題.
在傳統跟蹤器工作的過程中,在第1 幀時,跟蹤器利用第1 幀目標的樣本z0計算得到當前要跟蹤目標的濾波器k0,然后在接下來的第t幀,利用xt與k0,通過互相關計算,得到目標的響應圖D,相應的計算過程如式(5)所示:
在整個跟蹤的過程中,k0保持不變,這意味著如果目標的狀態發生了很大的變化(包括形狀、大小和顏色等),跟蹤器的識別能力就會降低.
假設被跟蹤目標隨著時間t的變化而變化,當前濾波器k0與時刻t下的xmt計算得到的得分會發生衰減,設這個衰減因子為η,時刻t后,得分強度會變為vt(u)=η·v0(u),u ∈D.同時,由于在第1節中提到的孿生網絡f(z,x|θ) 并不是為當前跟蹤的類別特定訓練的,而是對盡可能多類的目標進行訓練,從而實現一定的通用性.因此假設搜索區域中存在同類目標zfake(例如人類、汽車、同類的動物和物體等).經過卷積以后,在t=0 時刻,跟蹤目標與同類目標得分應滿足:
然而,因為有衰減因子η的存在,會在某一時刻t有vt(u)≤vt(ufake),此時,跟蹤器會錯誤地判斷目標的位置,將ufake當做是真正的目標,從而導致跟蹤失敗.圖1 為分別采用初始的k0與當前的kt所得到的目標響應得分圖.

圖1 不同濾波器下響應結果對比Fig.1 Comparison of response results under different filters
圖1(b)和圖1(c)分別表示濾波器k0與濾波器kt=φ(zt)計算得到的響應得分圖.由圖1 可以看出,本文提出的置信度時間衰減假設是合理的,因此可以利用kt所具備的目標判別能力對基準算法SiamRPN 進行改進.
基于以上假設,本文提出了一種異步相關的打分策略,從而為跟蹤器引入了對于真實目標與虛假同類目標的可判別性.
由于目標的形變會導致k0以η的衰減速率計算真實的目標得分,為此本文直接將t時刻的樣本圖像zt引入到跟蹤的過程中,得到在線打分公式如下:
式(7)雖然引入了當前時刻t下的樣本圖像zt,在一定程度上消除了目標形變帶來的打分衰減效應,但是由于跟蹤器在跟蹤過程中存在著一定的噪聲以及跟蹤結果上的偏差(例如跟蹤位置的錯誤,跟蹤得到的目標尺寸的錯誤),如果直接采用式(7)的打分方式,這些誤差會隨著時間t逐漸累積,kt會被污染,從而導致跟蹤器無法找到目標.
為解決上述問題,本文將第1 幀計算得到的k0作為監督信息,引入一個可在線學習的判別性模型Φ,得到新的打分公式:
式中,θ是離線訓練好的一組參數,在跟蹤的過程中不發生變化,w是需要在線更新的參數.令kt=φ(zt),代入式 (8) 有:
式中,φ(·) 表示離線訓練好的特征提取器,a表示激活函數,w表示在線判別模型 Φ 的權重,*表示卷積操作.為得到一個較為合理的映射,令a(w*kt),構建用于在線更新的相似度計算損失函數如式 (10) 所示:
式中,‖·‖表示L2范數,對神經網絡權重w進行正則化,λ是正則化系數,n表示樣本的個數,γj=表示第j個樣本的權重,0<α <1表示樣本權重的衰減參數.
由式(10)可知,在實際跟蹤的過程中,本文算法不僅利用了t時刻的樣本圖像xt,同時還能保證由xt得到的濾波器kt不會偏離真實的濾波器k0太遠.由于濾波器 Φ (φ(zt)) 與k0存在較小的差距,同時 Φ (φ(zt)) 還包含了時刻t目標的信息,因此這樣的濾波器在面對相同類別的目標時,具有更高的判別性.
除了利用當前時刻t的kt計算目標的響應外,同時還可以充分利用時刻t之前特定的m個判別性網絡 Φ{1,···,m} ∈S來計算最終的得分響應:
式中,st表示當前時刻t的得分響應圖. Φi表示不同時刻得到的判別性模型.
在實際的應用中,假設相鄰幀之間的判別性模型更為相似,而距離較遠的幀之間的判別性模型差異更大.這樣的假設與實際情況相符合,因為隨著時間t的增加,不同幀下相同目標之間的差異會變得更大.根據這個假設,本文提出了一種利用不同的 Φi網絡參數wi之間的Kullback-Leible (KL)散度對 Φi管理的策略,計算不同網絡參數分布之間的KL 散度矩陣DKL,如下式所示:
式中,P(wi)、Q(wj)∈R1×N表示wi、wj相應的概率分布(直方圖分布),(i,j) 表示DKL中第i行,第j列的元素.
對于每一幀得到的新的 Φt,計算其與m個現有網絡的KL 散度向量dt,找到最小 KL 散度距離所對應的 Φk,k ∈{1, 2,···,m}和距離dt(i).利用如式(13)所示的策略u,對m個判別性模塊進行更新.
由式(13)可知,本文利用判別模型參數間KL散度的不同,保留差異最大的m個判別器作為異步相關響應打分的依據,這樣的做法可以最大程度上保留目標在不同形態時的語義信息,在遇到具有相似語義目標的時候,不同幀中目標的歷史信息會幫助跟蹤器做出很好的判斷,從而增強了跟蹤器的判別能力.
傳統的一階優化算法(如隨機梯度下降、自適應矩估計等)[25]在優化過程中比二階的優化方法有更快的速度,因為二階優化算法涉及到二階信息的計算,這些信息有助于找到一個網絡泛化能力最強的解,但是高昂的計算代價讓其在對海量的數據進行訓練時處于劣勢.
在本文提出的在線更新策略中,因為要學習的參數和樣本少,因此近似二階的優化算法更適用于本任務,可以同時兼顧速度與精度.
在進行二階優化的過程中,Hessian 矩陣的計算是影響速度的關鍵因素.本文簡化計算形式,根據式(10)定義殘差為:將rj(w)和rn+1拼接起來,構成r(w).此時,式(10) 可等價為:
對式(14)進行二階泰勒展開,有:
式中,?T表示?Lup/?w,利用PyTorch 的自動求導機制求解.Hw表示 Hessian 矩陣,O(||Δw||2) 是一個極小量,可忽略不計.優化的目的是尋找一個合適的 Δw,使最小.
具體優化流程步驟如下:
步驟1.初始化網絡權重w、殘差r(w)、NCG和N.
步驟2.fori=1,···,Ndo.
步驟3.計算w下?Lup(w),Hwv=Rv{?w(w)},代入式 (15),Δw ←0.
步驟4.forj=1,···,NCG,Δw=Δw0,di=d0=-?Lup(w) do.
步驟5.計算步長.計算α來最小化式(15):
步驟6.更新權重. Δw=Δw+αdj.
步驟7.更新方向.Letdj+1=-?T+βjdj,其中:
步驟8.end for.
步驟9.w=w+Δw.
步驟10.end for.
不同于基于最大化交并比的精確跟蹤算法(Accurate tracking by overlap maximization,ATOM)[18]利用雅可比矩陣近似計算Hessian 矩陣的方式,為避免求解Hw的逆矩陣,本文利用Pearlmutter 等[26]提出的R{·}直接求解Hwv,進一步提高了優化過程中的精度與速度.令 Δw=rv,形式為:
本文使用基于Python 的PyTorch 作為實驗平臺,CPU 為I5 8400,內存為24 GB,GPU 為2060 Super.分別在 Got-10k[21]的180 個視頻序列,TC-128[22]的128 個視頻序列,OTB 的100 個視頻序列,以及VOT2018[24]的60 個視頻序列上進行實驗.利用m個判別模塊 Φ 進行異步相關性計算,其中每個判別模塊有256 個卷積核,每個卷積核的大小為1×1. 在優化的過程中,N=5,α=0.3,共軛梯度下降迭代次數NCG=100,實際計算過程中,由于網絡很快就收斂,因此共軛梯度優化部分只迭代很少的次數.本文算法在4 個評測數據集上采用同一套參數進行測試.
在對比實驗部分,對比了本文算法與最新的基于孿生網絡的目標跟蹤算法,包括SiamFC[5]、SiamRPN++[8]和DaSiamRPN[7]等;并且對比了其他的跟蹤算法,包括基于相關濾波算法的ECO[15]和判別性跟蹤器ATOM[18]等,由于不同跟蹤器源碼,評估數據集及其結果公開情況的不同,因此在第3.2~ 3.4 節的對比分析中,參與對比的跟蹤器會略有不同.
為驗證本文算法的有效性,本文在Got-10k 和TC128 上進行了自身對比實驗,包括消融實驗和量化分析.同時與一些最先進或者經典的跟蹤器進行對比.表1 為基準算法與本文算法在Got-10k 上的性能對比情況.

表1 本文方法與基準算法的消融實驗Table 1 Ablation studies between the proposed algorithm and baseline
表1 中,Baseline 表示基準模式,AC (Asynchronous correlation)表示本文提出的異步相關模塊,DKL表示判別性模塊管理算法,該算法利用KL 散度對m個異步相關判別模型進行管理.FPS表示算法每秒可處理的幀數,值越大表示性能越好.S 表示本文使用的二階優化算法.AO 表示所有幀上跟蹤的結果和真實標簽之間重疊率的平均值,值越大表示性能越好.SR 表示跟蹤的成功率,值越大表示性能越好,S R0.75下標表示成功率高于0.75%.由表1 可以看出,本文算法比基準算法在AO、SR0.5和 S R0.75三個指標下分別提升1.2%、1.4%和0 .7%.因此使用本文提出的異步相關判別模型 Φ 可明顯改善基準算法在Got-10k 上的性能.
本文同時對比了m=3, 6, 9 時算法的性能表現.可以看出,當m=6 時,算法性能最好;在只使用AC 的情況下,S R0.75比基準算法高出0.3%;當引入二階優化算法S 后,平均重疊率AO 和SR0.5分別提升0.2% 和0.3%;而當m=3, 9 時,跟蹤器的性能出現下降.在模型的優化方面,將一階的 Adam優化算法替換為本文所使用的二階優化方法S 后,AO提升了0.2%,可以看出,本文使用的二階優化方法可以有效地提高跟蹤的精度,同時對于跟蹤速度的影響較小.
圖2 為本文方法在m=6 時與其他先進的跟蹤器在Got-10k 上的對比情況.
由圖2 可以看出,在平均成功率的性能表現上,本文方法分別比基準算法 SiamRPN 的改進算法SiamRPN++和SiamMask 高出0.4%和0.5%.而SiamRPN++和SiamMask 分別比基準算法提升了0.8% 和 0.7%,相比之下,本文方法相對于基準算法提升了1.2%,可見本文算法在Got-10k 的評價標準下對于基準算法的提升較大,同時本文算法在面對最新的一些跟蹤器時,也具有較大的優勢.分析原因發現,Got-10k 中存在著大量相似語義信息的跟蹤情景,這正是本文提出異步相關判別模型所要解決的問題,通過利用幀間被跟蹤樣本信息的共享以及初始目標提供的監督信息,本文方法在一定程度上緩解了相似語義目標所導致的跟蹤失敗問題,相比于SiamRPN++和SiamMask,本文算法在應對這類情景時有著較為明顯的優勢.

圖2 本文算法與其他先進跟蹤器在Got-10k 上的對比情況Fig.2 Comparison between the proposed method with other advanced trackers on Got-10k
為評估跟蹤器在實際跟蹤中的性能表現,本文在Got-10k 測試集的8 個具有代表性序列上進行了改進前后跟蹤結果的對比分析,對比結果如圖3 所示.圖3 中虛線框表示本文算法的跟蹤結果,實線框表示基準算法的跟蹤結果.
由圖3 可以看出,在第1 個目標發生遮擋的情景下,本文方法通過不同幀間的信息共享,準確地在遮擋發生時跟蹤到了目標;在第2 個水下相似背景跟蹤過程中,本文算法通過利用最新的當前樣本來生成核,從而及時地響應了目標的形狀變化,跟蹤到了目標;在第3 個有相似語義目標的情景下,本文算法同樣利用及時更新的樣本核準確地跟蹤到了目標;在第4 個目標發生尺度變化的跟蹤情景中,通過異步信息的計算以及當前樣本核的幫助,本文算法準確地跟蹤到了目標;在第5 到第8 的4 個序列中,本文算法在處理相應的復雜環境進行跟蹤時同樣表現出了較基準算法更強的性能優勢.

圖3 Got-10k 上跟蹤結果對比實驗Fig.3 Comparison of tracking results on Got-10k
Liang 等[22]指出,利用不同的顏色模型對提升跟蹤器性能具有很大幫助,不同于OTB20-15 中包含一些灰度圖像的情景,TC128 中的128 個序列均為彩色序列,其中70 個序列為新增的,Liang 等[22]認為這些彩色圖像在理論上會更能充分評估跟蹤器的性能.為此本文在TC128 上對跟蹤器的精度和成功率進行自身對比實驗,實驗中默認使用二階優化算法S 來優化AC 模型,并選擇了跟蹤器高效卷積算子、空間正則化的相關濾波算法(Spatially regularized correlation filters,SRDCF)、多專家跟蹤(Multiple experts using entropy minimization,MEEM)[27]、Struck[28]、KCF、稀疏跟蹤算法(ASLA)[29]、半監督跟蹤算法(SemiT)[29]和整數直方圖跟蹤(Frag)[30]作為對比,得到精度和成功率圖見圖4.
由圖4 可知,本文算法在m=3 時性能最好.與基準算法相比,在加入 AC 與后,本文方法的精度和成功率分別提升1.6%和1.0%.而SRDCF 的改進算法 ECO-HC 相較于 SRDCF 分別提高0.8% 和1.5%,因此本文方法相比于基準算法有較大提升.值得注意的是,在 Got-10k 上第8 名的ECO,在TC128 上是第1 名,類似現象也發生在VOT2018 的評估結果中.本文算法比采用多專家模型的 MEEM 在精度和成功率上分別提升9.5%和7.8%.本文算法比基于相關濾波的KCF算法在精度和成功率上分別提升了17.8%和15.2%.比其他的跟蹤器(如Struck、ASLA 等)算法,本文算法具有較大的性能優勢.同時由圖4 可以看出,當m=6時,本文算法的性能較m=9 時在精度和成功率的性能上分別提升0.1%和0.1%,在精度與成功率上均要好于基準算法.

圖4 本文算法在TC128 上的精度-成功率對比實驗結果Fig.4 The accuracy-success rate comparison experiment results of the proposed algorithm on TC128
本節進一步分析本文算法在OTB2015/2013上的性能表現,包括成功率圖、精度圖,以及在不同的跟蹤情景下,不同跟蹤器的性能對比情況.
首先,在OTB2015 上對比本文算法與最先進的跟蹤器,包括DaSiamRPN、ATOM、DIMP[31]和CF2[12]等,以及具有代表性的算法,包括ECO、MDNet和 SiamFC[5]等,結果如圖5 所示.
由圖5 可以看出,本文方法比基準算法在平均精確度性能上提升1.7%,在平均成功率性能上比基準算法提升1.2%.當 和 時的精度性能表現幾乎相同.當 時,本文算法達到相較于基準算法的最好性能.同時可以看出,SiamRPN 的另一個改進算法 DaSiamRPN 較基準算法分別提

圖5 本文算法在OTB2015 上的精度-成功率對比實驗結果Fig.5 The accuracy-success rate comparison experiment results of the proposed algorithm on OTB2015
m=3m=6m=6升2.5%和2.0%,稍高于本文算法對于基準算法的提升.分析原因發現,在SiamRPN 的基礎上,Da-SiamRPN 在離線訓練階段通過數據增強的技術來生成用于網絡訓練的數據樣本對,替換了基準算法的訓練數據來對SiamRPN 重新訓練,通過擴充訓練數據樣本對的多樣性,來增強原始SiamRPN 的泛化能力,使之在面對更復雜的跟蹤情景或者快速變化的目標時有著更好的跟蹤性能,同時DaSiam-RPN 也采用一種利用得分圖進行干擾物感知的算法來提升性能.相比之下,本文算法只需要更新一個簡單的AC 模型,且無需修改主干網絡參數.
為對本文方法在不同跟蹤情景下進行綜合評估,選取了 OTB2013[23]的50 個序列中11 種跟蹤情景對本文算法進行評估,同時為對比的公平,本文方法將與基準算法和一些最新的方法(包括ATOM、DaSiamRPN 和DIMP 等)做對比實驗,實驗結果如表2~ 表4 所示.

表2 OTB2013 上的背景干擾、形變等情景下的跟蹤性能對比Table 2 Tracking performance comparisons among trackers on OTB2013 in terms of background clusters and deformation

表3 OTB2013 上的光照變化、低分辨率等情景下的跟蹤性能對比Table 3 Tracking performance comparisons among trackers on OTB2013 in terms of illumination change and low resolution

表4 OTB2013 上的平面外旋轉、視野外等情景下的跟蹤性能對比Table 4 Tracking performance comparisons among trackers on OTB2013 in terms of out-of-plane rotation and out of view
表2~ 表4 中,下劃線表示當前跟蹤器在所有參與對比的跟蹤器中是第1 名,加粗字體表示當前跟蹤器在與基準算法對比過程中是第1 名.當m=3時,本文算法在形變、快速運動、平面內旋轉、光照變化、低分辨率、運動模糊、遮擋、平面外旋轉、視野外、尺度變化共10 種跟蹤情景下的精度和成功率上,分別比基準算法提升(1.2%,2.5%)、(5.6%,7.3%)、(2.4%,3.8%)、(1.5%,2.6%)、(3.5%,4.4%)、(7.8%,9.8%)、(0.7%,1.4%)、(1.3%,2.4%)、(4.4%,5.3%)和(4.8%,6.8%).而在背景干擾的跟蹤情景下,本文算法的性能與基準算法相近.從以上分析可以看出,本文算法較為全面地提升了基準算法性能.
分析算法性能提升原因可以發現,在性能提升較大的 10 種跟蹤情景下,本文方法在面對這些挑戰時,相比基準算法有更強的魯棒性.這10 種情景大多對應的是目標在被跟蹤的過程中其外觀所發生的幾類變化,而本文正是通過在線更新參與計算樣本核的多個AC 模塊,來部分地解決目標在跟蹤過程中發生形變,導致語義信息發生較大偏差的問題.通過利用具有判別性的異步相關策略,本文方法可通過實時更新的方式,將這些擾動對性能的影響降到最低.
為進一步驗證本文所提異步相關響應模型帶給跟蹤器的判別性,在OTB2015 中選擇了具有代表性的6 個序列進行對比實驗,實驗結果如圖6 所示.其中初始樣本表示第1 幀目標計算得到的k0,當前樣本表示當前幀目標計算得到的kt,優化后樣本表示對當前kt優化的結果.
由圖6 可以看出,對有相同語義信息的目標,當前樣本計算得到的結果較初始樣本結果有更準確響應,這是因為在加入異步相關響應計算后,由于不同幀間的目標信息被充分利用,使其對于具有相同語義信息的目標有明顯抑制作用.同時可以看出,由于利用目標語義信息對其相應位置進行打分,因此目標外觀在跟蹤過程中發生多次變化后,如圖1和圖6 所示,采用當前樣本計算得到的響應結果比在第1 幀計算結果有更強響應,同時在進行多幀AC 平均后,得到的響應更為集中,在應對相似語義背景以及目標形變上更具魯棒性.

圖6 OTB50 中6 個序列的響應對比結果Fig.6 The response comparisons of 6 different sequences on OTB50
為進一步評估本文算法的性能與最先進算法在精確度和魯棒性上的對比情況,在VOT2018 上對本文算法做了相應的對比實驗,Li 等[8]指出Siam-RPN++在VOT2018 上的性能要好于DaSiam-RPN,因此為了讓更多的跟蹤器參與比較,本文選用DaSiamRPN 在VOT2018 上的實驗結果與本文算法進行比較.表5 為本文算法與先進跟蹤器在3種評估框架基準、非監督和實時性能下的性能對比結果.由于ATOM 未提供VOT2018 下非監督模式和實時模式下的實驗結果,因此與這些指標相關的值均設置為0.

表5 VOT2018 上的實驗結果Table 5 Experimental results on VOT2018
表5 中,Baseline 指VOT2018 中基于復位的監督實驗[24].而非監督原理與OTB 的評估策略一致,即被評估的跟蹤器僅用第1 幀給定的目標信息來初始化跟蹤器,然后記錄其在后續幀中的跟蹤結果,最后計算平均的跟蹤重疊率(Average overlap,AO).VOT-2018 中的實時性能實驗部分,被用來評估跟蹤器的實時性能和限定跟蹤器的響應時間.精度-魯棒性評估的是跟蹤器在每一幀中預測結果與實際狀態的重疊率和每個序列的平均失敗次數.失敗率表示當重疊率低于某一閾值時視為失敗時的統計結果.EAO (Expected average overlap)是對每個跟蹤器在一個短時圖像序列上未發生重置的平均重疊率期望值,表示期望平均重疊率,這個值越大,表示跟蹤器精確度越高.
由表5 可以看出,本文算法在3 種評測方案中均好于基準算法.在Baseline 精度-魯棒性指標下,本文方法比基準算法提升了0.79%.當m=3,本文方法在Baseline 失敗率指標下比基準算法降低8.7382%.當m=6 時,在BaselineEAO 指標下,本文方法比基準算法提升了0.51%.
在基準算法與Baseline 的FPS 指標的對比中可以發現,本文方法對于速度的影響很小,在最壞的情況下,跟蹤器的速度只降低了0.8714 幀/秒.
在非監督的AO 指標對比中,當m=9 時,本文方法比基準算法提升1.84%.分析原因發現,本文方法在跟蹤過程中可視為一個弱監督跟蹤算法,其監督信息由第1 幀指定,為此相比于基準算法和SiamFC,本文方法在非監督評估模式下具有較大優勢.
在實時性能對比中,由于本文算法采用了附加的模塊,同時實時性能的評估也受到了實驗平臺硬件性能的影響,因此本文算法在該指標下的性能整體上較基準算法要弱,最好的情況下EAO 性能比基準算法降低0.2%.
圖7 為參與對比的不同跟蹤器在Baseline 下的精度-魯棒性和跟蹤失敗率的對比情況.
由圖7 可看出,當m=3 時,對應的精度-魯棒性是最高的,可以看出,本文算法在只采用AC 的情況下,相應的精度較基準算法有所提高,但是魯棒性則較基準算法有所下降,分析原因可以發現,這是因為單一的AC 可能會帶來未知的噪聲,而在使用了多個AC 的情況下,由于利用了不同幀間的目標信息,不同AC 模塊之間的噪聲可以通過均值濾波的方式進行抑制.在AC 內部噪聲被抑制的同時,多個異步相關模塊的引入也帶來對于目標在多種狀態(包括形狀、色彩等)的魯棒性,這使得跟蹤器具有了目標在不同時間維度上的信息,在利用這些信息處理后續目標幀時,跟蹤器可充分利用前幾幀目標信息來計算當前幀目標響應.通過利用不同時刻目標差異信息來增強跟蹤器對目標各種變化的魯棒性,使算法可以在精度與魯棒性上都有較好表現.

圖7 精度-魯棒性跟蹤失敗情況對比圖Fig.7 Comparison of accuracy robustness and tracking faliure
圖8 為不同跟蹤器在VOT2018,包含光照變化、相機運動、運動變化、遮擋、尺度變化等,情景的精度-魯棒性對比,這些情景與OTB2013 類似,不同的是OTB 中包含11 種情景,VOT2018 包含6 種.

圖8 在VOT2018 序列的不同情景下精度-魯棒性對比情況Fig.8 Comparison of accuracy robustness performance under different attributes on VOT2018
由圖8 可看出,當m=3 時,跟蹤器在相機運動、光照變化、運動變化、遮擋和尺度變化5 個方面的精度與魯棒性上要優于基準算法.在相機運動的情景下,本文算法的精度達到了與第1 名的ATOM 算法相近的性能,魯棒性也要好于ECO,僅次于ATOM.在魯棒性和精度方面均好于DaSiam-RPN.在尺度變換、遮擋、運動變化、光照變化4 個方面的情景下,本文算法在魯棒性上達到了第1 名的成績.因此本文算法在不損失算法精確度的情況下,提升了算法在應對尺度變換時的魯棒性.
在運動變化的情景下,本文算法的精確度與第1 名算法ATOM 基本一致,這一實驗結果驗證了,目標在發生形變后,本文算法可以有效地提升跟蹤的性能的假設.
在其他跟蹤情景下,本文算法在精確度-魯棒性上與基準算法基本保持一致,同時與DaSiam-RPN 以及第1 名的ATOM 差距不大.在光照變化情景下,本文算法在精度-魯棒性上高于基準算法和DaSiamRPN.原因依然是光照變化導致被跟蹤的目標發生了劇烈的外觀變化,而本文算法在解決這些外觀變化方面具備一定優勢.
在應對遮擋的情景時,本文算法在精度-魯棒性上均與第1 名的ATOM 保持一致,同時在魯棒性上高于基準算法與DaSiamRPN,這一現象的原因可以歸結為多個AC 模塊的引入,利用第1 幀選定的未被遮擋的目標作為監督,在線更新當前采樣得到的目標樣本,從而使其在兼顧多幀目標和遮擋語義的同時,也能保持與初始選定的目標相近的語義信息,保證了跟蹤性能.
由圖9 可以看出,基于相關濾波的KCF和SRDCF 在序列長度增加到200 幀后,其對應的期望重疊率性能低于0.2,這說明KCF 和SRDCF 的跟蹤性能對序列的長度更敏感.SiamFC 在序列長度超過200 幀時性能出現了明顯下降,對應的EAO只有0.2.本文算法在m=6 時,比基準算法有較大的提升.

圖9 跟蹤器在VOT2018 基準模式下的期望重疊率性能對比Fig.9 Trackers'expected overlap performance comparisons on VOT2018
本文在VOT2018 的非監督實驗模式下與基準算法以及其他最新的跟蹤器進行對比,得到非監督模式下的期望重疊率對比曲線如圖10 所示.可以看出,本文算法在4 個情景下對基準算法有明顯提升.當m=9 時,本文算法在所有6 種情況下的性能都好于基準算法.在光照變化情景下,好于DaSiamRPN.在所有7 種情況下,本文算法均好于OTB 中第1 名的算法ECO.當m=9 時,跟蹤器在所有6 種情景下表現最好.在整體對比環節,m=9時有更好性能.同時,與最先進的單目標跟蹤器相比,本文算法也有較強競爭力.由于ATOM 未給出在非監督模式下的評測結果,因此本文顯示的都為0.

圖10 在VOT2018 的非監督模式下的EOA 對比曲線Fig.10 EOA comparison curve of unsupervisized training on VOT2018
在VOT2018 的實時性能對比中,得到的期望平均重疊率曲線如圖11 所示.可以看出,本文算法與基準算法的實時性能相比較差.因為本文算法使用異步互相關模型 增加了額外開銷,因而實時性能較基準算法差,但損失的實時性能要遠小于跟蹤精度與魯棒性的提升.

圖11 在VOT2018 的實時性能對比下的EOA 對比曲線Fig.11 EOA comparison curve in realtime on VOT2018
為更加直觀地看出本文算法與其他算法在實時性能上的對比情況,本文將不同跟蹤器在實時性能上的期望重疊率排名情況進行可視化,如圖12所示.可以看出,雖然所提算法在實時性能上有所犧牲,但該指標下的跟蹤精度損失很小.同時,本文算法在監督實驗和非監督實驗上的性能都要普遍優于基準算法.

圖12 在VOT2018 的實時性能對比下不同跟蹤器的期望重疊率性能排名情況對比Fig.12 Ranking of different trackers'expected overlap ratio in realtime on VOT2018
針對基于孿生網絡的單目標跟蹤器在面對相似語義目標時會發生跟蹤失敗的情況,本文提出了一種異步相關的判別性學習模型,在Got-10k、TC128、OTB 和VOT2018 數據集上的實驗結果表明,本文算法可顯著提升跟蹤器魯棒性和精度.在Got-10k上的消融實驗表明,本文提出的異步相關判別模型、二階優化方法和基于KL 散度的多模型融合管理算法,可有效提升跟蹤性能,并在TC128 上做了進一步的驗證.在OTB 上對跟蹤器在不同跟蹤條件下的跟蹤性能進行對比發現,本文算法可有效改善基準算法在11 種跟蹤情景下的性能.并在Got-10k上進行了實驗結果的可視化,驗證了本文方法帶來的判別性.同時在OTB 上對這一判別性做了進一步驗證.最后本文在VOT2018 中驗證了本文方法可以有效提升基準算法的精度和魯棒性.通過引入異步相關模型,本文算法在犧牲較少實時性能的情況下提升了準確度.在未來的工作中,將探究一種自適應使用異步相關模型個數的方法,以增強跟蹤器的泛化性能.