溫 靜,李 強
(山西大學計算機與信息技術學院,太原 030006)
(?通信作者電子郵箱wjing@sxu.edu.cn)
視覺目標跟蹤作為計算機視覺領域的重要課題,主要用于研究視頻幀之間對象的時空關聯(lián)性,在自動駕駛、智能交通監(jiān)控、人機交互、醫(yī)學診斷和行為識別等諸多領域有著廣泛的應用[1]。依據(jù)跟蹤目標數(shù)目的不同,目標跟蹤可分為單目標跟蹤和多目標跟蹤,本文主要研究單目標跟蹤。單目標跟蹤旨在給定某視頻第一幀中任意目標的位置和大小,在視頻的后續(xù)幀中預測該目標的位置和大小。
目標跟蹤的早期研究主要利用邊、角和輪廓等視覺特征進行目標跟蹤。視覺跟蹤算法的基本框架一般由搜索策略、特征提取和觀測模型等模塊組成。傳統(tǒng)機器學習算法在特征提取階段主要采取方向梯度直方圖[2]、顏色特征提?。–olor Names,CN)[3]等方法,這些方法存在特征信息不完整、有噪聲等缺點,導致跟蹤精度下降。
近幾年基于卷積神經網(wǎng)絡(Convolutional Neural Network,CNN)的特征提取算法在視覺目標跟蹤上得到了廣泛的應用。Danelljian 等[4]利用預訓練VGG(Visual Geometry Group)網(wǎng)絡提取目標的深層特征與淺層特征,并將提取到的特征融入相關濾波器?;陬A訓練網(wǎng)絡的深度特征提取算法增強了特征的外觀表征能力,提升了算法精度,但網(wǎng)絡參數(shù)過多以及目標模型的在線更新導致算法的跟蹤速度滿足不了實時的要求。
針對基于預訓練網(wǎng)絡跟蹤算法因其網(wǎng)絡參數(shù)頻繁在線更新而導致時間效率較低的問題,Bertinetto 等[5]提出了一種基于全卷積孿生網(wǎng)絡(Fully-Convolutional Siamese Network,SiamFC)跟蹤算法。該算法通過計算候選區(qū)域和目標模型的相似度來預測目標的最終位置。SiamFC 在跟蹤過程中不需要在線更新網(wǎng)絡參數(shù),顯著提升了跟蹤算法的時間效率。在SiamFC 算法的基礎上,Li 等[6]結合了SiamFC 和Faster R-CNN中的區(qū)域生成網(wǎng)絡(Region Proposal Network,RPN)模塊提出了SiamRPN。當SiamRPN 算法預測到正確的目標時,會預測跟蹤目標的長寬比給出更為精確的box 尺度,使得跟蹤算法達到了較高的精度。Wang 等[7]發(fā)現(xiàn)當物體發(fā)生旋轉時,簡單的box表述會產生極大的損失。Wang等認為通過直接預測物體的mask 可以得到更準確的box?;诖耍琖ang 等提出了對視覺目標跟蹤(Video Object Tracking,VOT)和視頻目標分割(Video Object Segmentation,VOS)的統(tǒng)一算法SiamMask。SiamMask 縮小了任意目標跟蹤與VOS 之間的差距,在視頻跟蹤任務上達到了最優(yōu)性能,并且在視頻目標分割上取得了當前最快速度。
雖然上述跟蹤算法實現(xiàn)了較好的跟蹤性能,但通過實驗發(fā)現(xiàn)SiamMask 存在一些問題。圖1(a)顯示中間人物是待跟蹤目標,上方人物是相似的目標。圖1(b)是得到的特征置信圖,從置信圖可以發(fā)現(xiàn)相似目標對跟蹤目標會產生干擾,進而導致目標框選位置發(fā)生偏移,如圖1(c)所示。因此,考慮利用視頻幀之間時空上的高度關聯(lián)性來增強跟蹤目標的特征顯著性,改進后的響應圖如1(d)所示,得到了更精確的位置響應。

圖1 相似干擾目標Fig.1 Similar interference object
為了充分利用時空上下文信息,本文在SiamMask 算法的基礎上引入一個短期的記憶存儲模塊來存儲歷史幀的外觀特征。然后,利用歷史幀和當前幀的目標特征具有強相似性,提出了外觀顯著性增強模塊(Appearance Saliency Boosting Module,ASBM)。該模塊利用歷史幀和當前幀特征相關性,進一步增強當前幀的目標特征,最終提高跟蹤的精度。
為了任務的多樣性和跟蹤的實時性,本文采用了基于多任務全卷積的孿生網(wǎng)絡框架。
本文主要基于SiamMask 算法[7]來構建網(wǎng)絡體系框架。當進行跟蹤任務時,網(wǎng)絡的上分支主要負責提取視頻目標的特征信息,網(wǎng)絡的下分支主要負責提取視頻當前幀的特征信息;之后將兩個特征圖做互相關,得到候選區(qū)域的響應特征。為了跟蹤任務的準確性,本文采用了兩種不同生成旋轉框的方式:一種是通過RPN 模塊生成固定長寬比;另一種是根據(jù)分割分支生成旋轉框。將響應特征采用第一種生成旋轉框策略僅得到跟蹤結果,將響應特征采用第二種生成旋轉框策略將得到跟蹤和分割結果。
為了充分挖掘視頻目標跟蹤任務中豐富的時空線索,本文對孿生網(wǎng)絡的下分支進行了改進,在圖2 中展示了訓練網(wǎng)絡的總體框架。如圖2所示,上支以127×127大小的圖像作為模板輸入,下支以255×255 大小的圖像作為輸入;經過共享權重的ResNet-50 框架Φ提取圖片信息特征,對于網(wǎng)絡下支,提出短期記憶存儲池保留了視頻的歷史幀特征信息;其次通過外觀顯著性增強模塊捕獲上下文信息,實現(xiàn)當前幀特征的顯著性增強,減少環(huán)境中相似物體的干擾;再次,對上下支進行特征互相關;最后,通過卷積激活得到目標跟蹤和分割結果。

圖2 時空上下文信息增強結構Fig.2 Spatio-temporal context information enhancement structure
視頻上下幀之間具有強時空關聯(lián)性。目前大多數(shù)流行的跟蹤算法只利用當前幀特征信息進行目標跟蹤,當該幀跟蹤結束后,將重新初始化下一幀進行跟蹤。這些算法缺乏對同一目標在相鄰視頻幀之間關系的利用。圖3為利用CNN提取視頻中特征信息的熱度圖結果。通過實驗發(fā)現(xiàn)不同幀中提取出來的特征通常關注物體相同的顯著部分。為了充分利用歷史幀中潛在的顯著特征,本文引入短期記憶存儲池來保留歷史幀特征。具體而言,在記憶存儲池中動態(tài)地保留了包含當前幀的三幀視頻特征(Ft,F(xiàn)t+1,F(xiàn)t+2),之后將拼接后的三幀特征送入ASBM。

圖3 熱度圖Fig.3 Heat map
本文借鑒圖匹配[8]和查詢記憶機制[9]的思想提出了一種基于特征對齊的ASBM。
1.3.1 特征對齊
目標特征存在于歷史幀中不同的位置,這就導致提取出來的目標顯著特征位置不一致,必須以某一幀為基準對其他幀的特征進行調整對齊。因此,本文利用圖匹配以當前幀的特征為基準重建歷史幀的特征以達到對齊的目的。圖匹配通過計算場景圖像特征和參考圖像特征的余弦相似度來建立場景圖像和參考圖像特征之間的相關性。在網(wǎng)絡中體現(xiàn)為,以當前幀特征為參考信息,將歷史幀特征作為場景信息,通過將當前幀特征和近鄰幀的特征計算余弦相似性得到相似性度量矩陣,然后將歷史幀信息與相似性度量矩陣相乘得到重建后的歷史幀信息。
1.3.2 特征增強
在特征對齊基礎上的特征增強可以提高目標的顯著性,直接對對齊后的特征通道進行簡單疊加就可以達到特征增強的目的。這種方法的性能雖然有一定的提升,但是同時也會將歷史幀中干擾信息疊加到當前幀中。基于此,本文對上下幀特征的增強方式進行了改進。本文采用一種類似查詢記憶(query-memory)機制,通過將當前幀特征與歷史幀特征做相似性度量,以此得到當前幀與歷史幀中相似目標的相似度,通過相似度可以得到當前幀的顯著信息并進行增強。
1.3.3 整體結構
圖4 顯示了外觀顯著性增強模塊的具體結構,網(wǎng)絡上支輸入為當前幀的外觀特征信息Q∈RH×W×H,下支為歷史幀的外觀特征信息M∈RS×H×W×D,將上下分支特征經過L2 正則(L2norm)計算,之后將當前幀特征矩陣和近鄰幀的特征矩陣進行相乘得到余弦相似度矩陣,將歷史幀特征與矩陣相乘得到重建后的歷史幀,實現(xiàn)特征對齊。

圖4 外觀顯著性增強模塊Fig.4 Appearance saliency boosting module
對于特征增強結構,將當前幀的特征映射視為查詢幀Q,記憶幀為包含三幀的歷史幀特征的集合M,用來增強查詢幀Q的表示能力。首先將Q通過全局平均池化操作(Global Average Pooling,GAP)生成信道統(tǒng)計q∈RD,用來作為查詢幀的統(tǒng)計描述符;之后將M重構數(shù)組維數(shù)為M∈R||M×D(M=S×H×W),將M看作一組D維局部描述子,||M為重構完的特征大小,D為重構完特征的維度;接下來,將q和M相乘得到其余弦相似性響應圖(式(1)),該余弦相似性就是關于查詢向量與存儲器中的每個描述符匹配程度的概率圖。

其中:Mi∈RD描述了第i個局部描述符,q和M通過二范數(shù)正則化后相乘得到P,t是超參數(shù)。然后通過算式O=MTP計算存儲器中所有描述符值的和。通過這種方式,M描述符中與Q中相似的特征將呈現(xiàn)更高的權重,同時可以避免低質量幀中信息被破壞。
最后,通過式(2),將O以一種殘差的方式傳遞到Q中。其中,BN是一個批規(guī)范化操作,用來提高網(wǎng)絡的泛化能力。

損失L3B由mask 分支、score 分支和box 分支三部分組成。對于score 分支采用二分類交叉熵損失函數(shù),將anchor 分為正樣本和負樣本;box 分支主要采用文獻SiamRPN 中的smooth_L1損失,首先利用式(3)將anchor的坐標標準化。

其中:x、y、w、h代表矩陣中心的坐標以及矩陣的寬和高;T和A分別代表groundtruth boxes 和anchor boxes。然后通過式(4)計算smooth_L1損失,得到box分支的損失。

其中:f為anchor 的坐標經過式(3)標準化后的特征圖。但對于mask 分支,其損失函數(shù)為式(5),其中yn是ground truth 標簽,分為1和-1,w、h為mask矩陣的維度。


將本文算法與SiamMask[7]、SiamRPN[6]、DaSiamRPN[10]、SiamRPN++[11]和 ATOM(Accurate Tracking by Overlap Maximization)[12]進行了對比分析。其中,SiamMask 在多任務框架下完成了跟蹤和分割的工作,因此,將本文提出的算法在單任務、帶有分割的多任務下與SiamMask算法進行對比。
本文算法基于PyTorch框架實現(xiàn),算法的主干網(wǎng)絡采用在ImageNet-1k 分類任務上訓練ResNet-50[13]作為預訓練網(wǎng)絡。訓練過程中使用隨機梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器,前5 個epoch 學習率從10-3到5× 10-4,在15 個epoch內逐漸降到5× 10-4。本文使用COCO[14]、ImageNet-VID[15]和YouTube-VOS[16]數(shù)據(jù)集訓練網(wǎng)絡。本文實驗在兩塊NVIDIA 1080Ti GPU,64 GB 物理內存和i7-8700K CPU 上進行跟蹤算法訓練,在一塊NVIDIA 1080Ti 和i7-8700K CPU 上進行跟蹤算法的測試,編程語言為Python。
為了驗證本文算法的有效性,采用了兩個廣泛使用的數(shù)據(jù)集進行算法測試:VOT2016[17]和VOT2018[18]。VOT2016 和VOT2018均包含60段視頻,60段視頻中包含單目標跟蹤領域中的難點問題,如相機變化、尺度變化、光照變化和遮擋。VOT2018 將VOT2016 中的一些跟蹤準確的序列進行替換,并對于序列的真值進行了重新標定,給出了更為準確的標注信息。根據(jù)VOT 的評估協(xié)議,本文采用了預期平均重疊率(Expected Average Overlap rate,EAO)、準確率(Accuracy,A)和穩(wěn)健性(Robustness,R)指標來表示跟蹤性能。其中,EAO是一種綜合考慮跟蹤算法準確性和穩(wěn)健性的度量指標,該指標越大越好;準確性(A)用來評價跟蹤算法跟蹤目標的準確度,其值越大表示準確率高;R 表示跟蹤算法的穩(wěn)定性,值越小表示跟蹤性能越穩(wěn)定。
對比實驗分為兩部分:充分考慮到生成旋轉框的策略,在VOT2016 上分別采取box 策略(傳統(tǒng)的固定或可變縱橫比的軸對齊邊界框,即不加目標分割任務mask 分支)和最小外包矩形(Minimum Bounding Rectangle,MBR)策略(通過mask 分支得到分割結果,并根據(jù)分割結果得出最小的旋轉邊框),將其應用于SiamMask 算法和本文提出的SiamAsbm 算法。最終實驗結果如表1 所示,本文算法SiamAsbm-box(無分割任務優(yōu)化旋轉框)在準確率和平均重疊率上明顯優(yōu)于基準算法,而在SiamAsbm-MBR 下能獲得更優(yōu)的性能(如表1 中最后一行所示)。MBR 策略生成旋轉框的方式相比較傳統(tǒng)生成旋轉框的策略有著整體的性能提升。

表1 在VOT2016數(shù)據(jù)集上的實驗結果Tab.1 Experimental results on VOT2016 dataset
表2 顯示了本文算法與5 種主流的目標跟蹤算法在VOT2018 上的實驗對比,同樣對比了SiamMask 在加入box 和MBR,以及本文算法SiamAsbm 在分別加入box 和MBR 的性能。本文算法SiamAsbm-MBR 在穩(wěn)健性上相比SiamMask-MBR 降低了2.8 個百分點,在平均重疊率和準確率上提高了1.1 個百分點和3.7 個百分點。本文提出的模塊可以得到準確的旋轉框使得算法在準確率上優(yōu)于其他算法,但跟蹤任務存在大尺度變化和遮擋問題,因而得不到準確分割結果,導致魯棒性和平均重疊率提高不明顯。

表2 在VOT2018數(shù)據(jù)集上的實驗結果Tab.2 Experimental results on VOT2018 dataset
算法分為基于存儲池模塊和ASBM 模塊,其中,存儲池模塊可以進行特征疊加操作;ASBM 模塊包含兩個操作,一個是特征對齊,另一個是對于當前幀的特征信息增強。為了驗證本文算法的有效性,采用如下方式進行消融分析。
1)采用文獻SiamMask 中的基礎網(wǎng)絡作為基準網(wǎng)絡(Baseline)。
2)在Baseline 中通過短期記憶存儲池存儲歷史幀特征,并進行特征疊加。
3)在Baseline 中保持歷史信息,加入特征對齊模塊(Appearance Align),進行特征疊加。
4)在Baseline 中保持歷史信息,加入外觀顯著性增強模塊ASBM,對當前幀進行特征增強。
從表3 的實驗結果可以看出,特征對齊模塊相對于跟蹤的魯棒性有明顯的增強,特征增強模塊對于跟蹤的準確率有明顯提高。

表3 消融實驗Tab.3 Ablation experiment
圖5 為跟蹤螞蟻圖片,原圖中存在較為相似的三只螞蟻,通過將歷史幀特征疊加到當前幀中可以得到圖5(b),通過置信圖可以看出目標輪廓模糊。之后經過特征疊加到當前幀可以得到圖5(c),可以發(fā)現(xiàn)目標螞蟻在置信圖中獲得了清晰的輪廓,但同時圖中還存在一定的干擾物體。當經過特征增強模塊之后得到圖5(d),可以發(fā)現(xiàn)當前跟蹤目標的輪廓得到了進一步增強,并且干擾物的信息得到了明顯抑制。

圖5 置信圖Fig.5 Confidence graph
在多任務中,本文同時對目標進行分割,而跟蹤對分割的性能也有明顯的提高,這是因為傳統(tǒng)算法是在整幅圖片上分割目標,而在多任務中,目標跟蹤和特征對齊增強都能縮小分割的范圍,提高分割的效率。表4 和表5 是本文算法在DAVIS-2016[19]和DAVIS-2016[20]視頻目標分割驗證集上的結果。DAVIS-2016 和DAVIS-2016 分別包含20 和30 個驗證視頻,視頻中的每一幀以二進制掩碼的方式手工創(chuàng)建分割。度量指標分別是區(qū)域相似度J、輪廓精度F和時間穩(wěn)定性T。對于每次度量C∈{J,F(xiàn)}考慮三個統(tǒng)計平均值(mean)、查全率(recall)和下降率(decay),在表中分別表示為JM、JO、JD、FM、FO、FD、TM。表6 則列出了在NVIDIA 1080Ti GPU 的硬件設備條件下,本文算法與其他分割算法的運行時間對比。

表4 在DAVIS-2016數(shù)據(jù)集上的實驗結果Tab.4 Experimental results on DAVIS-2016 dataset

表5 在DAVIS-2016數(shù)據(jù)集上的實驗結果Tab.5 Experimental results on DAVIS-2016 dataset

表6 速度分析 單位:幀率Tab.6 Speed analysis unit:fps
由表4~6 中的數(shù)據(jù)可以看出,與傳統(tǒng)算法相比,本文算法在區(qū)域相似度與輪廓精度上的表現(xiàn)雖然不是最優(yōu),但速度提升到了32 fps,能滿足實時要求;而與能實時處理的SiamMask算法相比,本文算法在大多指標上能獲得更好的表現(xiàn),因為特征增強模塊使得特征目標輪廓更加準確;同時,相較于其他方法,本文方法在decay 實現(xiàn)了更低的衰減,這表明本文方法隨著時間的推移是穩(wěn)健的。
圖6 顯示了本文算法在VOT 和DAVIS 測試集上的結果,其中Iceskater、girl、crabs 屬于VOT 測試集,Bmx-trees 和Dogsjump 屬于DAVIS 測試集。在VOT 測試集中展示了分割和跟蹤結果,DAVIS 展示了分割結果。從圖6 跟蹤分割結果可以清晰看出,本文算法不論在復雜場景(crabs),還是簡單場景(Dogs-jump)都有很好的分割和目標框的結果。除此之外,因為集成了上下文信息,所以本文算法在面對復雜上下文關系(Iceskater、girl)時,仍然能準確進行目標框的檢測而不受上下文信息的干擾。但是對于分割數(shù)據(jù)集,算法由于沒有得到更多的訓練,導致分割結果在細節(jié)信息的處理上不夠完善。

圖6 跟蹤分割結果Fig.6 Tracking and segmentation results
本文算法也會出現(xiàn)跟蹤失敗的案例。如圖7(a)為要跟蹤的目標,圖7(b)為當前幀。由圖7 可以看出,當跟蹤物體運動、尺度和形狀變化劇烈時會導致跟蹤失敗,如圖7(b)中箭頭所指的目標就會丟失跟蹤。這是由于訓練數(shù)據(jù)集缺少具有較大仿射變化的樣本,同時訓練網(wǎng)絡缺乏尺度表達能力造成的。

圖7 失敗案例Fig.7 Failure case
本文提出了一種基于時空上下文信息增強的目標跟蹤算法。該算法通過引入短時記憶存儲池和提出外觀顯著性增強模塊ASBM,可以獲得較為完善、清晰的物體外觀,有助于提高跟蹤和分割多任務的準確性。通過跟蹤鄰域的VOT2016和VOT2018 數(shù)據(jù)集上的實驗結果表明,本文算法相較于本文中的其他單視頻目標跟蹤算法在準確率上有很大的提升;而在目標分割鄰域的DAVIS-2016 和DAVIS-2017 數(shù)據(jù)集上的實驗結果表明,本文算法相較于本文中其他單視頻目標分割算法在速度上達到了實時性要求,但是其他指標提升不夠明顯。在DAVIS-2016 和DAVIS-2016 數(shù)據(jù)集上的實驗結果表明,本文算法在性能和速度上均有較好的表現(xiàn);但算法在面對物體劇烈形變時,仍然會出現(xiàn)跟蹤失敗的情況,有待進一步研究。下一步的工作將利用數(shù)據(jù)增強手段,進一步增強數(shù)據(jù)和網(wǎng)絡的表達能力,提高目標跟蹤的性能。