董美辰,楊大偉,毛 琳
(大連民族大學 機電工程學院,遼寧 大連 116605)
現有跟蹤算法的特征提取方式在應對相機抖動、目標持續變化、周圍物體干擾等復雜多變的環境因素時,會出現目標特征表達不清晰而導致的跟蹤漂移問題。以相關濾波和孿生網絡為主要框架的判別式跟蹤方法[1],將跟蹤問題轉化為區分目標與背景的二分類問題,特征提取[2]作為分類問題的關鍵,提取深度學習特征相較傳統圖像特征應用效果更好[3]。基于相關濾波框架的DeepSRDCF[4]使用CNN淺層特征替換算法中常見的方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征,跟蹤精度有效提高,但深度特征的引入也帶來了較高的計算復雜度。Bhat等[5]提出將深層特征與淺層特征融合,深層特征負責魯棒性,淺層特征負責準確性,但數據增強在提升深層特征效果的同時會在淺層特征上出現反作用,兩部分模型需獨立訓練,且忽視了因數據增強擴展樣本反向傳播在速度方面的影響。全卷積孿生網絡(Siamese Fully Convolutional,SiamFc)[6]采用AlexNet[7]網絡進行特征提取,經過互相關操作生成響應圖,算法整體簡單高效但缺少細節特征,導致跟蹤器遇到較為復雜的背景信息時會出現錯誤。SA-Siam[8]在SiamFc基礎上引入語義特征,與表征特征結合,提高應對目標形變、旋轉的能力。SiamRPN++[9]消除了由于填充帶來的空間偏差問題,將ResNet-50[10]作為主干網絡,在深度孿生網絡上實現端到端學習。SiamMask[11]算法同時實現視頻目標跟蹤和視頻目標分割兩個任務,但跟蹤模型無法提供分割需要的精細特征,在目標模糊的情況下極大程度上會發生跟蹤失效。D3S[12]提出視頻分割與跟蹤互補框架,但分割模塊提取的特征信息表達欠佳,是造成跟蹤失誤的主要原因之一。
為解決特征提取問題,本文提出目標跟蹤頻率特征補償網絡(Discriminative Frequency Feature Compensation Network for Object Tracking,FCNet),采用調節圖像高低頻信息比例的方式獲得不同頻率的特征分量,通過特征補償模塊篩選合理的頻率區間,為基礎卷積提取的特征結果進行補償,從而獲得邊界清晰、結構完整的特征表達。
目標跟蹤基準算法網絡結構如圖1。搜索幀與模板幀圖像分別經過特征提取后,進行模板比對,若目標信息G中出現邊界模糊,只依靠位置信息L無法回歸準確的目標框。因此,跟蹤準確的關鍵是獲得清晰完整的特征表達[13],對于跟蹤過程中相機移動、光照變化等問題,邊緣、紋理特征作為高頻信息具有良好的不變性,調節圖像中的頻率信息并篩選合理的頻率區間進行特征信息補償,可以有效提高特征信息質量。

圖1 基準算法網絡結構
由于圖像具有頻率屬性,為獲得圖像中不同頻率區間的特征信息[14],本文構建圖像特征頻率調節單元Ε(下文簡稱“調節單元”),該單元通過改變頻率分量通道分配系數調節不同分量之間的比例關系。
假設將視頻幀中的特征分量分解為高頻特征XH、低頻特征XL,輸入調節單元Ε,引入八度卷積[15]Y對特征張量進行計算,降低計算復雜度的同時實現高效的頻間通信。輸出融合后的高頻信息SH、低頻信息SL,圖像特征頻率調節單元結構如圖2。

圖2 圖像特征頻率調節單元結構圖
定義:設X∈c×h×w為輸入特征張量,h×w表示空間維度,c表示通道個數。Y∈c×k×k為k×k的卷積核。圖像特征X={XH,XL},其中高頻映射為XH∈(1-η) c×h×w,低頻映射為融合輸出S={SL,SH},SL表示低頻特征,SH表示高頻特征。八度卷積將卷積核Y分為處理高頻信息處理和低頻信息兩部分,包含四個分量,Y={YL,YH},YL負責低頻部分,YH負責高頻部分的分量計算,YL={YL→L,YL→H},YH={YH→L,YH→H}。


(1)

(2)

SH=(XH?YH→H)+U(XL?YL→H) ;
(3)
SL=(XL?YL→L)+P(XH?YH→L) ;
(4)
S=[ηXL+(1-η)XH]·D。
(5)
式中:?為卷積操作;P為平均池化操作;U為上采樣操作;D為幅值系數;η∈[0,1]表示頻率分量通道分配系數。通過改變頻率分量通道分配系數η,控制輸出圖像中的高低頻信息占比。頻率分量通道分配系數η可依據圖像處理過程中的需求進行選擇,為平衡高低頻信息之間的比重,本文算法設置分配系數η為0.5。將經過D3S[12]算法中基礎卷積提取的特征信息,與經過調節單元Ε處理輸出的高頻分量結果作可視化對比,如圖3。

圖3 調節單元輸出高頻分量與普通卷積特征提取可視化對比
圖3中,第(1)行是單一目標的特征提取效果,目標是一只塑料袋,在簡單地面背景下,高頻分量中目標細節紋理清晰度顯著提高,降低了目標與背景之間的相似度。第(2)行展現的是日常復雜場景,目標包括三名過街行人,與D3S算法中的基礎卷積相比,處理后的高頻分量提取更多全局信息,特征表達能力增強。由此可見,通過調節圖像高頻信息分量的權重,可以凸顯目標輪廓信息,達到區分目標與背景的作用。
增大高頻信息權重,為圖像提供高頻區間信息補償有助于提高邊緣、細節部分的特征表達能力,但如果完全專注于增強高頻區間特征而放棄低頻部分,會導致圖像整體信息不夠完善,對圖像的特征表達產生反作用。為尋找合理的特征補償圖像,級聯調節單元Ε,結構圖如圖4,Φ(n)表示級聯n個調節單元。

圖4 特征補償模塊結構圖
特征補償模塊級聯層數為n,選擇參數r可以決定每一級輸出的特征分量,模塊Φ數學表達為:
(6)

模塊Φ在調節高、低頻分量的基礎上,改變每一級輸入的特征分量比例,篩選合理的頻率區間段特征,既突出了高頻特征的細節優勢,又保證了低頻信息對整體的完善作用。模塊Φ填補了圖像特征中邊緣紋理信息缺失的部分,使目標與背景之間具有較高的區分度,提高整體算法的精度和穩定性。
目標跟蹤頻率特征補償網絡整體結構如圖5。

圖5 目標跟蹤頻率特征補償網絡
搜索幀特征Xn和模板幀特征X01分別經過兩條支路處理,基礎卷積支路包含1×1卷積和3×3卷積,提取圖像通用特征,特征補償模塊Φ篩選所需頻率區間特征補償,彌補圖像邊緣特征的識別能力,通過特征融合,得到清晰完善的特征表達F(X01)、F(Xn):
F(X01)=c3?(c1?X01)+Φ(X01) ;
(7)
F(Xn)=c3?(c1?Xn)+Φ(Xn) 。
(8)
式中:c1為1×1卷積;c3為3×3卷積;?為卷積操作;F(X)為經過高頻補償后的圖像特征。輸入模板匹配模塊進行相似度計算:
G01={F(X01)i:i∈g(F(X01)*)} ;
(9)
G=Hsimilarity(F(Xn),G01) 。
(10)
式中:F(X01)*為模板幀真值;g(F(X01)*)為目標像素集合;F(X01)i表示F(X01)中第i個位置的特征向量;Hsimilarity為余弦相似度計算函數。搜索幀與模板幀的目標像素集合相似度計算后輸出目標信息G。
頻率特征補償網絡在保證圖像完整性的同時,突顯了目標邊緣特征,達到降低目標、背景之間相似度的效果,使特征表達在目標外觀變化或背景干擾等情況中具有更強的適應性,進行模板比對時可以更加準確的在搜索幀中分割出目標輪廓。
實驗使用NVIDIA GeForce 1080Ti顯卡,基于Python3.7和PyTorch1.1.0框架實現。
骨干網絡由ResNet50前四層組成,在YouTube-VOS[16]的3 471個訓練分割序列上進行預訓練。訓練過程使用ADAM(Adaptive Moment Estimation)[17]優化器,學習速率為10-3,每15個epoch衰減0.2次,用64對圖像對批量進行40個epoch訓練,每個epoch迭代1 000次。計算分割預測和真值之間的交叉熵,作為訓練誤差。
評估主要基于兩個短時跟蹤數據集:VOT2016[18]、VOT2018[19]。為保證實驗公平性,實驗中涉及跟蹤算法數據結果均來源于對應論文或使用其開源代碼和給定參數實際運行所得。
通過比對精度(Average Overlap over Successfully Tracked Frames,Acc)、魯棒性(Failure Rate,Rob)和期望覆蓋率(Expected Average Overlap,EAO)[18]衡量跟蹤器性能。
在VOT2016和VOT2018數據集上與現階段較為優秀的跟蹤算法進行對比試驗,實驗結果見表1。

表1 VOT數據集評估比較結果
從表1可以看出,本文算法在VOT2016和VOT2018上三項指標均優于全部測試跟蹤器,取得了非常具有競爭力的表現。VOT2016中,與原算法D3S相比,EAO、Acc和Rob分別提升1.68%、0.29%和0.32%。在VOT2018中FCNet較D3S算法EAO、Acc和Rob分別提升1.16%、0.30%和0.59%。在不同視覺屬性下跟蹤器精度比對見表2,魯棒性比對見表3。

表2 不同視覺屬性下Acc對比

表3 不同視覺屬性下Rob對比
如表2所示,FCNet雖然在遮擋、運動變形情況下精度略微下降,但在其他挑戰下均有改善。為更好展示算法性能,本文在VOT2016、VOT2018兩個數據集中選擇了四組具有代表性的視頻序列,將本文算法與基準算法D3S實際表現進行對比,部分視頻幀可視化如圖6。

圖6 FCNet與D3S[12]跟蹤實際表現對比
圖6第(1)行處于實際交通場景中,由于相機運動,造成前方目標模糊、變形,D3S無法準確框定目標,在第57幀和第419幀中只能捕捉到目標局部,而本文算法可以準確鎖定目標輪廓。第(2)行中足球作為目標快速移動,D3S跟蹤器在第14幀出現跟蹤漂移,直到視頻序列結束。FCNet與之相比定位目標更準確,沒有出現目標丟失的現象。第(3)行所示目標為河面上飛行的鳥,目標在運動過程中尺度變化較大,在第142幀和第217幀中,D3S沒有完全捕獲目標,而FCNet可以很好應對目標變形情況。第(4)行中白色兔子在雪地中奔跑,目標與背景相似度極高,第66幀中,D3S出現無法準確框定目標,到第99幀時,給出目標框的范圍過大,不夠準確,第114幀又出現目標丟失的狀況。FCNet表現足以證明算法可以更好應對相似背景下的挑戰。
為驗證特征補償模塊中模塊級數差異、不同頻率特征融合方式的有效性,在VOT2018上對不同級聯方式進行消融實驗,三項指標對比見表4。若模塊Φ采用第一級融合輸出高頻信息SH作為第二級的特征輸入,第二級輸出低頻信息SH作為第三級輸入,最后一級輸出處理得到的低頻信息SL,調節模塊表示為ΦHHL。

表4 不同級聯方式在VOT2018數據集上的實驗結果
從實驗結果可以看出,ΦHLL采用三級級聯,提取高頻段中相對低頻,更趨向于中頻特征信息,這部分區間可以更好地提供補償特征。相比融合純高頻的部分,摒棄更多細節信息,專注中間信息,可以使目標背景區分更明顯。ΦHLH在精度上略有影響,但在魯棒性上有明顯改善。因此,選取恰當的級聯方式,調節頻率信息融合比例,可提高圖像特征的表達能力,實現魯棒跟蹤,其中ΦHLL模塊的級聯方式效果最佳。
本文提出一種目標跟蹤頻率特征補償網絡,采用頻率調節單元改變圖像中的頻率信息比例,通過級聯調節單元的方式為網絡提供指定頻率區間的特征補償。突出邊緣紋理等高頻特征并保留用于完善圖像的低頻特征,使特征圖兼具區分性和完整性。經實驗驗證,本文算法可以有效提高模型的特征提取能力,改善了目標出現非剛性變形、相機快速移動等情況下的跟蹤效果,具有良好的魯棒性。