梁華剛 高冬梅 龐麗琴
(長安大學電子與控制工程學院 西安 710064)
目標跟蹤在計算機視覺,視頻監控等領域都有重要作用。而目標的特征對于目標跟蹤來說又至關重要[10~11]。2013年Naiyan Wang等發表了Understanding and Diagnosing Visual Tracking Systems[1],作者提出了一個框架來判斷跟蹤系統好壞,并得出一個重要結論:目標提取的特征在追蹤系統中是最重要的。傳統核相關濾波目標跟蹤算法通過提取圖像一般特征對目標進行跟蹤,當目標發生遮擋快速等形變時,算法跟蹤性能逐漸降低。近年來,基于深度學習的相關算法通過提取圖像的深度特征,使算法在圖像處理以及語音識別等方面有很高的效率。因此,將神經網絡應用到核相關濾波目標跟蹤的特征提取中來,進而結合高效的核相關濾波計算[6~7],對于提高目標跟蹤算法的精確度和快速性有很大的幫助。
Naiyan Wang在NIPS2013提出的Learning a Deep Compact Image Representation for Visual Tracking(DLT)[2]網絡第一個把深度學習模型應用于目標跟蹤之上,作者提出了“離線預訓練+在線微調”的思路,很大程度地解決了跟蹤中訓練樣本不足的問題,但是算法雖然使用了4層的深度模型,效果仍低于一些使用人工特征的傳統跟蹤方法如Struck。2015年Martin Danelljan在KCF基礎上用深度卷積網絡提取特征的Convolutional Features for Correlation Filter Based Visual Tracking(Deep-SRDCF)[3],但 是 速 度 不 到 4fps。 2016 年 David Held提出Learning to Track at 100 FPS with Deep Regression Networks(GOTURN)[4]直接用了離線訓練+在線跟蹤的方案,將速度直接提高到了100fps,但是跟蹤準確度比KCF和相關濾波等傳統跟蹤模型要差。
針對上述問題,本文將卷積神經網絡與改進核相關濾波目標跟蹤算法相結合,形成一種特征魯棒性的,跟蹤速率也滿足實時性要求的目標跟蹤算法。
VGGNet由牛津大學的視覺幾何組(Visual Geometry Group)提出,是ILSVRC-2014中定位任務第一名和分類任務第二名。網絡輸入大小為224*224的RGB圖像,經過一系列卷積層處理。在卷積層中使用了非常小的感受野(receptive field)3*3,甚至有的地方使用1*1的卷積。卷積步長(stride)設置為1個像素,3*3卷積層的填充(padding)設置為1個像素。池化層采用max-pooling,共有5層,在一部分卷積層后,max-pooling的窗口是2*2,步長是2。一系列卷積層之后跟著全連接層。并以此構建了深度為11~19層的卷積神經網絡。所有隱藏層都使用ReLu,本文主要采用VGG16來提取目標特征。
相關濾波通過引入循環矩陣解決了樣本不足的問題,其次利用核函數將回歸計算映射到核空間,把時域內的卷積運算變換到頻域內乘積運算,大大減少了運算量[12~13]。
正則化最小二乘分類器模型因其具有訓練速度較快,實現簡單等特點,所以常被使用在一些實際問題中。它的訓練目標就是用樣本x訓練出一個如下 f(x)[5]:

使得正則化風險最小:

λ是正則化項參數,用來控制過擬合。
當樣本特征在原始空間不可分時,Henriques等通過引入嶺回歸和循環矩陣將相關濾波器通過核技巧將特征值映射到更高維的空間中,使它在高維空間線性可分。因此基于核的正則化最小二乘法給出嶺回歸的閉式解為

K為核矩陣,I為單位矩陣,向量 y的元素為 yi,向量a的元素為ai。結合上式可得:

這樣,訓練分類器的過程從尋找最優的w轉化成尋找最優的a。
對于輸入的圖像塊Z,核相關濾波響應為

對Z同樣進行循環移位得到大量候選樣本集Pi-1Z。KZ為訓練樣本和所有候選圖像塊的核,由酉不變核函數定理可知KZ為循環矩陣,且

Kxz為Kz矩陣的第一行,因此可計算出圖像Z在所有候選區域的目標概率分 f(z)。

f(z)的取值表示所有候選區域成為跟蹤目標的概率值,則它的最大值元素所對應的區域為目標區域。
本文利用VGGNet的卷積層提取目標特征,再將提取的特征與核相關濾波相結合。我們使用MatConvNet庫和VLFeat庫來實現VGGNet網絡特征提取及特征提取可視化過程。
特征提取部分主要目的是利用VGGNet網絡提取輸入圖像的特征圖,因為本文只利用其進行特征提取,所以只采用了前面卷積層,不包括池化層POOL5以及其后的三個全連接層FC6、FC7、FC8。為了直觀展示特征提取網絡每一層提取到的特征圖,本文用vl_imarraysc函數特征提取過程進行可視化處理。輸入網絡的原始圖片以及部分提取出的特征圖如圖1所示。
由圖1可以發現,卷積層提取圖像深度特征時,低層提取的卷積特征具有較多細節信息,可以幫助算法對目標進行精確定位,越往后卷積層可視化越模糊,雖然越深網絡輸出卷積特征具有較多的語義信息,但是這并不適用于目標精確定位。因此,本文通過實驗對比選取前4層卷積特征輸出對相關濾波器進行訓練。

圖1 提取輸入圖像HOG特征、RGB特征、深度特征
通過4層卷積層特征進行訓練,會得到4個相關濾波器,本文使用權重加權方式結合不同卷積層特征輸出,在第四層先求得響應圖譜中最大值,然后加入回歸權重,再逐層傳遞到低層的響應圖中。
傳統的CF跟蹤算法是用嶺回歸做分類,A0是所有循環平移圖像塊后構成的循環矩陣:

改進后框架在上式加入了更多的背景信息[8],將上式改為

式(9)中Ai為對應目標上下文塊構成的循環矩陣,使它們回歸到0。
在VGG-Net卷積層中,每一卷積層可以提取出目標高維特征X,X大小為M×N×L,M和N表示提取特征的寬和高,L表示特征的維度。將X進行循環移位得到大量訓練樣本,用高斯分布函數來求得每個訓練樣本對應的高斯分布標簽y。將訓練樣本和標簽作為輸入再變換到頻域內,學習得到相關濾波器W,通過結合式(9)可求得W如下:

式中W是回歸參數,上式對最小二乘求解可得到參數的目標函數,這個函數對應著濾波模板。使用卷積層特征訓練濾波器,再將其進行離散傅立葉處理,之后將濾波器變換到頻域。則濾波器在頻域的表達式為

使用上式得到濾波器表達式對圖像進行濾波操作,響應值按下式計算:

實驗通過下載fast-rcnn-vgg16-pascal07-dagnn.mat模型并在卷積神經網絡工具箱matconvnet下進行實驗,算法采用Matlab 2014a編程,試驗硬件環境Inter Core i 5-2450M CPU和GTX1070,電腦內存配置為4.00GB和32GB。實驗中所有用到的視頻都從 0TB-50[14]和 0TB-100 Sequences[14]里統一下載。
為了定性定量地分析本文算法的性能,文中使用跟蹤速率、精確度作為實驗評價標準[9]。

表1 試驗所選視頻及其主要挑戰

表2 算法在測試視頻上的跟蹤速率

表3 算法在測試視頻上的跟蹤精確度
由上表可以看出,提取目標傳統HOG以及RGB顏色特征時,當目標存在一定光照,尺度影響時,算法的跟蹤準確率較低,但是當提取目標深度特征時,算法整體跟蹤精確度較高,準確度達到90.5%,并且跟蹤速率也達到實時效果。

圖2 提取RGB、HOG+RGB以及深度特征時算法精確度圖
圖2 從上至下分別展示提取HOG特征、HOG+RGB特征以及深度特征時,算法整體在選取6組視頻上的精確度對比圖,由圖中可以看出,提取圖像深度特征對目標進行跟蹤時,算法具有較強的魯棒性,跟蹤精確度較高。
本文提出深度學習的核相關濾波目標跟蹤算法,通過VGGNet提取目標的深度特征并結合核相關濾波檢測算法,使目標發生遮擋、快速運動等時,算法魯棒性更強,達到改進目的。