郭 利,周盛宗
1(福建師范大學 數(shù)學與信息學院,福州 350117)
2(中國科學院 福建物質結構研究所,福州 350002)
近年來,目標跟蹤在視頻監(jiān)控、運動分析、人機交互、自動駕駛及交通安防等領域獲得了長足發(fā)展.但大多數(shù)目標跟蹤算法不但在面對光照變化、運動模糊、快速運動、背景混亂、遮擋等復雜環(huán)境下跟蹤失敗,而且在目標變形、旋轉、姿勢變化等劇烈變化時也表現(xiàn)欠佳.因此,有必要繼續(xù)探索健壯的目標跟蹤算法.
以往研究表明,有效的特征一般能較好的表示跟蹤目標并快速運算,代表性的有顏色特征[1]、紋理特征[2]、灰度特征[3]、超像素特征[4]、Lab 特征[5]等.得益于特征引入頻域,將矩陣乘法運算轉化為點乘運算,基于相關濾波的目標跟蹤算法獲得了長足發(fā)展.譬如:基于單通道灰度特征的MOSSE[6]和CSK[7]、基于11 通道顏色特征的CN[8]、基于31 通道HOG 特征的KCF[9]、基于42 通道特征(31 維HOG 特征、10 維顏色特征、1 維灰度特征)的SAMF[10]、基于HOG 特征和顏色特征的Staple[11]、基于HOG 特征和Lab 特征的SACFT[12]等.這些算法一般將不同特征簡單疊加或以固定比例組合,未考慮實時特征組合對目標跟蹤的影響.針對該問題,趙高鵬等[13]基于峰值旁瓣比融合灰度特征和LBP 特征,陳法領等[14]基于峰值旁瓣比和相鄰幀間的響應一致性融合紋理特征和顏色特征,尹寬等[15]基于融合特征器的可信度選擇合適線性組合方式,常敏等[16]基于平均峰值-相關能量方法融合不同特征.與幾位學者從特征類別層面融合特征的做法不同,本文算法從特征通道層面融合特征,該算法通過各通道對響應值的貢獻度調整權重,構建實時特征組合,進而控制特征融合,從而提升跟蹤效果.
本文算法的亮點主要表現(xiàn)在以下幾個方面:(1)引入通道權重矩陣,不破壞循環(huán)矩陣性質,不影響閉合求解;(2)先對特征矩陣和權重矩陣點乘,不影響框架將矩陣乘運算轉化到傅里葉域下求點乘;(3)基于各通道響應值構建權重更新策略,及時捕捉目標運動狀態(tài),靈活構建特征組合.
相關實驗結果表明:通道權重在特征融合過程中,發(fā)揮著很大的作用;本文提出的特征融合算法在跟蹤目標時能有效提升精確度和成功率.
為了能夠使用多維度特征,Galoogahi 等[17]提出多通道相關濾波算法.該算法設定:

式中,N是樣本數(shù)目,D是循環(huán)移位的位數(shù),yi(j)是期望相關響應的第j個元素,K是特征通道數(shù)目,h(k)是第k通道的過濾器,是[第i]幀第k通道的向量化,Δτj表示循環(huán)位移操作,是對做j步的循環(huán)位移,λ是規(guī)范化系數(shù).
在跟蹤過程中,各個通道對響應值的貢獻度不同,而該算法將各通道等同看待.因此,提出基于通道融合特征的目標跟蹤算法.該算法的目標函數(shù)如下:

式中,N、D、yi(j)、K、、h(k)、、Δ τj、λ 同式(1)中變量意義相同,是對做j步的循環(huán)位移.
與式(1)相比,式(2)中添加了.該項通過各通道響應值占比(見式(3))構建,與相乘實現(xiàn)自適應特征組合,一定程度上發(fā)揮著特征權重的作用.具體實現(xiàn)如下:

為保證的準確性,對式(3)中的引入?yún)^(qū)域評估機制.該機制基于一個前提和一個區(qū)域特性.該前提設定如下:

式中,(posm,posn)是最佳坐標位置,M是搜索區(qū)域的寬度,N是搜索區(qū)域的高度,(m,n)是第i幀第k通道(m,n)處的響應值.

為緩解這一問題,引入滑動窗口機制.該機制限定模型僅依據(jù)當前幀及其以前的部分幀,來更新通道權重.在減緩通道特征累加風險的同時,捕捉最近的模型變化,舍棄較久遠的變化.該機制設定如下:

式中,是第I+1 幀第k通道的權重,是第k通道的初始值,ratiow是權重學習率,是第i幀第k通道的權重,n是參與權重更新的幀數(shù)目.
目標函數(shù)式(2)可以化簡為:

式中,y是回歸目標yi的集合,Xβ是是的循環(huán)矩陣,ω是線性回歸方程的投影矩陣.
求解式(7)得:

式中,X、Xβ、y同式(7)中對應變量意義相同,I是單位矩陣.
在復數(shù)空間的傅里葉域下:

式中,XH是X的復共軛轉置,XH=(X?)T.
引入核機制[9],將線性問題的輸入映射到非線性空間φ (x),則 ω可以表示為:

式中,α是對偶空間.

在傅里葉域下,有:

式中,帽 ∧表示對應的離散傅里葉變換.
選擇高斯核[9]:

選擇線性核[9]:

式中,C表示特征通道數(shù)目.
選擇高斯核[9]:

選擇線性核[9]:
其中,z為樣本的特征矩陣,zβ=z⊙β,表示對z的第j通道施加特征權重,C表示特征通道數(shù)目.

式中,f(z)表示樣本特征z的響應值,F?1表示反傅里葉變換,帽 ∧表示對應的離散傅里葉變換.
根據(jù)式(3)、式(5)、式(6)更新,并將代入式(12)得到,進一步更新模型:

具體算法流程如算法1 所示.

算法1.本文算法Frame1 Frame2 FrameN y∈Rm×n cen0輸入:視頻序列,,…,,回歸目標,初始幀的目標中心位置 .cencurframe輸出:當前幀curframe 的目標中心位置 .For frame>0 1:N IF ① 在前一幀preframe 目標中心位置 的周圍,劃定檢測區(qū)域并采集樣本;Zhog∈Rm×n×31 Zcolor∈Rm×n×10 Zgrey∈Rm×n×1 Zcur=[Zhog,Zcolor,Zgrey]∈Rm×n×42 Zβ=Zcur⊙β Zβ ?Zβ cenpreframe② 對采集到的樣本提取紋理特征、顏色特征和灰度特征,對特征執(zhí)行 操作,再對 做FFT,得到頻域特征;f(z)f(z)③ 使用高斯核時,利用式(13)、式(15)、式(17)求響應值;使用線性核時,利用式(14)、式(16)、式(17)求響應值;cencurframe=argmax④ End⑤ 利用式(3)、式(5)、式(6)更新通道權重;⑥ 使用高斯核時,利用式(15)、式(12)、式(18)更新外觀模型;使用線性核時,利用式(16)、式(12)、式(18)更新外觀模型;End(posm,posn)(f(z))
實驗選取了公開數(shù)據(jù)集OTB-2015[18]的100 組視頻序列,圍繞光照變化(Illumination Variation,IV)、尺度變化(Scale Variation,SV)、遮擋(Occlusion,OCC)、變形(Deformation,DEF)、運動模糊(Motion Blur,MB)、快速運動(Fast Motion,FM)、平面內旋轉(In-Plane Rotation,IPR)、平面外旋轉(Out-of-Plane Rotation,OPR)、超出視野范圍(Out-of-View,OV)、背景雜亂(Background Clutters,BC)、低分辨率(Low Resolution,LR)等11 種挑戰(zhàn)情況進行展開.
本文主要用到3 個評價指標,分別是精確度(precision)、成功率(success rate)和跟蹤速度(speed).精確度是在跟蹤序列中準確跟蹤到的幀所占的比重,這些幀的目標中心與真實位置的距離小于某個閾值,該指標越大越好;成功率是在跟蹤序列中準確跟蹤到的幀所占的比重,這些幀的跟蹤框與真實框的重疊率大于某個閾值,該指標越大越好;跟蹤速度是每秒跟蹤的幀數(shù),一般采用幀/秒(fps)表示.
(1)精確度
精確度求解如下:

式中,pre(j)是閾值取ε (j) 時的精確度.1 {bool}在bool等于true 時為1,bool等于false 時為0.表示第i幀的目標中心位置與其真實位置的歐式距離.表示所有歐式距離小于ε (j) 的幀數(shù),frames表示某視頻序列的幀數(shù).
(2)成功率
成功率求解如下:

式中,suc(j) 是閾值取ξ (j) 時的精確度,1 {bool}在bool等于true 時為1,bool等 于false 時為0,表示第i幀的目標框,表示第i幀的真實目標框,∩表示交集,∪表示并集,P(B)為B框內的像素個數(shù),表示像素比大于ε (j) 的幀數(shù),frames表示某視頻序列的幀數(shù).
實驗電腦的處理器是Intel(R) Core(TM) i7-7500U CPU(2.9 GHZ),內存是8 GB,開發(fā)軟件為Matlab R2014b.算法參數(shù)設置如下:高斯核的方差 δ為0.5,Hog 特征的細胞單元大小為4×4,Hog 特征的方向為9,Hog 特征31 通道,gray 特征1 通道,顏色特征10 通道,模型的學習率lr為0.01,第k通道的初始值=1,通道的權重學習率ratiow=0.22.
(1)定量分析
為了定量評估本文算法(WSAMF)的有效性,我們對比了WSAMF、SAMF、KCF、CN 在OTB-2015[18]數(shù)據(jù)集的100 組視頻序列的表現(xiàn).我們做了兩組實驗,第一組實驗取距離閾值0 ≤ε(j)≤50像素、重疊率閾值0 ≤ξ(j)≤1,第二組實驗取距離閾值0 ≤ε(j)≤15像素、重疊率閾值0 .5 ≤ξ(j)≤1.
第一組實驗用于評估算法的綜合性能,第二組實驗用于測試算法的有效性.因為在實際的目標跟蹤過程中,目標中心位置與實際中心位置的距離超過15 像素,算法基本跟蹤失??;目標框與真實框的重疊率小于0.5 時候,算法基本無效;所以,我們在第一組實驗的基礎上,做了第二組實驗.
第一組實驗:距離閾值 0 ≤ε(j)≤50像素、重疊率閾值0 ≤ξ(j)≤1.結果如圖1所示.
圖1(a)為算法執(zhí)行一次的精度圖,該圖顯示算法隨著距離閾值 ε (j)從0 像素到50 像素的精確度變化.圖1(b)為算法執(zhí)行一次的成功率圖,該圖顯示算法隨著重疊率閾值 ξ (j)從0 到1 的成功率變化.通過圖1可以看出,相比SAMF、KCF、CN,WSAMF 在精確度上分別提升0.78%、8.5%、27.3%,成功率則分別提升1.3%、21.5%,42.9%.

圖1 4 種算法的跟蹤情況
為了綜合評估本文算法(WSAMF)的性能,在公開數(shù)據(jù)集OTB-2015 的100 個視頻序列上,取距離閾值0 ≤ε(j)≤50 像素、重疊率閾值0 ≤ξ(j)≤1,對比WSAMF、SAMF、KCF、CN 在不同屬性下精確度和成功率,WSAMF 都取得相對不錯的跟蹤效果,具體結果見表1、表2.

表1 4 種算法在11 種屬性下的精確度

表2 4 種算法在11 種屬性下的成功率
第二組實驗:距離閾值 0 ≤ε(j)≤15像素、重疊率閾值0 .5 ≤ξ(j)≤1.結果如圖2所示.
圖2(a)為算法執(zhí)行一次的精度圖,該圖顯示算法隨著距離閾值 ε(j)從0 像素到15 像素的精確度變化.圖2(b)為算法執(zhí)行一次的成功率圖,該圖顯示算法隨著重疊率閾值 ξ (j)從0.5 到1 的成功率變化.通過圖2可見,相比SAMF、KCF、CN,WSAMF 在精確度上分別提升2.9%,27.6%,52.6%,成功率則分別提升5.6%,34.6%,63.8%.
為了測試本文算法(WSAMF)的有效性,在公開數(shù)據(jù)集OTB-2015 的100 個視頻序列上,取距離閾值0 ≤ε(j)≤15像 素、重疊率閾值0 .5 ≤ξ(j)≤1,對比WSAMF、SAMF、KCF、CN 在不同屬性下精確度和成功率,WSAMF 都取得不錯的跟蹤效果,具體結果見表3、表4.

圖2 4 種算法的跟蹤情況

表3 4 種算法在11 種屬性下的精確度

表4 4 種算法在11 種屬性下的成功率
通過以上兩組實驗可以看出,本文算法在綜合性能、有效性上,都有一定提升.
(2)定性分析
為了更加直觀的評估算法性能,我們對KCF、CN、SAMF 和WSAMF 在basketball(DEF)、Jogging-2(OCC)、Car4(IV)、Singer1(IV)、boy(OPR)、doll(SV)和Walking2(SV、OCC)等7 個視頻序列上進行了定性分析.為了區(qū)分4 種算法,我們選用不同的顏色跟蹤框表示.其中,紅色實線為KCF 算法,綠色虛橫線框為CN 算法,藍色點橫線框為SAMF 算法,黑色虛點線框為WSAMF 算法.
圖3中,目標在跟蹤過程中發(fā)生了形變,KCF、CN 在第259 幀和第266 幀只定位目標局部,SAMF 在第271 幀和第547 幀則包含了相對多一點的背景信息,只有WSAMF 能夠更好的跟蹤這些目標.
圖4中,目標在跟蹤過程中發(fā)生了遮擋,KCF、CN 在第59 幀、第60 幀、第61 幀和第64 幀發(fā)生漂移,SAMF 則包含了相對多一點的背景信息,只有WSAMF能夠更好的跟蹤這些目標.
圖5中,目標在跟蹤過程中光照變暗,KCF、CN、SAMF 在第202 幀、第203 幀、第218 幀和第220 幀包含了相對多一點的背景信息,只有WSAMF 能夠更好的跟蹤這些目標.

圖3 4 種算法在Basketball 序列上的跟蹤情況對比

圖4 4 種算法在Jogging-2 序列上的跟蹤情況對比

圖5 4 種算法在Car4 序列上的跟蹤情況對比
圖6中,目標在跟蹤過程中光照增強,KCF、CN 在第41 幀、第75 幀、第86 幀和第131 幀包含了相對多一點的背景信息,SAMF 在第131 幀包含了相對多一點的背景信息,只有WSAMF 能夠更好地跟蹤這些目標.

圖6 4 種算法在Singer1 序列上的跟蹤情況對比
圖7中,目標在跟蹤過程中發(fā)生球面外旋轉,KCF和CN 在第459 幀、第462 幀、第584 幀和第596 幀只跟蹤到目標的一部分,而SAMF 則跟蹤到多一點的背景信息,只有WSAMF 能夠更好的跟蹤這些目標.

圖7 4 種算法在boy 序列上的跟蹤情況對比
圖8中,目標在跟蹤過程中發(fā)生尺度變化,KCF、CN 在第3526 幀、第3669 幀、第3721 幀和第3737幀發(fā)生不同程度的漂移,SAMF 跟蹤到少一點的目標信息,只有WSAMF 能夠更好的跟蹤這些目標.
圖9中,目標在跟蹤過程中發(fā)生遮擋、尺度變化,KCF、CN 在第375 幀、第487 幀和第489 幀發(fā)生不同程度的漂移,SAMF 在第206 幀、487 幀和489 幀跟蹤到多一點的背景信息,只有WSAMF 能夠更好的跟蹤這些目標.

圖8 4 種算法在doll 序列上的跟蹤情況對比

圖9 4 種算法在walking2 序列上的跟蹤情況對比
(3)跟蹤速度
為了直觀的展示跟蹤速度,在OTB-2015 數(shù)據(jù)集上任意選取basketball、Jogging-2、Car4、Singer1、boy、doll 和Walking2 等7 個視頻序列上,對跟蹤情況進行對比,具體情況見表5.

表5 4 種算法的跟蹤速度(fps)
單從表中數(shù)據(jù)來看,4 種算法都達不到實時要求,這主要是受電腦硬件條件限制.在硬件條件獲得一定提升后,WSAMF 應該可以滿足實時性跟蹤要求.
另外,需要補充說明的是,同一種算法在不同數(shù)據(jù)集下跟蹤速度有一定差異,這主要是因為不同數(shù)據(jù)集的跟蹤目標、搜索區(qū)域數(shù)據(jù)復雜度不同,導致計算量不同,進而導致跟蹤速度有差異.
本文算法根據(jù)各通道對響應值的貢獻度調整權重,構建實時特征組合,進而控制特征融合.與現(xiàn)有的基于類別融合特征的算法不同,該算法從通道層面融合特征.實驗表明該算法能夠有效提升目標跟蹤的精確度、成功率,整體性能優(yōu)于對比算法.實驗中發(fā)現(xiàn),在目標趨近于完全遮擋的過程過慢時,由于算法未對目標中背景剔除,則容易出現(xiàn)不同程度的跟蹤漂移甚至失敗.因此,如何剔除目標中的背景信息或有效區(qū)分目標、背景,將是下一步研究的工作重點.