趙夢萍,熊 凌,陳 洋
1(武漢科技大學 機器人與智能系統研究院,武漢 430081)
2(武漢科技大學 冶金自動化與檢測技術教育部工程研究中心,武漢 430081)
視覺跟蹤技術作為計算機視覺的熱門研究課題之一,被廣泛應用于智能視頻監控、精確制導、醫療診斷、智能交通系統、人機交互等領域.在視覺跟蹤中除了會出現運動模糊、尺度變換和平面外旋轉等情況外,因受到活動范圍的限制,出現靜態或動態障礙物而使目標被長期完全遮擋,使目標消失在可測視線中.跟蹤中的遮擋處理是難點之一.目前,國內外研究者已為解決跟蹤中的遮擋問題進行了大量的研究,其中經典方法有Mean-shift 算法、基于子塊匹配的算法、Kalman濾波算法和粒子濾波算法等,還有基于時空上下文的方法及目前比較常用的相關濾波類方法.經典的跟蹤方法處理遮擋,例如李菊等[1]通過K 均值聚類算法對空間特征與權重分布近似的粒子聚類,能解決目標局部遮擋問題.周越等[2]利用結合Kalman 濾波預測機制以改進Mean-shift 算法,能減少迭代次數,提高跟蹤穩定性.張紅穎等[3]通過將目標整體顏色特征劃分為幾塊局部顏色特征,來提高Mean-shift 跟蹤算法抗遮擋性.但是這些方法對背景的利用率低,面臨著目標在不同情形下對表觀模型的擬合難題.梁宵等[4]利用基于時空上下文的方法處理遮擋,存在著特征單一和學習率固定的不足.相關濾波類方法處理遮擋,例如趙徑通等[5]通過用零均值歸一化的互相關系數作為判別遮擋的條件能有效處理部分遮擋.閆河等[6]通過在核相關濾波的訓練階段將目標的HOG 和LBP 特征融合解決遮擋.然這些方法局限于目標位置預測,對跟蹤中的尺度變化還無法有效處理.
判別尺度空間跟蹤算法DSST[7]是一種將位置濾波器和尺度濾波器聯合使用,再分別對目標定位與尺度估計的特殊相關濾波類方法,可以很好地解決跟蹤中的尺度變化和遮擋問題,精度上獲得了2014年的VOT 冠軍.因此在移動機器人[8]、智能監控[9]和智能駕駛[10]等領域應用很廣.但是需注意的是,DSST 主要是解決短時間內的視頻跟蹤問題,對于長時間遮擋下的跟蹤易出現目標丟失現象.
為解決行人跟蹤過程中由于目標處于長時間完全遮擋下,背景對濾波器模型產生的影響,而造成跟蹤目標丟失的問題,本文提出了一種改進的DSST 行人遮擋跟蹤的方法,在DSST 跟蹤框架下,先利用簡單可靠的高置信度跟蹤指標Fmax和APCE[11]作為行人被遮擋的依據,再利用對形變具有強魯棒性的可形變部件模型(DPM)[12]對行人重新定位.該方法能解決目標因長時間被遮擋,使模型被污染而引發跟蹤丟失的問題,且跟蹤適應性好.
判別尺度空間跟蹤(DSST)是一種在視覺跟蹤中精準的尺度估計方法.首先通過多維特征的判別相關濾波器估計目標的位置,再增加尺度濾波器估計目標的尺度信息.位置濾波器和尺度濾波器相互獨立.
首先提取目標所在圖像塊的多維特征f,通過式(1)構造最優濾波器.

式中,fl、hl和g均為M×N的矩陣,l表示特征維度,l∈{1,···,d},λ為正則項系數,?代表循環相關.接著再利用下式訓練一個濾波器H.

其中,特征維數取值范圍k∈{1,···,d},最后利用式(3)進行迭代更新,其中,η表示學習率.

最后提取新一幀的圖片塊特征z,求取每一維特征的二維DFT 得到Zl,利用式(4)算得響應g,g中最大值所對應的位置即是當前幀的目標位置.

為確定視頻幀中運動目標的最佳尺度大小.通過將當前幀的目標大小設為P×R,尺度設為S,在目標中心位置提取尺度等級為n的訓練樣本f作為Jn的d維的特征描述子,其中獲取大小為anP×anR,窗口標記為Jn,a表示一個尺度因子,尺度等級n選擇原則為n∈{[-(S-1)/2],…,[(S-1)/2]}.
圖1為多尺度相關響應過程,f以上幀目標位置為中心獲取的不同尺度圖像塊的特征,h為濾波器模型,g為通過三維高斯函數得到的相應輸出.將特征f和響應輸出g作為已知條件,利用式(3)對模板h進行更新.在新一幀的待檢測圖像中,利用獲取S個尺度上特征組成一個M×N×S的特征金字塔,接著利用式(4)得到響應g,最大響應值對應的位置和尺度即為目標位置和尺度信息.

圖1 多尺度相關濾波響應過程
針對DSST 跟蹤算法在目標被長期完全遮擋時,在線學習過程中濾波器出現退化,致使后續幀中出現跟蹤丟失的現象.為解決該問題,提出了一種改進的DSST 行人遮擋跟蹤算法,首先通過引入一種基于歷史均值的跟蹤遮擋檢測策略,判斷目標是否出現遮擋,若存在遮擋,再利用基于DPM 行人檢測方法重新定位目標,最后利用DSST 穩健跟蹤.
DSST 算法不具有對檢測結果可靠性判定的功能.在跟蹤過程中目標出現嚴重遮擋或完全遮擋時,導致檢測到的目標不準確,引入一種基于最大響應值和平均峰值相關能量的歷史均值的模型更新策略.最大響應分數值計算方法如下:

式中,s為基于上一幀目標位置的圖像塊,y為目標位置,w為分類器參數,F是衡量(s,y)為目標的可能性函數通常Fmax值越大,跟蹤精度越高,如式(5).
第二個置信度指標是平均峰值相關能量,反應響應圖的震蕩程度和尖銳程度,式(6)計算方式如下:

其中,Fmax、Fmin和Fw, h分別表示最高響應、最低響應值及在(w,h)位置上的響應值.通過判斷當前幀的Fmax和APCE 結果小于設定比例閾值β1,β2倍的歷史平均值時,則視為有遮擋,并用所提方法重新定位目標,可以防止目標模型被污染,提升跟蹤的準確性.
先利用基于Fmax和APCE 的歷史均值計算策略判定行人是否有遮擋,高置信度則認為無遮擋,利用式(3)對跟蹤模型迭代更新.低置信度則認為有遮擋,那么在后續跟蹤中更新濾波器模型則會被污染,造成跟蹤目標丟失,利用事先訓練好的DPM 行人模型與后續幀的圖像進行匹配,對目標重新定位.具體方法為:(1)采用滑動窗口方法獲取圖像塊;(2)對待檢測的圖片提取每個子圖像塊的改進HOG 特征金字塔;(3)最后利用訓練好的模型求每個子圖像的得分,得分最高的圖像塊確定為行人目標區域.
在行人跟蹤中,對于滿足低置信度且無法檢測到行人的后續幀,則認為目標被完全遮擋或嚴重遮擋,此時選擇停止更新目標位置.
本文跟蹤算法主要有:(1)跟蹤模塊,對給定的初始目標區域提取圖像塊多維特征f,及使用高斯函數造響應g,將f和g做DFT 后代入式(2)得到濾波器模型,接著在新一幀圖像中提取圖像塊z,每一維度特征做DFT 后代入式(4)得到響應y,響應y中最大值的所在位置即為目標位置和尺度.
(2) 重檢測模塊,先通過行人跟蹤丟失檢測策略確定當前跟蹤結果為低置信度,再利用DPM 重新定位目標,再以該位置為中心獲取圖像塊,利用式(3)更新DSST濾波器模型.圖2為基于改進的DSST 行人遮擋跟蹤流程圖.
實驗測試所用的數據是在線跟蹤基準OTB 數據集的視頻子集,在OTB 的100 個可用視頻中選擇了4 個具有不同屬性的視頻,分別為BlurBody、Human2、Human6 和David3,跟蹤對象均為單個的行人,以及自制了一個含有長時間完全遮擋屬性的模擬實驗視頻MyData.利用這些數據集將本文方法和DSST、KCF、LCT 及CSK 等有代表性的跟蹤方法進行了比較.
使用Matlab 進行實驗仿真,所用到的硬件部分是Intel(R)Core(TM)i5-3210MCPU,主頻2.50 GHz,2 GB 內存.實驗中,DSST 算法的參數與文獻[7]相同,學習率η為0.025,尺度因子a為1.02,行人跟蹤丟失檢測策略部分,兩個系數β1,β2均取為0.3.
實驗中利用距離精度和成功率兩種評估方法作為OTB 數據集和自制視頻數據的跟蹤評價指標.位置誤差為所有視頻幀的跟蹤目標的中心位置與標準的目標的中心位置之間的歐幾里得距離.
距離精確度即為滿足中心位置誤差小于閾值的所有幀數fpre占視頻總幀數N的百分比.


圖2 基于改進的DSST 行人遮擋跟蹤流程圖
跟蹤算法得到的目標區域面積表示為SRt,標準目標區域面積表示為SRa,重疊率定義為:

其中,|·|為區域中的像素數目.滿足重疊率大于設定的閾值的幀被視為成功的,成功率為總的成功的幀數fsuc占所有幀數N的百分比.

其中,成功率的取值范圍為0~1,可繪制出一條曲線,利用成功率曲線下面積(AUC)對跟蹤效果的準確性進行評估,及考慮到在快速運動下,連續兩幀之間真實目標框的中心位置的偏移大于20 pixels,通過計算位置誤差小于或等于20 pixels 時的距離精度以及重疊率大于或等于0.5 時的成功率,評估跟蹤效果準確性.為了更好的反應本文方法的跟蹤性能較其他算法的跟蹤性能提升效果,通過以某一種算法作為基準,計算各算法獲得精度相較于基準算法提升的比率.將各算法獲得的距離精度表示為PREtracker,成功率表示為SUCtracker,選擇以LCT 算法為基準,基準算法獲得距離精度表示為PREbase,成功率表示為SUCbase,計算方式如下:

其中,ProPRE表示為距離精度提升率,ProSUC表示為成功率提升率.并且利用不同的線型曲線表示各算法在位置誤差閾值選取范圍為0 到50 pixels 內獲得的距離精度曲線,以及重疊率閾值選取范圍為0 到1 內獲得的成功率曲線,獲得的距離精度圖橫軸為位置誤差閾值,縱軸為距離精度,成功率圖橫軸為重疊率閾值,縱軸為成功率.
3.3.1 整體性能比較
在實驗中為對跟蹤算法性能進行評估,使用了常規的評估方法,一次性通過評估方法(OPE)對本文跟蹤方法與其他4 個跟蹤算法進行性能比較,該方法利用OTB 數據集中標準的目標位置對視頻第一幀初始化,獲得跟蹤算法的距離精度和成功率.

圖3 各算法在OPE 評估下的距離精度和成功率
圖3為各算法在OPE 評估下的距離精度圖和成功率圖,由圖3(a)和圖3(b)的距離精度曲線及成功率圖AUC 可知,DDSST 的跟蹤精度優于選取的4 種算法.表1為各算法在測評數據集上的距離精度和成功率,及其ProPRE和ProSUC.由表1可知,DDSST 算法獲得的距離精度和成功率最高,在ProPRE和ProSUC上,DDSST 相比LCT 分別提高了106%和124%.相比DSST 分別提高了14%和22%.相比CSK 分別提高了51%和59%.相比KCF 算法分別提高了75%和96%.由分析知,相比其它算法,DDSST 整體跟蹤性能更好.

表1 各算法在測評數據集上的距離精度和成功率(%)
3.3.2 特殊屬性下的行人跟蹤性能比較
為了進行詳細的分析,對本文的5 種算法在選取的6 種不同屬性下的跟蹤性能進行評估.圖4和圖5分別為各算法在6 種屬性下使用OPE 評估方法測試獲得的距離精度曲線圖或成功率曲線圖,
表2和表3分別為各算法在不同屬性下獲得的距離精度和成功率,由表2和表3的第一列分別可知,從上往下依次為快速運動(FM)、運動模糊(MB)、尺度變化(SV)、遮擋(OCC)、形變(DEF)和平面外旋轉(OPR)等屬性下獲得的距離精度和成功率,以及各算法的ProPRE和ProSUC.
由圖4(d)、(e)和(f)知,在遮擋、形變和平面外旋轉等不同情況下位置誤差閾值為20pixels 時,DDSST獲得的距離精度均為最高.由圖5(d)、(e)和(f)知,在重疊率閾值范圍為0.5 到1 內,成功率AUC均為最大,在閾值為0.5 時成功率均為最高.由表2和表3知在目標形變、平面外旋轉和遮擋等不同情況下DDSST 的距離精度分別為60.8%、56.3%和66.1%,成功率分別為61.6%、60.2%和62.9%.在ProPRE上,比DSST 分別提高了12%、20%和11%,在ProSUC上,比DSST分別提高了20%、20%和13%.由分析知在目標形變及平面外旋轉下本文方法相比DSST 更準確且適應性好,提高了抗遮擋性.
由圖5(a)、(b)和(c)知,在快速運動、運動模糊和尺度變化等不同情況下DDSST 的成功率AUC 均為最大,重疊率閾值為0.5 時DDSST 的成功率最高,由圖4(b)和(c)知,在位置誤差為20 pixels 時DDSST 距離精度為最高,由圖4(a)知DDSST 與DSST 獲得距離精度最為接近.由表2和表3知,在快速運動、運動模糊和尺度變換等不同情況下,DDSST 的距離精度分別為51.9%、52.5%和49.8%,成功率分別為55.8%、65.0%和58.1%,在ProSUC上DDSST 較DSST 分別提高了14%、2900%和37%,在快速運動下的ProPRE較DSST相差11%,在運動模糊和尺度變換下的ProPRE比DSST分別提高了1350%和18%,由分析知,相比DSST,本文方法在運動模糊下跟蹤準確率提升很大,且在尺度變換下保留了原DSST 穩定性.

圖4 各算法在6 種屬性下的距離精度

圖5 各算法在6 種屬性下的成功率

表2 各算法在6 種屬性下的距離精度(%)

表3 各算法在6 種屬性下的成功率(%)
圖6為各算法在測試的視頻序列上跟蹤效果對比圖,圖6中的子圖分別為在視頻數據Human2、Human6、BlurBody、David3 和MyData 上的測試效果,不同算法獲得的跟蹤效果用不同線型的矩形框進行表示,如子圖題標注.
(1) 各算法在遮擋下的實驗效果比較
選取MyData 和David3 數據集中遮擋的跟蹤情況,由圖6(e)第204 幀和第283 幀知目標處于長期完全遮擋,由第355 幀知,DDSST 跟蹤目標效果更好.由圖6(d)的第84 幀知,行人目標發生遮擋.由第107 幀知,本文方法在發生短時遮擋后能有效跟蹤行人.
(2) 各算法在尺度變化下的實驗效果比較
選取Human6 數據集中尺度變化下的跟蹤情況,從圖6(b)的第87 幀、第204 幀、第224 幀和第297 幀,目標發生顯著的尺度變化,由第297 幀知,只有DDSST和DSST 能準確跟蹤,其他算法已失效.
(3) 各算法在平面外旋轉下的實驗效果比較
選取Human2 和David3 數據集中平面外旋轉下跟蹤情況,由圖6(a)的第106 幀和第488 幀知行人發生平面外旋轉,由第488 幀知,此刻只有DDSST 和DSST能在平面外旋轉下穩定跟蹤目標.由圖6(d)的第107 幀和第150 幀知在目標發生平面外旋轉下,本文所選的各算法均能穩定跟蹤.
(4) 各算法在目標形變下的實驗效果比較
選取Human2 數據集中目標形變屬性下的跟蹤情況,由圖5(a)的第488 幀和第962 幀知行人發生了形變,由第962 幀可知只有DDSST 能有效跟蹤.
(5) 各算法在運動模糊下的實驗效果比較
選取Blurbody 數據集中運動模糊屬性下的跟蹤情況,由圖6(c)的第14 幀、第70 幀和第110 幀知,DDSST和DSST 算法能有效跟蹤目標.

圖6 各算法在測試的視頻序列上跟蹤效果對比圖
通過實驗發現在利用DSST 跟蹤行人過程中當目標長時間受到大面積遮擋時,繼續使用DSST 算法跟蹤會導致后續幀中發生目標丟失的問題,針對目標在長時間的遮擋和干擾下造成模型污染,本文在采用DSST跟蹤基礎上,引入高置信度更新機制對遮擋準確判斷,在目標可能發生遮擋時,利用DPM 檢測當前幀的目標,定位行人位置,然后在該位置附近扣取圖像塊,更新濾波器模型,可重新跟蹤到目標.最后,通過實驗結果分析了改進算法與其他算法的跟蹤性能,在整體的數據集上所提方法的距離精度和成功率均為最高,通過以LCT 算法獲得精度為基準,改進的算法相比DSST算法分別提升了14%和22%.在運動模糊、形變、遮擋、尺度變換和平面外旋轉等6 種不同情況下采用所提方法獲得的距離精度和成功率同樣均為最高,相比DSST 算法的跟蹤效果更準確,適應性更好.在長時間完全遮擋的情況下,使用改進的算法能解決跟蹤目標丟失問題.