李 昌,宋 杰
安徽大學 計算機科學與技術學院,合肥 230601
自適應模態選擇的魯棒目標跟蹤方法*
李 昌+,宋 杰
安徽大學 計算機科學與技術學院,合肥 230601
LI Chang,SONG Jie.Robust object tracking method via adaptive modality selection.Journal of Frontiers of Computer Science and Technology,2017,11(6):998-1005.
在多模態跟蹤過程中,為了避免低質量模態的噪聲影響和提高跟蹤方法的效率,提出了一種基于自適應模態選擇的目標跟蹤方法,能夠選擇較好的模態進行跟蹤。具體地,對于每個模態,使用聚類方法將目標區域及其周圍背景區域各聚為若干個子類,然后通過它們子類之間的特征差異衡量目標和周圍背景的判別性(即模態質量),選擇判別性最大的模態對目標使用相關性濾波算法進行跟蹤。同時,為了維持各個模態的目標模型的有效性,提出了一種雙閾值策略更新選擇和未被選擇模態的跟蹤模型。在7組熱紅外和可見光視頻對上進行了實驗,驗證了該方法的有效性,且跟蹤速度達到141 f/s。
模態選擇;自適應跟蹤;實時處理;熱紅外信息
視覺跟蹤(通常又稱為單目標跟蹤,本文簡稱為目標跟蹤)作為一個經典、熱門的計算機視覺問題,在過去的十幾年里取得了很大的研究進展。它被廣泛地應用于許多領域,如視頻監控、人機交互、無人駕駛等,具有較大的研究價值和應用價值。但是由于存在許多具有挑戰性的環境因素,比如低照度、霧霾、惡劣天氣等,使得僅依賴于可見光成像的跟蹤算法性能低下,甚至失效,極大地限制了視覺跟蹤的應用范圍。因此,極端環境下的視覺跟蹤研究是必要的和迫切的。
本文通過引入熱紅外信息來彌補可見光信息在這方面的不足。熱紅外傳感器通過熱輻射成像,即圖像反映了物體表面的溫度分布,由于其對光照不敏感,同時對霧霾等穿透能力較強,能夠很好地克服低照度或零照度、霧霾、惡劣天氣等影響。另一方面,當熱紅外遇到“熱交叉現象”(目標與其他物體或背景具有相似的溫度)時,可見光模態能夠通過顏色信息較好地區分目標和背景。因此,本文在多模態視頻中通過一種利用判別性準則自適應地跟蹤目標,實現惡劣環境下的穩健、持續跟蹤。
單模態的目標跟蹤已經被廣泛地研究,許多機器學習方法在目標跟蹤中都得到了成功的應用,如SVM(support vector machine)[1-3]、稀疏表示[4-6]、相關濾波[7-9]等。然而,多模態跟蹤方法的研究相對較少,Bunyak等人在文獻[10]中構建了一個運動目標檢測和跟蹤系統,該系統能夠在一個框架內完成可見光和紅外視頻融合。Conaire等人在文獻[11]中提出了一種能夠有效地結合各種特征的框架進行魯棒的目標跟蹤,又在文獻[12]中評價了多種融合機制的外觀模型的跟蹤效果。文獻[13]提出了一種融合可見光和紅外視頻的行人跟蹤系統,提出了基于背景建模的概率模型,然后根據此模型,將行人跟蹤的問題轉換為粒子濾波的問題。然而這種簡單的融合,會產生一些副作用,如質量較差的模態會帶來一定的噪聲影響,使得最終的結果受到影響,容易導致目標模型的偏移問題。
為了克服以上問題,本文提出了一種簡單有效的基于自適應模態選擇的多模態目標跟蹤方法,能夠根據模態的判別性來自適應地選擇可靠的模態,并使用KCF(kernelized correlation filter)[14]算法進行跟蹤。本文通過目標與周圍背景的特征差異來衡量模態的判別性,在線地選擇判別性大(較可靠)的模態使用KCF進行跟蹤,以此避免不可靠模態帶來的噪聲影響,同時只使用一個模態跟蹤也會提高跟蹤的效率。為了使得各個模態的跟蹤模型能夠及時更新,以適應目標外觀的變化,同時盡可能減少噪聲影響,本文提出了一種新的雙閾值的更新策略,有效地更新目標模型。在公共的以及本文收集的視頻序列對上進行了實驗,結果表明,本文方法能夠穩健、持續地跟蹤惡劣環境下的目標,且跟蹤速度達到141 f/s。
最近,KCF跟蹤算法[14]在視覺跟蹤領域因其較高的運算效率和跟蹤精度,在公共跟蹤數據集上平均精度可達73.2%,且運行速度達到172 f/s。這種基于tracking-by-detection的算法同時可以在一定程度上對目標的遮擋和光照變化等干擾因素具有抑制作用,引起了學者們的廣泛研究。本文在KCF跟蹤算法的基礎上進行跟蹤,保留了其高效的優勢,于此同時,結合多模態視頻,魯棒地選擇質量較好的視頻進行跟蹤,使得跟蹤的結果更加可靠、精確。
KCF跟蹤算法根據目標所在的位置,以目標窗口為中心,進行目標圖像塊的提取。與傳統隨機采樣的方式不同,KCF跟蹤算法采樣時,考慮了所有的循環移位的情況,即xm,n,(m,n)∈{0,1,…,M-1}×{0,1,…,N-1}作為訓練樣本。現在舉一個一維的例子來說明什么是循環位移。假設有一維的數據x=[x1,x2,…,xn],x的一個循環移位為Px=[xn,x1,x2,…,xn],那么所有的循環移位為可以組成一個循環矩陣X=C(x)。所有的循環矩陣都可以做如下的分解:

其中,F是常量矩陣,被稱為離散傅里葉變換(discrete Fourier transform,DFT)矩陣,FH表示F的共軛轉置。循環矩陣的分解可以用來大大地簡化線性回歸的求解。
線性嶺回歸的目標函數可以表示為:

其中,f(xi)可以看作基礎樣本的線性組合,即f(x)=wTx可以得到嶺回歸的閉合解:

將式(1)代入式(3)可得:

其中,表示x轉化到傅里葉域進行運算的結果;表示的復共軛。
在非線性情況下,KCF跟蹤算法用到了核技巧,即:

循環矩陣的技巧也可以應用到大部分經常使用的核函數中。因此,對偶空間的解?可以表示為:

其中,κxx定義為核相關。本文采用高斯核進行相關的運算,即:

循環矩陣的技巧也可以應用到整個跟蹤流程中的檢測環節以提升整體的速度。相同位置的目標塊在下一幀仍然作為基樣本(base sample)來計算傅里葉域的響應值:

在將f(z)轉換到空域后,最大響應值對應的位置即為所要跟蹤的目標所在的位置。
以上所涉及的都是單通道的KCF跟蹤算法,為了能夠應用各種特征,如HOG等,使得跟蹤算法更加魯棒,從而進一步提升跟蹤的精度,作者將其擴展為多通道的KCF跟蹤算法。由于上面所涉及的核是基于參數的點積或范數,點積運算可以通過分別將每一個通道的點積相加來實現。又由于離散的傅里葉轉換是線性的,允許對每個通道的點積通過簡單的相加來實現:

以上是對KCF跟蹤算法的簡要介紹,想要更加深入地了解,請查閱文獻[14]。
3.1 模態可靠性計算
給定空間上、時序上對齊的多模態視頻序列,本文的目標是根據各自模態的判別性選擇較為可靠的模態進行目標跟蹤。這種做法是在跟蹤過程中考慮以下兩方面:一方面是能夠利用較可靠的信息;另一方面是避免不可靠模態中的噪聲干擾。為此,本文根據目標與周圍背景的特征差異定義模態的判別性作為其跟蹤可靠性的度量,即判別性大的模態越容易區分目標和背景,其可靠性就越大,反之,其可靠性越小。下面具體介紹模態可靠性的計算。
不失一般性,假設有M個模態(本文M=2),對于第m個模態,本文通過目標與周圍背景的特征差異計算該模態的判別性,即特征差異越大,判別性越大,反之,判別性越小。給定初始的(第一幀)或跟蹤的(其他幀)目標矩形框,計算目標的外觀特征Om,同時計算目標周圍區域背景的外觀特征Bm,如圖1所示。在實驗中,取擴展的背景區域的長、寬為目標區域的長、寬的兩倍。本文把目標區域和背景區域的像素均使用K-Means算法[15]聚為K類,然后通過它們子類的特征差異計算目標與周圍背景的判別性,這樣能夠更好地表達它們之間的區別。如圖1所示,采用K-Means聚類的方法,把前景區域和背景區域都聚為K類(本圖實例為2類),前景區域(綠色矩形框)包括區域1和區域2,背景區域(黃色矩形框)被聚為區域3和區域4,可以看出,利用前景區域子類(區域1和區域2)的特征可以更好地表達其與背景區域的判別性。

Fig.1 Division of image area圖1 區域劃分
本文方法流程圖如圖2所示。
記O為目標的第i個子類的特征表示為背景的第j個子類的特征表示,其中i,j=1,2,…,K,則第m個模態的目標和周圍背景的可靠性定義如下:


從式(11)可以看出,目標與周圍背景之間的可靠性由它們子類之間的大于一定閾值的特征差異的均值來表示,這樣更能準確地表達它們之間的判別性。對于每個模態,均通過這種計算方式得到對應的可靠性,然后選擇較為可靠的模態作為當前幀的跟蹤方法的輸入,即選擇的模態為
3.2 基于可靠模態的目標跟蹤
目前,很多性能較好的跟蹤算法相繼被提出,有的側重于跟蹤精度[16],有的側重于跟蹤效率[17]。本文選取在精度和效率上均取得較好表現的KCF算法[14]對以上選擇的可靠模態m*進行跟蹤,得到最終的結果。
值得注意的是,跟蹤過程中目標模型的更新是至關重要的。傳統的方法是根據跟蹤的結果與目標模型的相似程度來決定當前結果是否更新目標模型。而在本文中,可以根據模態的可靠性來更有效地指導模態的更新。然而,不同的模態可靠性是在變化的,即跟蹤過程中選擇的模態也有可能是變化的,這就需要一種有效的更新方法,使得每個模態的目標模型能夠得到及時的更新,來適應目標外觀的變化,同時也需要避免不可靠模態的噪聲干擾。為此,本文提出一種簡單的雙閾值的更新策略,實現各個模態的目標模型的有效更新,避免噪聲的干擾,即:

Fig.2 Flow chart of method proposed in this paper圖2 本文方法的流程圖
(2)若m≠m*,且Dm≥δ2,則更新模態m的目標模型,否則,不更新。
其中,δ1和δ2是預設的兩個閾值,且δ1<δ2,表示選擇模態的目標模型更容易被更新。當跟蹤方法選擇某個很多幀未被選擇的模態時,這樣的更新方式能夠使得該模態具有較新的目標模型。同時,通過雙閾值的方式,盡可能地避免不可靠模態的噪聲影響。
本文實驗所用的平臺為桌面臺式機:CPU i7 4 790,RAM 16 GB,顯卡GTX980。在所提供的7個具有挑戰性的多模態視頻上進行了實驗,并且和3種魯棒的跟蹤算法,即CN[18]、ECST[17]、KCF[14],進行了對比,充分地驗證了本文算法的有效性。
如表1所示,通過自己拍攝的,然后手動對齊的7組視頻具有以下特點:(1)多個場景,充分考慮到光照的變化、陰影、夜間監控等外界干擾因素的影響。同一場景,考慮到不同時間段對目標跟蹤的影響。(2)考慮到跟蹤目標的尺寸和外形的變化對跟蹤結果的影響。

Table 1 Summary of data sets表1 實驗數據信息
4.1 參數設置
實驗中的核函數本文選擇高斯核,高斯核的帶寬δ=0.2,對于一個m×n的目標,其空間帶寬s=更新的內插因子為0.075。在實驗中,簡單地將目標的色彩聚類為兩類,以檢驗所提出的根據目標和背景之間最大的顏色差異性來表示清晰度的有效性。
4.2 評價標準
本文采用了兩個廣泛應用的衡量標準,精度分數(precision score)和成功覆蓋率(success plot)來衡量算法的精度。
精度分數:中心位置誤差(center position error)是算法跟蹤結果窗口和真值窗口中心位置之間的歐氏距離,經常被用來度量跟蹤的精度。然而,當跟蹤失敗時,這種度量方式顯然是不合理的。為了更加有效地衡量整體的表現,采用了最近經常被使用的精度分數。由于目標相對較小,本文設置閾值為5個像素值,以得到具有代表性的精度分數。
成功覆蓋率:用來衡量跟蹤算法的穩定性,表示跟蹤結果對應的跟蹤框ro和真實目標跟蹤框rg的重疊比例。重疊分數的定義為其中?和?代表兩個區域的交和并,|?|表示區域中像素的個數。
4.3 定量分析
ECST算法也是基于相關濾波發展而來的跟蹤算法,然而由于其未能結合紅外視頻,僅對可見光視頻進行處理,顯然達不到所要求的效果。KCF跟蹤算法可以看作是對ECST算法做了進一步的拓展,使得跟蹤的結果更加精確和魯棒。從圖3和圖4中也可以看出,相比于KCF算法,CN算法由于結合了可見光視頻的色彩信息,并采用了新穎的降維方法,使得保留高效率的同時,可以得到更高的精度。本文算法由于實現了根據模態質量選擇較好模態視頻進行跟蹤的機制,所取得的精度分數和成功覆蓋率都遠遠大于幾個對比算法,這也充分說明了結合可見光和紅外視頻進行全天時魯棒的目標跟蹤的必要性和有效性。

Fig.3 Comparison of precision score圖3 精度分數對比

Fig.4 Comparison of success plot圖4 成功覆蓋率對比
4.4 定性分析

Fig.5 Comparison of tracking results圖5 跟蹤結果對比
從圖5中可以看出,本文算法結合了紅外和可見光的信息后,對各種干擾的抑制能力明顯增強。從第一組和第六組視頻可以看出,在紅外視頻的協助下,本文算法在低照度環境下也可以進行有效的跟蹤。能夠進行全天時全天候的目標跟蹤在現實監控場景中是非常必要的,而本文提出的多模態跟蹤算法可以較好地做到這一點。從第五組視頻可以看出,根據模態質量可以智能切換的多模態跟蹤算法對部分遮擋也具有一定的魯棒性。值得注意的是,KCF跟蹤算法由于視頻質量問題導致跟蹤運動的車輛失效了。最后一組視頻是由于汽車遠光燈導致的目標幾乎失效的情況,在這種場景下,幾乎所有的跟蹤算法都會跟蹤失敗,而本文多模態跟蹤算法依然可以準確地定位運動的汽車,這也充分體現了結合紅外視頻進行多模態跟蹤的必要性和有效性。
4.5 效率分析
跟蹤算法的效率也是評價算法優劣的重要指標,這里列出了本文算法和對比算法的效率,如表2所示。從表中可以看出,本文所涉及的幾個跟蹤算法的效率都是非常高的,本文算法也達到了140.76 f/s,這遠遠超過了實際監控場景下實時的要求。但是,本文算法的精度遠遠好于對比算法,達到了較好的精度和效率的平衡,可以實際應用到各種監控場景下,從而實現了全天時的運動目標跟蹤。

Table 2 Efficiency of algorithms表2 算法效率
本文提出了一種自適應模態選擇算法,能夠有效地選擇可靠模態的視頻進行目標跟蹤,較好地解決了直接將可見光和紅外視頻進行融合而引入的噪聲問題。在跟蹤過程中,使用雙閾值策略更新每個模態的目標模型,以保持模型的有效性。本文在提供的7組多模態視頻上進行了實驗,驗證了本文方法的有效性和高效性。在未來的工作中,研究更魯棒的多模態選擇算法,同時擴充多模態視頻,構建一個更全面、標準的多模態跟蹤評測平臺。
[1]Bai Yancheng,Tang Ming.Robust tracking via weakly supervised ranking SVM[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition,Providence,USA,Jun 16-21,2012.Washington:IEEE Computer Society,2012:1854-1861.
[2]Yin Yingjie,Xu De,Wang Xingang,et al.Online state-based structured SVM combined with incremental PCA for robust visual tracking[J].IEEE Transactions on Cybernetics,2015, 45(9):1988-2000.
[3]Zhang Jianming,Ma Shugao,Sclaroff S.MEEM:robust tracking via multiple experts using entropy minimization [C]//LNCS 8694:Proceedings of the 13th European Conference on Computer Vision,Zurich,Switzerland,Sep 6-12,2014. Berlin,Heidelberg:Springer,2014:188-203.
[4]Avidan S.Ensemble tracking[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2007,29(2):261-271.
[5]Babenko B,Yang M H,Belongie S.Robust object tracking with online multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8): 1619-1632.
[6]Grabner H,Leistner C,Bischof H.Semi-supervised online boosting for robust tracking[C]//LNCS 5302:Proceedings of the 10th European Conference on Computer Vision,Marseille,France,Oct 12-18,2008.Berlin,Heidelberg:Springer, 2010:234-247.
[7]Mei Xue,Ling Haibin.Robust visual tracking usingl1minimization[C]//Proceedings of the 12th International Conference on Computer Vision,Kyoto,Japan,Sep 29-Oct 2,2009. Piscataway,USA:IEEE,2009:1436-1443.
[8]Zhang Tianzhu,Ghanem B,Liu Si,et al.Robust visual tracking via multi-task sparse learning[C]//Proceedings of the 2012 Conference on Computer Vision and Pattern Recognition,Providence,USA,Jun 16-21,2012.Piscataway, USA:IEEE,2012:2042-2049
[9]Bao Chenglong,Wu Yi,Ling Haibin,et al.Real time robust L1 tracker using accelerated proximal gradient approach [C]//Proceedings of the 2012 Conference on Computer Vision and Pattern Recognition,Providence,USA,Jun 16-21, 2012.Piscataway,USA:IEEE,2012:1830-1837.
[10]Bunyak F,Palaniappan K,Nath S K,et al.Geodesic active contour based fusion of visible and infrared video for persistent object tracking[C]//Proceedings of the 8th IEEE Workshop on Applications of Computer Vision,Austin,USA,Feb 21-22,2007.Washington:IEEE Computer Society,2007:35.
[11]Conaire C ó,O?Connor N E,Cooke E,et al.Comparison of fusion methods for thermo-visual surveillance tracking[C]// Proceedings of the 9th International Conference on Information Fusion,Florence,Italy,Jul 10-13,2006.Piscataway, USA:IEEE,2006:413-419.
[12]Conaire C ó,O?Connor N E,Smeaton A.Thermo-visual feature fusion for object tracking using multiple spatiogram trackers[J].Machine Vision and Applications,2008,19(5/6): 483-494.
[13]Leykin A,Hammoud R.Pedestrian tracking by fusion of thermal-visible surveillance videos[J].Machine Vision and Applications,2010,21(4):587-595.
[14]Henriques J F,Caseiro R,Martin P,et al.High-speed tracking with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3): 583-596.
[15]Kanungo T,Mount D M,Netanyahu N S,et al.An efficientk-means clustering algorithm:analysis and implementation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):881-892.
[16]Hare S,Saffari A,Torr P H S.Struck:structured output tracking with kernels[C]//Proceedings of the 2011 International Conference on Computer Vision,Barcelona,Spain, Nov 6-13,2011.Piscataway,USA:IEEE,2011:263-270.
[17]Henriques J F,Caseiro R,Martins P,et al.Exploiting the circulant structure of tracking-by-detection with kernels[C]// LNCS 7575:Proceedings of the 12th European Conference on Computer Vision,Florence,Italy,Oct 7-13,2012.Berlin,Heidelberg:Springer,2012:702-715.
[18]Danelljan M,Khan F S,Felsberg M,et al.Adaptive color attributes for real-time visual tracking[C]//Proceedings of the 2014 Conference on Computer Vision and Pattern Recognition,Columbus,USA,Jun 23-28,2014.Washington:IEEE Computer Society,2014:1090-1097.

LI Chang was born in 1990.He is an M.S.candidate at Anhui University.His research interests include embedded system and intelligent computing,etc.
李昌(1990—),男,安徽安慶人,安徽大學碩士研究生,主要研究領域為嵌入式系統,智能計算等。

宋杰(1966—),男,2006年于安徽大學獲得博士學位,現為安徽大學副教授,CCF會員,主要研究領域為嵌入式系統,智能計算,生物信息學等。
Robust Object Tracking Method viaAdaptive Modality Selection*
LI Chang+,SONG Jie
School of Computer Science and Technology,Anhui University,Hefei 230601,China
+Corresponding author:E-mail:798110946@qq.com
To alleviate the noises of low quality modalities and improve the efficiency in multimodal object tracking, this paper proposes an adaptive modal selection based method to effectively select most reliable modality to track object.Specifically,for each modal,the clustering algorithm is utilized to divide the object region and its surrounding background region into several sub-clusters,and then the discriminative ability between object and background, which measures the modal quality,is computed by the feature difference between their respective sub-clusters.The most reliable modality is thus selected based on the defined discriminative ability to track object by using the correlation filter algorithm.For maintaining the effective object model,this paper employs double-threshold strategy to update all modal models.Experiments on the collected thermal-visible video pairs demonstrate the effectiveness of the proposed method.In addition,the runtime of the proposed tracker achieves 141 f/s.
modal selection;adaptive tracking;real-time processing;thermal information
was born in 1966.He
the Ph.D.degree from Anhui University in 2006.Now he is an associate professor at Anhui University,and the member of CCF.His research interests include embedded system,intelligent computing and bioinformatics,etc.
A
TP39
*The“12th Five-Year”Support Program of Ministry of Science and Technology of China under Grant No.2015BAK24B01(“十二五”科技部支撐計劃項目).
Received 2016-04,Accepted 2016-07.
CNKI網絡優先出版:2016-07-14,http://www.cnki.net/kcms/detail/11.5602.TP.20160714.1616.016.html