基于CMT的紅外可見融合跟蹤算法

2020-07-26 14:23:53劉軼倫奚崢皓

軟件導刊 2020年7期

劉軼倫奚崢皓

摘要：現有大部分融合跟蹤算法都使用分類器型跟蹤算法，這種算法在目標尺度發生變化時會存在一定誤差。雖然已有一些解決方案，但仍不能從根本上解決該問題，而且一般無法估算目標的旋轉狀態。為此，基于CMT算法提出一種新的基于點的多傳感器融合跟蹤算法。在獲取目標狀態上綜合了多傳感器信息，并對目標中心使用卡爾曼濾波進行修正，能夠跟蹤目標并獲得目標的尺度及旋轉信息。實驗結果表明，該算法在常見分辨率下跟蹤非旋轉目標，重疊率與現有算法相當，在分辨率較高的情況下，在實時性上具有優勢。

關鍵詞：融合跟蹤;CMT;紅外視頻;可見視頻;特征點

DOI：10. 11907/rjdk. 192043 開放科學（資源服務）標識碼（OSID）：

中圖分類號：TP317.4 文獻標識碼：A 文章編號：1672-7800（2020）007-0210-05

Infrared Visible Fusion Tracking Algorithm Based on CMT

LIU Yi-lun，XI Zheng-hao

（School of Electronic and Electrical Engineering， Shanghai University of Engineering Science， Shanghai 201620， China）

Abstract： Most of the fusion tracking algorithms use the classifier-type tracking algorithm. This algorithm has certain errors when the target scale changes. Although there are certain solutions， it can not be solved fundamentally， and generally can not estimate the rotation state of the target. In order to solve these problems， a new point-based multi-sensor fusion tracking algorithm based on CMT is proposed. The multi-sensor information is integrated on the acquisition target state， and the target center is corrected by using Kalman filtering， and the target can be tracked and the scale and rotation information of the target can be obtained. Experiments show that the algorithm tracks non-rotating targets at common resolutions and the overlap ratio is comparable to existing algorithms， and it has advantages in real-time performance at higher resolutions.

Key Words： fusion tracking; CMT; infrared videos;visible video; feature point

0 引言

目標跟蹤一直是計算機視覺的研究熱點之一，在軍事、醫學、監控等多個領域都應用廣泛。一般使用可見光攝像頭作為目標跟蹤的圖像源，但在光照條件惡劣的環境下，可見光圖像會丟失一定的場景信息。熱紅外傳感器能適應光照條件惡劣的環境，但其具有亮度、對比度與清晰度低，以及缺乏豐富的顏色紋理信息等缺點[1]。因此，需要綜合利用不同傳感器信息，以獲得更好的跟蹤效果。

已有很多學者對融合跟蹤進行了研究，如文獻[2]提出一種基于多視圖多核融合模型的可見光與紅外融合跟蹤算法，該模型考慮了可見光與紅外視圖的多樣性，并嵌入了來自它們的補充信息;文獻[3]在彩色圖像基礎上，通過核函數建立紅外目標模型的顏色直方圖，采用粒子濾波算法實現對紅外目標的穩定跟蹤;文獻[4]設計聯合稀疏表示相似結構，構造粒子濾波跟蹤器的似然函數，可以融合彩色可見光譜與紅外熱圖像進行目標跟蹤。其中文獻[3]屬于基于像素級融合的跟蹤，在跟蹤步驟之前執行融合，文獻[2]、[4]屬于基于特征級融合的跟蹤，特征級融合跟蹤不直接對圖像進行融合，而是通過跟蹤器從各種圖像源中提取有效特征，將原始圖像數據轉換為更具信息性的表達，確保成功使用不同模態之間的自然互補性，在提取特征之后結合不同模態特征分析目標運動狀態，因此比其它級別更適用于跟蹤[5]。

現有大部分融合跟蹤算法都使用分類器型跟蹤算法，但這種算法在目標尺度或旋轉狀態發生變化時會存在一定誤差。文獻[6]提出的SAMF（A Scale Adaptive Kernel Correlation Filter Tracker with Feature Integration）算法，利用圖像金字塔方法解決目標尺度變換問題，但存在運算速度慢，且無法精確處理目標旋轉的問題。基于特征點的跟蹤算法能夠很好地處理目標尺度變換及旋轉問題，一般屬于生成類算法;文獻[7]提出一種基于關鍵點匹配與超像素匹配的跟蹤方法，該方法不僅使用對象的初始特征信息，還使用相鄰幀之間的特征信息;文獻[8]采用兩階段匹配方法提高SURF（Speeded Up Robust Features）匹配點的準確性，并使用模板更新方法解決對象外觀變化的問題。但目前針對基于特征點的紅外可見融合跟蹤算法的研究還很少，因此本文提出一種基于CMT（Consensus-based Matching and Tracking of Keypoints for Object Tracking）[9]的紅外可見融合跟蹤算法，并使用卡爾曼濾波估計目標運動狀態。

1 改進CMT算法

1.1 算法原理

跟蹤是指使用圖像信息估計目標狀態，本文圖像信息為紅外與可見光連續圖像序列[{I（t），V（t）}]，由于紅外圖像與可見光圖像序列不一定在幾何上對齊，因此需要對其進行配準[10]，其中[I（t）]與[V（t）]是指經過配準在幾何上已對齊的圖像。需要估計的目標狀態包括中心[ct=（xt，yt）]、尺度[st]與角度[at]。

在紅外與可見光連續圖像序列[{I（t），V（t）}]的圖像各自第一幀[{I（0），V（0）}]中初始化目標，目標模型包括完全靜態外觀模型以及自適應模型，二者均由特征點表示[11]，將其融合為兩組特征點[Pt={Pvt，Pit}]作為目標模型，包括可見光圖像特征點[Pvt={ptv1，？，ptvn}]與紅外圖像特征點[Pit={pti1，？，ptim}]，用于描述目標可見光與紅外部分的特征點數量分別為[nv]和[ni]。獲取第[j]個特征點在第[t]幀點與第0幀點的匹配關系稱為[mtj=（p0j，ptj）]，則存在匹配集[Lt={Lvt，Lit}]，[Lt={m1，？，mnv+ni}]，包括可見光匹配集[Lvt={mv1，？，mvnv}]與紅外匹配集[Lit={mi1，？，mini}] 。

1.2 點匹配與跟蹤

靜態外觀模型在[t]幀的匹配[Lst]依靠第[0]幀靜態外觀模型的特征匹配，每一個特征點[ptj]都具有其對應的特征描述子[dtj]。靜態外觀模型需要在目標發生任何改變時，特征點仍能被正確匹配。使用FAST[12]（Features from Accelerated Segment test）作為特征點檢測器，BRISK[13]（Binary Robust Invariant Scalable Keypoints）作為特征描述子，分別在各自的圖像中按照第二最鄰近距離標準搜索[p0j] 在對應視頻[t] 幀的匹配點[ptj][14]。第二最鄰近距離標準即在[t]幀圖像下，搜索與特征描述子距離最近的兩個點，其特征描述子稱為[dtj]、[dtk]，若滿足等式（1），則認為[p0j]與[ptj]匹配成功。

其中[θ]、[γ]均為閾值，搜索采用快速最近鄰搜索包（FLANN，Fast Library for Approximate Nearest Neighbors）方法。

自適應模型在[t]幀的匹配[Lat]依靠對[t-1]幀目標特征點的跟蹤，假設特征點都滿足LK光流法[15]條件，即運動物體灰度在很短的時間間隔內保持不變，且給定鄰域內的速度向量場變化緩慢，則自適應模型的匹配通過LK光流跟蹤產生，并采用前后向誤差[16]濾除錯誤匹配關系。

依靠靜態模型優先原則[17-18]，融合[Lst]與[Lat]獲得初步的匹配集[Lt]。

1.3 狀態估計

首先借助初步匹配集[Lt]中的匹配對[mtj]、[mtk]，獲得尺度[st]與角度[αt]，當[mtj]來自可見光時，[mtk]也來自可見光。該規則對紅外特征點同樣適用，即選取點對可同時由可見光圖像或紅外圖像檢測出，并定義點對向量如式（2）所示。

對于尺度[st]的求取，使用[ltjk]表示求取[ptj]與[ptk]的歐氏距離。為了保證尺度求取對異常值的魯棒性，選擇所有比例的中位數作為目標尺度，即滿足式（3）。

對于尺度[αt]的求取，[atan2（ltjk）] 指求取[ltjk]的向量角[9]，[αt]滿足等式（4）。

等式（3）、（4）的算法復雜度為[O（n2）]，其中[n]取決于特征點總量，在[n]過多時，會在一定程度上影響計算速度。對于本文算法而言，由于存在紅外與可見光兩個目標模型，若簡單代入將使復雜度增加，即[O（n2），（n=ni+nv）]，采用僅來自同類圖像的點對求取[ltjk]，并統計與[ltjk]相關的值，則能夠使復雜度變為：[O（n2），（n=max（ni，nv））]。

可以獲得包括尺度和旋轉的映射矩陣[Ht]，如式（5）所示。

每對[mtj]、[mtk]映射一個目標的中心[19]，通過聚類求取目標中心[ct]，同時通過聚類結果去除錯誤匹配，并獲得正確匹配集[L*t]。定義每組投票向量之間的差異[Dt]，并由此構成距離矩陣[19]，用于反映目標的變形狀態，[Dt]被定義為式（6）。

同時，定義投票集合[19]如式（7）所示。

對[Ut]使用凝聚聚類[20]分割[Lt]，假設最大的聚類簇[L+t]反映正確的匹配，其余簇均為錯誤匹配。

中心偏移度[μ]由[L+t]內包含的點決定，即由滿足正確跟蹤的內點決定，由于[L+t]中匹配的點對包括紅外的點以及可見光的點，因此可被分割為紅外匹配集[L+it]與可見光匹配集[L+vt]。[μ]的求取如式（8）所示。

則目標中心[ct=（xt，yt）]根據時間的變換可以表示為[ct=c0+μ]，其中[c0]表示初始目標中心。

2 運動狀態修正

目標中心[ct]在[t]時刻的狀態包括目標位置[xt]、[yt]及速度[xt]、[yt]，則目標狀態向量被表示為式（9）。

目標運動模型可以被表示為式（10）、（11）。

其中[Yt]即為觀測到的目標坐標，[Wt]表示在[t]時刻存在的噪聲。假設噪聲滿足卡爾曼濾波條件，即假設[Wt=][Kt（Yt-CX-t）]。

使用卡爾曼濾波[21]求取運動狀態及其噪聲，滿足式（12）-（16）。

式（12）借助[t-1] 幀的運動模型對當前幀運動結果進行預測，式（13）結合預測修正觀測值，式（14）用于計算卡爾曼增益，式（15）、（16）對噪聲進行預測。其中[Q]、[R]表示協方差矩陣，根據實驗實際情況進行選取。通過式（12）-（16）獲得經過卡爾曼濾波修正后的目標中心狀態[Xt]，最后再根據式（9）得到最終估計的目標位置[ct]。

3 主循環流程

在進入主循環前，首先對目標進行手動框選，并在框內初始化目標模型[{p0j}]及背景模型。主循環使用[t-1]幀的目標模型信息[{pt-1j}]，估計[t] 幀的目標模型信息[{ptj}]，同時計算目標中心[ct=（xt，yt）]、尺度[st]與角度[at]。本文方法主循環流程如下：

主循環流程

輸入：紅外圖像序列[I（t）]，可見光圖像序列[V（t）]

輸出：目標中心[ct]，尺度[st] ，角度[at]

1 While （圖像序列未結束）

2 ? ? 讀取[I（t）]、[V（t）]

3 ? ? 獲取與靜態外觀模型的匹配[Lst]

4 ? ? 獲取與自適應模型的匹配[Lat]

5 ? ? 融合[Lst]、[Lat]獲得[Lt]

6 ? ? 通過式（2）-（5）獲得[st] 、[at]，進而求取[Ht]

7 ? ? 通過式（6）、（7）獲得[Dt]、[Ut]

8 ? ? 對[Ut]聚類分割[Lt]獲得[L+t]

9 ? ? 通過式（8）求取中心[ct]

10 ? ? 按式（9）-（16）對[ct]使用卡爾曼濾波，獲得修正后的中心[ct]

18 End while

4 實驗與結果分析

本文算法在文獻[18]提供的開源代碼上進行修改，并在cpp+opencv2.14中實現了多模態的跟蹤算法，本文實驗環境使用的CPU為I5CPU，頻率為2.60GHZ，內存為4G。其中參數設置與文獻[18]相同，采用默認設置。

文獻[22]總結了大多數公共紅外和可見光圖像序列數據集以及融合跟蹤方法。本文使用該數據集以及對比的融合跟蹤方法，但該數據集中未能測試旋轉目標的視頻序列，因此本文也使用了部分自行拍攝的數據集。在數據集[22]跟蹤圖像的標注框及重疊率表中，用紅色表示STRUCK（Structured Output Tracking with Kernels）算法，青色表示TLD（Tracking-Learning-Detection）算法，紫色表示KCF（High-Speed Tracking with Kernelized Correlation Filters）算法，黃色表示SAMF算法，綠色表示本文算法，藍色表示地面實況。

跟蹤器輸出[bt]表示為一個矩形，由[ct]、[st]進行求取，[bt]與目標基準位置數據[bGt]獲得標準重疊率[？]，如式（17）所示。

4.1 文獻[22]數據集實驗與結果分析

本節選取數據集[22]中名稱為BlackCar與Exposure2的圖像序列進行實驗，兩者尺寸均為[384×288]，跟蹤目標均為車輛，跟蹤結果如圖2、圖3所示（彩圖掃描OSID碼可見）。

根據每幀重疊率能夠獲得重疊率—幀的圖像如圖4、圖5所示（彩圖掃描OSID碼可見），坐標中橫軸表示圖像序列的幀序號，縱軸表示幀對應的重疊率。

由于本文算法能夠適應目標發生的尺度變化，因此與沒有尺度變化的跟蹤器如KCF和STRUCK算法相比，在重疊率上具有顯著優勢。針對BlackCar數據，除SAMF外的大部分跟蹤器均在目標受遮擋后發生錯誤，導致重疊率下降，但本文跟蹤器由于靜態模型的作用，在丟失目標后仍能再次成功跟蹤，表現為后期重疊率上升;針對Exposure2數據，本文算法能夠獲得與SAMF接近的跟蹤效果，而TLD算法卻在部分幀上丟失了目標。

4.2 自行拍攝數據集實驗與結果分析

本節使用自行拍攝的紅外與可見光視頻進行實驗，圖像序列尺寸為[704×576]，目標為視頻中出現的手。由于缺乏客觀、合適的目標基準位置數據，因此不使用重疊率進行比較，僅展現跟蹤的框選效果。本節跟蹤目標中心使用[ct]，而非修正后的[ct]。

在分辨率較高的視頻下，本文算法在實時性上體現出優越性，每幀平均花費時間少于其它算法，如表1所示。

由于STRUCK與TLD算法的運算實時性較差，KCF不存在尺度檢測，因此僅與SAMF跟蹤效果進行對比。藍色表示本文算法，綠色表示SAMF算法，如圖6所示（彩圖掃描OSID碼可見），帶旋轉檢測的本文算法相比SAMF算法能更準確地跟蹤目標。

5 結語

本文在CMT跟蹤算法框架下進行擴展，提出一種多傳感器的CMT跟蹤算法，同樣采用對應聚類作為區分內部與外部關鍵點的中心思想。在目標尺度、旋轉、中心的估計上結合了多傳感器信息，并使用卡爾曼濾波對目標中心進行修正，解決了傳統融合跟蹤算法無法高效估計目標尺度、旋轉變化等問題。實驗結果表明，本文算法在常見分辨率下跟蹤不旋轉的目標，重疊率與現有算法相當，在較高分辨率下，本文算法在實時性上具有優勢。在未來研究工作中，可以對目標的運動模型進行優化，使之適應更復雜的運動目標。

參考文獻：

[1] GADE R， MOESLUND T B. Thermal cameras and applications： a survey[J]. Machine Vision and Applications， 2014，25（1SI）：245-262.

[2] YUN X，JING Z，JIN B. Visible and infrared tracking based on multi-view multi-kernel fusion model[J]. Optical Review， 2016，23（2）：244-253.

[3] LI W，PAN F，XIAO Y， et al. Infrared target tracking based on color fusion image and particle filter[C]. International Conference on Instrumentation Measurement Computer Communication and Control，2015：1424-1428.

[4] LIU H，SUN F. Fusion tracking in color and infrared images using joint sparse representation[J]. Science China-Information Sciences， 2012，55（3）：590-599.

[5] LUO C，SUN B， DENG Q， et al. Comparison of different level fusion schemes for infrared-visible object tracking： an experimental survey [C]. Wuhan：The 2nd International Conference on Robotics and Automation Sciences，2018.

[6] LI Y，ZHU J. A scale adaptive kernel correlation filter tracker with feature integration[M]. Lecture Notes in Computer Science，2015：254-265.

[7] SHEN M，ZHANG Y，WANG R， et al. Robust object tracking via superpixels and keypoints[J]. Multimedia Tools and Applications， 2018，77（19）：25109-25129.

[8] ZHOU D， HU D. A robust object tracking algorithm based on SURF[C]. Hangzhou： International Conference on Wireless Communications and Signal Processing，2013.

[9] NEBEHAY G，PFLUGFELDER R. Clustering of static-adaptive correspondences for deformable object tracking[C].IEEE Conference on Computer Vision and Pattern Recognition， 2015：2784-2791.

[10] BARBARA ZITOVá，FLUSSER J. Image registration methods： a survey[J]. Image and Vision Computing，2003，21（11）：977-1000.

[11] SANTNER J，LEISTNER C，SAFFARI A，et al. PROST： parallel robust online simple tracking[C]. IEEE Conference on Computer Vision and Pattern Recognition，2010：723-730.

[12] ROSTEN E，PORTER R，DRUMMOND T. Faster and better： a machine learning approach to corner detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2010，32（1）：105-119.

[13] LEUTENEGGER S， CHLI M， SIEGWART R Y. BRISK： binary robust invariant scalable keypoints[C].IEEE International Conference on Computer Vision， 2011：2548-2555.

[14] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision， 2004， 60（2）：91-110.

[15] LUCAS B D，KANADE T. An iterative image registration technique with an application to stereo vision [C]. Proceedings of the International Joint Conference on ArtificialIntelligence，1997：674-679.

[16] KALAL Z，MIKOLAJCZYK K，MATAS J. Forward-backward error： automatic detection of tracking failures[C]. The 20th International Conference on Pattern Recognition，2010：？2756-2759.

[17] SANTNER J， LEISTNER C， SAFFARI A， et al. PROST： parallel robust online simple tracking[C].IEEE Conference on Computer Vision and Pattern Recognition， 2010：723-730.

[18] NEBEHAY G， PFLUGFELDER R. Clustering of static-adaptive correspondences for deformable object tracking[C].IEEE Conference on Computer Vision and Pattern Recognition，2015：2784-2791.

[19] 閆旭偉. CMT目標跟蹤算法研究與異構系統實現[D].西安：西安電子科技大學，2017.

[20] XU R，WUNSCH D C. Survey of clustering algorithms[J]. IEEE Transactions on Neural Networks， 2005， 16（3）：645-678.

[21] 謝澤奇，張會敏，張佳佳，等. 復雜背景下的快速機動目標跟蹤算法[J]. 傳感器與微系統，2018，37（5）：132-134.

[22] LUO C，SUN B， DENG Q，et al. Comparison of different level fusion schemes for infrared-visible object tracking： an experimental survey [C]. Wuhan：The 2nd International Conference on Robotics and Automation Sciences， 2018.

（責任編輯：黃健）

軟件導刊2020年7期

軟件導刊的其它文章: 虛擬現實技術在高等職業教育中的應用研究綜述; 單目視覺慣性的同時定位與地圖構建綜述; 學習共同體研究熱點知識圖譜分析; 基于知識圖譜的云計算技術研究現狀與分析; 混合學習之教學序列實證研究; 計算思維評價：概念取向、要素框架與測量方法