周小龍,劉倩倩,產思賢,陳勝勇,3
1(浙江工業大學 計算機科學與技術學院,杭州310023) 2(衢州學院 電氣與信息工程學院,浙江 衢州324000) 3(天津理工大學 計算機與通信工程學院,天津 300384)
目標跟蹤作為計算機視覺領域中熱門研究方向之一,在智能監控系統、虛擬現實、無人駕駛、人機交互和工業機器人等領域有著廣泛的應用[1].目標跟蹤所要解決的基本問題是從給定圖像幀的序列中選擇感興趣的目標,通過計算機視覺算法求解出目標在每一幀中的位置.自上世紀五十年代起始至今,雖已經研究出大量算法并取得廣泛應用,但在復雜的環境條件下往往難以實現高速準確跟蹤,主要面臨的挑戰有光照、形變、遮擋、尺度變化、圖像模糊以及快速運動等等.一般來說,當前目標跟蹤算法是基于由傳統的CMOS相機[2]捕獲的一系列圖像幀的運動序列,并且這些算法已相當成熟.一些早期的經典跟蹤算法如卡爾曼濾波、粒子濾波[3]等使用生成式模型,通過匹配搜索來執行跟蹤,現在的跟蹤算法如基于相關濾波的跟蹤器[4-7]使用判別類模型,將目標與背景信息分開訓練分類器,從而確定目標位置.隨著深度學習的興起,深度學習在目標跟蹤上也顯示出出色的性能[8-11].由于這些跟蹤算法是基于傳統相機的圖像幀,而這些幀具有高冗余、高延遲和高數據量的缺點.每個像素曝光需要統一的時間,在物體快速運動時會造成圖像模糊、信息丟失等問題,另外,在跟蹤應用時會受到復雜的場景如光照條件和目標與場景間的遮擋等現實中不可避免因素的影響.因此出現了一種新型的視覺傳感器.受到生物視網膜啟發的基于事件的傳感器,提供了連續的輸出異步事件流.像素異步工作觸發的事件僅輸出光強度發生變化的像素的地址和信息,而不是被動地讀取幀中的每個像素信息.因此,具有場景變化、圖像超稀疏表示以及事件異步輸出的實時高動態響應的特性,可廣泛用于高速目標跟蹤、實時監控和機器人視覺.
事件相機不同于傳統相機以固定速率采集圖像,它通過測量每個像素的亮度變化來輸出異步信號,這將引起一系列“事件”,這些事件編碼亮度變化的時間、位置及極性.圖1為一個黑點在圓盤上旋轉時傳統相機和事件相機的輸出比較[12],事件相機輸出稀疏事件流,沒有冗余數據,僅提供像素事件信息或沒有事件,因此,它能克服傳統相機的一些局限性,比如高時間分辨率、高動態范圍、低延遲以及低功耗等.此外,事件相機可以在具有高亮度對比度的挑戰性場景和在高速、高動態范圍視覺應用中發揮強大優勢.正因為上述這些優勢,基于事件相機的視覺算法在同步定位、三維重建、視覺檢測與跟蹤以及目標識別等領域有著廣泛的應用[13-16].

圖1 黑點在圓盤上旋轉時普通相機和事件相機比較[12]Fig.1 Comparison of the output of the normal camera and the event camera when a black dot rotates on a disc[12]
本文將對事件相機及其在跟蹤領域的算法作詳細的介紹,文章結構如下:第2節將簡要介紹事件相機的類型及獨特的優勢和面臨的挑戰,第3、4節將介紹與分析基于事件相機的跟蹤算法和有關數據集,最后對本文進行總結以及對該領域未來的研究趨勢進行了展望.
2.1.1 動態視覺傳感器
事件相機是由生物視網膜啟發的傳感器,動態視覺傳感器(DynamicVision Sensor,DVS)屬于其中一種,它最早在2008年由Tobi小組提出[17],被視為第一代動態視覺傳感器或基于事件的圖像傳感器,可以異步檢測像素亮度變化.不同于普通相機,它的像素結構更為復雜,分為四個部分如圖2所示[2],工作原理如圖3所示[17],圖3給出了DVS傳感器兩個關鍵信號的波形實例.DVS具有獨立、異步的像素,這些像素響應其光強對數(即L=log(I))的變化,僅輸出尖峰事件流.事件被觸發以地址-事件表示結合了事件的位置、時間和極性(亮度變化的信號).觸發的事件表示為:
e=[x,y,t,p]T
(1)
其中,事件e表示在相機傳感器上位于u=[x,y]T處的像素響應于時間t上的亮度變化而產生的變化事件.亮度變化的信號編碼為p∈[-1,1],p=1表示ON事件,即正事件代表亮度增加,反之表示OFF事件,即負事件代表亮度減少.被觸發的事件意味著距離上次事件亮度增加達到了預先設定的閾值C,理想情況下,即:
ΔL(u,t)=pC
(2)
其中,
ΔL(u,t)=L(u,t)-L(u,t-Δt)
(3)
Δt表示從像素u上次觸發事件開始時所經過的時間.
2.1.2 基于異步時間的圖像傳感器
不同于DVS,基于異步時間的圖像傳感器(Asynchronous Time-based Image Sensor,ATIS)[18]不僅能輸出DVS所提供的事件像素的位置、時間及極性信息,還能輸出絕對的灰度值,滿足了視覺研究人員對圖像強度值的需求.ATIS的像素包含觸發另一個子像素以讀取絕對強度的子像素,觸發器將電容器重置為高電壓,然后在另一個二極管從電容器中放電,光線越強,放電越快,ATIS讀取放電事件時對兩個閾值電壓之間的時間進行編碼,從而得到強度值,因此,只有變化的像素才提供新的強度值,光照越強,事件之間的時間越短,可以實現較高的動態范圍[19].然而,當在較暗的環境下,放電速度不夠快,讀取強度值時可能會被新的事件打斷,從而導致信息丟失.

圖2 DVS像素在塊水平上的結構[2]Fig.2 Block-level structure of DVS pixels[2]

圖3 DVS的工作原理[17]Fig.3 DVS working principle[17]
2.1.3 動態主動像素視覺傳感器
動態主動像素視覺傳感器(Dynamic and Active Pixel Vision Sensor,DAVIS)[20]是將DVS和主動像素傳感器(Active Pixel Sensor,APS)[21]結合的傳感器,通過共享兩者的光電二極管,且加裝一個讀出電路僅將DVS像素面積增加了5%.因此,它的像素尺寸比ATIS小很多.通過分析DVS事件,可以按需觸發強度幀,能夠同時輸出事件流和圖像灰度信息.另外,它能讀出對應感興趣區如與運動有關區域的絕對光強度,可以應用在更多的計算機視覺應用中.然而,APS讀出時有動態范圍限制,當像素不改變的情況下,會在時間和空間上造成冗余[22].
事件相機不是以固定速率捕獲圖像幀,而是異步地測量每個像素的亮度變化,因此能克服傳統相機的一些局限性并且擁有絕佳的屬性,比如低延遲、高動態范圍、高時間分辨率、低功耗以及不受運動模糊影響等,在高速和高動態范圍場景中有著廣闊的應用空間.具體數據比較見表1.

表1 事件相機與傳統相機的屬性數據比較Table 1 Comparison of the attribute data between event camera and traditional camera
相反,事件相機作為代表視覺信息獲取的范式轉變,也面臨著一些挑戰[19]:
1)數據的獲?。菏录鄼C作為一種新型傳感器,研發尚未成熟,目前在市面上并未普及,而且價格昂貴,只應用于一些高級實驗室研發,因此,對其數據的獲取并不容易.
2)全新的算法:當前計算機視覺算法是基于圖像幀,對于事件相機來說已不適用,事件不僅取決于場景亮度變化,還取決于場景和相機之間的過去和當前的運動變化,因此開發一種新的算法已成為必然趨勢.
3)信息的處理:每個事件只提供二進制信息(亮度增加或減少,以事件的極性表示),雖說ATIS能輸出絕對灰度值,但在未來的應用研究中,二進制表示的信息是否足夠完成視覺任務成為一種可能.
4)噪聲和動態效應:由于傳感器本身攜帶大量的噪聲事件,當物體或相機運動時也會產生一系列噪聲事件,因此如何對噪聲以及非理想效應建模并從中提取有效事件信息也是研究者所要解決的問題.
隨著事件相機的發展,基于事件的算法在計算機視覺領域取得廣泛應用.跟蹤作為計算機視覺中的低層次應用之一,也取得了較好的效果.根據對事件信息的不同處理方法,可將跟蹤算法分為基于事件驅動機制的事件流跟蹤算法和基于事件和圖像幀的跟蹤算法.
早期的跟蹤算法側重于事件驅動視覺系統的低延遲和低處理特性,通過事件源聚類塊[23,24]、圓[25]或線條[26,27]形式來跟蹤簡單的移動的目標.文獻[23]在2006年提出使用單目DVS的嵌入式視覺系統的車輛跟蹤算法.作者受均值漂移算法啟發,通過歐式距離準則將傳入的事件分配給圓形聚類簇,其中,事件的位置由簇的搜索半徑評估,簇的移動趨向于大多最近添加的事件.文獻[26]在2009年提出基于事件的自適應霍夫變換方法來跟蹤線條.類似的方法[25]在2012年被提出,不同之處在于文獻[25]利用霍夫圓變換來跟蹤移動微粒產生的事件流.文獻[27]在2014年提出跟蹤高速四旋翼激動的6-DOF姿態估計的一組線條.實驗證明該算法即使在旋轉速度1200°/s的情況下也可以逐事件估計四旋翼狀態.
隨后,許多研究工作者使用迭代最近點算法(ICP)[28]、蒙特卡羅(Monte-Carlo)[29]、粒子濾波算法[30]等逐事件自適應跟蹤復雜的、高對比度的預定義的形狀.文獻[28]在2012年提出基于事件的迭代最近點算法(EICP)直接應用于DVS的輸出,應用在微型夾持器的高速穩定,它允許以4kHZ的頻率跟蹤操縱工具.文獻[29]在2015年提出基于事件的多核跟蹤,使用各種核如Gaussian、Gabor、Gabor函數的組合以及任意用戶定義的核來處理目標在位置上、尺度上和方向上的變化.通過蒙特卡羅算法將事件與模板的旋轉和縮放版本的均采樣集進行匹配.同年,文獻[31]使用類似于文獻[29]中的循環核,通過一組立體的DVS進行四旋翼飛行器的回避操作來跟蹤球.事件相機允許在15ms內進行球檢測,軌跡外推和碰撞預測少于普通30HZ相機兩幀之間時間的一半.文獻[32]在2016年提出使用無限脈沖響應濾波器代替ICP算法,結合2D和3D標準的基于事件的更新來跟蹤一組線條組成的模型3D姿態.文獻[30]在2017年提出一種粒子濾波器的變體來跟蹤由基于事件的霍夫變換算法組成的聚類.改進的粒子濾波器提供多假設濾波器技術,在視覺空間和時間空間上進行采樣,自動調整目標觀測的時間窗口,即使在相對目標運動較低的時段也可以進行一致的檢測.該方法可用于跟蹤事件空間中的目標,同時摒棄了相機自身運動引起的背景雜波,實現了自由運動的相機與目標之間相對速度變化的魯棒性.但該算法在目標丟失時濾波器的初始化和恢復尚未實現.

圖4 高斯混合模型的事件聚類Fig.4 Event clustering of Gaussian mixture model
最近,文獻[33]設計出768 × 640像素的動態視覺傳感器,可緩解DVS相機圖像分辨率較低的問題.為了保護在監視公共空間執行人員跟蹤時涉及的隱私,文獻[34]使用此傳感器在2019年提出層次聚類的目標跟蹤算法.該算法首先用一個基于相鄰事件的濾波器作為預處理,然后處理層次聚類事件,最后跟蹤聚類質心.算法通過將連續事件流切成固定時間長度的非重疊塊并對每個塊處理而實現跟蹤.提出的方法簡單快速,但只在自己記錄的小型數據集上進行驗證測試,而且方法中幾乎未考慮到每個事件的時間信息,這是有待改進解決的.
以上提出的基于事件流的跟蹤算法都是針對于無復雜紋理的目標以及沒有雜亂背景的場景下的,而在復雜場景下對目標執行邊界框跟蹤的算法卻很少.為解決事件流形狀的快速變化、噪聲事件以及背景雜亂等問題,文獻[35]在2019年提出速率編碼事件流目標,通過預訓練的CNN模型對目標特征進行表示并利用相關濾波機制執行跟蹤.提出的算法在復雜的場景中取得良好效果并達到實時性能.同年文獻[36]通過將異步事件轉換成幀,提出基于自適應時間曲面的異步檢測跟蹤.首先將事件中的時空信息扭曲為帶有線性時間衰減的自適應時間曲面(ATSLTD)幀表示,然后在ATSLTD幀上執行基于邊界框的基于事件的目標檢測跟蹤(ETD).ETD算法分兩步:第1步將提出的ETD檢測器在第一ATSLTD幀中指定的目標對象的每個順序幀上生成一組目標協議;第2步使用基于聯合交叉點的跟蹤器從生成的目標協議中選擇最佳目標協議當作當前幀的跟蹤結果.在此基礎上,文獻[37]在2020年提出將ATSLTD幀序列反饋到一個新型的視網膜運動回歸網絡(RMRNet)中,以執行端到端的5-DoF目標運動回歸,算法在ECD[38]和EED[39]數據集上進行測試,與基于幀的主流跟蹤算法如ATOM[40]、SiameseFc[41]等進行實驗對比,展現出該方法的優越性,以及在快速運動、低光條件以及高動態范圍場景的挑戰性情況下能實現準確跟蹤.雖說此類方法能夠處理復雜場景下的目標,但是并不能發揮出事件流的本質優勢.

圖5 特征點檢測與跟蹤算法圖Fig.5 Feature detection and trackingalgorithm
此外,也有研究者提出處理有關目標遮擋問題.文獻[42]在2012年提出在嚴重高遮擋場景下的多人跟蹤算法.該算法的目的是檢索場景中移動目標的軌跡,提出將移動目標產生的事件流表示為時空中的事件云,并使用高斯混合模型將事件分組聚類為簇,如圖4所示,通過找到基礎數據的最佳模型參數,使用最大后驗算法進行簇更新,從而跟蹤有遮擋的簇.實驗結果表明提出的算法即使軌跡相交也能跟蹤到目標.文獻[43]在2015年提出基于ATIS的計算高效、魯棒的自適應模式跟蹤方法.該方法建立了目標與已知模型之間的對應關系,算法設計包括3個部分:模式表示、變換模型和最優變換參數估計的跟蹤準則.每個輸出事件一旦被接收,該算法就會處理并根據到達的事件來迭代更新模型的位置和方向.通過使用位置和強度信息來建立基于事件云(2D點集)的事件模型,對于每個到達的事件,先根據事件的時空特性進行空間匹配,然后進行幾何變換以更新模型.該算法可解決基于普通相機幀因目標遮擋造成的模糊問題.實驗結果表明,該算法可以以200kHz的等效幀率進行高速形狀跟蹤,并驗證了基于事件的相機在機器視覺中的應用.文獻[44]在2017年提出立體目標跟蹤,同時將3D重建和聚類跟蹤相結合,在兩個任務中加入反饋信息,以改善各自性能.聚類的算法類似文獻[42],通過改進文獻[23]的跟蹤算法跟蹤具有遮擋的目標.算法在四個不同的實驗中得到驗證,實驗表明即使在發生遮擋的情況下,也可以在立體設置中跟蹤兩個目標的3D位置.
基于圖像幀的目標跟蹤算法歷史悠久,發展比較成熟,現階段研究主要集中于相關濾波類和深度學習.最近,為解決目標出現遮擋、模糊或尺度發生變化時造成的跟蹤失敗問題,文獻[6]提出融合多種特征如傳統特征和卷積特征等的跟蹤方法,并加入尺度池估計.文獻[7]將改進后的HOG與顏色特征相結合進行特征融合采樣,通過在運動方向場與區域響應因子結合來估計當前目標的運動狀態,調整模型更新機制找回丟失后的目標,最后針對尺度變化問題加入自適應尺度因子來提高算法的適應性.但兩種方法均有著較大的計算量,導致跟蹤速度下降,并且實時性能也不高.針對基于深度學習的網絡模型更新不及時以及缺乏訓練樣本等問題,文獻[8]在孿生卷積神經網絡中加入SE-Net以用于特征提取,并在跟蹤階段利用區域推薦網絡定位目標和線性微調邊界框.提出的算法保證了跟蹤的準確性但不能很好的處理目標的遮擋和模糊問題.另外當目標或相機快速移動時,目標的尺度和縱橫比也會發生變化,基于此,文獻[9]利用全卷積網絡的表達能力,將跟蹤問題作為一個并行分類和回歸,提出基于anchor-free的SiamBAN跟蹤框架,避免了候選框的超參數和先驗知識,并獲得較好的泛用性,與SiamRPN[10]類算法相比,提高了準確性和魯棒性,但與在線更新類如DIMP[11]算法相比,魯棒性較弱,這是有待完善的.
基于幀的跟蹤容易受到光照影響,并且當目標運動過快時會導致圖像模糊或信息丟失,因此,通過利用事件相機的優勢,越來越多的文獻利用事件流和圖像幀相結合的方式進行目標跟蹤.文獻[45]在2012年最早提出DVS事件可用于指導卷積神經網絡(CNN)技術在DAVIS相機中的應用,以用于目標檢測和跟蹤.跟蹤過程分3步:首先,DAVIS產生的二進制事件由基于聚類的跟蹤方法生成感興趣區,然后根據DAVIS捕獲的灰度幀由CNN粗略檢測大致的目標區域,最后采用粒子濾波算法從感興趣區域中推斷目標位置.實驗結果表明,基于事件和圖像幀結合的相機的CNN跟蹤速度約為全幀CNN跟蹤的70倍.跟蹤性能的測量采用精度測量的中心定位誤差,該精度是與DVS的輸出像素事件兼容的亞像素精度測量.
文獻[46]在2016年利用DAVIS相機輸出的事件組合幀,提出基于結合圖像幀和事件流的特征點檢測與跟蹤算法.該算法首先在灰度幀上進行特征點檢測,然后使用事件流在幀之間的盲時間內異步跟蹤特征.檢測的特征點不同于文獻[29]僅限于手工制定的內核,而是自然的紋理特征.首先對原始灰度圖提取邊緣和Harris角點特征,然后以特征點為中心的方形區塊內的邊緣圖進行二值化,形成模型點集.此后的跟蹤過程類似于文獻[43]提到的形狀跟蹤,通過對檢測到的特征點建模,使用最新到達的事件不斷更新特征模型.算法思想如圖5所示,提出的方法可以實現異步跟蹤,但其采用原始圖像作為初始化,也為后續研究者提出作為缺點和不足.
文獻[47]對文獻[46]中的方法進行改進,利用基于事件的ICP算法[38]跟蹤局部邊緣模式進行視覺測距.由于在ICP過程中,每個像素被賦予不同的權值,因此,當某個區域內發生的事件越多,說明這個像素點最為重要,從而賦予更多的權值.此外,作者利用二維直方圖對所跟蹤特征的位置進行細化,能夠提高長距離跟蹤能力.該文提出的方法將跟蹤轉換為幾何、點集問題,但該方法一方面會丟失有關邊緣強度的信息,另一方面需要為基于ICP的注冊建立事件和模板之間的顯示對應關系(即數據關聯).因此,文獻[48]在2017年對文獻[47]進行擴展,提出一種基于概率的軟數據關聯模型,依賴于事件的概率分配給模型后,將事件分組到模型中并計算光流.其中特征取代先前的邊緣模式由運動補償事件構建,然后使用期望最大化ICP以軟方式計算對應關系,以此產生基于點集的模板,將新事件注冊到模板中.但由于構建的事件圖像受相機運動的影響很大,當相機快速移動時,跟蹤性能受到限制.另外該文在計算數據關聯時,對滑窗中所有的事件點之間的關聯概率都進行了計算,這會使得計算復雜度變高,同時采用的期望最大化迭代求解方法,或許達不到實時性能.通過對文獻[47,48]的改進,文獻[49]在2018年直接使用原始強度圖像的空間梯度作為模板,第一次提出通過生成事件模型將事件直接與幀中的像素強度關聯起來.實驗結果表明該方法的特征軌跡與先進算法相比更準確(亞像素精度)、更長.但用于預測事件的生成事件模型是一種近似模型,沒有考慮嚴重的動態變化和噪聲影響.
最近,在文獻[48]的基礎上,類似于文獻[49]的思想,文獻[16]主要考慮了相機運動的影響,但不使用原始強度圖像,在2020年提出在XYT-域中使用三維Bezier曲線的事件對齊和特征跟蹤算法,跟蹤到的特征以用于估計三維相機姿態的精度.文中沿Bezier曲線在固定時間間隔內對齊事件,將其引入到補丁圖像中,不同于直線對齊它可以極大地減少未對齊的情況.另外由于相機的運動是未知的,因此估計Bezier曲線可以最大化扭曲事件像素的方差.提出的局部特征跟蹤算法不同于用于跟蹤的初始補丁,而是通過對事件進行時間積分來構造模板圖像補丁,并基于上述事件對齊來估計特征的運動.作者分別在合成和真實的數據集上進行測試,實驗結果與文獻[48]進行比較,證明了該方法無論在跟蹤特征長度上和年齡上均優于文獻[48],并且獲得了較強的魯棒性.該文提出的算法能有效地對在三維時空空間中生成的事件流進行對齊,同時解決了事件與特征之間的數據關聯問題和運動估計問題.
此外,文獻[50]在2018年提出基于局部滑動窗口的長時間在線學習檢測跟蹤.這是一項突破性的成果,打開了基于事件的長時間并實時跟蹤的大門.提出的e-TLD算法借鑒基于幀的TLD算法[51],整合一個局部搜索的跟蹤器和一個全局搜索的檢測器,采用區分性分類方案將目標與背景分離,通過在線學習對目標進行識別,并在目標回到視野中時再對其進行檢測和重新跟蹤.此外,采用的貝葉斯自舉可用于輔助實時處理并增強目標表示的判別能力.算法在公開的數據集[38]上進行測試,實驗表明可以檢測和跟蹤各種形狀和大小的任意目標.但該文采用的基于事件的滑動窗口沿用早期的方法,因此一些更有效的方法或許會更好的處理.
為了以更好的格式集成事件和幀,從而生成按需灰度幀和具有低延遲或無延遲的灰度事件.因此,不同于以上的傳感器,文獻[52]提出一個新型的運動傳感器,即Celex sensor,該傳感器是混合基于普通幀和基于事件的動態傳感器.基于該傳感器,文獻[53]在2018年通過對基于幀的跟蹤算法SSVM[54]進行改進,提出自適應事件引導支持向量機(ESVM)的跟蹤算法,用于跟蹤高速運動的目標,實現了高精度和實時性能.算法結構如圖6所示,該算法首先處理輸入的數據將低幀速率的全幀與時間連續的灰度事件流集成在一起.事件流的高時間分辨率可以捕獲高速移動目標的整個運動軌跡,而基于幀的普通相機則記錄離散的目標位置.事件的位置用于生成目標定位的自適應搜索區域,同時異步事件中的嵌入強度有助于目標檢測的特征重建.后續的跟蹤過程則遵循傳統的SSVM框架.在多個跟蹤基準的序列中進行實驗,與最近的SiameseFc[41]等跟蹤器相比,該方法提高了準確性和跟蹤速度,并且速度達到了93.8fps.

圖6 ESVM算法結構圖Fig.6 ESVM algorithm structure
與普通相機相比,事件相機發展尚未成熟,基于事件的跟蹤還在起步階段,雖說目前已提出大量的跟蹤算法,但缺乏統一的數據集進行評估,而且缺少完整的性能比較,因此不能充分證明文獻中所提算法的突出優越性.本節僅簡要介紹并分析了一些以上基于事件相機的跟蹤算法性能.
在文獻[49]的工作中,作者分別在模擬和真實的數據集上進行評估,其中數據集在帶有遮擋和亮度變化的高對比度和自然場景中獲得.評估依據為將每個真值樣本與時間上兩個最接近的特征位置的線性插值所給出的特征位置進行比較,并對真值與估計位置之間的歐式距離進行平均計算誤差.實驗結果表明提出的算法在模擬數據集上能準確跟蹤特征并獲得0.4像素的平均誤差.在真實的高紋理和自然場景中數據集上與文獻[47,48]進行對比,結果如表2所示,文獻[49] 在6個數據集上的平均像素誤差均小于1,而文獻[47,48]均遠大于1,誤差較大.由此可見,從跟蹤精度上來講,文獻[49]優于兩者.從跟蹤軌跡上看,在黑白場景下的數據集shapes_6dof,checkerboard中,文獻[49]的特征年齡遠大于兩者,而在高紋理場景下的數據集poster_6dof,boxes_6dof和自然場景下的數據集bicycles,rocks中,文獻[49]與文獻[48]將近持平,但均大于文獻[47].由此可見,文獻[49]提出的算法能實現準確的跟蹤,且跟蹤特征軌跡與先進算法相比更準確(亞像素精度)、更長.

表2 平均像素誤差和平均特征年齡在不同數據集上的比較Table 2 Comparison of average pixel error and average feature age on different datasets

圖7 DVS聚類與openCV的6種跟蹤器的路徑距離計算比較[34]Fig.7 Calculated path distances for DVS-clustering and six different object trackers implemented by openCV[34]
文獻[34]使用自己設計的真實場景下行人或自行車交叉、部分被樹遮擋的小型數據集進行實驗.為考慮到隱私概念,作者將數據集進行差分圖像和二值化處理,采用動態時間彎曲距離將跟蹤路徑與真值距離比較的評估標準,通過根據所選目標的跟蹤路徑與openCV庫中的6個跟蹤器進行對比,結果如圖7所示.整體上來講,提出的DVS事件聚類算法在7個記錄中的平均動態時間彎曲距離小于openCV庫中的跟蹤器,跟蹤較準確,表現良好,而KCF[6]跟蹤器表現最差.在記錄7的數據集上,由于DVS聚類過濾了大量的事件,沒有達到最小聚類的條件,因此丟失了對目標的持續跟蹤,從而導致跟蹤失敗.
事件相機價格昂貴,發展尚未成熟,因此目前還并不普及,為了幫助研究者處理基于事件的視覺輸入算法,從而允許將不同方法與統一的測試標準進行比較,數據集成為其算法開發和測試的重要工具.蘇黎世大學工作組公布一組公用的基于事件的視覺數據集和模擬器(1)http://github.com/uzh-rpg/event-based_vision_resources,它們在視覺上的任務分為目標運動估計(回歸)任務和目標識別(分類),前者用于光流估計、SLAM和目標跟蹤等,后者用于目標和動作識別.
文獻[55]在2016年提出使用DAVIS捕獲公共圖像序列用于目標跟蹤、動作識別和目標識別的基準數據集.然而該數據集中的事件流由捕獲監視器上顯示的圖像序列生成,因此數據采集存在明顯的不足,而且選擇的用于事件流生成的圖像序列通常以30fps記錄,使在時域連續記錄和輸出數據的DVS功能受到極大的限制.
文獻[38]在2017年提出并發布了在各種合成和真實環境中用DAVIS捕獲的數據集,用于姿態估計、視覺測距和SLAM.這是世界上第一個且最流行的基于事件相機高速高動態范圍機器人技術的數據集.該數據集不僅提供異步事件流和全局快門強度圖像,還提供運動采集系統的慣性測量和相機位姿的真值.它應用在跟蹤領域上的如角檢測器評估[14,56]以及特征跟蹤[47,49]等.
文獻[39]在2018年提出的跟蹤算法中,制作并開放了用DAVIS捕獲的極端事件數據集,數據分別在四旋翼和手持式安裝下搭建捕獲,包括多個目標在挑戰性情況下(如低光照和極端燈光變化包括頻閃的閃光燈)移動.文獻[35]在2019年提出的跟蹤算法實驗中使用7個數據集序列,其中的3個由作者通過DVS128傳感器捕獲,包括在一個場景中移動的數字、手中的玩偶以及人臉;其余4個由DAVIS 捕獲.作者將捕獲的數據集記錄分成多段,并對其目標標記了帶有邊界框的真值,而且分別歸屬所面臨的噪聲事件、遮擋、尺度變化、姿態變化等挑戰.另外,作者也開放了實驗中所用的數據集.
本文簡要介紹了事件相機的基本原理,分析了現有的基于事件相機的跟蹤算法以及有關的數據集.總的來說,基于事件相機的跟蹤不僅能極大降低計算成本,為高實時性能應用(如自動駕駛汽車導航)提供潛在的解決方案,還能利用動態DVS事件中包含的補充信息,在時域中連續檢測和輸出運動,捕獲自然界中完整的運動軌跡.
然而,盡管目前有大量的基于事件相機的跟蹤算法,但與基于幀的跟蹤算法相比還不夠成熟,因此,基于事件的跟蹤在跟蹤領域中還有很大的研究空間,以后的研究方向可以從以下幾個方面進行展開:
1)僅使用二進制事件流的跟蹤會在復雜的場景中受到限制,基于事件和幀的跟蹤算法會受到相機延遲、高動態范圍和運動模糊的影響.因此,如何有效處理事件流信息并減少噪聲事件以足夠完成視覺跟蹤任務為后續研究提供了很大的潛力.
2)在現有的大多數算法中,參數由跟蹤的目標在實驗中被定義,因此自適應調整參數以增加跟蹤器的操作范圍為這一研究后續發展提供了方向,基于學習的跟蹤算法也為此提供了廣闊空間.
3)現階段提出的算法缺少有效的評價指標,而且用于評價精度的基于幀的真值并不適用于基于事件的跟蹤.另外當前基于事件的跟蹤缺少統一的測試數據集,大多數算法很少在通用數據集上進行統一評估以進行完整的性能比較,因此建立基準數據集和評估方法將進一步促進這一方向的發展.