伍瓊燕,趙征鵬,王林飛,武藝強,邵雅磊,王穩,陶大鵬
云南大學 信息學院,云南 昆明 650500
作為智能交通系統(intelligent transport system,ITS)[1]的一項基本任務,車輛檢測與跟蹤技術已經廣泛地應用于自動駕駛[2]、交通流量監測[3]、車輛軌跡優化[4]等交通監控場景。近年來,深度學習算法[5?9]在車輛相關研究中表現出了巨大的潛力。而以數據驅動的深度學習通常需要大量的訓練樣本來挖掘數據的潛在模式以進一步改進算法,因此數據集的內容和質量直接決定了車輛檢測與跟蹤模型的可靠性和適用性。盡管在過去的時間里,計算機視覺社區的研究人員們已經在車流量較大的城市監控場景下構建了豐富的車輛檢測與跟蹤數據集,但隨著檢測與跟蹤技術的不斷進步,大多數數據集并不能嚴格滿足監控場景下車輛檢測與跟蹤研究的要求。問題主要有:1)采集場景單一。現有的數據集大多都采集于現代化城市交通場景,卻鮮有對路況更復雜、交通參與者更多、車輛行駛干擾更大的郊區、鄉村等路段投入關注。2)數據集長尾分布。在大多數現存車輛檢測與跟蹤數據集中,小汽車類型占據了絕對的比重,而在城市少見的車輛類型(比如摩托車)數量很少,加劇了車輛類型之間的長尾分布問題。3)圖像采集環境簡單。部分數據集受限于傳感器的拍攝范圍,捕獲到的圖像中車道以外的背景及車輛行駛干擾較少,不能體現出真實的車輛行駛場景,這樣的數據會在一定程度上限制模型的泛化能力。
為了克服現有數據集的局限性,本文構建了一個車輛數據集VeDT-MSS(vehicle detection and tracking for multiple surveillance scenarios)來實時準確地進行車輛檢測與跟蹤研究。數據集主要采集于郊區、鄉村道路、城市公路以及交通復雜路口4 種不同的監控場景,并對4 種常見車輛類別(小汽車、卡車、公交車和摩托車)進行分類標注。除了豐富的邊界框以外,數據集還包含多種光照條件和拍攝視角,具有尺度和角度的多樣性,以更好地適應真實世界的監控場景。該數據集還具有交通場景多樣化、卡車的類內多樣性大、摩托車標注實例占比高以及背景復雜程度高4 個亮點。通過在該數據集上進行大量的基線實驗以評估該數據集的質量,驗證了各類主流的檢測與跟蹤算法(基于深度學習的Two-stage 和One-stage 方法、Anchor-Free 方法、基于Transformer 的方法、DeepSort方法)在本數據集上均有一定程度的提升空間。另一方面,本文為車輛檢測與跟蹤研究領域提供了大量鄉村、郊區場景下的標注數據,彌補了該研究領域在場景多樣性方面的不足,為研究人員設計監控場景下的車輛檢測以及跟蹤算法提供了新的數據選擇。
在早期的研究中,缺乏多樣化的數據集極大地限制了車輛相關研究的進一步探索。近年來,計算機視覺社區的研究人員們發布了各種車輛數據集來充分解決這個問題。現有的大多數車輛數據集主要應用于幾個場景,包括細粒度分類、車輛重識別以及目標檢測與跟蹤等任務。以下將從這3 個應用場景對常用數據集[10?24]進行介紹。
細粒度分類在車輛品牌自動統計中具有重要的研究價值,車輛重識別在刑事調查、行程時間估計等應用中發揮著關鍵的作用。目前常見的細粒度分類數據集在文獻[10?13]所提出,其具體信息如表1 所示。常見的車輛重識別數據集在文獻[14?18]所提出,其具體信息如表2 所示。這些數據集在一定程度上促進了車輛細粒度分類以及車輛重識別的發展,為其他研究人員開發更先進更復雜的算法提供了基準數據集。

表1 車輛細粒度分類常見數據集

表2 車輛重識別常見數據集
從表1 和表2 中可以看出,一些公開可用的車輛數據集并非完全來自監控攝像,并且由于真實的監控場景通常涵蓋廣闊的視角空間、復雜的道路背景以及隨機分布的車輛類型和數量,而目前用于車輛細粒度分類以及車輛重識別任務下的單目標數據集如文獻[10?17]較為簡單,通過人工裁剪背景,去除大量的干擾,使得每張圖像只包含一輛車,其圖像大多來自對齊良好的正面和側面視圖,這種數據呈現方式與真實監控數據完全不同,因此這類數據集難以用于訓練復雜道路監控背景下的檢測和跟蹤方法。而文獻[18]提出的數據集里大部分都是裁剪良好的車牌圖像,只有445 張(約為數據集圖像總量的1.7%)是完整監控場景下的車輛圖像,并且在提供的整車圖像中沒有包含車道以外的背景,由于監控視野太低導致無法捕獲大型車輛的全局特征。以上這些因素表明,即使該類數據集提供的圖像數量大,但是卻并不能用于復雜道路監控場景下的車輛檢測與跟蹤研究。
車輛檢測與跟蹤任務是近幾年交通監控場景的重要研究任務。為了進一步促進該領域的研究,Guerrero-Gómez-Olmedo 等[19]提出了2 種監控場景下的GRAM-RTM 數據集用于車輛跟蹤算法評估。Dong 等[20]構建了一個在監控攝像頭下的BIT-Vehicle 數據集來驗證其設計的基于外觀的車型分類方法。由于該數據集提供了良好的車輛標注,還能將其廣泛應用于車輛檢測算法的評估[25?26]。Luo 等[12]在提出的MIO-TCD-Localization數據集評估了一些經典的CNN(convolutional neural networks) 方法。 Du 等[21]構建了一個UAVDT 數據集用以改進無人機場景下的車輛跟蹤算法。Bozcan 等[22]提出了一個由無人機搭載攝像機進行空中拍攝得到的AU-AIR 多模態航空數據集以進行低空目標檢測。Fedorov 等[23]在提出的數據集上驗證了其設計的Faster R-CNN 檢測器的可行性,以解決使用交通視頻數據進行交通估計的問題。Wen 等[24]提出了一個在城市監控場景下的UA-DETRAC(university at Albany DETection and TRACking)數據集以用于多目標檢測和跟蹤應用。同時,他們還提出了一種基于檢測與跟蹤分數的三維曲線評估協議,較好地實現了多目標跟蹤的完整性能。VeDT-MSS 數據集與常用的車輛檢測與跟蹤數據集的具體信息如表3 所示。車型分布比較如圖1 所示,在進行數據處理時,本文只統計明確車輛類型,沒有計入如文獻[12]中行人、不明確類別等的標簽數據。并且按照汽車的功能,將這些數據集中所有的客運車輛(如SUV、小轎車以及MPVs 等)都統一視為小汽車,將所有的貨運車輛(如皮卡、中型貨車以及重型貨車等)都統一視為卡車。

圖1 VeDT-MSS 與常用車輛檢測與跟蹤數據集的車型分布比較

表3 車輛檢測與跟蹤常見數據集
從表3 中車輛檢測與跟蹤數據集的呈現方式可以看出,除了架設在路邊的常規監控車輛數據集之外,還有文獻[21?22]中的航拍車輛數據集,該類數據集在極大地推進航空圖像目標檢測研究的同時,也有2 個明顯的缺點:1)拍攝到的車輛尺寸相對較小,特別是在垂直于地面的攝像機拍攝得到的圖像中,一些小目標在視覺上甚至以點的形式呈現;2)隨著無人機的移動,拍攝視角只圍繞車輛頂部發生變化,其視角呈現不符合監控場景下的視野需求。因此,航拍車輛數據集也不適用與處理常規監控下的檢測與跟蹤研究。其余在監控攝像頭下的數據集如文獻[19?20]、[12]、[23?24]目前正廣泛用于評估監控場景下的檢測與跟蹤模型的性能。但這些數據集在場景選擇、視角多樣性等方面也有一定的局限性。例如文獻[19]只包含2 種監控場景下的視頻序列,場景選擇較單一;文獻[20]只有正面視角且道路背景干擾很小;文獻[12]圖像分辨率較低(342×228);文獻[23]提供的數據集其攝像機視角高于普通監控架設高度;文獻[24]數據全部是在城市場景下收集的。因此該部分數據集也不適用于郊區、鄉村等復雜道路監控下的模型訓練。
為了彌補現有數據集的不足,本文建立了一個名為VeDT-MSS 的車輛數據集,模擬在真實的郊區、鄉村道路以及城市道路下訓練深度學習模型,以評估更復雜更先進的檢測與跟蹤算法。
圖2 給出了VeDT-MSS 數據集的4 種采集場景以及光照屬性。邊界框顏色表示車輛的類型,例如小汽車(品紅色)、卡車(橙色)、摩托車(綠色)以及公交車(青色)。每一列代表一種交通場景,有郊區、鄉村道路、城市公路以及復雜交通路口;每一行代表一種光照屬性,有晴天、多云、夜晚以及雨天。并且該數據集還擁有不同的視角:前、后、左前、右前、左后和右后。

圖2 VeDT-MSS 數據集中帶有標注的車輛樣本展示
該數據集一部分是由分布在云南郊區以及鄉村道路上的監控攝像頭采集得到,另一部分是從UA-DETRAC 數據集整合而來。在經過多重人工篩選和過濾之后,得到了27 383 張圖像和一段10 min的評估視頻,用于車輛檢測與跟蹤研究。該數據集一共分為檢測數據集(用于模型訓練和測試)和跟蹤數據集(用于跟蹤算法評估)2 個子集。并且2 部分數據之間沒有樣本重疊,降低了模型對特定場景過擬合的風險。這種數據處理方式可以更加真實地評估檢測和跟蹤算法在未知數據上的泛化性、魯棒性以及遷移學習能力。2 個子集介紹如下:
1)檢測數據集:實際的交通場景數據采集中無法做到車型之間的相對平衡。在原始收集的9 907張監控車輛圖像中,與其他類別的實例相比,公交車的實例數量要少得多,正如大多數現有數據集一樣。由于目前城市交通場景下的車輛數據集發展已經相當成熟,本文選擇將UA-DETRAC 數據集[24]中含有公交車的5 476 張城市交通監控圖像整合到檢測數據集中。一方面,以此來盡可能縮小每個實例數量之間的差距,緩解車型之間的長尾分布問題;另一方面,融合不同攝影風格和監控場景(郊區、鄉村場景和城市場景)的數據集也可以幫助評估檢測和跟蹤算法的跨場景屬性。
總的來說,檢測數據集是由不同視角、不同監控場景的15 383 張車輛圖像組成,其中包括在郊區以及鄉村監控場景中實地采集的9 907 幅車輛圖像(像素1 280×760),以及為了增加城市場景多樣性并實現類平衡從UA-DETRAC 中收集的5 476幅圖像。在數據標注過程中,使用了多輪人工交叉檢查的方式以確保提供高質量的數據標簽。該部分總共手工標注了52 962 個實例框,并將其分類為4 種常見的車輛類型,即小汽車(car)、摩托車(motorcycle)、公交車(bus)以及卡車(truck)。其中標注的小汽車包括SUV、小轎車以及輕型客車等客運車輛;卡車包括皮卡、罐式貨車、廂式貨車以及平板貨車等貨運車輛。
2)跟蹤數據集:該部分一共提供了10 min 的原始監控視頻以及由它轉化來的12 000 幀圖像,其采集場景選擇了與檢測數據集具有相似車流量屬性的鄉村道路。在跟蹤測試階段,將原始視頻作為輸入,以此來可視化車輛檢測以及跟蹤的性能。在跟蹤評估階段,將視頻逐幀(20 f/s)轉換為12 000 張圖像,并對它們以同樣的標準進行標注以獲得真實框(共獲得9 792 個真實框),以此來評估預測框與真實框之間的差距情況。
為了更好地展示本文提出的數據集,將從以下幾個方面對數據集進行展開描述。
1)交通場景多樣化。VeDT-MSS 數據集是由城鄉郊區、鄉村道路、城市公路以及復雜交通路口這4 種不同監控場景組成,場景分布情況如圖3(a)所示。VeDT-MSS 數據集與常用車輛檢測與跟蹤數據集在場景分布上的比較如表3 所示。通過表3 的場景對比可以看出,該數據集的場景更多樣性,能夠更普遍地反映真實世界的情況,是目前國內少有的收集了郊區以及鄉村道路的數據集。其次,由于數據采集時的天氣變化,訓練集涵蓋了不同光照條件,如晴天、多云、夜晚和雨天,光照屬性如圖3(b)所示。此外,由于交通場景的不同,每條路段上的車流量也有所差距,數據集里每張圖像的車輛實例分布如圖3(c)所示。


圖3 VeDT-MSS 數據集總說明
2)卡車的類內多樣性。由于數據集采集場景有約80%來源于郊區、鄉村道路,在這種情況下本文收集并標注的卡車樣本與以往數據集中只包含一種相似大小和外觀的卡車樣本不同,其中包括了皮卡、中型貨車、重型貨車、集裝箱車、罐式貨車以及平板貨車等多種不同尺寸和外形的貨運車輛。卡車的類內多樣性如圖4 所示。這種跨度較大的樣本標簽增加了模型訓練時提取特征的難度,使得該數據集更具挑戰性,能夠更好地評估檢測算法的性能,并且多類型的卡車樣本也進一步為卡車相關研究提供了數據支持。

圖4 卡車的類內多樣性
3)摩托車標注實例占比高。從圖1 中可以看出,大多數車輛檢測與跟蹤數據集都不具備摩托車樣本或者并沒有對出現的摩托車樣本進行單獨分類標注,數據主要集中在城市交通中最頻繁的客運車輛類型上,導致車型分布嚴重不平衡。而由于采集數據的場景中包含了大量的鄉村監控,所以能夠采集到更多的摩托車樣本,在彌補現有數據集中摩托車樣本收集不足的同時,也能夠更好地評估現有算法對小目標檢測的性能。
4)背景復雜程度高。通過比較監控場景下的GRAM-RTM[19]、BIT-Vehicle[20]、UA-DETRAC[24]以及VeDT-MSS 數據集中所有場景里的檢測車道(檢測車道指圖像中的有效檢測區域)與所在圖像之間的平均占比情況來體現數據集的背景復雜度屬性。對比屬性如圖5 所示。本文將這些數據集中的檢測車道所在區域提取為前景像素,其他區域標記為背景像素,以此生成一張二值圖像,然后通過前景像素與所在圖像總像素之間的比例來表示檢測車道與所在圖像的占比情況。從圖5 中可以得出,GRAM-RTM[19]、BIT-Vehicle[20]、UA-DETRAC[24]以及VeDT-MSS 數據集中檢測車道平均占比分別約為53.4%、98%、72%以及39.4%。VeDT-MSS 數據集是這些數據集中檢測車道占比最小的(39.4%),這表明與同類數據集相比,VeDT-MSS 數據集更好地保留了道路兩側背景的完整度,在車道以外的背景干擾更大,能夠更好地模擬真實監控場景下的應用。

圖5 監控場景下各數據集的檢測車道與所在圖像之間的平均占比情況
本節從目標檢測任務和多目標跟蹤任務2 個方面對VeDT-MSS 數據集進行評估以驗證其有效性。
實驗基于64 位操作系統Ubuntu 16.04.3 LTS,CPU 為Intel(R) Xeon(R) E5-2620,GPU 選用NVIDIA GeForce GTX 1080Ti。實驗中,本文使用目前主流的目標檢測與跟蹤指標[27?28]進行性能評估,評估指標如表4 所示,(↑)表示數值越高越好,(↓)表示數值越低越好。

表4 算法性能評估指標
這些指標之間的關系如下所示:
式中召回率(recall)R用來反映假反例(false negative,FN)NFN的情況,召回率指標越高,假反例的數量越少,算法性能越好。同樣,用精度(precision)P來反映假正例(false positive,FP)NFP的情況,精度指標越高,假正例的數量越少,算法性能越好。AP(average precision)指標表示著精度–召回率(precision-recall)曲線下的面積,式中N代表類別個數,而平均精度均值(mean average precision,mAP)EmAP表示所有類別AP 值的平均值,EmAP指標越高代表算法性能越好。
式中NFNt、NFPt以及NIDst分別為時間t時的漏檢數、誤檢數和ID切換數。多目標跟蹤準確率(multiobject tracking accuracy, MOTA)MOTA直觀地衡量檢測到的目標在軌跡保留方面的性能,這與物體檢測精度無關。
式中:ct為時間t內檢測到的軌跡與真實軌跡之間成功匹配的次數,dt
i表示時間t時檢測邊界中心點與真實框之間的距離。 多目標跟蹤精度(multiobject tracking precision)MOTP主要量化檢測器的定位精度,幾乎不包含有關跟蹤器性能的信息。
目前,廣泛使用的目標檢測方法包括Twostage 算法[29?30]、One-stage 算法[31?32]、Anchor-Free方法[33?35]以及基于Transformer[36]方法。本文借助MMdetection 框架[37],設置默認參數,在VeDTMSS 數據集上使用了目前檢測領域較為經典的和最新的算法進行驗證。
實驗結果如表5 所示。從所有方法的實驗結果來看,針對小目標類型中,小汽車的檢測性能普遍低于摩托車,可能是由于數據集中小汽車在某些視角下與卡車類中的皮卡外形相似,導致模型錯檢的可能性增大,使得小汽車的檢測精度有所下降,從而低于摩托車的指標。在整體類評估中,基于One-stage 的YOLOv5 和YOLOv7[31]算法在該數據集上達到了最佳的檢測性能,都實現了0.98 以上的mAP50,0.93 以上的mAP75,這一定程度上取決于該數據集良好的實例標注樣本。而基于Two-stage 的方法普遍實現0.9 以上的mAP50,0.86 以上的mAP75,與基于One-stage 方法相比仍有一定程度的提升空間。在Anchor-Free 方法中,FCOS[33](fully convolutional one-stage)以及FSAF[34](feature selective anchor-free)屬于典型的anchor-point 方法,主要通過預測目標框的中心點以及邊框到中心點的距離來檢測目標。而RepPoints[35]屬于key-point 的方法,它通過點集的方式提供了目標更細粒度的定位和更方便的分類,減小了目標預測過程中無意義的前景區域的影響。但由于該數據集中收集了復雜路口下的車輛樣本,當車輛之間較為擁擠時,就可能出現目標中心點重疊的情況,從而降低Anchor-Free 方法的檢測性能。這說明基于Anchor-Free 方法在提出的數據集上仍然具有改進的空間,以爭取在該數據集上取得更好的效果。而基于Transformer 的DETR[36](detection transformer)方法在提出的數據集上取得的效果并不顯著,其整體的mAP50 為0.815,mAP75 為0.500,是所有給出方法中表現較差的,并且在訓練過程中收斂速度也相對較慢。這是由于DETR 的特征圖尺寸較大,很難利用高層特征來對小物體進行準確預測,而本文提出的數據集中所包含的小汽車和摩托車在整個場景中的占比較小,導致DETR 方法對這2 類小目標車型的檢測精度不高,使得整體檢測精度下降。

表5 經典的目標檢測算法在VeDT-MSS 數據集上的性能比較
以上實驗結果表明,在其他數據集上表現良好的方法在本文提出的數據集上得到的效果可能并不理想,仍有一定程度的提升空間。本文數據集對現有的算法在小目標檢測以及目標中心重疊檢測上仍然具有挑戰性,對現有算法的魯棒性和泛化性評估具有適用性。
基于監控視頻的車輛跟蹤可定義為一個多目標跟蹤問題。目前流行的跟蹤算法一般是結合目標檢測算法來實現數據關聯,DeepSort[38]跟蹤算法就是其中之一。為了評估該數據集,本文采用了基于檢測的多目標跟蹤策略[39](detection-based tracking,DBT)來實現多目標跟蹤任務。首先,分別使用YOLOv5_M 和YOLOv7 檢測算法對車輛進行檢測,車輛檢測模塊通過對每幀中的目標車輛進行定位和分類,為基于檢測的車輛跟蹤提供觀測值;其次,結合DeepSort 跟蹤算法將檢測假設鏈接成軌跡,車輛跟蹤的主要任務是在視頻序列第一幀的基礎上建立一個跟蹤對應關系,記錄每個目標的軌跡并保持其身份不變,從而將視頻序列中的車輛檢測關聯起來。
模型訓練使用基于YOLOv5_M 和YOLOv7的公共檢測網絡。在訓練檢測算法時,以檢測數據集作為輸入,圖像尺寸縮放為640×640,batch size 為64,其他設置默認參數進行訓練。在訓練跟蹤算法時,將檢測數據集的實例標注框全部提取出來作為輸入來訓練DeepSort,其他設置默認參數進行訓練。最后將得到的檢測訓練模型與跟蹤訓練模型相結合,以跟蹤數據集為輸入,驗證模型的檢測和跟蹤性能。
實驗結果如表6 所示,分別比較了跟蹤策略為DeepSort 時YOLOv5_M 和YOLOv7 在多目標跟蹤任務上的性能。在表6 中,YOLOv5_M 在整個場景中實現了83.3%的召回率、91.7%的精度和70.4%的MOTA,YOLOv7 在整個場景中實現了85.1%的召回率、91.9%的精度和72.0%的MOTA。總的來說,YOLOv7 在整體表現上略優于YOLOv5_M,但同時也可以看出YOLOv5_M和YOLOv7 在處理一些復雜場景的時候,還是容易出現錯檢、漏檢的問題。在單個類評估中,摩托車類別在YOLOv5_M 上的召回率為83.5%,在YOLOv7 上召回率達到了90.0%。這是由于YOLOv5的下采樣倍數較大,較深層的特征圖難以學習到小目標的特征信息,并且當摩托車基數較小時,漏檢的發生會對整體性能產生較大的影響。此外,無論是在YOLOv5_M 還是在YOLOv7 上,小汽車和卡車的FP、FN 數量都比較高,導致對應的MOTA 指標較低。這是由于本文提供的數據集中一些小型卡車(如皮卡)在某些監控角度與小汽車類極其相似(類間相似性),檢測器很難學習到它們之間的判別特征,導致小汽車類和卡車類之間的檢測相互影響,從而降低了它們的分類性能。

表6 最新檢測與跟蹤算法在VeDT-MSS 數據集上的性能比較
以上實驗結果表明,現有的檢測和跟蹤方法要在該數據集上獲得顯著結果是非常具有挑戰性的。由于VeDT-MSS 數據集的多樣性以及復雜性,未來能夠用于評估更多更主流的基于監控場景下的檢測以及跟蹤方法。這也鼓勵了更先進的算法出現使得在該數據集上獲得更好的性能。
本文在監控場景下構建了一個名為VeDTMSS 的車輛數據集,該數據集除了多種光照條件和視角以外,還具有交通場景多樣性、類內多樣性大、摩托車標注實例較多以及背景復雜度高等多個特點,以此來增加數據集的多樣性。為了驗證該數據集的有效性,分別在目標檢測任務和多目標跟蹤任務上進行了大量的基線實驗。實驗結果表明,該數據集對現有主流的算法仍然具有挑戰性,能夠參與評估更復雜更先進的算法模型。本文數據集不僅關注城市交通監控場景,還收集了大量在現有數據集中鮮被關注的鄉村和郊區監控場景,彌補了現有車輛檢測與跟蹤研究任務中鄉村和郊區場景道路影像數據不足的問題。