復(fù)雜道路監(jiān)控場(chǎng)景下的車(chē)輛檢測(cè)與跟蹤數(shù)據(jù)集

2024-02-25 14:11:50伍瓊燕趙征鵬王林飛武藝強(qiáng)邵雅磊王穩(wěn)陶大鵬

應(yīng)用科技 2024年1期

關(guān)鍵詞：檢測(cè)

伍瓊燕，趙征鵬，王林飛，武藝強(qiáng)，邵雅磊，王穩(wěn)，陶大鵬

云南大學(xué) 信息學(xué)院，云南昆明 650500

作為智能交通系統(tǒng)（intelligent transport system，ITS）[1]的一項(xiàng)基本任務(wù)，車(chē)輛檢測(cè)與跟蹤技術(shù)已經(jīng)廣泛地應(yīng)用于自動(dòng)駕駛[2]、交通流量監(jiān)測(cè)[3]、車(chē)輛軌跡優(yōu)化[4]等交通監(jiān)控場(chǎng)景。近年來(lái)，深度學(xué)習(xí)算法[5?9]在車(chē)輛相關(guān)研究中表現(xiàn)出了巨大的潛力。而以數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)通常需要大量的訓(xùn)練樣本來(lái)挖掘數(shù)據(jù)的潛在模式以進(jìn)一步改進(jìn)算法，因此數(shù)據(jù)集的內(nèi)容和質(zhì)量直接決定了車(chē)輛檢測(cè)與跟蹤模型的可靠性和適用性。盡管在過(guò)去的時(shí)間里，計(jì)算機(jī)視覺(jué)社區(qū)的研究人員們已經(jīng)在車(chē)流量較大的城市監(jiān)控場(chǎng)景下構(gòu)建了豐富的車(chē)輛檢測(cè)與跟蹤數(shù)據(jù)集，但隨著檢測(cè)與跟蹤技術(shù)的不斷進(jìn)步，大多數(shù)數(shù)據(jù)集并不能?chē)?yán)格滿(mǎn)足監(jiān)控場(chǎng)景下車(chē)輛檢測(cè)與跟蹤研究的要求。問(wèn)題主要有：1）采集場(chǎng)景單一。現(xiàn)有的數(shù)據(jù)集大多都采集于現(xiàn)代化城市交通場(chǎng)景，卻鮮有對(duì)路況更復(fù)雜、交通參與者更多、車(chē)輛行駛干擾更大的郊區(qū)、鄉(xiāng)村等路段投入關(guān)注。2）數(shù)據(jù)集長(zhǎng)尾分布。在大多數(shù)現(xiàn)存車(chē)輛檢測(cè)與跟蹤數(shù)據(jù)集中，小汽車(chē)類(lèi)型占據(jù)了絕對(duì)的比重，而在城市少見(jiàn)的車(chē)輛類(lèi)型（比如摩托車(chē)）數(shù)量很少，加劇了車(chē)輛類(lèi)型之間的長(zhǎng)尾分布問(wèn)題。3）圖像采集環(huán)境簡(jiǎn)單。部分?jǐn)?shù)據(jù)集受限于傳感器的拍攝范圍，捕獲到的圖像中車(chē)道以外的背景及車(chē)輛行駛干擾較少，不能體現(xiàn)出真實(shí)的車(chē)輛行駛場(chǎng)景，這樣的數(shù)據(jù)會(huì)在一定程度上限制模型的泛化能力。

為了克服現(xiàn)有數(shù)據(jù)集的局限性，本文構(gòu)建了一個(gè)車(chē)輛數(shù)據(jù)集VeDT-MSS（vehicle detection and tracking for multiple surveillance scenarios）來(lái)實(shí)時(shí)準(zhǔn)確地進(jìn)行車(chē)輛檢測(cè)與跟蹤研究。數(shù)據(jù)集主要采集于郊區(qū)、鄉(xiāng)村道路、城市公路以及交通復(fù)雜路口4 種不同的監(jiān)控場(chǎng)景，并對(duì)4 種常見(jiàn)車(chē)輛類(lèi)別（小汽車(chē)、卡車(chē)、公交車(chē)和摩托車(chē)）進(jìn)行分類(lèi)標(biāo)注。除了豐富的邊界框以外，數(shù)據(jù)集還包含多種光照條件和拍攝視角，具有尺度和角度的多樣性，以更好地適應(yīng)真實(shí)世界的監(jiān)控場(chǎng)景。該數(shù)據(jù)集還具有交通場(chǎng)景多樣化、卡車(chē)的類(lèi)內(nèi)多樣性大、摩托車(chē)標(biāo)注實(shí)例占比高以及背景復(fù)雜程度高4 個(gè)亮點(diǎn)。通過(guò)在該數(shù)據(jù)集上進(jìn)行大量的基線(xiàn)實(shí)驗(yàn)以評(píng)估該數(shù)據(jù)集的質(zhì)量，驗(yàn)證了各類(lèi)主流的檢測(cè)與跟蹤算法（基于深度學(xué)習(xí)的Two-stage 和One-stage 方法、Anchor-Free 方法、基于Transformer 的方法、DeepSort方法）在本數(shù)據(jù)集上均有一定程度的提升空間。另一方面，本文為車(chē)輛檢測(cè)與跟蹤研究領(lǐng)域提供了大量鄉(xiāng)村、郊區(qū)場(chǎng)景下的標(biāo)注數(shù)據(jù)，彌補(bǔ)了該研究領(lǐng)域在場(chǎng)景多樣性方面的不足，為研究人員設(shè)計(jì)監(jiān)控場(chǎng)景下的車(chē)輛檢測(cè)以及跟蹤算法提供了新的數(shù)據(jù)選擇。

1 常見(jiàn)數(shù)據(jù)集介紹

在早期的研究中，缺乏多樣化的數(shù)據(jù)集極大地限制了車(chē)輛相關(guān)研究的進(jìn)一步探索。近年來(lái)，計(jì)算機(jī)視覺(jué)社區(qū)的研究人員們發(fā)布了各種車(chē)輛數(shù)據(jù)集來(lái)充分解決這個(gè)問(wèn)題。現(xiàn)有的大多數(shù)車(chē)輛數(shù)據(jù)集主要應(yīng)用于幾個(gè)場(chǎng)景，包括細(xì)粒度分類(lèi)、車(chē)輛重識(shí)別以及目標(biāo)檢測(cè)與跟蹤等任務(wù)。以下將從這3 個(gè)應(yīng)用場(chǎng)景對(duì)常用數(shù)據(jù)集[10?24]進(jìn)行介紹。

細(xì)粒度分類(lèi)在車(chē)輛品牌自動(dòng)統(tǒng)計(jì)中具有重要的研究?jī)r(jià)值，車(chē)輛重識(shí)別在刑事調(diào)查、行程時(shí)間估計(jì)等應(yīng)用中發(fā)揮著關(guān)鍵的作用。目前常見(jiàn)的細(xì)粒度分類(lèi)數(shù)據(jù)集在文獻(xiàn)[10?13]所提出，其具體信息如表1 所示。常見(jiàn)的車(chē)輛重識(shí)別數(shù)據(jù)集在文獻(xiàn)[14?18]所提出，其具體信息如表2 所示。這些數(shù)據(jù)集在一定程度上促進(jìn)了車(chē)輛細(xì)粒度分類(lèi)以及車(chē)輛重識(shí)別的發(fā)展，為其他研究人員開(kāi)發(fā)更先進(jìn)更復(fù)雜的算法提供了基準(zhǔn)數(shù)據(jù)集。

表1 車(chē)輛細(xì)粒度分類(lèi)常見(jiàn)數(shù)據(jù)集

表2 車(chē)輛重識(shí)別常見(jiàn)數(shù)據(jù)集

從表1 和表2 中可以看出，一些公開(kāi)可用的車(chē)輛數(shù)據(jù)集并非完全來(lái)自監(jiān)控?cái)z像，并且由于真實(shí)的監(jiān)控場(chǎng)景通常涵蓋廣闊的視角空間、復(fù)雜的道路背景以及隨機(jī)分布的車(chē)輛類(lèi)型和數(shù)量，而目前用于車(chē)輛細(xì)粒度分類(lèi)以及車(chē)輛重識(shí)別任務(wù)下的單目標(biāo)數(shù)據(jù)集如文獻(xiàn)[10?17]較為簡(jiǎn)單，通過(guò)人工裁剪背景，去除大量的干擾，使得每張圖像只包含一輛車(chē)，其圖像大多來(lái)自對(duì)齊良好的正面和側(cè)面視圖，這種數(shù)據(jù)呈現(xiàn)方式與真實(shí)監(jiān)控?cái)?shù)據(jù)完全不同，因此這類(lèi)數(shù)據(jù)集難以用于訓(xùn)練復(fù)雜道路監(jiān)控背景下的檢測(cè)和跟蹤方法。而文獻(xiàn)[18]提出的數(shù)據(jù)集里大部分都是裁剪良好的車(chē)牌圖像，只有445 張（約為數(shù)據(jù)集圖像總量的1.7%）是完整監(jiān)控場(chǎng)景下的車(chē)輛圖像，并且在提供的整車(chē)圖像中沒(méi)有包含車(chē)道以外的背景，由于監(jiān)控視野太低導(dǎo)致無(wú)法捕獲大型車(chē)輛的全局特征。以上這些因素表明，即使該類(lèi)數(shù)據(jù)集提供的圖像數(shù)量大，但是卻并不能用于復(fù)雜道路監(jiān)控場(chǎng)景下的車(chē)輛檢測(cè)與跟蹤研究。

車(chē)輛檢測(cè)與跟蹤任務(wù)是近幾年交通監(jiān)控場(chǎng)景的重要研究任務(wù)。為了進(jìn)一步促進(jìn)該領(lǐng)域的研究，Guerrero-Gómez-Olmedo 等[19]提出了2 種監(jiān)控場(chǎng)景下的GRAM-RTM 數(shù)據(jù)集用于車(chē)輛跟蹤算法評(píng)估。Dong 等[20]構(gòu)建了一個(gè)在監(jiān)控?cái)z像頭下的BIT-Vehicle 數(shù)據(jù)集來(lái)驗(yàn)證其設(shè)計(jì)的基于外觀(guān)的車(chē)型分類(lèi)方法。由于該數(shù)據(jù)集提供了良好的車(chē)輛標(biāo)注，還能將其廣泛應(yīng)用于車(chē)輛檢測(cè)算法的評(píng)估[25?26]。Luo 等[12]在提出的MIO-TCD-Localization數(shù)據(jù)集評(píng)估了一些經(jīng)典的CNN（convolutional neural networks）方法。 Du 等[21]構(gòu)建了一個(gè)UAVDT 數(shù)據(jù)集用以改進(jìn)無(wú)人機(jī)場(chǎng)景下的車(chē)輛跟蹤算法。Bozcan 等[22]提出了一個(gè)由無(wú)人機(jī)搭載攝像機(jī)進(jìn)行空中拍攝得到的AU-AIR 多模態(tài)航空數(shù)據(jù)集以進(jìn)行低空目標(biāo)檢測(cè)。Fedorov 等[23]在提出的數(shù)據(jù)集上驗(yàn)證了其設(shè)計(jì)的Faster R-CNN 檢測(cè)器的可行性，以解決使用交通視頻數(shù)據(jù)進(jìn)行交通估計(jì)的問(wèn)題。Wen 等[24]提出了一個(gè)在城市監(jiān)控場(chǎng)景下的UA-DETRAC（university at Albany DETection and TRACking）數(shù)據(jù)集以用于多目標(biāo)檢測(cè)和跟蹤應(yīng)用。同時(shí)，他們還提出了一種基于檢測(cè)與跟蹤分?jǐn)?shù)的三維曲線(xiàn)評(píng)估協(xié)議，較好地實(shí)現(xiàn)了多目標(biāo)跟蹤的完整性能。VeDT-MSS 數(shù)據(jù)集與常用的車(chē)輛檢測(cè)與跟蹤數(shù)據(jù)集的具體信息如表3 所示。車(chē)型分布比較如圖1 所示，在進(jìn)行數(shù)據(jù)處理時(shí)，本文只統(tǒng)計(jì)明確車(chē)輛類(lèi)型，沒(méi)有計(jì)入如文獻(xiàn)[12]中行人、不明確類(lèi)別等的標(biāo)簽數(shù)據(jù)。并且按照汽車(chē)的功能，將這些數(shù)據(jù)集中所有的客運(yùn)車(chē)輛（如SUV、小轎車(chē)以及MPVs 等）都統(tǒng)一視為小汽車(chē)，將所有的貨運(yùn)車(chē)輛（如皮卡、中型貨車(chē)以及重型貨車(chē)等）都統(tǒng)一視為卡車(chē)。

圖1 VeDT-MSS 與常用車(chē)輛檢測(cè)與跟蹤數(shù)據(jù)集的車(chē)型分布比較

表3 車(chē)輛檢測(cè)與跟蹤常見(jiàn)數(shù)據(jù)集

從表3 中車(chē)輛檢測(cè)與跟蹤數(shù)據(jù)集的呈現(xiàn)方式可以看出，除了架設(shè)在路邊的常規(guī)監(jiān)控車(chē)輛數(shù)據(jù)集之外，還有文獻(xiàn)[21?22]中的航拍車(chē)輛數(shù)據(jù)集，該類(lèi)數(shù)據(jù)集在極大地推進(jìn)航空?qǐng)D像目標(biāo)檢測(cè)研究的同時(shí)，也有2 個(gè)明顯的缺點(diǎn)：1）拍攝到的車(chē)輛尺寸相對(duì)較小，特別是在垂直于地面的攝像機(jī)拍攝得到的圖像中，一些小目標(biāo)在視覺(jué)上甚至以點(diǎn)的形式呈現(xiàn)；2）隨著無(wú)人機(jī)的移動(dòng)，拍攝視角只圍繞車(chē)輛頂部發(fā)生變化，其視角呈現(xiàn)不符合監(jiān)控場(chǎng)景下的視野需求。因此，航拍車(chē)輛數(shù)據(jù)集也不適用與處理常規(guī)監(jiān)控下的檢測(cè)與跟蹤研究。其余在監(jiān)控?cái)z像頭下的數(shù)據(jù)集如文獻(xiàn)[19?20]、[12]、[23?24]目前正廣泛用于評(píng)估監(jiān)控場(chǎng)景下的檢測(cè)與跟蹤模型的性能。但這些數(shù)據(jù)集在場(chǎng)景選擇、視角多樣性等方面也有一定的局限性。例如文獻(xiàn)[19]只包含2 種監(jiān)控場(chǎng)景下的視頻序列，場(chǎng)景選擇較單一；文獻(xiàn)[20]只有正面視角且道路背景干擾很小；文獻(xiàn)[12]圖像分辨率較低（342×228）；文獻(xiàn)[23]提供的數(shù)據(jù)集其攝像機(jī)視角高于普通監(jiān)控架設(shè)高度；文獻(xiàn)[24]數(shù)據(jù)全部是在城市場(chǎng)景下收集的。因此該部分?jǐn)?shù)據(jù)集也不適用于郊區(qū)、鄉(xiāng)村等復(fù)雜道路監(jiān)控下的模型訓(xùn)練。

為了彌補(bǔ)現(xiàn)有數(shù)據(jù)集的不足，本文建立了一個(gè)名為VeDT-MSS 的車(chē)輛數(shù)據(jù)集，模擬在真實(shí)的郊區(qū)、鄉(xiāng)村道路以及城市道路下訓(xùn)練深度學(xué)習(xí)模型，以評(píng)估更復(fù)雜更先進(jìn)的檢測(cè)與跟蹤算法。

2 VeDT-MSS 數(shù)據(jù)集的構(gòu)建

2.1 數(shù)據(jù)集的收集與標(biāo)注

圖2 給出了VeDT-MSS 數(shù)據(jù)集的4 種采集場(chǎng)景以及光照屬性。邊界框顏色表示車(chē)輛的類(lèi)型，例如小汽車(chē)（品紅色）、卡車(chē)（橙色）、摩托車(chē)（綠色）以及公交車(chē)（青色）。每一列代表一種交通場(chǎng)景，有郊區(qū)、鄉(xiāng)村道路、城市公路以及復(fù)雜交通路口；每一行代表一種光照屬性，有晴天、多云、夜晚以及雨天。并且該數(shù)據(jù)集還擁有不同的視角：前、后、左前、右前、左后和右后。

圖2 VeDT-MSS 數(shù)據(jù)集中帶有標(biāo)注的車(chē)輛樣本展示

該數(shù)據(jù)集一部分是由分布在云南郊區(qū)以及鄉(xiāng)村道路上的監(jiān)控?cái)z像頭采集得到，另一部分是從UA-DETRAC 數(shù)據(jù)集整合而來(lái)。在經(jīng)過(guò)多重人工篩選和過(guò)濾之后，得到了27 383 張圖像和一段10 min的評(píng)估視頻，用于車(chē)輛檢測(cè)與跟蹤研究。該數(shù)據(jù)集一共分為檢測(cè)數(shù)據(jù)集（用于模型訓(xùn)練和測(cè)試）和跟蹤數(shù)據(jù)集（用于跟蹤算法評(píng)估）2 個(gè)子集。并且2 部分?jǐn)?shù)據(jù)之間沒(méi)有樣本重疊，降低了模型對(duì)特定場(chǎng)景過(guò)擬合的風(fēng)險(xiǎn)。這種數(shù)據(jù)處理方式可以更加真實(shí)地評(píng)估檢測(cè)和跟蹤算法在未知數(shù)據(jù)上的泛化性、魯棒性以及遷移學(xué)習(xí)能力。2 個(gè)子集介紹如下：

1）檢測(cè)數(shù)據(jù)集：實(shí)際的交通場(chǎng)景數(shù)據(jù)采集中無(wú)法做到車(chē)型之間的相對(duì)平衡。在原始收集的9 907張監(jiān)控車(chē)輛圖像中，與其他類(lèi)別的實(shí)例相比，公交車(chē)的實(shí)例數(shù)量要少得多，正如大多數(shù)現(xiàn)有數(shù)據(jù)集一樣。由于目前城市交通場(chǎng)景下的車(chē)輛數(shù)據(jù)集發(fā)展已經(jīng)相當(dāng)成熟，本文選擇將UA-DETRAC 數(shù)據(jù)集[24]中含有公交車(chē)的5 476 張城市交通監(jiān)控圖像整合到檢測(cè)數(shù)據(jù)集中。一方面，以此來(lái)盡可能縮小每個(gè)實(shí)例數(shù)量之間的差距，緩解車(chē)型之間的長(zhǎng)尾分布問(wèn)題；另一方面，融合不同攝影風(fēng)格和監(jiān)控場(chǎng)景（郊區(qū)、鄉(xiāng)村場(chǎng)景和城市場(chǎng)景）的數(shù)據(jù)集也可以幫助評(píng)估檢測(cè)和跟蹤算法的跨場(chǎng)景屬性。

總的來(lái)說(shuō)，檢測(cè)數(shù)據(jù)集是由不同視角、不同監(jiān)控場(chǎng)景的15 383 張車(chē)輛圖像組成，其中包括在郊區(qū)以及鄉(xiāng)村監(jiān)控場(chǎng)景中實(shí)地采集的9 907 幅車(chē)輛圖像（像素1 280×760），以及為了增加城市場(chǎng)景多樣性并實(shí)現(xiàn)類(lèi)平衡從UA-DETRAC 中收集的5 476幅圖像。在數(shù)據(jù)標(biāo)注過(guò)程中，使用了多輪人工交叉檢查的方式以確保提供高質(zhì)量的數(shù)據(jù)標(biāo)簽。該部分總共手工標(biāo)注了52 962 個(gè)實(shí)例框，并將其分類(lèi)為4 種常見(jiàn)的車(chē)輛類(lèi)型，即小汽車(chē)（car）、摩托車(chē)（motorcycle）、公交車(chē)（bus）以及卡車(chē)（truck）。其中標(biāo)注的小汽車(chē)包括SUV、小轎車(chē)以及輕型客車(chē)等客運(yùn)車(chē)輛；卡車(chē)包括皮卡、罐式貨車(chē)、廂式貨車(chē)以及平板貨車(chē)等貨運(yùn)車(chē)輛。

2）跟蹤數(shù)據(jù)集：該部分一共提供了10 min 的原始監(jiān)控視頻以及由它轉(zhuǎn)化來(lái)的12 000 幀圖像，其采集場(chǎng)景選擇了與檢測(cè)數(shù)據(jù)集具有相似車(chē)流量屬性的鄉(xiāng)村道路。在跟蹤測(cè)試階段，將原始視頻作為輸入，以此來(lái)可視化車(chē)輛檢測(cè)以及跟蹤的性能。在跟蹤評(píng)估階段，將視頻逐幀（20 f/s）轉(zhuǎn)換為12 000 張圖像，并對(duì)它們以同樣的標(biāo)準(zhǔn)進(jìn)行標(biāo)注以獲得真實(shí)框（共獲得9 792 個(gè)真實(shí)框），以此來(lái)評(píng)估預(yù)測(cè)框與真實(shí)框之間的差距情況。

2.2 數(shù)據(jù)集特點(diǎn)

為了更好地展示本文提出的數(shù)據(jù)集，將從以下幾個(gè)方面對(duì)數(shù)據(jù)集進(jìn)行展開(kāi)描述。

1）交通場(chǎng)景多樣化。VeDT-MSS 數(shù)據(jù)集是由城鄉(xiāng)郊區(qū)、鄉(xiāng)村道路、城市公路以及復(fù)雜交通路口這4 種不同監(jiān)控場(chǎng)景組成，場(chǎng)景分布情況如圖3(a)所示。VeDT-MSS 數(shù)據(jù)集與常用車(chē)輛檢測(cè)與跟蹤數(shù)據(jù)集在場(chǎng)景分布上的比較如表3 所示。通過(guò)表3 的場(chǎng)景對(duì)比可以看出，該數(shù)據(jù)集的場(chǎng)景更多樣性，能夠更普遍地反映真實(shí)世界的情況，是目前國(guó)內(nèi)少有的收集了郊區(qū)以及鄉(xiāng)村道路的數(shù)據(jù)集。其次，由于數(shù)據(jù)采集時(shí)的天氣變化，訓(xùn)練集涵蓋了不同光照條件，如晴天、多云、夜晚和雨天，光照屬性如圖3(b)所示。此外，由于交通場(chǎng)景的不同，每條路段上的車(chē)流量也有所差距，數(shù)據(jù)集里每張圖像的車(chē)輛實(shí)例分布如圖3(c)所示。

圖3 VeDT-MSS 數(shù)據(jù)集總說(shuō)明

2）卡車(chē)的類(lèi)內(nèi)多樣性。由于數(shù)據(jù)集采集場(chǎng)景有約80%來(lái)源于郊區(qū)、鄉(xiāng)村道路，在這種情況下本文收集并標(biāo)注的卡車(chē)樣本與以往數(shù)據(jù)集中只包含一種相似大小和外觀(guān)的卡車(chē)樣本不同，其中包括了皮卡、中型貨車(chē)、重型貨車(chē)、集裝箱車(chē)、罐式貨車(chē)以及平板貨車(chē)等多種不同尺寸和外形的貨運(yùn)車(chē)輛。卡車(chē)的類(lèi)內(nèi)多樣性如圖4 所示。這種跨度較大的樣本標(biāo)簽增加了模型訓(xùn)練時(shí)提取特征的難度，使得該數(shù)據(jù)集更具挑戰(zhàn)性，能夠更好地評(píng)估檢測(cè)算法的性能，并且多類(lèi)型的卡車(chē)樣本也進(jìn)一步為卡車(chē)相關(guān)研究提供了數(shù)據(jù)支持。

圖4 卡車(chē)的類(lèi)內(nèi)多樣性

3）摩托車(chē)標(biāo)注實(shí)例占比高。從圖1 中可以看出，大多數(shù)車(chē)輛檢測(cè)與跟蹤數(shù)據(jù)集都不具備摩托車(chē)樣本或者并沒(méi)有對(duì)出現(xiàn)的摩托車(chē)樣本進(jìn)行單獨(dú)分類(lèi)標(biāo)注，數(shù)據(jù)主要集中在城市交通中最頻繁的客運(yùn)車(chē)輛類(lèi)型上，導(dǎo)致車(chē)型分布嚴(yán)重不平衡。而由于采集數(shù)據(jù)的場(chǎng)景中包含了大量的鄉(xiāng)村監(jiān)控，所以能夠采集到更多的摩托車(chē)樣本，在彌補(bǔ)現(xiàn)有數(shù)據(jù)集中摩托車(chē)樣本收集不足的同時(shí)，也能夠更好地評(píng)估現(xiàn)有算法對(duì)小目標(biāo)檢測(cè)的性能。

4）背景復(fù)雜程度高。通過(guò)比較監(jiān)控場(chǎng)景下的GRAM-RTM[19]、BIT-Vehicle[20]、UA-DETRAC[24]以及VeDT-MSS 數(shù)據(jù)集中所有場(chǎng)景里的檢測(cè)車(chē)道（檢測(cè)車(chē)道指圖像中的有效檢測(cè)區(qū)域）與所在圖像之間的平均占比情況來(lái)體現(xiàn)數(shù)據(jù)集的背景復(fù)雜度屬性。對(duì)比屬性如圖5 所示。本文將這些數(shù)據(jù)集中的檢測(cè)車(chē)道所在區(qū)域提取為前景像素，其他區(qū)域標(biāo)記為背景像素，以此生成一張二值圖像，然后通過(guò)前景像素與所在圖像總像素之間的比例來(lái)表示檢測(cè)車(chē)道與所在圖像的占比情況。從圖5 中可以得出，GRAM-RTM[19]、BIT-Vehicle[20]、UA-DETRAC[24]以及VeDT-MSS 數(shù)據(jù)集中檢測(cè)車(chē)道平均占比分別約為53.4%、98%、72%以及39.4%。VeDT-MSS 數(shù)據(jù)集是這些數(shù)據(jù)集中檢測(cè)車(chē)道占比最小的（39.4%），這表明與同類(lèi)數(shù)據(jù)集相比，VeDT-MSS 數(shù)據(jù)集更好地保留了道路兩側(cè)背景的完整度，在車(chē)道以外的背景干擾更大，能夠更好地模擬真實(shí)監(jiān)控場(chǎng)景下的應(yīng)用。

圖5 監(jiān)控場(chǎng)景下各數(shù)據(jù)集的檢測(cè)車(chē)道與所在圖像之間的平均占比情況

3 VeDT-MSS 數(shù)據(jù)集的評(píng)估與分析

本節(jié)從目標(biāo)檢測(cè)任務(wù)和多目標(biāo)跟蹤任務(wù)2 個(gè)方面對(duì)VeDT-MSS 數(shù)據(jù)集進(jìn)行評(píng)估以驗(yàn)證其有效性。

3.1 實(shí)驗(yàn)環(huán)境與評(píng)估指標(biāo)

實(shí)驗(yàn)基于64 位操作系統(tǒng)Ubuntu 16.04.3 LTS，CPU 為Intel(R) Xeon(R) E5-2620，GPU 選用NVIDIA GeForce GTX 1080Ti。實(shí)驗(yàn)中，本文使用目前主流的目標(biāo)檢測(cè)與跟蹤指標(biāo)[27?28]進(jìn)行性能評(píng)估，評(píng)估指標(biāo)如表4 所示，（↑）表示數(shù)值越高越好，（↓）表示數(shù)值越低越好。

表4 算法性能評(píng)估指標(biāo)

這些指標(biāo)之間的關(guān)系如下所示：

式中召回率（recall）R用來(lái)反映假反例（false negative，F(xiàn)N）NFN的情況，召回率指標(biāo)越高，假反例的數(shù)量越少，算法性能越好。同樣，用精度（precision）P來(lái)反映假正例（false positive，F(xiàn)P）NFP的情況，精度指標(biāo)越高，假正例的數(shù)量越少，算法性能越好。AP（average precision）指標(biāo)表示著精度–召回率（precision-recall）曲線(xiàn)下的面積，式中N代表類(lèi)別個(gè)數(shù)，而平均精度均值（mean average precision，mAP）EmAP表示所有類(lèi)別AP 值的平均值，EmAP指標(biāo)越高代表算法性能越好。

式中NFNt、NFPt以及NIDst分別為時(shí)間t時(shí)的漏檢數(shù)、誤檢數(shù)和ID切換數(shù)。多目標(biāo)跟蹤準(zhǔn)確率（multiobject tracking accuracy, MOTA）MOTA直觀(guān)地衡量檢測(cè)到的目標(biāo)在軌跡保留方面的性能，這與物體檢測(cè)精度無(wú)關(guān)。

式中：ct為時(shí)間t內(nèi)檢測(cè)到的軌跡與真實(shí)軌跡之間成功匹配的次數(shù)，dt

i表示時(shí)間t時(shí)檢測(cè)邊界中心點(diǎn)與真實(shí)框之間的距離。多目標(biāo)跟蹤精度（multiobject tracking precision）MOTP主要量化檢測(cè)器的定位精度，幾乎不包含有關(guān)跟蹤器性能的信息。

3.2 目標(biāo)檢測(cè)

目前，廣泛使用的目標(biāo)檢測(cè)方法包括Twostage 算法[29?30]、One-stage 算法[31?32]、Anchor-Free方法[33?35]以及基于Transformer[36]方法。本文借助MMdetection 框架[37]，設(shè)置默認(rèn)參數(shù)，在VeDTMSS 數(shù)據(jù)集上使用了目前檢測(cè)領(lǐng)域較為經(jīng)典的和最新的算法進(jìn)行驗(yàn)證。

實(shí)驗(yàn)結(jié)果如表5 所示。從所有方法的實(shí)驗(yàn)結(jié)果來(lái)看，針對(duì)小目標(biāo)類(lèi)型中，小汽車(chē)的檢測(cè)性能普遍低于摩托車(chē)，可能是由于數(shù)據(jù)集中小汽車(chē)在某些視角下與卡車(chē)類(lèi)中的皮卡外形相似，導(dǎo)致模型錯(cuò)檢的可能性增大，使得小汽車(chē)的檢測(cè)精度有所下降，從而低于摩托車(chē)的指標(biāo)。在整體類(lèi)評(píng)估中，基于One-stage 的YOLOv5 和YOLOv7[31]算法在該數(shù)據(jù)集上達(dá)到了最佳的檢測(cè)性能，都實(shí)現(xiàn)了0.98 以上的mAP50，0.93 以上的mAP75，這一定程度上取決于該數(shù)據(jù)集良好的實(shí)例標(biāo)注樣本。而基于Two-stage 的方法普遍實(shí)現(xiàn)0.9 以上的mAP50，0.86 以上的mAP75，與基于One-stage 方法相比仍有一定程度的提升空間。在Anchor-Free 方法中，F(xiàn)COS[33]（fully convolutional one-stage）以及FSAF[34]（feature selective anchor-free）屬于典型的anchor-point 方法，主要通過(guò)預(yù)測(cè)目標(biāo)框的中心點(diǎn)以及邊框到中心點(diǎn)的距離來(lái)檢測(cè)目標(biāo)。而RepPoints[35]屬于key-point 的方法，它通過(guò)點(diǎn)集的方式提供了目標(biāo)更細(xì)粒度的定位和更方便的分類(lèi)，減小了目標(biāo)預(yù)測(cè)過(guò)程中無(wú)意義的前景區(qū)域的影響。但由于該數(shù)據(jù)集中收集了復(fù)雜路口下的車(chē)輛樣本，當(dāng)車(chē)輛之間較為擁擠時(shí)，就可能出現(xiàn)目標(biāo)中心點(diǎn)重疊的情況，從而降低Anchor-Free 方法的檢測(cè)性能。這說(shuō)明基于Anchor-Free 方法在提出的數(shù)據(jù)集上仍然具有改進(jìn)的空間，以爭(zhēng)取在該數(shù)據(jù)集上取得更好的效果。而基于Transformer 的DETR[36]（detection transformer）方法在提出的數(shù)據(jù)集上取得的效果并不顯著，其整體的mAP50 為0.815，mAP75 為0.500，是所有給出方法中表現(xiàn)較差的，并且在訓(xùn)練過(guò)程中收斂速度也相對(duì)較慢。這是由于DETR 的特征圖尺寸較大，很難利用高層特征來(lái)對(duì)小物體進(jìn)行準(zhǔn)確預(yù)測(cè)，而本文提出的數(shù)據(jù)集中所包含的小汽車(chē)和摩托車(chē)在整個(gè)場(chǎng)景中的占比較小，導(dǎo)致DETR 方法對(duì)這2 類(lèi)小目標(biāo)車(chē)型的檢測(cè)精度不高，使得整體檢測(cè)精度下降。

表5 經(jīng)典的目標(biāo)檢測(cè)算法在VeDT-MSS 數(shù)據(jù)集上的性能比較

以上實(shí)驗(yàn)結(jié)果表明，在其他數(shù)據(jù)集上表現(xiàn)良好的方法在本文提出的數(shù)據(jù)集上得到的效果可能并不理想，仍有一定程度的提升空間。本文數(shù)據(jù)集對(duì)現(xiàn)有的算法在小目標(biāo)檢測(cè)以及目標(biāo)中心重疊檢測(cè)上仍然具有挑戰(zhàn)性，對(duì)現(xiàn)有算法的魯棒性和泛化性評(píng)估具有適用性。

3.3 多目標(biāo)跟蹤

基于監(jiān)控視頻的車(chē)輛跟蹤可定義為一個(gè)多目標(biāo)跟蹤問(wèn)題。目前流行的跟蹤算法一般是結(jié)合目標(biāo)檢測(cè)算法來(lái)實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)，DeepSort[38]跟蹤算法就是其中之一。為了評(píng)估該數(shù)據(jù)集，本文采用了基于檢測(cè)的多目標(biāo)跟蹤策略[39]（detection-based tracking，DBT）來(lái)實(shí)現(xiàn)多目標(biāo)跟蹤任務(wù)。首先，分別使用YOLOv5_M 和YOLOv7 檢測(cè)算法對(duì)車(chē)輛進(jìn)行檢測(cè)，車(chē)輛檢測(cè)模塊通過(guò)對(duì)每幀中的目標(biāo)車(chē)輛進(jìn)行定位和分類(lèi)，為基于檢測(cè)的車(chē)輛跟蹤提供觀(guān)測(cè)值；其次，結(jié)合DeepSort 跟蹤算法將檢測(cè)假設(shè)鏈接成軌跡，車(chē)輛跟蹤的主要任務(wù)是在視頻序列第一幀的基礎(chǔ)上建立一個(gè)跟蹤對(duì)應(yīng)關(guān)系，記錄每個(gè)目標(biāo)的軌跡并保持其身份不變，從而將視頻序列中的車(chē)輛檢測(cè)關(guān)聯(lián)起來(lái)。

模型訓(xùn)練使用基于YOLOv5_M 和YOLOv7的公共檢測(cè)網(wǎng)絡(luò)。在訓(xùn)練檢測(cè)算法時(shí)，以檢測(cè)數(shù)據(jù)集作為輸入，圖像尺寸縮放為640×640，batch size 為64，其他設(shè)置默認(rèn)參數(shù)進(jìn)行訓(xùn)練。在訓(xùn)練跟蹤算法時(shí)，將檢測(cè)數(shù)據(jù)集的實(shí)例標(biāo)注框全部提取出來(lái)作為輸入來(lái)訓(xùn)練DeepSort，其他設(shè)置默認(rèn)參數(shù)進(jìn)行訓(xùn)練。最后將得到的檢測(cè)訓(xùn)練模型與跟蹤訓(xùn)練模型相結(jié)合，以跟蹤數(shù)據(jù)集為輸入，驗(yàn)證模型的檢測(cè)和跟蹤性能。

實(shí)驗(yàn)結(jié)果如表6 所示，分別比較了跟蹤策略為DeepSort 時(shí)YOLOv5_M 和YOLOv7 在多目標(biāo)跟蹤任務(wù)上的性能。在表6 中，YOLOv5_M 在整個(gè)場(chǎng)景中實(shí)現(xiàn)了83.3%的召回率、91.7%的精度和70.4%的MOTA，YOLOv7 在整個(gè)場(chǎng)景中實(shí)現(xiàn)了85.1%的召回率、91.9%的精度和72.0%的MOTA。總的來(lái)說(shuō)，YOLOv7 在整體表現(xiàn)上略?xún)?yōu)于YOLOv5_M，但同時(shí)也可以看出YOLOv5_M和YOLOv7 在處理一些復(fù)雜場(chǎng)景的時(shí)候，還是容易出現(xiàn)錯(cuò)檢、漏檢的問(wèn)題。在單個(gè)類(lèi)評(píng)估中，摩托車(chē)類(lèi)別在YOLOv5_M 上的召回率為83.5%，在YOLOv7 上召回率達(dá)到了90.0%。這是由于YOLOv5的下采樣倍數(shù)較大，較深層的特征圖難以學(xué)習(xí)到小目標(biāo)的特征信息，并且當(dāng)摩托車(chē)基數(shù)較小時(shí)，漏檢的發(fā)生會(huì)對(duì)整體性能產(chǎn)生較大的影響。此外，無(wú)論是在YOLOv5_M 還是在YOLOv7 上，小汽車(chē)和卡車(chē)的FP、FN 數(shù)量都比較高，導(dǎo)致對(duì)應(yīng)的MOTA 指標(biāo)較低。這是由于本文提供的數(shù)據(jù)集中一些小型卡車(chē)（如皮卡）在某些監(jiān)控角度與小汽車(chē)類(lèi)極其相似（類(lèi)間相似性），檢測(cè)器很難學(xué)習(xí)到它們之間的判別特征，導(dǎo)致小汽車(chē)類(lèi)和卡車(chē)類(lèi)之間的檢測(cè)相互影響，從而降低了它們的分類(lèi)性能。

表6 最新檢測(cè)與跟蹤算法在VeDT-MSS 數(shù)據(jù)集上的性能比較

以上實(shí)驗(yàn)結(jié)果表明，現(xiàn)有的檢測(cè)和跟蹤方法要在該數(shù)據(jù)集上獲得顯著結(jié)果是非常具有挑戰(zhàn)性的。由于VeDT-MSS 數(shù)據(jù)集的多樣性以及復(fù)雜性，未來(lái)能夠用于評(píng)估更多更主流的基于監(jiān)控場(chǎng)景下的檢測(cè)以及跟蹤方法。這也鼓勵(lì)了更先進(jìn)的算法出現(xiàn)使得在該數(shù)據(jù)集上獲得更好的性能。

4 結(jié)束語(yǔ)

本文在監(jiān)控場(chǎng)景下構(gòu)建了一個(gè)名為VeDTMSS 的車(chē)輛數(shù)據(jù)集，該數(shù)據(jù)集除了多種光照條件和視角以外，還具有交通場(chǎng)景多樣性、類(lèi)內(nèi)多樣性大、摩托車(chē)標(biāo)注實(shí)例較多以及背景復(fù)雜度高等多個(gè)特點(diǎn)，以此來(lái)增加數(shù)據(jù)集的多樣性。為了驗(yàn)證該數(shù)據(jù)集的有效性，分別在目標(biāo)檢測(cè)任務(wù)和多目標(biāo)跟蹤任務(wù)上進(jìn)行了大量的基線(xiàn)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，該數(shù)據(jù)集對(duì)現(xiàn)有主流的算法仍然具有挑戰(zhàn)性，能夠參與評(píng)估更復(fù)雜更先進(jìn)的算法模型。本文數(shù)據(jù)集不僅關(guān)注城市交通監(jiān)控場(chǎng)景，還收集了大量在現(xiàn)有數(shù)據(jù)集中鮮被關(guān)注的鄉(xiāng)村和郊區(qū)監(jiān)控場(chǎng)景，彌補(bǔ)了現(xiàn)有車(chē)輛檢測(cè)與跟蹤研究任務(wù)中鄉(xiāng)村和郊區(qū)場(chǎng)景道路影像數(shù)據(jù)不足的問(wèn)題。