張英俊,白小輝,謝斌紅
太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024
近年來(lái),隨著人工智能技術(shù)的飛速發(fā)展,基于計(jì)算機(jī)視覺(jué)的智能監(jiān)控系統(tǒng)、自動(dòng)駕駛等領(lǐng)域較以往取得了重大的突破,多目標(biāo)跟蹤(multi-object tracking,MOT)技術(shù)作為這些領(lǐng)域中的關(guān)鍵基礎(chǔ)性技術(shù)之一,其算法的準(zhǔn)確性和魯棒性對(duì)于進(jìn)一步提升高層智能應(yīng)用的安全性具有重要意義[1]。MOT任務(wù)旨在從視頻中持續(xù)檢測(cè)多個(gè)數(shù)量不確定的目標(biāo)并賦予身份信息(identity,ID),并在目標(biāo)外觀、位置以及場(chǎng)景改變時(shí)仍能穩(wěn)定維持目標(biāo)原有的ID,最終得到完整且連續(xù)的目標(biāo)運(yùn)動(dòng)軌跡[2]。然而在復(fù)雜的場(chǎng)景中,目標(biāo)之間頻繁遮擋和交互容易造成目標(biāo)ID切換(ID switch,IDs),并且由于同類目標(biāo)表觀相似度較高且具備相似行為,也為維持正確的目標(biāo)ID帶來(lái)進(jìn)一步挑戰(zhàn),因此算法必須提取魯棒的、同類目標(biāo)間可區(qū)分的表觀特征。
具體來(lái)講,在MOT任務(wù)中,表觀特征可以魯棒地關(guān)聯(lián)遮擋再出現(xiàn)的目標(biāo),有效降低目標(biāo)ID切換次數(shù),因此大多數(shù)MOT算法都基于表觀特征進(jìn)行研究。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)因其強(qiáng)大的表觀特征提取能力被廣泛應(yīng)用于MOT領(lǐng)域。但卷積操作缺乏對(duì)圖像的全局理解,無(wú)法對(duì)特征之間的依賴關(guān)系進(jìn)行建模,在MOT任務(wù)中對(duì)全局信息的利用還不夠充分,容易導(dǎo)致目標(biāo)ID切換。
相比于CNN,自然語(yǔ)言處理(natural language processing,NLP)領(lǐng)域中的Transformer[3]模型不受局部相互作用的限制,既能挖掘長(zhǎng)距離的特征依賴又能并行計(jì)算,因此研究人員嘗試將其引入計(jì)算機(jī)視覺(jué)領(lǐng)域,在諸多下游任務(wù)中取得了良好效果[4]。但由于缺乏CNN固有的局部敏感性和平移不變性等歸納偏置,視覺(jué)Transformer往往會(huì)忽略大量的局部特征細(xì)節(jié),這降低了前景和背景之間的可分辨性,漏檢率較高,容易造成錯(cuò)誤匹配或軌跡斷裂的情況[5]。
針對(duì)以上問(wèn)題,本文提出基于CNN-Transformer特征融合的多目標(biāo)跟蹤算法CTMOT,整個(gè)網(wǎng)絡(luò)框架如圖1所示。首先使用雙分支主干網(wǎng)絡(luò)進(jìn)行特征提取,接著通過(guò)雙向橋接模塊(two-way braidge module,TBM)充分融合提取的局部和全局特征,然后將融合后的特征結(jié)合不同的查詢分別輸入兩組并行的解碼器進(jìn)行處理,最后將生成的檢測(cè)框和跟蹤框通過(guò)簡(jiǎn)單的IoU相似度進(jìn)行匹配,得到最終的跟蹤結(jié)果。

圖1 CTMOT算法整體框架Fig.1 Overall framework of CTMOT algorithm
一直以來(lái),卷積神經(jīng)網(wǎng)絡(luò)(CNN)都被認(rèn)為是計(jì)算機(jī)視覺(jué)的基礎(chǔ)模型[6],其通過(guò)卷積層和池化層處理圖像數(shù)據(jù),是應(yīng)用最為廣泛的特征提取方法。Wang等[7]最先提出在MOT任務(wù)中使用CNN提取表觀特征,證明基于CNN的表觀特征提取對(duì)MOT算法的性能提升幫助巨大。受此啟發(fā),Kim等[8]嘗試將CNN提取的表觀特征嵌入經(jīng)典多假設(shè)跟蹤(multi hypothesis tracking,MHT)算法中,MOTA指標(biāo)提高了3個(gè)百分點(diǎn)。Chen等[9]提出的AP_HWDPL_p算法將多個(gè)CNN提取的特征進(jìn)行融合得到最終的目標(biāo)表觀特征,大幅改善了算法性能,但該算法的CNN結(jié)構(gòu)過(guò)于復(fù)雜,計(jì)算量巨大,無(wú)法實(shí)時(shí)跟蹤。Wojke等[10]提出的Deep SORT算法通過(guò)自定義的CNN殘差網(wǎng)絡(luò)進(jìn)一步提取穩(wěn)定的表觀特征,同時(shí)結(jié)合運(yùn)動(dòng)特征,較好地解決了SORT算法[11]中存在的ID切換問(wèn)題,初步實(shí)現(xiàn)了精度和速度的平衡。由于CNN具有平移不變性和局部敏感性等歸納偏置,可以高效地捕獲局部特征,因此以上方法在跟蹤性能上均取得了不錯(cuò)的進(jìn)展。但CNN無(wú)法充分利用MOT任務(wù)中的全局上下文信息,因此會(huì)忽略局部與整體之間的關(guān)聯(lián)性,從而造成目標(biāo)ID切換。
Transformer興起于自然語(yǔ)言處理(NLP)領(lǐng)域,通過(guò)編碼器-解碼器結(jié)構(gòu)以及注意力機(jī)制實(shí)現(xiàn)并行計(jì)算。相比于CNN,視覺(jué)Transformer具有沿時(shí)間維度傳遞特征的天然優(yōu)勢(shì),并且能捕獲全局上下文信息,基于Transformer的視覺(jué)模型在圖像分類、目標(biāo)檢測(cè)以及多目標(biāo)跟蹤等領(lǐng)域均取得了良好的效果。作為一項(xiàng)開(kāi)創(chuàng)性的工作,Dosovitskiy等[12]提出的ViT直接將標(biāo)準(zhǔn)Transformer模型作用于圖像塊序列,首次使用Transformer結(jié)構(gòu)完全代替卷積結(jié)構(gòu)完成圖像分類任務(wù),為T(mén)ransformer在計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展奠定了重要基礎(chǔ),但在計(jì)算資源受限時(shí),ViT難以學(xué)到豐富的特征。Liu等[13]針對(duì)ViT的不足提出Swin-Transformer,使用移動(dòng)窗口對(duì)全局信息進(jìn)行建模,降低序列長(zhǎng)度的同時(shí)帶來(lái)更大的效率提升,證明Transformer可以作為一個(gè)通用的主干網(wǎng)絡(luò)。此外,Yuan等[14]首次嘗試將具有深窄結(jié)構(gòu)(deep-narrow)的ViT網(wǎng)絡(luò)作為主干,提出的T2T ViT模型顯著降低了計(jì)算量和參數(shù)量,輕量化的同時(shí)性能超越了大多數(shù)CNN網(wǎng)絡(luò)。基于Transformer進(jìn)行特征提取的網(wǎng)絡(luò)模型由于具有更大的感受野和更靈活的表達(dá)方式,因此可以獲得相媲美甚至超越最先進(jìn)CNN的結(jié)果。但由于缺乏CNN中固有的局部歸納偏置,因此往往會(huì)忽略圖像的局部特征。
目前基于CNN-Transformer模型進(jìn)行多目標(biāo)跟蹤的算法大多借鑒了基于Transformer的目標(biāo)檢測(cè)算法DETR[15]。DETR將目標(biāo)檢測(cè)視為集合預(yù)測(cè)問(wèn)題,首先利用CNN提取圖像特征,將其與位置編碼相加作為編碼器的輸入,隨后將輸出結(jié)合一組目標(biāo)查詢(object queries)輸入解碼器進(jìn)行處理,最后解碼器的輸出經(jīng)前饋網(wǎng)絡(luò)(feed forward network,F(xiàn)FN)處理后并行輸出目標(biāo)框的坐標(biāo)和類別標(biāo)簽,得到最終的預(yù)測(cè)結(jié)果[4]。簡(jiǎn)化了目標(biāo)檢測(cè)流程,避免了復(fù)雜的后處理步驟,實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)。但同時(shí)存在小目標(biāo)檢測(cè)效果較差和收斂速度較慢等問(wèn)題。
Sun等[16]首先將Transformer架構(gòu)引入MOT任務(wù),提出TransTrack。受單目標(biāo)跟蹤(single object tracking,SOT)任務(wù)中孿生網(wǎng)絡(luò)(siamese networks)的啟發(fā),基于Transformer的Query-Key機(jī)制設(shè)計(jì)了一種聯(lián)合檢測(cè)和跟蹤(joint detection and tracking,JDT)的新框架,能同時(shí)跟蹤當(dāng)前幀中已存在的目標(biāo)并檢測(cè)新出現(xiàn)目標(biāo),從而輸出有序目標(biāo)集。這一跟蹤過(guò)程簡(jiǎn)單高效,MOTA成績(jī)和最先進(jìn)算法(SOTA)效果相當(dāng),但在目標(biāo)軌跡查詢中,由于身份信息不足而導(dǎo)致IDs指標(biāo)較高。
Meinhardt等[17]將MOT任務(wù)視為幀到幀的集合預(yù)測(cè)問(wèn)題,因此借鑒DETR算法提出TrackFormer,以一種新的注意力跟蹤(tracking by attention,TBA)范式實(shí)現(xiàn)隱式數(shù)據(jù)關(guān)聯(lián),同時(shí)引入DETR檢測(cè)器生成的軌跡查詢(track query)集成對(duì)應(yīng)目標(biāo)的時(shí)空和位置信息,以自回歸方式實(shí)現(xiàn)多目標(biāo)跟蹤。得益于Transformer強(qiáng)大的建模能力,TrackFormer在MOT17和MOTS20數(shù)據(jù)集上均達(dá)到了SOTA效果,但直接將時(shí)空和位置查詢混合使用容易造成誤檢,并且在軌跡交互中查詢特征差異性減小會(huì)導(dǎo)致目標(biāo)ID切換。
雖然上述基于Transformer的MOT算法取得了不錯(cuò)的進(jìn)展,但其主要都是利用Transformer架構(gòu)處理CNN提取的特征以實(shí)現(xiàn)多目標(biāo)跟蹤任務(wù),忽視了視覺(jué)Transformer在特征提取和解碼預(yù)測(cè)方面的能力[18]。針對(duì)以上問(wèn)題,本文提出CTMOT算法,采用基于CNNTransformer雙分支并行的主干網(wǎng)絡(luò)分別進(jìn)行特征提取并融合,充分發(fā)揮CNN和Transformer的優(yōu)勢(shì),獲得更加魯棒的表觀特征。實(shí)驗(yàn)表明CTMOT算法在多目標(biāo)跟蹤數(shù)據(jù)集上表現(xiàn)良好,多項(xiàng)指標(biāo)均達(dá)到SOTA效果,并且能夠有效應(yīng)對(duì)遮擋、干擾和ID切換等情況,同時(shí)可以實(shí)時(shí)跟蹤,實(shí)現(xiàn)了速度與準(zhǔn)確度的權(quán)衡。
CTMOT算法的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主要由混合主干網(wǎng)絡(luò)(CNN-Transformer backbone)、解碼器(decoder)和數(shù)據(jù)關(guān)聯(lián)(data association)組成。
其中混合主干網(wǎng)絡(luò)包含CNN和Transformer兩個(gè)分支,并通過(guò)TBM融合雙分支提取的特征;并行解碼器將兩組不同的查詢作為輸入,分別處理主干網(wǎng)絡(luò)提取的混合特征,輸出目標(biāo)特征(object features)和軌跡特征(track features);數(shù)據(jù)關(guān)聯(lián)部分將前饋網(wǎng)絡(luò)(feed forward network,F(xiàn)FN)輸出的檢測(cè)框(detection box)和跟蹤框(tracking box)進(jìn)行匹配(matching),生成最終的目標(biāo)框(object box),完成多目標(biāo)跟蹤任務(wù)。
CNN-Transformer混合主干網(wǎng)絡(luò)由多個(gè)CNN-Transformer Blocks(CTB)堆疊組成,如圖2所示。其中每個(gè)CTB包含CNN和Transformer兩個(gè)分支,分別提取圖像的局部和全局特征。同時(shí)為了發(fā)揮雙分支的優(yōu)勢(shì),受Mobile-Former[19]啟發(fā),通過(guò)TBM充分融合局部和全局特征,增強(qiáng)了CNN分支的全局感知能力、豐富了Transformer分支的局部特征細(xì)節(jié),獲得更加魯棒的同類目標(biāo)可分性特征,CTB結(jié)構(gòu)如圖3所示。

圖2 CTMOT主干網(wǎng)絡(luò)Fig.2 Overall structure of CTMOT backbone network

圖3 CNN-Transformer Block(CTB)詳細(xì)結(jié)構(gòu)Fig.3 Detailed structure of CNN-Transformer Block(CTB)
2.1.1 CNN分支
CNN分支將圖像X∈?HW×3作為輸入,借鑒ShuffleNet v2[20]中的設(shè)計(jì)準(zhǔn)則,首先將輸入特征圖通過(guò)下采樣塊(down sampling block)處理后得到X1∈,隨后通過(guò)多個(gè)堆疊的Shuffle Block輸出最終的局部特征圖,過(guò)程如圖4所示。

圖4 CNN塊Fig.4 CNN Block
Shuffle Block通過(guò)通道分割(channel split)操作將輸入特征圖的通道數(shù)2C0分為A、B兩組,每組通道數(shù)為C0,其中A組特征圖通過(guò)深度可分離卷積(depthwise separable convolutions)[21]提取特征,隨后與未經(jīng)處理的B組特征圖進(jìn)行拼接(concat)。這種類似于殘差連接的通道分割設(shè)計(jì)可以使模型獲得極大地效率提升,輸入輸出相同通道數(shù)也使得計(jì)算量最小,并且引入的通道重排(channel shuffle)操作不僅可以融合不同組之間的通道信息,還可以大幅減少模型的參數(shù)量和計(jì)算量,同時(shí)提高了模型的準(zhǔn)確性。
當(dāng)CNN分支中輸入特征圖的長(zhǎng)、寬、通道數(shù)分別為?、w、c時(shí),Shuffle Block的計(jì)算量為:
而相同結(jié)構(gòu)下的ResNet計(jì)算量為hw(11c2)。因此,CTMOT算法中的CNN分支相比于普通CNN網(wǎng)絡(luò),其計(jì)算量大幅降低。
2.1.2 Transformer分支
Transformer分支將一些可學(xué)習(xí)的標(biāo)記(tokens)Y∈?M×d作為輸入,其中M和d分別表示標(biāo)記的數(shù)量與維度。該分支由多個(gè)多頭注意力(multi-head attention,MHA)和前饋網(wǎng)絡(luò)(feed forward network,F(xiàn)FN)模塊堆疊而成,如圖3所示。
不同于ViT中將標(biāo)記線性投射為局部圖像塊嵌入(patch embeddings),CTMOT算法中的Transformer分支中只有極少數(shù)標(biāo)記對(duì)圖像的全局特征進(jìn)行編碼,而且對(duì)每個(gè)標(biāo)記都隨機(jī)進(jìn)行初始化,這樣可使得計(jì)算成本大大降低。
2.1.3 雙向橋接模塊
雙向橋接模塊TBM由CNN→Transformer和Transformer→CNN組成,分別用于對(duì)CNN提取的局部特征和Transformer提取的全局特征進(jìn)行雙向融合。具體來(lái)講,首先將局部特征X和全局特征Y的通道數(shù)均分為n組用以計(jì)算多通道注意力:
然后,CNN→Transformer模塊通過(guò)交叉注意力機(jī)制將CNN分支中的局部特征X與Transformer分支中的全局表示Y相融合,具體計(jì)算如公式(3)所示:
類似,Transformer→CNN模塊也通過(guò)交叉注意力機(jī)制將Transformer Block輸出的全局表示Y'融合到CNN Block輸出的局部特征X'中,具體計(jì)算如公式(4)所示:
其中,AX→Y和AY'→X'分別表示兩組交叉注意力的輸出結(jié)果,Attn表示計(jì)算多通道注意力,Concat表示拼接操作,分別表示第i組元素的查詢(query)、鍵(key)、值(value)的映射矩陣。
CTMOT算法分別采用目標(biāo)解碼器(object decoder)和軌跡解碼器(track decoder)對(duì)主干網(wǎng)絡(luò)提取的混合特征并行處理,其中每個(gè)解碼器都包含了三個(gè)子層結(jié)構(gòu)——自注意力層(self-attention)、交叉注意力層(crossattention)和前饋網(wǎng)絡(luò)層(feed forward network,F(xiàn)FN),同時(shí)每個(gè)子層后面都加上殘差連接(residual connection)和層正則化(layer normalization,LN),并行解碼器的結(jié)構(gòu)如圖1所示。與TransTrack[15]的思想類似,CTMOT中的并行解碼器分別將兩組不同的查詢作為輸入,其中目標(biāo)查詢(object query)是一組可學(xué)習(xí)的參數(shù),用于檢測(cè)當(dāng)前幀中感興趣的目標(biāo),并輸出目標(biāo)特征;另外一組軌跡查詢來(lái)自前一幀檢測(cè)到的目標(biāo)特征,并以繼承的方式傳遞到下一幀用于發(fā)現(xiàn)需要關(guān)聯(lián)的目標(biāo),從而獲取軌跡特征(track features)。并行解碼器根據(jù)目標(biāo)查詢和軌跡查詢將主干網(wǎng)絡(luò)提取的混合特征X''、Y''進(jìn)行處理后分別得到檢測(cè)框和跟蹤框,具體過(guò)程如公式(5)、(6):
其中,SA、CA分別表示自注意力和交叉注意力;、表示兩組解碼器的輸入,和表示解碼器中第i個(gè)LN層之后的輸出。
在數(shù)據(jù)關(guān)聯(lián)階段,解碼器輸出的目標(biāo)特征和軌跡特征經(jīng)FFN處理后分別生成檢測(cè)框和跟蹤框,隨后將IoU相似度作為匹配代價(jià)(matching cost),通過(guò)K&M算法(Kuhn-Munkres algorithm)將檢測(cè)框和跟蹤框進(jìn)行匹配,生成最終的目標(biāo)框,完成多目標(biāo)跟蹤任務(wù)。
具體來(lái)講,分別使用、σ(i)表示檢測(cè)框和跟蹤框的集合,每組集合均有N個(gè)候選框,下標(biāo)i和σ(i)分別表示兩組集合中的第i個(gè)邊界框,則檢測(cè)框和跟蹤框的匹配代價(jià)為:
在CTMOT算法的訓(xùn)練階段,由于檢測(cè)框和跟蹤框是同一圖像中目標(biāo)框的預(yù)測(cè),因此可以借鑒DETR中集合預(yù)測(cè)損失(set prediction loss)[15]的思想同時(shí)訓(xùn)練兩個(gè)解碼器,并使用L1損失和GIoU(generalized IoU)損失對(duì)邊界框預(yù)測(cè)結(jié)果進(jìn)行監(jiān)督,整個(gè)網(wǎng)絡(luò)的損失函數(shù)[18]可表示為:
其中,Lcls表示預(yù)測(cè)的類別和真實(shí)目標(biāo)框(ground truth box)類別標(biāo)簽的焦點(diǎn)損失(focal loss);LL1和LGIoU分別表示預(yù)測(cè)框與真實(shí)目標(biāo)框之間的L1損失和GIoU損失;λcls、λL1和λGIoU是調(diào)整系數(shù),用于平衡損失函數(shù)的比重。
本文算法基于Python3.8和Pytorch1.7.0、Cuda11.0框架實(shí)現(xiàn),在具有兩塊RTX3090 GPU的服務(wù)器上進(jìn)行實(shí)驗(yàn)。CTMOT算法使用基于CNN-Transformer雙分支并行的混合網(wǎng)絡(luò)作為主干,CNN分支包含6個(gè)CNN塊,Transformer分支中將6個(gè)可學(xué)習(xí)的全局標(biāo)記作為輸入并隨機(jī)進(jìn)行初始化,其中多通道注意力的分組數(shù)為8。
訓(xùn)練數(shù)據(jù)由MOT17、MOT20、KITTI和UA-DETRAC數(shù)據(jù)集的訓(xùn)練部分組成,在訓(xùn)練過(guò)程中使用隨機(jī)水平翻轉(zhuǎn)、裁剪、縮放等數(shù)據(jù)增強(qiáng)方法防止過(guò)擬合。使用AdamW優(yōu)化器,Batchsize設(shè)置為8,將模型訓(xùn)練300個(gè)周期(epoch)。主干網(wǎng)絡(luò)的初始學(xué)習(xí)率為2.0×10-5,凍結(jié)BN層并在MOT17數(shù)據(jù)集上預(yù)訓(xùn)練,其余部分的初始學(xué)習(xí)率為2.0×10-4,權(quán)重衰減為1.0×10-4,在第200個(gè)周期時(shí)學(xué)習(xí)率衰減因子為0.1。
3.2.1 數(shù)據(jù)集
CTMOT算法在MOT17、MOT20、KITTI和UADETRAC數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。MOT17數(shù)據(jù)集發(fā)布于MOTChallenge[22]上,采用靜態(tài)或動(dòng)態(tài)攝像機(jī)拍攝了多個(gè)不同場(chǎng)景,如明亮的商場(chǎng)、光線昏暗的公園和夜晚人群密集的商業(yè)街等。該數(shù)據(jù)集共包含14個(gè)視頻序列,其中7個(gè)用于訓(xùn)練,7個(gè)用于測(cè)試,共有11 235幀,訓(xùn)練集中有1 342個(gè)身份標(biāo)識(shí)和292 733個(gè)目標(biāo)框,每幀都是手工標(biāo)注并經(jīng)過(guò)嚴(yán)格檢查,同時(shí)相較于MOT16增加了3個(gè)檢測(cè)器的檢測(cè)結(jié)果,提供了一個(gè)高質(zhì)量的大規(guī)模目標(biāo)跟蹤基準(zhǔn)[2]。
MOT20數(shù)據(jù)集從無(wú)約束環(huán)境中提取了8個(gè)全新的稠密人群序列,其中訓(xùn)練集和測(cè)試集各占一半,所有訓(xùn)練集中的視頻序列都經(jīng)過(guò)仔細(xì)地挑選和標(biāo)注,包含的目標(biāo)邊界框大約是MOT17數(shù)據(jù)集的3倍,并且平均每幀246個(gè)行人,人群密度進(jìn)一步增加,為MOT任務(wù)帶來(lái)更大的挑戰(zhàn)。
KITTI[23]數(shù)據(jù)集可同時(shí)用于車輛和行人跟蹤,并提供了DPM的檢測(cè)結(jié)果。包含50個(gè)視頻序列,其中包括7 481張訓(xùn)練圖片和7 518張測(cè)試圖片,場(chǎng)景目標(biāo)較為稀疏,平均每幀只有5.35個(gè)目標(biāo)。主要挑戰(zhàn)在于目標(biāo)雜亂、背景難以區(qū)分以及光照變化等。
UA-DETRAC[24]數(shù)據(jù)集是車輛檢測(cè)和跟蹤的大規(guī)模數(shù)據(jù)集,由100個(gè)從真實(shí)交通場(chǎng)景中捕獲的具有挑戰(zhàn)性的視頻組成,平均每段視頻超過(guò)1 400幀,平均每幀圖像有8.64個(gè)目標(biāo)。該數(shù)據(jù)集將車輛分為4類,即轎車、公共汽車、廂式貨車和其他車輛;天氣情況分為多云、夜間、晴天和雨天;主要挑戰(zhàn)在于運(yùn)動(dòng)模糊。
3.2.2 評(píng)價(jià)指標(biāo)
目前視覺(jué)多目標(biāo)跟蹤算法中最常使用的評(píng)價(jià)指標(biāo)有傳統(tǒng)指標(biāo)和CLEAR MOT指標(biāo)。
(1)傳統(tǒng)指標(biāo)定義了多目標(biāo)跟蹤算法可能產(chǎn)生的錯(cuò)誤類型,通常有:
最多跟蹤比例(mostly tracked,MT):與真實(shí)軌跡有80%以上重合率的軌跡數(shù)量與總軌跡數(shù)量的比值。
最多丟失比例(mostly lost,ML):與真實(shí)軌跡具有20%以下重合率的軌跡數(shù)量與總軌跡數(shù)量的比值。
傳統(tǒng)的MT和ML均不考慮目標(biāo)ID切換,僅衡量目標(biāo)跟蹤的完整性。
(2)CLEAR MOT指標(biāo)主要根據(jù)目標(biāo)檢測(cè)框和跟蹤框的IoU閾值以及目標(biāo)跟蹤的正確穩(wěn)定性進(jìn)行評(píng)價(jià),是體現(xiàn)算法性能最重要的評(píng)價(jià)指標(biāo):
錯(cuò)誤正樣本(false positives,F(xiàn)P):視頻中負(fù)樣本被預(yù)測(cè)為正樣本的數(shù)量。
錯(cuò)誤負(fù)樣本(false negatives,F(xiàn)N):視頻中正樣本被預(yù)測(cè)為負(fù)樣本的數(shù)量。
ID切換次數(shù)(identity switches,IDs):跟蹤過(guò)程中目標(biāo)切換的次數(shù),用于衡量跟蹤算法的穩(wěn)定性。
根據(jù)以上3個(gè)基礎(chǔ)指標(biāo)可以構(gòu)建最常用的多目標(biāo)跟蹤指標(biāo):多目標(biāo)跟蹤準(zhǔn)確度(multi-object tracking accuracy,MOTA)和多目標(biāo)跟蹤精度(multiple object tacking precision,MOTP)[1]:
其中,GT表示所有真值框的數(shù)量,dt,i表示已匹配的檢測(cè)框和跟蹤框之間的距離度量,ct表示在第t幀中匹配成功的檢測(cè)框的數(shù)量。MOTA以錯(cuò)誤正樣本(FP),錯(cuò)誤負(fù)樣本(FN)和ID切換總數(shù)(IDs)為依據(jù)判斷跟蹤錯(cuò)誤的次數(shù),體現(xiàn)算法的跟蹤準(zhǔn)確度;而MOTP則根據(jù)目標(biāo)檢測(cè)框和真值框之間的IoU計(jì)算跟蹤的精度,側(cè)重于體現(xiàn)目標(biāo)檢測(cè)的質(zhì)量。
為驗(yàn)證CTMOT算法的有效性,分別在MOT17、MOT20、KITTI和UA-DETRAC數(shù)據(jù)集上與當(dāng)前主流的多目標(biāo)跟蹤算法進(jìn)行實(shí)驗(yàn)結(jié)果比較。從表1可以看出,本文算法相比其他算法在MOTP、ML、FN和IDs等多個(gè)指標(biāo)上均取得了顯著提升,達(dá)到了最優(yōu)效果,其他指標(biāo)也與SOTA算法效果相當(dāng)。具體來(lái)講,MOTA指標(biāo)達(dá)到了76.4%,相比TransCenter[25]和TransTrack等基于Transformer的MOT算法,分別取得了3.2和1.9個(gè)百分點(diǎn)的提升,這主要是由于模型中使用的雙分支主干網(wǎng)絡(luò)增強(qiáng)了特征提取能力,充分融合了局部和全局特征,進(jìn)而提高了整體跟蹤性能。在FP指標(biāo)上略低于NSH算法,但其他指標(biāo)均有顯著提升,衡量跟蹤性能最重要的MOTA指標(biāo)提高了12.5個(gè)百分點(diǎn)。MOTA和MT指標(biāo)相較于表現(xiàn)最好的TransMOT[26]算法僅相差0.3個(gè)百分點(diǎn),可能原因是后者采用了圖Transformer著重建立目標(biāo)關(guān)聯(lián)模型,而CTMOT算法在數(shù)據(jù)關(guān)聯(lián)階段僅使用簡(jiǎn)單的IoU進(jìn)行匹配,在一定程度上影響了跟蹤準(zhǔn)確度,但可以極大地提升跟蹤速度,因此從跟蹤準(zhǔn)確度和速度權(quán)衡的角度考慮,本文選取了復(fù)雜性較低的IoU匹配方法。同時(shí)為了降低簡(jiǎn)單匹配方式帶來(lái)的影響,采用并行解碼器結(jié)構(gòu),利用前一幀的目標(biāo)特征保證匹配雙方具有強(qiáng)相似性,降低對(duì)復(fù)雜匹配方式的依賴性,實(shí)現(xiàn)端到端的實(shí)時(shí)跟蹤[2]。實(shí)驗(yàn)表明CTMOT算法在跟蹤準(zhǔn)確度和速度上達(dá)到了更好的平衡,從整體上提高了多目標(biāo)跟蹤方法的性能。

表1 CTMOT與主流MOT算法在MOT17數(shù)據(jù)集上的比較Table 1 Comparison between CTMOT and mainstream MOT algorithms on MOT17 dataset
MOT20數(shù)據(jù)集相較于MOT17包含了更多更擁擠的場(chǎng)景,目標(biāo)尺寸更小,同時(shí)目標(biāo)遮擋的情況也更加嚴(yán)重,給目標(biāo)檢測(cè)和跟蹤帶來(lái)了更大的挑戰(zhàn),因此各種算法在MOT20上表現(xiàn)出的性能均低于MOT17,如表2所示。可以看出CTMOT算法在MOTP、MT、FP和IDs等多個(gè)指標(biāo)上均取得了最佳效果,表明本文采用的雙分支主干網(wǎng)絡(luò)極大促進(jìn)了檢測(cè)性能的提升,同時(shí)采用的雙解碼器也顯著降低了目標(biāo)ID切換。在MOTA指標(biāo)上,表現(xiàn)最好的CSTrack算法比本文算法高0.3個(gè)百分點(diǎn),可能原因是其重點(diǎn)針對(duì)密集小目標(biāo)進(jìn)行建模,但其他指標(biāo)均遠(yuǎn)低于CTMOT算法,后續(xù)本文也將針對(duì)密集小目標(biāo)進(jìn)行優(yōu)化。CTMOT算法的ML和FN值略低于FairMOT算法,但其他指標(biāo)均遠(yuǎn)優(yōu)于FairMOT,表示錯(cuò)誤正樣本的FP值降低了75%,ID切換率降低了64%,MOTA成績(jī)提升了4.5個(gè)百分點(diǎn),進(jìn)一步證明了本文算法的有效性。

表2 CTMOT與主流MOT算法在MOT20數(shù)據(jù)集上的比較Table 2 Comparison between CTMOT and mainstream MOT algorithms on MOT20 dataset
為了驗(yàn)證CTMOT算法在同一視覺(jué)場(chǎng)景中對(duì)不同類型目標(biāo)的跟蹤效果,在KITTI數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),具體結(jié)果如表3所示,由于其場(chǎng)景稀疏,每幀圖像中目標(biāo)數(shù)較少,因此各算法在該數(shù)據(jù)集上的最多丟失比例(ML)和IDs指標(biāo)均有良好效果,同時(shí)MOTA指標(biāo)也整體高于MOT17數(shù)據(jù)集。CTMOT算法由于其強(qiáng)大的特征提取能力,因此在各項(xiàng)指標(biāo)上均顯著優(yōu)于其他算法,達(dá)到SOTA效果。
此外,也在UA-DETRAC數(shù)據(jù)集上對(duì)CTMOT算法進(jìn)行評(píng)估,各項(xiàng)指標(biāo)均優(yōu)于MOT17和MOT20,其中MOTA和MOTP指標(biāo)分別達(dá)到88.57%和90.23%,表明該算法在同一視覺(jué)場(chǎng)景中跟蹤其他同類目標(biāo)也具有良好的效果。
本文在MOT17數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),為降低訓(xùn)練成本,將待比較的算法模型均統(tǒng)一訓(xùn)練100個(gè)周期,其余策略與實(shí)驗(yàn)設(shè)置中的模型保持一致,主要對(duì)比模型的MOTA、MOTP、FP、FN和IDs的指標(biāo),具體結(jié)果如表4、表5所示,其中IDsr(ID switch rate)為ID切換率,F(xiàn)P和FN分別表示被誤檢和漏檢的樣本數(shù)占到總樣本數(shù)的比例。

表4 不同主干網(wǎng)絡(luò)下的性能對(duì)比Table 4 Performance comparison under different backbone network 單位:%

表5 輸入不同查詢時(shí)模型性能對(duì)比Table 5 Performance comparison when entering different queries 單位:%
3.4.1 主干網(wǎng)絡(luò)消融實(shí)驗(yàn)
首先評(píng)估了CTMOT算法在不同主干網(wǎng)絡(luò)下的性能,實(shí)驗(yàn)結(jié)果如表3所示,其中Model 1僅將CNN作為主干網(wǎng)絡(luò),Model 2的主干網(wǎng)絡(luò)采用Transformer結(jié)構(gòu),Model 3使用CNN-Transformer雙分支主干網(wǎng)絡(luò)提取特征。可以看出3個(gè)模型在各項(xiàng)指標(biāo)上均取得較好的成績(jī),Model 1在衡量模型檢測(cè)能力的MOTP指標(biāo)上相較于Model 2提高了1.2個(gè)百分點(diǎn),同時(shí)表示漏檢率的FN值降低了0.8個(gè)百分點(diǎn),主要原因在于CNN具有局部敏感性和平移不變性等歸納偏置,因此具有更強(qiáng)大的局部特征提取能力,可以有效提升模型的檢測(cè)能力并降低漏檢率,但由于缺乏全局上下文信息,所以MOTA略低于Model 2,并且ID切換次數(shù)也更多。Model 2獲得66.5%的MOTA成績(jī),相較于Model 1提升了0.2個(gè)百分點(diǎn),同時(shí)用于衡量誤檢率的FP指標(biāo)和ID切換率分別降低了0.3和0.4個(gè)百分點(diǎn),由于考慮了全局上下文信息,因此可以更準(zhǔn)確地完成數(shù)據(jù)關(guān)聯(lián),有利于降低誤檢率和目標(biāo)ID切換,但缺乏局部特征細(xì)節(jié)導(dǎo)致MOTP指標(biāo)略低,同時(shí)誤檢率FN值更高。Model 3由于充分繼承了CNN和Transformer雙分支的優(yōu)勢(shì),同時(shí)考慮局部和全局特征,相較于前兩種模型在各項(xiàng)指標(biāo)上均取得顯著提升,達(dá)到最優(yōu)效果。
3.4.2 并行解碼器消融實(shí)驗(yàn)
此外,本文還評(píng)估了并行解碼器中兩組不同的輸入查詢對(duì)CTMOT模型性能的影響,其結(jié)果如表5所示。Model 4僅輸入可學(xué)習(xí)的目標(biāo)查詢,將輸出的檢測(cè)框根據(jù)其在輸出集合中的索引進(jìn)行關(guān)聯(lián),此時(shí)模型的MOTP、FP和FN指標(biāo)分別達(dá)到71.0%、4.3%和30.8%的成績(jī),均表現(xiàn)良好,因?yàn)橐话隳繕?biāo)移動(dòng)距離較小,目標(biāo)查詢能檢測(cè)并預(yù)測(cè)出某個(gè)區(qū)域中的目標(biāo)框。但目標(biāo)經(jīng)過(guò)長(zhǎng)時(shí)間的遮擋或快速移動(dòng)時(shí),該方案會(huì)導(dǎo)致較為嚴(yán)重的匹配錯(cuò)誤,因此MOTA表現(xiàn)并不理想,并且ID切換率很高,達(dá)到了7.8%。Model 5僅輸入軌跡查詢,該方案可以將經(jīng)過(guò)長(zhǎng)距離移動(dòng)的目標(biāo)關(guān)聯(lián)起來(lái),ID切換率成績(jī)優(yōu)異,僅有0.4%,但缺乏目標(biāo)查詢導(dǎo)致無(wú)法進(jìn)行目標(biāo)檢測(cè),也不能有效識(shí)別新出現(xiàn)的目標(biāo),從而無(wú)法得到有效的MOTA和MOTP成績(jī),并且表示漏檢率的FN指標(biāo)極高,達(dá)到了93.2%。Model 6表示在并行解碼器中分別輸入目標(biāo)查詢與軌跡查詢,此時(shí)模型分別輸出檢測(cè)框和跟蹤框,可以同時(shí)完成目標(biāo)檢測(cè)和數(shù)據(jù)關(guān)聯(lián)任務(wù),得到最終的跟蹤結(jié)果,各項(xiàng)指標(biāo)均有較大提高,表明將兩組不同的查詢輸入并行解碼器中對(duì)處理MOT任務(wù)有較大幫助。
3.4.3 IoU數(shù)值分析
CTMOT算法將不同幀下解碼器輸出的檢測(cè)框與跟蹤框使用簡(jiǎn)單的IoU相似度進(jìn)行匹配,匹配過(guò)程如圖5所示,其中圖(a)、(b)、(c)分別表示MOT17數(shù)據(jù)集中第4個(gè)視頻序列中的第220、250和280幀,圖中彩色方框表示跟蹤框,帶有ID信息,白色方框表示檢測(cè)框。表6展示了不同幀下檢測(cè)框與跟蹤框之間的IoU數(shù)值對(duì)比,其中目標(biāo)06、11、13、14的IoU數(shù)值均大于0.5,表示匹配成功,說(shuō)明CTMOT算法可以準(zhǔn)確檢測(cè)并跟蹤目標(biāo)。在圖5(b)中未檢測(cè)到目標(biāo)05,因此IoU數(shù)值為0,在圖5(c)中目標(biāo)重新出現(xiàn),此時(shí)跟蹤框與檢測(cè)框重新進(jìn)行匹配,IoU數(shù)值為0.75說(shuō)明匹配成功,表明CTMOT算法可以穩(wěn)定維持遮擋再出現(xiàn)目標(biāo)的原有ID。

表6 不同幀下IoU數(shù)值對(duì)比Table 6 IoU value comparison under different frames
3.5.1 特征圖可視化
在CNN分支中,Shuffle Block特征圖可視化如圖6所示。其中圖(a)表示原始圖像,圖(b)表示輸入特征圖,圖(c)、(d)分別表示經(jīng)過(guò)通道分割操作后得到的A、B兩組特征圖,由于A組特征圖通過(guò)深度可分離卷積提取特征,因此相較于未經(jīng)處理的B組特征圖可得到更為精細(xì)的特征,如紅色方框所示。圖(e)表示將A、B兩組特征圖拼接后所得結(jié)果,由于充分融合了兩組特征圖,因此可以得到更高質(zhì)量的特征表示,如綠色方框所示。

圖6 Shuffle塊可視化Fig.6 Visualization of Shuffle block
在主干網(wǎng)絡(luò)中,CNN分支和Transformer分支提取的特征圖通過(guò)雙向橋接模塊將進(jìn)行充分融合,其可視化結(jié)果如圖7所示,其中圖(a)表示原始圖像,圖(b)、(c)、(d)分別表示CNN分支和Transformer分支以及雙分支融合后提取的特征圖可視化。由圖可知,CNN分支通過(guò)卷積操作可以提取更為精細(xì)的局部特征,如紅色方框所示。Transformer分支可以利用上下文信息提取全局特征,如綠色方框所示。本文提出的CTMOT算法通過(guò)TBM將雙分支提取的局部和全局特征進(jìn)行融合,充分發(fā)揮二者優(yōu)勢(shì),得到更加魯棒的目標(biāo)特征。

圖7 TBM特征融合可視化Fig.7 Visualization of TBM feature fusion
3.5.2 數(shù)據(jù)關(guān)聯(lián)可視化
在數(shù)據(jù)關(guān)聯(lián)階段,跟蹤框與檢測(cè)框匹配過(guò)程可視化如圖8所示。其中圖(a)表示跟蹤框,目標(biāo)1、2來(lái)自于上一幀的匹配結(jié)果;圖(b)表示檢測(cè)框;跟蹤框與檢測(cè)框通過(guò)IoU相似度進(jìn)行匹配,IoU>0.5即表示匹配成功,如圖(c)所示;圖(d)表示匹配后的結(jié)果,對(duì)于目標(biāo)1、2,其檢測(cè)框與跟蹤框的IoU值大于0.5,經(jīng)過(guò)匹配后仍維持原有ID,目標(biāo)3為新出現(xiàn)目標(biāo),因此賦予其新ID。

圖8 數(shù)據(jù)關(guān)聯(lián)可視化Fig.8 Visualization of data association
3.5.3 跟蹤結(jié)果可視化
為了進(jìn)一步展示CTMOT算法在目標(biāo)發(fā)生遮擋、形變等復(fù)雜情況下的實(shí)際跟蹤效果,從多目標(biāo)行人數(shù)據(jù)集MOT17上選取視頻序列進(jìn)行跟蹤結(jié)果的可視化,具體對(duì)比結(jié)果如圖9所示。其中第一、二行分別是僅將CNN、Transformer作為主干網(wǎng)絡(luò)的跟蹤結(jié)果,第三行是CTMOT算法的跟蹤結(jié)果。從圖中可以看出在目標(biāo)經(jīng)過(guò)遮擋再出現(xiàn)時(shí),本文算法依然能夠獲得高質(zhì)量的跟蹤結(jié)果,而僅將CNN或Transformer作為主干網(wǎng)絡(luò)時(shí)則容易造成目標(biāo)ID切換或丟失目標(biāo)。

圖9 不同主干網(wǎng)絡(luò)下跟蹤效果可視化Fig.9 Visualization of tracking effect under different backbone network
具體來(lái)看,在第1行視頻序列中,CNN因其強(qiáng)大的局部特征提取能力,可以持續(xù)檢測(cè)到被部分遮擋的目標(biāo)11。但由于無(wú)法對(duì)圖像的全局進(jìn)行建模,雖然檢測(cè)到了第250幀中被遮擋的目標(biāo)05,但此時(shí)目標(biāo)ID已發(fā)生了變化;在280幀目標(biāo)再次出現(xiàn)時(shí)同樣發(fā)生了ID切換。
在第2行視頻序列中,Transformer主干網(wǎng)絡(luò)依靠全局上下文信息可以穩(wěn)定維持遮擋再出現(xiàn)的目標(biāo)ID,如220和280幀中的目標(biāo)05;但因?yàn)槿鄙倬植刻卣骷?xì)節(jié),導(dǎo)致其無(wú)法檢測(cè)到被遮擋的目標(biāo),如目標(biāo)11。
在第3行視頻序列中,由于CTMOT算法采用基于CNN-Transformer雙分支并行的混合網(wǎng)絡(luò)作為主干,可以充分融合局部和全局特征,因此能避免目標(biāo)丟失和ID切換的情況,準(zhǔn)確檢測(cè)并跟蹤到所有目標(biāo),進(jìn)一步體現(xiàn)了CTMOT算法的有效性。
CTMOT算法在KITTI和UA-DETRAC數(shù)據(jù)集上的可視化結(jié)果如圖10、圖11所示。由圖可知該算法在同一視覺(jué)場(chǎng)景中的不同類型目標(biāo)以及其他同類目標(biāo)中均取得良好的跟蹤效果。

圖10 同一視覺(jué)場(chǎng)景中不同類型目標(biāo)跟蹤結(jié)果可視化Fig.10 Visualization of tracking results of different types of objects in same visual scene
3.5.4 跟蹤軌跡可視化
本文提出的CTMOT算法在衡量跟蹤軌跡的MT、ML指標(biāo)上同樣取得良好的成績(jī),目標(biāo)運(yùn)動(dòng)軌跡如圖12所示。
本文針對(duì)現(xiàn)有基于CNN或Transformer主干網(wǎng)絡(luò)的多目標(biāo)跟蹤算法提取特征不夠魯棒的問(wèn)題,提出采用基于CNN-Transformer雙分支并行的主干網(wǎng)絡(luò),通過(guò)雙向橋接模塊將提取的局部和全局特征充分融合,從而提升模型特征提取能力,從整體上改善了跟蹤的性能。此外,采用以不同查詢?yōu)檩斎氲膬山M解碼器對(duì)融合后的特征進(jìn)行并行處理,同時(shí)完成目標(biāo)檢測(cè)與關(guān)聯(lián),實(shí)現(xiàn)端到端的跟蹤,提高了跟蹤算法的整體效率。實(shí)驗(yàn)結(jié)果表明,與主流多目標(biāo)跟蹤算法相比,CTMOT算法具有較高的跟蹤準(zhǔn)確度、目標(biāo)識(shí)別率及運(yùn)行速度,并且取得了較低的ID切換次數(shù),展示出巨大的潛力。由于本文設(shè)計(jì)的網(wǎng)絡(luò)在數(shù)據(jù)關(guān)聯(lián)階段僅使用了簡(jiǎn)單的IoU匹配,雖然提高了整體的跟蹤速度,但會(huì)影響關(guān)聯(lián)的準(zhǔn)確性,后續(xù)將對(duì)數(shù)據(jù)關(guān)聯(lián)階段進(jìn)行優(yōu)化,進(jìn)一步提高模型的整體性能。