孫 瑾 杜官明
(南京航空航天大學(xué)民航學(xué)院 南京 211106)
多目標(biāo)跟蹤(Multi-Object Tracking, MOT)一直是計(jì)算機(jī)視覺領(lǐng)域一個(gè)非?;钴S的研究課題,它是很多視覺任務(wù)的基礎(chǔ)工作,例如智能監(jiān)控、視覺導(dǎo)航和運(yùn)動分析等,具有廣闊的應(yīng)用前景。相對于單目標(biāo)跟蹤,多目標(biāo)跟蹤過程中存在著目標(biāo)數(shù)量和類型不確定、目標(biāo)相互干擾和遮擋等復(fù)雜情況,導(dǎo)致跟蹤過程中出現(xiàn)目標(biāo)丟失、目標(biāo)身份(IDentification, ID)頻繁轉(zhuǎn)換等問題。因此多目標(biāo)跟蹤問題也一直是一個(gè)具有挑戰(zhàn)性的課題。
近年來由于目標(biāo)檢測[1,2]技術(shù)的巨大進(jìn)步,基于檢測的多目標(biāo)跟蹤技術(shù)(Tracking By Detection,TBD)取得了很多成果。TBD借助先進(jìn)檢測器獲取每幀目標(biāo)對象,基于對目標(biāo)的位置預(yù)測,通過提取目標(biāo)特征將相鄰幀的同一目標(biāo)關(guān)聯(lián)以實(shí)現(xiàn)對目標(biāo)的持續(xù)追蹤。數(shù)據(jù)關(guān)聯(lián)是其中最重要的環(huán)節(jié),在不同幀目標(biāo)的各種匹配中尋找最佳匹配,該過程可看作是一個(gè)分配問題求最優(yōu)解的過程。隨著目標(biāo)數(shù)增加,計(jì)算復(fù)雜度增加,同時(shí)當(dāng)目標(biāo)被干擾和遮擋時(shí),會出現(xiàn)匹配錯(cuò)誤和跟蹤丟失情況,因此當(dāng)前研究主要集中在數(shù)據(jù)關(guān)聯(lián)算法優(yōu)化上。Zhong等人[3]針對目標(biāo)位置和速度隨時(shí)間變化具有非線性特征,采用粒子濾波通過近似非線性系統(tǒng)后驗(yàn)分布提高數(shù)據(jù)關(guān)聯(lián)魯棒性,但其準(zhǔn)確性依賴于粒子數(shù)目,需要高昂的計(jì)算代價(jià)。Bewley等人[4]使用匈牙利算法,在跟蹤預(yù)測目標(biāo)和檢測目標(biāo)組成的二分圖上逐幀求解最大匹配實(shí)現(xiàn)目標(biāo)關(guān)聯(lián),但最大匹配不唯一,會導(dǎo)致匹配錯(cuò)誤;為提高魯棒性,Wu等人[5]引入相關(guān)濾波跟蹤器,并采用分組關(guān)聯(lián):先將檢測目標(biāo)與具有較高濾波響應(yīng)的跟蹤目標(biāo)利用匈牙利算法進(jìn)行關(guān)聯(lián),再與低響應(yīng)跟蹤目標(biāo)關(guān)聯(lián),算法計(jì)算量大;Liu等人[6]基于長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)模塊中強(qiáng)記憶成分進(jìn)行目標(biāo)的分配預(yù)測,解決復(fù)雜情況下的漏檢以提高關(guān)聯(lián)準(zhǔn)確度;為降低逐幀關(guān)聯(lián)中誤差累積造成軌跡漂移,Lenz等人[7]、Schulter等人[8]和Li等人[9]構(gòu)建了最小代價(jià)流的數(shù)據(jù)關(guān)聯(lián)框架,將相鄰幀間目標(biāo)相似性轉(zhuǎn)化為網(wǎng)絡(luò)流費(fèi)用,通過最小費(fèi)用流算法找到最優(yōu)關(guān)聯(lián)。作為多目標(biāo)跟蹤中的關(guān)鍵步驟,數(shù)據(jù)關(guān)聯(lián)引起了廣泛關(guān)注,但現(xiàn)有方法大都基于相鄰幀的局部關(guān)聯(lián),一旦出現(xiàn)遮擋,會出現(xiàn)目標(biāo)丟失或者ID轉(zhuǎn)換。
為有效解決遮擋問題,很多方法采用兩級關(guān)聯(lián)方式,即考慮較短時(shí)間序列內(nèi)目標(biāo)較為穩(wěn)定,依據(jù)目標(biāo)檢測結(jié)果,先在較短視頻序列內(nèi)對目標(biāo)進(jìn)行數(shù)據(jù)關(guān)聯(lián)形成軌跡片段(tracklet),再對軌跡片段進(jìn)一步關(guān)聯(lián),最終形成目標(biāo)完整軌跡[10]。相對于目標(biāo)的完整軌跡,軌跡片段可以認(rèn)為是目標(biāo)的一段初級(low-lever)軌跡,即軌跡片段的生成可以認(rèn)為是初級的數(shù)據(jù)關(guān)聯(lián)。早期主要基于目標(biāo)間的交并比(Intersection Over Union, IOU)[10-12]進(jìn)行關(guān)聯(lián),但當(dāng)目標(biāo)間距離較近或出現(xiàn)遮擋時(shí),IOU方法容易引起關(guān)聯(lián)錯(cuò)誤;Zamir等人[13]考慮相鄰幀的同一目標(biāo)具有相似的外觀特征,提取目標(biāo)外觀信息生成軌跡片段,但外觀特征依然對遮擋敏感;為此,Wen等人[14]在外觀特征基礎(chǔ)上聯(lián)合運(yùn)動信息關(guān)聯(lián)目標(biāo)生成軌跡片段,有效區(qū)分擁擠場景中具有相似外觀的空間接近目標(biāo);Choi[15]基于光流信息提出聚合局部流描述符(Aggregate Local Flow Descriptor, ALFD)特征計(jì)算目標(biāo)間的相似度生成軌跡片段,但ALFD的權(quán)重由目標(biāo)之間的重疊度決定,易受遮擋影響;為克服不同目標(biāo)距離接近時(shí)由于重疊導(dǎo)致的關(guān)聯(lián)錯(cuò)誤,Shen等人[16]利用目標(biāo)IOU和最小成本流提高軌跡片段生成的準(zhǔn)確性;Nahon等人[17]先利用IOU進(jìn)行目標(biāo)關(guān)聯(lián)獲得初始軌跡片段,當(dāng)兩個(gè)軌跡片段出現(xiàn)重疊時(shí)需進(jìn)一步分割,該方法能夠減少目標(biāo)ID轉(zhuǎn)換次數(shù),但當(dāng)目標(biāo)長時(shí)間距離較近或遮擋時(shí)跟蹤準(zhǔn)確性下降;Wu等人[18]構(gòu)建基于點(diǎn)云的軌跡片段生成卷積神經(jīng)網(wǎng)絡(luò)(Point Cloud based Tracklet Convolutional Neural Network, PC-TCNN),利用連續(xù)幀中目標(biāo)時(shí)空一致性特征生成軌跡片段。Dai等人[19]聯(lián)合外觀、時(shí)間和位置信息計(jì)算相鄰幀目標(biāo)的相似度,使用匈牙利算法生成軌跡片段??梢钥闯觯F(xiàn)有軌跡片段生成方法也主要通過有限時(shí)域內(nèi)相鄰目標(biāo)間的相似度匹配實(shí)現(xiàn)。
關(guān)聯(lián)的準(zhǔn)確性直接影響跟蹤的準(zhǔn)確性?,F(xiàn)有方法主要基于時(shí)空一致性,根據(jù)最大匹配度(或最小匹配距離)進(jìn)行關(guān)聯(lián),即根據(jù)時(shí)間順序在相鄰幀選擇匹配度最大的目標(biāo)進(jìn)行關(guān)聯(lián)。但最大匹配未必為準(zhǔn)確匹配,一旦發(fā)生相似目標(biāo)接近或者遮擋時(shí),會產(chǎn)生錯(cuò)誤關(guān)聯(lián),造成跟蹤中斷產(chǎn)生碎片跟蹤,或直接導(dǎo)致跟蹤失敗。為清楚說明,圖1顯示了目標(biāo)a和b的運(yùn)動軌跡。其中,目標(biāo)a在第k幀出現(xiàn),第k+1~第k+4幀被遮擋,第k+5和第k+6幀重新可見,實(shí)心點(diǎn)1,7和8分別表示a在第k幀、第k+5~第k+6幀出現(xiàn)的位置,紅色虛線表示a的軌跡;目標(biāo)b在第k+1~第k+5幀出現(xiàn)的位置由實(shí)心點(diǎn)2~6表示,目標(biāo)b軌跡如紅色實(shí)線所示。實(shí)心點(diǎn)顏色代表目標(biāo)的特征屬性,顏色相似度表明歸屬于同一目標(biāo)的可能性?,F(xiàn)有方法主要關(guān)注相鄰幀目標(biāo)的成對相似性,因此盡管實(shí)心點(diǎn)1和2分屬不同目標(biāo),但出現(xiàn)在相鄰幀,又具有較高的相似性,故1和2關(guān)聯(lián)后產(chǎn)生了錯(cuò)誤的軌跡,如藍(lán)色實(shí)線所示。當(dāng)目標(biāo)a在第k+5幀重新出現(xiàn)時(shí),則作為新目標(biāo)進(jìn)行標(biāo)記和跟蹤,形成碎片軌跡,如黑色實(shí)線所示。

圖1 局部和全局?jǐn)?shù)據(jù)關(guān)聯(lián)說明
因此,遮擋情況下,現(xiàn)有局部關(guān)聯(lián)方法很容易造成目標(biāo)丟失和目標(biāo)ID轉(zhuǎn)換。為實(shí)現(xiàn)魯棒跟蹤,本文提出基于次模優(yōu)化的軌跡片段生成方法。首先,將目標(biāo)關(guān)聯(lián)轉(zhuǎn)化為運(yùn)籌學(xué)中的設(shè)施選址問題(Facility Location Problem, FLP);其次,采用互補(bǔ)特征,并融合運(yùn)動信息提高目標(biāo)匹配準(zhǔn)確度;最后,引入次模理論,根據(jù)次模函數(shù)性質(zhì),通過具有約束的次模最大化算法在視頻片段全局內(nèi)選擇目標(biāo)實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)。具有約束的次模最大化算法在有近似保證的前提下可以達(dá)到近似最優(yōu)的性能,因而所提算法可以有效提高跟蹤準(zhǔn)確性。同時(shí),通過全局間的關(guān)聯(lián)可以應(yīng)對各種干擾和遮擋情況,提高跟蹤魯棒性。
設(shè)施選址問題是運(yùn)籌學(xué)中優(yōu)化組合領(lǐng)域一類重要的問題,在確定選址對象、選址目標(biāo)數(shù)、成本函數(shù)以及存在的約束條件前提下,以總成本最低或總服務(wù)最優(yōu)或社會效益最大化為總目標(biāo)確定設(shè)施數(shù)量、位置等。設(shè)施選址問題模型為
其中,i∈C,代表客戶集合C中任意客戶,j∈F,代表設(shè)施集合F中為客戶提供服務(wù)的設(shè)施;每個(gè)設(shè)施j對應(yīng)一個(gè)非負(fù)的開放費(fèi)用fj;設(shè)施j為客戶i服務(wù)產(chǎn)生的利潤為cij;xij表示設(shè)施j是否為客戶i提供服務(wù),根據(jù)約束條件式(5),xij∈{0,1},xij=1表示設(shè)施j為客戶i提供服務(wù),否則xij=0;yj∈{0,1},yj=1表示開放設(shè)施j,否則yj=0; z為目標(biāo)函數(shù),表示獲得的總收益;q為開設(shè)的最大設(shè)施數(shù)量。設(shè)置選址問題是在有限設(shè)施集合中選擇開放哪些設(shè)施使得開啟這些設(shè)施的成本費(fèi)用和對客戶服務(wù)產(chǎn)生的利潤總和達(dá)到最大[20,21]。約束條件式(2):保證每個(gè)客戶都能被服務(wù);約束條件式(3):xij≤ yj保證只有開放的設(shè)施才能為客戶提供服務(wù)。約束條件式(4)將最多開放的設(shè)施數(shù)量限制為q。設(shè)施選址問題可以看作是在設(shè)施集合中選擇一個(gè)最優(yōu)子集,將客戶分配到每個(gè)設(shè)施,使設(shè)施開放成本和為客戶服務(wù)獲得的利潤總和最大。設(shè)施選址問題是一個(gè)經(jīng)典的NP-難問題,近似算法是解決NP-難問題的重要方法之一。很多學(xué)者已經(jīng)證明設(shè)施選址問題中總利潤函數(shù),即式(1)滿足次模性[22,23],利用次模最大化可以獲得近似解。
次模性(submodularity)又稱子模性、亞模性等,是集合函數(shù)的一個(gè)屬性。對于有限集合V,A?B?V,元素a∈V B,對于集合函數(shù)H: 2V→R,如果滿足
則函數(shù)H滿足次模性,具有邊際效益遞減(diminishing returns)性質(zhì)[24]。
根據(jù)次模函數(shù)性質(zhì)[25],當(dāng)函數(shù)滿足次模性和單調(diào)性,且在定義域上值域非負(fù)時(shí),與最優(yōu)解相比,使用貪婪算法可獲得至少(1-1/e)≈63%的近似解。文獻(xiàn)[26]通過在各種大規(guī)?,F(xiàn)實(shí)世界數(shù)據(jù)集和實(shí)例上進(jìn)一步證明貪婪算法得到的近似解其近似比α(Approximation Ratio, AR)幾乎總是超過85%,并且經(jīng)常超過95%,即近似解Sapp相對于最優(yōu)解Sopt滿足:α·Sopt≤ Sapp≤Sopt。因此,有效解決了設(shè)施選址這類NP-難問題并可達(dá)到近似最優(yōu)的性能。
本文將視頻片段第1幀檢測目標(biāo)作為初始目標(biāo),視為設(shè)施選址問題中的客戶集合;其余幀的檢測目標(biāo)作為候選集合,視為設(shè)施選址問題中設(shè)施集合。初始目標(biāo)與其余幀檢測目標(biāo)之間的相似度作為設(shè)施滿足客戶需求所獲得利潤,軌跡片段的生成可以看作對每個(gè)初始目標(biāo)(客戶),在候選集合(設(shè)施集合)中選擇與初始目標(biāo)相似的目標(biāo),即選擇設(shè)施以滿足客戶需求獲得最大利潤。因此,軌跡片段生成問題轉(zhuǎn)化為設(shè)施選址問題,即為每個(gè)初始目標(biāo)在候選集合中根據(jù)相似性選擇最優(yōu)子集,該問題可以通過次模最大化函數(shù)來解決[22,23]。因此本文利用次模優(yōu)化實(shí)現(xiàn)目標(biāo)關(guān)聯(lián)生成軌跡片段,一方面利用次模函數(shù)性質(zhì),使用貪婪算法得到接近最優(yōu)解的近似解,保證關(guān)聯(lián)準(zhǔn)確度,另一方面,突破時(shí)域相鄰目標(biāo)間的局部關(guān)聯(lián)限制,在候選集合全局范圍內(nèi)實(shí)現(xiàn)目標(biāo)關(guān)聯(lián),有效解決遮擋問題。
將視頻V分割成L個(gè)視頻片段,即V={V1,V2, ···, Vi, ···, VL},每個(gè)視頻片段幀數(shù)為K。以第m個(gè)視頻片段為例,構(gòu)造圖G=(Dm, Em)說明軌跡片段的生成過程,如圖2所示,Dm為第m個(gè)視頻片段檢測出的目標(biāo)集合,目標(biāo)間連線e∈Em代表目標(biāo)間的關(guān)系,本文選擇目標(biāo)相似度進(jìn)行關(guān)系度量,同一幀目標(biāo)間不進(jìn)行關(guān)聯(lián),則Dm表示為

圖2 軌跡片段生成過程示意圖
軌跡片段生成就是根據(jù)初始目標(biāo)在候選集合選擇相似度最優(yōu)子集,即將Rm根據(jù)與初始目標(biāo)相似度劃分為不同子集。以相似度作為設(shè)施滿足客戶需求所獲得的利潤,軌跡片段生成問題轉(zhuǎn)化為設(shè)施選址問題,根據(jù)式(1)-式(6),本文將設(shè)施選址問題應(yīng)用于軌跡片段生成
其中,Rm目標(biāo)總數(shù)為N; xij∈{0,1},若Rm中所選目標(biāo)j屬于初始目標(biāo)i的軌跡片段,xij=1,否則xij=0;sij是初始目標(biāo)i與候選集合中目標(biāo)j之間的相似性;開放設(shè)施j的成本?j設(shè)為固定值γ,本文γ=0。約束條件式(10) 保證視頻片段中所有目標(biāo)都能被分配到對應(yīng)軌跡片段中,即屬于某個(gè)子集;約束條件式(11)保證每個(gè)軌跡片段長度不長于視頻幀數(shù)K,即保證至多有K個(gè)檢測目標(biāo)組成一個(gè)軌跡片段;約束條件式(12)保證每個(gè)視頻幀最多只有1個(gè)檢測目標(biāo)被選入當(dāng)前軌跡片段,即同一幀中不可能有兩個(gè)目標(biāo)同屬一個(gè)軌跡片段。利潤函數(shù)z滿足次模性[22,23]。
根據(jù)式(9)進(jìn)行目標(biāo)關(guān)聯(lián),首先要計(jì)算目標(biāo)相似度。跟蹤過程中目標(biāo)姿態(tài)、尺度,環(huán)境光照等會發(fā)生變化,單一特征表征目標(biāo)能力有限。本文通過實(shí)驗(yàn)發(fā)現(xiàn)方向梯度直方圖(Histogram of Oriented Gradient, HOG)與顏色名(Color Name, CN)特征具有很好的互補(bǔ)性:HOG對光照變化魯棒,但對目標(biāo)形變敏感,顏色特征易受光照影響,但在目標(biāo)形變下較為穩(wěn)定。因此本文選取CN和HOG特征進(jìn)行目標(biāo)表征。
顏色、形狀相似目標(biāo)間會產(chǎn)生互相干擾,如圖3(a1)TUD-Stadtmitte數(shù)據(jù)集第50幀目標(biāo)4與圖3(a2)第52幀目標(biāo)匹配時(shí),與第52幀最左邊目標(biāo)(實(shí)際對應(yīng)第50幀目標(biāo)6)相似度(0.972)高于與第52幀最右邊目標(biāo)(實(shí)際對應(yīng)第50幀目標(biāo)4)相似度(0.968),使第50幀目標(biāo)4與第52幀最左邊目標(biāo)發(fā)生錯(cuò)誤關(guān)聯(lián)??紤]目標(biāo)在視頻片段(本文設(shè)為10幀)所屬時(shí)間內(nèi)運(yùn)動范圍有限,若兩個(gè)目標(biāo)距離較遠(yuǎn),分屬不同目標(biāo)的可能性較大,因此本文利用運(yùn)動信息,改造Sigmoid函數(shù)設(shè)計(jì)權(quán)重系數(shù)λ提高匹配準(zhǔn)確度,λ隨著目標(biāo)間距離增大而降低,示意圖如圖4,則目標(biāo)相似性度量sij表示為

圖3 權(quán)重系數(shù)λ加入前后跟蹤結(jié)果對比

圖4 相似度權(quán)重系數(shù)λ
其中,w為每個(gè)初始目標(biāo)檢測框?qū)挾?,由檢測算法給出;x代表兩個(gè)目標(biāo)間距離,通過計(jì)算目標(biāo)檢測框中心距離獲得;分別代表初始目標(biāo)集第i個(gè)目標(biāo)和候選目標(biāo)集第n幀第j個(gè)目標(biāo)的CN和HOG特征相似度。圖3(b1)和圖3(b2)顯示了加入權(quán)重系數(shù)后可以有效避免相似目標(biāo)干擾下的錯(cuò)誤關(guān)聯(lián)。
本文將軌跡片段生成問題轉(zhuǎn)化為設(shè)施選址問題,設(shè)施選址問題是一個(gè)NP-難問題,但滿足次模性。根據(jù)第2節(jié)所述,采用貪婪算法可以有效解決設(shè)施選址這類NP-難問題并能獲得接近最優(yōu)解的近似解。因此本文利用次模優(yōu)化將軌跡片段生成過程進(jìn)一步轉(zhuǎn)化為
其中,sij是初始目標(biāo)(客戶)i與候選集合中目標(biāo)j(設(shè)施)之間的相似性,開放設(shè)施j的成本?j為固定值γ,本文γ=0。NA代表選擇候選目標(biāo)的最大數(shù)量(開放設(shè)施的最大數(shù)量),K是視頻片段幀數(shù),N是全部候選目標(biāo)數(shù)量。根據(jù)次模函數(shù)性質(zhì),采用貪婪算法,對每一個(gè)初始目標(biāo),在候選目標(biāo)集合中選擇與其具有最大相似度的目標(biāo)構(gòu)成子集A,該子集中的目標(biāo)組成對應(yīng)初始目標(biāo)的軌跡片段。
為清楚描述利用次模優(yōu)化生成軌跡片段的過程,選取TUD-Stadtmitte數(shù)據(jù)集第17~32幀含遮擋情況的視頻片段進(jìn)行說明,如圖5所示。提取視頻片段第1幀目標(biāo)作為初始目標(biāo)集Sm,其余視頻幀目標(biāo)組成候選目標(biāo)集Rm,紅色實(shí)心點(diǎn)代表Rm中各個(gè)目標(biāo)。根據(jù)式(14)計(jì)算每個(gè)初始目標(biāo)與候選目標(biāo)的相似度,選取相似度最大的目標(biāo)。以17幀初始目標(biāo)集第2個(gè)目標(biāo)為例,與其相似度最大的是第18幀目標(biāo)2,故首先選取,此時(shí)根據(jù)約束條件式(12),即1個(gè)軌跡片段在同一幀中最多選取1個(gè)目標(biāo),故將第18幀其他目標(biāo)從Rm剔出,后續(xù)只在19~32幀中選擇;第2次計(jì)算發(fā)現(xiàn)與第19幀目標(biāo)2相似度最大,則選擇歸入當(dāng)前軌跡片段中,同理將第19幀其他目標(biāo)從Rm剔出。以此類推,后續(xù)依次選擇第32幀目標(biāo)2,第20幀目標(biāo)2。由于遮擋,初始目標(biāo)2與第22~31幀任意目標(biāo)相似度均小于閾值α,故在第22~31幀沒有獲得匹配目標(biāo),獲得的匹配對象是,圖5中帶陰影紅色點(diǎn)所示。最后依據(jù)目標(biāo)所在幀的時(shí)間序列獲得初始目標(biāo)的軌跡片段為?,F(xiàn)有方法在目標(biāo)遮擋后受局部相鄰幀關(guān)聯(lián)的限制,在第32幀目標(biāo)再出現(xiàn)時(shí)可能會作為新目標(biāo)分配新的ID。為此很多方法,例如DeepSORT[27]需要設(shè)定額外的步驟和參數(shù)處理遮擋問題。本文方法則基于次模理論通過候選目標(biāo)集中的全局關(guān)聯(lián)直接克服遮擋問題。
上述過程說明了視頻片段中一個(gè)初始目標(biāo)的軌跡片段生成,從候選目標(biāo)集合中刪除該軌跡片段所包含目標(biāo),再對其他初始目標(biāo)依次做相應(yīng)處理獲得對應(yīng)軌跡片段。值得注意的是,視頻片段初始目標(biāo)集合匹配完成后,候選集合中可能還有未匹配目標(biāo),代表視頻片段中間幀新出現(xiàn)的目標(biāo),此時(shí)以這些新目標(biāo)作為初始目標(biāo)依次進(jìn)行匹配關(guān)聯(lián)。最終生成視頻片段Vm的軌跡片段集合Tm={,,...},其中表示第m個(gè)視頻片段Vm中的第j個(gè)軌跡片段。整個(gè)過程如算法1所示。
為驗(yàn)證本文算法的跟蹤效果,首先在多個(gè)公開數(shù)據(jù)集上與常用軌跡片段生成算法進(jìn)行定性比較,然后基于多目標(biāo)跟蹤挑戰(zhàn)賽(Multiple Object Tracking Challenge, MOT Challenge)評價(jià)指標(biāo)[28]進(jìn)行定量評估。
本文選取公開數(shù)據(jù)集MOT17,PETS09-S2L1和TUD進(jìn)行實(shí)驗(yàn)。 MOT17由7個(gè)訓(xùn)練集和7個(gè)測試集組成,包含夜間、高密度行人、快速運(yùn)動場景圖像序列,每個(gè)序列分別使用尺度相關(guān)池化(Scale Dependent Pool, SDP)、可變形組件模型(Deformable Part Model, DPM)和快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-based CNN, Faster-RCNN)獲得目標(biāo)檢測結(jié)果;PETS09是行人交通數(shù)據(jù)集,包括不同場景下S0,S1,S2,S3 4個(gè)子集,本文選用常用于行人跟蹤的PETS09-S2L1進(jìn)行實(shí)驗(yàn);TUD主要用于擁擠場景下的行人多目標(biāo)檢測和跟蹤,其中TUDStadtmitte和TUD-Crossing是低視角下拍攝的繁忙步行街場景,包括頻繁的遮擋情況。
為驗(yàn)證算法在遮擋情況下的跟蹤效果,在上述3個(gè)基準(zhǔn)數(shù)據(jù)集分別選擇含遮擋情況的3個(gè)視頻序列進(jìn)行實(shí)驗(yàn)。最小代價(jià)流是目前軌跡片段生成的常用方法,與本文方法的對比實(shí)驗(yàn)結(jié)果如圖6-圖8所示。最小代價(jià)流方法在遮擋情況下出現(xiàn)了目標(biāo)ID轉(zhuǎn)換和丟失情況:圖6(a2) MOT17數(shù)據(jù)集第6幀目標(biāo)13丟失;圖7(a1) TUD-Crossing數(shù)據(jù)集第40幀目標(biāo)4被遮擋后在圖7(a3)所示第50幀重新出現(xiàn)后被認(rèn)定為新目標(biāo)12,發(fā)生目標(biāo)ID轉(zhuǎn)換;圖8(a1) PETS09-S2L1數(shù)據(jù)集第51幀目標(biāo)2在圖8(a2)所示第54幀被遮擋,圖8(a3)第61幀重新出現(xiàn)后被認(rèn)定為新目標(biāo)8,目標(biāo)ID發(fā)生轉(zhuǎn)換。相比較,本文方法在上述情況下保持目標(biāo)ID 不變,實(shí)現(xiàn)魯棒跟蹤。

算法1 基于次模優(yōu)化的軌跡片段生成

圖6 MOT17-02數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對比

圖7 TUD-Crossing數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對比

圖8 PETS09-S2L1數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對比
軌跡片段作為初級軌跡,直接關(guān)系到多目標(biāo)跟蹤完整軌跡的準(zhǔn)確性。本文將軌跡片段進(jìn)一步關(guān)聯(lián)成完整軌跡,利用MOT Challange跟蹤評價(jià)指標(biāo)對算法性能進(jìn)行定量評估。其中包括算法跟蹤準(zhǔn)確性(Multiple Object Tracking Accuracy, MOTA)的評價(jià);算法的關(guān)聯(lián)性能IDF1綜合考慮目標(biāo)ID的準(zhǔn)確率和召回率;算法跟蹤精度(Multiple Object Tracking Precision, MOTP)評估;跟蹤目標(biāo)ID轉(zhuǎn)換次數(shù)(IDentity Switches, IDS)計(jì)算;跟蹤過程中各目標(biāo)至少有 80%的視頻幀能被正確跟蹤的軌跡占總軌跡的占比(Mostly Tracked, MT)統(tǒng)計(jì);丟失軌跡的占比(Mostly Lost, ML)統(tǒng)計(jì),其中丟失軌跡為至多有 20%的視頻幀能被正確跟蹤的軌跡。
表1和表2顯示了不同數(shù)據(jù)集上的算法跟蹤性能比較結(jié)果。其中↑表示數(shù)據(jù)越高越好,↓表示數(shù)據(jù)越小越好。跟蹤結(jié)果與檢測器精度直接相關(guān),為公平比較,本文與參與比較的近年來主要的MOT算法全部采用數(shù)據(jù)集提供的檢測結(jié)果進(jìn)行跟蹤性能比較,各個(gè)算法的實(shí)驗(yàn)數(shù)據(jù)由相關(guān)文獻(xiàn)提供。表1 PETS09-S2L1和TUD數(shù)據(jù)集上,目標(biāo)主要為行人,外觀相似,存在頻繁遮擋,對跟蹤器的魯棒性提出了很大的挑戰(zhàn),結(jié)果顯示本文方法均產(chǎn)生最高的MOTA和最低的IDS,說明本文方法可以很好地解決目標(biāo)遮擋導(dǎo)致的ID轉(zhuǎn)換問題,實(shí)現(xiàn)魯棒跟蹤。在表2 MOT17數(shù)據(jù)集中本文方法在MOTA和IDF1兩個(gè)指標(biāo)上超越了大多數(shù)方法,其中兩項(xiàng)指標(biāo)上表現(xiàn)較好的方法都是采用卷積網(wǎng)絡(luò)跟蹤模型,需要優(yōu)化調(diào)整模型參數(shù),與這些方法相比,本文算法對參數(shù)依賴性小,計(jì)算簡單。在上述基準(zhǔn)數(shù)據(jù)集上本文方法IDS指標(biāo)最低或接近最低,實(shí)現(xiàn)了較低的目標(biāo)ID轉(zhuǎn)換次數(shù),同時(shí)有更多的物體被準(zhǔn)確追蹤(高M(jìn)T和低ML)。

表1 PETS09-S2L1和TUD數(shù)據(jù)集跟蹤性能對比

表2 MOT17數(shù)據(jù)集跟蹤性能對比
本文采用兩級關(guān)聯(lián)方式,通過生成軌跡片段構(gòu)建目標(biāo)的完整軌跡實(shí)現(xiàn)多目標(biāo)跟蹤,提出次模優(yōu)化框架下軌跡片段生成方法,在全局范圍內(nèi)利用次模最大化選擇最優(yōu)子集生成軌跡片段。在MOT17,PETS09-S2L1和TUD基準(zhǔn)數(shù)據(jù)集上的定性和定量實(shí)驗(yàn)中,本文方法表現(xiàn)出較好的對干擾和遮擋的處理能力,同時(shí)與現(xiàn)有方法相比,也取得了具有競爭力的跟蹤性能。