李思騰 劉夢(mèng)佳 劉曉陽(yáng)
(天津天獅學(xué)院,天津 301700)
運(yùn)動(dòng)目標(biāo)跟蹤問(wèn)題是計(jì)算機(jī)視覺(jué)領(lǐng)域研究的熱點(diǎn)問(wèn)題,目標(biāo)跟蹤技術(shù)應(yīng)用場(chǎng)景廣泛,其在人機(jī)交互、交通監(jiān)管等領(lǐng)域都有所成就。目標(biāo)跟蹤技術(shù)的難點(diǎn)在于目標(biāo)隨機(jī)的復(fù)雜變化以及背景的干擾。經(jīng)典的目標(biāo)跟蹤技術(shù)可以劃分為生成模型方法和判別模型方法兩大類(lèi),但都存在一些缺陷。為了提高系統(tǒng)的跟蹤性能,提出了孿生網(wǎng)絡(luò)系列的目標(biāo)跟蹤算法[1],巧妙地將孿生網(wǎng)絡(luò)應(yīng)用于目標(biāo)跟蹤領(lǐng)域,使跟蹤速率和準(zhǔn)確性能得到極大提升。在全卷積孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法的加持下,既可以保證一定準(zhǔn)確性和魯棒性,又能保持跟蹤的較高速度。
目標(biāo)跟蹤技術(shù)的流程在一般情況下由運(yùn)動(dòng)模型、特征提取、相似度衡量、更新模型等步驟組成。第一,使用運(yùn)動(dòng)模型預(yù)測(cè)出待跟蹤物體可能出現(xiàn)的區(qū)域,利用此區(qū)域產(chǎn)生候選樣本;第二,提取出候選樣本和待跟蹤物體的特征分別替代,特征提取是目標(biāo)跟蹤算法的關(guān)鍵部分,直接影響算法的準(zhǔn)確率和速率;第三,計(jì)算并衡量出候選樣本的相似度,對(duì)其進(jìn)行打分,最高分?jǐn)?shù)的位置被判斷為預(yù)測(cè)出的目標(biāo)位置。相似度計(jì)算出來(lái)的結(jié)果依賴(lài)上一環(huán)節(jié)所提取到的特征,但不同的相似度衡量方法會(huì)影響目標(biāo)跟蹤的性能;第四,對(duì)目標(biāo)跟蹤模型進(jìn)行更新,在后續(xù)幀中繼續(xù)進(jìn)行跟蹤[2]。
在視頻幀中,計(jì)算的重疊率大于設(shè)置閾值時(shí),證明在本幀上運(yùn)行算法所得的目標(biāo)跟蹤結(jié)果是成功的。設(shè)置的閾值不同時(shí),得到的成功率也不一樣。將閾值設(shè)置為0~1的任意數(shù)值,計(jì)算出其成功率,并將每一個(gè)閾值對(duì)應(yīng)的成功率在圖像上標(biāo)出,用一條曲線(xiàn)將其連接,曲線(xiàn)圖即代表規(guī)定要求下的目標(biāo)跟蹤算法評(píng)估的成功率圖。曲線(xiàn)下的區(qū)域(AUC)面積為可完成目標(biāo)跟蹤算法量化比較的成功率,代表所設(shè)計(jì)算法的魯棒性[3]。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度神經(jīng)網(wǎng)絡(luò)中最受歡迎的網(wǎng)絡(luò)之一,其最大的特點(diǎn)就是涵蓋了卷積運(yùn)算,處理語(yǔ)音、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)表現(xiàn)優(yōu)異,被廣泛使用。孿生神經(jīng)網(wǎng)絡(luò)由卷積神經(jīng)網(wǎng)絡(luò)變化而來(lái),是一種具有特殊結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)。在單樣本學(xué)習(xí)中,人們經(jīng)常會(huì)用孿生神經(jīng)網(wǎng)絡(luò)作為相似度度量的方法。與一般的卷積神經(jīng)網(wǎng)絡(luò)相比,孿生神經(jīng)網(wǎng)絡(luò)與其結(jié)構(gòu)類(lèi)似,但含有兩個(gè)分支,兩個(gè)分支網(wǎng)絡(luò)結(jié)構(gòu)相同且共享網(wǎng)絡(luò)參數(shù)[4]。在進(jìn)行機(jī)器學(xué)習(xí)的任務(wù)時(shí),會(huì)碰到要分類(lèi)的數(shù)據(jù)集中類(lèi)別很多,但同類(lèi)的數(shù)量又很少的情況,此時(shí)使用其他網(wǎng)絡(luò)進(jìn)行分類(lèi)時(shí)并不準(zhǔn)確,而孿生神經(jīng)網(wǎng)絡(luò)較好地解決了此類(lèi)問(wèn)題。孿生神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于人臉識(shí)別和圖像檢測(cè)等機(jī)器視覺(jué)領(lǐng)域。
基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法(SiamBAN)原理是通過(guò)計(jì)算待跟蹤目標(biāo)和候選圖像的相似度,并進(jìn)行衡量,從而實(shí)現(xiàn)目標(biāo)跟蹤的任務(wù)。SiamBAN目標(biāo)跟蹤算法的網(wǎng)絡(luò)根據(jù)功能不同,可以將網(wǎng)絡(luò)分為3個(gè)模塊,即數(shù)據(jù)輸入、特征提取網(wǎng)絡(luò)和相似度衡量。數(shù)據(jù)輸入部分是指將待跟蹤目標(biāo)圖像和候選圖像進(jìn)行預(yù)處理;兩者分別輸入各自特征提取網(wǎng)絡(luò),兩個(gè)特征提取網(wǎng)絡(luò)參數(shù)共享,分別提取出兩者的特征圖;傳輸至相似度衡量部分,度量?jī)烧叩南嗨贫龋敵鱿嗨贫确謹(jǐn)?shù)圖,在相似度分?jǐn)?shù)圖中,分?jǐn)?shù)最高的區(qū)域就是網(wǎng)絡(luò)預(yù)測(cè)的目標(biāo)位置[5]。
在訓(xùn)練網(wǎng)絡(luò)時(shí),需要輸入待跟蹤目標(biāo)圖像與候選圖像成對(duì)出現(xiàn)的數(shù)據(jù)集。由于原始圖像對(duì)一般不能滿(mǎn)足網(wǎng)絡(luò)的輸入要求,因此必須對(duì)輸入的原始圖像完成邊界填充和尺寸縮放等手段,從而進(jìn)行預(yù)處理,生成訓(xùn)練網(wǎng)絡(luò)時(shí)輸入的待跟蹤目標(biāo)圖像與候選圖像。網(wǎng)絡(luò)輸入的目標(biāo)圖像和候選圖像具有不同的尺寸要求。在用原始圖像生成目標(biāo)圖像時(shí),規(guī)定生成結(jié)果的尺寸大小為M2=127 mm×127 mm。原始圖像上目標(biāo)的標(biāo)注框會(huì)直接影響目標(biāo)圖像的原始尺寸,后者直接由前者轉(zhuǎn)化而來(lái)。在訓(xùn)練時(shí),數(shù)據(jù)集中原始圖像標(biāo)注框不符合SiamBAN網(wǎng)絡(luò)的要求,需要對(duì)原始圖像的邊界進(jìn)行RGB填充,進(jìn)行縮放處理。設(shè)(w,h)表示原始圖像中目標(biāo)的標(biāo)注框尺寸大小,進(jìn)行RGB邊界填充處理后生成的圖像尺寸可以由(w+2pz,h+2pz)表示。平均維度的一半為:
式中:pz——RGB邊界填充的大小參數(shù)。
pz為原始圖像標(biāo)注框長(zhǎng)和寬進(jìn)行填充處理生成的圖像尺寸大小,不能滿(mǎn)足網(wǎng)絡(luò)輸入的要求,需要引入函數(shù)S對(duì)圖像進(jìn)行縮放,生成尺寸為127 mm×127 mm的目標(biāo)圖像。
網(wǎng)絡(luò)輸入的另一個(gè)圖像,即候選圖像的尺寸大小為W2=255 mm×255 mm。候選圖像的生成步驟與目標(biāo)圖像的生成步驟相似,兩者的目標(biāo)中心位置相同,不同點(diǎn)在于兩者邊界的填充大小不一樣,且尺寸也不一樣。為減少算法的計(jì)算量,候選圖像可以直接由目標(biāo)圖像生成。原始圖像標(biāo)注框進(jìn)行RGB邊界填充之后且未進(jìn)行縮放的目標(biāo)圖像尺寸可由(w+2pz,h+2pz)表示,設(shè)參數(shù)px為生成候選圖像對(duì)標(biāo)注框進(jìn)行填充的大小。
候選圖像縮放前的圖像尺寸可以表示為(wz+px,hz+px),此時(shí)尺寸大小并不能滿(mǎn)足網(wǎng)絡(luò)輸入的要求,需要引入函數(shù)c對(duì)該圖像進(jìn)行縮放,生成尺寸為255 mm×255 mm的候選圖像。預(yù)處理得到的候選圖像X的尺寸大小為:
式中:(wz,hz)——由原始圖像標(biāo)注框進(jìn)行RGB邊界填充生成且未進(jìn)行縮放的目標(biāo)圖像的尺寸;c——縮放運(yùn)算。
SiamBAN目標(biāo)跟蹤算法的特征提取部分的網(wǎng)絡(luò)結(jié)構(gòu)由AlexNet網(wǎng)絡(luò)模型改進(jìn)而來(lái),與經(jīng)典AlexNet網(wǎng)絡(luò)模型的不同之處在于SiamBAN目標(biāo)跟蹤算法所用的網(wǎng)絡(luò)并沒(méi)有引入填充。網(wǎng)絡(luò)總體表示的步幅數(shù)為8,首先是輸入層,尺寸大小為255 mm×255 mm的候選圖像和尺寸大小為127 mm×127 mm的目標(biāo)圖像各自輸入對(duì)應(yīng)的分支,且此層的通道數(shù)為3。輸入層之后有5個(gè)卷積層,為降低計(jì)算成本并緩解網(wǎng)絡(luò)的過(guò)擬合現(xiàn)象,其中的Conv1和Conv2之后都使用了池化層,其使用的是最大池化的計(jì)算形式。為使網(wǎng)絡(luò)加入非線(xiàn)性因素,網(wǎng)絡(luò)中Convl、Conv2、Conv3、Conv4中都使用了修正線(xiàn)性單元,只有最后一層不具有。此網(wǎng)絡(luò)與經(jīng)典的AlexNet模型最大的不同點(diǎn)在于,其刪去了最后的全連接層,直接將Conv5輸出的特征圖作為網(wǎng)絡(luò)最終提取的特征。訓(xùn)練時(shí),將BN層插入SiamBAN目標(biāo)跟蹤網(wǎng)絡(luò)中每一個(gè)卷積層后,同時(shí)刪去了局部相應(yīng)歸一化層。此類(lèi)網(wǎng)絡(luò)在圖像處理中使用比較廣泛,但在模型的學(xué)習(xí)時(shí)采用了標(biāo)準(zhǔn)卷積結(jié)構(gòu),并未使用到分組卷積。
SiamBAN特征提取網(wǎng)絡(luò)的結(jié)構(gòu)如表1所示。

表1 SiamBAN特征提取網(wǎng)絡(luò)的結(jié)構(gòu)
尺寸大小為255 mm×255 mm的候選圖像和尺寸大小為127 mm×127 mm的目標(biāo)圖像各自輸入對(duì)應(yīng)的分支,經(jīng)過(guò)無(wú)填充的AlexNet網(wǎng)絡(luò)模型之后,提取到的特征圖通道數(shù)為256,特征圖分別為6 mm×6 mm和22 mm×22 mm。
使用完全卷積的優(yōu)勢(shì)是不需要輸入與目標(biāo)圖像尺寸大小一致的候選圖像,利用卷積的性質(zhì)可以輸入尺寸更大的搜索圖像。利用完全卷積時(shí),網(wǎng)絡(luò)會(huì)將輸入的視頻幀分成多個(gè)密集的與目標(biāo)圖像尺寸大小一致的子窗口,且度量每個(gè)子窗口與目標(biāo)圖像的相似度,輸出整個(gè)視頻幀的相似度響應(yīng)圖。相似度度量的運(yùn)算過(guò)程可以視為滑窗操作,先計(jì)算第一個(gè)子窗口的相似度,計(jì)算完成后進(jìn)行滑窗平移,計(jì)算下一個(gè)子窗口的相似度,依次進(jìn)行計(jì)算,直到整個(gè)視頻幀的相似度都計(jì)算完畢,輸出一個(gè)具有一定尺寸的相似度響應(yīng)圖。使用網(wǎng)絡(luò)進(jìn)行目標(biāo)跟蹤時(shí),以上一幀圖像中跟蹤到的目標(biāo)為中心,使用相似分?jǐn)?shù)圖預(yù)測(cè)本幀的目標(biāo)位置,即相似分?jǐn)?shù)圖中分?jǐn)?shù)最高的位置就是在本幀中預(yù)測(cè)的目標(biāo)位置。此位置與目標(biāo)的先前位置之間的距離與網(wǎng)絡(luò)設(shè)置的步長(zhǎng)相乘,就是目標(biāo)在視頻序列中移動(dòng)的位移。
模型訓(xùn)練使用ILSVRC2015_VID。ILSVRC2015數(shù)據(jù)集含有的snippets超過(guò)5 000個(gè),專(zhuān)門(mén)用作訓(xùn)練數(shù)據(jù)的有3 862個(gè),專(zhuān)門(mén)用作驗(yàn)證數(shù)據(jù)的有555個(gè),專(zhuān)門(mén)用作測(cè)試數(shù)據(jù)的有937個(gè)。在每個(gè)snippet中,可能會(huì)含有56~458個(gè)幀圖像。
對(duì)網(wǎng)絡(luò)訓(xùn)練的步長(zhǎng)為332 500,一共遍歷了50遍完整的數(shù)據(jù)集,使用尺寸為8的mini-batches估計(jì)每次迭代的梯度,且在每一輪訓(xùn)練周期內(nèi),學(xué)習(xí)率以幾何形式下降。訓(xùn)練所用的實(shí)驗(yàn)環(huán)境如表2所示。

表2 實(shí)驗(yàn)環(huán)境類(lèi)別配置
SiamBAN目標(biāo)跟蹤網(wǎng)絡(luò)使用ILSVRC2015數(shù)據(jù)集訓(xùn)練完成后,便可對(duì)模型測(cè)試,輸入一個(gè)訓(xùn)練數(shù)據(jù)集外的視頻,展現(xiàn)出跟蹤結(jié)果。設(shè)計(jì)試驗(yàn)探究復(fù)雜因素下的實(shí)際跟蹤情況,對(duì)跟蹤器在面臨目標(biāo)快速移動(dòng)、目標(biāo)遮擋、目標(biāo)出視野和目標(biāo)變形等狀況下的實(shí)際變現(xiàn)進(jìn)行對(duì)比展示。滑雪SiamBAN模型測(cè)試結(jié)果如圖1所示。

圖1 滑雪SiamBAN模型測(cè)試結(jié)果
圖片中的視頻序列都用矩形框標(biāo)注出了算法預(yù)測(cè)的目標(biāo)位置和視頻標(biāo)注的目標(biāo)真實(shí)位置,其中矩形框代表SiamBAN目標(biāo)跟蹤算法預(yù)測(cè)的目標(biāo)位置。圖1(a)中,運(yùn)動(dòng)員在雪地上平穩(wěn)地滑雪,跟蹤器可以鎖定目標(biāo)位置,精確地對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行了跟蹤;圖1(b)中,滑雪手動(dòng)作幅度、目標(biāo)背景和拍攝角度都發(fā)生劇烈變化,故跟蹤器也出現(xiàn)跟蹤漂移的現(xiàn)象。
目標(biāo)跟蹤技術(shù)在機(jī)器視覺(jué)領(lǐng)域具有不可替代的地位,近幾年獲得了迅猛發(fā)展,尤其是深度學(xué)習(xí)被引入該領(lǐng)域后,目標(biāo)跟蹤技術(shù)更取得了巨大突破,應(yīng)用也更廣泛。本文通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)運(yùn)動(dòng)目標(biāo)跟蹤加以研究,結(jié)果表明SiamBAN網(wǎng)絡(luò)通常具有較高的準(zhǔn)確率和魯棒性,但如果目標(biāo)變化較大或背景干擾較強(qiáng)時(shí)就會(huì)跟蹤失敗。基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法作為近幾年的新興算法,還有較大的提升和改善空間,其在跟蹤速度、魯棒性以及準(zhǔn)確性方面都具有優(yōu)異的表現(xiàn),未來(lái)使用孿生網(wǎng)絡(luò)研究目標(biāo)跟蹤勢(shì)必成為新趨勢(shì)。