










摘要: 針對(duì)運(yùn)算資源受限條件下難以實(shí)現(xiàn)高精度、 高幀率跟蹤的問(wèn)題, 提出一種基于無(wú)錨的輕量化孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法. 首先使用修改的輕量級(jí)網(wǎng)絡(luò)MobileNetV3作為主干網(wǎng)絡(luò)提取特征, 在保持深度特征表達(dá)能力的同時(shí)減小網(wǎng)絡(luò)的參數(shù)量和計(jì)算量; 然后對(duì)傳統(tǒng)互相關(guān)操作, 提出圖級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊, 通過(guò)豐富特征響應(yīng)圖突出目標(biāo)特征重要信息; 最后在無(wú)錨分類回歸預(yù)測(cè)網(wǎng)絡(luò)中, 采用特征共享方式減少參數(shù)量和計(jì)算量以提升跟蹤速度. 在兩個(gè)主流數(shù)據(jù)集OTB2015和VOT2018上進(jìn)行對(duì)比實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明, 該算法相比于SiamFC跟蹤器有較大的精度優(yōu)勢(shì), 并且在復(fù)雜跟蹤場(chǎng)景下更具魯棒性, 同時(shí)跟蹤幀率可達(dá)175 幀/s.
關(guān)鍵詞: 目標(biāo)跟蹤; 孿生網(wǎng)絡(luò); 輕量級(jí)網(wǎng)絡(luò)MobileNetV3; 互相關(guān)模塊; 無(wú)錨
中圖分類號(hào): TP391文獻(xiàn)標(biāo)志碼: A文章編號(hào): 1671-5489(2023)04-0890-09
Lightweight" Siamese Network Target" Tracking AlgorithmBased on Ananchor Free
DING Guipeng1, TAO Gang1, PANG Chunqiao1, WANG Xiaofeng1, DUAN Guiru2
(1. School of Energy and Power Engineering, Nanjing University of Science and Technology, Nanjing 210094, China;2. Military Representative Office in Jilin Region, Army General Armament Department, Jilin 132000, Jilin Province, China)
Abstract: Aiming at the problem that it was difficult to achieve high-precision and high frame rate tracking under limited computing resources, we proposed a lightweight" siamese network target" tracking algorithm based on ananchor free."" Firstly, the modified lightweight network MobileNetV3 was used as the backbone network to extract features, and reduced parameters and computation of the network "while maintaining deep feature expression capability. Secondly, for traditional cross-correlation operation, we proposed deep cross-correlation module for graph cascading optimization, which highlighted important information of target features through rich feature response graphs. Finally, feature sharing was used" to reduce parameters and computation to improve tracking speed in the anchor classification regression prediction network. Comparative experiments were conducted on two mainstream datasets OTB2015 and VOT2018, the experimental results show that the algorithm has a significant accuracy" advantages compared to" SiamFC tracker, and is more robust in complex tracking scenes. At the same time, the tracking frame rate can reach 175 frames/s.
Keywords: target tracking; siamese network;" lightweight network MobileNetV3; cross-correlation module; anchor free
目標(biāo)跟蹤在智能安防、 自動(dòng)駕駛等領(lǐng)域應(yīng)用廣泛[1]. 近年來(lái), 隨著技術(shù)理論與硬件資源的發(fā)展, 目標(biāo)跟蹤在跟蹤準(zhǔn)確性和魯棒性方面取得了巨大成功, 但由于在實(shí)際應(yīng)用場(chǎng)景中計(jì)算機(jī)硬件運(yùn)算資源通常受限, 視覺(jué)跟蹤在跟蹤速度方面仍存在很大的局限性. 因此, 設(shè)計(jì)一種平衡速度與精度的跟蹤器具有重要意義.
目前, 目標(biāo)跟蹤領(lǐng)域研究的重點(diǎn)大多數(shù)為如何進(jìn)一步提升跟蹤準(zhǔn)確率, 導(dǎo)致跟蹤算法使用的網(wǎng)絡(luò)結(jié)構(gòu)越來(lái)越復(fù)雜, 需要的計(jì)算資源越來(lái)越多. 而目標(biāo)跟蹤應(yīng)用場(chǎng)景是針對(duì)視頻序列, 速度是跟蹤的一個(gè)重要指標(biāo), 不能實(shí)現(xiàn)實(shí)時(shí)跟蹤的算法在目標(biāo)跟蹤領(lǐng)域毫無(wú)意義. 因此, 本文在SiamFC[2]基礎(chǔ)上, 提出一種基于無(wú)錨的輕量級(jí)孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法, 以在計(jì)算資源受限環(huán)境下更好地平衡跟蹤精度與速度. 針對(duì)現(xiàn)有SiamFC網(wǎng)絡(luò)結(jié)構(gòu), 修改輕量級(jí)網(wǎng)絡(luò)MobileNetV3[3]作為主干網(wǎng)絡(luò), 使提取的特征更適合于跟蹤任務(wù), 進(jìn)一步調(diào)整網(wǎng)絡(luò)結(jié)構(gòu). 提出級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊, 豐富特征響應(yīng)圖, 突出目標(biāo)特征重要信息, 強(qiáng)化對(duì)跟蹤有利的特征. 對(duì)于無(wú)錨分類回歸預(yù)測(cè)網(wǎng)絡(luò), 采用特征共享方式減少參數(shù)量和計(jì)算量以提升跟蹤速度.
1 相關(guān)工作
目標(biāo)跟蹤目前主要分為相關(guān)濾波類和深度學(xué)習(xí)類兩大分支. 相關(guān)濾波類跟蹤算法主要采用梯度直方圖特征、 顏色特征等手工特征設(shè)計(jì)跟蹤器, 算法推理時(shí)間快, 以KCF[4]和fDSST[5]等為代表. 但由于手工設(shè)計(jì)的淺層特征較簡(jiǎn)單, 在應(yīng)對(duì)目標(biāo)跟蹤過(guò)程中的復(fù)雜挑戰(zhàn)時(shí), 穩(wěn)定性較差. 由于深度特征具有更強(qiáng)的表達(dá)能力, 因此深度學(xué)習(xí)類跟蹤算法在跟蹤精度方面成果顯著. 但以MDNet[6]為代表的深度網(wǎng)絡(luò)類跟蹤算法的預(yù)訓(xùn)練網(wǎng)絡(luò)異常巨大, 為提升跟蹤精度需使用大量高維特征, 導(dǎo)致跟蹤的幀率只有幾幀, 完全不能滿足實(shí)際應(yīng)用場(chǎng)景. 近年來(lái), 使用深度特征的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法受到廣泛關(guān)注, 其在保持對(duì)首幀框選目標(biāo)精準(zhǔn)跟蹤的同時(shí), 還可以實(shí)現(xiàn)高速穩(wěn)定的跟蹤. 為進(jìn)一步提升孿生網(wǎng)絡(luò)跟蹤算法的跟蹤性能, 基于SiamFC已相繼提出了一些更高效的改進(jìn)算法, 如構(gòu)建訓(xùn)練多個(gè)孿生網(wǎng)絡(luò)分支的MBST[7]和使用ResNet50作為主干網(wǎng)絡(luò)的SiamDW[8]等.
孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法由兩支結(jié)構(gòu)相同權(quán)重共享的神經(jīng)網(wǎng)絡(luò)構(gòu)成, 如圖1所示. 其主要思想是將目標(biāo)跟蹤任務(wù)轉(zhuǎn)化為相似性度量問(wèn)題, 通過(guò)兩個(gè)相同子網(wǎng)絡(luò)分別對(duì)首幀框選的目標(biāo)模板和視頻后序每一幀的搜索區(qū)域進(jìn)行特征提取, 獲得模板特征向量和搜索特征向量. 然后使用相似度量函數(shù)計(jì)算兩路特征向量的相似性程度, 從而確定目標(biāo)在搜索區(qū)域中出現(xiàn)的位置. 孿生網(wǎng)絡(luò)跟蹤原理的數(shù)學(xué)表達(dá)式為
f(Z,X)=φ(Z)*φ(X),(1)其中f(Z,X)表示構(gòu)造的相似性度量函數(shù), Z是視頻序列首幀中框選的目標(biāo)模板圖像, X是視頻序列每幀的搜索區(qū)域圖像, φ(·)表示兩支結(jié)構(gòu)相同權(quán)重共享的神經(jīng)網(wǎng)絡(luò)所提取的特征向量, *表示互相關(guān)運(yùn)算. 則跟蹤過(guò)程為將第一幀中選定的目標(biāo)模板圖像和待跟蹤搜索圖像送入孿生網(wǎng)絡(luò)中, 通過(guò)兩支結(jié)構(gòu)相同權(quán)重共享的主干網(wǎng)絡(luò)可得到兩路特征向量, 然后通過(guò)互相關(guān)運(yùn)算計(jì)算相似程度. 即以模版特征向量作為卷積核對(duì)搜索特征向量進(jìn)行卷積, 得到得分響應(yīng)圖, 特征相應(yīng)得分?jǐn)?shù)值的大小直接反應(yīng)目標(biāo)在該分?jǐn)?shù)位置出現(xiàn)的概率. 分值最高的位置即待跟蹤目標(biāo)在這一幀搜索圖像中的位置, 然后對(duì)特征響應(yīng)圖中得分最高的位置進(jìn)行多尺度變化, 從而在原圖中確定目標(biāo)邊界框.
2 算法設(shè)計(jì)
算法的整體框架如圖2所示. 首先, 使用兩支權(quán)值共享的輕量級(jí)網(wǎng)絡(luò)MobileNetV3構(gòu)建成孿生網(wǎng)絡(luò)分別提取模板圖像和搜索圖像的深度特征; 其次, 提出圖級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊替代傳統(tǒng)互相關(guān)操作, 通過(guò)豐富特征響應(yīng)圖突出目標(biāo)特征重要信息; 最后, 對(duì)于圖級(jí)聯(lián)優(yōu)化深度互相關(guān)模塊輸出的特征響應(yīng)圖, 直接通過(guò)分類回歸網(wǎng)絡(luò)以無(wú)錨方式估計(jì)目標(biāo)預(yù)測(cè)框在搜索圖像中的位置信息.
2.1 輕量級(jí)骨干網(wǎng)絡(luò)MobileNetV3
目前在目標(biāo)跟蹤算法中使用孿生網(wǎng)絡(luò)結(jié)構(gòu)的多采用ResNet50[9]作為主干網(wǎng)絡(luò)提取特征, 可顯著提升目標(biāo)跟蹤的精度, 但也會(huì)使網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜、 增加網(wǎng)絡(luò)的計(jì)算量, 導(dǎo)致目標(biāo)跟蹤算法所需的硬件設(shè)備在計(jì)算資源上要求極高. 因此, 導(dǎo)致在算力較差的設(shè)備上進(jìn)行跟蹤時(shí)受到極大限制, 每幀所需的時(shí)間大幅度提升, 從而無(wú)法達(dá)到實(shí)時(shí)跟蹤的效果. 為降低網(wǎng)絡(luò)的復(fù)雜度而采用較簡(jiǎn)單的AlexNet作為主干網(wǎng)絡(luò)提取特征, 確實(shí)能在速度上大幅度提升, 但由于AlexNet的網(wǎng)絡(luò)層數(shù)較少, 不能提取到更深層的語(yǔ)義信息, 算法的魯棒性較低. 所以綜合考慮算法在現(xiàn)實(shí)設(shè)備算力受限的情況下, 達(dá)到實(shí)時(shí)跟蹤以及較好的跟蹤效果, 本文進(jìn)行了大量的實(shí)驗(yàn)進(jìn)行算法效果對(duì)比, 最終發(fā)現(xiàn)采用MobileNetV3作為主干網(wǎng)絡(luò)可在保持良好跟蹤精度的同時(shí)所需的計(jì)算量最少, 適合于算力匱乏的情況. MobileNetV3是在MobileNetV1[10]和MobileNetV2[11]上進(jìn)行了優(yōu)化, 保存了MobileNetV1經(jīng)典的深度可分離卷積, 并在MobileNetV2的具有線性瓶頸的殘差結(jié)構(gòu)中引入了SE(squeeze-and-excitation)通道注意力模塊, 使網(wǎng)絡(luò)結(jié)構(gòu)更穩(wěn)定. 常用的神經(jīng)網(wǎng)絡(luò)參數(shù)量對(duì)比結(jié)果列于表1.
深度可分離卷積主要由深度卷積和點(diǎn)卷積兩部分構(gòu)成. 深度卷積的計(jì)算過(guò)程如圖3(A)所示, 對(duì)于輸入特征的各通道分別使用卷積核進(jìn)行獨(dú)立的卷積操作, 其中每個(gè)卷積核大小為Dk×Dk×1. 點(diǎn)卷積過(guò)程如圖3(B)所示, 對(duì)于深度卷積輸出的深度特征再進(jìn)行一次卷積操作, 即采用核為1×1的標(biāo)準(zhǔn)卷積調(diào)整特征維度從而獲得一個(gè)新的特征圖.
MobileNetV2中的倒殘差模塊, 可在保證參數(shù)量較小的同時(shí)獲得更豐富的特征信息, 但特征圖不同通道對(duì)不同目標(biāo)的響應(yīng)不均衡, 可能在所有特征通道中僅有少數(shù)通道對(duì)所需關(guān)注的目標(biāo)具有較高的響應(yīng), 此時(shí)網(wǎng)絡(luò)對(duì)不同通道提取的特征賦予相同的權(quán)重會(huì)降低算法的性能. MobileNetV3為解決該問(wèn)題在倒殘差結(jié)構(gòu)中引入了SE通道注意力機(jī)制, 根據(jù)特征的重要程度賦予不同的權(quán)重, 雖然增加了一部分參數(shù)量, 但對(duì)跟蹤的時(shí)間影響不明顯, 極大提高了網(wǎng)絡(luò)對(duì)目標(biāo)關(guān)鍵特征的敏感度.
MobileNetV3網(wǎng)絡(luò)采用的總步長(zhǎng)為16, 其最后的輸出特征包含更多的類別信息, 更適用于對(duì)目標(biāo)類別的區(qū)分, 但對(duì)于本文的跟蹤, 網(wǎng)絡(luò)需要輸出的特征還需要包含足夠多的空間信息, 從而有利于確定待跟蹤目標(biāo)的位置, 因此保留更多的空間信息極為重要. 而網(wǎng)絡(luò)總的步長(zhǎng)會(huì)直接影響特征圖的輸出尺寸及感受野的大小, 所以為保留更多的空間特征信息, 可適當(dāng)減小網(wǎng)絡(luò)步長(zhǎng). 如果網(wǎng)絡(luò)步長(zhǎng)過(guò)小又會(huì)導(dǎo)致特征感受野的增大, 進(jìn)而導(dǎo)致跟蹤目標(biāo)的位置特征丟失明顯, 跟蹤的精度也會(huì)極大降低. 但感受野如果太小目標(biāo)尺寸較大時(shí), 會(huì)導(dǎo)致提取的特征語(yǔ)義不足, 使跟蹤需要更大的計(jì)算負(fù)擔(dān), 極大降低了跟蹤效果. 大量的對(duì)比實(shí)驗(yàn)表明, 在網(wǎng)絡(luò)步長(zhǎng)為8時(shí), 跟蹤的精度和速度等指標(biāo)會(huì)更好, 所以本文最終采用的步長(zhǎng)為8. 為保持較好的跟蹤效果以及網(wǎng)絡(luò)推理速度, 本文在MobileNetV3原網(wǎng)絡(luò)結(jié)構(gòu)上去掉了第5個(gè)stage, 并將第4個(gè)stage中最后一個(gè)卷積操作的步長(zhǎng)改為1, 用于保留更多的深層特征信息, 將第4個(gè)stage最后一層的輸出作為最終的特征圖. 表2列出了本文在MobileNetV3基礎(chǔ)上修改后的網(wǎng)絡(luò)結(jié)構(gòu).
2.2 圖級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊
一般的孿生網(wǎng)絡(luò)[2]目標(biāo)跟蹤器直接采用卷積操作代替互相關(guān)操作得到特征響應(yīng)圖. 因此, 孿生網(wǎng)絡(luò)類目標(biāo)跟蹤器中互相關(guān)操作的本質(zhì)就是標(biāo)準(zhǔn)卷積: 將孿生網(wǎng)絡(luò)模板分支中獲取的特征作為卷積核, 在搜索分支的輸出特征上進(jìn)行卷積, 從而得到特征響應(yīng)圖, 其中特征響應(yīng)圖每個(gè)位置即反應(yīng)該位置的相似性得分. 為簡(jiǎn)化互相關(guān)操作, 目前主流孿生網(wǎng)絡(luò)[8,12-13]采用深度可分離卷積替代互相關(guān)操作, 與原始標(biāo)準(zhǔn)卷積操作相比, 極大減少了計(jì)算量從而提升跟蹤推理速度. 特征圖對(duì)齊對(duì)目標(biāo)跟蹤非常重要, 由SiamRPN++[13]可知, 簡(jiǎn)單使用ResNet等深層網(wǎng)絡(luò)替換AlexNet不可避免地會(huì)引入大量的填充操作, 導(dǎo)致提取的特征缺乏嚴(yán)格的平移不變性. SiamRPN++通過(guò)均勻分布的數(shù)據(jù)增強(qiáng)方式使目標(biāo)在中心點(diǎn)進(jìn)行偏移, 有效緩解網(wǎng)絡(luò)因?yàn)槠茐牧藝?yán)格平移不變性而產(chǎn)生的影響. 因此, 對(duì)于互相關(guān)操作不存在特征對(duì)齊問(wèn)題, 本文提出級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊.
級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊如圖2所示. 為保持特征響應(yīng)圖在互相關(guān)后的空間維度不變, 對(duì)深度可分離卷積DWConv增加填充Padding操作, 在搜索特征圖周?chē)畛浯笮?填充數(shù)據(jù)0. 由于空間維度不變, DWConv操作后的特征響應(yīng)圖與搜索分支特征圖空間尺寸保持一致, 通過(guò)Concat信道級(jí)聯(lián)將DWConv操作后的特征響應(yīng)圖與搜索分支特征圖進(jìn)行特征融合, 再通過(guò)1×1標(biāo)準(zhǔn)卷積Conv將融合后的特征通道數(shù)調(diào)整為與搜索分支特征圖通道數(shù)相同, 以作為下一個(gè)DWConv操作的輸入. 本文級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊可以豐富特征響應(yīng)圖, 有效突出目標(biāo)特征的重要信息.
2.3 無(wú)錨分類回歸預(yù)測(cè)網(wǎng)絡(luò)
分類回歸預(yù)測(cè)網(wǎng)絡(luò)主要分為分類分支和回歸分支兩大部分. 分類分支主要用于區(qū)分圖級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊所輸出的特征響應(yīng)圖中每個(gè)位置的類別, 是目標(biāo)所在的前景還是圖像背景. 而回歸分支主要用于估計(jì)圖級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊所輸出的特征響應(yīng)圖中前景目標(biāo)的預(yù)測(cè)框. 即分類分支主要利用圖級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊所輸出的特征響應(yīng)圖中的豐富信息解碼得到16×16×2大小的分類特征圖. 如果分類特征圖上(w,h)所對(duì)應(yīng)搜索圖像X中的中心點(diǎn)(x,y)落在標(biāo)簽框內(nèi), 則分類特征圖上(w,h)即對(duì)應(yīng)目標(biāo)前景, 否則為圖像背景. 因此分類特征圖中每一位置(w,h,∶)都表示一個(gè)二維向量, 即當(dāng)前幀搜索圖像中對(duì)應(yīng)中心點(diǎn)處判定為前景背景的分?jǐn)?shù). 相似地, 回歸分支將圖級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊所輸出的特征響應(yīng)圖中的位置信息解碼為16×16×4大小的回歸特征圖. 回歸特征圖中每一位置(w,h,∶)都表示一個(gè)四維向量t(w,h)=(l,t,r,b), 即回歸特征圖上(w,h)所對(duì)應(yīng)搜索圖像X中的中心點(diǎn)(x,y)到標(biāo)簽框上、 下、 左、 右邊界的距離. 因此, 回歸特征圖中每一位置(w,h,∶)的計(jì)算公式為l(w,h)=x-x0, t(w,h)=y-y0, r(w,h)=x1-x, b(w,h)=y1-y,(5)其中(x0,y0)和(x1,y1)分別表示標(biāo)簽框的左上角和右下角坐標(biāo), (x,y)表示回歸特征圖上的點(diǎn)(w,h)在搜索圖像X中的中心點(diǎn).
為進(jìn)一步優(yōu)化分類回歸預(yù)測(cè)網(wǎng)絡(luò), 提升跟蹤速度, 本文將分類和回歸兩個(gè)分支的特征進(jìn)行共享, 用兩個(gè)分支分別進(jìn)行目標(biāo)前景、 背景分類和中心點(diǎn)到邊界距離的預(yù)測(cè). 整體損失函數(shù)為L(zhǎng)=λ1Lcls+λ2Lreg,(6)其中: Lcls為交叉熵?fù)p失函數(shù)[14]; Lreg為交并比(IoU)損失[15]; 常數(shù)λ1和λ2為加權(quán)超參數(shù), 在訓(xùn)練期間λ1和λ2都設(shè)置為1.
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)環(huán)境與參數(shù)配置
本文所有實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境配置如下: CPU為Intel(R) Core(TM)i5-6300HQ, 主頻23 GHz, 內(nèi)存8.00 GB; GPU為NVIDIA GeForce GTX1080Ti, 顯存11 GB. 實(shí)驗(yàn)使用數(shù)據(jù)集Got-10K[16]進(jìn)行模型離線訓(xùn)練, 共50個(gè)訓(xùn)練階段, 每階段約10 000組圖片對(duì), 使用MobilenetV3預(yù)訓(xùn)練模型初始化本文跟蹤算法的主干網(wǎng)絡(luò)參數(shù). 訓(xùn)練過(guò)程中動(dòng)量設(shè)為0.9, 采用SGD法進(jìn)行優(yōu)化, 學(xué)習(xí)率由10-2逐步衰減到10-5.
3.2 數(shù)據(jù)集OTB2015基準(zhǔn)實(shí)驗(yàn)結(jié)果
數(shù)據(jù)集OTB2015[17]是目標(biāo)跟蹤領(lǐng)域的一個(gè)經(jīng)典數(shù)據(jù)集, 其包含尺度變化、 運(yùn)動(dòng)模糊、 遮擋等11個(gè)跟蹤挑戰(zhàn)的100組圖像序列. 數(shù)據(jù)集OTB2015使用真實(shí)邊界框中目標(biāo)的位置初始化第一幀, 使用跟蹤準(zhǔn)確率和成功率這兩個(gè)指標(biāo)對(duì)跟蹤算法的性能進(jìn)行量化. 準(zhǔn)確率指在整個(gè)數(shù)據(jù)集上跟蹤算法預(yù)測(cè)的中心位置與標(biāo)簽位置之間的像素誤差小于20的幀數(shù)的比例, 成功率為跟蹤算法預(yù)測(cè)框與標(biāo)簽的交并比大于0.5的幀數(shù)在整個(gè)數(shù)據(jù)集上的比值. 本文采用數(shù)據(jù)集OTB2015進(jìn)行消融實(shí)驗(yàn)和定量定性分析, 驗(yàn)證本文算法的有效性.
3.2.1 消融實(shí)驗(yàn)
為驗(yàn)證本文算法中各結(jié)構(gòu)組件的有效性, 在數(shù)據(jù)集OTB2015上分析各部分對(duì)跟蹤性能的影響. 消融實(shí)驗(yàn)結(jié)果列于表3, 其中SiamFC為基準(zhǔn)算法, 實(shí)驗(yàn)1表示替換基準(zhǔn)算法主干網(wǎng)絡(luò)為MobileNetV3, 實(shí)驗(yàn)2表示在實(shí)驗(yàn)1的基礎(chǔ)上互相關(guān)操作使用本文級(jí)聯(lián)優(yōu)化的互相關(guān)模塊, 實(shí)驗(yàn)3表示在實(shí)驗(yàn)2的基礎(chǔ)上使用基于無(wú)錨的分類回歸預(yù)測(cè)網(wǎng)絡(luò)代替SiamFC直接預(yù)測(cè)方式的總體算法.
由表3可見(jiàn): 實(shí)驗(yàn)1在替換基準(zhǔn)算法主干網(wǎng)絡(luò)為MobileNetV3后, 準(zhǔn)確率和成功率分別提升了5.4%和2.5%; 使用本文級(jí)聯(lián)優(yōu)化的互相關(guān)模塊的實(shí)驗(yàn)2相較于實(shí)驗(yàn)1準(zhǔn)確率和成功率有1.8%和2.3%的增益; 最后在實(shí)驗(yàn)2的基礎(chǔ)上使用基于無(wú)錨的分類回歸預(yù)測(cè)網(wǎng)絡(luò)代替直接預(yù)測(cè)方式的總體算法獲得最佳跟蹤效果.
3.2.2 定量分析實(shí)驗(yàn)
為定量分析驗(yàn)證本文算法的跟蹤性能, 與其他8種常見(jiàn)跟蹤算法進(jìn)行對(duì)比實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果如圖4所示. 由圖4可見(jiàn), 本文算法的準(zhǔn)確率和成功率分別達(dá)到0.869和0.648, 明顯優(yōu)于基準(zhǔn)算法SiamFC, 準(zhǔn)確率和成功率分別提升了12.6%和10.4%. 由于ResNet50的特征提取能力, SiamDWrpn算法取得了更好的跟蹤準(zhǔn)確率和成功率, 但ResNet50作為特征提取的主干網(wǎng)絡(luò), 其模型參數(shù)量較大, 難以在資源受限環(huán)境下實(shí)際應(yīng)用. 同時(shí), 跟蹤速度能達(dá)到175幀/s, 運(yùn)行速度得到極大提升, 在計(jì)算資源優(yōu)先的情況下極具發(fā)展?jié)摿?
3.2.3 定性分析實(shí)驗(yàn)
為更直觀地展示本文算法的有效性, 在數(shù)據(jù)集OTB2015上選取4組視頻序列將跟蹤結(jié)果可視化, 從而定性分析算法性能. 這4組視頻序列的跟蹤難點(diǎn)包含了本文算法試圖解決的問(wèn)題, 將本文算法與SiamFC,SiamRPN,SRDCF,Staple 4種性能先進(jìn)的算法進(jìn)行了比較, 圖5中紅色框、 綠色框、 藍(lán)色框、 青色框、 紫色框、 黃色框分別代表真實(shí)目標(biāo)框、 本文算法、 SiamFC、 SiamRPN、 SRDCF、 Staple. 各算法的非紅色預(yù)測(cè)框與紅色的真實(shí)目標(biāo)框重疊反映了各算法的跟蹤性能, 重疊度越高表明效果越好.
由圖5(A)可見(jiàn), 待跟蹤目標(biāo)為機(jī)械臂夾取的開(kāi)發(fā)板, 在視頻中機(jī)械臂快速移動(dòng)目標(biāo)物開(kāi)發(fā)板, 并頻繁與其他物體互相遮擋. 由可視化結(jié)果可見(jiàn), 在第269幀時(shí)由于目標(biāo)物在快速運(yùn)動(dòng), 且背景圖像中出現(xiàn)相似物移動(dòng)過(guò)程中與目標(biāo)相似背景, 青色框的SiamRPN跟蹤器率先出現(xiàn)漂移, 丟失目標(biāo). Staple跟蹤器的黃色框變大重疊率變小, 只有本文算法和SiamFC緊湊地跟蹤目標(biāo). 從269~512幀時(shí), 隨著目標(biāo)發(fā)生平面內(nèi)旋轉(zhuǎn)并伴隨尺度變化, 紫色框的SRDCF跟蹤器越來(lái)越小, 無(wú)法有效跟蹤目標(biāo), SiamFC跟蹤器的重疊率也開(kāi)始變小, 本文算法與標(biāo)簽框仍保持較高的重疊率. 從512~594幀時(shí), 由于目標(biāo)在圖像內(nèi)快速運(yùn)動(dòng)同時(shí)進(jìn)行高速旋轉(zhuǎn), 導(dǎo)致目標(biāo)外觀快速變化, SRDCF也徹底跟丟, SiamFC跟蹤器出現(xiàn)跟蹤漂移, 本文算法始終保持對(duì)目標(biāo)較穩(wěn)定的跟蹤.
由圖5(B)可見(jiàn), 待跟蹤目標(biāo)跳水運(yùn)動(dòng)員在跳水過(guò)程中快速旋轉(zhuǎn)并發(fā)生姿態(tài)變形. 由于目標(biāo)的快速旋轉(zhuǎn), 在第86幀時(shí), SiamFC,SiamRPN,Staple相繼跟丟目標(biāo), 隨著目標(biāo)的進(jìn)一步運(yùn)動(dòng)與姿態(tài)形變, 在第145幀時(shí)僅有SRDCF和本文算法能對(duì)目標(biāo)保持有效跟蹤, 從145~212幀, 待跟蹤目標(biāo)運(yùn)動(dòng)員進(jìn)一步發(fā)生形狀變化, SRDCF的紫色框與紅色真實(shí)標(biāo)簽框之間的重疊率開(kāi)始變小, 在第212幀時(shí), SRDCF對(duì)目標(biāo)的跟蹤已經(jīng)不十分準(zhǔn)確, 只有本文算法一直保持對(duì)目標(biāo)的緊湊穩(wěn)定跟蹤.
由圖5(C)可見(jiàn), 待跟蹤目標(biāo)李小龍男孩在與小怪獸戰(zhàn)斗過(guò)程中, 由于快速運(yùn)動(dòng)導(dǎo)致目標(biāo)的空間尺寸大小變化也非常頻繁, 且存在旋轉(zhuǎn)和運(yùn)動(dòng)模糊. 從初始幀到第33幀時(shí), 目標(biāo)發(fā)生了旋轉(zhuǎn), 此時(shí)SiamFC和SiamRPN的預(yù)測(cè)框率先發(fā)生漂移, 且SiamFC跟蹤器徹底丟失目標(biāo), 而SiamRPN跟蹤器對(duì)于目標(biāo)的定位已經(jīng)十分不準(zhǔn)確, 在接下來(lái)的視頻序列里, 目標(biāo)發(fā)生了快速移動(dòng), 運(yùn)動(dòng)到第44幀時(shí), 僅有本文算法能夠定位目標(biāo), 其他算法全部跟丟; 從44~82幀過(guò)程中, 目標(biāo)存在運(yùn)動(dòng)模糊、 旋轉(zhuǎn)等跟蹤挑戰(zhàn), 本文算法在該過(guò)程中是唯一實(shí)現(xiàn)穩(wěn)定且緊湊跟蹤目標(biāo)的算法. 與對(duì)比算法相比, 本文算法可以更好應(yīng)對(duì)由快速運(yùn)動(dòng)導(dǎo)致目標(biāo)的空間尺寸大小變化頻繁問(wèn)題.
由圖5(D)可見(jiàn)," 待跟蹤球員由于手持獎(jiǎng)杯, 在慶祝過(guò)程中不僅存在運(yùn)動(dòng)模糊還存在獎(jiǎng)杯頻繁遮擋的目標(biāo)挑戰(zhàn), 而且在視頻序列中還存在大量相似背景以及鏡頭運(yùn)動(dòng)導(dǎo)致目標(biāo)角度發(fā)生變化. 從第70~94幀, 目標(biāo)快速運(yùn)動(dòng)出現(xiàn)模糊和獎(jiǎng)杯遮擋, 本文算法的綠色框在此過(guò)程中一直保持較高的重疊率, 緊湊地跟蹤目標(biāo), 展現(xiàn)出跟蹤性能的穩(wěn)定. 而SiamFC和SiamRPN相繼丟失跟蹤目標(biāo). 在接下來(lái)的視頻序列中, 由于鏡頭的移動(dòng)以及相似物的干擾, 黃色框Staple跟蹤器徹底丟失目標(biāo), 所有跟蹤算法都丟失目標(biāo). SiamFC和SiamRPN找回目標(biāo)但重疊率較低. 到326幀時(shí), 只有本文算法和SiamFC可以保持對(duì)目標(biāo)的跟蹤. 相對(duì)而言, 本文算法與真實(shí)邊界框的重疊率更高、 跟蹤效果更好.
3.3 數(shù)據(jù)集VOT2018實(shí)驗(yàn)分析
數(shù)據(jù)集VOT2018包含60組視頻序列, 具有多種挑戰(zhàn), 是當(dāng)前單目標(biāo)跟蹤算法性能分析的主流測(cè)試數(shù)據(jù)集. 評(píng)價(jià)指標(biāo)采用期望重疊率(EAO)、 準(zhǔn)確性(A)和魯棒性(R), 其中準(zhǔn)確性和期望重疊率數(shù)值越高且魯棒性數(shù)值越低表示算法性能越好. 本文引入了ECO,SiamFC,SiamRPN,fDSST,Staple,DSiam,CCOT,SRDCF,CFNet等具有代表性的常見(jiàn)單目標(biāo)跟蹤算法, 進(jìn)行跟蹤性能對(duì)比. 在相同的硬件平臺(tái)上使用數(shù)據(jù)集VOT2018進(jìn)行對(duì)比分析. 各算法的跟蹤性能量化指標(biāo)列于表4.
由表4可見(jiàn), 與基準(zhǔn)算法SiamFC相比, 本文提出的跟蹤算法具有較高的跟蹤準(zhǔn)確性A(0.590)、 良好的魯棒性R(0.316), 并且與對(duì)比算法相比獲得了最優(yōu)的期望重疊率EAO(0.393). 本文算法相比于SiamFC基準(zhǔn)算法不僅有效改善了跟蹤準(zhǔn)確性, 而且還可以以高達(dá)175幀/s的跟蹤速度穩(wěn)定跟蹤. 同時(shí), 相比于SiamRPN基準(zhǔn)算法期望重疊率提高了2.3%. 因此, 本文算法能更好地平衡跟蹤精度與速度, 具有更大的應(yīng)用空間.
綜上所述, 為更好地平衡跟蹤速度與精度, 在SiamFC基準(zhǔn)算法基礎(chǔ)上本文提出了一種基于無(wú)錨的輕量化孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法. 先使用修改的MobileNetV3作為主干網(wǎng)絡(luò)提取特征, 然后針對(duì)互相關(guān)操作提出一種圖級(jí)聯(lián)優(yōu)化的深度互相關(guān)模塊獲取特征響應(yīng)圖, 最后通過(guò)分類回歸網(wǎng)絡(luò)以無(wú)錨的方式對(duì)特征響應(yīng)圖預(yù)測(cè)目標(biāo)邊界框. 本文算法在數(shù)據(jù)集OTB2015和VOT2018上相比于基準(zhǔn)算法SiamFC取得了更好的速度與精度率. 實(shí)驗(yàn)結(jié)果表明, 本文算法在保持良好跟蹤性能的同時(shí)大幅度提升了跟蹤速度, 有效解決了速度和精度的平衡問(wèn)題, 在計(jì)算資源受限環(huán)境下具有一定的應(yīng)用價(jià)值.
參考文獻(xiàn)
[1]李璽, 查宇飛, 張?zhí)熘?等. 深度學(xué)習(xí)的目標(biāo)跟蹤算法綜述 [J]. 中國(guó)圖象圖形學(xué)報(bào), 2019, 24(12): 2057-2080. (LI X, CHA Y F, ZHANG T Z, et al. Overview of Deep Learning Target Tracking Algorithms [J]. Chinese Journal of Image and Graphics, 2019, 24(12): 2057-2080.)
[2]BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-Convolutional Siamese Networks for Object Tracking [C]//European Conference on Computer Vision. Berlin: Springer, 2016: 850-865.
[3]HOWARD A, SANDLER M, CHU G, et al. Searching for Mobilenetv3 [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE, 2019: 1314-1324.
[4]HENRIQUES J F, CASEIRO R, MARTINS P, et al. High-Speed Tracking with Kernelized Correlation Filters [J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence, 2015, 37(3): 583-596.
[5]MARTIN D, GUSTAV H, FAHAD S K, et al. Discriminative Scale Space Tracking [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(8): 1561-1575.
[6]NAM H, HAN B. Learning Multi-domain Convolutional Neural Networks for Visual Tracking [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 4293-4302.
[7]LI Z X, BILODEAU G A, BOUACHIR W. Multi-branch Siamese Networks with Online Selection for Object Tracking [C]//International Symposium on Visual Computing. Berlin: Springer, 2018: 309-319.
[8]ZHANG Z P, PENG H W. Deeper and Wider Siamese Networks for Real-Time Visual Tracking [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 4591-4600.
[9]HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.
[10]HOWARD A G, ZHU M L, CHEN B, et al. Mobilenets: Efficient Convolutional Neural Networks for Mobile Vision Applications [EB/OL]. (2017-04-17)[2022-01-10]. https://arxiv.org/abs1704.04861.
[11]SANDLER M, HOWARD A, ZHU M L, et al. Mobilenetv2: Inverted Residuals and Linear Bottlenecks [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 4510-4520.
[12]XU Y D, WANG Z Y, LI Z X, et al. Siamfc++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines [J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12549-12556.
[13]LI B, WU W, WANG Q, et al. Siamrpn++: Evolution of Siamese Visual Tracking with Very Deep Networks [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 4282-4291.
[14]HU K, ZHANG Z Z, NIU X R, et al. Retinal Vessel Segmentation of Color Fundus Images Using Multiscale Convolutional Neural Network with an Improved Cross-Entropy Loss Function [J]. Neurocomputing, 2018, 309: 179-191.
[15]YU J H, JIANG Y N, WANG Z Y, et al. Unitbox: An Advanced Object Detection Network [C]//Proceedings of the 24th ACM International Conference on Multimedia. New York: ACM, 2016: 516-520.
[16]HUANG L H, ZHAO X, HUANG K Q. Got-10k: A Large High-Diversity Benchmark for Generic Object Tracking in the Wild [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 43(5): 1562-1577.
[17]WU Y, LIM J W, YANG M H. Object Tracking Benchmark [J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence, 2015, 37(9): 1834-1848.
(責(zé)任編輯: 韓 嘯)
收稿日期: 2022-08-07.
第一作者簡(jiǎn)介: 丁貴鵬(1982—), 男, 漢族, 博士研究生, 從事視覺(jué)觀瞄系統(tǒng)設(shè)計(jì)的研究, E-mail: dingguipeng@163.com. 通信作者簡(jiǎn)介: 陶 鋼(1962—), 男, 漢族, 研究員, 從事火炮設(shè)計(jì)與研發(fā)的研究, E-mail: taogang@njust.edu.cn.
基金項(xiàng)目: 國(guó)家自然科學(xué)基金天文聯(lián)合基金項(xiàng)目(批準(zhǔn)號(hào): U1731240).