任紅格,梁 晨,史 濤
(1. 華北理工大學(xué)電氣工程學(xué)院,河北 唐山 063210;2. 天津城建大學(xué)控制與機(jī)械工程學(xué)院,天津 300384)
視覺(jué)目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域中最重要的部分之一,在機(jī)器人視覺(jué),人工智能監(jiān)控,AR等方面有廣泛的應(yīng)用前景[1]。在實(shí)際的跟蹤任務(wù)中,一般在第一幀中指定目標(biāo)區(qū)域并在后續(xù)幀中實(shí)現(xiàn)跟蹤。盡管目標(biāo)跟蹤技術(shù)在過(guò)去半個(gè)世紀(jì)的時(shí)間里取得了非常多的成果,但仍然由于光線變化,形變,運(yùn)動(dòng)驟變和遮擋等因素,還是具有研究意義。相比較于機(jī)器,人類的視覺(jué)系統(tǒng)在這方面具有明顯優(yōu)勢(shì)。計(jì)算機(jī)跟蹤器的關(guān)鍵是通過(guò)對(duì)目標(biāo)特征的建模分析,而人類視覺(jué)通過(guò)對(duì)三維環(huán)境的感知、對(duì)顏色刺激的敏感以及記憶系統(tǒng)來(lái)分析環(huán)境和目標(biāo)[3]。在本文中,通過(guò)模擬人類的視覺(jué)顏色刺激和短期記憶系統(tǒng)來(lái)建立神經(jīng)網(wǎng)絡(luò)模型,進(jìn)一步克服之前的視覺(jué)追蹤挑戰(zhàn)。
一般認(rèn)為,認(rèn)知心理記憶模型中,人類記憶系統(tǒng)由三個(gè)主要的要素構(gòu)成:感覺(jué)記憶,短期記憶和長(zhǎng)期記憶。感覺(jué)記憶是一個(gè)將周?chē)h(huán)境信息輸入記憶系統(tǒng),記憶系統(tǒng)收到外部刺激后,保持刺激并發(fā)送到短期記憶的過(guò)程。在短期記憶過(guò)程中,目標(biāo)信息有一個(gè)預(yù)演的過(guò)程,之后記憶系統(tǒng)會(huì)針對(duì)刺激產(chǎn)生相對(duì)的反應(yīng),盡管短期記憶不能被長(zhǎng)期保存,但其中的信息可以被視作有很高的可塑性,其中對(duì)于跟蹤問(wèn)題的啟發(fā)尤為重要。長(zhǎng)期記憶主要是對(duì)反復(fù)接受的信息進(jìn)行整理編碼,容量接近無(wú)限,并且可以保持很長(zhǎng)一段時(shí)間,通過(guò)在長(zhǎng)期記憶的內(nèi)容中檢索,轉(zhuǎn)到短期記憶中來(lái)回憶信息,因而長(zhǎng)期記憶能夠一定程度上代表穩(wěn)定性較高的事件信息。
在目標(biāo)追蹤任務(wù)中,如何在光照、尺度發(fā)生變化時(shí)跟蹤器依然保持穩(wěn)定,在面對(duì)遮擋時(shí)依然能夠不丟失目標(biāo),同時(shí)保持一定的實(shí)時(shí)性和魯棒性,依舊是這個(gè)領(lǐng)域最大的挑戰(zhàn)。深度神經(jīng)網(wǎng)絡(luò)的發(fā)展一定程度上影響了相關(guān)研究對(duì)于跟蹤器的認(rèn)知,特征的重要性被前所未有的突出。fHOG和深度特征的引入[4]使得跟蹤器在保持實(shí)時(shí)性能和精確度方面做出了很大突破,更具辨識(shí)力的特征設(shè)計(jì)和提取成為跟蹤的重點(diǎn)。優(yōu)秀的特征往往能使得算法在跟蹤中面對(duì)遮擋以及其它干擾時(shí)能保持魯棒。
在這篇文章中,提出了一個(gè)基于殘差網(wǎng)絡(luò)的短期記憶視覺(jué)矯正模型(SMRN)跟蹤算法來(lái)嘗試解決上述問(wèn)題。與人類認(rèn)知記憶系統(tǒng)相似,SMRN通過(guò)ResNet[5]提取特征,之后使用核相關(guān)濾波器對(duì)目標(biāo)進(jìn)行建模跟蹤。通過(guò)短期視覺(jué)記憶模塊來(lái)進(jìn)行尺度矯正。同時(shí)提出了一種通過(guò)認(rèn)知記憶機(jī)制調(diào)整更新模型外觀的自適應(yīng)學(xué)習(xí)方法。
鑒于殘差網(wǎng)絡(luò)(ResNet)在訓(xùn)練方面的優(yōu)秀性能和強(qiáng)大的泛化性,本文算法將以ResNet為提取特征的方法,通過(guò)多通道提取深度特征,配合KCF[6]進(jìn)行跟蹤定位,之后通過(guò)短期記憶尺度矯正模塊進(jìn)行尺度矯正,得出的算法將在公共數(shù)據(jù)集平臺(tái)OTB100上進(jìn)行結(jié)果測(cè)試。
所提算法的結(jié)構(gòu)如圖1所示,大致分為特征提取和目標(biāo)跟蹤,模型尺度矯正估計(jì)等兩個(gè)部分,之后根據(jù)跟蹤結(jié)果對(duì)尺度模型進(jìn)行更新。

圖1 算法的總體結(jié)構(gòu)
圖2顯示了基層和殘余層的結(jié)構(gòu)。

圖2 殘差網(wǎng)絡(luò)基本結(jié)構(gòu)
本文將H(X)表示為輸入X的最佳映射,將FB(X)表示為基礎(chǔ)層的輸出。本文不傾向于疊加更多的層來(lái)近似H(X),而是希望這些層近似剩余函數(shù):FR(X)=H(X)-FB(X)。因此,預(yù)期網(wǎng)絡(luò)輸出可以表述如下:
F(X)=FB(X)+FR(X)=FB{X,(WB)}+FR{X,(WR)}
(1)
映射FR(X,{WR})表示殘差學(xué)習(xí),而WR是帶有偏差的卷積層的一般形式,為了簡(jiǎn)化符號(hào),省略了ReLU。在小濾波器規(guī)模的動(dòng)態(tài)學(xué)習(xí)中,本文采用了三層結(jié)構(gòu)。它們被設(shè)置為捕獲基層輸出中不存在的殘余。最后,輸入X通過(guò)基礎(chǔ)和殘差映射進(jìn)行回歸,生成輸出響應(yīng)映射。
網(wǎng)絡(luò)層數(shù)的增加和圖像的特征表達(dá)效果并不是成正比的,在5層以內(nèi)的淺層網(wǎng)絡(luò)往往能取得不錯(cuò)的識(shí)別效果。經(jīng)過(guò)大量實(shí)驗(yàn)證明,ResNet的conv4層及其前層的跟蹤效果優(yōu)于其它層,如表1所示,所以在本文算法中主要采取conv4層用于特征提取。

表1 不同層性能對(duì)比
假設(shè)輸入圖像中的感興趣區(qū)域(ROI,region of interest) 大小為m×n×3,經(jīng)過(guò)殘差網(wǎng)絡(luò)提取后,得到的特征大小分別為m1×n1×k1、m2×n2×k2和m3×n3×k3,ki表示第i(i=1,2,3)個(gè)特征通道數(shù)。其中每個(gè)特征分別經(jīng)過(guò)相關(guān)濾波器,得到的響應(yīng)圖大小均為s×t,然后對(duì)各個(gè)響應(yīng)圖進(jìn)行加權(quán)求和,對(duì)應(yīng)權(quán)值為γi,得到位于響應(yīng)圖中響應(yīng)值最大的點(diǎn)為中心位置。想要區(qū)分目標(biāo)和背景,試圖訓(xùn)練非線性分類器代替之前的濾波框架,引入高斯核,KCF核相關(guān)濾波器α可以表示為

(2)

人類視覺(jué)記憶中,感覺(jué)記憶時(shí)間最短,大約只有0.1秒,長(zhǎng)期記憶在一分鐘左右,本算法為應(yīng)對(duì)遮擋,光線變化等因素,所選擇的短期記憶方式通常在1-2秒,通過(guò)建立短期視覺(jué)記憶尺度變化信息庫(kù),以時(shí)間長(zhǎng)度T為一個(gè)周期,取每一幀之前T時(shí)間內(nèi)的尺度變化率

(3)
并設(shè)定一個(gè)閾值λ,超過(guò)λ就啟動(dòng)尺度矯正

(4)
通過(guò)對(duì)目標(biāo)位置進(jìn)行采樣,建立33個(gè)尺度金字塔,提取其HOG特征(d維),經(jīng)過(guò)尺度濾波器[9],得到響應(yīng)最大的目標(biāo)位置,尺度濾波器為

(5)
其中:G為利用高斯函數(shù)構(gòu)建的響應(yīng)值,G*表示G的共軛,F(xiàn)l表示第l維特征的傅里葉變換,d為特征維數(shù)。
尺度濾波器的分子項(xiàng)、部分分母項(xiàng)分別為
Al=G*⊙Fl
(6)

(7)
響應(yīng)值y為

(8)
y中最大值位置對(duì)應(yīng)目標(biāo)最佳尺度.Zl表示輸入圖像第l維特征的傅里葉變換.
在確認(rèn)第t幀的位置和尺度之后,出于對(duì)算法魯棒性的考量,還需要在t+1幀跟蹤前對(duì)位置濾波器和尺度濾波器進(jìn)行更新。位置濾波器更新策略如下
αt=(1-η)αt-1+ηα(t)
(9)
其中:αt-1為對(duì)第t幀圖像跟蹤前求得的濾波器模板,α(t)為根據(jù)第t幀圖像求得的濾波器模板η為位置濾波器的學(xué)習(xí)率.對(duì)第t幀圖像跟蹤后,尺度模型更新策略為

(10)

(11)
其中η′為尺度濾波器的學(xué)習(xí)率.
在windows10系統(tǒng)下,采用matlab2018作為實(shí)驗(yàn)平臺(tái)。硬件配置如下:英特爾1.8GHz的CPU,8GB內(nèi)存,英偉達(dá)760m顯示適配器。位置濾波器的學(xué)習(xí)率η=0.03,正則項(xiàng)λ=10-4.尺度濾波器的尺度因子a=1.03,采樣個(gè)數(shù)S=30,學(xué)習(xí)率η′=0.025,正則項(xiàng)λ=10-4.
測(cè)試數(shù)據(jù)采用當(dāng)下廣泛應(yīng)用的OTB數(shù)據(jù)集,通過(guò)選取100個(gè)視頻序列中的60個(gè)包含光照尺度變化,遮擋等典型跟蹤任務(wù)的挑戰(zhàn)序列來(lái)運(yùn)行算法。表2、表3詳細(xì)列出了 11 種普遍挑戰(zhàn)下算法的成功率和精確度數(shù)據(jù),最優(yōu)結(jié)果用粗體標(biāo)注,次優(yōu)結(jié)果用斜體表示。
如圖所示,由于算法在充分考慮了目標(biāo)模型尺度變化的基礎(chǔ)上采用了較強(qiáng)特征表征能力的深度殘差網(wǎng)絡(luò)提取特征,所提SMRN框架在幾乎所有挑戰(zhàn)屬性序列上表現(xiàn)都很好,在保證了穩(wěn)定性的前提下實(shí)現(xiàn)了準(zhǔn)確性和實(shí)時(shí)性的提升。綜上所述,所提出的算法在具有光照變化,遮擋屬性的視頻序列上表現(xiàn)出較好的跟蹤性能,同時(shí)因?yàn)橛洃洺C正的引入使得在形變,目標(biāo)遮擋等復(fù)雜環(huán)境下仍然保持了一定的魯棒性。

表2 所提算法和其它算法成功率對(duì)比(加粗為最優(yōu),斜體為次優(yōu),下同)

表3 所提算法和其它算法精確度對(duì)比
在 OTB100 的所有視頻上對(duì)相關(guān)算法進(jìn)行測(cè)試,成功率曲線和精確度曲線如圖3,4 所示。除去2016年的頂級(jí)算法C-COT[10],與成功率位于第3的 HCF 算法相比,所提算法的成功率和精確度分別提高了 1. 2% 、5.7 %; 與精確度位于第 3的Staple算法相比,所提算法的成功率和精確度分別提高了 2. 9% 、0. 6%。

圖3 精確度

圖4 成功率
因?yàn)镽OI大小隨著序列尺度的變化而變化,大尺度的目標(biāo)在進(jìn)行卷積時(shí)不可避免的會(huì)拖慢算法運(yùn)行速度。在以實(shí)時(shí)性為主要著眼點(diǎn)的相關(guān)濾波算法中,所提SMRN算法達(dá)到了基本實(shí)現(xiàn)實(shí)時(shí)性的4 f/s,具體對(duì)比如表4所示。

表4 算法速度對(duì)比
本文提出了一種基于ResNet和短期記憶尺度變換的視頻跟蹤算法,在通過(guò)利用深度殘差網(wǎng)絡(luò)特征提取的基礎(chǔ)上,使用和相關(guān)濾波模板得到響應(yīng)位置并進(jìn)行尺度采樣,利用短期視覺(jué)機(jī)制進(jìn)行尺度矯正估計(jì),并在OTB100數(shù)據(jù)集上測(cè)試可行性,與其它算法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,所提出的算法在具有一定實(shí)時(shí)性的基礎(chǔ)上能夠較好地面對(duì)尺度,光照的變化以及遮擋,在保證精確度的前提下也具有魯棒性,同時(shí)也說(shuō)明深度網(wǎng)絡(luò)在目標(biāo)跟蹤領(lǐng)域仍具有一定的可挖掘潛力。
實(shí)驗(yàn)的同時(shí)也發(fā)現(xiàn)多層次的神經(jīng)網(wǎng)絡(luò)各層的特征提取能力不同,如何在特征提取的基礎(chǔ)上進(jìn)行多通道特征融合進(jìn)而實(shí)現(xiàn)復(fù)雜情況下的目標(biāo)識(shí)別檢測(cè)跟蹤依然是接下來(lái)研究的方向。