孫炯寧,呂太之,張 娟,郭海濤
(1.江蘇海事職業技術學院 信息工程學院,江蘇 南京 211170;2.華南理工大學 土木交通學院,廣東 廣州 510640)
視覺目標跟蹤是計算機視覺中的熱點問題,在行為分析、智能監控、交通監管、自動監控、汽車導航和高級人機交互等諸多領域都扮演著重要的角色[1]。目標跟蹤作為計算機視覺領域的研究熱點,近年來有了較大的發展,但由于受到姿勢、形狀變化,雜波背景,亮度、視角變化、噪聲及遮擋等因素的影響,實現健壯的視覺目標跟蹤仍極具挑戰[2-3]。
隨著機器學習技術的發展,視覺目標跟蹤技術取得了突飛猛進的發展,尤其是深度學習方法在視頻跟蹤領域的應用并取得良好效果,推動了視覺跟蹤技術發展的新方向[4-6]。2016年研究人員[7]提出利用CNN全卷積網絡的SiamFC跟蹤方法,大幅度地改善了深度學習在處理視頻跟蹤過程中的效率低下問題;到2018年,文獻[8]提出將SiameseFC和Faster RCNN中的Region Proposal Network(RPN)融合處理,在提升跟蹤精度的同時,也進一步改善了跟蹤效率,并在VOT2018的全球比賽中奪冠;2019年,SiamMask算法采用半監督分割訓練的方法,開啟了視覺目標跟蹤技術的新思路[9],在給定的數據庫上實現了精度最高、速度最快的處理系統,并在開源的實時跟蹤系統中表現非凡,但是在實際的應用場景中,由于背景的復雜性及遮擋性、目標特征的差異性和環境影響的隨機性等因素,存在著不同的跟蹤誤差[10-13]。
針對現有方法在動態目標跟蹤過程中存在的分割困難、復雜背景下跟蹤精度低的問題,研究了一種聯合深度學習和時空預測的目標跟蹤方法。該方法的主要創新點是在傳統基于SiamMask網絡的深度學習框架內,通過引入興趣區域(Region of Interest,ROI)檢測實現輸入序列中興趣目標的自動精確提取,克服了干擾導致的誤差累積效應;同時,為改善環境干擾、目標遮擋等復雜環境對跟蹤精度的影響,在深度跟蹤系統中融入了時空上下文目標跟蹤算法(STC),根據目標時空關系的在線學習,預測新的目標位置并對SiamMask網絡進行算法校正,實現視頻序列中的目標快速識別與跟蹤。實驗結果表明,同傳統基于SiamMask網絡的深度學習方法和STC方法相比,本文方法在精準度和魯棒性方面有較大的提高,并且保持著較高的實時性,在跟蹤精度和實時性方面實現了很好的折中。
本文通過在PyTorch深度學習框架內引入SiamMask模型進行目標的快速檢測和分割。為增加算法的實時性和工程可應用性,采用離線訓練的方法對PyTorch深度學習框架進行訓練,同時在分割結果中引入損失函數對離線訓練網絡進行優化,動態調整優化路徑和參量。離線訓練獲取參數以后,SiamMask在既定參量的基礎上,對各種輸入目標進行未知分割標記(Mask),具體過程如圖1所示[15]。

圖1 基于SiamMask網絡的深度檢測框架Fig.1 Depth detection framework based onSiamMask network
標記網絡采用2層卷積形式,通道數目為256,通過動態調整實現不同分辨率輸入目標的融合。如圖1所示,孿生網絡通過共享權值,提取目標模板和候選區域特征后,通過卷積實現相似區域的生成。圖1中,響應值為Row,目標標記為Mask,預測得分和結果為Score和Box,權重疊加表示為*d,CNN、目標、預測目標、預測以及響應預測的得分處理函數分別表示為fθ,hφ,bσ,sφ,pω[5]。通過離線訓練,該網絡可以實現對目標的實時處理,采用聯想X1電腦可以實現28 幀/秒的處理速度,對于研究而言具有較好的實時性、便捷性和經濟性。如果應用于工業場景,考慮環境的適應性,建議采用GPU處理器。
從上面的分析可以看出,盡管深度學習較好地改善了跟蹤精度,但是在背景噪聲干擾以及相似特征影響下,跟蹤錯誤明顯。基于SiamMask網絡的深度檢測結果如圖2所示。由圖2可以明顯看出,在正常狀態下跟蹤結果優秀,精度高且穩定性好。但是當周圍出現了背景干擾,例如背景光線變化(如圖2(b)所示),以及在相似人體特征干擾目標情況下(如圖2(c)所示),系統會出現較大的跟蹤誤差,甚至跟蹤錯誤。產生這種錯誤的主要原因是:① 目標初始檢測區域的精確性,如果檢測區域較大,就會引入較多的干擾因素;② 跟蹤失敗后無法自適應校正,即使目標再回到穩定環境中,跟蹤效果仍然很差。

(a) 正常狀態
針對以上2個方面,本文提出了2點修正:① 在算法中引入興趣區域(ROI)的自適應檢測算法,提高目標自動檢測精度;② 在跟蹤過程中融入時空上下文跟蹤算法(STC),對跟蹤目標進行匹配預測跟蹤。因為傳統深度算法中初始標記對后續跟蹤的影響較大,為避免過多的誤差累計效應,通過ROI的引入可以精確地分離目標和背景,消除背景干擾,降低誤差累積效應的影響。同時,STC充分考慮了目標和背景的關系,充分利用目標和背景的區分行實現跟蹤,其跟蹤速度和精度在同類算法中都具有較大的優勢。本文算法的總體流程框圖如圖3所示。其中,Pk為系統輸入的第k幀圖像,P′k為融入STC算法的預測結果,Φ為本文算法的判斷函數。
系統實現ROI精確分割過程主要包括ROI范圍的設定和幀圖像中運動的檢測這2個方面。其中,ROI范圍的設定包括起點位置的設定和區域分辨率的設定。假設通過先驗信息知道ROI區域的起點像素為A(x,y),且起點位于輸入圖像左上角,在給定輸入畫面寬度l′w和高度l′h的情況下,ROI的高度和寬度分別可以表示為lh和lw,具體計算為[16]:
(1)
基于以上分析思路,在給定輸入圖像的情況下,可以獲得ROI自動提取結果。其中,圖像的運動情況主要是采用灰度差值的方法獲取,假設像素點z(xz,yz)的灰度值為Ik(z),當2幀圖像之間的差值大于給定的閾值時,即認為是運動信息,通過試驗測試情況,設定判斷閾值ΔIT=30。
針對光照變化、相似特征干擾等影響,該部分在修正后深度學習框架內融入STC算法,通過目標的時空預測獲取目標的置信圖,并根據置信圖的似然概率獲取目標的最新位置信息。假設當前目標上下文集合Tc={c(z)=(I(z),z)|z∈Ωc(t*)},在給定SiamMask模型第k幀目標Pk的情況下,基于STC預測的目標表示為P′k,通過設定分析函數Φ,對Pk與P′k的相似度進行判斷分析,并根據判斷結果進行模板的實時更新,獲取跟蹤軌跡。其中,t*(xt,yt)是目標中心,I(z)是目標像素z的灰度值,Ωc(t*)是由目標確定的上下文區域的圖像灰度與位置的統計建模,c(z)為置信圖函數,整個跟蹤過程可以描述為:
步驟1:計算k-1幀ROI區域置信圖
(2)
式中,o為所跟蹤的目標;P為上下文先驗模型:
(3)
式中,ωσ(z)=a×e-z2/σ2是一個權重函數,a為歸一化參數,取值為[0,1],σ是一個尺度參數,σ2為高斯函數方差;hsc(t-z)為時空上下文模型,是傅里葉變換后的頻率域計算變形。
步驟2:計算k-1幀Ωc(t*)上下文區域的空間上下文模型
(4)
式中,b為歸一化參數;α為尺度參數;β為目標形變參數。
步驟3:更新空間上下文hsc(x)模型
(5)
(6)
式中,ρ為模型更新的學習速率。
步驟4:在第k幀計算上下文先驗模型及置信圖
(7)
(8)
步驟5:將第k幀得到的置信圖極值點作為目標在k幀的位置輸出
(9)

網絡訓練采用Object Tracking Benchmark(OTB 2015)數據庫[17],該數據庫包含了光照變化、運動模糊、形變、遮擋以及目標尺度變化等豐富的復雜干擾背景,且所有目標的真實位置都有精確的人工標注,非常便于網絡的訓練,近年來被廣泛應用于深度學習網絡的訓練。為加快訓練速度,參考SiamMask網絡,將Warmup預訓練獲取的權重作為后續網絡的初始參數,提升迭代速度的同時,也保證了網絡參數的穩定性。為避免常規梯度訓練中參數的局部極值問題,采用沖量算法對參數進行迭代更新。
實驗在i7處理器,CPU主頻率3.5 GHz,內存16 GB的RAM環境中運行Matlab 2015進行分析,基于OTB 2015的相關視頻進行實驗分析,主要背景干擾包括遮擋、光照變化以及變形等。為對比分析算法性能,將傳統基于SiamMask網絡的深度學習方法(SSM)[15]和基于STC[18]的方法進行對比。
本文方法的檢測跟蹤結果如圖4所示。選取了3個同時包含多種挑戰因素的視頻序列來對算法進行定性評估。

(a) Shaking(8,70,120幀)
其中,Shaking視頻中存在光照突變、形變等干擾,由于傳統SSM方法嚴重依賴訓練特征和初始輸入參量,第8幀時因光照變化導致輸入參量權重降低、特征漂移,SSM方法產生了跟蹤漂移,第70幀時明顯跟蹤失敗。傳統STC方法因為背景干擾導致置信圖漂移,也產生了一定的跟蹤誤差,本文算法一直保持著對光照突變和形變的較好魯棒性。Girl2視頻中由于遮擋的干擾,傳統SSM方法和STC方法在目標遮擋后跟蹤失敗,而本文方法因為引入了興趣目標的自動檢測,能夠很好地恢復跟蹤性能,從第1 451幀的完全遮擋到第1 465幀的遮擋后恢復,可以看出本文方法對遮擋恢復后的目標仍然能夠保持較好的跟蹤效果。Freeman4視頻存在分辨率低以及遮擋干擾。從第211幀開始,SSM方法和STC方法都出現了漂移,第280幀時2種方法基本上都是跟蹤失敗狀態,但是本文方法仍然保持了較高的跟蹤精度。
參考業界目前普遍采用的度量指標,該部分針對跟蹤目標的中心位置誤差(CLE)和重疊率(OR)進行量化的性能分析[19]。通常情況下,CLE越小、OR越大,跟蹤精度越高。3種不同算法針對測試序列的相關量化指標如表1和表2所示。從表1和表2可以看出,針對測試視頻,本文方法始終保持著較高的跟蹤精度。為了進一步分析本文方法的運行效率和實時性,針對全部的OTB 2015測試序列進行了平均運行分析。SSM的平均跟蹤速率為18 幀/秒,STC的平均跟蹤速率為49 幀/秒,本文方法的平均跟蹤速率為37 幀/秒。由此可以看出,因為引入了興趣目標自動檢測和迭代權重的自適應更新,導致跟蹤速率有所降低,但其幀處理速度仍然大于37 幀/秒,滿足實時性需求,在跟蹤精度和運行實時性方面實現了很好的折中。

表1 CLE計算列表Tab.1 CLE calculation list 單位:pixel

表2 OR計算列表Tab.2 OR calculation list
針對復雜背景下視頻目標穩健跟蹤問題,提出了一種融合深度學習和時空預測的魯棒單目標跟蹤方法,其創新點主要表現在2個方面:
① 在傳統基于SiamMask網絡的深度學習框架內,通過引入興趣區域(ROI)檢測實現輸入序列中興趣目標的自動精確提取,在提升系統自動檢測跟蹤精度的同時,有效地克服了背景干擾導致個跟蹤誤差累積效應;
② 在深度跟蹤系統中融入了時空上下文目標跟蹤算法(STC),根據目標時空關系的在線學習,預測新的目標位置并對SiamMask網絡進行算法校正,實現視頻序列中的目標快速識別與跟蹤,有效地改善環境干擾、目標遮擋等復雜背景導致的跟蹤漂移問題。
本文方法較好地改善了目標在復雜應用背景中的檢測與跟蹤問題,但是對于多目標檢測問題尚在探索有效的檢測跟蹤手段,是后續走向應用需要進一步突破的瓶頸所在。