李晗,段海濱,李淑宇,丁希侖
(1.北京航空航天大學 自動化科學與電氣工程學院,北京 100083; 2.北京航空航天大學 生物與醫學工程學院,北京 100083; 3.北京航空航天大學 機械工程及自動化學院,北京 100083)
軟式自主空中加油對接階段的任務包括加/受油機到達指定加油區域后,從較遠距離的雙機編隊到雙機逐漸接近直至受油插頭插入錐套的全過程。在這一過程中基于計算機視覺的導引系統需要準確識別錐套,然后對其進行精細地特征提取,接著完成位姿估計等任務,從而指導飛行控制系統和加油對接系統完成精準對接。這一階段視覺導航任務重要的一環就是對錐套目標的跟蹤,穩定的目標跟蹤是視覺導引加/受油機進行編隊的必要條件,也是后續準確目標識別與精確位姿測量的重要支撐。通過目標跟蹤算法在圖像中圈選出目標識別與視覺測量的感興趣區域,可以大幅度減少這些視覺任務的計算量,提高計算速度,從而滿足空中編隊與加油中計算機視覺實時處理的需求。
目標跟蹤作為計算機視覺領域的經典問題,一直以來飽受關注[1],主要解決方法包括經典的目標跟蹤算法,如光流法、粒子濾波等,基于相關濾波的方法,如核相關濾波器(kernel correlation filter,KCF)和基于學習的跟蹤算法如高效卷積算子跟蹤(efficient convolution operators, ECO)及深度學習跟蹤(deep learning tracker, DLT)等。但當目標發生姿態、明暗和尺度變化時,現有的許多跟蹤算法會出現目標漂移甚至跟蹤失敗等情況。猛禽涵蓋了鳥類傳統分類系統中隼形目如老鷹、禿鷲和鸮形目如貓頭鷹的所有種,這一類的鳥多具有捕殺動物為食的習性,視覺器官發達,飛翔能力強。猛禽能夠穩定跟蹤空中、地面以及水中快速運動的獵物,除了依賴優秀的飛行能力,其視覺系統對目標的準確追蹤功不可沒[2]?,F有的模擬猛禽視覺系統的硬件裝置[3]與方法[4]也已經有所成就,但仍存在很多可以進一步研究的方向和內容。猛禽視覺通路中的視頂蓋是其視覺信息處理過程中的重要核團,不僅處理對側視網膜輸入的信息,還整合腦內同側與對側的圓核與視丘傳遞的目標特征信息,這種雙側信息并行處理的方式更適合于猛禽視網膜的雙中央凹結構,并且對于目標跟蹤過程也具有一定的指導意義[5]。本文針對自主空中加油對接階段目標跟蹤的需求,模擬猛禽腦內同側與對側信息在視頂蓋整合處理的機制,建立目標跟蹤算法,并進行仿真試驗與對比分析。
猛禽中隼形目視網膜的鼻側和顳側存在兩個中央凹,鼻側凹較深,顳側凹較淺,是其視覺特性尤為出色的重要因素,如圖1 所示[6]。由于兩個中央凹的觀察方向不同,所以隼形目的視野范圍非常大,在水平方向上的視野(除盲區以外的區域)可以達到260°,在垂直方向上也能夠達到80°。

圖1 猛禽視網膜中央凹與視線角度示意圖Fig.1 Bifovea structure and line of sight of falcon

圖2 視頂蓋中心神經通路Fig.2 Tectum centered neural pathway
配合這樣特別的雙凹結構,猛禽腦內存在著復雜的視覺信息處理通路。離頂蓋通路是以視網膜?視頂蓋?圓核?外紋體為主要核團的視覺通路,離丘腦通路是以視網膜?背外側膝狀體?視丘為主要核團的視覺通路。這兩條通路將視網膜獲取信息以交叉的方式傳遞至腦內核團,處理得到目標特征的編碼信息,并逐步整合傳輸至大腦同側的高級核團,實現視覺信息提取。此外,有研究結果顯示腦內核團間也存在向對側大腦傳遞信息的神經通路,并且在離丘腦通路與離頂蓋通路之間也存在特征信息的傳遞。在這樣復雜的信息交互傳遞的過程中,視頂蓋承擔了信息傳遞中轉站的任務,以視頂蓋為中心,總結離頂蓋和離丘腦通路中與其相關的神經通路如圖2 所示,視覺信息從視網膜輸入,經由對側視頂蓋處理后向同側和對側圓核傳遞,視頂蓋同時接收視丘輸入的信息。
從圖2 可見,以視頂蓋為中心的神經通路主要包括離頂蓋通路的一部分(圖中不包括與視頂蓋無直接信息傳遞的外紋體)和離丘腦通路中的視丘。研究認為離頂蓋通路主要檢測獲得目標的形狀、顏色、亮度和空間細節等信息,完成視覺系統的“模式識別”功能;視丘作為離丘腦通路的中樞環節,主要獲取目標的運動朝向、背景情況和視覺定位等信息[7]。由于視丘和視頂蓋之間存在信息傳遞,認為視頂蓋處理的目標運動信息極有可能來源于視丘。猛禽腦內核團中的圓核與哺乳的丘腦枕后外側核同源,而丘腦在哺乳動物中的一個任務就是實現前景與背景的分辨。那么以視頂蓋為中心的部分視覺信息腦處理通路的任務可以總結為:視覺信息經由視網膜輸入后,傳遞向對側視頂蓋,提取出目標的部分特征后,傳遞至視丘;視丘接收到離丘腦通路處理得到目標的方向位置等運動信息,結合從視頂蓋收到的特征反向回傳至視頂蓋;對側的視頂蓋之間通過頂蓋上聯合和頂蓋下聯合兩個半腦間連接,實現信息在左右半腦之間的傳遞;視頂蓋整合所有淺層特征與信息后,傳遞至圓核,由圓核進一步進行目標的幾何形狀、亮度、顏色和精細空間結構的特征辨識處理[8]。
這一部分視覺信息傳遞過程中的一個重要特點與作用是打破了視覺信息傳遞過程中交叉傳遞的壁壘,實現了雙側腦之間的信息融合,包括雙側視頂蓋之間的信息傳遞、視丘向同側視頂蓋的信息傳遞、視頂蓋向對側視丘的信息傳遞以及視頂蓋向同側和對側圓核的信息傳遞。經過這種傳遞機制,實現了雙眼獲取視覺信息在對側半腦處理后的整合調制。
目標跟蹤的任務是在已知視頻序列第一幀中目標位置與尺寸的情況下,預測后續視頻序列中這一目標的大小和位置。通常人為框選初始目標,由跟蹤算法在下一幀中計算出多個候選框,然后提取候選框內的圖像特征,并基于特征對這些候選框進行評分,最后選擇一個得分最高的候選框作為預測的目標,或者融合多個預測值從而得到更優的預測結果。本文根據視頂蓋信息整合與交互的特征處理系統,設計了一種模擬交叉通路的神經網絡,跳出雙通路信息依賴雙目視覺分別獲取的思維框架,將單鏡頭獲取的圖像分為兩路進行處理。首先輸入目標模板圖像和待跟蹤的圖像,作為交叉通路的兩路信息,模擬猛禽視頂蓋與視丘的神經網絡特征提取層,對兩幅圖像進行特征提?。蝗缓竽M視丘?視頂蓋?圓核的特征傳遞整合機制,加入不同特征層之間的融合操作(Concat),整合低級形狀紋理特征的同時,提取出兩者的高級抽象特征;最終在待跟蹤圖片特征圖上使用目標模板的特征圖進行卷積得到卷積響應圖。響應最大的區域即為目標的跟蹤結果,根據特征圖和原圖的比例關系,進行等比例放縮完成目標跟蹤的任務。整個網絡的框架如圖3 所示。

圖3 目標跟蹤總體框架Fig.3 Framework of the target tracking method
圖3 中輸入部分的左圖為錐套目標模板圖像,右圖為待跟蹤圖像,在跟蹤算法中以第一幀的目標位置和圖像作為標準,兩幅圖像都經過模擬猛禽單側特征提取網絡提取特征,主要包括卷積神經網絡常用的卷積層、池化層以及非線性激活函數,進而得到兩者的特征圖。以模板圖像的特征圖作為卷積核,對待跟蹤圖像的特征圖進行卷積操作,得到的卷積響應圖,即為待跟蹤圖像中各個位置與目標模板的相似度值,卷積響應圖中較亮的部分即為目標跟蹤的響應最大位置也即跟蹤結果。
總體來說,仿猛禽交叉通路卷積網絡提取整個待跟蹤圖像和模板圖像的特征,直接卷積計算兩特征圖的相似度找到目標位置,相較于傳統網絡方法通過遍歷的方式生成候選框后對每個候選框提取特征再進行比對的方法,減少了計算量,節省了計算時間。
目標模板圖像和待跟蹤圖像共用同一特征提取網絡,由于二者圖像尺寸差異,各自的特征圖尺寸也不同,具體的卷積層、池化層的參數設置如表1 所示。

表1 網絡參數設置Table 1 Parameters of the network
在較低層的特征圖中,卷積核的尺寸采用了11×11 和 5 ×5 的卷積大小,這樣可以在低層特征圖中取得較大的感受野,保留更多的低級特征,后面的卷積核采用 3 ×3 的常規卷積核大小。池化層根據需要對特征圖降采樣的特性,都采用了2×2 的尺寸并且步長為2。在Concat 操作中,由于要對不同特征圖統一尺寸進行整合,因此需要對較大的特征圖進行下采樣以獲得一致的尺寸,主要涉及到的特征圖為第2、3 和4 層的特征圖,具體參數如表2 所示。

表2 Concat 層參數Table 2 Table 1 Parameters of the Concat layer
Conv2~Conv4指從第2 層特征圖整合到第4 層特征圖之前需要進行卷積以及下采樣,同樣的,Conv3~Conv4指從第3 層特征圖整合到第4 層特征圖,兩者的下采樣均采用了 1 ×1 卷積核以及相對應大小的池化層來完成。
2.2.1 損失函數
在神經網絡的訓練過程中,通過最小化損失函數并不斷縮小誤差才能獲取最優模型。本文算法為了構造有效的損失函數,對搜索區域內的位置點進行了正負樣本的區分,即認為目標一定范圍內的點是正樣本,認為這一范圍外的點是負樣本,損失函數為邏輯回歸損失,具體的損失函數形式如下,最終的卷積響應圖中每個點的損失為

式中:v是卷積響應圖中每個點真實值;y∈{+1,-1}是這個點所對應的標簽。式(1)描述的是卷積響應圖中每個點的loss 值,卷積響應圖的整體loss,使用全部點loss 的均值描述,即:

其中u∈D代表卷積響應圖中對應點的位置。
2.2.2 卷積響應相關度函數
提取到目標模板和待跟蹤圖像的特征后,由卷積響應的相關度計算相似度,其中相似度函數選用交叉相關函數,如下所示:

式中:z代表輸入模板圖像;x代表輸入待跟蹤圖像; φ 是提取特征的網絡。將 φ (z) 作為卷積核,在φ(x) 上進行卷積,相似度大的地方,卷積響應值就大,對應的就是目標z在x中的位置。
2.2.3 非線性激活層
神經網絡中的非線性激活函數主要是為了給神經網絡加入一些非線性因素,使得神經網絡可以更好地解決較為復雜的非線性問題。ReLU函數實際上是一個分段的線性函數,小于零的輸入都會得到零輸出,而正值則保持不變,類似于單側抑制[9]。而ReLU 的非線性正是通過這種類似單側抑制的方法,增加了神經網絡參數的稀疏性。由于ReLU 在正數區間為常數形式,在負數區間為零,所以不存在由于梯度過小而發生梯度消失的情況,函數形式如下:式中x為神經元的輸出。ReLU 非線性激活函數相較于需要計算指數的Sigmoid 函數來說,實質是一個比較函數,計算量很小,針對神經網絡中龐大的神經元計算量來說,大大提高了效率,同時也避免了梯度消失問題。

在目標跟蹤過程中,一個重要的難點就是當目標遇到遮擋或飛出圖像后,如何在其再次出現或重新進入圖像時繼續進行跟蹤。很多目標跟蹤算法為了節省計算時間,提高跟蹤幀率,在跟蹤過程中不對跟蹤器做在線修改,但是這樣就無法應對跟蹤場景與目標發生劇烈變化的情況。此外,還有一部分跟蹤算法在目標丟失時使用局部搜索策略,只在最后識別到目標的圖像位置附近做搜索,無法應對長時跟蹤時難以避免的目標完全遮擋和離開圖像的問題。
O’Rourke 對于紅尾鷹、庫氏鷹和美洲隼這3 種日行性猛禽的感受野結構的研究結果顯示,這些不同物種的日行性猛禽的感受野結構上的差異與捕食采用的搜索策略以及在環境中的視覺障礙角度(例如棲息地的開放程度)相關,而不同物種間的眼動角度差異則與覓食策略相關。此外,猛禽雙目區域和視覺盲區的大小會由于眼動產生巨大差異,物種間的視覺區域和眼動則會影響棲息過程中的搜索和獵物追蹤策略[10]。在視場角有限的情況下,盡量利用雙凹的視覺敏銳度可變特性,結合眼動與頭動調整最高視覺敏銳度的視野位置,實現對于目標的搜索[11]。這種搜索策略不僅適用于目標不確定情況下的目標分辨,也同樣適用于目標遮擋或從場景中消失再入的重新搜索情況。
根據猛禽的雙凹?眼動特性,設計一種局部?全局的搜索策略,用于長時目標跟蹤。圖像通過模擬交叉通路的神經網絡得到卷積響應圖后,對圖像中響應區域求取均值,得到圖中n個備選目標區域。使用非極大值抑制(non-maximum suppression,NMS)[12]方法,選出當前圖像中響應值最大的目標,即st,然后選出圖像中k個非極大響應區域r進行重新排序,得到最終選擇的目標備選序列q有:

式中:f(·) 表示計算兩個響應區域之間的相似性,也即響應大小的差異;R為選擇的r個非極大值響應區域的集合; α? 為控制全部非極大響應區域對下一幀圖像影響的總權重系數; αi為控制單個非極大響應區域對下一幀圖像影響的權重系數。從式(5)可以看出,這一步驟的意義在于當前響應區域和極大響應區域之間計算相似度后,減去當前區域與全部備選響應區域相似度的加權和。也即,猛禽在利用雙凹大視場確定視覺注意區域后,通過快速眼動逐一對比排除非最佳目標的注意區域,并對部分區域進行記憶,用于后續排除目標。由于每次計算的時間復雜度和空間復雜度較高,為了降低時間和空間復雜度,根據式(3)可將式(5)寫為

以學習率 βt對目標模板和干擾項進行增量學習,如式(7):

式(7)通過將現有的相似性矩陣轉移到另一個特定的域內降低計算量,加快了算法的運行速度。
當目標由于遮擋等原因在原位置消失,或脫離圖像范圍再次進入時,用深凹?淺凹的視覺焦點轉移方式,擴大聚焦范圍,重新在淺凹對準的更大范圍內搜索確定目標,也就是目標跟蹤過程中的再入搜索。在本跟蹤方法中,對響應區域的得分設定門限值,當圖像極大響應區域的得分均低于門限值時,認為目標從當前圖像中消失,需要進行再入搜索。以當前幀計算確定的候選響應區域中得分最高的區域作為搜索中心,以固定步長為擴大搜索半徑,逐步擴大目標搜索區域,直至找到目標或完成對序列中全部目標的擴大搜索。
在視覺目標跟蹤(Visual Object Tracking,VOT)2017 數據集[13]上對本文算法進行測試,并與ECO[14]、DLT[15]、互補學習(staple)[16]和全卷積孿生網絡(fully-convolutional siames network, Siam-FC)[17]進行對比。在使用NMS 方法選定候選目標時,留選得分在0.8~0.95 之間的目標作為候選目標,式(5)中總權重系數 α? 設置為0.5,單響應區域的權重系數 αi設置為1。式(7) 中學習率其中 η =0.01。對于再入目標的擴大搜索,根據候選區域的得分,當區域得分小于0.8 時,認為目標從圖像中消失,則以這一區域為搜索中心,68 像素為擴大搜索半徑在擴大的搜索范圍內重新尋找目標,當得分大于0.95 時認為重新尋找得到目標。結果如表3 所示,其中準確率是指算法目標跟蹤結果的精確度,也就是圈選出的目標框與實際真值之間的交并比。當圈選位置與目標之間沒有重疊時,認為跟蹤失敗,并在5 幀后重新初始化跟蹤器,失敗次數占視頻總數的比例就是魯棒性。平均覆蓋率是VOT 數據集定義的量化準確率與魯棒性平衡結果的指標,跟蹤精度與連續跟蹤幀數都在這一指標中有所體現。

表3 算法在VOT2017 數據集結果對比Table 3 Performance comparison on VOT2017
如表3 所示,本文所述方法跟蹤精度僅略遜于Staple,魯棒性與ECO 相當,但是平均覆蓋率結果最好,可見本方法對于精度與魯棒性的平衡結果較好。由于空中加油問題后續對于跟蹤區域進行進一步的計算,所以跟蹤精度并不會對加油任務的完成造成太大影響。
針對自動空中加油問題,搭建了基于旋翼無人機的空中驗證平臺。使用兩架旋翼機模擬軟式空中加油過程中的加油機與受油機。模擬加油機上搭載錐套標識,模擬受油機搭載攝像頭,采集加油機與錐套圖像,并進行跟蹤。跟蹤結果如圖4所示。
可以看出,當目標較為穩定地存在于圖像中時,本文所述方法可以連續并且準確地對目標進行跟蹤,如圖4(a)所示;即使目標在圖像中變得較小,并且與背景區域相近,本文所述方法仍能夠對實現對目標存在一定形變與誤差的跟蹤,如圖4(b)所示;當目標從圖像中消失時,本方法可以根據雙凹搜索策略,對目標進行擴大范圍的搜索,如圖4(c)所示;當目標再次出現在圖像中時,可以重新搜索得到這一目標,進行繼續跟蹤,如圖4(d)所示。

圖4 目標跟蹤結果示意圖Fig.4 Result of the target tracking
對于目標跟蹤的精度進行定量分析,比較每一幀圖像中目標的中心坐標和跟蹤區域的中心圖像坐標,計算出兩者間的像素誤差,所得結果如圖5 所示。

圖5 目標跟蹤誤差曲線Fig.5 Curve of target tracking error
圖5 中橫坐標為目標跟蹤序列的幀數,縱坐標為以像素為單位的目標的跟蹤誤差。從結果中可以看出,在跟蹤開始時,對目標的跟蹤比較穩定,但隨著目標的遠離,跟蹤誤差變大,但是在跟蹤的全過程中,跟蹤區域的中心和目標中心相差50 個像素以內。此外,值得一提的是,使用NVIDIA 1080Ti 的GPU,CPU 為i7-8700k 的地面處理器進行離線跟蹤測試時,本文所述方法的計算速度可達110 f/s。
此外,由于本方法同樣適用于多目標跟蹤問題,針對自主空中加油過程中的伙伴加油問題,測試了本方法對于多目標的跟蹤情況,結果如圖6所示。

圖6 目標跟蹤結果示意圖Fig.6 Result of multi target tracking
圖像序列中共存在5 架無人機,圖6(a)為跟蹤的起始幀,圖6(b)中存在兩個目標的重合,此時跟蹤過程產生了一定誤差,當兩個無人機在圖像中分離后,可以重新實現對兩個目標的跟蹤,如圖6(c)所示。圖6(d)所示,無人機的位置與背景中其他物體接近產生誤識別后,仍可以在目標與背景位置分割開后實現重新跟蹤,如圖6(e)。多目標跟蹤的誤差曲線如圖7 所示。
圖7 中視頻序列中5 架無人機均保持在圖像中。從多目標跟蹤誤差結果曲線可以看出,在跟蹤過程中,存在同背景混淆而造成的誤識別導致對無人機5 的跟蹤產生較大誤差,此外整個跟蹤過程中的跟蹤誤差都較小,基本維持在20 個像素左右,跟蹤效果較好。使用NVIDIA 1080Ti 的GPU,i7-8700k 的CPU 進行5 個目標的跟蹤任務時,處理速度可達45 f/s。

圖7 多目標跟蹤誤差曲線Fig.7 Curve of multi target tracking error
猛禽視覺系統作為其最強大的感知系統,能夠處理很多相對復雜的視覺信息,猛禽獲取周圍物體的顏色和形狀等屬性、物體的位置和物體之間的相對位置關系以及發現并穩定跟蹤目標的機制,可以為解決自主空中加油過程中的相關任務提供部分思路。
本文對猛禽視覺通路中的一個環節—視頂蓋的信息整合與交互處理進行了模擬,并根據其雙凹與眼動的視覺特性建立了較為簡單的神經網絡用于目標跟蹤。模擬自主空中加油系統中的視覺導引階段進行了測試,驗證了本文所述方法對于受油目標跟蹤的有效性,特別是對于長時跟蹤任務可能出現的目標從場景中丟失與再入環節,本文所述方法具有一定的優越性。由于本算法的計算速度較快,圖像處理幀率較高,對于跟蹤過程中出現的跟蹤位置誤差問題,還可以考慮通過增加圖像采集幀率減小兩幀之間目標運動距離的方式解決。