機載平臺下基于深度檢測網絡的目標跟蹤重捕算法

2020-07-28 06:32:08程小輝王新政

紅外技術 2020年7期

沈旭，孟巍，程小輝，王新政

（1.嶺南師范學院信息工程學院，廣東湛江 524048；2.山東電力科學研究院，山東濟南 250012； 3.桂林理工大學信息科學與工程學院，廣西桂林 541004）

0 引言

無人機具有高度的靈活性和可操作性，廣泛應用于視頻監控、態勢感知、應急響應等領域[1]。目標檢測與跟蹤是機載光電設備至關重要的功能模塊，其檢測跟蹤的性能直接關系到目標感知的精度[2]。

目標跟蹤是對視頻序列的分析，其過程是在第一幀中選擇目標，然后通過跟蹤算法逐幀從序列中找到與所選目標相同的區域作為跟蹤目標[3]。盡管機載目標跟蹤算法已經取得了優異的跟蹤效果，尤其是彩虹系列無人機可以實現地面大尺寸目標的穩定跟蹤，但由于機載平臺的抖動、翻滾和視角突變、背景雜波、目標旋轉、快速運動和變形，這使得機載目標跟蹤仍然是一項艱巨而富有挑戰性的任務。現有的目標跟蹤算法可以分為基于人工低層次特征的目標跟蹤與基于深度高層次特征的目標跟蹤，前者是通過手工設計的算子提取低層次特征；后者則是用深度網絡去學習目標的高層次特征，但最終都是采用生成（Generative）模型或判別（Discriminative）模型實現跟蹤[4]。雖然深度模型獲取的深度特征提高了目標的表征能力，但同時也增加了算法的復雜度。

為了實現復雜場景下機載跟蹤算法的精度與速度的平衡，國內外專家提出了許多有效的算法。基于判別模型的核相關濾波器[5]是目前速度與精度都非常高的算法，該算法利用初始樣本循環移位構建循環矩陣，并采用嶺回歸獲取傅里葉域最優魯棒濾波器，實現目標跟蹤。然而，循環移位獲取的樣本存在邊界效應，產生無效負樣本，影響跟蹤精度。

隨著深度學習在識別、分類等信號處理領域的不斷滲透，一些學者開始嘗試將深度學習應用于目標跟蹤領域，DLT（Deep Learning Tracker）[6]是第一個將深度模型應用于單目標跟蹤的跟蹤算法，該方法是在粒子濾波框架下引入稀疏自編碼模型作為測量分類器，需要海量的數據進行離線訓練與在線微調。FCNT（Fully Convolutional Networks for Tracking）[7]和HCFT （ Hierarchical Convolutional Features for Tracking）[8]則是利用VGG-Net 在大規模分類數據集上訓練模型，獲取目標的特征表示，并將觀測模型用于分類以獲得跟蹤結果，雖然這些方法避免了在線訓練海量樣本的不足，充分利用了深度特征的強大表征能力。但由于分類任務更加關注目標與背景之間的差異，因此這種經過預訓練的網絡會忽略類內的差異，造成跟蹤精度不如 KCF（Kernelized Correlation Filter）、TLD（Tracking-Learning-Detection）等跟蹤算法[9]，其跟蹤速度也不高。Siamese 跟蹤網絡[10]是目前深度模型中實時性較高的跟蹤性算法，該網絡提取搜索區域與模板的特征，輸入到相似度量函數里計算相似度，實現目標跟蹤。

雖然近年來基于Siamese 網絡的跟蹤算法在各種挑戰性的數據集上取得了優異的效果，但大多數Siamese 跟蹤算法采用局部搜索策略，無法更新模板，且模板會引入背景干擾，最終因跟蹤點漂移而導致跟蹤失敗。為了解決這些問題，本文提出了一種結合目標邊緣檢測的改進全連接Siamese 跟蹤算法，該算法利用目標的輪廓模板代替邊界框模板，減少了背景雜波的干擾；同時，在Siamese 網絡的基礎上增加了一路目標檢測分支，不僅能夠獲取目標的邊界，還能增加抗遮擋能力，提高機載光電設備的目標捕獲概率。

1 算法基礎

1.1 HED 邊緣檢測網絡

邊緣檢測是紅外圖像處理中一個重要的領域，尤其是橋梁、道路、跑道等典型目標大多是以目標的邊緣作為先驗信息進行感知。傳統的邊緣檢測算法是利用微分算子對局部區域的灰度信息進行處理，通過鄰域灰度的波動情況實現邊緣的檢測，但該方法容易受背景干擾。若目標內部紋理信息豐富則很難獲取目標的邊緣輪廓。隨著深度學習為代表的機器學習算法的發展，已經可以提取到封閉的邊緣輪廓[11]。HED（Holistically-Nested Edge Detection）算法[12]是目前邊緣檢測領域的最優算法，該方法是以VGG16 網絡作為基礎網絡，VGG16 含有5 個block，3 個全連接層和1 個softmax 輸出層，前兩個block 分別含有兩個卷積層和一個池化層，后3 個block 分別含有3 個卷積層和一個池化層，HED 邊緣檢測網絡去掉了VGG16 網絡的softmax 層、全連接層和最后一個block的池化層，并將從每一個block 的最后一個卷積層引出一個側邊輸出層，最后將側輸出層融合得到最終的候選區域邊緣圖。HED 網絡在訓練過程中采用了6個類均衡交叉嫡損失函數，如式(1)所示：

式中：Y＋與Y－分別表示邊緣與非邊緣的標簽集合；β是該集合中邊緣標簽樣本的比例因子；m是網絡分支數；Pr可以通過Sigmoid 函數的激活值確定，即：

HED 網絡使用經典的分類網絡架構VGG-16[13]作為基礎網絡，得到的邊緣檢測效果很大程度上己經超過了傳統邊緣檢測算法。若能準確地提取目標的封閉輪廓，就可以獲得目標的尺度特征與內部紋理信息。在紅外目標跟蹤過程中，由于紅外圖像對比度過低，目標特性難以捕捉。本文提出的跟蹤算法采用HED 邊緣檢測網絡檢測目標的邊緣，獲取目標的封閉外輪廓，從而確定目標的尺度，也能夠對目標的位置進行進一步的修正，提高目標跟蹤精度。

1.2 Siamese 全卷積跟蹤網絡

Siamese 網絡也稱孿生網絡，是用于衡量輸入樣本相似性度量的網絡架構，該網絡由兩個共享權值參數的相同結構網絡組成。圖1 是Siamese 全卷積跟蹤網絡的模型結構。Siamese 全卷積跟蹤網絡采用Alex Net 作為基本網絡，該網絡可以對輸入的模板z與搜索區域x進行深度特征編碼[14]，然后對獲得的深度特征進行交叉相關，最終獲得響應矩陣，如式(2)所示：

式中：φ是去掉全連接層的AlexNet 網絡[14]；g(·)是卷積操作；f為最終獲取的相似性響應矩陣。為了獲得準確的目標定位，對響應圖f進行非線性插值，得到與原圖尺寸一樣的響應圖。最大的響應值為預測到的最終目標位置，最終實現目標跟蹤。

Siam FC 網絡結構包括兩個相同的特征提取網絡，每個特征提取網絡為包含7 個卷積層，2 個全連接層的深度卷積網絡，該網絡對特征提取網絡中的卷積層和全連接層的數量并不做限制，但是要包含卷積層和全連接層。Siam FC 僅僅利用孿生網絡獲取了深度特征，其跟蹤過程仍然采用的相關匹配選最優的方法。跟蹤性能的提升主要是以下兩方面：深度特征提升了目標的表征能力，進一步增強了跟蹤的精度；跟蹤過程中不進行在線更新，加快了跟蹤速度。

然而，跟蹤過程不更新模板，意味著長時間跟蹤過程中模板不會隨著目標狀態而自適應刷新。另一方面，Siam FC 獲得的相似性響應圖是由相似性矩陣上采樣插值得到，存在較大的定位誤差，且目標的尺寸很難確定。

2 改進Siamese 跟蹤網絡模型

2.1 總體模型框架

由于HED 邊緣檢測網絡可以獲取目標準確的封閉邊界，只要選定目標就可以知道目標的輪廓，不僅可以提升系統反應時間，還能通過封閉輪廓提升目標的跟蹤能力。當目標灰度突變、部分遮擋、姿態變化時，采用輪廓模板可以增強系統的抗干擾能力。因此，本文提出了一種結合目標邊緣檢測的改進全連接Siamese 跟蹤算法，該算法利用目標的輪廓模板代替邊界框模板，減少了背景雜波的干擾；同時，在Siamese 網絡的基礎上增加了一路目標檢測分支，不僅能夠獲取目標的邊界，還能增加抗遮擋能力，提高機載光電設備的目標捕獲概率。

2.2 尺度自適應輪廓模板更新

模板是現有跟蹤算法的基準，模板的準確性直接關系跟蹤性能，錯誤的模板會降低場景匹配適應性，導致跟蹤失敗。模板更新可以分為固定幀更新、逐幀更新及自適應更新。機載設備跟蹤過程目標存在姿態突變、遮擋、光照、運動模糊等干擾影像，其模板只有隨著環境變化而刷新，才能獲取穩定的跟蹤性能。圖2 是車輛在不同環境下的跟蹤結果，白色是逐幀刷新的相關跟蹤算法[15-16]，黑色是模板不刷新的結果。可以看出，目標在機動運動過程中，由于姿態與運動模糊，目標的形狀發生了較大變化，尤其是46 幀時目標與路邊的背景灰度類似，且目標的尺度逐漸變小。只有刷新模板才能更適應狀態的變化。

理想的模板應該完整的包含目標，并盡可能降低引入背景信息。然而現有的模板都是以邊界框的形式表征目標的模板，由于目標的不規則性，不可避免會引入背景信息。相比之下，輪廓特征清楚地表征了目標的尺度、形狀與位置信息。若能用目標的輪廓模板代替傳統模板，不僅能獲取準確地目標尺度信息，還能有助于提高目標匹配跟蹤精度。

2.3 輪廓提取網絡

受HED 側邊輸出層結構的啟發，本文提出采用一種具有特征重提取功能的邊緣檢測網絡，如圖3 所示，該網絡包含基本網絡、側邊輸出模塊以及融合模塊。

圖1 Siamese 全卷積跟蹤網絡Fig.1 Siam FC tracking network

基本網絡模塊主要是提取深度特征，常用的網絡架構有 VGG16 ， VGG19[17]， ResNet-50[18]，ResNet-101[19]等。本文選用VGG16 用作邊緣提取基本網絡。雖然VGG19 和ResNet 網絡獲得的深度特征表征能力更強，但其網絡深度與參數數量比VGG16 大得多，需要花費大量的時間進行網絡訓練與微調，影響邊緣檢測的實時性。原始的VGG16包含5個卷積層，每一層連接一個步長為2 的池化層，獲得不同感受野的特征圖。表1 展示了每個卷積層的感受野的大小。在VGG 網絡中，不同的卷基層包含不同的層次的深度特征信息。特別是在較深的層次上，HED 網絡中的邊緣輸出更容易受到密集邊問題的影響。例如，Stage 3表達圖像紋理特征，Stage 5 包含圖像類別信息等。因此，從每個層次提取的特征信息不能直接作為目標邊緣輪廓，需要對輸出邊界進行細化，以生成清晰和準確的目標輪廓。為了生成邊緣圖像，需要將各卷積層提取的不同層次信息映射到邊緣像素空間。

側邊輸出模塊由特征重新提取模塊和上采樣層組成。在輪廓檢測網絡中，特征重提取模塊連接在基本網的conv2_2，conv3_3，conv4_3 和conv5_3 層之后，可以將特征映射到邊緣像素空間中。考慮到GPU顯存的限制，conv1_2 僅連接1×1×1 卷積層以減少特征維度并實現特征融合。特征重提取模塊由3 個卷積層組成，分別為1×1×32、3×3×32 和1×1×128。在網絡的末端，特征融合模塊使用卷積1×1 卷積核生成最終的邊緣檢測圖像。

圖2 目標尺度逐漸變小導致跟蹤失敗, 其中(a), (b)和(c)為不同幀下的跟蹤結果Fig.2 Tracking failure with scale change of object appearance, where (a), (b)and(c)are the results of different frames

圖3 輪廓提取網絡Fig.3 Contour-extraction networks

表1 輪廓檢測網絡中每層參數設置Table 1 The parameter setting of each layer in contour extraction network.

2.4 目標檢測網絡

機載光電設備在實時搜跟目標的過程中，陰影變化、目標重疊、遮擋、形變、旋轉等干擾會直接影響跟蹤的精度。尤其是地面運動目標在穿越樹林，建筑物的過程中，目標會出現短暫丟失的現象。雖然大多數算法具備抗干擾能力，但如何重捕目標是光電跟蹤系統研究的熱點問題之一。目前大多數策略采用的全視場搜索檢測，如相關配準、R-CNN、SSD 和YOLO等算法。YOLO 是近年來精度與效率最優的目標檢測算法，該算法將目標檢測視為回歸問題，一次CNN計算就可以實現目標在端到端網絡上的位置和分類，但對小目標的檢測精度較差，不適應機載光電設備遠距離跟蹤弱小目標。為了提升光電平臺的目標重捕能力與小目標的檢測能力，本文在tiny-YOLOv3 網絡[20]的基礎上提出了一種改進的目標檢測網絡，利用K 均值聚類找到最合適的錨框（anchor box），在空洞卷積（dilated convolution）啟發下引入了擴張模塊層來擴展感受野，并增加了基本網絡的深度，以便可以提取更多的語義信息，從而滿足了機載空對地復雜環境下弱小目標檢測與目標重捕的需求，其基本網絡模型如圖4 所示。

傳統的K均值聚類方法使用歐氏距離函數，這意味著較大的錨框比較小的錨框具有更多的誤差，并且聚類結果可能會發生偏差。為此，本文采用IOU 得分來評估聚類結果，從而避免了由框的大小引起的誤差。距離函數可以通過以下公式計算：

式中：box 與centriod 分別表示候選樣本框與聚類中心，IOU 是候選框與原始標記框的重疊率。K均值聚類方法用于比較具有不同K值的IOU 分數，考慮到模型的復雜性，本文最終選擇K值為6。

2.5 基于自適應輪廓模板的Siamese 目標跟蹤網絡

機載平臺逼近目標以及目標高機動不規則運行時，目標的尺度是時刻變化的，傳統的Siamese 跟蹤網絡很難進行長期穩定的目標跟蹤。尤其是視場中存在多個類似目標的情形，跟蹤過程中目標易被相似背景干擾。對于大多數改進的Siamese 跟蹤網絡，如GOTURN（Generic Object Tracking Using Regression Networks）和Siam FC，通過金字塔策略進行多尺度目標融合，可以提升跟蹤精度，但也會損失小目標特征信息，并導致目標尺度降低，引入更多背景信息。本文提出了一種基于自適應輪廓模板Siamese 跟蹤網絡。

現有的改進的Siamese 跟蹤網絡通常選擇以上一幀的跟蹤結果作為搜索區域的中心，并從當前幀圖像中提取一塊固定大小的圖像塊作為搜索區域，若目標位于視場邊緣則可能無法跟蹤到最優區域，因此采用輪廓模板將最大限度降低干擾的影響，利用相關層作為融合張量，提高了融合張量的準確性。

針對滑窗搜索的不足，本文提出采用稀疏區域搜索，減少計算冗余；同時，根據卷積神經網絡在不同的特征層的感受野不同，可以將不同層次的特征進行融合，實現多層次多尺度目標特征表示；為了獲得更精確的位置估計，在網絡末端預測置信度的基礎上增加了位置回歸模塊，建立端對端的網絡結構。

3 實驗結果及其性能分析

3.1 實驗設置及其性能評價指標

本文提出的改進Siamese 跟蹤網絡采用Python3.5作為開發語言，Tensor Flow 作為深度學習框架。實驗平臺選用多核Intel Xeon，最高頻率達2.4 GHz，以及多張GTX 1080Ti GPU 顯卡的服務器。離線訓練數據是用于檢測任務的ILSVRC2015，測試視頻來自當前目標跟蹤中常用的DARPA VIVID[15]，OTB 2015，VOT-TIR 2016, 以及掛飛收集的自建數據庫。為了便于性能分析，所有數據都進行逐幀尺度與位置標注，并按干擾狀態進行分類。

圖4 目標檢測網絡框架Fig.4 Main framework for object detection model

網絡的基礎骨干網包括5 個從Alexnet 網絡派生的卷積層。值得注意的是，Alexnet 網絡包括5 個卷積層，其中前兩個卷積層后面是一個最大池化層。除第五卷積層之外，每個卷積層后面都有一個ReLU 層。在訓練期間，在每個ReLU 層之前使用批歸一化以減少過度擬合。

中心誤差（Center Error，CE）與重疊率（Overlap Rate，OR）是衡量跟蹤性能的主要定量指標，前者是表征跟蹤點與基準點之間的差異，誤差越小，表明跟蹤點越接近理想狀態，但不能衡量跟蹤目標的尺度變化；后者則是衡量跟蹤區域與基準區域之間的重疊率。由于不同閾值下，定量分析存在較大差異。因此，本文采用精確度圖和成功率圖定量分析算法性能，其中前者表示平均中心誤差在測試序列上的整體跟蹤性能，后者表征重疊率大于給定的閾值下的幀數比例[21]。本文選用位置誤差為20，重疊率為0.5 作為跟蹤成功閾值。

3.2 參數設置

本文提出的改進跟蹤網絡分為3 部分：輪廓檢測網絡，目標檢測網絡與Siamese 跟蹤網絡，各網絡模型的基本網絡參數與原模型保持一致，其中學習率η設定為0.001。Siamese 網絡在離線訓練期間，所有卷積層都將更新。進行在線更新后，淺層卷積層參數保持固定，最后兩個卷積層將根據測試數據進行微調。采用峰值旁瓣比選用最優跟蹤點，歸一化響應的閾值設置為0.65。若回歸響應分數小于0.65，則認為跟蹤失敗，則利用改進的tiny-Yolov3 實時執行目標檢測網絡，重捕最優目標。

3.3 定性定量分析

為了定性定量分析本文提出的改進Siamese 深度模型的目標跟蹤算法的應用性能，Siam FC，DCF Net[22]，CF Net[23]，Siam RPN[24]，KCF 和DKCF[25]，其中前4種對比算法是基于Siamese的改進算法，KCF是基于判別模型的核相關算法；DKCF 是將核相關濾波嵌入到深度網絡中，以端到端的方式學習目標的深度特征，并進行目標跟蹤。由于選用的基準數據集已經標注了目標大小與位置，為了便于對比分析，本文提出的算法跟蹤點由第一幀的基準點給點，但其目標大小由輪廓檢測模型自適應計算。圖5 展示了不同算法在基準數據集上的平均準確度圖和成功率圖。表2展示了位置誤差為20，重疊率為0.5 下不同算法的定量指標。

從圖5(a)可以看出，本文算法可以大部分情況下超過其他基準算法，其精度為0.8421，AUC 為0.8631，與Siam FC相比分別提高了29.4%和11.9%。由于Siam FC 是在第一幀中標記目標，獲取目標，在跟蹤期間不再更新，因此不能適應目標變化，抗干擾能力較弱。本文提出方法的性能僅次于Siam RPN，在目標快速運動，背景干擾，旋轉，遮擋，光照變化等挑戰序列中表現出色。Siam RPN 在Siamese 網絡之后添加了額外的區域提取網絡來細化邊界框，而本文算法在Siamese 網絡基礎上增加了一路輪廓檢測網絡，用于獲取目標的輪廓信息，并利用輪廓模板降低干擾因素的影響。值得注意的是，本文提出的算法中有一路目標檢測網絡，用于跟蹤丟失后目標重捕。實驗結果可以看出，一旦目標從穿出遮擋物，本文的算法很容易檢測到目標，并再次啟動跟蹤模型進行逐幀跟蹤。但若目標附近存在多個類似目標時，存在誤跟蹤，主要是本文模型沒有考慮軌跡預測，而其他算法一旦丟失目標則完全不能重捕。因此，基準序列定量分析結果表明本文算法能夠準確地定位模板，減少了跟蹤點漂移現象。

圖5 不同跟蹤算法的跟蹤性能對比Fig.5 Comparison of tracking performance for different tracking algorithms

表2 跟蹤結果定量對比，其中位置誤差為20，重疊率為0.5Table 2 Quantitative comparison of tracking results, where the location error is 20 and the overlap rate is 0.5

本文提出的算法通過離線訓練來學習類似目標的共性特征，采用在線訓練來捕捉當前目標的個性特征，提高了復雜背景下目標特征的辨別能力。為了驗證這一點，本文從基準數據與掛飛數據中選擇了6 個具有多種復雜干擾場景的序列進行跟蹤測試，并且與所選的對比算法進行了比較。從圖6 可以看出，所提出的算法對于大多數復雜場景都是魯棒的，尤其是對于跟蹤丟失后的目標重捕，具有較高的重捕概率。為了可視化定性分析本文算法的跟蹤性能，本文選擇幾段序列的跟蹤結果進行定性分析。圖6(a)場景是對地面運動車輛的跟蹤過程，主要挑戰是背景中多個類似目標，目標本身的快速移動導致跟蹤模糊，且出現多次全遮擋現象。一旦目標被完全遮擋，本文算法將在視場中心顯示一個黑色邊界框，表明跟蹤目標丟失，進入目標重捕狀態。從跟蹤結果可以看出，KCF 與DKCF 的跟蹤波門已經偏離目標中心。Siam RPN 跟蹤效果與本文提出的算法類似，但本文算法具有重捕功能。Siam FC 則偏離了目標中心，在目標模糊時突然跳轉跟蹤到道路邊緣的樹冠。

圖6(b)圖像序列的跟蹤目標是地面運動的黑色車輛，由于視角差異導致目標外形變化較大。除CFNet，SiamRPN 和本文方法外，其他跟蹤算法都丟失了目標。盡管SiamFC 在跟蹤丟失后又在67 幀重新跟蹤上目標，主要是由于67 幀目標的狀態與建立模板的狀態類似，其目標正好進入SiamFC 的搜索區域。本文提出的一種結合目標邊緣檢測的改進全連接Siamese跟蹤算法能夠在長期跟蹤中更好地適應目標的變形和遮擋，特別適合機載光電設備在捕獲復雜環境下的運動目標，增強機載裝備態勢感知、對地觀瞄與跟蹤的應用效果，提升系統響應時間與適應性。

4 結論

本文結合了目標檢測網絡、輪廓提取網絡和全卷積Siamese 跟蹤網絡的特點，提出一種有效的機載光電系統目標跟蹤算法，該算法利用目標的輪廓模板代替邊界框模板，減少了背景雜波的干擾；同時，在Siamese 網絡的基礎上增加了一路目標檢測分支，不僅能夠獲取目標的邊界，還能增加抗遮擋能力，提高機載光電設備的目標捕獲概率。在tiny-YOLOv3 網絡的基礎上提出了一種改進的目標檢測網絡，利用K均值聚類找到最合適的錨框，引入了擴張模塊層來擴展感受野，并增加了基本網絡的深度，實現目標重捕的需求。仿真試驗結果表明本文提出的改進模型特別適合機載光電設備在捕獲與跟蹤復雜環境下的運動目標，具有較高的工程應用價值。

致謝

本項研究得到了桂林中電科三十四所提供的幫助，在此表示感謝。

圖6 不同對比算法對視頻序列的跟蹤結果Fig.6 Tracking results for different models