基于改進MDNet 的視頻目標跟蹤算法①

2022-06-27 03:54:10曹建榮張玉婷朱亞琴武欣瑩楊紅娟

計算機系統應用 2022年5期

關鍵詞：實驗

曹建榮, 張玉婷, 朱亞琴, 武欣瑩, 楊紅娟

1(山東建筑大學信息與電氣工程學院, 濟南 250101)

2(山東省智能建筑技術重點實驗室, 濟南 250101)

目標跟蹤作為計算機視覺中的關鍵問題之一, 已經被廣泛應用于視頻監控、人機交互、無人駕駛等領域. 目標跟蹤是根據視頻幀序列第一幀的目標位置來預測后續幀中的目標位置, 不僅需要把跟蹤目標所在的空間位置在視頻序列中標注出來還需要將連續的視頻幀中標注出的目標中心點連接以得到運動軌跡[1].

目標跟蹤分為生成式和判別式兩類方法. 生成式方法通過最小化跟蹤目標和候選目標之間的重構誤差來確認目標, 比較常見的算法有卡爾曼算法、粒子濾波算法、光流法等. 而判別式方法是以當前幀目標區域為正樣本、當前幀背景區域為負樣本訓練分類器,下一幀用訓練好的分類器尋找最優的目標區域. 判別式方法的最新發展就是相關濾波類方法和深度學習類方法, 這兩個方向的算法是當前跟蹤算法中的研究熱點. Bolme 等人開創性地將相關濾波技術引入到目標跟蹤領域, 提出了一種誤差平方和最小的濾波器MOSSE跟蹤算法[2], 不同于只是簡單使用模板跟蹤的算法, 其濾波器是通過首幀的目標訓練而得的, 遮擋時能夠根據跟蹤是否失敗來決定是否更新濾波器參數, 以自適應于目標的變化. KCF 算法[3]是通過基于核化的嶺回歸分類器使用循環移位得到的循環矩陣來采集樣本,利用循環矩陣的性質降低運算量以提高算法實時性.C-COT 算法[4]將不同空間分辨率的特征圖插值到連續空間域, 將多尺度與深層語義信息結合起來, 可以更好地應對尺度變化時的模型漂移.

近年來, 隨著深度學習在目標檢測、實例分割等多方面研究中取得了令人矚目的成果, 基于深度學習的目標跟蹤研究也越來越多. 現有的針對目標檢測、實例分割等預訓練的網絡需要區分出較多類的目標,但在跟蹤問題中, 網絡只需要區分前景和背景兩類目標, 太復雜的網絡會增加計算量, 降低算法的實時性.卷積神經網絡(CNN)憑借其對特征強大的表示能力和高效的提取方式, 逐漸應用于計算機視覺領域. 在目標跟蹤任務中, 出現了眾多基于CNN 的深度學習算法,其致力于對目標表征能力的強化, 例如樹結構卷積神經網絡(TCNN)[5]用了樹結構來組織多個CNN 構成網絡, 模型按照樹結構中的路徑進行在線更新, 提高了模型可靠性; 結構感知網絡(SANet)[6]將CNN 與循環神經網絡(RNN)融合, CNN 用來提供目標物體和背景之間的判別性, RNN 用來提供目標物體與相似物之間的判別性, 以此增強模型對相似目標的分辨能力; 全卷積孿生網絡(SiamNet)[7]利用相同的兩個CNN 進行相似度的比較, 成功地將跟蹤問題轉換為相似度學習問題;對抗學習跟蹤算法(VITAL)[8]用到了生成對抗網絡(GAN)算法[9]的思想, 在CNN 的基礎上引入了對抗特征生成器, 有效提高了網絡性能, 成功將GAN 應用到目標跟蹤領域.

基于遷移學習[10]思想的多域卷積神經網絡(MDNet)[11]是CNN 應用于深度目標跟蹤最具有代表性的算法之一. MDNet 算法通過多域學習的網絡結構, 利用網絡的卷積層學習不同視頻中的通用特征, 利用多分支全連接層分別學習不同視頻的高層特征, 候選框的選取部分借鑒了RCNN[12], 具有很高的跟蹤準確率. 但一般來說, 跟蹤模型會隨著目標的變化而穩定變化, 當目標出現一些復雜情況時, 模型更新會使得模型的可靠性降低, 用這樣的模型去進行后續的跟蹤, 很難重新準確定位目標; 跟蹤問題中, 每幀的正樣本在空間上高度重疊,不能捕獲豐富的外觀變化, 并且正樣本和負樣本極度不平衡. 本文在MDNet 算法基礎上提出了一種基于候選框置信度與坐標方差閾值判斷相結合的模型更新方法, 使其正樣本在正確的基礎上更加豐富, 其次將原算法的交叉熵損失函數改進為效果更好的focal loss 損失函數. Focal loss 最初由Lin 等人[13]提出, 是一種改進的交叉熵損失函數, 用于解決目標檢測領域數據極不平衡的問題, 并且在同一論文中成功應用于RetinaNet算法中, 后來逐漸被應用于語義分割、目標跟蹤等任務中.

1 MDNet 算法原理及損失函數

1.1 MDNet 算法原理

如圖1 所示, MDNet 算法使用多域學習的網絡結構, 輸入是107×107 的RGB 圖像, conv1-conv3 卷積層和fc4、fc5 全連接層構成網絡共享層, fc61-fc6k全連接層為特定域層, 每個視頻序列都對應一個域. 訓練時,用不同的視頻序列訓練得到網絡共享層, 追蹤一個新目標時, 網絡結合共享層和特定域層, 只有對應該視頻序列的特定域層被使用.

圖1 MDNet 網絡結構

MDNet 采用隨機梯度(SGD)的方式進行端到端的離線預訓練. 在離線訓練過程中, 每幀提取50 個正樣本和200 個負樣本, 正樣本與目標框的重疊率≥0.7,負樣本與目標框的重疊率≤0.5. 每一幀圖片, 以上一幀目標的位置為中心, 采用多維高斯分布(寬、高和尺度3 個維度) 的形式采樣256 個候選框, 然后將這256 個候選框輸入到網絡里進行計算. 網絡輸出是一個二維向量, 分別表示輸入的候選框是對應目標和背景的概率. 目標得分概率最高的那個候選框即確定為最終跟蹤到的目標. 計算如式(1)所示.

MDNet 網絡使用長期和短期兩種方式更新. 在線跟蹤時, 當前幀判斷跟蹤成功, 且預測邊界框與真實邊界框重疊率不小于0.7 時, 在目標框周圍按照隨機高斯分布選取50 個正樣本和200 個負樣本, 提取的負樣本與目標框的重疊率不大于0.3. 視頻序列的第一幀中提取500 個正樣本和5 000 個負樣本. 在邊界框回歸中,隨機提取1 000 個重疊率≥0.6 的正樣本. 當預測目標的分數小于0.5 時, 用最近20 幀所收集到的樣本進行短期更新, 每隔10 幀用最近100 幀收集到的樣本進行一次長期更新.

1.2 MDNet 算法的損失函數

MDNet 算法中使用了交叉熵損失函數, 函數公式如式(2):

2 改進MDNet 的視頻目標跟蹤算法

本文基于MDNet 算法提出了一種基于候選框置信度與坐標方差閾值判斷相結合的模型更新方法, 并將原算法的交叉熵損失函數改進為效果更好的focal loss 損失函數.

2.1 基于候選框置信度與坐標方差閾值判斷相結合的模型更新方法

不同于MDNet 算法每幀無差別地在目標框周圍提取50 個正樣本和200 個負樣本進行特征集合的更新, 本文算法為了豐富正樣本, 采取基于候選框置信度的方法選取正負樣本, 根據候選框置信度(即候選框預測得分)排列的top5, 按照隨機高斯分布在5 個候選框周邊都分別選取10 個正樣本和40 個負樣本放入用于更新的特征集合中.

MDNet 算法中, 只要當前幀預測得分top5 候選框的得分均值為正, 則認為跟蹤成功, 對每個跟蹤成功的當前幀目標框周圍都選取符合條件的樣本進行特征樣本集合的更新. 本文算法在判斷是否進行模型更新時,考慮到用當前幀所取樣本進行更新可能會使模型可靠性降低從而導致后續跟蹤性能下降的問題, 設置中心點坐標方差閾值:

2.2 focal loss 損失函數

跟蹤檢測中, 一張特征圖往往會產生成千上萬的候選區, 但絕大多數像素都是背景, 只有少數像素是我們要檢測跟蹤的對象, 而且正樣本的位置比較集中, 第一幀取得的都是在標記的目標附近, 位置比較相近且數量較少, 負樣本取自于圖片中比較分散且數量較多,負樣本的數量遠遠多于正樣本的數量, 正負樣本極其不均衡. 交叉熵損失函數在訓練過程中會傾向于樣本多的類別, 導致對樣本量少的類別判斷性能較差, 針對此問題引入focal loss 損失函數:

其中, α為引入的權重因子, 范圍為[0, 1], γ≥0 為可調節因子,y代表樣本的標簽, 1 為正樣本, 0 為負樣本,pi為判定樣本為正樣本的概率,pt越大, 分類的置信度越高, 樣本越容易分類,pt越小, 分類的置信度越低, 代表樣本越難分. 因此focal loss 相當于增加了難分樣本在損失函數中的權重, 使得損失函數傾向于難分的樣本, 提高了難分樣本的準確度, 因此適用于樣本不平衡的情況.

3 實驗分析

3.1 實驗平臺及數據集

本文算法基于PyTorch 深度學習框架實現, 實驗操作系統為 Windows, CPU 為Intel i7-7700 3.60 GHz,GPU 為NVIDIA GeForce GTX 1050 Ti.

數據集使用OTB100[14]和自己采集的監控視頻數據集的混合數據集, 其中包括OTB100 中80 個完全標注的視頻序列和20 個完全標注的監控視頻數據, 其中涉及背景干擾、光照變化、遮擋、形變、尺度變化、快速運動、運動模糊、移出視野、低分辨率、平面內旋轉和外旋轉11 種視頻屬性.

3.2 評價指標

3.2.1 成功率(Success)

3.3 實驗結果與分析

本實驗包括4 部分: 基于候選框置信度的更新策略對比實驗、坐標方差閾值實驗、損失函數對比實驗、本文算法評估實驗.

3.3.1 基于候選框置信度的更新策略對比實驗

本實驗針對本文提出的基于候選框置信度的更新策略中候選框的選擇數量及分配方法進行了實驗, 分配方法設置正負樣本均分和由多到少分布的兩類實驗.選擇正負樣本的總數量是參考MDNet 實驗中正負樣本分別取50、200 個, 在此基礎上多次實驗, 最終確定了4 個策略的樣本取值. 策略1-4 分別為: (1)得分前5 的候選框對每個框周邊都取20 個正樣本、80 個負樣本; (2)得分前5 的候選框依次對每個框周邊取30、25、20、15、10 個正樣本和120、100、80、60、40 個負樣本; (3) 得分前5 的候選框依次對每個框周邊取15、13、10、7、5 個正樣本和60、50、40、30、20 個負樣本; (4) 得分前5 的候選框對每個框周邊都取10 個正樣本、40 個負樣本.

實驗結果如表1 所示, 可以看出, 策略1 所取樣本是策略4 所取樣本數的兩倍, 精確率比策略4 要低2.46%, 但是成功率只提升了0.07%不明顯, 分析原因可能是, 雖然對得分前5 的候選框周邊取樣本可以增加樣本的豐富性, 但取的樣本數量過多會影響精確度,進而對成功率的提升也有影響, 此結果也側面證明了策略4 所取樣本數量已足夠, 樣本數量過多反而影響結果; 而策略2 和策略3 成功率和準確率均不如策略4, 效果不夠好的原因可能是, 得分越高的候選框取的樣本數越多、得分越低的候選框取的樣本數越少, 對模型更新影響最大的還是得分最高的候選框, 得分第5 的候選框對整個模型的影響非常小, 因此提升效果不明顯. 但策略1、4 在精確率和成功率均優于原算法,因此本實驗可以充分證明基于候選框置信度的更新策略的有效性.

表1 更新策略對比實驗的測試結果

3.3.2 坐標方差閾值實驗

圖2 是對數據集一個視頻序列中當前幀預測得分top5 候選框的位置數據的方差, 圖2(a)-圖2(f)依次是對候選框左上角坐標x1、y1、候選框寬度w、候選框高度h、候選框中心點坐標x2、y2六個數據計算的方差結果. 可以看出, top5 候選框左上角和中心點橫坐標x1、x2、縱坐標y1、y2方差最高分別可達600、2 000 像素點, 波動較大, 隨著視頻序列的變化, 5 個候選框的位置離散程度出現較大波動; 而top5 候選框寬度 ω的方差最高僅25 個像素點左右, 各幀之間無較大波動; 候選框高度h的方差最高為250, 遠小于x1、x2、y1、y2坐標方差波動程度.

圖2 坐標方差

表2 為選擇方差變化明顯的中心點坐標方差, 設定不同的方差閾值進行實驗得到的結果, 可以看出, 加入方差閾值判斷后, 在精確率與成功率上均有不同程度的提高, 其中方差閾值取前5 幀方差均值的1.2 倍時取得最好的結果, 精確率相比于原算法提高了2.18%,成功率上提高了0.93%. 實驗充分證明了坐標方差閾值判斷方法的有效性.

表2 不同坐標方差閾值實驗結果

3.3.3 損失函數對比實驗

本實驗為更改損失函數為focal loss 函數后在數據集上的測試結果與更改損失函數之前的測試結果對比,實驗中唯一變量為損失函數, MDNet-FL 算法為MDNet算法更改交叉熵損失函數為focal loss 損失函數后的算法.

實驗結果如表3 所示, 可以看出, MDNet-FL 比起原算法在精確率和成功率上均有提高. 但精確率提高了0.83 個百分點的同時, 成功率僅提高了0.20 個百分點. 分析原因, focal loss 的原理是通過控制不同類別對損失函數的貢獻來調節類間的不平衡, 更強調錯分樣本, 完全丟棄易分的樣本, 降低了簡單負樣本在訓練中所占的權重. 訓練中實際值與預測值差距越大, 對損失的貢獻就越大, 訓練趨于穩定后, 對損失函數貢獻最明顯的是困難樣本和標簽不明確兩部分. 因此, 實驗效果很大程度上取決于數據集的特點. 本文實驗中, 設置正樣本與目標框的重疊率大于0.7, 負樣本與目標框的重疊率小于0.5, 因此會出現雖然預測到了真實目標但是為非正樣本的情況, 這時候引入focal loss, 雖然一定程度上解決了正負樣本不平衡的問題, 但是標簽不明確的樣本權重被增大, 影響網絡訓練過程, 進而導致效果提升不夠明顯.

表3 損失函數對比實驗

3.3.4 本文算法評估

本文算法是在MDNet 算法基礎上采用了基于候選框置信度與坐標方差閾值判斷相結合的更新方法,引入了focal loss 損失函數.

本實驗采用OPE (one-pass evaluation)評估方法,圖3 為本文算法與MDNet 算法在數據集上的評估結果: 準確率結果圖中橫坐標的閾值為預測邊界框與真實邊界框中心點誤差距離的像素點數, 設置為20 個像素點; 成功率結果圖中橫坐標的閾值為預測邊界框與真實邊界框重疊率, 跟蹤問題中, 一般認為目標框與真實框重疊率大于0.5 即為跟蹤成功, 且本文為了對比實驗效果, 將實驗成功率閾值與MDNet 中的實驗統一設置為0.5. 可以看出, 本文算法在精確率上取得了90.87%的優異表現, 成功率上取得了68.32%的結果, 相較于MDNet 算法在精確率上提高了2.80 個百分點, 在成功率上提高了1.42 個百分點.

圖3 混合數據集上的測試結果

在OTB100 基準數據集上對本文算法和MDNet算法進行了評估對比, 圖4 為實驗結果, 可以看出, 相比于原算法, 本文算法在精確率上提高了0.29 個百分點, 成功率上提高了0.23 個百分點.

圖4 OTB100 數據集上的測試結果

圖5 展示了本文算法在幾個視頻序列中與MDNet算法測試結果的效果對比, 本文算法為紅色框, MDNet算法為綠色框. 可以直觀看出, 無論在OTB100 視頻序列中還是在監控視頻序列中, 本文算法目標框更準確,而且在部分MDNet 算法跟蹤失敗的視頻幀中本文算法跟蹤成功.

圖5 部分視頻序列測試效果

表4 列出了本文算法與MDNet 算法在部分視頻序列測試結果成功幀數的對比. 跟蹤閾值設置為0.5,即當前幀的預測邊界框與目標真實邊界框重疊率大于0.5 視為當前幀跟蹤成功. 其中S為視頻序列的總幀數,M為MDNet 算法跟蹤成功的幀數,N為本文算法跟蹤成功的幀數. 其中, Bolt 視頻序列中效果最為明顯, 跟蹤成功率提高了8.60%.

表4 數據集部分視頻在本文算法的測試結果

4 結論與展望

本文在MDNet 算法基礎上提出了一種基于候選框置信度與坐標方差閾值判斷相結合的更新方法, 引入了focal loss 損失函數, 有效豐富了正樣本, 提升了模型的性能, 并在實驗中驗證了模型的有效性, 對跟蹤領域中正樣本缺乏且不夠豐富的問題有一定借鑒意義.近年來, 雖然目標跟蹤領域有大量研究取得了較好的效果, 但相比于計算機視覺其他領域, 當前基于深度學習的目標跟蹤算法[15-17]仍面臨著諸多挑戰, 其中最關鍵的是缺乏大量準確的訓練數據, 因此, 針對不同應用場景做出大量的公開數據也是推動基于深度學習的目標跟蹤發展的重要途徑.