左國才 李智勇 吳小平 蘇秀芝


摘 要: 針對光照變化、目標旋轉、背景雜亂等復雜條件下,核相關濾波KCF算法出現目標跟蹤漂移或者失敗的問題,本文利用卷積神經網絡(CNN)對跟蹤目標出現光照、旋轉、背景雜亂等復雜變化極具魯棒性的特點,提出了一種基于卷積神經網絡的魯棒視覺跟蹤算法CKCF。CKCF算法在考慮大數據安全和隱私保護技術的前提下,利用海量的圖片數據集訓練VGG模型提取目標深度特征,并融入改進后的KCF跟蹤算法中,實驗結果表明,與KCF算法相比較,該算法實現了更加魯棒的跟蹤效果,解決了KCF跟蹤算法在光照變化、目標旋轉、背景雜亂等復雜條件下目標跟蹤漂移或者失敗的問題。
關鍵詞: 機器視覺;深度學習;卷積神經網絡;大數據安全技術
Abstract:According to the problem of target tracking drift or failure for nuclear related filter KCF algorithm under the complicated conditions such as the illumination changes background clutter target rotation with the help of Robust characteristics of Convolutional Neural Network (CNN) for light rotation background clutter and other complex changes emerged in tracking target the paper proposes the CKCF robust vision tracking algorithm based on Convolutional Neural Network. Considering data security and privacy protection technology CKCF algorithm uses the picture data set to train VGG model for target feature deep extraction which could be integrated into the improved KCF tracking algorithm. The experimental results show that compared with the KCF algorithm the algorithm has more robust tracking effect and solves the problem of target tracking drift or failure for nuclear related filter KCF algorithm under the complicated conditions such as the illumination changes background clutter target rotation.
Key words: machine vision;deep learning;Convolutional Neural Network;large data security technology
引言
視覺跟蹤是計算機視覺研究的熱點分支,已推廣應用于視頻監控、智能交通、無人機等領域[1]。近年來,隨著研究的深入,跟蹤性能得到了明顯改善。但是在跟蹤目標受到光照變化、目標旋轉、背景雜亂等復雜情況的影響下,要實現魯棒跟蹤仍然面臨著巨大的挑戰。
近年來,深度學習中的卷積神經網絡(CNN )廣泛應用于目標檢測、圖像分類、語義分割等研究發展中[1] 。相比傳統的手工特征,CNN能夠提取目標的深層特征,對于復雜場景中目標跟蹤具有較強的魯棒性,并在目標跟蹤方面呈現出可觀的技術潛能和開發優勢。文獻[2]基于CNN對當前幀和上一幀進行采樣,獲取目標和背景的空間、時間特征。文獻[3]采用RCNN深度模型,利用CNN模型提取的目標特征來區分出背景及跟蹤對象。文獻[4]采用CNN兩個卷積層、兩個降采樣層,在全連接層進行綜合,得到特征向量。文獻[5]基于VGG-NET 深度模型,將輸入的目標圖片按不同的層次提取特征,用來估計目標的位置。文獻[6]應用的深度模型分為共享層和特定層,其中,共享層采用VGG-NET,截取3個卷積層和2個全連接層;特定層由若干域組成,包含了目標正樣本和負樣本。文獻[7]使用VGG-NET模型提取高級語義的目標類別特征,通過選擇網絡(sel- NET)對輸入的特征圖進行選擇,除去不相干的噪聲特征圖。卷積神經網絡的應用使得目標跟蹤的判別力和魯棒性在效果上達到了更佳。上述文獻基于CNN采用不同的模型、策略,設計提出有效的跟蹤算法,取得了魯棒跟蹤結果。
與基于CNN的跟蹤算法相比,基于相關濾波的跟蹤算法在跟蹤速度上表現出優異性能。文獻[8]提出誤差最小平方和濾波器(MOSSE )跟蹤算法,取得600 Frame/s的跟蹤速度;文獻[9-10] 提出循環結構相關濾波跟蹤器(CSK )、核相關濾波跟蹤器( KCF )跟蹤算法,其跟蹤速度則達到了100 Frame/s以上。受其啟發,本文將卷積神經網絡CNN與核相關濾波跟蹤算法KCF相結合,提出一種基于卷積神經網絡的核相關濾波跟蹤算法C-KCF。實驗結果表明,與KCF算法相比,本文的C-KCF算法具有更好的跟蹤性能,解決了KCF算法在跟蹤過程中因光照變化、目標旋轉、背景雜亂而出現跟蹤漂移或失敗的問題。
1 相關理論
1.1 卷積神經網絡
卷積神經網絡是一種典型的深度學習架構,從大量數據中主動學習目標特征,具有平移不變性、光照不變性以及對遮擋的魯棒性等重要特征,并在圖像分類、人臉識別、物體檢測等領域發揮了重要作用[11]。視覺跟蹤是提取目標特征,確定目標在圖像(視頻幀)中的位置,完成跟蹤任務。較強的目標特征表達能夠提高目標跟蹤的準確性和魯棒性,而深度學習架構完全滿足這種性能需求。在圖像和視覺領域,AlexNet[3] 、VGG-Net[4]、ResNet [5]是應用較為成功的一個深度模型,且已取得顯著成效。
作為一個多層感知器,CNN中的每個卷積層都可以得到目標圖像的不同特征表達。本文采用VGG-Net-19深層卷積網絡進行特征提取,其網絡結構如圖1所示。VGG-Net-19主要由5組卷積層、2個全連接特征層和1個分類層組成。通過在ImageNet上進行預訓練,VGG-Net-19中的不同卷積層可以得到不同的特征表達。在較低卷積層,可以詳細描述細節特征;在較高卷積層,可以提取目標高級語義信息。
1.2 核相關濾波
2 基于CNN改進KCF目標跟蹤算法
對序列圖像逐幀進行采樣,利用CNN提取樣本的深層特征,融入改進后的KCF算法進行目標跟蹤,在跟蹤過程中在線更新CNN模型的參數。
2.1 訓練數據安全及隱私保護
CKCF算法在考慮大數據安全和隱私保護技術的前提下,采用20 000張圖片數據集訓練VGG模型提取目標深度特征。為了圖片數據的安全和隱私保護,采用一種同態加密域圖像可逆水印算法[13],算法設計概述如下:
(1)利用Paillier加密算法對訓練目標圖像進行相關加密操作,使得目標圖像密文數據具有同態運算的相關特性。
(2)利用同態特性在加密域中直接進行K層小波變換,將水印嵌入到K層高頻子帶中,實現同態加密域中的圖像可逆水印。
2.2 特征提取與定位
利用海量的圖片數據集訓練VGG模型提取目標深度特征,在目標跟蹤時設計提供了參數在線更新,以適應目標尺度大小、變形、光照等復雜變化。根據CNN卷積特征圖,利用VGG-Net[4]對目標外觀進行編碼。設C為特征圖,Vi是采用特征映射,第i個位置的特征向量,研究推得數學公式如下:
在跟蹤過程中,利用訓練好的VGG-Net-19卷積神經網絡模型[4]提取目標深層特征,利用改進后的基于核相關的快速跟蹤方法KCF進行目標跟蹤。因此,給定跟蹤目標的感興趣區域(ROI),利用VGG-Net-19得到其在第l層的卷積特征圖cl∈RM×N×D,利用(4)式可以得到其在第l層上的相關響應圖的數學表述如下:
2.3 目標跟蹤算法
利用訓練好的VGG-Net-19模型進行特征提取,融入改進后的KCF算法中實現魯棒跟蹤。算法的執行步驟可分述如下:
輸入 給定目標初始位置p0,VGG-NET-19模型,序列圖像
輸出 目標深度特征向量,目標跟蹤模型
(1)以P(xt-1,yt-1)位置為中心,選擇出第t幀圖像感興趣的目標圖像ROI,使用式(1)和式(5)經過運算后可求得提取的特征。
(2)以新的位點Pt(xt,yt)為中心選出目標圖像ROI,提取卷積特征。
(3)將提取到的特征融入到改進后的KCF算法中,使用公式(4)計算最大響應值,確定目標狀態。
(4)選擇置信度高的跟蹤結果更新模型。
這里,關于提取卷積層目標特征,研發可得如下代碼:
size_wind = size(cos_window);
img_obj= single(im);
[JP5]img_obj= imResample(img net.meta.normalization. imageSize(1:2));
norm_avg=net.meta.normalization. norm_avgImage;
if numel(norm_avg)==3
norm_avg=reshape(norm_avg,1,1,3);
end
img_obj= bsxfun(@minus img norm_avg);
re_cnn= vl_simplenn(net,img);
fea_cnn = cell(length(layers) 1);
for ii = 1:length(layers)
x = res(layers(ii)).x;
x = imResample(x size_wind(1:2));
if ~isempty(cos_window)
x = bsxfun(@times x cos_window);
end
fea_cnn{ii}=x;
end
end
3 測試序列及實驗結果分析
選用基準公開的Visual Tracker Benchmark OTB50數據集中的視頻序列作為實驗對象,利用Matlab2017軟件進行仿真實驗,使用深度學習框架Matconvnet工具箱。操作系統為Windows7,64位,CPU為2.6 G,內存為4 GB,算法的平均處理速度約為2 Frame/s 。
為了驗證本算法的魯棒性,研究選取了具有挑戰性的視頻序列進行跟蹤,獲選的視頻序列中包含了背景雜亂、旋轉、外觀變換、光照變化等情況。表1即給出了研究中的部分實驗結果。
本文采用跟蹤成功率和跟蹤精度兩個評價指標來進行定量分析。對于6組光照、旋轉、雜亂等變化的視頻序列,本文算法的跟蹤成功率和精度值要高于KCF算法,這就驗證說明了復雜環境下,本文算法的穩健性要優于KCF算法。算法運行結果如圖2所示。
算法利用VGG-Net-19中的卷積層Conv5-4、Conv4-4、Conv3-4、Conv2-2進行不同組合,不同特征組合下的跟蹤性能分析,則如圖3所示。
4 結束語
針對大數據安全及視覺跟蹤中KCF算法的穩健跟蹤問題,提出了一種基于CNN與KCF的目標跟蹤算法CKCF。該算法在考慮圖像數據安全和隱私保護的前提下,采用海量圖像數據訓練數據模型,利用CNN對跟蹤目標出現光照、旋轉、遮擋等復雜變化極具魯棒性的特點,來提取目標深度特征,較好地解決了KCF跟蹤算法在光照變化、目標旋轉、目標遮擋等復雜條件下的穩健跟蹤問題。
參考文獻
[1] SIMONYAN K ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv preprint arXiv:1409.1556 2015.
[2] FAN Jialue XU Wei WU Ying et al. Human tracking using convolutional neural networks[J]. IEEE Transactions on Neural Networks,2010,21(10):1610-1623.
[3] HONG S,YOU T,KWAK S,et al. Online tracking by learning discriminative saliency map with convolutional neural network [J]. arXiv preprint arXiv:1502.06796 2015.
[4] LI Hanxi LI Yi PORIKLI F. Robust online visual tracking with a single convolutional neural network [M]//CREMERS D REID I SAITO H et al. Computer Vision —ACCV 2014. ACCV 2014. Lecture Notes in Computer Science. Cham:Springer,2014,9007:194-209.
[5] MA Chao HUANG Jiabin,YANG Xiaokang,et al. Hierarchical convolutional features for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.Washington DC USA:IEEE 2015:3074-3082.
[6] NAM H,HAN B. Learning multi-domain convolutional neural networks for visual tracking[J]. arXiv preprint arXiv:1510.07945,2016.
[7] WANG Lijun,OUYANG Wanli,WANG Xiaogang,et al. Visual tracking with fully convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago,Chile:IEEE,2015:3119-3127.
[8] BOLME D S BEVERIDGE J R DRAPER B A,et al. Visual object tracking using adaptive correlation filters[C]//IEEE Conference on Computer Vision and Pattern Recognition. San Francisco CA USA:IEEE,2010:2544-2550.
[9] HENRIQUES J F CASEIRO R MARTINS P,et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//European Conference on Computer Vision. Florence Italy:Springer,2012:702-715.
[10]HENRIQUES J F CASEIRO R MARTINS P,et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence,2015,37(3):583-596.
[11]LECUN Y BENGIO Y HINTON G. Deep learning[J]. Nature,2015,521(7553):436-444.
[12]SHEN Qiu,YAN Xiaole,LIU Linfeng,et al. Multi-scale correlation filtering tracker based on adaptive feature selection[J]. Acta Optica Sinica,2017,37(5):0515001.
[13]項世軍,羅欣榮,石書協. 一種同態加密域圖像可逆水印算法[J]. 計算機學報,2016,39(3):571-581.