馬思騏 袁健



摘要:為了保證公共安全,身邊的攝像頭越來越多,在錄像監控視頻中提取有效信息也變得日益困難。針對該問題,提出一種新的基于無監督學習的圖像匹配算法。該算法無需像以往算法一樣,需要大量人工標注的數據,而是通過觀看視頻即可完成訓練,從而節約了大量時間成本。利用圖像匹配算法,可以將視頻中無效與相似內容進行濃縮,以提煉出有效內容。該算法在MPI?Sintel與KITTI集上進行了測試,APE分別為4.695與5.838,Accuracy@30分別為0.993與0.967,達到了較為理想的效果。
關鍵詞:深度學習;圖像匹配;無監督學習;視頻濃縮
DOIDOI:10.11907/rjdk.181444
中圖分類號:TP312
文獻標識碼:A文章編號文章編號:1672?7800(2018)012?0096?04
An Image Matching Algorithm for Video Synopsis
MA Si?qi,YUAN Jian
(School of Optical?Electrical and Computer Engineering,?The University of Shanghai for Science and Technology, Shanghai 200082, China)
Abstract:To ensure public safety, there are more and more cameras around us. Along with that, there are more and more long?term video surveillance. It is increasingly difficult to extract effective information in these videos. To solve this problem, this paper uses a new image matching algorithm based on unsupervised learning. It does not need the same amounts of manually labeled data as the pre?vious algorithms. It can complete training by simply watching the video and save a lot of time and cost. Then?through the image matching algorithm, invalid and similar content in the video can be condensed to extract effective content. Through experiments, the algorithm of this paper was tested in the MPI?Sintel and KITTI sets, the APE are 4.695 and 5.838 and the Accuracy@30 are 0.993 and 0.967. Therefore good results are achieved.
Key Words:deep learning;image matching;unsupervised learning;video synopsis
0?引言
近年來,在一些公共區域發生了人員密集踩踏、暴力恐怖襲擊等眾多惡性事件,導致大量人身傷亡,在社會上造成了極大影響。因此,如今很多公共區域都安裝了監控攝像頭,攝像頭將拍攝的視頻流傳輸到服務器,然后在控制中心依靠人工實時查看以發現險情,但該方法效率低、成本高,需要耗費大量人力成本,且肉眼監測的情況極易出錯,無法實現對公共區域全范圍的實時監測。因此,迫切需要一種圖像匹配算法去除長時間視頻中無用信息的空白幀,以加快線索搜索速度。為了得到較好效果,采用深度學習的智能檢測系統需要大量數據進行訓練,因而需要大量人工標注,從而使算法開發成本非常高。
我國對圖像匹配算法的研究雖然起步較晚,但在近年來獲得了研究者的重點關注。王小睿等[1]提出并實現了一種自動圖像配準方法,用于圖像的高精度配準,但實際上其只是一種使用互相關系數作為相似性測度的半自動圖像配準方法;郭海濤等[2]提出一種將遺傳算法(Genetic Algorithm,簡稱GA)用于圖像配準的算法;熊興華等[3]提出將遺傳算法與最小二乘法相結合,用于圖像的子像素級配準;李智等[4]提出基于輪廓相似性測度的圖像配準方法,可適用于輪廓特征豐富的圖像配準。由此可見,圖像匹配技術經過多年研究,已取得了大量研究成果,但由于圖像匹配效果受多方面因素影響,相關技術有待進一步提升。
1?相關工作
本文利用現實世界視頻序列中自然包含的時間相關性訓練深度卷積網絡,不需要手工標注即可完成幀插值,然后使用學習的CNN為每個輸出像素計算靈敏度圖。靈敏度圖即梯度w.r.t.輸入,指示每個輸入像素對特定輸出像素的影響。將具有最大影響的兩個輸入像素(每個輸入幀一個)視為對應圖像(即匹配),雖然是間接的,但對于由此產生的模型,通過簡單地觀看視頻即可完成對應的幀匹配。
本文算法的主要優點在于可以利用普通的視頻序列訓練用于幀插值的深度卷積網絡,而不需要任何人為的數據標注。本文訓練數據由3個圖像給出,每個圖像由2個輸入圖像與1個輸出圖像組成,表示標注的內插幀。標注圖像的正確示例為:當插入到輸入圖像對之間時,形成時間相關性的幀序列圖像。這種時間相關性自然包含在正則視頻序列中,從而可以簡單地使用來自幾乎任意視頻流的連續圖像三元組進行網絡訓練。每個三元組的第一幀與第三幀作為網絡輸入,第二幀作為標注的內插幀。最重要的是,在網絡反向傳播過程中得到了幀—幀對應關系,因此其不需要人工設計模型與繁鎖的手工標注,而是通過簡單地觀看視頻即可學習圖像匹配方法。
1.1?神經網絡匹配
在本文中,通過應用與Simonyan等[20]使用的類似技術進行反向傳播,對于輸出圖像中的每個像素,都計算其輸入像素的梯度,從而得到在輸入像素影響下,輸出像素有多少受到了反向傳播影響,并影響了網絡輸入處的映射敏感性。
I?2=F(I?1,I?3)表示一個非線性函數(即訓練的神經網絡),描述了從輸入圖像I?1和I?3到差值圖像I?2的映射,I?2幾乎在輸入幀的正中間。考慮到函數是一個向量映射,可以被分成h×w?的非線性子函數,每隔一幀都可以在輸入圖像中產生對應像素。
為了產生一個可反映反向傳播中映射敏感性的圖,本文針對每個輸入圖像計算Jacobian矩陣。Jacobian矩陣如下:
以上公式描述了一個?h×w矩陣如何在輸出中對每一個h×w像素產生映射結果。本文定義了一個輸出點(i,j)的絕對梯度,以對應每一個輸出圖像,然后衡量每個具體的輸入?1和?3?,如公式(3)所示。
該方式通過計算其絕對值代替每個矩陣的輸入,為了導出每個對應幀內容的坐標,以該方式產生的梯度圖可以更好地表示靈敏度或影響圖。
即使是無監督學習,在本文中也選擇了最簡單的方法。本文選取在?Gi,j?I?1(?1,?3)和Gi,j?I?3(?1,?3)中各自的最大輸入,并找到了Cij?I?1和Cij?I?3?。通過計算輸入圖像中每個點的梯度圖,然后提取每次結果中最具有價值的點,得到:
所有對應點集合?S通過結合從Cij?I?1和Cij?I?3?提取的相同索引元素,最終表現為:
1.2?用于幀插值的深度神經網絡
如圖1所示,其包含了卷積部分與解卷積部分。與Hinton & Salakhutdinov [15]提出的自動編碼結構類似,這兩部分分別用于“編碼”與“解碼”。卷積部分基本模塊如下:
INPUT–>[CONV->PRELU]*3->POOL->OUTPUT
本文采用參數整流線性單位[14],根據VGG?Net的建議,將所有卷積濾波器的接收域大小設置為3,其中stride和padding都為1,然后將[CONV->PRELU]復制3遍,以更好地模擬非線性特征。
解卷積部分包括多個解卷積模塊,每個模塊都包括一個卷積變換層與兩個卷積層。前者有4個接收域,stride為1,padding為1。解卷積模塊如下:
INPUT->[CONVT-> PRELU] -> [CONV->PRELU]*2 -> OUTPUT
為了在幀插值里保持圖像細節,在本文中復制了卷積模塊2、3、4的輸出特征,然后將其連接起來作為解卷積模塊4、3、2的額外輸入。由于本文中的網絡是完全卷積的,允許輸入不同分辨率的圖像,這是一個很大優勢,因為不同數據集可能會用到不同寬高比,網絡中每個塊的輸出blob大小如表1所示。需要注意的是,實驗將兩個RGB圖像疊加到一個輸入斑點中,因此深度為6。網絡輸出為RGB圖像,因此深度為3。Sintel的數據很容易獲得,唯一區別是輸入圖像縮放到256×128而不是384×128。
2?實驗
2.1?神經網絡訓練
訓練數據的數量與質量對于深度神經網絡訓練至關重要,但本文可以簡單地使用大量真實世界的視頻。在這項工作中,本文專注于使用KITTI RAW視頻[11]與Sintel視頻進行訓練,結果顯示該神經網絡表現非常好。該網絡首先訓練KITTI RAW視頻序列,該數據集包含56個圖像序列,共16 951幀。對于每個序列,本文將每3個連續幀(前后兩個方向)作為訓練三元組,其中第1個和第3個圖像作為網絡輸入,第2個圖像作為相應輸出,然后通過垂直翻轉、水平翻轉和兩者的組合進行圖像增強。
樣本三聯體的總數是133 921,然后從原始Sintel電影中選擇案例對網絡進行微調。實驗過程中,從電影中手動收集了總共5 670幀的63個視頻剪輯,對其進行分組并增加數據后,最終得到44 352個樣本三元組。與以相對均勻速度記錄的KITTI序列相比,Sintel序列在本文工作環境中代表較難的訓練實例,因為其包含了大量快速與人為渲染的運動,捕捉幀速率僅為24FPS。Sintel樣本的重要部分因此不包含所需的時間相關性。
2.2?細節訓練
實驗在具有兩個K40c GPU的機器上使用Caffe[16]進行訓練。網絡權重采用Xavier的方法進行初始化[12],并由Adam解算器[14]進行優化,固定動量為0.9。初始學習速率設置為1e-3,然后在損失函數停止下降時進行手動調整。對于KITTI RAW數據集的訓練,將圖像縮放為384×128;對于Sintel數據集的訓練,將圖像縮放為256×128,批量大小為16。本文對KITTI RAW進行了大約20個時期的訓練,然后在Sintel電影圖像上對其微調了15個時期。訓練期間未觀察到過度訓練,并在5天后終止訓練。
2.3?算法損失
文獻[13]、[21]中提到,在輸出幀與訓練樣例之間最小化L2損失,可能導致不切實際與模糊的預測。本文在整個實驗中未能證實這一點,但發現通常用于魯棒光流計算[20]的Charbonnier損耗
可以對L2損耗作適當改進,因此繼續采用其進行網絡訓練,并設置ε?集為0.1。
2.4?圖像匹配表現
本文將產生的匹配與幾種經驗設計方法進行比較(本文算法簡稱為ABBY),包括經典的Kanade?Lucas?Tomasi特征跟蹤器[5]、HoG描述符匹配[9](其被廣泛用于增強密集光流計算)以及最近的DeepMatching方法[22],其依賴于多層卷積體系結構,且性能先進。比較不同匹配算法需要從多個角度考慮,因為其通常為圖像不同部分產生不同數量的匹配。為了公平比較,本文調整了每個算法參數,使算法在匹配輸入圖像上盡可能均勻分布。對于DeepMatching,本文使用默認參數;對于ABBY,本文從4個像素寬度均勻網格的每個角中提取對應關系;對于KLT,本文將minEigThreshold設置為1e-9,以生成盡可能多的匹配;對于HoG,再次將像素采樣網格寬度設置為4,然后根據合適的度量值對匹配進行排序,并為每個算法選擇相同數量的最佳匹配。通過這種方式,4種算法產生相同數量的匹配,且每個輸入圖像具有相似的覆蓋范圍。
本文在KITTI[11]與MPI?Sintel[10]訓練集中提取有效的標注數據進行比較,并使用圖像分辨率相同的圖像執行所有實驗。在KITTI上圖像被縮放為384×128,MPI?Sintel圖像縮放為256×128。本文使用KITTI RAW序列訓練的網絡進行KITTI Flow 2012訓練集的匹配實驗,然后使用Sintel影片剪輯上的微調網絡進行MPI?Sintel Flow訓練集實驗。這4種算法是根據平均點誤差(APE)與精度@ T進行評估的,后者被定義為與第一張圖像的“正確”匹配相對于匹配總數的比例[18]。如果在第二張圖像中的像素匹配比T像素更接近標注值,則匹配正確。
在KITTI 2012與MPI?Sintel培訓集上進行匹配性能測試結果如表2、表3所示。其中DeepM表示DeepMatching,采用指標為:平均點誤差(APE)(越低越好),精度@ T(越高越好)。
如表2、表3所示,DeepMatching根據所有度量標準以及MPI?Sintel與KITTI集合生成最高質量的匹配結果。值得注意的是,本文算法在KITTI上的DeepMatching性能非常接近,在精度@10與精度@20方面的性能優于KLT跟蹤和HoG匹配,但在MPISintel上的表現有所下降。盡管APE測量結果表明其性能優于HoG和KLT,但本文算法在MPI?Sintel的整體性能上仍然具有競爭力。
3?實驗結果與分析
本文研究表明,目前的工作使人工神經網絡不需要大量手工標注數據,即可從普通視頻中學習圖像匹配。盡管本文算法目前在實際應用場景中并不能提供所需的計算效率,但其可為相關問題提供更簡單的解決方案。相信該方法未來會得到更廣泛的應用,并且在計算效率與可靠性方面更加符合現實需求。
參考文獻:
[1]?王小睿,吳信才.遙感多圖像的自動配準技術[J].中國圖形圖像學報,1997,10(2):735?738.
[2]?郭海濤,劉智,張保明.基于遺傳算法的快速影像匹配技術的研究[J].測繪學院報,2001,18(S1):20?22.
[3]?熊興華,錢曾波,王任享.遺傳算法與最小二乘法相結合的遙感圖像子像素匹配[J].測繪學報,2001,30(1):54?59.
[4]?李智,張雅聲.基于輪廓特征的圖像配準研究[J].指揮技術學院報,1998,9(3):101?106.
[5]?BIRCHFIELD S. Derivation of Kanade?Lucas?Tomasi tracking equation[J]. Unpublished Notes, 1997,44(5):1811?1843.
[6]?SCHAFER R, WIEGAND T,?SCHWARZ H.The emerging H.264/AVC standard[J].EBU Technique Review, 2003.
[7]?王嵩,薛全,張穎,等.H.264視頻編碼新標準及性能分析[J].電視技術,2003(6):25?27.
[8]?YU A, LEE R, FLYNN M. Early detection of all?zero coefficients in H.263[C].Picture Coding Symposium,1997.
[9]?BROX T, MALIK J. Large displacement optical flow:descriptor matching in variational motion estimation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2011,33(3):500?513.
[10]?BUTLER D J, WULFF J, STANLEY G B, et al. A naturalistic open source movie for optical flow evaluation[M].Computer Vision– ECCV 2012. Springer Berlin Heidelberg, 2012:611?625.
[11]?GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset[J]. International Journal of Robotics Research, 2013,32(11):1231?1237.
[12]?GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neuralnetworks[J]. Journal of Machine Learning Research, 2010,9:249?256.
[13]?GOROSHIN R, MATHIEU M, LECUN Y. Learning to linearize under uncertainty[J]. Computer Science, 2015.
[14]?HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human?level performance on imagenet classification[C]. IEEE International Conference on Computer Vision,2015:1026?1034.
[15]?HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks.[J]. Science, 2006,313:504?507.
[16]?JIA Y, SHELHAMER E, DONAHUE J,et al. Caffe: convolutional architecture for fast feature embedding[DB/OL].http://www.icsi.berkeley.edu/pubs/vision/caffe14.pdf.
[17]?KINGMA D, BA J. Adam: a method for stochastic optimization[C]. ICLR, 2015:1?15.
[18]?REVAUD J, WEINZAEPFEL P, HARCHAOUI Z, et al.Deep convolutional matching[DB/OL]. http://cn.arxiv.org/pdf/1506.07656.
[19]?SIMONYAN K, VEDALDI A, ZISSERMAN A. Deep inside convolutional networks: visualising image classification models and saliency maps[DB/OL]. http://www.robots.ox.ac.uk/~vgg/publications/2014/Simonyan14a/simonyan14a.pdf.
[20]?SUN D, ROTH S, BLACK M J. A quantitative analysis of current practices in optical flow estimation and the principles behind them[M].?Holand: Kluwer Academic Publishers, 2014.
[21]?WANG X, GUPTA A. Unsupervised learning of visual representations using videos[C].IEEE International Conference on Computer Vision, 2015:2794?2802.
[22]?WEINZAEPFEL P, REVAUD J, HARCHAOUI Z, et al. Deepflow: large displacement optical flow with deep matching[C].IEEE International Conference on Computer Vision, 2014:1385?139.