詹瑾++趙慧民++傅仁軒
【摘 要】為了解決移動通信視頻監控的目標追蹤問題,提出一種新的空間域視頻壓縮感知模型,該模型首先通過測量矩陣獲取視頻少量樣本值,然后通過該樣本值同時重構運動目標、背景和視頻序列,最后通過視頻序列估計得到一個置信圖,可以進一步提高目標的重構質量。大量的實驗證明,該模型與典型的空域檢測技術比較,能夠降低視頻檢測的數據量,并有效地重構視頻目標,且對運動干擾具有更好的魯棒性。
壓縮感知 視頻檢測 目標重構 魯棒性
1 引言
隨著傳感器網絡在視頻監控中的廣泛應用,有限通信帶寬條件下的高分辨率視頻獲取技術成為多媒體研究的焦點。
移動通信中,通常檢測運動目標的方法是背景消除法(BS,Background Subtraction)[1],它首先估計背景模型,然后通過該模型比較視頻幀以檢測運動目標。當處理實際的視頻監控序列時,BS遇到許多挑戰,如光照的變化、運動干擾等[2]。最近,Tsai等[3]利用獨立成分分析(ICA,Independent Component Analysis)提出一種快速背景消除方案。這個方案在室內視頻監控環境下能夠容忍光照的變化。在動態復雜環境下,Zhang等[4]提出了一種內核相似性模型(KSM,Kernel Similarity Modeling)的目標檢測方法,但這個方法僅對簡單的干擾是魯棒的。在動態背景下,Kim等[5]在文獻中提出一種基于模糊彩色直方圖(FCH,Fuzzy Color Histogram)的BS算法用于運動檢測,能夠最小化背景運動產生的色彩變化。根據背景圖像不同的目標會引起頻率變化的情況,Chen等[6]提出一種分層背景模型。同時,Han等[7]根據顏色、梯度和類Haar空時特征變量的統計條件,提出一種分塊背景模型,它對光照和陰影的影響都是魯棒的。
上述BS算法都在空域操作,但需要大量的訓練序列估計背景模型。因此,這種模型估計增加了計算成本,實際上限制了BS算法在多媒體傳感器網絡中的應用。
最近提出的CS(Compressive Sensing)[8-10]理論說明,如果信號是稀疏的,它能夠通過遠小于Nyquist采樣率獲取的少量隨機測量值高概率恢復原始信號。CS能夠降低復雜性的同時對圖像進行采樣和壓縮處理,因而它具有降低視頻編碼器運算成本的優越性[11]。因此,我們認為CS是視頻信號檢測的較好方案。早期運用CS進行運動目標檢測的方式是通過圖像背景的測量值來訓練目標輪廓,然后再通過訓練后的目標輪廓檢測運動目標[12]。但該算法需要大量的存儲和運算操作,不適合實時多媒體傳感器的網絡系統。2012年,Jiang等[13]通過感知的CS值提出一種低秩和稀疏分解的目標檢測模型。盡管該模型能夠適應于有限帶寬的多媒體傳感器網絡,但由于視頻序列的小波系數并非稀疏,因而它對干擾和光照非魯棒。2013年,Yang等[14]基于CS理論提出一種僅需要10%的測量值就能同時恢復視頻目標和背景的檢測方法。然而,該方法仍然需要小波變換系數實現稀疏分解,因此,在干擾和光照條件下容易產生虛假的目標圖像。在文獻[15]中,Write等提出一種壓縮主成成分追蹤的低秩矩陣和稀疏分解的解決方案。該方案在壓縮域能夠實現運動目標檢測。
本文提出一種新的視頻壓縮感知模型(VCSM,Video Compressive Sensing Model),旨在通過CS測量值研究一種通信情況下新的目標視頻方法,并解決視頻目標的高精度重構問題。VCSM的主要優點是能用少量的CS測量值,同時重構目標、背景和視頻序列,且對運動干擾具有較好的魯棒性。
2 視頻壓縮感知模型架構
圖1為文獻[16]提出的一種三維循環陣列采樣視頻的實現原理,它能夠同時對視頻信號進行感知和壓縮處理,并具有低復雜性和易于硬件實現的優點。這種方法使用兩個步驟實現了視頻壓縮處理:1)隨機卷積。通過原始矢量幀Xt(t=1, 2, …, T)與循環矩陣C卷積產生循環測量值Cxt;2)隨機采樣。首先應用排列矩陣P對Cxt進行隨機產生排列矢量PCxt,然后再應用子采樣矩陣St對PCxt進行處理,最后產生一種降維的壓縮值矩陣A=StPCxt=[a1, a2, …, aT]。
基于圖1的結構,已知測量矩陣A,我們提出采用CS技術重構運動視頻的目標和背景。借鑒2009年Candes等提出的一種魯棒的主成成分分析(RPCA,Robust Principal Component Analysis)模型。該模型通過求解公式(1)的最小化問題,能同時重構視頻的目標和背景幀:
(1)
其中,X∈R(MN)×T代表原始視頻序列,B和F分別代表視頻的背景和目標。但RPCA模型具有兩種缺陷,一是不能直接通過A重構B和F;二是目標圖像重構僅對稀疏分布的視頻幀具有魯棒性[17-18]。然而,現實世界的視頻序列存在運動干擾,很少具有稀疏性。文獻[16]利用幀間和幀內的相關性,提出一種三維全局變量(TV3D)的CS視頻重構技術。TV3D具有低的復雜性(O(3×MN×T)),其實現模型為:
TV3D (2)
其中,D1,D2分別是一個幀內水平和垂直的差分操作因子,而D3是時間變量差分操作因子。
為了能夠從采樣后的CS測量值直接檢測和重構運動目標,我們結合RPCA和TV3D提出一種新的目標、背景和視頻序列重構模型。在CS域,這種模型可以描述為:
(3)
其中,X=[x1, x2, … xT]代表原始視頻序列,B=[b1, b2, … bT]為背景,F=[f1, f2, …, fT]為運動目標,Φ為CS域測量矩陣。在公式(3)中,TV3D用于提高視頻目標重構的質量。由于公式(3)對可變初始化過程不敏感,因此,X,B,F的初始化矩陣可設置為0矩陣。這樣,rank(B)的最小化問題成為NP問題[17]。通過核范數,我們把公式(3)問題變成求解如下問題:
(4)
在公式(4)中,TV3D用于保證低秩計算和稀疏分解的精確處理。為了求解公式(4),我們定義重構的目標、背景和視頻序列分別為。由于目標重構對劇烈運動的干擾非魯棒,Borenstein等[19]利用置信圖(confidence map)確定圖像區域的原理,提出一種優良的圖像分割算法。受此啟發,本文使用構造一個置信圖并定義置信圖為M=[m1, m2, …, mT], mi∈0, 1;i=1, 2, …, T。在M中,置信圖是一個二進制矩陣,其中運動目標的像素位置設置為1,運動干擾的像素位置設置為0。通過使用(這里代表了Hadamard乘積),我們想進一步改善視頻目標圖像的重構質量。由于運動干擾的重復性和局部集中的特點[20-21],現實世界的視頻監控系統能夠用高斯分布模型化[22-23]。本文使用混合高斯模型(MGM,Mixed Gaussian Model)來估計受運動干擾后像素影響的強度分布[22]:
(5)
這里f(xij)代表的第i列第j個像素xij的概率密度函數,ω是MGM的加權值,?x和σx分別是置信圖算法估計得到的均值和標準方差,?p和Σp為xij的粒子軌跡矩陣估計得到的均值和協方差矩陣[22]。粒子軌跡矩陣Σp可通過Lagrangian粒子軌跡矩陣移位法實現[24-25],主要用于獲取運動干擾引起的像素偏差。
基于公式(5),本文中置信圖的實現流程如下:
(1)使用公式(5)估計每個像素的概率密度f(xij);
(2)設置門限閾值θ,判斷哪些像素屬于運動干擾或運動目標值;
(3)如果f(xij)>θ,則像素xij=1;否則,xij=0。
重復以上過程,得到的二進制矩陣即為實現的置信圖M。
3 視頻目標圖像的重構算法
在公式(4)中,視頻壓縮的過程可以描述為αt=Φxt。由于使用P,C和St(t=1, 2, …, T)產生了壓縮測量矩陣A(如圖1所示),因此,我們應用特殊形式rt=Cxt和StPrt=αt替代ΦX=A,則公式(4)可以寫為:
(6)
這里,R=[r1, r2, …, rT]是循環測量矩陣。對于公式(6)的實現,每次迭代需要兩步進行。第1步,算法重構原始視頻X;第2步,分割背景和目標。為了重構X,求解公式(7):
(7)
采用擴展拉格朗日乘法器(ALM)[26]求解公式(7),可以得到:
(8)
這里,λi和ν是拉格朗日乘法器矩陣??梢姡剑?)可替代公式(7)求解。因此,ALM通過迭代拉格朗日函數和更新拉格朗日乘法器能夠解決公式(8)的最小化問題。其實現過程如下:
(9)
(10)
(11)
注意到,直接求解公式(9)很困難,因此,有:
(12)
(13)
(14)
公式(12)子問題的求解如下:
(15)
其中,Sα(·)代表軟閾值操作因子,它被定義為:
Sα(x)=sign(x)×max{|x|-α,0} (16)
其中,α表示條件軟閾值大小。
接著,我們通過如下步驟求解公式(13)子問題[16]:
(17)
(18)
公式(18)中PicSt是St選擇的CS測量值索引,rt是矩陣R的第t列值。對于公式(14),X可通過解二次方程式求解。固定Xk+1,求解公式(19)重構B和F:
(19)
公式(19)的擴展拉格朗日函數可以表示為:
(20)
公式(20)中,Y是拉格朗日乘法器矩陣,<·,·>代表了矩陣內積。使用ALM算法求解公式(20)中的最小化問題如下:
(21)
(22)
類似地,使用替換策略求解公式(21)中的每個元素的最小化如下:
(23)
(24)
綜合以上求解過程,視頻目標檢測及其重構算法的整個過程如圖2所示:
在上述算法中,置信圖M,
Dα(·)是矩陣Z的奇異值收縮因子,并定義為Dα(Z)=USα(Σ)VT。其中,U和V是實單位矩陣,∑是正則化對角矩陣。Sα(·)為矩陣∑的軟閾值操作因子。
4 實驗結果分析
為了量化算法的實現性能,視頻目標的檢測精度利用F范數-測量值表示,并定義:
F測量=2×(精度×重構率)/(精度+重構率) (25)
其中,精度和重構率為:
精度=TP/(TP+FP),重構率=TP/(TP+FN) (26)
其中,TP、FP以及FN分別表示實正數、假正數以及假負數。F-測量值越高,表示視頻檢測精度的效率越好。表1列出了算法實現時的主要設置參數:
在實驗中,我們對提出的VCSM和RPCA模型以及典型的基于背景消除算法的改進混合高斯模型(GMM)[29]進行了比較。VCSM、RPCA和GMM均在空域實現,所有的實驗使用HP計算機實現(EliteDesk 800 G1 SFF;Intel(R)Core(TM) i7_4790 CPU @3.60 Hz 3.6 GHz;安裝內存:4.00 GB;系統類型:64位)。
為了和GMM比較,我們給出一種目標重構的突出比較形式。實驗選擇4種室內視頻序列(機場大廳176×144×30,候機室160×128×30,餐廳160×120×30和商場大廈320×256×30)作為測試對象進行性能評估。實驗結果如圖3所示。可以看到,VCSM僅需要CSR=0.2的測量值就能實現RPCA和GMM方法類似的視頻效果。
最后,我們選擇一組實際的戶外視頻進行實驗,進一步說明算法的實現效果。圖4隨機選擇4幀圖像進行實驗,包含陰影和攝像機抖動干擾。從圖4(b)可以清晰地看到,VCSM方法能比較準確地區分目標的輪廓形狀,且能完全地消除攝像機抖動干擾。而RPCA和GMM兩種方法都不能給出目標的清晰效果。
5 結論
本文提出一種基于CS技術進行視頻序列檢測和運動目標重構的實現模型(VCSM),該模型能夠通過少量的測量值實現魯棒的目標、背景和原始視頻重構。其中,重構的視頻序列可通過估計獲得的置信圖進一步提升運動目標的重構效果。大量的實驗結果表明,與典型的空域方法如RPCA、GMM比較,提出的VCSM方法對室內和室外視頻均有較好的檢測和目標重構性能,且僅需要更少的數據量。尤其對于室外視頻序列,VCSM可以有效地消除運動干擾(如樹枝搖動、噴池水和視頻攝像機噪音等)。VCSM最大的問題是,算法求解核范數時計算復雜性較高。因此,未來我們將使用云計算及其在線并行技術實現VCSM對運動目標的視頻分析。
參考文獻:
[1] O Barnich, M Van Droogenbroeck. ViBe: A Universal Background Subtraction Algorithm for Video Sequences[J]. IEEE on Image Processing, 2011,20(6): 1709-1724.
[2] Brutzer, B Hoferlin, G Heidemann. Evaluation of Background Subtraction Techniques for Video Surveillance[C]//IEEE. IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2011: 1937-1944.
[3] T Du-Ming, L Shia-Chih. Independent Component Analysis-Based Background Subtraction for Indoor Surveillance[J]. IEEE Transactions Image Processsing, 2009,18(1): 158-167.
[4] Z Baochang, G Yongsheng, Z Sanqiang, et al. Kernel Similarity Modeling of Texture Pattern Flow for Motion Detection in Complex Background[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2011,21(1): 29-38.
[5] K Wonjun, K Changick. Background Subtraction for Dynamic Texture Scenes Using Fuzzy Color Histograms[J]. IEEE Signal Processing Letters, 2012,19(3): 127-130.
[6] S Chen, J Zhang, Y Li, et al. A Hierarchical Model Incorporating Segmented Regions and Pixel Descriptors for Video Background Subtraction[J]. IEEE Transactions on Industrial Informatics, 2012,8(1): 118-127.
[7] H Bohyung, LS Davis. Density-Based Multifeature Background Subtraction with Support Vector Machine[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012,34(5): 1017-1023.
[8] R Baraniuk. Compressive Sensing[J]. IEEE Signal Processing Magazine, 2007,24(4): 118-121.
[9] DL Donoho. Compressed Sensing[J]. IEEE Transactions on Information Theory, 2006,52(4): 1289-1306.
[10] EJ Candes, MB Wakin. An Introduction To Compressive Sampling[J]. IEEE Signal Processing Magazine, 2008,25(2): 21–30.
[11] J Ma, G Plonka, MY Hussaini. Compressive Video Sampling with Approximate Message Passing Decoding[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2012,22(9): 1354-1364.
[12] V Cevher, A Sankaranarayanan, M Duarte, et al. Compressive Sensing for Background Subtraction[C]//Springer Berlin Heidelberg. European Conference on Computer Vision(ECCV), 2008: 155-168.
[13] H Jiang, W Deng, Z Shen. Surveillance Video Processing Using Compressive Sensing[J]. Inverse Problems Imaging, 2012,6(2): 201-214.
[14] F Yang, H Jiang, Z Shen, et al. Adaptive Low Rank and Sparse Decomposition of Video Using Compressive Sensing[C]//IEEE. IEEE International Conference on Image Processing (ICIP), 2013: 1016-1020.
[15] J Wright, A Ganesh, K Min, et al. Compressive Principal Component Pursuit[J]. Information Inference, 2013,2(1): 32-68.
[16] X Shu, N Ahuja. Imaging Via Three-dimensional Compressive Sampling(3DCS)[C]//IEEE. IEEE International Conference on Computer Vision (ICCV), 2011: 439-446.
[17] B Bao, G Liu, C Xu, et al, Inductive Robust Principal Component Analysis[J]. IEEE Transactions Image Processsing, 2012,21(8): 3794-3800.
[18] EJ Candes, X Li, Y Ma, et al, Robust Principal Component Analysis[J]. J ACM, 2009,58(1): 1-37.
[19] E Borenstein, E Sharon, S Ullman. Combining Top-Down and Bottom-Up Segmentation[C]//IEEE. Conference on Computer Vision and Pattern Recognition Workshop, 2004: 46-50.
[20] M Shimizu, S Yoshimura, M Tanaka, et al. Super-resolution from Image Sequence under Influence of Hot-air Optical Turbulence[C]//IEEE. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2008: 1-8.
[21] O Oreifej, G Shu, T Pace, et al. A Two-stage Reconstruction Approach for Seeing Through Water[C]//IEEE. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011: 1153-1160.
[22] O Oreifej, X Li, M Shah. Simultaneous Video Stabilization and Moving Object Detection in Turbulence[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013,35(2): 450-462.
[23] C Stauffer, WEL Grimson. Adaptive Background Mixture Models for Real-time Tracking[C]//IEEE. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 1999: 252-256.
[24] W Shandong, O Oreifej, M Shah. Action Recognition in Videos Acquired by A Moving Camera Using Motion Decomposition of Lagrangian Particle Trajectories[C]//IEEE. IEEE International Conference on Computer Vision (ICCV), 2011: 1419-1426.
[25] S Wu, BE Moore, M Shah. Chaotic Invariants of Lagrangian Particle Trajectories for Anomaly Detection in Crowded Scenes[C]//IEEE. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010: 2054-2060.
[26] W Yin, S Morgan, J Yang, et al. Practical Compressive Sensing with Toeplitz and Circulant Matrices[J]. Visual Communications and Image Processing, 2010.
[27] H Yao, Z Debing, Y Jieping, et al. Fast and Accurate Matrix Completion Via Truncated Nuclear Norm Regularization[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013,35(9): 2117-2130.
[28] X Zhou, C Yang, Y Weichuan. Moving Object Detection by Detecting Contiguous Outliers in the Low-rank Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013,35(3): 597-610.
[29] Z Zivkovic. Improved Adaptive Gaussian Mixture Model for Background Subtraction[J]. International Association for Pattern Recognition, 2004(2): 28-31.