王 閃, 吳 秦
(江南大學 物聯網工程學院,江蘇 無錫 214122)
基于馬爾可夫隨機場模型的運動對象分割算法*
王 閃, 吳 秦
(江南大學 物聯網工程學院,江蘇 無錫 214122)
提出了一種基于馬爾可夫隨機場(MRF)模型的運動分割算法,僅使用了壓縮流中的運動矢量和塊編碼模式信息,可以在復雜場景下對運動對象有很好的分割效果。利用運動矢量量化的方法來對運動矢量進行預處理,對運動矢量進行馬爾可夫建模,利用能量最小函數進行優化得到運動對象分割的效果。實驗表明:與現有的方法相比,該方法可從復雜場景中更準確地對運動對象進行分割。
運動對象分割; 馬爾可夫隨機場模型; 壓縮域
運動對象分割在計算機視覺領域得到了廣泛的研究和應用,分割的方法主要基于像素域和壓縮像素域,但隨著視頻分辨率的逐漸提高,像素域的分割漸漸無法滿足其實時性,分割速度到了瓶頸的狀態,于是提出了壓縮域的分割方法。在分割算法中,主要通過對提取目標的特征信息進行分割,在監控的壓縮視頻中,提取運動目標主要采用的是運動矢量(MV)和離散余弦變換(DCT)系數[1]。Ahmad A M A等人[2]提出了基于MPEG視頻的級聯濾波(cascade filtering)方法,該方法將高斯濾波和中值濾波聯合來去除獨立噪聲從而產生運動場。2010年,Moura R C[3]提出了時空域的濾波(spatio-temporal filtering,STF)方法,該方法結合了MV空域和時域上的雙重相關性來濾除噪聲并保留運動對象MV,該方法也成為現在壓縮域對象分割中主要的濾波算法。基于MPEG視頻操作的有最大期望算法、區域生長方法以及多內核均值漂移分割等[4]。但這些方法都要同時具有MV場和DCT殘差系數,其計算復雜度也很高。張文琪[5]對壓縮碼流中4×4塊殘差進行處理,提出一種基于熵能選取自適應閾值的時空域運動對象分割方法。除了這些還有一些新興的方法,如Lu Y等人[6]提出的基于背景估計的算法,通過用幀間的編碼模式來估計出背景區域從而降低全局運動補償的時間。Sun L等人[7]利用宏塊編碼的模式來估計運動區域,快速高效,但是僅限于室內等外界環境不變的條件。
分析上述文獻方法,在針對監控視頻和具有剛性運動對象的分割具有較好的效果,但針對背景運動和非剛性物體的運動對象,不能正確的分割。本文在針對壓縮域中運動矢量缺失的問題進行處理,并進行運動矢量的量化處理,通過運動估計和全局運動補償來進行運動對象的分割。
1.1 馬爾可夫隨機場分析方法
馬爾可夫隨機場(Markovrandomfield,MRF)模型構造過程包含兩個步驟:1)確定鄰域和對應的基團(如圖1示),對規則位置集,點(i,j)的鄰域表示為
ηi,j={(k,l)∶0<(k-i)2+(l-j)2}≤d
(1)
式中d決定鄰域結構的大小和相應的基團。在目標識別等問題中,常借助圖論的方法構造Markov圖,由它表示和處理這些問題時所需的上下文關系,確定鄰域結構及基團[8]。2)選擇基團,再確定其勢函數。

圖1 鄰域基團集合Fig 1 Neighborhood radical group set
1.2 馬爾可夫隨機場的基本思想
在計算機視覺領域,將馬爾可夫隨機場理論應用到運動對象分割方面已經取得一些成果,這個模型不僅僅優化圖像的空間分布,還將優化圖像序列沿著時間軸的分布。由于實際運動對象不可能以足夠高的幀率被捕獲到,包含運動對象的像素最典型的移動也不過在數十個像素以內[9]。因此,空間相鄰的像素在相鄰的圖像之間可能不存在任何的聯系。基于這種考慮,將圖像分成塊,將相鄰圖像間的塊通過它們的矢量聯系起來。在本文的方法中,來實現對運動對象的初始標號,然后基于馬爾可夫隨機場模型來解決運動目標分割的問題。
2.1 運動矢量預處理
將H.264壓縮視頻中的運動矢量場歸一化為4×4的塊,用矢量中值濾波能夠消除孤立矢量噪聲并且平滑相鄰塊之間運動矢量的差異。使用滑動窗方法進行中值濾波,首先定義N×N窗函數內各元素之間的差異度

(2)
式中 vi和vj為N×N窗內的運動矢量;L為歐幾里德距離。將di升序排列映射到vi。最后根據式(3),以排序后的vout作為最后的輸出結果
(3)
式中cor(v(N+1)/2,v)=‖v(N+1)/2,v‖/(‖v(N+1)/2‖‖v‖),v為平均矢量,p為預設的閾值。
2.2 全局運動補償
在背景運動的視頻序列中,對其累積運動場進行全局運動補償獲得殘差運動場,然后通過運動模型對全局運動場建立模型[10]。本文中使用的是6參數仿射模型,雖然6參數仿射模型沒有8參數透視模型靈活,但6參數仿射模型在去除全局運動的研究中應用更廣泛。令6參數仿射模型參數為m,則
m=[m1,m2,m3,m4,m5,m6]
(4)
若在t幀中,一個塊的坐標為(x,y),那么被轉換的參考幀的坐標為(x′,y′),那么
x′=m1+m2x+m3x,y′=m4+m5y+m6y
(5)
所以,得到運動矢量v(x,y)為
v(x,y)=(x′-x,y′-y)
(6)
在求出初始運動模型之前,需要對加權系數w(n)定義
(7)
式中 φ為估計誤差,μφ和σφ分別為平均值和標準方差。最后將運動模型運用到整個矢量場,求出最后的殘差。
通過馬爾可夫隨機場建模,經過全局運動補償之后,可以得到運動對象矢量塊,最后利用Gibbs勢能函數進行運動對象分割,具體流程如圖2所示。

圖2 方法流程圖Fig 2 Flowchart of the proposed method
在基于壓縮域分割的算法中,運動矢量信息起著非常大的作用,但在編碼過程中,會存在幀內編碼塊缺失運動矢量信息,本文通過極向量中值來預測缺失的矢量信息,來提高分割的精度。在求解能量函數方面上,本文通過求解馬爾可夫隨機場模型的最大后驗概率等同于求解Gibbs能量函數的最小值。解決該類問題最常用的算法有兩種:模擬退火(simulated annealing,SA)算法和條件迭代模式(iterative conditional modes,ICM)算法。模擬退火算法由于其復雜性較大,本文采用的ICM算法。
在本文中采用標準測試視頻序列進行評估實驗,視頻采用的是YUV4∶2∶0格式的序列,所有的幀速為30 fps和H.264/AVC JM V.18.0進行編碼,平臺采用AMD Athlon(tm)II X4 645處理器,主頻3.1 GBZ。為了提現本文提出的算法的魯棒性和穩定性,在整個實驗中采用同樣的參數序列,采用標準測試序列Coastguard,City,Stefan等序列進行了實驗,分割效果分別為圖3(a),(b),(c)所示。

圖3 分割結果對比Fig 3 Comparison of segmentation results
圖3中(a),(b),(c)中上面一欄為本文分割方法分割出來的效果,下面一欄為文獻[11]的分割方法。其中(a)采用背景運動的視頻序列Coastguard 來驗證所提出的分割方法,從分割效果來看,文獻[11]不能很好地去除噪點,并在邊框出現分割錯誤,在第四列出現相機的突然下移,本文方法依然能正確分割。(b)為圍繞大樓旋轉的City序列,本文方法依然能準確的分割,文獻[11]同樣出現無法正常分割的現象。(c)視頻為Stefan標準序列,該視頻序列即存在背景的運動也存在,前景對象的非剛性運動,即使進行全局運動補償,也會出現不能完全分割的效果。雖然本文方法沒有將運動對象的下半身分割出來,但相對其他方法,本文方法能體現很佳的效果。
為了對算法進行比較,從精確度(p)、召回率(r)和f值r方面進行對比,其定義如下
(8)
(9)
(10)
式中 TP為被模型預測為正的正樣本(truepositives),FP為被模型預測為負的負樣本(falsepositives),FN為被模型預測為負的正樣本(falsenegatives)。圖4中可以看出,本文提出的方法相比文獻[11]具有較高的分割效果。

圖4 準確度、召回率和f值結果對比Fig 4 Comparison of results of accuracy rating,recall rate,value
通過實驗的驗證,本文在復雜背景下針對運動對象的局部運動、相機抖動、緩慢運動及快速運動等情況下具有較強的魯棒性。而本文算法也體現出其不足,由于運動矢量分部的不均勻以及數量的不同,幀率的穩定性欠佳,導致其欠分割或過分割現象。但總的來說,本文方法是一個比較具有前景的方法,是從一個全新的視角來看待壓縮域的分割。
[1] Avarur J.Survey on motion vector filtering and object segmentation methods in compressed domain[J].International Journal of Advancements in Technology,2011,2(2):199-205.
[2] Ahmad A M A,Chen D Y,Lee S Y.Robust object detection using cascade filter in MPEG videos[C]∥Proceedings of 2003 the Fifth International Symposium on Multimedia Software Engineering,IEEE,2003:196-203.
[3] Moura R C,Hemerly E M.A spatiotemporal motion-vector filter for object tracking on compressed video[C]∥2010 the Seventh IEEE International Conference on Advanced Video and Signal-Based Surveillance(AVSS),IEEE,2010:427-434.
[4] Porikli F,Bashir F,Sun H.Compressed domain video object segmentation[J].IEEE Transactions on Circuits and Systems for Video Technology,2010,20(1):2-14.
[5] 張文琪,張茂軍,李 樂,等.基于熵能的 H.264壓縮域運動對象分割[J].計算機應用,2010,30(12):3265-3268.
[6] Lu Y,Xu X.Efficient object segmentation using background estimation for H.264 video[C]∥2012 the 8th International Confe-rence on Wireless Communications,Networking and Mobile Computing(WiCOM),IEEE,2012:1-4.
[7] Sun L,Dai M,Chen X.A simple and fast moving object segmentation based on H.264 compressed domain information[C]∥2012 the Fourth International Conference on Computational and Information Sciences(ICCIS),IEEE,2012:481-484.
[8] 侯文生,蔡 全,吳小鷹,等.基于加速度計的手指運動姿態檢測[J].傳感器與微系統,2012,31(1):146-148.
[9] 謝 昕,王建賓,胡鋒平.一種基于PSO與OSTU的改進絮體分割算法[J].傳感器與微系統,2015,34(1):131-134.
[10] 賈克斌,謝 晶,方 晟.一種基于自相關法的H.264/AVC高效幀內預測算法[J].電子學報,2006,34(1):152-154.
[11]ChenYM,BajicIV.Ajointapproachtoglobalmotionestimationandmotionsegmentationfromacoarselysampledmotionvectorfield[J].IEEETransactionsonCircuits&SystemsforVideoTechnology,2011,21(9):1316-1328.
吳 秦,通訊作者,E—mail:qinwu@jiangnan.edu.cn。
Moving object segmentation algorithm based on Markov random field model*
WANG Shan, WU Qin
(College of IOT Engineering,Jiangnan University,Wuxi 214122,China)
Propose a motion segmentation algorithm based on Markov random model,it can has good segmentation effect in complex scenarios on moving objects only using motion vectors and block coding mode information in compressed stream.Preprocessing motion vector using motion vector quantization method,and Markov modeling is carried out on motion vector,the minimum energy function is used for optimization to obtain effect of moving object segmentation.Experiment shows that this method can segment moving object more accurately from complex scene compared with existing methods.
moving object segmentation; Markov random field(MRF)model; compressed domain
10.13873/J.1000—9787(2016)07—0113—03
2016—05—05
國家自然科學基金資助項目(61202312);中央高校基本科研基金資助項目(JUSRP51510)
TP 391
A
1000—9787(2016)07—0113—03
王 閃(1990-),男,安徽阜陽人,碩士研究生,主要研究領域為機器視覺與視頻編解碼。