王學軍,趙琳琳,王 爽
(吉林大學通信工程學院,長春130012)
視頻對象分割是MPEG-4基于內容的編碼系統中的關鍵技術之一[1],這種分割技術被廣泛應用于基于內容的檢索、對象識別、對象跟蹤、視頻電話、視頻監控和電視特技制作等領域。
時空聯合的視頻對象分割技術是比較常用的分割算法[2-3],此種分割方法對于背景簡單目標單一的視頻序列取得了較好的分割效果,但對于背景復雜的視頻序列,其分割精度卻不高。高斯混合模型算法[4]、貝葉斯概率統計方法[5]和特征聚類算法[6]等也是視頻對象提取常用的算法。這些算法的分割結果比較精確,但計算復雜度高,計算量較大,無法滿足實時性的要求。
支持向量機(Support Vector Machine,SVM)是近年來發展起來的一種通用機器學習新方法。該方法是基于結構風險最小化原則,能較好地解決小樣本、非線性、維數災難和局部極小等問題。因此在手寫體字符識別、人臉檢測、文本及語音分類方面得到了廣泛的關注。Zhang等[7]利用SVM實現了視頻對象提取,該方法魯棒性強,對攝像機的變化和光照變化均不敏感,但此方法無法實現自動分割,它需要人為地選取輸入訓練樣本,并且分割的視頻對象邊緣也不夠準確。
本文采用了主動學習(Active Learning)的思想,將SVM和主動學習結合起來,對傳統的支持向量機進行了改進,實現了準確提取視頻對象的目的。
SVM是基于結構風險最小化原理的統計學習理論,它是一種有堅實理論基礎的新穎的小樣本學習方法。SVM的基本思想可用圖1所示的二維情況說明。圖1中,三角形和圓形代表兩類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本,它們是平行于分類線的直線,它們之間的距離叫做分類間隔。最優分類線需要滿足以下兩點:1)分類線能將兩類正確分開;2)分類間隔最大。

圖1 SVM原理圖Fig.1 The optimal classification plane
設一個線性可分的樣本集合為S=((x1,y1),…,(xk,yk)),x∈Rd,y∈{+1,-1}是類別標號,k為樣本數,d為輸入維數,d維空間中線性判別函數的一般形式為:

該超平面可以描述為:

對其進行歸一化,使樣本滿足:

這樣,分類間隔為2/‖w‖,使其最大化等價于最小化‖w‖。可見,在線性可分情況下,求最優超平面問題轉化為求解二次型規劃的問題。即:

此優化問題的解可由拉格朗日泛函的鞍點給出,經推導,結合Karush-Kuhn-Tucker條件,得泛函為:

式中:α為拉格朗日乘子。對于線性不可分情況,將輸入向量向高維特征空間進行非線性映射,引入內積核K(x,z),它在核K(x,z)隱式定義的特征空間中是線性可分的。則上面的問題轉化為:

此時d維空間中線性判別函數轉化為:

針對SVM需要有監督學習的局限性,本文提出一種無監督學習的SVM自動分割算法。利用自適應變化檢測的方法提取訓練樣本,并且利用主動學習的思想,對傳統的SVM加以改善,提高視頻對象提取的精度和速度。
變化檢測的基本思想是根據兩幀圖像中的亮度、顏色或紋理變化檢測并分割視頻對象,常用的變化檢測算法有幀差法與背景減法。
本文采用幀差法,并根據幀差直方圖選取幀差閾值,提取初始視頻對象。算法步驟如下所示:
(1)輸入視頻幀,計算幀差,并歸一化。
(2)統計各級幀差像素數目,建立幀差直方圖,幀差間隔為0.1。
(3)設定變量,n=0,i=0,計算n=n+M[d =1-0.1×i],其中M[d]表示幀差為d的像素數目。
(4)判斷n是否大于500:若是,設定閾值為該幀差值;若否,重復步驟(3)。
(5)輸入幀差圖像,若d(x,y)≥dth,則該像素點(x,y)標記為前景,作為訓練樣本;否則,標記為背景。被標記為前景的像素點將作為樣本用于SVM訓練。
訓練樣本標記完成后,本文選取光流場矢量、幀差值、灰度值和梯度值作為輸入矢量,這些物理量都有相應的求解算法,這里不累述。但在計算輸入矢量前,先對幀圖像采用高斯濾波減少噪聲的影響。
主動學習[8]的主要思想是每次選擇一些最有信息量的樣本進行反饋,它改變了傳統的從已知樣本集中被動學習的方法。對于最有信息量的樣本的選取,不同的算法定義不同,有的認為最不確信的樣本具有最大的信息量,而另外一些可能認為能最大化減小錯誤率的樣本具有最大的信息量。
視頻對象提取是一個典型的二類分類問題。實際中,只要把幀圖像中的前景分割出來即可,即建立關于前景的判別標準,符合此標準的像素點判斷為前景,否則為背景。而傳統的SVM進行樣本訓練時,選取的樣本通常有正類也有負類。這種學習方式要求正類和負類的樣本數目接近,否則分界面會有所偏差。這樣學習一方面需要控制正負樣本數量;另一方面要同時學習正類分界面和負類分界面,計算量較大。本文根據主動學習的思想優化SVM,使其只學習正類樣本,構造精確的正類分界面,從而將前景和背景有效地分離。
本文認為能最大化減小錯誤率的樣本具有最大的信息量,因此選取前景像素點作為SVM的訓練樣本,訓練后的SVM在分類時只判斷哪些是正類。本文選取3.1中標記為前景的樣本。因為對前景選取條件很嚴格,所以這些前景像素點標記的準確度很高,只要嚴格的訓練SVM就可以得到準確的前景判別標準:
如果,f(x)≥+1,則該像素點為前景點;否則,為背景點。其中f(x)為線性判別函數,表達式如式(7)所示。
本文SVM選取多項式核函數(p=15)作為核函數。圖2顯示了Akiyo序列第15幀改進后的SVM和傳統的SVM的分類結果,白色表示前景,黑色表示背景,灰色表示不確定區域。其中圖2 (b)表示傳統的SVM的分類結果,圖2(c)表示改進后的SVM的分類結果。從圖2可以看出,改進后的SVM消除了不確定區域,分類效果也比傳統的SVM理想。

圖2 SVM分類結果對比圖Fig.2 The com parison figure of SVM classification
此外,本文還選取MPEG-4標準測試序列中的Mother and daughter序列和Car-phone序列進行實驗仿真。圖3顯示了Mother and daughter序列第0、46、130幀的對象分割結果,及Car-phone序列第4、133、241幀的對象分割結果。圖3(b)、(e)分別是Mother and daughter序列和Car-phone序列SVM分類結果,經過SVM分類后,幀圖像被初步分割為前景和背景,但仍有少量的噪聲和蟲洞存在,在后處理過程中本文采用了窗口聚類和形態學開閉操作進行濾波和蟲洞填充,得到最終的視頻對象,如圖3(c)、(f)所示。實驗結果表明,對于不同的視頻序列和同一序列的不同幀,本算法提取的視頻對象邊界準確,分割精度高,即使對噪聲較多的視頻序列,本算法的分割結果也十分滿意。

圖3 實驗結果圖Fig.3 The experiment results
在MPEG-4核心實驗中,Wollbom等[9]提出了一種存在參考對象模板的評價方法,它的定義為:


視頻分割算法評價的另一方面是時間一致性(Temporal Coherency)。其定義如下:

COST(European Cooperation in Science and Technology)公開了視頻對象分割的分析模型(Analysis Model,AM)。本文提出的算法與COST AM的分割結果(以Akiyo序列為例)進行實驗比較,對比結果如圖4所示。可見,本算法的空間準確度比COST211 AM提高約0.05,而時間一致性比COST211 AM提高0.04左右。

圖4 算法結果評價Fig.4 The evaluation of segmentation results
本文提出了一種基于主動學習的SVM視頻對象提取方法。將SVM和主動學習結合起來,實現了更加準確提取視頻對象的目的。實驗結果表明,本文方法能克服一般SVM方法的缺點,使視頻對象的邊緣更加準確,同時減小了計算量。
[1]Zhu S P,Xia X,Zhang Q G.A novel spatial-temporal video object segmentation algorithm[C]//IEEE International Conference on Industrial Technology(ICIT),2008:1-5.
[2]Luciano S,Jacob S.Video segmentation based onmotion coherence of particles in a video sequence[J].IEEETransactions on Image Processing,2010,19(4):1036-1049.
[3]Guo L H.A fast and automatic video object segmentation technique[C]//IEEE International Conference on Communications,Circuits and Systems,2008:714-717.
[4]Liu Z,Gu JD,Shen LQ.Efficient video object segmentation based on gaussianmixturemodel and markov random field[C]//IEEE International Conference on Signal Processing(ICSP),2008:1006-1009.
[5]Zheng H R,Liu Z,Wang X F.Research on the video segmentation method with integrated multi-features based on GMM [C]//International Conference on Computational Intelligence for Modeling Control&Automation(CIMCA),2008:260-264.
[6]Hu S Y,Li J S,Li X H.Video object segmentation based on multi-feature clustering[C]//IEEE World Congress on Intelligent Control and Automation(WCICA),2008:5946-5949.
[7]Zhang JM,Chen CH.Moving object detection and segmentation in dynamic video backgrounds[C]//2007 IEEE Conference on Technologies for Homeland Security,2007:64-69.
[8]Gosselin P H,Cord M.Active learning methods for interactive image retrieval[J].IEEE Transactions on Image Processing,2008,17(7):1200-1211.
[9]Wbllbom M,Meeh R.Refined procedure for object segmentation algorithms[R].Doc ISO/IEC JTCI/SC29/ WG11 M3448,1998.