陳 明,林益賢
(湖南師范大學 信息科學與工程學院,長沙 410081) E-mail:chenming@hunnu.edu.cn
圖像分割是數字圖像處理、計算機視覺領域中的基本問題之一,在以圖像和視頻為研究對象的模式識別系統中扮演重要的角色.圖像分割是根據圖像的灰度、顏色、紋理等特征把圖像劃分成具有某種特性的區域,并根據這些特性提取出有用的目標.然而實際圖像受到硬件條件、觀測角度、光照條件、遮擋、復雜背景等因素的影響,因此對圖像進行合理的分割,是一個比較困難的問題[1,2].
高斯混合模型(Gaussian mixture model,GMM)和基于水平集的活動輪廓模型(Active contour models,ACMs) 是兩類典型的圖像分割模型[3].GMM 是一個產生式概率聚類模型,一般利用期望最大化(Expectation-Maximization,EM) 獲得圖像特征(例如顏色和紋理)的統計性質,從而分割圖像.EM-GMM方法實現過程簡單,常產生粗糙的、缺乏良好幾何特性的分割結果,一般用于一些迭代方法的初始化,或者,被納入其它能量函數中,用于描述圖像的表觀模型[4].不同于EM-GMM的概率特性,基于水平集的活動輪廓法則采用了變分模型.ACMs以高維水平集函數隱式地表達輪廓曲線,基于更新方程不斷地演化該輪廓,最終得到平滑的、閉合的、高精度的分割曲線.這類方法能夠自動處理目標邊界的拓撲變化[5],但是,對初始化比較敏感,收斂速度慢.
鑒于EM-GMM和活動輪廓法所具有的不同特性,一些文獻試圖結合兩者的優點.文獻[6-9]利用GMM構建ACM的區域項.其中,文獻[7-9]利用水平集函數的反饋信息,更新GMM的后驗概率.文獻[10]提出曲率平滑項和GMM相統一的模型,為GMM引入了水平集函數相關的幾何先驗.但是,文獻[10]的方法忽略了曲線演化過程中的動態信息.
本文針對二相分割提出了一個新型混合體,稱為ACM&GMM.該分割方法交替地執行GMM的EM算法和活動輪廓演化方法,并以恰當方式相互通信,從而形成一個混合算法.對于每一個像素,引入logistic函數衡量其屬于內部區域的概率,并將該概率對應到GMM中隱變量的后驗概率,從而順利地搭建了GMM和活動輪廓之間的橋梁.基于此,按照如下方式關聯GMM和ACM:
1)利用GMM初始化活動輪廓曲線,免去了活動輪廓的手動初始化;
2)利用GMM構建活動輪廓模型中的區域項;
3) 利用GMM中隱變量的后驗,重新表達曲線演化方程中的Dirac函數;
4)利用梯度下降流所提供的幾何反饋,動態地構建了GMM的高斯分支先驗分布計算式.在上述過程中,ACM 和GMM 均利用了對方的最新信息,ACM&GMM 只需要很少的演化次數便可獲得較為滿意的結果.實驗表明,我們的方法能夠顯著提升GMM的粗糙分割結果,在非勻質圖像上也表現良好.
本文剩余內容的組織如下:第2節概述GMM和ACM模型;第3節詳細闡述提出的ACM&GMM 方法;第4節進行詳細的實驗分析;最后,第5節總結全文.
本節,我們首先概述GMM及其EM優化過程,然后介紹典型的活動輪廓模型.


(1)
M-step :更新參數(Πt,Θt)→(Πt+1,Θt+1)

(2)
ACM將圖像平面看成是連續的區域,首先初始化一個輪廓曲線,通過最小化能量函數,令該輪廓演化收斂至目標邊界處.水平集方法中,時刻t的活動輪廓C(t)以高維的水平集函數φ(x,t)的零水平集來描繪:C(t){x∈Ω:φ(x,t)=0}.這里,對于任意的點x∈Ω,我們設定:若x∈inside(C),則φ(x,t)>0;若x∈outside(C),則φ(x,t)<0.
活動輪廓可以分為兩類:邊緣型和區域型.邊緣型模型通過設計了一個邊界停止函數,吸引活動輪廓停在目標邊界上.測地活動輪廓等(Geodesic Active Contours,GAC)[11]使用了如下停止函數:g(|▽I|)1/(1+|▽Gσ*I|2),其中,Gσ為 Gaussian濾波器,σ為標準差,I為圖像特征.區域型模型利用區域統計信息來引導輪廓曲線逼近目標邊界,這類模型有著名的C-V模型[12]:

(3)

C-V模型不能很好的處理非勻質圖片.為了克服這一缺陷,Li等[13]基于核方法提出了RSF(region-scalable fitting)模型,但該模型的計算量非常大[14].Zhang等[14]所提出的LIF(local image fitting)模型,是對RSF的改進,在計算復雜度和分割效果上取得平衡.LIF模型在截斷的高斯窗口中進行簡單的信息統計,在很少的計算代價下,能夠取得與RSF相似的效果.
本文基于EM-GMM和梯度下降流,提出了一個混合型分割方法ACM&GMM,較好的結合了區域統計信息和輪廓曲線的幾何信息.用logistic函數替代Heaviside函數,映射水平集函數值為分割的不確定性,并與GMM中隱變量的后驗概率建立對應關系,搭建了ACM與EM-GMM之間的通信橋梁.一方面,輸送GMM的狀態至ACM:利用GMM的當前參數來描述當前的區域項,并用隱變量改寫Heaviside函數和H′(φ).另一方面,梯度下降流為GMM提供了動態反饋,用于估計GMM中高斯分支的先驗分布.圖1描述了ACM&GMM的算法框架,以交替方式執行EM-GMM和梯度下降流,直至滿足停機條件.本文所使用的活動輪廓模型包含兩項:邊界項和區域項,能量函數及其梯度下降流分別見(4)-(5)式:

圖1 ACM&GMM算法框架Fig.1 Framework of ACM&GMM
E(φ,Θ)=Er(φ,Θ)+βEe(φ),
(4)
Er(φ,Θ)
(5)
這里,δ(φ)=H′(φ)為Diracdelta函數.邊界項是conformal度量[13]下的輪廓曲線長度,β為權重.
本文僅考慮二相分割,設p(xj|θi)服從高斯分布.設定GMM中的K=2,恰好令每個高斯分支對應ACM中的一個分割塊.因此,在該模型中,區域項p(xj|θi)的計算自然地直接借用GMM的兩個高斯分支的參數.這樣一來,不僅避免了分支數的選擇問題,還建立了EM-GMM與ACM之間的第一層聯系.
下面,我們建立ACM與EM-GMM之間的深度聯系.首先,logistic函數替代Heaviside函數,新的H函數為H2,ε(φ)1/(1+e-φ/ε).這一替換由Lowry等[10]提出.圖2展示了兩個函數及其導數的相似性,因此,該替換對實驗的影響非常小.下面,我們會發現,H2,ε函數的形式非常有益于ACM和EM-GMM的通信.對于任意j∈Ω,簡記其水平集函數值為φj.觀察正則化的H函數可知,H(φj)和1-H(φj)可以分別用于衡量xj屬于前景和背景的概率.注意到,在GMM中隱變量的后驗概率則表達了相同的意義.因此,設定zj1=H(φj)與zj2=1-H(φj),從而搭建了ACM和EM-GMM的橋梁.進一步的,由H2,ε(φ)的表達式可得:

圖2 H 函數與δ函數Fig.2 H function andδfunction


(6)
這里,τ為演化的步長.這些設定強化了由EM-GMM至ACM之間的通信.
(7)
上式建立了水平集函數和GMM參數之間直接聯系.令梯度下降流為0,假定當前的輪廓曲線為局部最優曲線,得:
log(p(xj|θ1)/p(xj|θ2))=-βdiv(g▽φj/|▽φj|).
上式展示了局部最小化(5)時,φ和參數Θ之間的關系.將其代入(7),對于給定像素xj,我們可以按照(8)式估計GMM中高斯分支分布先驗.通過求平均,得(8)式.利用了活動輪廓曲線的動態演化過程,為EM-GMM的先驗估計提供了一個幾何反饋.
(8)
本文在MSRA1K 數據集上對算法進行測試,該數據集曾被用于文獻[16,17],擁有1000張圖片.與兩個典型的區域模型進行對比:C-V模型和LIF 模型[14],同時,以EM-GMM為測試基準.活動輪廓所使用的步長τ為 0.1,滿足 CFL條件[15].Logistic函數中的ε設定為1.0,權重參數β為 2.0.高斯濾波器的σ為0.3.所有的算法在下面的條件之一將停機:(i)連續兩次分割結果的改變比率不超過0.0001;(ii)迭代次數超過1000.


表1 運行時間和迭代次數 Table 1 Run time and iteration times
圖3-圖5展示了代表性圖片上各算法的分割結果及其量化指標.圖3分為上下兩欄.每欄表示若干組圖像.每列從上到下的6幅圖像分別表示一組圖像的原圖、真實結果、ACM&GMM方法、C-V模型、EM-GMM方法和LIF模型生成的二值圖結果.圖5中每個子圖的橫坐標是圖的標號,標號順序對應圖3、圖4從左到右每一組圖像的排布順序.縱坐標為相應的量化指標值,對應上述三種量化指標的評價結果.每個子圖有四條曲線,分別表示四種方法的指標值,曲線的每個點表示每一組圖像的指標值.如果曲線波動越小,說明該方法在不同圖像分割結果的魯棒性更強些.越大的F1 值表示結果越好,另外兩種指標則相反,越小的值表示結果越好.二值分割結果和量化指標值均表明,ACM&GMM優于GMM和CV模型.總體上,ACM&GMM方法的效果與LIF模型相當.
圖3展示了幾種算法在不同類型的圖片上的分割效果.與CV模型相比,ACM&GMM在處理非均質密度的圖片時,效果明顯要好.比如,圖3第一欄第6組圖像(棒棒)、第二欄第4組圖像(五角星)的背景是非勻質的,由于CV模型的全局統計特性,難以分離背景,而ACM&GMM能夠較好將其分離.EM-GMM模型作為全局統計方法,由于其不能感知空間關聯性,因此難以正確處理具有顏色紋理相近、空間分離特征的圖像.比如,第一欄第9組圖像(飛機),山頭和飛機顏色相近,EM-GMM方法將其歸為一類,而ACM&GMM由于具有活動輪廓方法的感知空間的關聯能力,因此能夠將山頭從前景區分出來.再如,EM-GMM方法不具備平滑邊緣的能力,分割結果粗糙,ACM&GMM方法由于繼承了活動輪廓方法的優勢,因此可在一定程度上改善這一點.

圖3 分割結果的二值圖.每一組包括:原圖、真實結果以及來自于ACM&GMM、C-V模型、EM-GMM 和LIF模型的結果.Fig.3 Binary segmentation results.Each group consists of originals,the ground truth,and results from ACM&GMM,CV models,EM-GMM and LIF models.

圖4 分割邊界的比較.每一組圖片包括:原始圖片(左上)、來自于ACM & GMM(左下)、GMM(右上)和LIF模型的結果(右下).Fig.4 Comparisons of segmentation boundaries.Each set of images includes:the original picture and the results from the ACM & GMM,GMM and LIF models

圖5 量化指標Fig.5 Quantitative indicators
圖4展示了幾種方法在幾張典型圖片上的分割邊界.EM-GMM具有較弱的邊界處理能力,分割結果較為復雜.LIF模型趨向于過于平滑的邊界,可能會將目標的兩個部分填充掉.例如,第1、2組圖,齒形的目標在上方,LIF模型的結果比真實結果要“肥”.LIF結果過于平滑,難以獲得輪廓邊緣細節.我們的方法則能更好的保持其幾何特性.特別的,最后一組圖上,我們的方法則在對比度強的區域上表現出更強的敏感性.
在分割結果的指標度量上看,ACM&GMM的曲線波動比EM-GMM和CV模型更小,說明該方法具有較好的魯棒性.ACM&GMM方法的效果與LIF模型相當,但是有幾個圖像對應的點,ACM&GMM方法的指標表現比LIF模型稍差,例如:圖3中的“雪地飛鳥”、“飲料瓶”以及圖4的最后一張.這些圖或者光照不均勻,或者前背景有明顯的顏色重疊現象.LIF是CV、RSF模型的改進版,具有更強的抗噪性,因而表現較好.由于ACM&GMM方法采用了EM-GMM方法的更新方式,相比LIF模型,只需要很少的演化次數便可獲得較為滿意的結果.表1中,我們列出ACM&GMM和LIF模型在1000張圖像上停機的平均迭代次數和時間.結果表明,ACM&GMM所需的時間和次數更少.實際上,我們的方法常在幾次迭代后便能得到較為滿意的結果.
本文基于EM-GMM 和ACM,針對二相圖像分割提出了一個深度混合的算法.ACM基于EM-GMM的當前狀態計算演化曲線,同時,由梯度下降流提供幾何反饋給EM-GMM,用于動態的估計高斯分布的先驗分布.我們的方法能夠快速收斂,獲得清晰的邊界,在非勻質圖片上表現良好.在未來的研究中,我們將提升該方法,用于多標簽分割和交互式分割.