陸宏菊
(濟南市技師學院 信息工程學院,濟南 250115)
圖像分割是計算機視覺中最基礎的研究問題之一,其目的是根據相關性原則將圖像分成若干互不重疊的區域,并將感興趣的區域與背景標記出來[1]。圖像分割算法中,交互式分割研究相對比較成熟,包括基于邊界的和基于區域的方法[2]。其中,基于邊界的方法通過用戶獲得邊界信息,例如Snake 模型[3]、GAC 模型[4]和LSM 模型[5]。基于區域的方法預定義或交互標記不同的目標和背景,通過相似性計算完成分割,如Intelligent Paint[6]和Marker Drawing[7]。為了降低用戶干預,Dambreville等人[8]提出KPCA 算法在GAC 中引入形狀先驗模型。Liao 等人[2]提出結合顯著性特征和星型形狀先驗進行前景特征點定位。盡管已經獲得較好的分割結果,交互式分割算法仍存在時間長、操作繁瑣和結果易受標記點位置影響的問題。
在上述方法中,局部特征相似性計算在像素級分割算法中起著關鍵的作用,但也隨即帶來了較高的計算代價。對于某些參數依賴和模型依賴的算法,數據標簽化成本也很高,且只適用于特定種類和指定的數據集。針對這些問題,本文提出一種無監督學習的多模態特征語義分割模型。受FCN 模型的啟發,多種像素級特征(顏色、顯著性、空間、深度等)聯合進行圖像表示能夠獲得更加完整的圖像描述。針對不同類型的圖像,多種特征在圖像分割解空間的貢獻度不同。本文提出特征選擇矩陣S,能夠將多模態特征在解空間進行映射,從而獲得低維、平滑的解平面用于圖像分割,通過引入語義檢索模型簡化求解難度。
目前,出現了眾多針對圖像特征的描述子,例如顯著性特征、景深特征、空間特征和顏色特征等。這些特征針對圖像的不同側面進行了描述和表示。在圖像分割中,采用顯著性特征表示對于包含有明顯主題物體的圖像、采用景深特征表示對于具有距離深度的圖像非常有效。每一種特征單獨表示能對于相關類型圖像具有良好的分割效果。本文提出假設:采用多模態特征融合的方法進行圖像分割,相對于單一特征描述,分割效果則會更佳。因此,本文提出基于多模態特征的無監督學習算法進行圖像前景和背景的分割。
特征合并是多特征學習算法常用的策略,即將不同模態的特征通過合并(多維特征組成一維特征)進行分割訓練。這種方法簡單易行,但是未考慮不同模態特征對于最終分割問題解平面的貢獻度不同。比如說在空曠風景照中景深特征會對于區分前景和背景貢獻度較大;對于人的肖像照,顯著性特征和顏色特征貢獻度較大。圖像及其多模態特征表示如圖1 所示。因此本文提出通過學習策略獲得特征選擇矩陣S。針對不同類型的圖像,矩陣S能夠合理地將不同模態特征在分割解空間內進行投影,使得貢獻度大的特征能夠在投影中占據主導。

圖1 圖像及其多模態特征表示Fig.1 The image and multi-modality representation of the features
在規模為n的鄰域內,像素多模態特征Ω可以表示為所有特征組成的高維向量,Ω={Cri,j,Cgi,j,Cbi,j,Xposition,Yposition,ftexture,flightness,fsaliency,…}。每個像素的特征向量表示為n鄰域范圍內所有像素的特征集合。本文中提出的“語義”與FCN中的語義有所不同,本文中主要是指在高維特征空間內,針對目標函數的特征的投影,也就是本文提出的特征語義。因此,可以將分割問題表示為:

其中,tr(.)為跡運算。經過化簡,L∈?(n+1)×(n+1)體現了在n維空間內的相似度度量目標函數。對于L的估算仍舊很難進行,經過分析發現,雖然不同的特征對于不同類型圖像的貢獻度不同,但是可以認為其貢獻度皆為非負的。本文研究提出存在一個潛在的特征選擇矩陣S,通過S可以將多模態特征進行全局映射,即:Ωpi=ΩSn。
因此,公式(1)可以進一步化簡為:

將公式(1)帶入到公式(2)中可以得到:

本文采用文獻[9]中的方法對式(3)進行求解。學習出的模型(Φk(x),λk)可以用來將高維的特征矩陣Ω映射到由用戶指定相似距離閾值θ的解空間上。
經過式(3)可以針對目標圖像學習出其相應的特征模式(modes),并尋找到相似度最小的像素集,如圖2 所示。

圖2 目標興趣點集Fig.2 Object interesting pixels set
針對目標興趣點集完成自動分割,首先利用檢測出的興趣點產生種子區域。通過圖像的顏色距離dc和位置距離ds[10],將與興趣點像素“同質”的像素計算出來。因此,本文提出的算法代碼的設計表述如下。
輸入:圖像I,特征n,距離閾值θ
輸出:分割結果
3:[特征向量,特征值]←Ln;
4:訓練學習出特征模式,從而得到興趣點;
5:通過式(3)和距離閾值,根據興趣點得到興趣區域;
6:根據興趣區域獲得分割結果。
本文實驗環境為Windows 10,I9CPU,32GB 內存,英偉達GTX 1080Ti 11G。實驗選取圖像的顯著性[11]、Focal 長度[12]、空間特征[13]和顏色直方圖[14]四種不同模態的圖像特征進行對比實驗。實驗選用的是BSD 數據集。與3 種最新方法,即高斯混合模型(GMM)[15]、Level-set 算法[16]和LSC 超像素分割算法[17]進行定性比較。
本文進行了分割結果的可視化定性比較,對比結果如圖3 所示。圖3(a)是從BSD500 數據集選定的待分割圖像。圖3(b)受復雜背景圖像的影響,有部分區域被誤分類為前景區域,對于邊界保持也并不令人滿意。圖3(c)受初始位置的選擇影響,當初始位置選擇合理時,分割結果較好,例如“鴕鳥”圖像;反之則不然,例如“飛機”圖像。圖3(d)為LSC超像素算法的結果,在前景物體分割上出現錯誤。圖3(e)為本文算法、采用了多模態的特征,對于2幅“飛機”圖像,景深特征的作用可以確保前景邊界信息的完整?!袄先恕眻D像中,顯著性特征能夠有效分割出老人與椅子背景區域。本節實驗呈現結果并不是在相同模式下,所有代碼均來自于作者本人自主研發。經過視覺對比可以明顯看出,本文方法在場景圖像、人物圖像、動物圖像等不同類型圖像前景背景分割中均獲得了理想的結果。

圖3 定性對比Fig.3 The qualitative comparison
在定量對比方面,本文主要設置2 組實驗:采用參數PRI、GCE和VOI指標的對比;采用F -measure與BSD500 數據集中的標定數據進行對比。對此擬展開探討分述如下。
(1)采用PRI、GCE、VOI指標的對比。在BSD500圖庫中抽取30 幅圖像進行定量分析對比實驗。采用PRI[18](probabilistic rand index)、GCE[19](Global Consistency Error)和VOI(Variation of Information)評價指標進行評估[20]。其中,PRI計算分割結果與真實標記相一致的像素數的比例,其值越大、分割結果與參考值間的屬性共生一致性也就越好。VOI是信息差異指標,計算像素點分割產生的信息熵的變化程度。在概率論和信息論中,信息或共享信息距離的變化是對2 個聚類(元素分區)間距離的度量,且與相互信息密切相關;實際上,這就是一個包含相互信息的簡單線性表達式,其值越小越好。GCE衡量分割結果之間互相包括的概率,其值越小越好。本次研究中,計算50 次的平均值作為最終結果,見表1。由表1 中可以看出,本文算法在3 項指標上皆高于文中選擇的對比方法。

表1 PRI、GCE和VOI 的平均值Tab.1 The average value of PRI,GCE and VOI
(2)采用F -measure指標的對比。采用F -measure衡量本文分割方法與BSD500 中提供的6 個人工標注數據之間的性能比較,數學定義式具體如下:

其中,β2=0.3[21]。
與BSD 標定數據性能對比結果見表2。在表2中,本文從BSD500 數據集中選取20 個圖像,求其平均準確率、召回率和F -measure數值。通過實驗可以看出,這些指標大多超過95%。實驗結果表明本文方法的效果接近BSD500 所提供的6 個人工標注分割結果。

表2 與BSD 標定數據性能對比Tab.2 The quantitative comparison with BSD labels
深度學習模型是當下研究熱點,本文思路也是受深度模型多層次、多特征加工啟發產生,因此,本文針對目前廣泛應用的FCN[22]進行對比實驗。FCN 通過梯度累積、正則化loss函數和標準化動量方式進行訓練,比較結果如圖4 所示。本次研究中,選取了FCN8s(2 stream,8 pixel prediction)、FCN16s(2 stream,16 pixel prediction)和FCN32s(1 stream,32 pixel prediction)模型進行對比實驗。
由圖4 可知,FCN8s 模型效果明顯好于其他2個。但是由于FCN 模型的主要目的是進行語義分割(Semantic segmentation),即將具有相同語義的物體進行分割和標注。因此,在對于邊緣分割準確率方面也并不精確。在這一方面,本文算法的結果較FCN 更加準確。

圖4 FCN 模型分割對比Fig.4 FCN models segmentation comparison
在1.3 節提到的本文算法中,相似度距離閾值θ為超參,表示相似度距離,也就是當相似度距離小于θ就表示2 個像素同質,否則表示2 個像素異質。
參數分析結果如圖5 所示。圖5中,圖5(a)~(c)中的各子圖從左至右的θ取值依次為8,9,10,11,12。從圖5 中可以看出,當θ取值趨向于0,檢測到的興趣點像素就非常多,但包含有大量的噪聲,從而出現過分割。當θ取值很大時,相似度距離會比較嚴格,檢測出的興趣點會減少,從而出現欠分割現象??傊线m的相似度距離閾值θ對于結果是非常重要的,本文中選取的θ在[9,11]之間,一般情況下θ=10。

圖5 參數分析結果Fig.5 The parameters analysis results
本文提出一種基于無監督的多模態特征映射策略,將傳統的圖像分割問題轉化為在全局范圍內尋找相似距離最小的最優化問題。通過引入特征選擇矩陣和語義哈希模型,簡化了計算復雜度,降低了計算代價,實現了對不同種類圖像的前景-背景分割。通過與其他無監督算法和深度學習模型進行對比,驗證了本文方法的可行性。
本文方法中還有很多需要改進的地方。首先,雖然多模態特征映射采用的是無監督學習策略,但相似度距離閾值θ是由用戶指定的。如何能夠在學習過程中將閾值參數加入到目標函數中是未來工作亟待解決的問題。通過引入顯著性、景深、空間和顏色特征,本文方法展現出對于多類型圖像分割的魯棒性。在當前框架下,如何引入新的特征能夠適應更加泛化的圖像類型將成為本文后續工作的重點。