馬杉杉,彭來獻
(中國人民解放軍陸軍工程大學,江蘇 南京 210007)
圖像顯著性研究的主要任務是讓計算機視覺系統能夠模擬人類的視覺能力檢測并分割出一幅圖像中最吸引人注意力的目標,被廣泛應用于各種計算機視覺任務。顯著性目標檢測算法分為傳統的顯著性檢測算法和基于深度學習的顯著性檢測算法兩類。前者依賴于手工制作的基于顏色、強度、形狀以及紋理等圖像的基本特征描述顯著性,忽視了豐富的上下文語義信息。當背景相似或圖像結構較為復雜時,算法的準確度往往不盡人意。
目前,基于深度學習的方法被廣泛用于圖像顯著性目標檢測。Lee[1]等人提出了一個由兩個子網絡組成的顯著性檢測網絡模型,同時獲取全局和局部信息。全卷積網絡FCN[2]的出現,使得顯著性檢測看作是圖像語義分割任務。Liu 在FCN 基礎上提出了DHSnet 網絡[3],通過反卷積算法恢復縮小后的顯著圖的細節信息。Wang 和Borji 等[4]提出具有兩階段的循環網絡結構,先提取圖像粗糙的顯著圖,再使用金字塔池化結構生成較為清晰的顯著圖。這些模型中存在大量的卷積和池化操作,導致生成顯著圖時丟失了很多細節。所以,目前大多數的顯著性分割模型能夠大致定位到顯著物體的位置,但是邊界比較模糊。
本文通過深度學習算法提取圖像中的顯著性目標區域,并利用基于GMM 模型的顏色特征提取目標空間信息,最后通過一個優化模型融合空間信息和語義信息得到最終的顯著性目標圖。實驗結果表明,在復雜環境下本算法具有較高檢測準確度,證明了算法的有效性和魯棒性。
傳統卷積神經網絡提取的抽象特征對圖像中目標粗略位置的定位很有效,但很難做到像素級的分割,不能準確劃定目標具體的輪廓。全卷積網絡FCN 通過對圖像進行像素到像素的分類檢測,突破了傳統卷積神經網絡在像素級分割的局限性。具體做法是去掉用于分類的全連接層和softmax 層,把最后卷積得到的特征圖利用反卷積算法進行上采樣操作,使輸出圖像和輸入圖像具有相同的分辨率,然后在相同分辨率的特征圖上計算每個像素分類的損失,達到對每個像素都能進行分類預測的目的,解決了圖像分割中目標邊界位置不清晰的問題。FCN 主要由卷積層、池化層和上采樣層3 部分組成。
本文借鑒FCN 思想,采用VGG[5]深度神經網絡模型用于目標檢測,借鑒Long 的方法,保留該網絡的前7 層結構,只在最后兩層加入反卷積算法,通過上采用恢復特征圖的分辨率。這樣可利用輸入圖像和人工標準的顯著圖像素之間一一對應的關系進行網絡訓練,利用深層神經網絡提取的顯著性目標特征進行目標檢測和分割。
本文網絡結構如圖1 虛線框所示,把深度神經網絡的全連接層改為卷積層,把用于分類的softmax層改為反卷積層。

圖1 基于VGG 的全卷積網絡結構
本算法模型主要包括卷積、反卷積、池化和非線性激活等操作。其中,卷積運算用于特征提取;反卷積運算可以看成是上采樣操作,本文采用雙線性插值上采樣;池化運算是取每個圖像塊中的最大值作為圖像塊的特征值,減少網絡參數;非線性激活部分采用ReLU 函數,可以有效解決神經網絡參數訓練中的梯度消失問題。
由于最后得出的特征圖像和輸入圖像具有相同的分辨率,因此可以利用已有的人工標注數據集訓練深度神經網絡,利用隨機梯度下降算法求解交叉熵損失函數的最小值,得到網絡中各個卷積核的權重參數。根據實驗經驗,各種超參數設置如下:學習率為0.002,權重衰減系數為0.004,每組訓練樣本數為64。
網絡參數的初始化對于網絡訓練的最終效果有很大影響。為了充分利用全卷積目標分割網絡中已有的信息,本文網絡中前7 階段的參數用VGG 模型已經訓練好的相應參數進行初始化,其他層用高斯分布的隨機數進行初始化。
為了進一步解決顯著性目標區域邊界不準確、區域不完整的缺陷,引入空間信息進行優化。通常情況下,圖像中前景和背景顏色不一致,且背景分布面積更大。基于這一知識將顏色分布特征定義為RGB 三通道的顏色方差之和,即利用顏色分布計算各個顏色所占的比重來檢測顯著性目標。本文采用高斯混合模型(Gaussian Mixture Model,GMM)建立圖像中顏色信息模型,然后用條件概率計算出每個像素所包含的顏色所占比重如下:

每一個顏色成分c空間位置的水平方差Vh(c)計算如下:

式中,xh是x像素的橫坐標,且|X|C=∑xp(c|Ix)。顏色的垂直方差計算和水平方差類似。最后,第c個顏色空間方差為顏色成分的水平方差和垂直方差之和。圖像中的所有顏色利用高斯混合模型計算出每一個像素的顏色所占的不同比重,顏色所占比重越小,說明其越有可能屬于顯著性區域的顏色。
為獲得更準確的顯著性區域圖,將兩種顯著性信息進行融合,提出了一個新的無約束優化模型,有效融合之前獲得的語義顯著性信息和基于顏色的空間一致信息。將兩種顯著性信息融合建模為一個目標函數最小化問題,目標函數的定義為:

式中,表示圖像中包含的像素個數,S*為優化模型為每個像素分配的顯著性值。第一項包含空間信息,i、j為在空間上相鄰的兩個像素,ωij表示像素i、j的顏色相似性,利用相鄰像素顏色值的顏色空間方差表示。空間一致約束項促使顏色相似的相鄰像素獲得相近的顯著度值。第二項包含語義顯著性信息,像素i的語義顯著性值由像素的語義信息值表示。Ti表示選擇像素的指示值,其值根據像素顯著性值和預設的閾值之間的大小關系而定,值為1 或者0。該閾值是一個超參數,用經驗值0.8代替。
為驗證算法的有效性,實驗選擇了在4 個常用的顯著性檢測基準數據集ECSSD(1 000 張圖像)、HKU-IS(4 447 張圖像)、PASCAL-S(850 張圖像)、DUT-TE(5 019 張圖像)上做對比實驗。目前,常見的評測指標為Max-F 和MAE。其中,max-F 通過設定準確率和召回率之間的比例可以進行綜合計算評測,而MAE 為平均絕對誤差,可以進行更加全面的比較。
表1 列出了本文顯著性模型和6 種行業領先水平的方法在4個公開數據集上評測指標的對比結果,包括DHSNet、MSRNet、NLDF、RFCN 和UCF 這5種基于深度學習的檢測算法和DRFI 這1 種傳統檢測算法。為了保持客觀,其他算法的實驗結果由作者提供的代碼計算獲得。
從仿真結果可見,基于深度學習的方法普遍優于傳統顯著性物體檢測方法,而本文算法的Max-F指標和MAE 指標除了背景環境復雜且具有多目標特征的PASCAL-S 數據集外,在其他數據集測試中都位于前列。實驗結果充分說明,在公開的數據集上,本算法具有較高檢測準確度,證明了算法的有效性和魯棒性。

表1 本文算法和其他6 種算法在4 種數據集評測指標對比結果
本文提出的顯著性目標檢測算法通過改進深度神經網絡VGG,建立了像素到像素級的顯著性目標檢測模型,可準確標注出圖像中的顯著性目標位置,并利用基于GMM 的顏色模型提取目標空間信息,最后通過一個優化模型融合空間顏色信息和深度學習顯著性信息得到最終的顯著性目標圖。在公開數據集上和其他算法的對比的實驗結果表明,本文算法能夠實現準確度較高的顯著目標檢測結果,體現了算法的優越性。