張衛國,馬靜瑞
(西安科技大學 計算機科學與技術學院,陜西 西安 710054)
顯著性檢測旨在模擬人類視覺系統的選擇性處理,識別圖像中最重要和最顯著的對象區域。作為預處理步驟,它可以有效地聚焦于與當前任務相關的圖像區域,并且廣泛應用于計算機視覺和圖像處理工作,如圖像分割[1]、圖像壓縮[2]以及目標識別[3]等領域。目前,國內外研究者提出了大量的顯著性檢測模型。主要分為自底向上目標驅動的模型[4,5]以及自頂向下任務驅動的模型[6-8]。自底向上的顯著性檢測方法傾向于檢測圖像細節信息并且具有較低的計算復雜度,但很難專注于全局形狀信息。而自頂向下的顯著性檢測方法能夠提取全局信息,但忽略局部顯著性特征。為了更好地利用兩種方法的優點并克服這兩個方面的不足,本文從自底向上及自頂向下兩種模型考慮,提出了一種結合局部特征和全局特征的方法,并且該方法有效地提高了顯著性檢測的準確性。
本文提出了一種結合局部和全局特征的圖像顯著性檢測方法。該方法的實現框架可分為3個階段,如圖1所示。第一階段,為了保持顯著區域的完整性,避免尺度分割對顯著性結果的影響,將輸入圖像進行多尺度分割。再考慮顏色特征以及紋理特征的互補性,通過局部對比度計算得到局部顯著圖。第二階段,以VGG16[9]網絡為基礎模型構建全卷積神經網絡(FCNN),進行端到端的訓練。通過訓練好的模型,輸出全局顯著圖。第三階段,將前兩個階段生成的顯著圖進行融合,得到最終的顯著圖。
為了更好地捕獲輸入圖像的結構信息并提高圖像處理效率,對于任意輸入圖片,首先采用SLIC(simple linear iterative cluster)分割成4個尺度的超像素集,設定像素個數分別為100,150,200,250。對于每個尺度下的超像素集,均基于圖像中心先驗、對象先驗以及暗道先驗[10]等信息,通過計算不同區域的RGB、CIELab、LBP這3種特征的歐式距離,得到每個區域的顯著值。即對于區域ri(i∈{1,2,…M})與邊緣bj(j∈{1,2,…Mb},Mb是邊緣超像素的個數),顯著性值可通過式(1)計算

圖1 顯著性檢測框架
(1)
其中,dF(ri,bj)是區域ri與邊緣區域bj在F所對應特征下的歐式距離,F分別為RGB、CIELab及LBP特征。Ce(ri)是通過區域ri中心與圖像中心歸一化空間距離計算得到的中心先驗權重。Dr(ri)的計算方法參考文獻[10]。Ob(ri)計算每個窗口被判定為顯著性目標的概率值Ob(q),計算公式為
(2)
通過式(1)可以得到每個區域的顯著值,將該區域內的所有像素設定為該值,并得到像素水平的顯著圖。采用圖割(graph cut)方法進行優化處理,得到初級顯著圖S0。對每個尺度上的初級顯著圖,表示為:{Ski},i=1,2,3,4進行多尺度融合,得到最終的顯著圖Sl,計算公式為
(3)
FCNN是一種特殊的卷積神經網絡模型。與CNN不同,FCNN使用卷積層而不是全連接層來實現像素級預測,可以有效地捕獲圖像的語義信息。本文在VGG16網絡結構的基礎上將全連接層替換成卷積層,構建FCNN,其網絡結構如圖2所示。該模型對不同級別(從低級別到高級別)的顯著性信息進行編碼。前13層基于VGG16卷積網絡,第14、15層各含有一個卷積層,同時引入Dropout層,對前13層的深度特征做進一步抽象,以提高網絡的泛化能力。最后為了使輸出圖像具有與輸入圖像相同的尺寸并保留圖像的全局信息,使用一個卷積層和一個反卷積層來生成顯著圖(通過sigmoid函數歸一化為[0,1])。其中,前15層的每個卷積層都配備一個線性整流函數(ReLU)。

圖2 FCNN網絡結構
本文FCNN模型是在Caffe toolbox[11]的基礎上實現的。實驗中通過隨機梯度下降法(SGD)進行網絡訓練,實現逐像素的預測。訓練過程中動量設置為0.99,權重衰減系數設置為0.005,學習率為10-10。最后,通過訓練好的FCNN輸出全局顯著圖Sg。
局部模型生成的顯著圖更趨向于圖像的細節,而全局模型生成的顯著圖能夠比較完整的突出整個顯著性目標。本文基于局部、全局顯著性檢測模型優勢互補的特性,將局部和全局兩種顯著圖利用加和的方式結合起來,使得最終顯著圖Sf結果更優,計算公式如下
(4)
為了評估所提方法的性能,本文在3個公開的數據集上進行一系列的定性和定量實驗。這些數據集均含有像素集的真值標注,分別為SED2[12]、ECSSD、PASCAL-S[13]。ECCSD數據集包含1000張具有來自互聯網的復雜場景的圖像。PASCAL-S數據集包含850張具有多個復雜對象和雜亂背景的自然圖像,可以說是最具挑戰性的顯著性數據集之一。SED2共100張圖片,是一個含有多顯著性對象的數據集,通常在每個圖像中包含兩個顯著對象。
將本文方法與比較經典的ITTI(IT)、RC[4]、LG[5]、DM[6]、LEGS[8]等方法進行定性和定量比較。由于作者并未提供LEGS方法在SED2數據集上的檢測結果。因此,LEGS方法只在ECSSD、PASCAL-S數據集上進行評測。
圖3顯示本文算法與其它算法生成的顯著圖的定性對比圖。第一列為測試集中的原圖,第二列為手工標記的二元真值圖(ground truth,GT)。從圖中可以看出,前面5種方法生成的顯著圖有漏檢、對比度不明顯、不完整的情況,而本文算法能夠更加準確均勻的突出前景,并且生成的顯著圖中背景噪聲較少,更接近人工標記結果。此外,由于采用了LBP紋理特征,本文算法在背景雜亂和前景背景對比度比較低的情況下仍然可以很好地工作。

圖3 本文算法與現有5種算法生成的顯著圖對比
為了更進一步驗證本文算法的有效性,通過準確率-召回率(P-R)曲線、AUC(area under roc curve)、F-measure以及平均測量誤差(MAE)4個指標來評價算法的性能。P-R曲線顯示了不同閾值下顯著圖的平均準確率和召回率。MAE表示顯著圖和人工標注圖之間像素的平均精度誤差。F-measure用于評估準確性和召回率,公式如下
(5)
為賦予Precision值更大的權重,在本文中設置η2=0.3。
本文算法與5種算法分別在SED2、ECSSD以及PASCAL-S這3個數據集上的PR曲線如圖4所示。由圖4可知:在相同的召回率下,本文算法在SED2以及PASCAL-S數據集上均保持最好的P-R曲線,在ECSSD數據集上的P-R曲線較好。表1為不同算法的AUC值、F-measure值以及MAE值的對比結果。由表1可知:本文方法在SED2數據集上表現最好,獲得最大的AUC值、F-measure值以及最低MAE值,在ECSSD以及PASCAL-S數據集上表現較佳。這進一步驗證本文方法在3個復雜的數據集上均有較好的檢測能力及魯棒性。

圖4 不同算法在3個數據集上的P-R曲線對比

表1 不同算法在3個數據庫上的性能指標對比
本文從局部特征和全局特征出發,提出一種顯著性檢測方法。該方法通過構建局部模型和全局模型,并采用線性融合策略,得到最終的顯著圖。其中,局部模型從底層特征以及局部對比度的角度考慮,生成局部顯著圖。全局模型通過FCN捕獲不同層次上的語義信息來預測全局顯著圖。3個公共數據集上的實驗結果表明,本文方法在一定程度上得到了F-measure和MAE指標的改進,優于目前經典的方法,驗證了本文方法的有效性。