譚永前,曾凡菊,2
(1.凱里學院 大數據工程學院, 貴州 凱里 556011;2.重慶大學 光電工程學院, 重慶 400044)
Itti等[1]在1998年首次提出視覺注意力機制的概念,這種視覺注意力機制受人類認知生理和心理的控制,是人類處理各種視覺信息的一種重要機制。受人類這種處理視覺信息注意力機制的啟發,眾多學者開始把計算機模型與視覺注意力機制相結合,開啟了計算機視覺領域對于圖像顯著性檢測的研究[2-4]。一幅圖像的顯著性可定義為圖像中的主要組成元素吸引人類視覺注意的能力,其顯著性檢測可定義為采用計算模型檢測圖像中最吸引人類視覺注意力、最令人感興趣、視覺表現力最強的區域[5-6]。由于圖像的顯著性檢測是模仿人類視覺注意力機制過程,因此可通過一系列的算法處理來獲取圖像中最能吸引人類注意力的區域或目標,能夠大大降低圖像后續處理的復雜度和節省存儲空間。因此,圖像的顯著性檢測被廣泛應用于計算機視覺領域,如目標檢測[7]、目標跟蹤[8]、視覺跟蹤[9]、語義分割[10]等。
目標檢測是為了突出顯著區域,顯著目標檢測經過多年的不斷發展,可分為兩大類:一類算法是基于低層特征不需要經過學習的自下而上的方法;另一類算法是基于高層特征信息需要通過不斷學習的自上而下的方法。
基于低層特征不需要經過學習的自下而上的方法[11-14],該類方法直接利用相關先驗信息,通過底層的像素等信息進行計算,需要人工提取特征,達到將顯著目標區域與其背景進行區分的目的。Yan等[12]采用圖像的全局顏色對比度與中心先驗相乘作為單尺度下的顯著性度量值,該方法得到的顯著圖存在背景干擾的問題,在對背景復雜的圖像進行顯著性檢測時效果欠佳;Tong等[13]使用圖像的中心先驗與局部顏色對比度相乘的方法來計算顯著性值,最后采用多尺度加權融合的方式得到像素級別的顯著圖,對邊界模糊不清的情況起到一定的改善作用,但顯著目標亮度不夠的問題仍待解決;Zhu等[14]采用Harris角點凸包的方法實現了前景物體的近似定位,利用凸包先驗圖和中心偏置值相結合得到初始顯著圖,最后對其優化得到最終結果。Zeng等[15]提出一種線性融合的目標建議方法,并將其應用于弱監督目標檢測中。崔等[16]把圖像的對比度特征、顏色特征等顯著性線索通過元胞自動機融合得到顯著圖,這種采用多線索融合方式有助于檢測出圖像邊緣完整的顯著性目標,在復雜場景圖像上的檢測性能得到一定提高。唐立婷等[17]提出凸包改進流行排序的顯著性區域檢測方法,該方法解決了傳統流行排序相關顯著性檢測算法在處理圖像時把目標影子誤檢,以及檢測結果中顯著區域被識別成背景等問題,該改進算法提高了顯著目標檢測的準確性。
基于高層特征信息需要通過不斷學習的自上而下的方法[18-20],該類方法利用深度學習自動學習得到多尺度特征(顏色、形狀、紋理等)對輸入圖像進行檢測,達到定位圖像顯著性區域的目的。Hou等[18]提出跳躍結構的短鏈接檢測算法,使得每一層具有更加豐富的多尺度特征映射,讓顯著性目標的邊界更加清晰;Feng等[19]提出一種注意力反饋網絡邊界感知顯著目標檢測算法,該算法利用邊界增強損失來獲得更精確的邊界,從而實現顯著性目標的分割;Zhang等[20]提出利用字幕網絡作為輔助網絡來提高顯著性目標的檢測性能。自上而下顯著目標檢測算法[18-20]相對于傳統算法在目標檢測的準確性、時效性、分辨率以及利用單一網絡同時完成顯著性目標的檢測和邊界定位等方面要優于傳統算法。但是,基于深度學習的顯著性目標檢測方法也還存在一些不足,如需要依賴于已有的大量數據進行訓練,且學習訓練需要多個階段,訓練步驟較為繁瑣、耗時,需占用大量的存儲空間,算法復雜度較高等。
自下而上的顯著目標檢測方算法只需提取相應的底層特征來實現顯著性目標的檢測,不需要經過繁瑣的學習訓練,速度快,耗時短。本文致力于研究和改進傳統自下而上的方法,在對現有該類算法進行分析總結時,發現當前相關算法存在如下不足:① 算法在消除背景干擾時不理想,導致從復雜的背景圖像中檢測顯著區域時效果不佳,檢測準確性有待提高;② 生成的顯著性目標全分辨率較低,模糊不清,且不能完整均勻高亮顯著目標;③ 檢測顯著目標不夠準確,顯著目標的邊界不夠清晰。本文提出一種基于凸包計算和小波變換的顯著目標檢測算法(CHWT),首先在不同顏色空間進行凸包計算并計算凸包交集,提高了顯著性檢測的準確性;然后利用MR算法計算多尺度超像素分割下的顯著圖,融合多個尺度顯著圖并與凸包交集二值化掩膜進行貝葉斯融合,高亮了顯著目標;最后利用小波變換對幅度譜進行多尺度小波分解,逐層消除背景干擾信息,選取較優的顯著圖生成多尺度小波變換顯著圖,并與高亮的多尺度超像素凸包顯著圖進行融合獲得最終顯著圖。
顯著性檢測的最終目的是快速、準確地把顯著目標檢測并突顯出來,本文提出了CHWT算法模型,該模型由凸包交集模塊、多尺度超像素分割融合模塊以及多尺度小波變換模塊組成。首先通過凸包交集模塊在多個顏色空間進行凸包計算后求取凸包交集,并對凸包交集進行二值化掩膜;然后在多尺度超像素分割融合模塊對圖像進行多尺度超像素分割,結合MR(manifold ranking)算法[21]計算得到多尺度超像素分割顯著圖,利用貝葉斯模型融合凸包交集二值化掩膜,得到多尺度超像素融合凸包顯著圖;最后在多尺度小波變換模塊對圖像進行離散余弦變換(discrete cosine transform,DCT)提取幅度矩陣和符號矩陣,利用小波變換對幅度譜進行多尺度分解,逐層消除圖像背景干擾,通過離散余弦逆變換(inverse discrete cosine transform,IDCT)得到多尺度小波變換顯著圖,對多尺度小波變換顯著圖和多尺度超像素凸包顯著圖進行優化融合得到最終顯著圖,本文方法流程如圖1所示。

圖1 本文算法流程圖Fig.1 Flowchart of the algorithm in this paper
為了更準確地檢測目標區域,減少凸包內的背景噪聲,提高顯著目標檢測的準確性,本文采取在RGB空間、Lab空間、HSV空間分別進行特征點檢測、計算凸包,然后求取3個顏色空間凸包交集作為優選凸包,并對凸包交集進行二值化掩膜的方式來凸出顯著目標。本文中計算凸包方法與文獻[22]中計算凸包方法存在以下不同:文獻[22]中利用顏色增強Harris算子對原圖像增強后僅在單顏色空間進行特征點檢測并計算凸包。文獻[22]方法忽略了圖像在不同顏色空間中顏色取值范圍會有所不同的情況,僅在單一顏色空間計算凸包,無法消除背景噪聲,這會導致圖像的背景噪聲被包含進入凸包,影響目標檢測的準確性。
本文中使用增強Harris算子[23]對原圖像進行顏色增強并進行特征角點的確定,角點多邊形的面積越小,表明確定的目標區域越精確。同時,為了提高算法的計算效率,采用SLIC(simple linear iteration clustering)[24]算法對圖像進行超像素預分割,超像素數目N設置為200,凸包計算過程如下:
1) 對原圖像進行去噪處理,消除噪聲對后續確定特征角點的影響。
2) 使用Harris算子先對原圖像進行顏色增強并確定特征角點。
3) 將圖像邊界附近區域的特征角點去除,連接剩余特征角點的最外圍角點形成凸包。
將凸包的質心作為凸包中心,使用超像素分割后,中心先驗顯著值Sc(i)可定義為:
(1)
式中:x0、y0表示圖像中心值的坐標;xi、yi表示凸包內超像素i的中心值坐標;?w=w/3、?h=h/3,w、h分別表示寬和高。最后將顯著值Sc(i)歸一化到[0,1],超像素分割結果、凸包及中心先驗結果如圖2所示。

圖2 超像素分割、凸包、中心先驗結果Fig.2 Superpixel segmentation,convex hull and center prior results
本文采用小波變換對各個特征通道的幅度矩陣分別進行分解[25-26],對幅度矩陣中低頻部分幅值在一定程度上進行壓縮。在j尺度空間下低頻子帶的Mallat分解公式為:

(2)
則式(2)對應的重構公式為:

(3)
式(2)、式(3)中:h、g分別表示低通、高通;j、j-1表示進行小波分解的尺度空間;LL表示低通分量子帶;HL表示水平子帶;LH表示垂直子帶;HH表示對角子帶。
定義1圖像f(x,y)的特征通道I、R、G、B的計算公式[1]為:
(4)
式(4)中,r、g、b分別表示圖像f(x,y)的3個顏色通道。
定義2假設圖像f(x,y)的像素為256×256,則圖像的I特征通道權重因子可用式(5)計算。
(5)
其他R、G、B特征通道權重因子可用式(5)依次求得。
定義3輸入原圖像為f(x,y),圖像分辨率為m×n,則圖像f(x,y)的二維DCT頻域變換F(X,Y)可定義為:

(6)
式(6)中:
定義4圖像f(x,y)二維離散余弦逆變換(IDCT)可定義為:

(7)
定義5頻域F(X,Y)的I通道幅度矩陣AI和符號矩陣SI提取公式定義為:

(8)
其他R、G、B特征通道的幅度矩陣和符號矩陣可用式(8)對應求得。
小波變換能夠更好地分離圖像的細節,在圖像分解和重構中得到廣泛應用,本文采用小波變換對各個特征通道的幅度矩陣進行多尺度分解和重構,達到逐層消除圖像背景干擾信息的效果。本文采用式(2)、式(3)分別對特征通道的幅度矩陣進行分解和重構,重構的多尺度幅度矩陣為A′。
定義6特征通道I的多尺度特征通道MFCI可定義為:
(9)
其他R、G、B特征通道對應的多尺度特征通道可按照式(9)依次得到,則多尺度下的顯著圖可定義為:
Sj=G*(ωIMFCI+ωRMFCR+
ωGMFCG+ωBMFCB)
(10)
式(10)中,G為二維高斯低通濾波器。
為了從式(10)得到的多尺度顯著圖中選取出最優的多尺度小波變換顯著圖,本文采用了文獻[25-27]的方法,先構建一個評價函數H對所有多尺度顯著圖Sj進行評測,并在評價函數中加入信息熵。信息熵在圖像處理中常被用作評價圖像質量的一個量化標準,本文在對多尺度的顯著圖進行評價時,利用圖像的信息熵可以判斷顯著圖是否優越。如果多尺度顯著圖的信息熵越大,表示該顯著圖越混亂,背景干擾越多;熵值越小,顯著圖的背景干擾就越小。可見評價函數H值越小,對應的多尺度顯著圖就越優越。評價函數H和背景干擾矩陣K定義為:
(11)
(12)
式(11)、式(12)中:E為多尺度顯著圖的信息熵;Sj(x,y)為多尺度顯著圖;K(x,y)為多尺度顯著圖的背景干擾矩陣;m,n分別行、列數。
為了盡可能地評測出多尺度顯著圖集合Sj中的優越顯著圖,本文借鑒了文獻[28]中的思想,選取評價函數H值最小的4幅多尺度顯著圖按照式(13)進行最終融合,并對融合的顯著圖進行中央偏見優化得到最終多尺度小波變換顯著圖Sfinal,其計算表達式為:
(13)
式(13)中:ψ表示中央偏見矩陣;S1、S2、S3、S4表示評價函數H值從小到大的多尺度顯著圖集合Sj中對應的顯著圖;H1、H2、H3、H4分別表示其對應的評價函數值。多尺度小波變換顯著圖如圖3所示。

圖3 多尺度小波變換顯著圖Fig.3 Multi-scale wavelet transform saliency map
為提高算法運行效率,本文采用SLIC(simple linear iterative clustering)算法對圖像進行分割預處理[24],以超像素代替像素作為處理單位。SLIC通過利用像素的顏色相似度和空間距離關系進行簡單迭代聚類來實現超像素分割[24,28],該算法有存儲空間效率高,呈現的邊緣貼合度分割效果好,生成的超像素塊緊湊均勻等特點。本文采取對原圖像進行4種不同尺度的超像素分割策略,與采取單一尺度進行超像素分割不同[21-22,30-33],本文中采取的多尺度超像素分割,避免了單一尺度超像素分割時超像素數目設置不當,導致顯著目標圖像邊緣信息丟失,破壞顯著目標完整性的情況。本文中采取多尺度分割能更有效保留顯著目標圖像的邊界信息和顯著目標的完整性,更有利于獲得準確的顯著目標。
利用MR算法[21]求得4種超像素分割尺度對應的顯著圖;最后通過融合4種尺度下的顯著圖獲得多尺度超像素分割融合顯著圖,如圖4所示。

圖4 多尺度超像素分割顯著圖Fig.4 Multi-scale superpixel segmentation saliency map
本文方法實現步驟如下:
步驟1輸入原圖像,并進行去噪處理,減少噪聲對后續各步驟的影響。
步驟2在RGB、Lab、HSV空間分別進行凸包計算并求取凸包交集,得到凸包交集的二值化掩膜。
步驟3對圖像進行多尺度超像素分割。
步驟4利用MR算法分別求取步驟3中多種尺度下的超像素分割顯著圖,并對多尺度顯著圖進行融合。
步驟5分別對步驟2和步驟4求取似然概率和先驗概率,利用貝葉斯模型進行融合得到多尺度超像素凸包顯著圖。
步驟6利用式(4)、式(5)計算各個特征通道以及各特征通道權重因子。
步驟7對各特征通道分別進行DCT,并利用式(6)、式(8)提取各通道的幅度矩陣和符號矩陣。
步驟8利用式(2)、式(3)對各特征通道的幅度矩陣進行多尺度小波變換,并獲得各多尺度重構幅度矩陣A′。
步驟9將多尺度重構幅度矩陣A′分別與式(8)中的符號矩陣S結合,利用式(7)、式(9)進行IDCT。
步驟10利用式(10)將同種尺度的各特征通道以權重因子為系數構建該尺度下的顯著圖。
步驟11利用評價函數式(11)計算步驟10中的顯著圖評價函數數值。
步驟12選取評價函數H值最小的4幅多尺度顯著圖按照式(13)進行最終融合,并對融合的顯著圖進行中央偏見優化得到最終多尺度小波變換顯著圖Sfinal。
步驟13對步驟5和步驟12進行線性融合并進行優化得到最終優化顯著圖。
為了驗證和評測本文所提方法模型的有效性,所有實驗均在處理器為Intel(R) Core(TM) i5-8500,主頻為3.00 GHz,Windows10系統環境下的Matlab2018b編程工具上進行。本文所提算法與6種傳統主流算法MR[21],HC[29],WTHD[30],SF[31],RCRR[32],BFS[33]在公開數據MSRA-10k、ECSSD、HKU-IS上進行了實驗對比。MSRA-10k數據集包含有10 000張自然景物、人物、動物圖片,且很多圖片的背景較復雜,該數據集還對圖像進行了像素級別的真值標注以供測試。ECSSD數據集包含1 000幅多目標且背景復雜的圖像,是目前主流對比數據集之一。HKU-IS數據集包含4 447張原圖及對應的人工標注真值圖,該數據集里的圖片有多個分散的顯著物體、顯著物體與背景表觀相似。每張圖都按像素級別注釋,常用于顯著性物體檢測研究。本文從定性分析、定量分析以及運行速度方面與當前6種主流算法進行了比較,對比實驗中相關數據和圖片來自于相關算法的開源代碼運行后的實驗結果,代碼沒有開源的,來自于相關論文。
圖5是本文所提算法與6種主流算法檢測的顯著圖對比,從圖5中可看出,HC算法能檢測到顯著區域,且顯著目標有一定的亮度,但存在較多的背景干擾,該算法沒能有效消除背景信息,顯著目標亮度不高;BFS、WTHD算法沒能有效消除背景干擾,BFS算法背景噪聲不能夠被充分消除,導致檢測結果中出現邊界模糊現象,雖然WTHD算法采用低分辨率處理頻域方法模糊了背景干擾,但顯著目標仍然不夠清晰,不夠高亮;MR算法將前景目標作為背景區域進行計算,造成顯著目標檢測區域不完整,在背景復雜圖片中,沒能更好地抑制背景干擾,導致顯著目標邊界不夠清晰;RCRR算法顯著目標不夠高亮,邊界不清晰;SF算法能夠提取顯著目標,能高亮部分顯著目標的邊緣,但不能較完整地均勻顯示整個顯著目標,顯著圖也不夠平滑。本文所提CHWT算法采取在不同顏色空間進行凸包計算,求取凸包交集的方法準確提取顯著目標區域;利用貝葉斯模型對多個尺度顯著圖和凸包交集二值化掩膜進行融合,高亮了顯著目標區域;利用小波變換對幅度譜進行多尺度小波分解,逐層消除背景干擾信息;本文所提算法能夠有效凸顯顯著目標區域,消除背景干擾,能夠高亮顯著目標區域,顯著目標區域相對其他算法更加平滑,邊界更加清晰,分辨率也更高,更接近達到人工標注圖的效果,如圖5(i)為人工標注的真值圖。

圖5 本文算法與其他6種顯著性檢測算法的顯著圖對比Fig.5 Comparison of the saliency maps between the proposed algorithm and 6 other saliency detection algorithms
本文采用準確率-召回率(precision recall,PR)曲線[34]、算法綜合指標(F-M)、平均絕對誤差(mean absolute error,MAE)、結構測量(structure measure)4個定量指標在MSRA-10k、ECSSD、HKU-IS公開數據集上對本文算法模型進行測評,并與上述6種典型算法進行對比。
2.3.1準確率-召回率曲線
以準確率為縱坐標,召回率為橫坐標,構成P-R曲線,計算公式為:

(14)
式(14)中:M是二值化的顯著圖像;G是與M與之對應的人工標注真值圖像;|·|表示M與G的映射中像素的數目。本文算法與6種顯著性檢測算法在上述3個數據集上的P-R曲線對比如圖6所示。

圖6 顯著性檢測算法在3個數據集上的準確率-召回率曲線比較Fig.6 Comparison of precision-recall curves of saliency detection algorithms on three datasets
圖6(a)是本文算法與6種現有算法在MSRA-10k上的PR曲線對比結果,通過對比分析可以看出,本文所提方法在召回率相同的情況下準確率略高于WTHD、RCRR、BFS算法;與MR、SF、HC算法相比,本文所提算法優勢較明顯,說明本文所提算法準確性能更好,較高的準確率說明檢測出的目標區域更接近于人工標注的真值圖。隨著召回率的增加(0.85-1),分割閾值逐漸減小,數據集上圖片中更多區域被判斷為顯著區域,所以各個算法對應的準確率逐漸下降。
圖6(b)是本文算法與6種現有算法在ECSSD的PR曲線對比結果,與在MSRA-10k上的結果相比,各個算法在ECSSD上的準確率都有所下降,這是因為ECSSD數據集中的圖片前景和背景相對MSRA-10k數據集更復雜,各算法檢測精度有所下降。從圖6(b)對比結果可以看出,本文所提算法在對更為復雜的圖片進行顯著性檢測時,準確率與WTHD算法較接近,性能優于其他算法。本文所提算法在面對背景和前景更為復雜的圖片時,與其他算法相比,仍能保持一定的檢測準確率優勢,說明本文所提算法有較好的魯棒性。
圖6(c)是本文算法與6種算法在HKU-IS數據集上的對比結果,從PR曲線對比結果可以看出,MR、SF、HC算法的準確率、召回率比較接近;本文算法優于其他算法。
2.3.2算法綜合指標
算法綜合指標常用來對算法模型進行整體性能的評價,計算公式為:
(15)
式(15)中:β2設置為0.3[31],用于調節P和R權重;Fβ值越大表明算法模型整體性能越好。
2.3.3平均絕對誤差
平均絕對誤差的差值越小,表明顯著圖與真值圖就越相似,計算公式為:
(16)
式(16)中:W、H分別表示圖像的寬和高;S(x,y)表示(x,y)在顯著圖上的像素值;G(x,y)表示(x,y)在人工標注真值圖上的像素值。
2.3.4結構測量
SM[35]用于度量評估顯著圖和真實顯著圖之間面向區域和物體的結構相似性,計算公式為:
SM=α×SW+(1-α)×SQ
(17)
式(17)中:α取值0.5;SW為面向物體的結構性相似度量;SQ為面向區域的結構性相似度量。SM值越大表明顯著圖與人工標注真值圖越相似。
本文所提CHWT算法與上述6種算法在3個數據集上的Fβ、MAE、SM指標對比,如表1所示。

表1 MAE、Fβ、SM在3個數據集上的定量結果對比
表1統計了本文所提算法與6種算法在MSRA-10k、ECSSD、HKU-IS上的定量指標,表中的數據數值代表了該數據集上相應評估指標參數的平均值。根據表1中的數據對比結果,CHWT算法在MSRA-10k數據集上3種定量指標表現均優于其他算法;在ECSSD數據集上,本文所提算法在MAE、SM指標上優于其他算法,在Fβ指標上略低于RCRR算法,優于其他算法;在HKU-IS數據集上,本文所提算法在MAE、Fβ、SM指標上均優于其他算法。
通過對數據集中的圖像進行分析,結合表1中的定量對比結果,發現MSRA-10k、ECSSD數據集中的顯著性目標的區域面積較大,MSRA-10k數據集上的圖片背景較其他2個數據集要單一;HKU-IS數據集上有多個分散的顯著區域,背景較復雜。結合本文所提算法在以上數據集上的表現,可以推斷本文所提算法在檢測背景較單一,顯著目標區域面積較大時表現良好;在檢測有分散目標區域,背景較復雜時表現還不夠穩定。
算法計算速度是評測算法模型的一項重要指標,在保障一定準確率的前提下,更快的計算速度表明該算法擁有更優秀的整體性能,更低的算法復雜度,更容易被用于實時系統。表2對本文算法和6種算法在3個數據集上的算法運行平均時間進行了統計,本文算法與SF、MR、BFS、RCRR、WTHD算法都使用了超像素分割算法。HC算法是基于直方圖對照度的方法,每個像素的顯著性值是由它與圖像中全部其他像素的顏色差異來確定的,該方法雖然速度較快,但在復雜場景中難以有效去除背景信息的干擾,不能有效整體突出顯著目標;WTHD算法是在頻率域中計算顯著性,在頻率域進行顯著性計算,算法復雜度低、運行時間快,所以該算法效率最高,但顯著目標的準確率和分辨率較低,僅能突出目標的邊界區域,不能高亮顯著目標;RCRR算法雖然也采用了分割算法,但由于算法在計算顯著性回歸校正過程和正則化隨機游走排名模型時消耗了一定時間,在一定程度上影響了算法運行的效率。可以看出,本文算法與同樣使用分割算法的SF、MR、BFS算法基本處于同一數量內,但本文算法對顯著目標區域的檢測精度更高,不僅能完整地高亮顯著目標,還有效抑制了背景噪聲的干擾,獲得了更高質量的顯著目標檢測圖。本文所提算法以較小的時間代價取得了比其他算法更高的顯著目標檢測精度,并完整高亮了顯著目標,獲得更高質量的顯著圖,表現出了更好的魯棒性。

表2 算法計算速度對比
本文所提基于凸包計算和小波變換的顯著性檢測算法(CHWT),通過選取不同顏色空間下的凸包交集作為合理凸包,有效提高了顯著性檢測的準確性。利用貝葉斯模型融合多尺度超像素凸包顯著圖,達到高亮顯著區域的目的。利用小波變換對幅度譜進行多尺度分解,逐層消除背景干擾,最終達到消除背景噪聲的效果。在公開數據集MSRA-10k、ECSSD和HKU-IS進行了測評,實驗結果顯示,本文所提算法在準確率-召回率曲線(PR曲線)、算法綜合指標(F-Measure)、平均絕對誤差(MAE)和結構測量(SM)指標上優于其他算法,本文所提算法表現出更好的準確性和魯棒性。對于圖像中有多個顯著性目標或者當顯著性目標的邊界連通性不夠連續時,本文算法檢測效果仍不夠理想,未來將繼續探索多目標檢測方面的研究,以提高顯著性檢測的準確性。