羅會(huì)蘭 萬成濤 孔繁勝
?
基于KL散度及多尺度融合的顯著性區(qū)域檢測(cè)算法
羅會(huì)蘭*①萬成濤①孔繁勝②
①(江西理工大學(xué)信息工程學(xué)院 贛州 341000) ,②(浙江大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 杭州 310027)
基于對(duì)超像素顏色概率分布間KL散度的計(jì)算,以及對(duì)多尺度顯著圖的融合處理,該文提出一種新的顯著性區(qū)域檢測(cè)算法。首先,采用超像素算法多尺度分割圖像,在各尺度下用分割產(chǎn)生的超像素為節(jié)點(diǎn),并依據(jù)超像素分割數(shù)量對(duì)各超像素進(jìn)行適當(dāng)鄰接連通擴(kuò)展,構(gòu)建無向擴(kuò)展閉環(huán)連通圖。 其次,依據(jù)顏色判別力聚類量化各超像素內(nèi)顏色,統(tǒng)計(jì)顏色聚類標(biāo)簽的概率分布,用概率分布間KL散度的調(diào)和平均值為擴(kuò)展閉環(huán)連通圖的邊加權(quán),再依據(jù)區(qū)域?qū)Ρ榷炔⒔Y(jié)合邊界連通性,獲取各尺度下的顯著圖。 最后,平均融合各尺度下顯著圖,并進(jìn)行優(yōu)化處理,得到最終的顯著圖。 在一些大型參考數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn)表明,所提算法優(yōu)于當(dāng)前一些先進(jìn)算法,具有較高精確度和召回率,并且可以產(chǎn)生平滑顯著圖。
顯著性區(qū)域檢測(cè);多尺度融合;KL散度;閉環(huán)連通圖
1 引言
視覺顯著性可直觀地理解為視覺場(chǎng)景中語義元素所能引起視覺注意的能力,這種能力依賴于目標(biāo)元素所擁有的顯著屬性,諸如特殊性及稀有性等。在對(duì)圖像場(chǎng)景信息進(jìn)行處理時(shí),可以通過顯著性區(qū)域檢測(cè)獲取優(yōu)先處理對(duì)象,以便于合理分配計(jì)算資源,降低計(jì)算量節(jié)約成本消耗。因此,檢測(cè)圖像顯著性區(qū)域具有較高的應(yīng)用價(jià)值。
文獻(xiàn)[1]從人類視覺認(rèn)知的角度提議將視覺注意機(jī)制分為兩個(gè)類型:自上而下的目標(biāo)驅(qū)動(dòng)型顯著性檢測(cè),以及自下而上的數(shù)據(jù)驅(qū)動(dòng)型顯著性檢測(cè)。自上而下的方法融入了更多的人類語義感知及模型訓(xùn)練,而自下而上的方法更注重于從諸如對(duì)比度、空間分布等圖像底層特征中檢測(cè)顯著性區(qū)域。當(dāng)前的顯著性檢測(cè)多采用自下而上的方法,由底層數(shù)據(jù)出發(fā)計(jì)算分析顯著目標(biāo)或背景區(qū)域所具有的特征屬性,并將此屬性作為一種先驗(yàn)知識(shí)用其區(qū)分場(chǎng)景中的顯著目標(biāo)及背景。其中,對(duì)比度先驗(yàn)知識(shí)依賴于其優(yōu)良的區(qū)分能力被大量的顯著性檢測(cè)算法所采用,并且衍生出諸如基于局部對(duì)比度[1,11]及基于全局對(duì)比度的檢測(cè)算法。近年來基于超像素的顯著性區(qū)域檢測(cè)算法得到廣泛使用。文獻(xiàn)[8]以超像素為節(jié)點(diǎn)構(gòu)建連通圖同時(shí)結(jié)合邊界先驗(yàn)知識(shí),采用基于圖的流形排序方法進(jìn)行顯著檢測(cè)。文獻(xiàn)[17]以各超像素到達(dá)圖像邊界的最短測(cè)地線距離來衡量其顯著性,測(cè)地線距離越長(zhǎng)超像素作為前景目標(biāo)的可能性越大。文獻(xiàn)[7]對(duì)文獻(xiàn)[17]的測(cè)地線先驗(yàn)知識(shí)進(jìn)一步優(yōu)化提出了具有更強(qiáng)魯棒性的邊界連通性先驗(yàn)知識(shí),借助于該先驗(yàn)知識(shí)偵測(cè)背景區(qū)域進(jìn)而逆向獲取顯著前景目標(biāo)。基于邊界連通先驗(yàn)知識(shí)的顯著性區(qū)域檢測(cè)算法對(duì)圖像邊界上超像素的依賴程度較高,當(dāng)圖像邊界上超像素不含圖像內(nèi)部任何背景信息時(shí),會(huì)嚴(yán)重影響顯著檢測(cè)效果。文獻(xiàn)[6]提出一種基于多尺度分割的顯著性區(qū)域檢測(cè)算法,在樹圖模型上融合3種尺度下顯著圖進(jìn)而得到最終顯著圖,該算法取得了良好的效果。
在文獻(xiàn)[6]和文獻(xiàn)[7]的啟發(fā)下,本文提出了一種基于KL散度(Kullback–Leibler divergence)和多尺度顯著圖融合的顯著性區(qū)域檢測(cè)算法。為解決單純用平均顏色差值度量各超像素間顏色差異的局限性,本文提出采用超像素內(nèi)部顏色概率分布間的KL散度對(duì)顏色差異進(jìn)行更有效的度量;為更好地反映超像素在空間上的鄰接關(guān)系及彼此間的相似度,本文提出用超像素顏色概率分布間KL散度的調(diào)和平均值為連通圖的邊進(jìn)行加權(quán);為避免由于空間距離累加而對(duì)超像素間差異度量產(chǎn)生的過度影響,本文提出對(duì)超像素間的鄰接區(qū)域進(jìn)行一定程度的擴(kuò)展;為提高顯著檢測(cè)的可靠性,本文在經(jīng)過鄰接擴(kuò)展的加權(quán)連通圖上,同時(shí)結(jié)合區(qū)域?qū)Ρ榷燃斑吔邕B通性先驗(yàn)知識(shí)來計(jì)算各超像素顯著值;為了降低單尺度顯著檢測(cè)易產(chǎn)生的顯著區(qū)域誤判幾率,本文采用多尺度分割方法產(chǎn)生多幅顯著圖進(jìn)行平均融合增強(qiáng),而后進(jìn)一步采用引導(dǎo)濾波方式優(yōu)化顯著圖。第2節(jié)詳細(xì)論述了本文算法;第3節(jié)是實(shí)驗(yàn)結(jié)果與分析;最后是結(jié)論。
2 算法描述
第1步 圖像分割:采用超像素分割算法分割圖像,將圖像分割為一定數(shù)量具有一致內(nèi)部顏色的區(qū)域小塊,即超像素;
第2步 構(gòu)建無向閉環(huán)連通圖:以超像素為節(jié)點(diǎn),并依據(jù)超像素分割數(shù)量對(duì)各節(jié)點(diǎn)的鄰接區(qū)域進(jìn)行適當(dāng)擴(kuò)展,形成最終的鄰接擴(kuò)展閉環(huán)連通圖;
第3步 構(gòu)建顯著圖:依據(jù)顏色判別力聚類量化各超像素內(nèi)顏色,統(tǒng)計(jì)顏色聚類標(biāo)簽的概率分布,用各概率分布間KL散度的調(diào)和平均值度量?jī)沙袼貐^(qū)域間的顏色差異性,為鄰接擴(kuò)展閉環(huán)連通圖的邊進(jìn)行加權(quán),在加權(quán)連通圖上依據(jù)區(qū)域?qū)Ρ榷炔⒔Y(jié)合邊界連通性先驗(yàn)知識(shí),計(jì)算各超像素顯著值,進(jìn)而獲取顯著圖。為提高顯著區(qū)域檢測(cè)效果,本文設(shè)置不同超像素分割數(shù)量,得到多尺度分割圖,同時(shí)在各尺度分割圖上依據(jù)超像素分割數(shù)量,通過擴(kuò)展各超像素節(jié)點(diǎn)的鄰接區(qū)域的方法,來得到不同的閉環(huán)連通圖,進(jìn)而得到不同尺度下的顯著圖;
第4步 多尺度顯著圖融合:平均融合各尺度下顯著圖并進(jìn)行優(yōu)化處理得到最終的顯著圖。為方便后文敘述,將本文提出的基于KL散度和多尺度顯著圖融合的顯著性區(qū)域檢測(cè)算法簡(jiǎn)稱為KLMS (KL divergence and Multi-scale Saliency)。
2.1 超像素分割及判別力顏色聚類量化
簡(jiǎn)單線性迭代聚類算法(Simple Linear Iterative Clustering, SLIC)[20]算法的零參數(shù)版本(Zero parameter version of SLIC, SLICO),能夠自適應(yīng)選擇緊湊度因子,在色彩及紋理復(fù)雜的區(qū)域同樣可以產(chǎn)生大小一致的超像素,且運(yùn)行效率與SLIC算法相當(dāng)。出于構(gòu)建連通圖的需要,超像素節(jié)點(diǎn)的外形越規(guī)則越好,所以本文選擇SLICO算法進(jìn)行超像素分割。較少數(shù)量的超像素分割下可以得到目標(biāo)對(duì)象的大致輪廓,在較多數(shù)量的超像素分割下可以得到更精確的目標(biāo)細(xì)節(jié)。本文通過設(shè)置多種不同數(shù)量的超像素個(gè)數(shù)(例如:25, 50, 100, 150, 180, 200),采用SLICO算法將目標(biāo)圖像分割成不同數(shù)量的超像素,從而得到多尺度分割圖。
鑒于圖像像素對(duì)應(yīng)顏色值繁多,而人眼在描述物體顏色時(shí)常使用較寬泛的語義顏色加以區(qū)別,本文考慮對(duì)場(chǎng)景顏色進(jìn)行歸類量化。文獻(xiàn)[21]提出依據(jù)判別力聚類描述顏色,該方法所聚類的顏色具有更好的光度不變性,也更符合人眼對(duì)場(chǎng)景顏色的語義區(qū)分。本文根據(jù)文獻(xiàn)[21]中提供的顏色聚類查詢表將整個(gè)RGB色彩空間顏色歸類至50種。對(duì)于分割產(chǎn)生的各超像素區(qū)域,統(tǒng)計(jì)50種顏色類別在各超像素內(nèi)部的概率分布,然后用此50維概率分布向量描述各超像素顏色統(tǒng)計(jì)特征。本文量化顏色旨在較簡(jiǎn)易地達(dá)到和人眼模糊處理場(chǎng)景顏色相似的效果,實(shí)現(xiàn)對(duì)場(chǎng)景顏色的平滑處理,消除一定量的顏色噪點(diǎn),同時(shí)降低后期顏色特征描述維度。
2.2 構(gòu)建鄰接擴(kuò)展閉環(huán)連通圖
2.2.1鄰接擴(kuò)展矩陣 在各尺度分割圖上以各超像素為節(jié)點(diǎn)構(gòu)建鄰接連通圖,同時(shí)對(duì)圖像邊界上超像素兩兩直接鄰接連通形成初始的閉環(huán)連通圖,并用鄰接矩陣描述初始閉環(huán)連通圖節(jié)點(diǎn)間鄰接情況。在超像素?cái)?shù)量相對(duì)較多時(shí)對(duì)鄰接矩陣進(jìn)行鄰接擴(kuò)展,適當(dāng)增加鄰接超像素對(duì)的數(shù)量以擴(kuò)大各超像素的鄰接區(qū)域。采用公式計(jì)算鄰接矩陣與單位矩陣之和的階乘冪運(yùn)算獲取矩陣,再將的非零元素置為1,對(duì)角元素取為零,得到步可達(dá)矩陣。本文采用作為鄰接擴(kuò)展矩陣,然后在對(duì)應(yīng)的鄰接擴(kuò)展閉環(huán)連通圖上進(jìn)行顯著性區(qū)域檢測(cè)運(yùn)算。例如,對(duì)于一幅的圖像,當(dāng)超像素?cái)?shù)量較多(如200)時(shí)取較大的值產(chǎn)生鄰接擴(kuò)展矩陣,而當(dāng)分割圖的超像素?cái)?shù)量較少時(shí)(如50)則不進(jìn)行鄰接擴(kuò)展,在鄰接矩陣對(duì)應(yīng)的初始閉環(huán)連通圖上進(jìn)行顯著性區(qū)域檢測(cè)。通過調(diào)整公式中可達(dá)步長(zhǎng)的取值,可以得到不同的鄰接擴(kuò)展矩陣,進(jìn)而對(duì)應(yīng)不同的鄰接擴(kuò)展閉環(huán)連通圖。
本文之所以在超像素分割數(shù)量較多時(shí)進(jìn)行鄰接擴(kuò)展操作,是考慮到隨著分割數(shù)量的增加,原本顏色相似性很高的一片聚集區(qū)域會(huì)分割成多個(gè)小的超像素區(qū)域,各超像素節(jié)點(diǎn)間增加了節(jié)點(diǎn)數(shù)量從而邊的數(shù)量相應(yīng)增加,當(dāng)采用最短路徑度量小超像素區(qū)域間差異時(shí)會(huì)因?yàn)檫吷系臋?quán)值累加,而將兩區(qū)域判定為不相似或不可進(jìn)行擴(kuò)展融合,而實(shí)際上二者是同一類應(yīng)該具有相同的顯著性。采用鄰接擴(kuò)展的連通圖時(shí),因減少了兩超像素節(jié)點(diǎn)間連通所需的邊數(shù)量,可以降低因邊上的權(quán)值累加而產(chǎn)生的相似性誤判幾率,確保鄰接相似的超像素間具有更強(qiáng)的一致顯著性。另外,采用鄰接擴(kuò)展的方式還可以加快超像素對(duì)鄰接相似區(qū)域搜索的速度。
2.2.2 KL散度加權(quán) 文獻(xiàn)[7]和文獻(xiàn)[8]采用CIELAB色彩空間下各超像素內(nèi)像素平均顏色之間的歐氏距離,來度量各超像素間色彩差異性。但以平均顏色描述超像素顏色略顯粗糙,因?yàn)楫?dāng)兩超像素平均顏色相同時(shí),其顏色組成情況通常是存在一定差異的,而顏色概率分布可以更好反應(yīng)超像素內(nèi)部顏色分布。為此本文統(tǒng)計(jì)各超像素顏色聚類標(biāo)簽的概率分布,計(jì)算各超像素間顏色概率分布的KL散度,采用KL散度的調(diào)和平均值(Harmonic-Mean)度量?jī)筛怕史植奸g的差異性,從而度量相應(yīng)超像素間的差異。假設(shè)兩超像素顏色聚類標(biāo)簽的概率分布分別為和,則它們間的基于KL散度的差異性計(jì)算,如式(1)所示。
2.3 顯著圖生成及優(yōu)化
2.3.1顯著圖生成 文獻(xiàn)[7]中提出了一種魯棒性背景偵測(cè)方法,借助于邊界連通性測(cè)量值,判別背景與目標(biāo)區(qū)域。本文采用文獻(xiàn)[7]中識(shí)別背景區(qū)域的先驗(yàn)知識(shí),計(jì)算各個(gè)超像素的擴(kuò)展區(qū)域面積,邊界接觸長(zhǎng)度,以及邊界連通性度量值。與文獻(xiàn)[7]不同的是,本文對(duì)連通圖進(jìn)行閉環(huán)處理并進(jìn)行鄰接擴(kuò)展, 在鄰接擴(kuò)展閉環(huán)連通圖上進(jìn)行計(jì)算,各超像素節(jié)點(diǎn)間邊的權(quán)值采用KL散度調(diào)和平均值,最短路徑長(zhǎng)度值由路徑上邊的KL權(quán)值累加得到,在參數(shù)選擇上本文采用自適應(yīng)方式設(shè)定。超像素?cái)U(kuò)展區(qū)域面積為
為了驗(yàn)證依據(jù)邊界連通度量值的大小區(qū)分背景與前景的可行性,本文分別在MSRA_1000[15]及ECSSD[6]數(shù)據(jù)集上,統(tǒng)計(jì)了顯著圖在真實(shí)的前景與背景區(qū)域中邊界連通性度量值的分布情況。圖1 (a)和圖1(b)分別顯示的是在MSRA_1000[15]及ECSSD[6]數(shù)據(jù)集上,所得到的顯著圖中各超像素邊界連通性度量值在真實(shí)的前景與背景區(qū)域的概率分布情況。從圖1中可以看出背景中超像素的邊界連通性度量值集中在間,前景中超像素的邊界連通性度量值大小主要集中在0左右,當(dāng)以度量值3作為閾值時(shí)能夠達(dá)到較好的區(qū)分前景與背景的目的。

圖1 MSRA_1000及ECSSD數(shù)據(jù)集上邊界連通性度量值在前景與背景區(qū)域的概率分布
本文根據(jù)求得的全部超像素的邊界連通性度量值,計(jì)算各超像素為背景的可能性概率值,其中在實(shí)驗(yàn)中取值為2.5。超像素的邊界連通性度量值越大時(shí),其為背景的可能性概率值越大,漸趨于概率值1,反之則漸趨于0。結(jié)合背景概率值,為區(qū)域?qū)Ρ榷冗M(jìn)行加權(quán)處理,利用式(4)計(jì)算各超像素顯著值。
2.3.2顯著圖優(yōu)化 文獻(xiàn)[7]采用最小化評(píng)價(jià)函數(shù)的方法獲得優(yōu)化顯著圖,而本文采用一種比較簡(jiǎn)易的優(yōu)化處理方式,即引導(dǎo)圖濾波。文獻(xiàn)[24]提出的引導(dǎo)圖濾波是一種快速的邊界保持平滑濾波算法,能夠在引導(dǎo)圖的導(dǎo)引下進(jìn)行濾波操作同時(shí)保持原圖的主要輪廓。本文采用引導(dǎo)圖濾波方法對(duì)初始顯著圖進(jìn)行進(jìn)一步優(yōu)化處理。 首先,對(duì)于產(chǎn)生的初始顯著圖用其自身作為引導(dǎo)圖,對(duì)其自身進(jìn)行引導(dǎo)濾波;然后,用文獻(xiàn)[23]方法對(duì)自引導(dǎo)濾波后的顯著圖進(jìn)行自適應(yīng)二值化,獲取二值圖;最后,用二值圖作為引導(dǎo)圖對(duì)自引導(dǎo)濾波后的顯著圖進(jìn)行引導(dǎo)濾波處理,獲取最終的優(yōu)化顯著圖。由于在獲取初始顯著圖時(shí),借助于多尺度顯著圖的層層累加求和增強(qiáng)了多尺度下始終保持較高顯著值的像素區(qū)域亮度并降低了單尺度提取中可能產(chǎn)生的誤判顯著區(qū)域亮度,同時(shí)借助于圖像對(duì)比度增強(qiáng)運(yùn)算改善了顯著圖視覺效果,因而初始顯著圖已經(jīng)是經(jīng)過初步優(yōu)化的顯著圖,而再次采用的引導(dǎo)濾波則是對(duì)已有顯著檢測(cè)效果的二次優(yōu)化,進(jìn)而產(chǎn)生了顯著檢測(cè)效果更加精確且視覺效果也更加平滑的優(yōu)化顯著圖,通過實(shí)驗(yàn)部分比較結(jié)果進(jìn)一步驗(yàn)證了本文的處理方式產(chǎn)生了很好的顯著檢測(cè)效果。
3 實(shí)驗(yàn)結(jié)果及分析
分別在數(shù)據(jù)集MSRA-1000[15]及數(shù)據(jù)集ECSSD[6]上測(cè)試本文算法,并與相關(guān)算法進(jìn)行比較。在數(shù)據(jù)集MSRA-1000上,參與比較的算法中HS[6]的實(shí)驗(yàn)結(jié)果由文獻(xiàn)[6]作者主頁上提供的軟件生成;MR[8]采用文獻(xiàn)[8]作者主頁提供的原始數(shù)據(jù)。數(shù)據(jù)集ECSSD上的MR[8], HS[6], RB[7]實(shí)驗(yàn)結(jié)果分別采用各自文獻(xiàn)中提供的原碼或可執(zhí)行軟件在數(shù)據(jù)集ECSSD上測(cè)試生成。本文算法KLMS在實(shí)驗(yàn)中采用6種超像素?cái)?shù)量,即25, 50, 100, 150, 180和200來多尺度分割圖像。在尺度100及150下,將2步內(nèi)可達(dá)超像素間進(jìn)行鄰接,構(gòu)建鄰接擴(kuò)展閉環(huán)連通圖。在尺度180及200下,將3步內(nèi)可達(dá)超像素間進(jìn)行鄰接,構(gòu)建鄰接擴(kuò)展閉環(huán)連通圖。算法的性能指標(biāo)采用了精確度與召回率曲線(Precision- Recall curves),即P-R曲線來反映顯著檢測(cè)的精確度與召回率情況,以及平均絕對(duì)誤差(Mean Absolute Error, MAE)。P-R曲線按照文獻(xiàn)[15]方式計(jì)算得到。本文將顯著圖的各像素顯著值量化到區(qū)間,平均絕對(duì)誤差,其中表示各像素的真實(shí)顯著值,為像素總數(shù)。 在實(shí)驗(yàn)結(jié)果比較中,還使用了F值作為性能度量指標(biāo),以顯著圖平均值的2倍作為固定閾值,即將顯著圖進(jìn)行二值分割處理,并將結(jié)果與真實(shí)值比較獲取整個(gè)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果的平均精確度(P)及召回率(R),再采用公式計(jì)算F值,按文獻(xiàn)[15]設(shè)定以使精確度的權(quán)重高于召回率。
3.1 多尺度與單尺度檢測(cè)效果比較
在數(shù)據(jù)集MSRA-1000[15]上比較了單尺度及不同多尺度設(shè)置情況下的顯著檢測(cè)效果,通過比較各自的P-R曲線和平均MAE評(píng)價(jià)顯著檢測(cè)的優(yōu)劣,實(shí)驗(yàn)結(jié)果如圖2所示。圖2中Scale55200表示在區(qū)間內(nèi)以5為間距等間隔連續(xù)選取40種超像素?cái)?shù)量分割圖像,在不考慮鄰接擴(kuò)展的情況下進(jìn)行顯著檢測(cè)并平均融合各尺度顯著圖,且不采用引導(dǎo)濾波優(yōu)化情況下得到的顯著檢測(cè)效果;Merg6表示采用本文算法KLMS融合25, 50, 100, 150, 180和200共6種尺度下顯著圖,在不考慮引導(dǎo)濾波優(yōu)化條件下得到顯著檢測(cè)效果;Merg3表示采用本文算法KLMS融合50, 100及200等3種分割尺度,所得到的多尺度融合顯著檢測(cè)效果;Scale200表示將圖像單尺度分割成200個(gè)超像素情況下,采用本文算法得到的顯著檢測(cè)效果。從圖2可以看出,融合多尺度的顯著檢測(cè)效果優(yōu)于單尺度。另外,圖2中Merg6提取效果很接近于Scale55200,由此說明因采用了鄰接擴(kuò)展,本文KLMS算法能夠避免進(jìn)行過多的尺度分割,而僅借助于少量的分割尺度就可以達(dá)到較好的顯著檢測(cè)效果。Optimal6為對(duì)Merg6的顯著圖采用引導(dǎo)圖濾波優(yōu)化后的顯著檢測(cè)效果,可以看出在采用引導(dǎo)濾波優(yōu)化后,本文算法的顯著檢測(cè)效果有了較明顯的提升。

圖2 MSRA-1000數(shù)據(jù)集上不同多尺度與單尺度顯著檢測(cè)效果比較
3.2 數(shù)據(jù)集MSRA-1000上的實(shí)驗(yàn)結(jié)果比較
在顯著數(shù)據(jù)集MSRA-1000[15]上將本文提出的KLMS算法與當(dāng)前較好的3種顯著檢測(cè)方法:HS[6], MR[8]和RB[7]進(jìn)行比較。圖3(a)顯示的是P-R曲線比較結(jié)果圖,圖3(b)和圖3(c)分別為平均MAE以及平均F值比較結(jié)果。比較圖3(a)中各算法的P-R曲線可以看出:本文算法的P-R曲線最靠近圖表右上方,且在高精確度上有最長(zhǎng)的水平持續(xù)區(qū)間,通過曲線對(duì)比可以看出本文算法KLMS顯著檢測(cè)效果略好于RB[7],好于MR[8],優(yōu)于HS[6]算法。圖3(b)中可以看出本文KLMS算法的平均MAE在0.05左右,明顯好于其它算法。圖3(c)顯示的是各算法采用固定閾值分割時(shí)獲取的平均精確度,平均召回率及F值。本文KLMS算法獲得的平均精確度為89.4%,平均召回率為91.2%, F值為89.8%,略低于MR[8]的91.8%, 86.7%, 90.1%,略好于RB[7]的88.5%, 91.3%, 89.1%,優(yōu)于HS[6]算法的87.8%, 84.0%, 86.9%。綜合比較P-R曲線,MAE及F值,本文算法優(yōu)于其他算法。

圖3 MSRA-1000數(shù)據(jù)集上KLMS算法與其他3種算法比較結(jié)果
3.3 數(shù)據(jù)集ECSSD上的實(shí)驗(yàn)效果比較
ECSSD(Extended Complex Scene Saliency Dataset)數(shù)據(jù)集由文獻(xiàn)HS[6]作者在其主頁上提供,數(shù)據(jù)集中共有1000張具有復(fù)雜場(chǎng)景的圖片。在ECSSD數(shù)據(jù)集上分別運(yùn)行本文提出的KLMS算法以及MR[8], HS[6], RB[7]等顯著檢測(cè)算法,繪制出各自的P-R曲線并計(jì)算各自的平均MAE及相應(yīng)F值,見圖4。由圖4(a) P-R曲線可以看出,在ECSSD數(shù)據(jù)集上本文KLMS算法略好于MR[8],好于HS[6]及RB[7]算法。本文算法的P-R曲線始終靠近右上方,高于其它算法。在召回率低于50%時(shí),本文算法的P-R曲線在80%以上的精確度上有最長(zhǎng)的水平持續(xù)區(qū)間,且隨著召回率增加,本文算法精確度下降慢于其它幾種算法。在要求高召回率,同時(shí)確保精確度的情況下本文算法更具有優(yōu)勢(shì)。實(shí)驗(yàn)數(shù)據(jù)顯示,在93.3%的高召回率時(shí)本文算法的精確度剛剛下降到50%。本文KLMS算法的平均MAE為0.15,好于RB[7]的0.17以及MR[8]的0.19,明顯好于HS[6]算法。在ECSSD數(shù)據(jù)集上的顯著檢測(cè)平均精度為76.2%,平均召回率為67.1%, F值為73.9%,整體檢測(cè)效果與MR[8]的77.6%, 64.0%, 73.9%相當(dāng),好于RB[7]的73.0%, 65.7%, 71.1%,優(yōu)于HS[6]算法的74.6%, 52.9%, 68.1%。

圖4 ECSSD數(shù)據(jù)集上本文算法與RB,MR,HS等算法的比較

圖5 MSRA-1000及ECSSD數(shù)據(jù)集上本文KLMS算法與其他3種較好的算法部分圖片顯著檢測(cè)效果比較
3.4 算法分析
本文算法在采用SLICO[20]算法進(jìn)行超像素分割時(shí),具有()復(fù)雜度(為超像素?cái)?shù)量),在采用文獻(xiàn)算法[22]計(jì)算最短路徑長(zhǎng)度時(shí)具有()復(fù)雜度。本文算法主要在多尺度分割及計(jì)算超像素間最短路徑上耗費(fèi)一定時(shí)間,在考慮并行運(yùn)算條件下,本文算法與MR, RB等算法的運(yùn)算復(fù)雜度相當(dāng)。不過,本文算法獲取的顯著圖在效果上更加平滑,這一點(diǎn)可以在圖5中各算法的實(shí)際顯著檢測(cè)效果比較中得到驗(yàn)證;同時(shí)本文算法具有很高的平均檢測(cè)精度和召回率,從圖3(a)以及圖4(a)中可以看出本文算法的P-R曲線始終位于其它算法右上方,說明本文算法的檢測(cè)效果優(yōu)于其它算法;另外,本文算法具有更小的平均絕對(duì)誤差,在圖3(b)及圖4(b)中本文算法的檢測(cè)誤差最低,由此可見本文算法具有更好的檢測(cè)效果。
4 結(jié)束語
實(shí)驗(yàn)結(jié)果表明,本文算法取得了較高的檢測(cè)精度,召回率以及較小的均值絕對(duì)誤差,體現(xiàn)了多尺度融合在提升顯著性檢測(cè)效果方面的優(yōu)良特性,證明了用判別力聚類量化描述場(chǎng)景顏色的有效性及用KL散度度量區(qū)域顏色分布差異的可行性。不過,本文算法在超像素分割尺度及鄰接擴(kuò)展步長(zhǎng)選擇上有一定隨機(jī)盲目性,未來考慮自適應(yīng)選擇尺度分割圖像,探索更合理的鄰接擴(kuò)展方式,并在最終的各尺度顯著圖融合上進(jìn)行更高效的優(yōu)化處理。限于顏色歸類的數(shù)量較少,在背景顏色與顯著目標(biāo)顏色過于接近時(shí)顯著檢測(cè)效果較差,后期考慮增加聚類數(shù)量進(jìn)一步提高顏色區(qū)分度。
[1] ITTI L, KOCH C, and NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]., 1998, 20(11): 1254-1259.
[2] YANG J and YANG M H. Top-down visual saliency via joint CRF and dictionary learning[C]. IEEE Conference on Computer Vision and Pattern Recognition, Providence, 2012: 2296-2303.
[3] TONG N, LU H, RUAN X,. Salient object detection via bootstrap learning[C]. IEEE Conference on Computer Vision and Pattern Recognition, Boston, 2015: 1884-1892.
[4] JIANG H. Weakly supervised learning for salient object detection using background images[OL]. http://arxiv.org/ pdf/1501.07492.pdf , 2015.
[5] ZHAO R, OUYANG W, LI H,. Saliency detection by multi-context deep learning[C]. IEEE Conference on Computer Vision and Pattern Recognition, Boston, 2015: 1265-1274.
[6] YAN Q, XU L, SHI J,. Hierarchical saliency detection [C]. IEEE Conference on Computer Vision and Pattern Recognition, Portland, 2013: 1155-1162.
[7] ZHU W, LIANG S, WEI Y,. Saliency optimization from robust background detection[C]. IEEE International Conference on Computer Vision and Pattern Recognition, Columbus, 2014: 2814-2821.
[8] YANG C, ZHANG L, LU H,. Saliency detection via graph-based manifold ranking[C]. IEEE Conference on Computer Vision and Pattern Recognition, Portland, USA, 2013: 3166-3173.
[9] TONG N, LU H, ZHANG Y,. Salient object detection via global and local cues[J]., 2015, 48(10): 3258-3267.
[10] KIM J, HAN D, TAI Y W,. Salient region detection via high-dimensional color transform[C]. IEEE Conference on Computer Vision and Pattern Recognition, Columbus, 2014: 883-890.
[11] ACHANTA R, ESTRADA F, WILS P,. Salient region detection and segmentation[C]. International Conference on Computer Vision Systems, Heraklion, 2008: 66-75.
[12] CHENG M M, ZHANG G X, MITRA N J,. Global contrast based salient region detection[C]. IEEE International Conference on Computer Vision and Pattern Recognition, Colorado Springs, 2011: 409-416.
[13] PERAZZI F, KRAHENBUHL P, PRITCH Y,. Saliency filters: Contrast based filtering for salient region detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 733-740.
[14] HOU X and ZHANG L. Saliency detection: A spectral residual approach[C]. IEEE Conference on Computer Vision and Pattern Recognition, Minneapolis, Minnesota, USA, 2007: 1-8.
[15] ACHANTA R, HEMAMI S, ESTRADA F,. Frequency- tuned salient region detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, Miami, 2009: 1597-1604.
[16] 呂建勇, 唐振民. 一種基于圖的流形排序的顯著性目標(biāo)檢測(cè)改進(jìn)方法[J]. 電子與信息學(xué)報(bào), 2015, 37(11): 2555-2563. doi: 10.11999/JEIT150619.
[17] WEI Y, WEN F, ZHU W,. Geodesic saliency using background priors[C]. Proceedings of the 12th European Conference on Computer Vision, Firenze, Italy, 2012: 29-42.
[18] 蔣寓文, 譚樂怡, 王守覺. 選擇性背景優(yōu)先的顯著性檢測(cè)模型 [J]. 電子與信息學(xué)報(bào), 2015, 37(1): 130-136. doi: 10.11999/ JEIT140119.
JIANG Yuwen, TAN Leyi, and WANG Shoujue. Saliency detected model based on selective edges prior[J].&, 2015, 37(1): 130-136. doi: 10.11999/JEIT140119.
[19] WANG J, LU H, LI X,. Saliency detection via background and foreground seed selection[J]., 2015, 152(C): 359-368.
[20] ACHANTA R, SHAJI A, SMITH K,. SLIC superpixels compared to state-of-the-art superpixel methods[J]., 2012, 34(11): 2274-2282.
[21] KHAN R, VAN DE WEIJER J, KHAN F S,. Discriminative color descriptors[C]. IEEE Conference on Computer Vision and Pattern Recognition, Portland, USA, 2013: 2866-2873.
[22] JOHNSON D B. Efficient algorithms for shortest paths in sparse networks[J].(), 1977, 24(1): 1-13.
[23] OTSU N. A threshold selection method from gray-level histograms[J].&, 1979, 9(1): 62-66.
[24] HE K, SUN J, and TANG X. Guided image filtering[J]., 2013, 35(6): 1397-1409.
Salient Region Detection Algorithm via KL Divergence and Multi-scale Merging
LUO Huilan①WAN Chengtao①KONG Fansheng②
①(,,341000,),②(,,310027,)
A new salient region detection algorithm is proposed via KL divergence between color probability distributions of super-pixels and merging multi-scale saliency maps. Firstly, multi-scale super-pixel segmentations of an input image are computed. In each segmentation scale, an undirected close-loop connected graph is constructed, in which nodes are the super-pixels and the adjacent regions are expanded reasonably relying on the total number of super-pixels. Then, all the color values in each super-pixel are clustered in terms of their discriminative power to get the statistical probability distribution of the cluster labels for each super-pixel. Next, the edges between all adjacent super-pixel pairs are weighted with the harmonic-mean of KL divergence of their probability distributions, and then the multi-scale saliency maps are calculated according to boundary connectivity and region contrast. The final saliency map is obtained by calculating and optimizing the mean map of all the saliency maps with different scales. Experimental results on some large benchmark datasets demonstrate that the proposed algorithm outperforms some state-of-the-art methods, and has higher precision and recall rates. The proposed algorithm can also produce smooth saliency maps.
Salient region detection; Multi-scale merging; KL divergence; Close-loop connected graph
TP391.41
A
1009-5896(2016)07-1594-08
10.11999/JEIT151145
2015-10-13;改回日期:2016-03-15;網(wǎng)絡(luò)出版:2016-04-14
羅會(huì)蘭 luohuilan@sina.com
國(guó)家自然科學(xué)基金(61105042, 61462035),江西省青年科學(xué)家培養(yǎng)項(xiàng)目(20153BCB23010)
The National Natural Science Foundation of China (61105042, 61462035), The Young Scientist Training Project of Jiangxi Province (20153BCB23010)
羅會(huì)蘭: 女,1974年生,博士,教授,研究方向?yàn)闄C(jī)器學(xué)習(xí)和模式識(shí)別.
萬成濤: 男,1987年生,碩士生,研究方向?yàn)閳D像處理和模式識(shí)別.
孔繁勝: 男,1946年生,博士生導(dǎo)師,教授,研究方向?yàn)槿斯ぶ悄芎椭R(shí)發(fā)現(xiàn).