收稿日期:2013-04-09
基金項(xiàng)目:國(guó)家自然科學(xué)基金(60832010, 61100187);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)基金(HIT. NSRIF. 2010046);博士后基金(2011M500666)。
作者簡(jiǎn)介:賀欣(1982-),男,江蘇徐州人,博士研究生,主要研究方向:媒體安全、視覺(jué)感知計(jì)算;
韓琦(1981-),男,河南平頂山人,博士,講師,主要研究方向:媒體安全、生物信息安全;
牛夏牧(1961-),男,遼寧錦州人,博士,教授,博士生導(dǎo)師,主要研究方向:信息安全技術(shù)、密碼技術(shù)、信息隱藏技術(shù)等。
顯著物體提取算法綜述
賀欣, 韓琦, 牛夏牧(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150080)摘要:隨著基于顯著性的視覺(jué)注意計(jì)算框架的演化和機(jī)器視覺(jué)應(yīng)用的不斷增長(zhǎng),顯著物體提取成為基于顯著性的視覺(jué)注意研究領(lǐng)域的重要研究方向。文中介紹了顯著物體提取算法的最新研究成果。首先給出了顯著物體提取的關(guān)鍵問(wèn)題。然后根據(jù)不同的提取框架對(duì)現(xiàn)有的顯著物體提取算法進(jìn)行了分類和分析。并在一個(gè)包含1 000幅圖像的公開(kāi)的顯著物體數(shù)據(jù)集上對(duì)不同的顯著物體提取算法進(jìn)行了評(píng)測(cè)。最后總結(jié)并展望了顯著物體提取算法下一步發(fā)展方向。
關(guān)鍵詞:顯著物體; 物體提取; 算法; 評(píng)測(cè)
中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2013)04-0065-03
Survey of Salient Object Extraction Algorithms
HE Xin, HAN Qi, NIU Xiamu
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150080, China)
Abstract:With the evolution of saliency-based visual attention computation framework and the increase of computer vision applications, salient object extraction becomes an appealing topic in saliency-based visual attention research area. In this survey, the paper introduces recent development of salient object extraction algorithms. First, it provides key issues of salient object extraction, then categorizes and analyzes existing salient object extraction algorithms according to different extraction frameworks. And it uses a public salient object dataset including 1000 images to evaluate different salient object extraction algorithms. Finally, the paper states the conclusion and discusses the future work on salient object extraction algorithms.
Key words:Salient Object; Object Extraction; Algorithm; Evaluation
0引言
從上世紀(jì)60年代機(jī)器視覺(jué)學(xué)科引起人們廣泛、密切的關(guān)注之后,技術(shù)人員就一直致力于研究使計(jì)算機(jī)能夠和人類一樣具有對(duì)外界環(huán)境實(shí)現(xiàn)自主適應(yīng)的能力方面的項(xiàng)目課題。為了使計(jì)算機(jī)能夠進(jìn)行高層次語(yǔ)義分析理解,首先就要解決圖像中的對(duì)象提取環(huán)節(jié)。因而,物體提取就成為計(jì)算機(jī)視覺(jué)的一個(gè)基礎(chǔ)問(wèn)題。盡管交互式圖像分割算法(比如GrabCut)能夠獲得很好的物體提取結(jié)果,但卻仍然需要有主體人的少量參與。如何在完全沒(méi)有主體人參與的情況下,使計(jì)算機(jī)能夠快速有效地實(shí)現(xiàn)物體提取,即成為最近幾年的研究熱點(diǎn)。而依據(jù)基于顯著性的視覺(jué)注意可計(jì)算模型研究成果的長(zhǎng)足進(jìn)步,使得在完全沒(méi)有人參與的情況下快速有效地從圖像中提取顯著物體業(yè)已成為可能。
因?yàn)轱@著物體提取可以為諸多應(yīng)用提供原始對(duì)象,其應(yīng)用的領(lǐng)域空間就極為廣泛,如目標(biāo)識(shí)別、目標(biāo)檢索和圖像壓縮等。目前眾多科研單位均對(duì)顯著物體提取進(jìn)行了研究,如加州理工學(xué)院、洛桑聯(lián)邦理工學(xué)院、清華大學(xué)、哈爾濱工業(yè)大學(xué)、上海大學(xué)等。雖然已經(jīng)提出了一系列新的算法,但關(guān)于顯著物體提取算法的綜述類文獻(xiàn)卻仍然較少。為此,本文將對(duì)顯著物體提取方面的最新研究成果進(jìn)行介紹。
本文的組織結(jié)構(gòu)如下:第1節(jié)介紹了顯著物體提取的關(guān)鍵問(wèn)題;第2節(jié)對(duì)現(xiàn)有的顯著物體提取算法進(jìn)行了分類和分析;第3節(jié)對(duì)現(xiàn)有的顯著物體提取算法進(jìn)行了評(píng)測(cè);最后在第4節(jié)給出了總結(jié)并展望了下一步的研究工作。
1 顯著物體提取算法關(guān)鍵問(wèn)題
顯著物體提取算法通常包括以下步驟:(1)顯著圖計(jì)算;(2)初始顯著區(qū)域提取;(3)精細(xì)顯著物體提取。因此顯著物體提取算法的關(guān)鍵問(wèn)題與其步驟均是相關(guān)以及對(duì)應(yīng)的。
首先,如何有效獲取圖像的顯著圖。按照計(jì)算的對(duì)象,顯著計(jì)算可以分為基于注視點(diǎn)的顯著性計(jì)算[1-3]和顯著區(qū)域計(jì)算[4-6]。基于注視點(diǎn)的顯著性計(jì)算獲得的常是圖像中少量的人眼關(guān)注位置,如果直接使用由基于注視點(diǎn)的顯著性計(jì)算所獲得的顯著區(qū),就必須面臨哪些區(qū)域顯著,哪些不是顯著的問(wèn)題。因此,如何以檢測(cè)到的人眼關(guān)注點(diǎn)而獲得顯著區(qū)域、并進(jìn)一步獲得顯著物體是采用基于注視點(diǎn)的顯著圖的顯著物體提取算法中需要解決的關(guān)鍵問(wèn)題。對(duì)于顯著區(qū)域計(jì)算雖然可以高亮圖像中具有顯著性的區(qū)域,從而極大地改進(jìn)顯著物體提取的有效性。但是顯著區(qū)域考慮的顯著屬性并不充分,較易產(chǎn)生高亮錯(cuò)誤,而一旦錯(cuò)誤則將大幅降低顯著物體提取的效果。因此,如何獲取有效的顯著區(qū)域,是采用基于顯著區(qū)域計(jì)算的顯著圖的顯著物體提取算法中需要解決的關(guān)鍵問(wèn)題。
其次,初始顯著區(qū)域提取。目前得到廣泛應(yīng)用的初始顯著區(qū)域提取是二值化方法[4-8],即對(duì)顯著圖直接采用顯著閾值二值化而獲得顯著區(qū)域,該方法的關(guān)鍵問(wèn)題是閾值選擇的最優(yōu)性。此外,一些算法也從顯著物體定位入手,通過(guò)窗口搜索獲得物體在圖像中的位置。這些方法的關(guān)鍵問(wèn)題是由于沒(méi)有考慮后續(xù)的顯著物體提取算法,使得定位的窗口如果直接應(yīng)用于分割算法,將直接導(dǎo)致性能的明顯下降。
最后,精細(xì)顯著物體提取。GrabCut[9]是得到普及推廣的可用于顯著物體提取的交互式圖像分割算法[5,10-11]。在具體應(yīng)用中,需要多次迭代,并涉及一些其他操作,比如腐蝕和膨脹操作。如何在降低迭代次數(shù)同時(shí)減少其他操作的情況獲得較好的效果是該步驟的關(guān)鍵問(wèn)題。
2顯著物體提取算法分類
在發(fā)展的縱軸線上,顯著物體提取算法的變化主要體現(xiàn)在其不同的提取框架上,因此,本文將從不同的提取框架方面對(duì)顯著物體提取算法進(jìn)行分類。具體敘述如下。
2.1直接閾值分割的顯著物體提取算法
該類方法采用簡(jiǎn)單閾值或者自適應(yīng)閾值,直接對(duì)顯著圖進(jìn)行二值化,獲得顯著物體。其中代表性的方法為:文獻(xiàn)[7]和文獻(xiàn)[4]。文獻(xiàn)[7]中采用了一個(gè)固定閾值的方式直接二值化圖像。而為了提高算法的性能,文獻(xiàn)[4]做了兩點(diǎn)改進(jìn)。值得一提的改進(jìn)是使用Mean-shift分割算法[12]劃分圖像區(qū)域,采用依賴圖像顯著度的自適應(yīng)閾值的方法,實(shí)現(xiàn)二值化顯著圖以得到顯著物體。第4期賀欣:等,顯著物體提取算法綜述智能計(jì)算機(jī)與應(yīng)用第3卷
2.2基于交互圖像分割的顯著物體提取算法
GrabCut圖像分割算法由文獻(xiàn)[5]使用,并已獲得具有清晰邊界的顯著物體。方法首先使用固定閾值二值化顯著圖,在二值化的顯著圖上結(jié)合原始圖像通過(guò)多次迭代GrabCut算法來(lái)改善顯著物體分割結(jié)果,并在迭代過(guò)程中對(duì)圖像進(jìn)行腐蝕和膨脹,以為下一次迭代提供有益協(xié)助。因此,該方法的主要問(wèn)題是如何選擇合適的顯著閾值以及如何控制迭代次數(shù)。
2.3基于矩形窗定位和交互式圖像分割的顯著物體提取算法
為了避免顯著閾值的影響并同時(shí)減少GrabCut迭代次數(shù),文獻(xiàn)[10]和文獻(xiàn)[11]分別采用了結(jié)合矩形窗定位及交互式圖像分割以提取顯著物體。針對(duì)顯著閾值的問(wèn)題,文獻(xiàn)[10]提出了一種非顯著閾值依賴的、且基于區(qū)域差異的顯著密度最大的矩形窗口搜索算法。而文獻(xiàn)[11]則結(jié)合顯著性與邊緣特性,提出了一種非顯著閾值依賴的嵌套窗口搜索算法。兩種算法都取得了較好的實(shí)驗(yàn)效果。
3顯著物體提取算法測(cè)試
本節(jié)將對(duì)現(xiàn)有典型的顯著物體提取算法進(jìn)行性能評(píng)測(cè)。性能評(píng)測(cè)采用的數(shù)據(jù)庫(kù)是公開(kāi)的Achanta顯著物體數(shù)據(jù)集[4],該數(shù)據(jù)集包含了1 000幅圖像及對(duì)應(yīng)手工標(biāo)記的具有清晰邊界的顯著物體基準(zhǔn)圖。圖1給出了Achanta顯著物體數(shù)據(jù)集中一些圖像示例。
Precision、Recall和F-Measure可用來(lái)作為評(píng)價(jià)指標(biāo)。其中,F(xiàn)-Measure的定義為:
式中,β2按照文獻(xiàn)[4]中的建議設(shè)置為0.3,以強(qiáng)調(diào)檢測(cè)結(jié)果的準(zhǔn)確性。
圖2給出了文獻(xiàn)[4-5,10-11]在Achanta顯著物體數(shù)據(jù)集上的評(píng)測(cè)結(jié)果。由圖2可以看出,由于GrabCut算法的應(yīng)用,使得顯著物體檢測(cè)算法結(jié)果獲得了較大提高。同時(shí),文獻(xiàn)[5,10-11]的性能比較接近,但是同文獻(xiàn)[5]相比,文獻(xiàn)[10-11]都是非顯著閾值依賴的,而且在僅僅使用一次GrabCut迭代的同時(shí),也沒(méi)有附加其他操作,比如膨脹和腐蝕。
4結(jié)束語(yǔ)
本文對(duì)顯著物體提取算法的最新研究成果進(jìn)行了完整介紹,非顯著閾值依賴的結(jié)合窗口定位和交互式分割思路的顯著物體提取算法成為下一步發(fā)展的趨勢(shì)。然而,顯著物體提取算法方興未艾,因此會(huì)有更多有效算法不斷涌現(xiàn)。一方面,需要繼續(xù)深入研究顯著物體提取算法的關(guān)鍵問(wèn)題,另一方面,還需要對(duì)顯著物體提取的后續(xù)發(fā)展進(jìn)行更為廣泛的研究。(下轉(zhuǎn)第70頁(yè))
(上接第66頁(yè))
參考文獻(xiàn):
[1]ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 1998, 20(11):1254–1259.
[2]BRUCE N, TSOTSOS J. Saliency based on information maximization [C] //Advances in Neural Information Processing Systems. Vancouver, CanadaMIT Press, 2006:155–162.
[3]GAO D, HAN S, VASCONCELOS N. Discriminant saliency, the detection of suspicious coincidences, and applications to visual recognition [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2009, 31(6):989 –1005.
[4]ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection [C] //22th IEEE Conference on Computer Vision and Pattern Recognition.2009:1597–1604.
[5]CHENG M, ZHANG G, MITRA N, et al. Global contrast based salient region detection[C] // IEEE Conference on Computer Vision and Pattern Recognition (CVPR).2011: 409–416.
[6]HE Xin, JING Huiyun, HAN Qi, et al. Salient region detection combining spatial distribution and global contrast [J]. Optical Engineering, 2012, 51(4):047007–1–047007–4.
[7]HOU X, ZHANG L. Saliency detection: a spectral residual approach[C] //IEEE Conference on Computer Vision and Pattern Recognition. 2007:1–8.
[8]HOU X, HAREL J, KOCH C. Image signature: highlighting sparse salient regions [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2012, 34(1):194–201.
[9]ROTHER C, KOLMOGOROV V, BLAKE A. “Grabcut”-interactive foreground extraction using iterated graph cuts [J]. ACM Trans. on Graphics, 2004, 23(3):309–314.
[10]HE Xin, JING Huiyun, HAN Qi, et al. Region diversity based saliency density maximization for salient object detection [J]. IEICE Trans. on Fundamentals of Electronics, Communications and Computer Sciences, 2013, E96-A(1):394-397.
[11]JING Huiyun, HAN Qi, HE Xin, et al. Saliency density and edge response based salient object detection [J]. IEICE Transactions on Information and Systems, 2013, 96-D(5).
[12]CHRISTOUDIAS C, GEORGESCU B, MEER P. Synergism in low level vision [C]. // IEEE Conference on Pattern Recognition, 2002.