莊斐弘,于威威
(上海海事大學信息工程學院,上海 201306)
視覺顯著性檢測的研究
莊斐弘,于威威
(上海海事大學信息工程學院,上海 201306)
計算機模擬人類視覺系統的生理機理對圖像進行識別是視覺顯著性檢測研究的主要目的之一。在對圖像的預處理過程中,快速準確的顯著性檢測能夠為圖像檢索、圖像識別、圖像分割等后期圖像處理過程提供有價值的參考。然而目前視覺顯著性檢測的算法還存在檢測結果質量不高的問題。通過研究圖像傅里葉頻譜與顯著性的關系,提出一種基于相位譜和調諧幅度譜結合分水嶺算法的顯著性檢測方法,以提高目前視覺顯著性檢測的效果。
視覺顯著性;分水嶺;傅里葉頻譜;相位譜;調諧譜
隨著計算機性能和數字存儲技術的快速發展,人們獲取的數字圖像數據容量不斷增加,面對這些海量的數據,人們越來越希望計算機可以更加自主更加智能地進行處理。受到人類視覺系統能快速高效地分析周圍環境,定位感興趣的物體,并做出相應的反應的啟發,如果計算機能夠模擬人類視覺系統的這種機能來處理視覺內容,那么將對視覺計算研究的各個領域產生極大的促進作用,而計算機理解圖像數據的關鍵是顯著性區域的視覺感知處理能力。
目前已有的一些模型和算法在一定程度上實現了上述功能,但在某些方面還存在不足。針對現有顯著性區域檢測方法存在的問題,本文提出了一種基于相位譜和調諧幅度譜結合分水嶺算法的顯著性檢測方法。該方法首先對要檢測的圖像進行傅里葉變化,提取相位譜和幅度譜。而圖像的相位譜反映的是圖像的紋理信息,因此保留圖像的相位譜,對圖像的幅度譜進行處理。對幅度調諧,得到一個合適的閾值,使顯著性區域幅值加強,非顯著性區域削弱,從而得到初步顯著性圖。然后再對得到的圖像用分水嶺算法進行分割,通過確定算法中的閾值來得到最終的顯著性圖,實驗結果表明了該算法的可行性和有效性。
1.1 人類視覺系統(Human Visual System,HVS)
人類的視覺系統能快速準確地處理人眼所看到視覺場景:識別場景中物體、將不同的物體進行組合、理解和分析整個場景,如果是帶有目的性的,還能夠在對場景搜索之后很快達成目的。這個過程即使對目前最先進的計算機和最有效算法來說都是一個非常困難的,而人類視覺系統處理這么復雜的過程只需要在極短的時間內就能完成。目前,Neisser[1-2]提出的描述人類視覺系統作用過程的機制最被認可,他將早期視覺(Early Vision)處理過程分為預注意處理階段(Pre-attentive Stage)和注意處理階段(Attentive Stages)。視覺系統的前意識階段在第一階段中是最主要的,這個階段只處理和檢測場景中顯著的特征,場景中不同于大多數的背景的區域部分能夠引起視覺細胞更大的刺激。而到了第二階段,神經系統會將這些顯著的特征通過某種關系進行融合和聚類,然后形成注意力分配圖來指導眼球的運動,視覺信息在HVS中的傳遞過程如圖1所示。在這基礎之上,MIT大學的David C.Marr[3-4]提出視覺處理的預注意階段會將進入視覺系統內的光線轉化為顏色、邊緣、線條和傾角等征,并將這些特征進行特定的編碼來形成對視覺場景的初步表示,最終讓視覺系統能夠進行識別和分析。

圖1 視覺信息在HVS中的傳遞過程
1.2 視覺顯著計算模型
視覺顯著計算模型主要是利用數字圖像處理方法,模擬人類視覺注意系統,對視場中不同的信息構建的視覺認知、目標獲取的數學計算模型。在構建視覺顯著計算模型時重點需解決三個問題:(1)顯著特征的提取;(2)顯著圖生成策略;(3)顯著圖融合。不同模型的主要區別在于模型構建過程中采用不同策略處理這三個階段。模型性能好壞的評價指標主要是看計算結果與人觀察視場的顯著性圖的一致程度。
近年來,國內外研究人員提出了多種視覺顯著計算模型,正如前文指出,視覺注意過程中包含自底向上(Bottom-up)和自上而下(Top-down)兩種機制。視覺顯著模型的建立也分為兩種不同的研究框架。但自上而下的視覺顯著計算模型是根據特定的任務建立,理論和應用均具有局限性。因此,目前絕大數的研究成果均是研究自底向上的由底層特征驅動的計算模型。自底向上視覺顯著性計算建模是從底層特征開始,生成不同表達方法的特征顯著圖,以形成對人眼視覺的表達。這種方式重點是強調場景目標自身與所處區域,或者場景全局的差別,差別越明顯,顯著性越強。從特征描述的策略和建模的思想上區分,該類模型大致有三類:
(1)基于視覺認知的計算模型。該類方法利用多種圖像底層全局顯著特征進行融合,建立視覺顯著模型,如Itti[9]視覺顯著模型。Itti模型對圖像進行線性濾波后,利用圖像的顏色特征、強度特征和方向特征,進行9層高斯金字塔濾波,獲得各自的顯著圖,再利用“中央-邊緣”(center-srundder)機制,采取“贏者通吃”的策略,進行線性融合,獲得最終圖像顯著圖。
(2)基于單一數學計算的顯著性分析方法。不利用任何視覺認知機制,用數學方式表達圖像,并利用數學方式對圖像進行顯著性計算,其典型代表有Achanta[15]等人提出的全分辨率算法,即AC算法和Hou[5]等人提出的頻域譜殘余(Spectral residual,SR)算法,這兩個算法是在對大量自然圖像進行頻率內對數譜分析后發現,冗余背景信息大致相同,顯著目標具有較強的“尖銳”特性,因而進行的頻域內運算和變換。
(3)結合視覺認知與數學計算的顯著性提取方法。其典型代表有Harel[10]等人提出的基于圖像的視覺顯著性(Graph-Based Visual Saliency,GBVS)算法。這種方法考慮到單一視覺認知模型和數學計算的不足,提出利用人類視覺認知理論建立整體算法框架,再引入數學計算方法,基于馬爾科夫鏈進行隨機游走,建立視覺顯著模型。
就近年來具有代表性的視覺顯著計算模型的作者信息、提出時間和采用的基本策略信息梳理如表1所示。

表1 具有代表性的視覺顯著計算模型
2.1 頻域譜殘余方法
由Hou和Zhang[5]提出的SR方法首次從頻率域的角度分析圖像的視覺顯著性。通過抽取圖像在頻域上的殘余頻譜,SR方法能夠快速地計算出空間域的顯著圖。根據高頻抑制原理,人的視覺系統在抑制經常發生的特征的同時保持對偏離正常狀態的特征敏感[6]。因此只有非常規的信號才能被傳遞到處理的下個階段。SR方法分成三個步驟:
(1)對圖像進行傅里葉變換,將其變換到頻率域并得到振幅譜和相位譜。

(2)變振幅譜為對數譜,再計算殘余譜。

(3)通過反向傅里葉變換,利用殘余譜和相位譜得到顯著圖。

SR方法通過對圖像的幅度譜進行局部均值濾波以達到壓制冗余信息的目的,而傅里葉變換和反變換也是圖像處理中最基礎的計算之一,并且SR方法的計算速度比較快。雖然該方法壓制了非顯著性信息,但與此同時也壓制了圖像的顯著性信息和顯著細節,導致了顯著圖的對比度較差,且效果一般。只能在一定程度上表示出顯著性目標所在的區域,不能完全表明顯著性目標的準確位置和輪廓,如圖2所示。
2.2 分水嶺算法
分水嶺算法[7]是基于模擬浸水過程實現的。該方法的基本思想是把圖像看成是地質學上的3D地貌拓撲,圖像中每一點像素的灰度值看作是海拔高度,每一個局部極小值及其影響區域被稱為集水盆。假設在每個極小點處打一個小孔,把這個地質學模型慢慢浸入水中,水將從這些小孔中慢慢浸入模型表面,從最低的極小值點開始,水會逐漸淹沒集水盆。當來自兩個不同極小值點區域的水面不斷升高并即將匯聚到一起時,在此處筑起一道堤壩。在整個過程結束之后,每個極小值點都會被相應集水盆的堤壩所包圍,整個堤壩集合構成分水嶺。不同的集水盆代表圖像的不同分區,最終實現圖像分割。
要實現分水嶺分割算法需要標定一些種子點:分別為前景種子點和背景種子點。這兩種種子點的選取可以基于顯著圖來確定。設定一個較低的閾值Tlow,顯著性低于Tlow的點將其認為是背景區域的點;同理,設定一個較高閾值Thigh,顯著性高于Thigh的點將其認為是前景區域的點。然后把標記出的這些點作為輸入,就能實現圖像的分水嶺分割。Tlow和Thigh這兩個的閾值的設定基于均值最大值加權平均法動態閾值:

圖3對比了幾個采用分水嶺分割算法的視覺顯著性檢測圖,其中第二行的顯著圖是通過本文提出的方法所得到的。從實驗結果可以看出,本文所提出的結合分水嶺算法的視覺顯著性檢測方法的效果是比較好的。

圖2 SR算法實驗結果
為了檢驗本文方法的效果,在MATLAB平臺上實現了本文提出的算法。通過在Achanta[8]提供的1000幅圖像的數據集上進行測試,將本文方法與七種目前比較經典的方法進行了對比。這七種方法分別是最為經典的IT[9]方法,輸出為全分辨率顯著性圖的FT[8]方法,基于區域的經典的RC[11]方法,基于頻域的SR[5]方法和HFT[12]方法以及結合高層信息的CA[13]方法和LR[14]方法。為了盡可能排除影響實驗結果的因素,本文的實驗都在同一硬件設備環境下實現,且所有方法都在Achanta1000數據集上測試。所有對比方法都使用了原作者的提供的算法和程序,FT、RC、SR這三種方法使用文獻[8]中提供的C++代碼實現,IT、HFT、CA、LR這四種方法使用其文獻作者提供的MATLAB程序來實現。原圖像及上述提到的七種方法的實驗結果如圖4所示。

圖3 幾種分水嶺算法的實驗對比結果
對圖4中的這幾種方法的實驗結果進行比較可以看出,圖4(b)所示的IT方法只能檢測出圖像顯著性區域中的個別幾個小區域。雖然FT方法能夠突出圖像中具有特殊像素的區域,但準確性欠佳,某些具有特殊像素的區域并不是顯著性區域。而且從圖4(c)第2和第4行中花朵的中間區域可以看出FT方法存在突出了非顯著性區域和顯著性區域為突出的問題。再看圖4(d)第1、2行中花朵周圍的區域,由于RC方法是基于區域對比度的,在突出圖像中顏色對比度較高區域的同時也突出了部分顏色對比度較高的背景區域。圖4(e)和4(f)中,基于頻域的SR和HFT方法因更注重于突出顯著性目標的輪廓而使顯著性目標的邊緣比較模糊。而圖4(g)所示的CA方法卻恰恰相反,所得顯著圖中顯著性區域并沒有被完整的突出但邊緣比較突出。最后圖4(h)所示的LR方法雖然能夠完整地突出圖像的顯著性區域,但該方法對圖像背景區域的抑制效果不佳。本文提出的方法解決了上述方法顯著性檢測效果較為單一的問題,不僅克服了上述某些方法不能完全突出圖像中整個顯著性區域的缺點,還比其中的幾個方法更有效地抑制了圖像中的非顯著性區域,較為完整地突出了圖像中的顯著性區域。
本文通過研究傅里葉頻譜與顯著性的關系提出了一種基于相位譜和調諧幅度譜結合分水嶺算法的顯著性檢測方法。該方法先通過傅里葉變換提取圖像的相位譜和幅度譜,并對幅度譜進幅度調諧處理,再對得到的圖像用分水嶺算法進行分割最終得到顯著性圖。實驗結果表明,相較于以前的方法本文的算法能更有效地檢測出圖像的顯著性區域,同時抑制圖像中的非顯著性區域。

圖4 七種算法與本文算法實驗結果的對比
參考文獻:
[1]U.Neisser.Visual Search[J].Scientific American,210(6):94-102,1964.
[2]U.Neisser.Cognitive Psychology[M].Appleton-Century-Crofts,New York,1967
[3]D.Mary,A.Vision.A computational Investigation Into the Human Representation and Processing of Visual Information[J].WFi San Francisco:Freeman and Company,1982.
[4]D.Mary,L.Vaina.Representation and Recognition of the Movements of Shapes[J].Proceedings of the Royal Society of London.Series B.Biological Sciences,1982,214(1197):501-524.
[5]Hou X,ZHANG L.Saliency Detection:A Spectral Residual Approach[C].IEEE Conference on Computer Vision and Pattern Recognition.USA:CVPR,2007:1-8.
[6]C Koch,T Poggio.Predicting the VisualWorld:Silence is Golden[J].Nature Neuroscience,1999,2:9-10.
[7]WANG Xiao-peng.Morphological Image Analysis Principles and Applications[M].2nd ed.Beijing:Tsinghua University Press,2008:58.
[8]Achanta R,Hemami S,Estrada F,etal.Frequency-Tuned Salient Region Detection[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2009:1597-1604.
[9]Itti L,Koch C,Niebur E.Model of Saliency-Based Visual Attention for Rapid Scene Analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[10]HAREL J,KOCH C,PERONA P.Graph-Based Visual Saliency[C].Proceedings of Advances in Neural Information Processing Systems,2007:545-552.
[11]Cheng M M,Zhang G X,Mitra N J,etal.Global Contrast Based Salient Region Detection[C].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2011:409-416.
[12]Li J,Levine M D,An X,et al.Visual Saliency Based on Scale-Space Analysis in the Frequency Domain[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(4):996-1010.
[13]Goferman S,Zelnik-Manor L,Tal A.Context-Aware Saliency Detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(10):1915-1926.
[14]Shen X,Wu Y.A Unified Approach to Salient Object Detection Via Low Rank Matrix Recovery[C].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2012:853-860.
[15]ACHANTA R,ESFRADA F,WILSP,et al.Salient Region Dection and Segmentaion[C].Proceeding of the International Conference on Computer Vision Systems.Springer,2008.
Research on Visual Saliency Detection
ZHUANG Fei-hong,YUWei-wei
(Departmentof Information Engineering,ShanghaiMaritime University,Shanghai 201306)
It is one of the main purposes of visual saliency detection to simulate the physiological mechanism of human visual system.As the preprocessing of image,reliable and rapid saliency detection can provide valuable reference information for image retrieval,image segmentation,image retrieval and so on.However,at present,there are some problems in the algorithm of visual saliency detection. Through the study of the relationship between Fourier spectrum and the significance of the image spectrum,proposes a phase spectrum and amplitude spectrum tuning saliency detectionmethod based on watershed algorithm,to improve the visual saliency detection effect.
莊斐弘(1991-),男,碩士研究生,研究方向為計算機圖像處理
201703-06
2017-05-10
1007-1423(2017)14-0077-05
10.3969/j.issn.1007-1423.2017.14.016
于威威(1978-),女,副教授,碩士生導師,研究方向為模式識別、計算機圖像處理、數據挖掘等
Visual Saliency;Watershed;Fourier Spectrum;Phase Spectrum;Tuning Spectrum