董 波,周 燕,王永雄
(上海理工大學 光電信息與計算機工程學院,上海 200093)
視覺顯著性檢測是對人類視覺注意力機制進行建模,準確定位圖像中最重要的前景信息。作為計算機視覺任務的預處理過程,視覺顯著性檢測在諸多視覺任務中有著廣泛的應用,包括場景分類[1]、圖像檢索[2]、圖像自動編輯剪切[3]、視覺跟蹤[3-5]、人臉再識別[6]和圖像恢復[7]等。
受人類視覺感知系統的啟發,早期的顯著性模型[8-9]主要依靠計算的方式提取圖像中的低層次特征(如顏色、灰度、形狀、紋理等),通過局部與全局分析等啟發式互補先驗[10-11]推斷出顯著性目標區域。但是,常規的局部特征缺乏識別顯著性物體內部同質區域的能力,而全局特征受到復雜背景的影響,缺乏高級語義信息,限制了其應用復雜場景的能力。隨著深度學習方法在計算機視覺方面的突破,用于圖像識別任務的卷積神經網絡,如(Very Deep Convolutional Networks,VGG)[12]和(Residual Neural Network,ResNet)[13]通過遷移學習進一步應用到其他計算機視覺領域。其中,全卷積神經網絡(Fully Convolutional Networks,FCNs)[14]作為VGG的一種改進,在顯著性檢測任務中發揮重要的作用。該模型突破了早期模型計算方式的瓶頸,通過插值或學習反卷積濾波器進行上采樣操作[15],實現了對每個圖像像素進行預測。與早期的模型相比,這種方法可以有效地提高密集標記任務的性能。然而,在密集標記任務中,FCNs框架的不完善之處在于其存在多尺度空間信息融合問題。大量的跨步卷積和池化操作導致基本的低層精細細節(底層次的視覺線索)丟失,而這些精細細節是無法通過上采樣操作重建的。同時,高層信息又缺乏對空間上的語義表達能力。為了解決上述問題,文獻[16~18]提出了以下觀察和原理:(1)深層特征編碼高層信息易于定位全局對象;(2)較淺層的特征具有更好的空間表現能力,利于重構空間細節。研究人員分別提出了跳連接、短連接和特征聚合等策略或機制來增強空間信息。雖然這些策略帶來了令人滿意的改進效果,但它們依然不能預測整體結構,并且難以檢測精細的邊界(如圖1所示,虛框表示錯誤檢測)。為了獲得更加精細的對象邊界,一些研究者不得不使用耗時的完全連通條件隨機場方法[19-20]細化最終的顯著性圖。

(a) (b) (c) (d) (e)圖1 不同方法模型識別效果對比(a)復雜圖像 (b)真值圖 (c)本文算法(d)PAGR (e)AmuletFigure 1. Model identification comparison of different methods (a) Complex image (b) Truth graph (c) Proposed algorithm (d) PAGR (e) Amulet
基于卷積特征和多尺度特征融合在顯著性對象識別中發揮著重要作用,本文提出了一種基于漸進結構感受野和全局注意力的顯著性檢測模型,如圖2所示。針對底層和高層的卷積特征在顯著性檢測模型中發揮著不同的重要作用。首先利用FCNs作為骨干網絡獲取多層級特征;然后采用特征金字塔結構對各層次特征進行卷積操作生成多尺度特征;之后;利用漸進結構感受野引導多尺度特征進行融合,通過上采樣-卷積方式將多級語義信息以漸進的方式整合在一起,使得模型能夠高效地獲取并融合多尺度特征,同時保持了顯著性對象的空間結構。為了精確學習顯著性檢測物體的邊緣,避免高級特征中噪聲特征的干擾,本文引入全局注意力機制,采用自監督的方式,再利用卷積后細化的不同通道的特征作為權值,采用殘差連接的方式,取剩余通道特征作為偏置,并利用初級顯著性映射引導骨干特征產生邊界明顯的顯著圖。文中所提出的模型具有準確檢測圖像中顯著性對象的能力,同時無需附加任何后處理即可準確清晰地分割出顯著性對象邊緣。

圖2 本文提出的漸進結構感受野和全局注意力的顯著性檢測模型Figure 2. Progressive structural receptive field and global attention saliency model proposed in this paper
顯著性檢測是視覺研究熱點之一,方法眾多,可以被歸納為兩個類別:早期的計算方法和基于深度學習的方法。目前主要的研究熱點包括多尺度特征融合、注意力機制、邊緣損失、全局與局部信息的聯合。下面主要從本文聚焦的多尺度特征融合和注意力機制進行敘述。
為了提高顯著性檢測的準確性,大多數深度學習方法都是基于FCNs網絡。該網絡能夠獲取全局語義信息,但是分割的結果仍比較粗糙。最近,許多研究者通過利用特征金字塔結構,融合不同尺度和層級的特征增加顯著性對象的層次化表征。文獻[17~18]將多層特征連接到多個子網絡中,每個子網絡都可預測最高分辨率的顯著圖。雖然較深層次的特征可以輔助定位目標,但是空間細節的丟失可能會阻礙較淺層次特征的提取,難以恢復目標區域邊界。考慮到不同尺度的特征可能會被模糊信息混淆,簡單地將其串聯起來可能會導致顯著性檢測失敗。因此,Liu等人[21]提出近年來最先進的方法,采用了由粗到細的特征提取方法,通過引入遞歸聚合方法,將各級初始特征融合在一起,逐級生成高分辨率的語義特征,較好地解決了這一問題。盡管這類方法取得了良好的性能,但仍有較大的改進空間。該方法通過高層的語義信息逐層傳輸到淺層,所捕獲的深層位置信息逐漸稀釋或缺失,依然會導致邊緣模糊,在某些級別上不準確的信息還會導致錯誤檢測。
近年來,注意力機制被廣泛地應用于顯著性檢測的神經網絡中,通過模擬人類視覺系統中的視覺注意機制可以減小噪聲特征的干擾。Lslam等人[22]提出將每個編碼器和解碼器塊之間的門單元作為注意力模型。這些門單元控制前饋信息的傳遞,濾除邊緣模糊信息。然而,消息傳遞是由初始注意力機制控制的,這意味著一旦前一階段出現錯誤,不準確的引導和這些特性的過度使用可能會導致顯著性對象分割出現意想不到的漂移。Zhang等人[23]利用多路徑遞歸反饋,對漸進式注意引導網絡對邊緣特征進行迭代優化。通過利用空間與通道注意力機制生成分層的注意特征,分層注意信息作為下一階段提供指導,自適應地生成新的注意特征。但是這種多次循環強注意力機制導致部分的顯著性內部區域丟失,會造成顯著性區域高亮不均勻。
因此,本文提出的顯著性檢測模型使用漸進結構感受野引導不同階段的特征提取,實現了高效的多尺度特征融合,并利用全局注意力機制在高級特征中糾正錯誤,提高了顯著性檢測的準確率。
高級語義特征有助于獲取顯著性目標的空間位置[17,24];此外,將深層提取的特征由粗級提升到細級,也需要低層和中層特征中細微的邊緣信息。基于以上知識,本文提出了一個新穎的顯著性檢測模型,設計了漸進結構感受野引導多尺度特征提取,實現深層特征的精細化處理,利用全局注意力機制消除噪聲產生的干擾,提高了對邊緣的感知性能。
FCNs是顯著性檢測模型中應用最為廣泛的網絡,該網絡模型的較淺層能提取到低層次特征,較深層能提取到更有效的高層次特征。本文把最新的FCNs作為骨干網絡,引入特征金字塔結構從骨干網抽取的多層次特征。然后,采用通道維度聚合的進行多尺度特征融合,有效避免FCNs對應點聚合的弊端,生成了更加豐富的特征信息。
本文模型網絡結構如圖2所示,首先將圖像I輸入網絡,其通道數為C,圖像的高和寬分別為H和W。利用骨干網絡F(θ,I)提取多層初級特征圖Fsi(i=1,2,3,4),其中θ表示骨干網絡的網絡參數。為了使網絡能夠完全解析同層次中不同尺度的卷積特征,利用特征金字塔結構實現深度挖掘。首先,對初級特征圖Fsi(i=2,3,4)特征進行卷積操作,分別得到3級特征Fi(i=2,3,4)。然后,利用本文提出的漸進結構感受野模塊引導Fi進行特征融合,減小了多尺度金字塔特征圖之間的差距,如圖3所示。最后,利用上采樣-卷積機制,有效避免了顯著性圖不同分辨率對卷積和池化操的影響,該機制如式(1)~式(3)所示。
(1)
(2)
ξi(Sj)=Conv3×3(upk=2(Sj))
(3)
其中,add(·)函數表示矩陣元素求和;“*”表示元素相乘;ξi(·)函數表示雙線性插值與卷積層的組合,i=1,2,3,4;Sj(j=1,2,3)表示經漸進結構感受野模塊處理后大小為[H/21+j,W/21+j]的顯著性特征映射。
深層次的特征聚合了許多顯著性信息,但由于特征信息的不對等性,直接使用卷積特征預測顯著性得到的結果往往不是最優的。為此,本文利用全局注意力機制對深層特征進行優化,更加關注圖像中的前景信息。為了避免重復特征對最終結果的影響,本文采用分層學習融合的方式對兩層的顯著性特征進行處理,使得最終的融合結果集中了全部顯著性映射的有效特征,如式(4)所示。
(4)

當顯著性目標內部結構復雜時,現有方法所利用的多尺度特征的方式區別不大,導致最終獲得的顯著性區域高亮不均勻。本文從顯著性對象的結構出發,利用特征金字塔結構對FCNs骨干網絡提取的特征進行卷積操作,將全局信息傳遞到不同層次的特征圖上。然而,如何建立不同層次中全局信息之間的關系是一個值得探討的問題。
為此,本文提出使用漸進結構感受野作為引導模塊。該模塊由4個分支組成,如圖3所示:首先,為了降低參數量,增加模型的非線性表達能力,利用1×n和n×1不對稱的卷積對每一個分支進行處理,其中n=1,2,3,4。然后,為了擴大模型的感受野,更加關注整個空間區域,采用相同大小的擴張卷積進行上采樣解碼;最后分別將兩個子分支進行連接,使得模型捕獲到任意空間位置在不同尺度下的上下文語義信息,從而建立顯著性對象區域的結構性特征信息。通過卷積核大小為3和1的卷積消除融合過程帶來的噪聲,降低特征維度。最后利用Relu作為非線性激活函數。通過漸進結構感受野處理后的特征映射能夠有效獲得完整的前景信息,解決了顯著性對象區域高亮不均勻的問題。

圖3 漸進結構感受野模塊Figure 3. Structure receptive field module
為了獲得更好的突出目標檢測的顯著性映射,近年來的方法融合了不同層次卷積神經網絡的特征,取得了顯著的進展。然而,不同特征層之間的差異給融合過程帶來了困難,可能導致顯著性預測不理想。為了解決這一問題,本文提出了全局注意力機制來增強顯著目標檢測的特征間一致性。首先,利用1×1的卷積層將特征進行升維,通道的增加使得特征離散化分布,對輸入特征映射的通道數進行統一處理,接著使用3×3卷積提取細節信息,從而達到區分細化特征的效果。得到的特征圖利用BatchNorm2d函數映射到[0,1]區間得到注意力圖。隨后,對得到的注意力圖添加Relu函數線性修正單元,激活離散并細化后的特征,從而消除特征圖中的非顯著特征。最后將此特征映射拆分為權重與顯著因子,將不同的通道信息提取作為殘差操作,使得處理后的特征映射具有很強的語義一致性。
S′=S2+B(φ(Ru(E;θ));S2)
(5)
其中,Ru(·;θ)表示卷積操作,其參數為θ,旨在改變通道特征的數量特征;φ(·)函數表示ReLU激活函數;B(·;S2)表示BatchNorm2d歸一化函數;S2表示骨干網絡獲取的特征;E表示增強后的特征。
同一特征圖的不同位置所含信息的重要程度有所差別,利用全局注意力機制能夠有選擇性地進行篩選,從而提高語義特征的有效性。所設計的注意力機制將較為淺層的顯著圖中的顯著性區域位置傳遞到骨干網絡獲取的高層特征,可使其顯著性對象區域更加明確。
本節首先描述實驗設備、參數、使用的目標函數、數據集和評估方法;然后在5個公共基準數據集上進行了定量和定性的實驗;最后敘述了本文方法與其他先進方法的比較和分析。
本實驗采用GTX 1080Ti GPU進行加速訓練。網絡模型訓練分為兩個步驟:(1)訓練骨干網絡。采用VGG-16預訓練模型初始化骨干網絡參數,利用DUTS-TR[7]作為訓練集,其中使用了Adam優化器進行訓練,初始化學習率為5e-5,衰減權值為5e-4,共訓練20個epoch;(2)加入底層分支,采用相同的數據集,使用Adam優化器,初始學習率設為5e-6,權重衰減為5e-5。在步驟(2)中,網絡訓練10個epoch。采用分層訓練方式可以促進底層分支收斂,并且利用底層分支優化深層分支使網絡在正確的方向上快速收斂,從而提高網絡的性能。
本文采用文獻[25]中的顯著性回歸策略對最終的顯著性結果進行監督訓練,目標函數如式(6)所示。
L(X,Y,Z)=(1-λ)Lg(X,Y,θ)+λ×Ls(X,Y,θ)
(6)
其中,X是一個輸入圖像;Y是相應的顯著圖;θ為網絡參數;λ=0.5為平衡參數;總損失函數包括全局損失Lg(X,Y,θ)和局部損失Ls(X,Y,θ)。其中全局損失函數如式(7)所示。
(7)
局部損失函數如式(8)所示。
(8)
其中,N+表示顯著性區域的像素數,N-表示非顯著性區域的像素數;N表示總像素數;xi表示輸入圖像X中的每一個像素值,X={xi|i=1,2,…,N};yi表示真值圖Y中的每一個像素值,Y={yi|i=1,2,…,N}(Y=Yj|j=1,2,…,N,Yj∈{0,1}),其值在[0,1]之間;f(·)函數表示網絡處理的過程;Ψ(·)函數表示Smooth-L1函數;Lg(X,Y,θ)關注于全局損失,使得網絡輸出的結果更加接近真值圖,有利于降低網絡對訓練樣本分布的敏感性;Ls(X,Y,θ)表示顯著性目標區域像素的額外損失,使損失函數更關注顯著性區域。
本文使用5個顯著性基準數據集來評估本文的模型。DUTS[7]數據集包含用于訓練(DUTS-TR)的10 553張復雜圖像和測試評估(DUTS-TE)的5 019張圖像。DUT-OMRON[11]包括5 168張具有挑戰性的圖片,每張圖片通常都有復雜的背景。ECSSD[26]有1 000個語義上復雜的圖像。PASCAL[27]數據集由850幅圖像組成,均是帶有像素級注釋的自然圖像。HKUIS[28]包含4 447張低對比度的圖片,每張圖片中都有多個前景對象。
為了客觀準確地評估本文的模型,本文使用3個常用指標,分別是P-R曲線(Precision-Recall Curve)、F-measure得分和平均絕對誤差MAE(Mean Absolute Error)。
3.4.1P-R曲線
平均準確率(Prediction)是指檢測到的顯著性圖中正確分配的顯著性像素的比例,召回率(Recall)是指正確的顯著性像素在地面真值中的比例。如式(9)和式(10)所示。
(9)
(10)
3.4.2F-measure
為測量整體性能,由平均準確率和召回率加權均值計算,如式(11)所示。
(11)
其中,β2通常置為0.3,用于強調模型精度。F-measure值越大,模型的性能越好。本文對比分析F-measure最大值和平均值,分別用MaxF和AvgF表示,以凸顯本文模型的整體優勢。
3.4.3 平均絕對誤差(MAE)
計算網絡輸出的顯著圖與真值圖像素之間的平均絕對誤差,進行更全面的比較,如式(12)所示。
(12)
其中,H和W表示顯著性圖S的寬度和高度,S(x,y)和G(x,y)表示像素點(x,y)處的顯著性值和二元真值。MAE分數越小,顯著圖與真值圖之間差距越小,相似程度高。
為了驗證本文提出的方法,在5個公開數據集上與PiCANet[21]、PAGR[23]、MDF[28]、RFCN[29]、UCF[30]、NLDF[31]、 Amulet[18]等7個方法進行了定量對比分析,均不采用任何后期處理方式優化結果圖。
3.5.1P-R曲線分析
本文展示了3個常用數據集的P-R曲線,如圖4所示。本文方法得到的P-R曲線(加粗)與之前的所有方法相比較為突出。當平均召回率值接近1時,平均準確率比其他方法更高,說明顯著性圖的假陽性率很低。

(a)
3.5.2 定量分析
如表1所示,其中最佳的結果加粗標記,本文提出的方法在所有的數據集上都取得了當前最好的F-measure和MAE指標。從平均絕對誤差MAE值可以得出,本文的算法明顯減小了預測圖與真值圖之間的差距,表現了良好的性能。同時本文的F-measure 指標有大幅度提升,在5個數據集DUTS-OMRON、PASCAL、DUTS-TE、ECSSD和HKUIS上明顯優于次優算法。其中綜合評價指標F-measure的最大值指標分別提高了0.3%、1.5%、1.0%、0.5%和0.6%,其均值指標提升了6.4%、6.1%、5.5%、2.7%和2.3%,平均提升了4.62%。結果表明,本文模型的錯誤預測數明顯少于其他方法,能夠適應各種復雜場景,體現了算法的高效性和可擴展性。

表1 基于5個數據集上進行定量對比結果Table 1. Quantitative comparison results of 5 datasets
3.5.3 定性分析
為了進一步說明本文方法的優點,在圖5中給出了定性比較結果,圖5(a)~圖5(e)分別為前景與背景對比度較低的場景、較大的顯著性對象、復雜邊緣、帶有陰影的對象和多目標小對象。顯著性檢測次優方法PiCANet在圖5(b)~圖5(d)中表現良好,能夠基本檢測出顯著性對象,但顯著性區域仍存在高亮不均勻問題。該方法在圖5(a)及圖5(e)中不能正確檢測出顯著性對象。其他先進的方法均存在較大問題。然而,本文提出的方法能夠準確地識別圖像中最顯著的目標對象,并且在幾乎所有情況下都能保持其尖銳的邊界分割,目標區域高亮均勻,在特征融合以及抗噪性能方面達到了最優效果。

圖5 本文算法與其他模型定性比較結果Figure 5. Quqlitative comparison between the proposed algorithm and other models
為了驗證本文提出的漸進結構感受野、全局注意力機制以及分層學習融合方式的有效性,本文對各模塊進行了研究。在整體框架上進行驗證實驗,采用DUTS-TR數據集作為訓練集,DUTS-TE數據集作為測試集。表2的每一列的最佳結果都用加粗突出顯示。實驗結果說明,各個模塊對模型精度都有一定的提升,缺失任何模塊都會對模型精度造成影響。

表2 基于DUTS-TE數據集的有效性分析Table 2. Validity analysis based on DUTS-TE dataset
本文提出了一種有效的可用于顯著性檢測的漸進結構感受野和全局注意力框架。該方法結合了FCNs與特征金字塔結構的優勢,利用漸進結構感受野模塊作為塊引導,將多級語義信息進行整合,避免了卷積和池化對不同分辨率顯著圖的影響,解決了顯著性區域高亮不均勻的問題。文中提出的新方法引入全局注意力機制,去除了背景噪聲,并且提高了模型對顯著性對象邊緣的感知性能。通過定量定性的實驗驗證了本文提出模型的準確性,證明了其在復雜環境中能夠達到當前最優的性能。