周 燕
(上海理工大學 光電信息與工程學院,上海 200093)
顯著性檢測的目標是找出圖像中最具視覺特征的目標。近年來,它得到了廣泛的關注,并被廣泛應用于視覺和圖像處理相關領域,如內容感知圖像編輯[1],目標識別[2],非真實感渲染[3],弱監督語義分割[4],圖像檢索[5]。除此之外,還有很多關于視頻顯著性物體檢測[6]和RGB-D顯著性物體檢測[7]的工作。
近年來,卷積神經網絡(CNNs)[8]已經成功突破了傳統顯著性方法的限制,尤其是在全卷積神經網絡(FCNs)[9]出現之后。在基于CNNs架構的方法中,絕大多數以圖像補丁的方式作為輸入,利用多尺度或多上下文信息來獲得最終的顯著性圖。由于針對像素標注問題提出了全卷積網絡,因此出現了幾種用于顯著性檢測的端到端深度架構[10]輸出顯著性圖的基本單位從圖像區域變為每像素。一方面,結果突出了細節,因為每個像素都有其顯著值。另一方面,它忽略了對顯著性檢測中很重要的結構信息。隨著網絡接受域的增大,顯著性對象的定位越來越精確。然而,與此同時,空間相干性也被忽視了。最近,為了獲得精細的邊緣細節,一些基于U-Net[11]的模型采用雙向或遞歸的方法,利用局部信息對高層特征進行細化。然而,突出對象的邊界仍然沒有顯著地建模。顯著性區域的邊緣信息與區域內部信息之間的互補性尚未得到足夠的重視。此外,也有一些方法使用預處理(超像素分割)[12]或后處理(CRF)[10]來保存對象邊界。這些方法的主要不足是推理速度較慢,不能實現端到端的學習。
本文主要研究顯著性邊緣信息與顯著性目標信息之間的互補關系,。在NLDF[13-35]中,他們提出了IOU損失來影響邊緣位置的梯度。然而,它們都沒有注意到突出邊緣檢測與突出目標檢測之間的互補性,忽視了圖像的空間一致性,導致了突出的目標邊緣模糊。良好的顯著性邊緣信息可以幫助顯著性檢測任務實現分割和定位,反之亦然?;谶@一思想,利用顯著性邊緣特征輔助區域特征定位顯著性對象,使得它們的邊界更準確。由于不同位置的特征對顯著性檢測結果的貢獻并不相同。因此,設計了注意力機制,以集中在那些位置最重要的性質突出的對象。在該設計中,注意力模塊可以通過對特征圖的迭代下采樣來快速地收集多尺度信息。這樣的金字塔結構使得特征層的接受域易于快速擴大。與以往的注意模型相比,所提的注意力模型能夠有效地增強顯著性目標區域的權重,以提高特征表示能力。
提出的邊緣效應模型以端到端方式對單個網絡中互補的顯著的邊緣信息和顯著的目標信息進行建模和融合,利用注意力機制增強融合后的顯著性特征,從而提高網絡的準確性。

圖1 本文網絡結構圖Fig.1 Network structure of this paper
在多尺度特征上構建的多個注意力層被堆疊起來,形成一個統一的金字塔注意力模型。設計該模塊的目的是學習一組等空間大小的注意力掩模,這些掩模通過多尺度的空間特征加權地輸出顯著性特征。設為顯著網絡邊緣互補層的寬度和高度為M,通道數為C的三維特征張量。利用該模塊將特征X轉換成N個尺度的特征映n = 1 ,2,3,… , N。對于每一個尺度的特征映射通過軟注意力機制 softmax增強相應區域重要特征位置的概率,如式(1)所示:


其中Y是更新的特征,jY是特征立方體的第j個切片。在這里,模型通過對不同區域的圖像特征進行期望來計算輸入的期望值。我們的注意模塊不僅可以增強聚焦位置的顯著性表示,還可以解釋多尺度信息。正如在[33]中所討論的,由注意圖改進的特征通常有大量接近于零的值。因此,一堆經過改進的特性使得反向傳播變得困難。為了解決這個問題,應用了身份映射,如式(3)所示:

即使只有很少的注意力,來自原始特征X的信息仍將通過剩余連接保留,更重要的是,金字塔的注意力模塊配備了堆疊的池操作,顯著改善相應的特征提取層。如圖2所示,經過注意力機制處理后的特征映射明顯提高了顯著性區域的權重,使得其更加清晰和明確。

圖2 注意力機制效果對比Fig.2 Comparison of attention mechanism effects
在該模塊中,我們的目標是對突出邊緣信息進行建模,提取突出邊緣特征。Conv2-2保存了更好的邊緣信息。因此,我們從Conv2-2中提取局部邊緣信息。然而,為了獲得顯著的邊緣特征,僅僅局部信息是不夠的。還需要高級語義信息或位置信息。當信息像U-Net體系結構一樣從頂層逐步返回到低層時,高層位置信息將逐漸被稀釋。頂層的接受域最大,位置最準確。因此,我們設計了一個自頂向下的位置傳播,將頂層位置信息傳播到邊路徑2S,以抑制非顯著性特征信息,融合特征表示為:

其中Ru(*;θ)表示參數為θ的卷積,旨在改變通道特征的數量特征。φ(*)表示ReLU激活函數,并且Blu ( *; S2)表示雙線性插值操作。為了說明清楚,利BlIT代表增強后的特征函數代表增強后的特征F?6,增強后的特征S3,S4,S5可描述為:

其中 Ti和代表一系列卷積和非線性操作。獲得特征后,類似于另外一條路徑,我們增加了一系列的卷積層來增強特征特性,然后是最后的突出邊緣特征在 S2中的 Fe可以計算出。為了對突出邊緣特征進行顯式建模,我們增加了一個額外的邊緣分支監督來學習顯著性邊緣特征。我們使用的交叉熵損失可以定義為:

其中X+和X-分別表示突出邊緣像素和背景像素集合。為預測圖,其中每個值表示像素的顯著邊緣置信度,M為過渡層參數。此外,突出目標檢測側路徑上增加的監督,可以表示為:

因此,互補信息建模的總損失?可以表示為:

得到互補的顯著性邊緣特征和突出對象特征后,利用顯著性邊緣特征指導顯著性對象特征,從而更好地進行定位和分割。通過將和進行融合,充分利用多分辨率的顯著性對象特征信息。然而,將突出邊緣特征與多分辨率突出目標特征自下向上逐步融合會導致顯著性邊緣特征被稀釋。為了解決這一問題,本文提出邊緣互補機制。采用S3,S4,S5,S6的下行路徑。在每一個子邊路徑中,通過將突出邊緣特征融合為增強的突出目標特征,使得高層預測的定位更加準確,同時保留了邊緣細節??杀硎緸椋?/p>

其中()φ*表示注意力模塊。然后,在每個子邊路徑中采用一系列卷積層T進一步增強特征映射,并使用一個轉換層D將多通道特征圖轉換為單通道預測圖。這里為了說明清楚,我們把這個模塊中的T和D表示為T′和D′由式(3)得到增強的特征映射 ?iG 。同時,本文為特征映射 ?iG添加了深度監視。對于每一個子面輸出預測圖,損失可計算如式(10)所示:

然后對多尺度精細預測圖進行融合,得到融合后的預測圖。融合圖的損失函數可以表示為:

υ(*,*)表預測圖和顯著真值之間的交叉損失函數。因此,這一部分的損失和整個網絡的全部損失可以分別表示為式(12)和式(13):

我們在 DUTS[14]數據集上訓練模型,利用數據增強,將每個圖像在隨機翻轉之前重采樣到256× 256,并隨機裁剪成為224× 224區域。使用隨機梯度下降(SGD)作為優化器,其動量momentum =0.9,重量衰減 w eight decay = 1 e-4,學習率 learning rate = 5e-5,最大迭代設置為30個epoch,每5個epoch的學習率衰減系數為0.05。
本文在六個廣泛使用的公共基準數據集上測試所提模型:DUTS[14],ECSSD[15],DUT-OMRON[16]SOD[17],HKUIS[18]。使用三個廣泛使用的標準度量,F-measure[19],平均絕對誤差(MAE)[20],以及最近提出的一個基于結構的度量,即S-measure[21],來評估我們的模型和其他最先進的模型。
F-measure是平均精度和平均查全率的平均值,表示為式(14),我們設20.3ε=來衡量精確度。

MAE是評價預測圖與基準真值圖平均差值的一種度量方法。設P和Y示顯著性映射和歸一化為[0,1]的基準值。計算 MAE的方法可以表示為式(15),其中W和H分別為圖像的寬度和高度。

S-measure側重于評價顯著性映射的結構信息,它比 F-measure更接近人類的視覺系統。因此,我們將 S-measure納入其中進行更全面的評估。S-measure的計算表示為式(16),其中Sα和Sβ表示區域感知和對象感知結構相似性,γ是一個平衡參數,默認設置為0.5。

為了驗證本文提出的方法,在5個公開數據集上與 WSS[22]、Aumelt[23]、C2S[24]、PAGR[25]、RAS[26]、BDMP[27]等 7個方法進行了定量對比分析,均不采用任何后期處理方式優化結果圖。表1中最佳結果加粗標記。

表1 在5個數據集上的定量比較結果Tab.1 Quantitative comparison results on 5 datasets
F-measure,MAE 和 S-measure。我們從F-measure,MAE,S-measure三個方面對我們提出的方法與其他顯著的目標檢測方法進行了評價和比較,如表1所示??梢钥闯?我們的模型運行良好,在最先進的方法下和所有評價指標中的所有數據集相比,尤其是相對具有挑戰性的數據集SOD(36,44)(F-measure和S-measure分別提高6.0%和1.0%)和最大的數據集DUTS-TE [46](7.8%和2.6%)。并且為了更加直接表明本文算法的優越性,建立了S-measure與F-measure的關聯分析,如圖3所示,本文算法在各個復雜的數據集測試結果均位于最右上方發,說明本文在各個指標下都具有最優的結果,從而更加說明了所提方法的有效性和準確性。并且值得一提的是這是在沒有任何預處理和后處理的情況下實現的。
Precision-recall曲線。除了如表2所示的數值以及圖3所示的關聯分析比較外,本文還在兩個數據集上繪制了所有比較方法的PR曲線,如圖4所示??梢钥闯?,實紅線表示的是所提議的方法在大多數閾值上優于所有其他方法。由于互補的突出邊緣信息的幫助,計算結果邊緣信息清晰,同時所設計的注意力機制使得實驗高精度的準確定位,從而得到更好的P-R曲線。
視覺對比。本文展示了一些可視化結果,如圖5所示。所提方法在突出目標分割和定位方面有較好的效果。由于邊緣特征的突出,我們的結果不僅突出了邊緣的突出區域,而且產生了連貫的邊緣。例如,對于第一個樣本,由于復雜場景的影響,其他方法無法準確地對突出目標進行定位和分割。但是,由于具有互補的顯著邊緣特征,本文提出的方法具有更好的性能。對于第二個樣本,突出的對象相對較小且含有多個目標,比較復雜,但實驗的結果仍然非常接近真實值。

圖3 S-measure與F-measure的關聯分析Fig.3 Correlation analysis of s-measure and F-measure

圖4 DUTS-test和ECSSD數據集的P-R曲線Fig.4 P-R curve of DUTS-test and ECSSD datasets

圖5 各個算法的可視化結果對比Fig.5 Comparison of visualization results of each algorithm
在本文中,所提方法的目的是保持顯著性區域的邊界。與其他綜合多尺度特征或利用后處理的方法不同,本文重點研究了顯著性邊緣信息與顯著性目標信息之間的互補關系?;谶@一思想,提出了對網絡中的這些互補特性進行建模。首先,提出了基于U-Net的多分辨率突出目標特征提取方法。在此基礎上,提出了一種融合局部邊緣信息和全局位置信息的非局部邊緣特征提取模塊。最后,我們采用的注意力機制來增強并融合這些互補的特性。在突出邊緣特征的幫助下,改進了目標的突出邊界和定位。我們的模型在沒有任何預處理或后處理的五個廣泛使用的數據集上與最先進的6種方法相比,綜合實驗表明本文方法都要表現良好,為該領域的進一步發展提供了新的思路。