王正文 宋慧慧 樊佳慶 劉青山
顯著性目標檢測[1-5]能夠對圖像中在視覺上最與眾不同的對象或區域進行檢測與識別.目前,顯著性目標檢測已經成功地作為許多計算機視覺領域任務的預處理過程,包括目標跟蹤[6]、物體識別[7]、語義分割[8]等.
傳統方法[9-10]大多依靠顏色、紋理等手工特征或者啟發式先驗來捕獲圖像局部細節和全局上/下文.Goferman 等[9]提出一種基于上/下文感知的方法,對目標周圍的不同區域均進行檢測,并最終基于四個心理學原理簡單生成了顯著性圖.Yan 等[10]設計了一個分層模型,能夠對顯著信息進行層次分析,并將不同層次的輸出進行組合得到最終結果.盡管上述算法取得了一定的成功,但是由于缺乏高級語義信息的參與,在復雜場景中檢測顯著物體的能力受到了很大限制.
近年來,卷積神經網絡得到快速發展.例如文獻[11-13]的卷積神經網絡所具備的金字塔結構,能夠在較淺層擁有豐富的低層邊緣細節特征,而較深層則包含了更多語義信息,更擅長定位顯著物體的確切位置.基于上述先驗,大量基于卷積神經網絡的深度模型被相繼提出.Hou 等[11]對編碼過程中每個階段都引入了跳躍連接,對特征圖進行多層次多角度的聚合連接,輸出精確的結果.Li 等[14]將粗紋理的顯著圖作為前景信息,將圖像邊界的超像素值作為背景信息,并將兩者結合,得到最終的結果.Qin 等[15]設計了一種嵌套的U 型結構,融合了不同感受野大小的特征,能夠捕捉更多的上/下文信息.在這些方法中,U 型結構由于能夠通過在基礎的分類網絡上建立自上而下的路徑來構建豐富的特征圖,而受到了最多的關注.
盡管上述方法相對于傳統方法已經取得了很大進步,但是還有很大改進空間.首先,在U 型結構的解碼過程中,高層語義信息逐漸傳遞到較淺層,雖然較淺層獲得了顯著物體的語義信息,但是位置信息同時也被稀釋,造成最終輸出的預測圖中并不是當前圖像中最顯著部分,丟失了顯著物體準確的空間定位;其次,低層特征擁有豐富的邊界信息,但是由于在網絡的較淺層,無法獲得較大感受野,此時如果只是簡單地融合高層特征與低層特征,是無法精確地捕捉圖片中顯著物體邊界的,尤其是小目標.因此,本文考慮在增大低層特征感受野,提高其表征力后,將其送入到高效的特征聚合模塊中,以此來細化顯著物體的邊緣.
針對上述問題,本文研究了如何在U 型結構中通過高效的特征融合解決這些問題.本文主要貢獻包括以下3 個方面: 1)混合注意力模塊(Mixing attention module,MAM)對來自第5 個殘差層的特征利用注意力機制進行顯著性增強,得到更加關注顯著物體的語義特征,同時為了解決解碼過程中顯著物體位置信息被不斷稀釋的問題,將其作為整個解碼過程中的語義指導,不斷指導解碼過程中的特征聚合,生成更加具體的顯著性圖.2)增大感受野模塊(Enlarged receptive field module,ERFM)可以對來自低層的特征進行處理.低層特征的邊緣細節相當豐富,但受限于感受野,無法獲得更加全局的信息.因此,考慮加入ERFM,可以在保留原有邊緣細節的同時,獲得更大的感受野,增強語義信息.3)多層次聚合模塊(Multi-level aggregation module,MLAM)是對來自經過上述2 個模塊生成特征進行高效聚合,以級聯方式不斷提取特征中的顯著部分,細化顯著物體的邊緣細節,生成最終的顯著圖.具體結構如圖1 所示.

圖1 網絡結構圖Fig.1 Network structure diagram
近年來,大量基于全卷積神經網絡深度模型[16-17]被相繼提出,受益于全卷積神經網絡強大的特征提取能力,基于深度學習的方法已經在性能方面超越了大多數基于手工特征的傳統方法.文獻[18]詳細總結了傳統方法.本文主要討論基于深度學習的顯著性目標檢測算法.
注意力機制具有很強的特征選擇能力,能夠將特征信息進行深度整合,使得網絡更加去關注所需的語義信息.根據加工域的不同,注意力機制可以分為空間域注意力和通道域注意力兩類,其中空間注意力模塊旨在捕獲特征圖中任意兩個空間位置之間的空間依賴性,通道注意力模塊旨在捕獲任意兩個通道之間的通道依賴性.因此,許多學者利用注意力機制進行顯著性目標檢測.Zhang 等[19]提出一種漸近注意力引導網絡的顯著性方法,在解碼階段,級聯多個注意力模塊漸近地生成最終結果.Zhao 等[20]考慮到不同層次的特征所具備的信息并不相同,因此,對來自不同層次的特征,分別設計了不同角度的注意力模塊,并對多個結果進行融合,得到最終的結果.Chen 等[21]提出一種反向注意網絡,將粗糙的預測圖反饋到中間特征層,希望網絡可以補全缺失的顯著部分.Wang 等[22]設計了一個金字塔注意力模塊,通過考慮多尺度注意力來增強顯著特征的表征力.上述方法都是對注意力機制的有效使用,本文方法需要生成更加關注顯著物體語義信息的高層特征,利用注意力機制可以取得很好效果.
大多數對特征進行聚合的方法都是采用編碼-解碼的框架,其中編碼器用于提取多尺度特征,解碼器用于聚合特征以生成不同級別的上/下文信息.Wu 等[23]對深層特征進行優化,提高其表征力,并利用雙分支結構對特征進行聚合,生成細化后的結果.Deng 等[24]設計一種循環策略,不斷聚合來自不同層次的特征,對網絡進行細化,增強顯著信息.Wang 等[25]提出一個特征打磨模塊,通過重復使用該模塊,對特征不斷細化,聚合來自不同層次的特征,得到最終結果.上述方法都探索了高效的特征聚合方法,雖然有一定效果,但是對于空間細節的捕捉仍然不夠,并且在解碼過程中,由于缺少高級語義的指導,導致預測出的顯著物體位置出現了偏移.本文針對上述問題,設計了多層次聚合模塊,使其能夠在高級語義的指導下,精確地定位顯著物體,并且通過級聯多個、多層次聚合模塊,可以實現對邊緣細節的細化.
如圖1 所示,本文建立一個編碼-解碼結構.首先,選用ResNeXt101 作為特征提取器,提取圖片的各層特征;其次,利用MAM 生成一個全局語義特征,來引導解碼過程,通過上采樣、卷積和元素累加等操作,將全局語義融合到解碼器的各層特征中;接著,編碼過程中生成的各級特征通過ERFM 后,生成具備更多邊界信息的低層特征;最后,將各級特征一起送入MLAM 進行特征的有效聚合,通過級聯方式生成最終的顯著性圖.
圖片送入網絡中,經過編碼后,會生成一系列具備不同信息的特征.最高層的特征具備最強的語義表征能力,并且在解碼過程中,逐漸與低層特征進行融合,最終得到顯著圖.但是,直接將這種語義信息進行解碼融合,會造成許多顯著性細節的丟失,原因在于高層特征的不同通道和不同空間位置對顯著性計算的貢獻是不同的.具體地,不同通道對同一對象會有不同響應,而同一通道的不同空間位置也會包含不同的對象.受文獻[26]啟發,本文設計了混合注意力模塊,該模塊分為通道注意力機制和空間注意力機制兩部分,用來捕捉不同通道和不同空間位置中最顯著的部分,利用這些最顯著的語義信息,對高層特征進行有效增強,得到更具魯棒性的全局語義特征.MAM 模塊結構見圖2.

圖2 混合注意力模塊Fig.2 Mixing attention module
2.1.1 空間注意力機制
對于從殘差塊5 中提取的高層特征,首先,將其寬、高維度展開成一維向量并進行轉置,得到二維矩陣X∈RHW×C,C是該特征的通道數,H和W分別是高和寬,HW為高與寬相乘的數量.然后,經過3 個并行的全連接層Wq、Wk和Wv對通道進行降維,分別得到Q=XWq、K=XWk、V=XWv三個矩陣.接著,利用A=QKT得到相關性矩陣,其中,Aij代表Q中第i行與K中第j行的內積,即兩個不同空間位置處向量的相關性.并且對相關性矩陣A的每一行利用Softmax 函數進行歸一化,約束到(0,1)內.最后,將相關性矩陣A與V相乘,并且經過一個全連接層Ws對通道維度進行恢復,得到空間顯著性增強后的特征圖XS=AV Ws,最終的特征表達式為:
2.1.2 通道注意力機制
通道維度的操作與上述類似,也是對殘差塊5提取的特征先沿著寬、高維度展開成一維向量并轉置,得到X∈RHW×C經過三個全連接層,輸出Q=XWq,K=XWk,V=XWv.考慮到降維會帶來過多的信息損失,因此本文算法沒有對通道進行降維.然后,通過B=KTQ得到相關性矩陣,其中Bij代表了K中第i列與Q中第j列的內積,即兩個不同通道向量的相關性.同樣,需要對相關性矩陣B的每一列利用Softmax 函數進行歸一化,約束到(0,1)內.最后,將V與B相乘且經過一個全連接層Ws,得到通道顯著性增強后的特征圖XC=V BWs,最終的特征表達式為:
式中,Wq,Wk,Wv,Ws ∈RC×C.最后合并這兩個分支的輸出.考慮到殘差結構的影響,本文將合并后的特征與輸入X進行相加,生成最終特征圖Y ∈RHW×C:
式中,“⊕”表示元素級的特征圖相加.Y在經過轉置并且將維度展開恢復后,送入到后續的模塊中.
低層特征的邊緣細節非常豐富,但由于下采樣的次數有限,感受野相對受限,無法捕捉全局的信息.在解碼過程中,如果僅僅是簡單利用低層特征,雖然邊緣的細節信息得到利用,但并沒有充分挖掘特征的空間細節.受文獻[27]啟發,本文設計如圖3所示的增大感受野模塊.低層特征經過該模塊后,在保證邊緣細節不丟失的前提下,擴大了感受野,具備了更多空間細節.

圖3 增大感受野模塊Fig.3 Enlarged receptive field module
首先,對于特征M∈RC×H×W,設計四個并行分支 (li,i=1,2,3,4),其中l1采用一個 1×1 卷積,剩下的三個分支均采用 3×3 卷積,并且對這三個分支設置不同的擴張率.根據低層特征分辨率的不同設置不同的擴張率: 對于分辨率較低的特征設置較小的擴張率,對于分辨率較高的特征設置較大的擴張率.本文最大的擴張率設置為d=5,8,11,并隨著特征圖的縮小而不斷縮小(具體設置見第3.6 節).然后,對四個分支輸出進行通道維度拼接,并利用一個 1×1 卷積得到融合后的特征.
在解碼過程中,高效利用每一層的特征尤為關鍵.以前的研究只對高層特征與低層特征進行簡單的拼接融合,得到的結果非常粗糙.因此,本文設計了多層次聚合模塊,對來自不同層、不同空間尺度的特征進行有效聚合.該模塊的輸入分為MAM 生成的語義特征H1,經過ERFM 增強后的低層特征L和當前進行解碼的特征H2三個部分.圖4 是多層次聚合模塊示意圖.

圖4 多層次聚合模塊Fig.4 Multi-level aggregation module
整個聚合過程分為2 個階段: 第1 階段是語義特征對當前解碼特征的指導融合.首先讓H1經過兩個并行的 1×1 卷積,第1 個分支與H1在通道維度上進行拼接融合后,與第2 個分支的結果相加完成第1 次融合,得到高層特征H:
式中,fconv(·)指卷積操作,fcat(·)指通道的拼接操作.第2 階段是第1 階段融合得到的高層特征H與經過ERFM 增強后的低層特征L的聚合.此階段分為自下而上和自上而下兩個并行分支.自下而上是H向L的聚合,此階段L不變,H經過一次上采樣和一個 1×1 卷積后與L進行通道維度的拼接,得到聚合圖Xh→l:
式中,fup(·)指上采樣操作.自上而下是L向H的聚合,此階段H不變,L首先經過一個并行的池化操作,其中最大池化可以提取特征中響應值較大的信息即特征中所包含的顯著信息,平均池化可以得到特征的全局信息.經過并行池化后,特征L具備更強的表征力,并且與H有相同的空間尺寸,此時將其與特征H在通道維度上進行拼接,并利用1×1卷積完成融合.然后,對其進行上采樣,得到最終的Xl→h:
式中,fmax(·)和favg(·)分別代表最大池化和平均池化操作.最后,對兩個分支得到的聚合特征也進行一次聚合:
本文代碼是在Pytorch1.5.0 框架下完成,并且使用1 張GeForce GTX2080Ti GPU 進行訓練.訓練數據使用DUTS[28]數據集中10553張圖片.使用Adam[29]優化器進行優化,初始學習率設置為1×104,并且在每訓練完成兩個周期后衰減一半,批量大小為8.使用ResNeXt101 作為特征提取器提取各層特征,并加載在ImageNet 上預訓練的分類權重,作為初始權重.為了減少過擬合的影響,在訓練階段,對圖片進行了隨機翻轉和遮擋,并將圖片縮放到 3 20×320 像素后,將其隨機裁剪為288×288像素,輸入到網絡中進行訓練;測試階段,僅將圖片縮放到 2 88×288 像素后,輸入到網絡中進行測試.
本文在6 個基準數據集上進行實驗,包括DUTSTE[28]、DUT-OMRON[30]、ECSSD[31]、HKU-IS[32]、PASCAL-S[33]和SOD[34].其中,DUTS-TE 與訓練集的10 553 張圖片同屬一個數據集,包含5 019 張測試圖片.DUT-OMRON 是最具有挑戰性的數據集,包含5 188 張圖片,該數據集的難點在于背景非常復雜,對網絡預測顯著目標有很大干擾作用.ECSSD 相對簡單,由1 000 張圖片組成,其中顯著目標形狀與外觀有很大差異.HKU-IS 包含4 447 張圖片,其中包含多個具有不同類別或外觀的顯著物體.PASCAL-S 包含850 張圖片,圖片中物體之間會出現很大程度的重疊.SOD 只有300 張圖片,但場景的復雜多變,帶來很大挑戰.
本文使用平均絕對誤差(Mean absolute error,MAE)、Fβ(F-measure)和Sm(Structure measure)作為評價指標.
1)MAE 計算預測的顯著圖與真實標簽之間的差異:
式中,P指預測的顯著圖,G指真實標簽值.
2)Fβ是一種經典且有效的測量指標,通過對查準率(Precision)與查全率(Recall)設置不同的權重來計算:
式中,β2設置為0.3.
3)Sm用來考慮預測的顯著圖與真實標簽之間的全局和局部的結構相似性,該指標的詳細介紹見文獻[35].
本文使用標準的二元交叉熵損失作為訓練的損失函數:
本文與最新10 種基于深度學習的方法進行比較,包括U2Net[15]、PAGR[19]、RAS[21]、CPD[23]、DGRL[36]、MLMS[37]、PoolNet[38]、AFNet[39]、BASNet[40]和ITSD[41].為了指標的公平性,所有指標均在同一評測代碼下進行評測,并且所有用于評測的顯著圖均從作者發布的模型中得出.
3.5.1 定量分析
表1、表2 和表3 分別列出了各算法的Fβ、MAE和Sm評價指標結果.本文方法在3 項指標中均表現優異.由表1 和表3 可以看出,本文方法在指標Fβ和Sm上大幅領先于其他方法,即便是次優的ITSD算法,在較難的數據集DUT-OMRON 中,本文也在Fβ指標上領先其0.003,Sm指標領先其0.007.這主要得益于本文多層次聚合模塊能夠最大限度地保留顯著物體的空間信息和邊界細節.對于表2 中MAE 指標,本文方法也僅在相對較難的3 個數據集上表現稍有不足,但與第1 名的差距是非常小的,基本保持在0.001~0.002 之間.圖5 是各方法的查準率-查全率曲線圖,加粗實線是本文方法,由圖5可以看出,本文算法性能的優越性.

表1 不同方法的 Fβ 指標結果比較Table 1 Comparison of Fβ values of different models

表2 不同方法的MAE 指標結果比較Table 2 Comparison of MAE values of different models

表3 不同方法的 指標結果比較Sm SmTable 3 Comparison of values of different models

圖5 不同算法的查準率-查全率曲線示意圖Fig.5 Comparison of precision-recall curves of different methods
3.5.2 定性分析
圖6 是本文方法與其他10 種方法的顯著性圖.由圖6 可以看出,本文方法對顯著信息的捕捉明顯更強.在第1 行中,即便是指標與本文最接近的ITSD 也將座椅當作顯著物體,但是在人類的視覺效果上,明亮的燈與背景的區分度更大,本文方法因為有全局語義指導特征聚合,可以捕捉到壁燈的顯著信息.在第2 行中,圍繩與人之間有很多交叉,即便是當前性能較好的方法也并沒有將目標完整地識別出來,而本文方法由于對低層特征進行了感受野增強,可以捕捉目標周圍更多的上/下文信息,能夠將全部目標識別出來,但同時也存在圍繩部分被識別為人的問題.綜上所述,本文算法對于復雜背景下的物體邊界并不能很好地細化.但對于背景較簡單的物體(如第5 行和最后1 行),本文均能很好地預測出邊界輪廓.

圖6 不同算法的顯著性圖Fig.6 Salient maps of different methods
表4 是在數據集ECSSD 上針對各模塊的消融實驗結果: 1)混合注意力模塊.由表4 第3 行可知,當缺少混合注意力模塊時,MAE 指標上升了0.008,由此可見,利用該模塊生成的全局語義特征引導特征聚合,能夠大幅提升聚合性能;2)增大感受野模塊.由表4 第4 行可知,MAE 指標上升了0.005,主要是因為缺少了感受野增強,沒有充分提取低層特征的空間上/下文信息,不利于細化邊界;3)多層次融合模塊.由表4 第2 行可知,當用簡單的上采樣和相加操作代替該模塊時,MAE 上升了0.011,說明多層次融合模塊聚合方式非常高效.

表4 消融實驗結果Table 4 Results of ablation experiment
表5 是對ERFM 模塊中,不同擴張率設置的對比實驗結果.表5 中不同設置組合從左向右依次對應不同分辨率的特征圖(見圖3),即左邊第1 組擴張率對應分辨率最大的特征圖,最后1 組擴張率對應分辨率最小的特征圖.表5 的第4 行是本文方法的設置.由表5 第1 行可以看出,當擴張率全部設置為(1,3,5)時,與本文方法相比,MAE 上升了0.005,而隨著本文方法對分辨率較高的特征圖分配更大的擴張率時,MAE 的指標不斷降低.實驗結果表明,在本文方法中,擴張率的選擇是有效的.

表5 ERFM 模塊中,不同擴張率設置的對比實驗Table 5 Comparative experiment of different dilation rate configurations in ERFM
表6 是對MLAM 模塊第2 階段中,自上而下和自下而上兩個分支在數據集ECSSD 上的消融實驗結果.由表6 第1 行可知,當只使用自下而上分支時,相比兩個并行分支均使用時,MAE 上升了0.007;而只使用自上而下分支時,上升了0.006.由此可見,本文方法將兩個分支并行使用的方式是有效的,能夠對精度有所提升.

表6 MLAM 模塊中,兩個分支的消融實驗Table 6 Ablation experiment of two branches in MLAM
表7 是對MAM 中,注意力模塊位置關系的消融實驗結果.前2 行是將兩個模塊串聯并考慮其先后位置,第3 行是兩個模塊并行即本文方法.當通道注意力位置在前時,與本文方法相比,MAE 上升了0.002;當空間注意力位置在前時,MAE 上升了0.004.該實驗結果驗證了本文將兩個模塊設置成并行的有效性.

表7 MAM 模塊中,注意力模塊位置關系的消融實驗Table 7 Ablation experiment on the position relationship of attention module in MAM
本文提出一種基于語義引導特征聚合的顯著性目標檢測算法,主要包括混合注意力模塊、增大感受野模塊和多層次融合模塊3 個模塊.MAM 能夠生成更佳的語義特征,用來指導解碼過程中的特征融合,使得聚合的特征能夠更好地定位顯著物體;ERFM 能夠豐富低層特征所具備的上/下文信息,并將增強后的特征輸入到MLAM 中;MLAM 利用MAM 生成的語義信息,對當前解碼的特征和ERFM 輸出的低層特征進行指導融合,并最終以級聯方式逐步恢復邊界細節,生成最終的顯著圖.本文與目前流行的10 種算法在6 個基準數據集上進行了實驗比較,由可視化圖6 可以看出,本文算法能夠有效地保留顯著物體的空間位置信息,并且邊緣也得到了很好細化.實驗結果也驗證了本文算法具有領先性能.