劉仲任,彭 力
(江南大學 物聯網技術應用教育部工程研究中心,江蘇 無錫 214000)
顯著性目標檢測能夠從復雜場景中檢測出人類視覺注意力最為集中的顯著性對象,目前有許多計算機視覺領域的科研人員提出了基于手工特征的顯著度算法和基于深度學習的神經網絡模型以識別顯著性對象。顯著性目標檢測技術已經應用于圖片摘要、信息發現、圖片檢索[1]、目標跟蹤、目標檢測[2]等領域,通過顯著性目標檢測預先獲得圖像的顯著性區域,有利于促進計算機視覺等眾多領域的研究與發展。
傳統的顯著性目標檢測方法[3]使用單一低級手工特征來計算顯著性特征值,如圖像的顏色分布、紋理結構和對比度。依賴圖像手工特征和顯著度算法的傳統檢測方法難以捕獲顯著性目標的空間結構信息。文獻[4]在高維顏色空間中使用顏色的線性組合來創建圖像的顯著性映射,結合顏色對比度和超像素之間的相對位置來計算顯著度。文獻[5]利用顯著度算法獲得顯著性先驗信息,再通過高斯馬爾可夫隨機場增強顯著性區域的一致性,從而實現顯著性檢測。對于顯著性對象和背景環境較為統一且場景復雜的自然圖像,低級手工特征缺乏深度語義信息的指導,準確檢測顯著性目標的能力受到限制。
近年來,隨著深度學習技術的不斷發展和計算機硬件的更新迭代,基于深度網絡的顯著性目標檢測算法表現出優異性能。利用高層級語義信息的全卷積神經網絡算法已經能夠準確檢測出人類視覺感興趣的顯著性目標,檢測方法大致分為以下3 類:
1)基于邊界感知的顯著性目標檢測方法。文獻[6]針對顯著性目標檢測的邊緣模糊現象,提出注意力反饋網絡,通過使用注意力反饋模塊來產生更銳化的推理結果,其通過引入邊界增強損失函數作為輔助,增強了邊緣細節。文獻[7]提出新的全卷積網絡框架,在目標邊界信息的引導下循環地集成多層卷積特征,實現了精確的邊界推理和語義增強。文獻[8]提出一種非局部深度特征網絡,同時實現一個邊緣感知的損失函數,該網絡通過多分辨率網格結構整合局部信息與全局信息以進行顯著性目標檢測。該類方法優化了顯著性目標的邊界,但是難以檢測小目標。
2)基于深度特征融合的顯著性目標檢測方法。文獻[9]提出Amulet 網絡,并設計一種聚合多層次卷積特征的網絡框架,引入聚合不同分辨率信息的特征集成模塊來自適應地推理顯著性目標,該網絡提高了檢測準確率。文獻[10]提出的多尺度注意力引導模塊能夠有效提取多尺度特征,同時更加關注具有更多顯著性特征的映射圖,衰減顯著性鑒別度較弱的特征圖。文獻[11]提出一種利用矛盾信息的顯著性目標和偽裝目標檢測方法,引入一個相似性度量模塊對相互矛盾的屬性進行建模,實現了魯棒性更健壯的檢測對抗網絡。該類方法檢測性能優異,但是由于網絡參數量和計算量較大,導致推理速度較慢。
3)基于實時的顯著性目標檢測方法。文獻[12]在U 型架構的基礎上,提出一個基于池化的實時顯著性目標檢測方法,充分發揮池化在卷積神經網絡中的作用,通過全局引導模塊對產生的特征圖進行逐級優化,最終生成細節豐富的顯著圖,由于采用了大量的池化模塊,因此大幅提高了模型的推理速度。文獻[13]通過在整體嵌套邊緣檢測器的跳層結構中引入短連接,增強了網絡每層的特征表示,縮短了檢測時間。文獻[14]針對檢測網絡規模和計算開銷較大的問題,引入多尺度立體注意力模塊,通過立體注意力機制搭建編解碼網絡以自適應融合各種尺度特征,在加快推理速度的同時保證了較高的檢測精度。該類方法大幅減少了計算開銷和網絡規模,雖然犧牲了一定的檢測精度,但是能夠實時檢測顯著性目標。
雖然深度學習在顯著性目標檢測中已經取得了一定成果,但是復雜場景下的顯著性目標檢測仍然存在以下挑戰:自然圖像往往背景復雜,現有顯著性目標檢測方法通常采用單一特征檢測,導致顯著圖邊緣不清晰和內部不均勻,難以從復雜場景中提取出符合要求的顯著性目標;部分現有檢測方法缺乏淺層特征的空間位置信息,難以抑制背景噪聲,導致顯著圖邊緣輪廓不連續且背景模糊。雖然可以通過融合多種顯著圖來改善由單一特征檢測引起的不足,但是不合理的融合策略可能進一步降低算法的檢測性能。為了解決以上問題,本文提出一種多尺度視覺感知融合的顯著性目標檢測方法。
本文模型基于U 型結構設計2 個新的模塊,即多尺度視覺感知模塊(Multi-scale Visual Perception Module,MVPM)和多尺度特征融合模塊(Multi-scale Feature Fusion Module,MFFM)。MVPM 的設計靈感來源于靈長類動物的視覺系統分層處理視覺信號的機制[15],使用不同膨脹率的空洞卷積[16]構建感受野并模擬靈長類視覺皮層進行學習,在主干網絡中從淺層到深層逐級提取顯著性目標的全局空間信息,該模塊輸出的多尺度視覺感知管道(Multi-scale Visual Perception Pipes,MVPPs)為解碼網絡提供不同特征層次的潛在顯著性目標的空間位置信息。MFFM 基于特征金字塔結構,將主干網絡的輸出通過特征金字塔映射到不同尺度以挖掘更多的語義信息,再通過空間注意力機制自適應融合不同尺度的特征。
本文所提網絡基于U 型網絡架構,包含多尺度視覺感知模塊MVPM 和多尺度特征融合模塊MFFM。多尺度視覺感知模塊能夠有效提取全局上下文信息和細節信息,用于指導特征融合。多尺度特征融合模塊可以將主干網絡輸出的特征圖擴展到不同尺度空間,再與多尺度視覺感知模塊的輸出融合得到每一階段的顯著圖,并且各個階段都進行監督優化。最后將各階段的預測圖進行跨通道級聯,通過得分層獲得最終的顯著圖。
本文顯著性目標檢測網絡框架如圖1所示。主干網絡(backbone)采用ResNet-50[17],該網絡廣泛應用于計算機視覺領域,是計算機視覺任務的經典主干神經網絡之一。ResNet-50 利用殘差學習塊優化深度網絡訓練,通過加深網絡層數獲取更加豐富的深層特征信息。本文將主干網絡最后的全局平均池化層和全連接層全部刪除,使用其中的5 層特征圖E(i)(i?{0,1,2,3,4})作為主干特征。將主干所有特征圖E(i)作為多尺度視覺感知模塊MVPM 的輸入,通過MVPM 提取顯著性目標的空間位置信息,輸出4 條多尺度視覺 感知管道,用m(i()i?{0,1,2,3})表示。在網絡自下而上的支路上設計多尺度特征融合模塊M(i()i?{0,1,2,3,4}),第i個多尺 度特征 融合模塊M(i)可以表示為:

圖1 顯著性目標檢測網絡框架Fig.1 Framework of salient object detection network
其中:φ(*)函數表示多尺度特征融合操作;⊕運算表示對特征圖進行跨通道級聯操作。各階段的M(i)通過上采樣恢復到原圖尺寸,再通過1×1 大小的卷積進行通道對齊,可以表示為:
其中:μ(*)是雙線性插值上采樣函數;F1×1(*)是1×1大小的卷積操作。最終的顯著圖P可以表示為:
其中:η(*)函數表示得分層預測概率的計算操作。上式實際上是通過3×3 卷積運算使得通道降維,再通過激活函數映射成預測結果圖。
本文網絡基于經典U 型架構,當較高層次的特征信息被傳播至較低層次時,空間位置的語義信息也將逐步地被稀釋,尤其是在更深層次上,卷積神經網絡的經驗感知野比理論感受野要小得多,因此,整個網絡的感知野不夠大,無法捕獲輸入圖像的全局信息,只有顯著性目標的突出部分可以被網絡發現,背景噪聲過大,顯著圖缺乏完整性。本文設計的多尺度視覺感知模塊MVPM 由改進的空洞空間卷積池化金字塔(ASPP)和一系列多尺度視覺感知管道MVPPs 組成,為多尺度特征融合模塊提供顯著性目標的位置和細節特征信息。MVPM 模塊結構如圖2所示,其中表示卷積核大小為k、膨脹率為r的空洞卷積層。
MVPM 采用空洞卷積來模擬不同的視覺皮層區域,這些區域具有不同的感受野,其大小和偏心率與空洞卷積核的大小和擴張率有相似的關系。MVPM的輸入為主干網絡的所有特征層輸出E(i),其中,第0~第3 個特征層對應膨脹率分別為7、5、3、1 的3×3膨脹卷積處理,再經過3×3 大小的卷積層和ReLU激活函數處理后得到和輸入尺寸相同的特征圖。針對最后一層特征圖E(4),采用改進的ASPP 進行深層特征挖掘,改進ASPP 模塊的輸出通過雙線性插值進行0、2、4、8 倍的上采樣,輸出4 條MVPPs 通路。本文的MVPM 獨立于U 型結構,可以很方便地將高級語義信息輸入至不同級別的特征圖,并且增加了MVPPs 的權重,確保顯著性目標的空間位置信息不會被稀釋。
MVPM 的核心是發揮了空洞卷積在神經網絡中的作用。在圖形采樣的過程中存在分辨率損失和信息丟失等問題,雖然通過增大卷積核、池化、步長可以提高感知野,但是會增加模型的參數計算量??斩淳矸e可以改變超參數膨脹率r來獲取更大的感知野,同時保證輸出的特征圖大小不變。膨脹率r表示卷積核中的采樣間隔,數值越大,進行卷積操作時掃描的圖像區域就越大。空洞卷積的優勢在于:一方面,不同擴張率的空洞卷積帶來了多種尺度的感知野,能夠提供豐富的全局上下文感知信息,有助于指導特征融合并預測顯著性目標的空間位置;另一方面,能夠保證輸出圖像的尺寸不變,圖像信息保存相對完整,且不產生額外的計算量。
在網絡自上而下的支路上引入多尺度特征融合模塊MFFM,利用該模塊充分聚合多尺度信息,將主干網絡的輸出通過特征金字塔映射到不同空間尺度,并對MVPM 輸出的空間位置信息和淺層細節特征信息進行有效整合,生成混合特征圖。該模塊結構如圖3 所示。
MFFM 首先通過平均池化操作對特征圖進行8、4、2 倍下采樣,將輸入特征圖轉換到不同的尺度空間,再進行3×3 大小的卷積操作以挖掘特征信息;然后對不同分支的特征圖進行上采樣并加和,再進行一個3×3 大小的卷積操作,有效減少在上下采樣過程中出現的混疊效應,提高特征聚合性能;最后加入一個空間注意力模塊(Spatial Attention Module,SAM),衡量融合特征的貢獻度同時捕獲更深的顯著性目標空間信息。
注意力機制[18]是一種增強深度卷積神經網絡性能的方式,部分研究已經驗證了注意力機制對顯著性目標檢測任務的有效性。本文采用SAM 提高MFFM 的融合性能。SAM 是卷積塊注意力模塊[19]的一部分,空間注意力聚焦在特征圖最具信息量的部分,通過權重衡量每個空間位置信息的重要程度。SAM 結構如圖4 所示。
SAM 首先沿著通道方向應用平均池化和最大池化操作,然后通過跨通道級聯將兩者輸出連接起來,生成一個有效的特征描述,最后通過一個卷積核大小為3×3、padding 填充為1 的卷積將通道壓縮為單通道,生成與輸入尺寸一致的空間注意力圖Ms(E′),可以表示為:
其中:Avg(*)為平均池化操作;Max(*)為最大池化操作均為大小為1×H×W的特征描述矩陣;ξ(*)為Sigmoid 函數;f3×3(*)是卷積核大小為3×3的卷積運算。
MFFM 具備兩大優勢:該模塊能夠從不同的尺度空間觀察局部環境,進而拓展整個網絡的感受野,有助于捕捉顯著性目標的具體空間位置;空間注意力模塊增加了特征權重,能夠有效衡量空間特征的重要程度。
本文引入三重聯合損失函數[20],由BCE(Binary Cross Entropy)、IoU(Intersection over Union)和SSIM(Structural Similarity)損失組成,計算公式如下:
BCE 二進制交叉熵損失函數是二值分類和分割中使用最廣泛的損失函數,計算公式如下:
其中:G(r,c)?{0,1}是像素(r,c)在真實圖中的像素坐標;S(r,c)?[0,1]是顯著性目標像素的預測概率。
IoU 交并比損失函數對尺度不敏感且具有尺度不變性,通過預檢測錨框與真實檢測錨框的重疊區域反映檢測效果,在圖像任務中有很好的表現,計算公式如下:
SSIM 損失函數類比圖片的3 個特征(亮度、對比度和結構性)來判斷兩張圖是否相似,計算公式如下:
其中:μx、μy表示N個像素點的平均亮度;σx、σy表示圖片明暗變化的劇烈程度,σxy是它們的協方差,表示圖片的結構相似性。為了防止分母為0,C1一般取值為0.012,C2一般取值為0.032。
本文訓練集采用DUTS 數據集。為了評估本文算法的有效性,在5 個公開數據集上進行測試,分別是HKU-IS、ECSSD、DUTS、DUT-OMRON、SOD[21]圖像數據集。其中,DUTS 數據集總共包含15 572 張圖像,在這5 個數據集中圖像數量最多,大部分顯著性目標檢測算法都會使用該數據集進行訓練測試。DUT-OMRON 是一個包含5 168 張圖像的數據集,其中部分圖像中包含多個顯著性目標,大多數前景對象在結構上很復雜,這對于顯著性目標檢測算法有很大的挑戰性。
本文選擇PyTorch1.3.1 深度學習框架來實現顯著性目標檢測網絡。使用ResNet-50 預訓練模型初始化部分網絡參數,使用默認值初始化其余網絡參數。所有實驗都使用Adam 優化器[22]來優化損失函數,權重衰減設置為5×10-4,初始學習率設置為5×10-5,在第15 輪訓練結束后學習率設置為原來的1/10。網絡總共訓練21 輪,在不使用驗證集的情況下訓練網絡,訓練損失函數在第15 輪后收斂。在測試過程中,預測圖使用Sigmoid 函數將像素預測概率值映射為[0,1]區間內的值,然后再乘以灰度范圍255恢復成灰度圖。訓練網絡使用的設備為浪潮英信服務器NP3020M4 和單卡GPU NVIDIA GTX 1080ti。
本文采用F-Measure(Fβ)[23]、平均絕對誤差(Mean Absolute Error,MAE)作為評 價指標。其 中,F-Measure 是衡量模型的整體指標,由精確率P和召回率R共同計算得出。首先遍歷灰度閾值,將大于閾值的區域定義為顯著性目標,低于閾值的區域定義為背景。精確率與召回率的計算公式如下:
其中:TP、FP和FN分別代表真陽性、假陽性和假陰性。Fβ由精確率和召回率加權平均生成,計算公式如下:
為了強化精確率[24]的重要性,其中β2通常被設置為0.3。本文選取精確率-召回率(Precision-Recall,PR)曲線計算的平均值作為Fβ指標,記為Fm。
MAE 指標定義為計算歸一化的顯著圖和真實圖之間的平均絕對誤差,計算公式如下:
其中:S和G分別指顯著圖和對應的真實圖;H表示顯著圖的高;W表示顯著圖的寬;(r,c)表示對應的像素點坐標。MAE 值越小,代表檢測的預測圖與真實圖越接近,檢測方法性能越好。
本文進行相關的結構消融實驗來驗證本文算法的有效性,所有實驗都在DUTS 數據集上進行。表1列出了基準網絡U-Net、多尺度特征融合模塊MFFM和多尺度視覺感知模塊MVPM 的定量比較結果。從表1 可以看出:本文提出的MFFM 單獨使用時在Fm和MAE 這2 個指標上相比基準網絡分別提升0.127、0.048;同時使 用MFFM 和MVPM 時 在Fm和MAE 這2 個指標上相比基準網絡分別提升0.142、0.054。MVPM 對MFFM 的增益 在Fm和MAE 這2 個指標上分別為0.015、0.006,雖然增益不高,但是MVPM 的加入使得顯著圖的邊緣輪廓更加清晰連續,有效抑制了背景噪聲。

表1 算法使用不同模塊時的性能比較Table 1 Performance comparison of algorithms using different modules
如圖5 所示,未加入MFFM 模塊的網絡產生的顯著圖模糊,邊緣輪廓不清晰,背景出現大量噪聲,加入了MFFM 的網絡能夠有效改善以上問題。當加入MVPM 時,整個顯著圖邊緣輪廓的檢測效果和背景的抑制能力得到了一定的增強。

圖5 不同模塊的顯著性檢測結果比較Fig.5 Comparison of salient detection results of different modules
MVPM 的核心部分是如何設計空洞卷積,使其能夠有效模擬靈長類視覺系統中的感受野,其中的通路設計和空洞卷積膨脹率r選擇是MVPM 能否有效捕獲顯著性目標空間位置信息和抑制背景噪聲的關鍵。為了獲得性能更好的參數和通路結構,本文設計多個實驗進行ASPP參數選擇,實驗結果如表2所示,其中,M(4)表示加入主干網絡的最后一層輸出通路,rate表示采用空洞卷積的膨脹率參數,pool 表示加入全局平均池化通路。從表2 可以看出,當第1 個通路采用主干網絡的最后一層輸出、其余4個通路采用擴張率r分別為3、5、7、9 的空洞卷積時,MVPM 對檢測網絡的增益最高,Fm和MAE 這2個指標分別達到0.884和0.035。

表2 本文算法使用不同膨脹率和通路的性能比較Table 2 Performance comparison of this algorithm using different expansion rates and passages
2.6.1 定量比較
將本文所提算法與7 種先進算法進行比較,包括RANet[25]、PiCANet[26]、BMPM[27]、DGRL[28]、CARCCNet[29]、MLMSNet[30]和LEGS[31]。圖6 所 示為本文算法與其他顯著性目標檢測算法的PR 曲線比較結果(彩色效果見《計算機工程》官網HTML版)。表3 列出了各算法在5 個公開數據集上的Fm和MAE 性能指標比較結果。

表3 8 種算法在5 個數據集上的性能比較結果Table 3 Performance comparison results of eight algorithms on five datasets

圖6 8 種算法在5 個數據集上的PR 曲線比較結果Fig.6 Comparison results of PR curves of eight algorithms on five datasets
實驗結果表明:對于評價指標Fm,在5 個數據集上本文算法相比RANet 和CARCCNet 平均分別提高0.015 和0.025;對于評價指標MAE,在5 個數據集上本文算法相比RANet、CARCCNet 平均分別降低0.011 和0.016;在圖片數量最多的DUTS 數據集和背景更加復雜的SOD 數據集上,相比DGRL 算法,本文算法在Fm指標上提高0.034,在MAE 指標上降低0.009。
2.6.2 定性比較
顯著性目標檢測旨在從復雜場景中檢測出人類視覺注意力最為集中的對象區域,檢測結果的優劣依賴于視覺體驗,圖7 展示了本文算法對顯著性目標邊緣輪廓和背景噪聲的優化結果。圖7 的第1 行、第3 行和第4 行分別展示了本文算法檢測出顯著性目標細節的效果,算法能檢測出纖細的海鷗肢體和狗的尾巴,保留了顯著性目標的細節結構。圖7 的第2 行、第5 行和第6 行分別展示了本文算法對背景噪聲的抑制效果。第2 行圖片中帆船的背景比較復雜且包含其他船只,部分檢測算法受背景影響,顯著圖邊緣輪廓不清晰且背景出現模糊,本文算法能夠有效抑制背景噪聲;第5 行由于人和排球都是顯著性目標,本文算法能檢測出整體目標,且排球目標的內部均勻,無灰色陰影孔洞;第6 行的小鹿肢體與復雜自然環境相融,本文算法能夠檢測出細節信息并抑制復雜的背景噪聲。綜上,本文算法能夠有效增強前景區域,抑制背景噪聲區域,保留顯著性目標的細節結構信息,檢測出的顯著性目標邊緣清晰且背景干凈。

圖7 不同算法的顯著性目標檢測效果對比Fig.7 Comparison of salient target detection effects of different algorithms
本文針對顯著性目標檢測中顯著圖邊緣不清晰和背景噪聲抑制效果差的問題,基于全卷積神經網絡提出一種多尺度視覺感知融合的顯著性目標檢測算法。受靈長類動物視覺系統對視覺信號分層處理的啟發,利用空洞卷積模擬具有不同感受野的視覺皮層區域,設計多尺度視覺感知模塊進行分層感知學習,有效增強顯著性目標前景區域,抑制背景區域。通過特征金字塔將特征映射到不同尺度,結合空間注意力機制將高級語義信息與細節特征混合,在抑制噪聲傳遞的同時有效恢復顯著性目標的空間結構信息。實驗結果表明,相較于RANet、PiCANet等顯著性目標檢測算法,本文算法檢測出的顯著性目標邊緣輪廓更加清晰,背景更加干凈,各項性能指標都有一定提升。下一步將針對網絡輕量化問題進行研究,以在實際應用中進行網絡部署。