鄧慧萍 曹召洋 向 森 吳 謹(jǐn)
(武漢科技大學(xué)信息科學(xué)與工程學(xué)院 武漢 430081)(武漢科技大學(xué)冶金自動(dòng)化與檢測(cè)技術(shù)教育部工程研究中心 武漢 430081)
顯著性目標(biāo)檢測(cè)是一項(xiàng)旨在分割最吸引人注意力目標(biāo)的任務(wù)[1]。它在學(xué)習(xí)人類視覺機(jī)制和各種計(jì)算機(jī)視覺應(yīng)用中起重要作用,準(zhǔn)確有效的顯著性檢測(cè)可以為視覺跟蹤[2]、目標(biāo)檢測(cè)與識(shí)別[3]等任務(wù)提供可靠的先驗(yàn)信息。顯著對(duì)象與圖像結(jié)構(gòu)、上下文信息和對(duì)象語(yǔ)義含義等方面相關(guān),準(zhǔn)確檢測(cè)出顯著對(duì)象具有挑戰(zhàn)性。早期顯著性檢測(cè)方法主要依靠顏色、紋理和對(duì)比度等先驗(yàn)知識(shí)來(lái)獲取顯著對(duì)象的局部和全局信息。然而,這些基于啟發(fā)式的方法在前/背景相似的挑戰(zhàn)性場(chǎng)景中捕獲對(duì)象的高級(jí)上下文信息的能力有限,難以獲取完整和邊界清晰的特征圖。
隨著光場(chǎng)相機(jī)的發(fā)展以及LFSD[4], HFUT[5],DUTMV[6], DUT-LF[7]等各種光場(chǎng)基準(zhǔn)數(shù)據(jù)集引入,光場(chǎng)數(shù)據(jù)除了提供上下文信息的全聚焦圖像外,還提供焦點(diǎn)堆棧、多視圖圖像和深度圖。光場(chǎng)顯著性檢測(cè)將全聚焦圖像和焦點(diǎn)堆棧作為輸入,不增加網(wǎng)絡(luò)的復(fù)雜性,借助聚焦區(qū)域線索,為顯著性檢測(cè)提供了顏色、紋理、空間布局以及聚焦度信息,從而在前/背景相似的復(fù)雜場(chǎng)景中能更完整地檢測(cè)出顯著目標(biāo)。此外,隨著深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的發(fā)展,在一定程度上提升了光場(chǎng)顯著性檢測(cè)的精度。
盡管基于深度學(xué)習(xí)的光場(chǎng)圖像顯著性檢測(cè)方法有著特殊優(yōu)勢(shì),但目前仍面臨巨大挑戰(zhàn)。首先,由于不同卷積層的感受野不同,高低層特征具有不同的特征分布,導(dǎo)致不同的卷積層產(chǎn)生的特征之間存在著較大的差異。常見的直接添加或拼接等特征融合策略[7,8],僅利用了特征映射的線性組合,忽略了特征間的差異,往往會(huì)導(dǎo)致有用特征被淹沒或丟失,傳播背景噪聲進(jìn)而降低檢測(cè)性能。Dai等人[9]提出一種基于注意力特征融合方案,解決了融合不同尺度特征時(shí)出現(xiàn)的問題。通過分析發(fā)現(xiàn),除空間注意力外,通道注意力也可以通過改變空間池化大小而具有多尺度特性。考慮以尺度感知的方式動(dòng)態(tài)和自適應(yīng)地融合接收到的特征,本文設(shè)計(jì)了一個(gè)多尺度通道卷積注意力機(jī)制模塊(Multi-scale Channel Convolution Attention, MCCA),利用卷積注意力模塊加強(qiáng)重要特征,沿通道維度聚合多尺度上下文信息,同時(shí)強(qiáng)調(diào)全局分布的大對(duì)象和突出局部分布的小對(duì)象,便于網(wǎng)絡(luò)識(shí)別和檢測(cè)極端尺度變化下的對(duì)象。基于MCCA,本文提出了跨層特征融合模塊(Cross-level Feature Fusion Module, CFFM),利用多尺度通道卷積注意力機(jī)制引導(dǎo)特征融合,有效地解決特征差異問題。通過進(jìn)一步的分析發(fā)現(xiàn),現(xiàn)有顯著性檢測(cè)方法直接組合融合后的特征生成顯著圖,未對(duì)模型中的特征信息流進(jìn)行精細(xì)控制,會(huì)導(dǎo)致特征丟失以及高層上下文特征信息被稀釋。即信息從頂層流向較低層時(shí),高層特征比低層包含更多的上下文語(yǔ)義信息會(huì)大量減少,其完整性無(wú)法保持,所以無(wú)法充分利用豐富的上下文信息準(zhǔn)確定位顯著區(qū)域,不同顯著區(qū)域的關(guān)聯(lián)也會(huì)降低。因此,為了避免特征丟失以及高層上下文特征被稀釋,本文基于CFFM構(gòu)建了并行級(jí)聯(lián)反饋解碼器(Parallel Cascaded Feedback Decoder, PCFD),采用多級(jí)反饋機(jī)制重復(fù)迭代細(xì)化特征。
前/背景相似場(chǎng)景中檢測(cè)也是顯著性檢測(cè)的一個(gè)巨大挑戰(zhàn),充分利用全局上下文信息是解決問題的一個(gè)重要策略。為了應(yīng)對(duì)復(fù)雜場(chǎng)景,王安志等人[10]提出一種多模態(tài)多級(jí)特征聚合方法。馮潔等人[11]提出了結(jié)合相機(jī)陣列的選擇性光場(chǎng)重聚焦方法,重聚焦多目標(biāo)場(chǎng)景中的某一深度層,模糊其他層來(lái)檢測(cè)顯著目標(biāo)。Piao等人[12]開發(fā)了一種非對(duì)稱雙通道網(wǎng)絡(luò),雖提升了計(jì)算效率,但沒有充分利用上下文信息,在復(fù)雜場(chǎng)景中檢測(cè)不準(zhǔn)確。Zhang等人[13]提出了一種光場(chǎng)融合網(wǎng)絡(luò),學(xué)習(xí)焦切片之間的空間相關(guān)性來(lái)預(yù)測(cè)顯著圖,但沒有充分挖掘出豐富的上下文信息,因此在復(fù)雜場(chǎng)景中也未達(dá)到滿意的結(jié)果。Zhang等人[14]為了有效挖掘利用上下文信息,提出了一種面向記憶的光場(chǎng)顯著性解碼器,一定程度上提高了檢測(cè)的準(zhǔn)確性,但是集成到的上下文信息有限,不能很好地指導(dǎo)低層空間細(xì)節(jié)的選擇,同時(shí)網(wǎng)絡(luò)復(fù)雜度高計(jì)算量較大。本文提出了一個(gè)全局上下文模塊(Global Context Module, GCM),充分利用融合特征中豐富的上下文信息。
(1)設(shè)計(jì)了多尺度通道卷積注意模塊MCCA,并在此基礎(chǔ)上提出了跨層特征融合模塊CFFM,融合頂層到較低層的相鄰層的多層特征。該模塊將特征與MCCA組件相結(jié)合,從多層特征中計(jì)算注意力系數(shù)來(lái)細(xì)化特征,然后將得到的特征進(jìn)行融合。該模塊不僅能有效解決特征差異問題,并且可以良好替代傳統(tǒng)特征融合方式,同時(shí)也探索了特征的跨層次連續(xù)性。
(2)針對(duì)前/背景相似的問題,豐富的上下文信息能夠獲取不同顯著區(qū)域之間的關(guān)聯(lián)并減輕高級(jí)特征的稀釋,增強(qiáng)特征表示以提高顯著性檢測(cè)的準(zhǔn)確性。為此,本文提出了一個(gè)全局上下文模塊GCM,充分利用融合特征中豐富的上下文信息。GCM將輸入特征轉(zhuǎn)化為具有兩個(gè)并行分支的多尺度特征,使用多尺度通道卷積注意力組件MCCA計(jì)算注意力系數(shù),并通過考慮注意力系數(shù)來(lái)整合特征。
(3)為防止多層特征信息丟失失真以及產(chǎn)生冗余部分,本文基于CFFM提出了并行級(jí)聯(lián)反饋解碼器PCFD,將得到的高分辨率特征反饋給以前的特征,作為下一個(gè)CFFM的共同輸入,以此來(lái)糾正和細(xì)化特征。PCFD有效防止多層特征細(xì)節(jié)丟失,確保其完整性,避免高級(jí)上下文信息在傳導(dǎo)過程中被稀釋淡化。
本文網(wǎng)絡(luò)的整體架構(gòu)如圖1所示。首先將所有輸入的全聚焦圖像I0和相應(yīng)的焦點(diǎn)切片Ii(i=1,2,...,12)調(diào)整為256×256×3的尺寸,然后利用常用的VGG19作為編碼器提取原始的RGB特征和具有豐富高級(jí)語(yǔ)義信息的光場(chǎng)特征,其空間分辨率是原始圖像的1/4并且包含64個(gè)通道,表示為{,j=2,3,4,5},當(dāng)i=0 時(shí),表示全聚焦圖像生成的特征,當(dāng)i=1,2,...,12 時(shí),表示從焦點(diǎn)切片生成的特征。為了避免計(jì)算冗余復(fù)雜度,本文在Block2-Block5上執(zhí)行解碼器。
在解碼器之前,首先將編碼器的每層特征輸入有效通道注意力機(jī)制[15](Efficient Channel Attention, ECA),以輕量級(jí)的方式獲取跨通道交互信息,降低模型復(fù)雜度并保持一定的性能增益。不同層矛盾響應(yīng)會(huì)引起預(yù)測(cè)的顯著對(duì)象存在一些洞,為此本文利用卷積操作以及乘法和加法運(yùn)算作為特征細(xì)化機(jī)制(FeatureRefinement, FR),進(jìn)一步細(xì)化和增強(qiáng)特征圖。得到細(xì)化特征后輸入解碼器PCFD, PCFD中的CFFM避免引入冗余信息,抑制模糊噪聲,銳化跳頻邊界,PCFD充分利用其特性,將最后一個(gè)卷積層的特征傳回先前特征,以校正和細(xì)化它們。然后將解碼器每層輸出特征和全局上下文模塊GCM級(jí)聯(lián),以挖掘特征中的全局上下文信息,最后整合GCM輸出的結(jié)果作為最終的顯著圖,整體網(wǎng)絡(luò)架構(gòu)如圖1所示。
由于感受野的限制,低層特征保留了豐富的細(xì)節(jié)和背景噪聲,具有清晰的邊界。相反,經(jīng)過多次下采樣,高層特征在邊界上是粗糙的,丟失了太多的細(xì)節(jié)信息,但具有一致的語(yǔ)義信息和清晰的背景,這兩種特征之間存在很大的特征差異。常見的特征融合策略往往會(huì)忽略這種差異,有效的融合策略對(duì)于從前/背景相似的挑戰(zhàn)性場(chǎng)景中檢測(cè)出完整準(zhǔn)確的顯著對(duì)象至關(guān)重要。
特發(fā)性鼻出血組來(lái)源于我院計(jì)算機(jī)系統(tǒng)病案數(shù)據(jù)庫(kù),選取2011年1月~2015年1月以特發(fā)性鼻出血為主要診斷,并具有血型報(bào)告的住院患者作為研究對(duì)象。
為了應(yīng)對(duì)這些挑戰(zhàn),本文提出了跨層特征融合模塊CFFM,使高層特征Fh ∈RH×W×C和低層特征Fl ∈RH×W×C相互補(bǔ)充,得到全面的特征表達(dá)。與現(xiàn)有研究中直接相加或拼接方法相比,CFFM避免引入Fh和Fl中的冗余信息,以免“污染”原始特征,同時(shí)能有效抑制模糊噪聲,銳化跳頻邊界。CFFM首先通過多尺度通道卷積注意力機(jī)制MCCA利用多尺度信息來(lái)緩解尺度變換,適應(yīng)不同尺度目標(biāo)。其中MCCA由一個(gè)雙分支結(jié)構(gòu)組成,在兩個(gè)分支沿通道維度壓縮和恢復(fù)特征,下分支使用全局平均池化獲取全局上下文信息,強(qiáng)調(diào)全局分布的大對(duì)象,上分支通過卷積注意力獲取通道關(guān)注,保持原始特征大小以獲得局部上下文信息,避免忽略小對(duì)象,如圖2所示。之后將MCCA得到的特征Fs輸入到3×3卷積層,進(jìn)行批量歸一化和激活函數(shù)得到融合特征Fc,具體來(lái)說,跨層融合過程可描述為

圖2 多尺度通道卷積注意力的網(wǎng)絡(luò)結(jié)構(gòu)
其中,M表示多尺度通道卷積注意力機(jī)制MCCA,⊕代表Fh和Fl的初始融合,即逐元素相加。M(Fh⊕Fl)表示由MCCA生成的注意力權(quán)重,由0~1之間的實(shí)數(shù)組成,1 -M(Fh ⊕Fl)也 是如此,1-M(Fh⊕Fl) 和圖3中虛線部分相對(duì)應(yīng),M(Fh ⊕Fl)?Fl和(1-M(Fh ⊕Fl))?Fh是基于完全上下文感知和選擇性的融合策略利用得到的注意力權(quán)重系數(shù)分別對(duì)特征Fl和Fh進(jìn)行細(xì)化,使網(wǎng)絡(luò)能夠在Fl和Fh之間進(jìn)行加權(quán)平均化,以此使網(wǎng)絡(luò)達(dá)到更好的性能。CFFM詳細(xì)結(jié)構(gòu)如圖3所示。

圖3 跨層特征融合模塊的網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)于前/背景相似、背景雜亂、多個(gè)顯著目標(biāo)等復(fù)雜的顯著性檢測(cè)環(huán)境,由于顯著目標(biāo)的不同元素或多個(gè)顯著目標(biāo)之間的全局語(yǔ)義關(guān)聯(lián)極小,僅利用跨層特征融合策略不充分考慮全局上下文信息,不足以發(fā)現(xiàn)所有顯著部分,難以檢測(cè)出完整準(zhǔn)確的顯著圖。此外,自頂向較低層傳導(dǎo)的信息流建立在自底向上的基線層上,高層上下文信息從頂層傳向較低層時(shí)可能會(huì)被稀釋。因此,本文提出了一個(gè)全局上下文模塊GCM充分利用融合特征中豐富的全局上下文信息,GCM級(jí)聯(lián)在解碼器PCFD后,將輸入特征轉(zhuǎn)化為具有兩個(gè)并行分支的多尺度特征。同時(shí)可以增強(qiáng)融合特征,使得在訓(xùn)練模型時(shí)自適應(yīng)地從特定層提取多尺度信息。
具體來(lái)說,C F F M 輸出的融合特征Fc ∈RH×W×C首先通過CBAM機(jī)制增強(qiáng)重要信息的同時(shí)抑制冗余信息,得到輸出特征Fatt,然后將Fatt進(jìn)行卷積和平均池化后輸入到兩個(gè)子分支,得到對(duì)應(yīng)的Fv ∈RH×W×C和Fa ∈RH2×W2×C兩個(gè)子特征。為了學(xué)習(xí)基于注意力的多尺度特征表示,首先將子特征Fv和Fa輸入到MCCA,將MCCA的輸出 M(Fv)和M(Fa)和 兩個(gè)子特征Fv和Fa分別采用逐元素乘法得到對(duì)應(yīng)的融合特征Fvm∈RH×W×C和Fam∈RH2×W2×C,然后將Fam經(jīng)過上采樣后直接用加法運(yùn)算和Fvm融合得到特征Fcvm。最后為了融合Fc和Fcvm,采用殘差結(jié)構(gòu)得到最終融合特征Fg。上述過程可以描述為
其中,CBAM, Conv, A, M和U分別表示卷積通道注意機(jī)制CBAM,卷積,平均池化,MCCA和上采樣操作。GCM詳細(xì)結(jié)構(gòu)如圖4所示。

圖4 全局上下文模塊的網(wǎng)絡(luò)結(jié)構(gòu)
經(jīng)過CFFM得到融合特征后,大多數(shù)顯著性檢測(cè)方法會(huì)直接組合融合特征以生成最終的顯著圖。直接組合特征,高層特征由于下采樣會(huì)遭受信息丟失并產(chǎn)生冗余,無(wú)法利用語(yǔ)義信息更好地指導(dǎo)顯著對(duì)象的位置。此外,信息流從高層流向較低層時(shí),會(huì)逐漸淡化自上而下過程中的高級(jí)上下文信息。本文基于CFFM構(gòu)建了并行級(jí)聯(lián)反饋解碼器PCFD,充分利用CFFM特性,將最后一個(gè)CFFM輸出的特征傳回前一層作為輸入特征,同時(shí)將每層CFFM級(jí)聯(lián),進(jìn)一步糾正細(xì)化輸入特征,使多層特征能夠迭代的生成顯著圖。
如圖1所示,PCFD有自上而下和自下而上兩個(gè)過程。自下而上過程中,多層特征通過CFFM從高層逐漸向低層融合,然后對(duì)融合的特征進(jìn)行監(jiān)督并產(chǎn)生一個(gè)初始預(yù)測(cè)Pi,自上而下的過程中,將初始預(yù)測(cè)Pi添加到前幾層CFFM輸出的融合特征,細(xì)化多層融合特征并作為級(jí)聯(lián)CFFM的共同輸入,然后進(jìn)行相同的自下而上的融合操作。在PCFD內(nèi)部,兩個(gè)過程一一相連形成一個(gè)網(wǎng)格結(jié)構(gòu)。最后將解碼器P C F D 每層輸出的特征輸入到級(jí)聯(lián)的GCM中,這樣使得多層融合特征在網(wǎng)絡(luò)中流動(dòng)和細(xì)化,利用豐富的全局上下文信息完整地生成更精細(xì)的顯著圖。最后,將每個(gè)支路GCM模塊輸出的特征進(jìn)行整合作為網(wǎng)絡(luò)的最終輸出。
并行級(jí)聯(lián)反饋解碼器PCFD中第1個(gè)自下而上過程會(huì)生成一個(gè)初始預(yù)測(cè)圖P,第2個(gè)自下而上過程中每個(gè)CFFM和解碼器級(jí)聯(lián)的GCM也會(huì)生成對(duì)應(yīng)的預(yù)測(cè)圖,分別表示為Ci和Gi,i ∈{2,3,4,5}。在Ci和Gi添加了幾個(gè)中間監(jiān)督,以促進(jìn)網(wǎng)絡(luò)收斂。交叉熵?fù)p失BCE和交并比損失IoU用于每個(gè)CFAM和GCM以及網(wǎng)絡(luò)最終輸出的顯著圖,初始預(yù)測(cè)圖P僅使用交叉熵BCE損失。總損失函數(shù)可以為
其中,LBCE和LIoU表示為
其中,(i,j) 表示像素大小,G(i,j)和S(i,j)分別表示像素 (i,j)的標(biāo)簽值和預(yù)測(cè)值。
本文實(shí)驗(yàn)是在兩個(gè)公共光場(chǎng)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的:LFSD, DUT-LF。其中DUT-LF是最大的數(shù)據(jù)集之一,包含了1 462張光場(chǎng)圖像,分別為1 000張訓(xùn)練圖像和462張測(cè)試圖像。LFSD相對(duì)較小,只包含了100個(gè)樣本。每個(gè)樣本包含一個(gè)全聚焦圖像、對(duì)應(yīng)的12張焦點(diǎn)切片和對(duì)應(yīng)的真值圖。
本文方法在Pytorch框架上實(shí)現(xiàn),使用GeForce RTX 2 080-Ti GPU進(jìn)行訓(xùn)練。在訓(xùn)練階段,使用Adam優(yōu)化器并將動(dòng)量和權(quán)重衰減分別設(shè)置為0.99和0.000 5,將學(xué)習(xí)率設(shè)置為3e-4,Batch size設(shè)為2,最大迭代次數(shù)設(shè)置為400 000。網(wǎng)絡(luò)采用端到端的訓(xùn)練方式,使用隨機(jī)梯度下降SGD優(yōu)化。訓(xùn)練和測(cè)試圖像統(tǒng)一調(diào)整為256×256,為了防止過擬合,本文通過隨機(jī)翻轉(zhuǎn)、裁剪和旋轉(zhuǎn)來(lái)使訓(xùn)練數(shù)據(jù)增加到原來(lái)的11倍。本文模型總共訓(xùn)練了74個(gè)epoch,大約需要兩天時(shí)間。評(píng)估指標(biāo)分別有精確召回率(Prediction Recall, PR)曲線、F-measure、平均絕對(duì)誤差(Mean Absolute Error, MAE)、S-measure和E-measure。具體來(lái)說F-measure是平均精度和平均召回率的調(diào)和平均值,MAE在像素級(jí)別上定量地計(jì)算預(yù)測(cè)值與真值之間的平均差異,S-measure是一種結(jié)構(gòu)化度量,可以同時(shí)評(píng)估區(qū)域感知和目標(biāo)感知之間的結(jié)構(gòu)相似性,E-measure可以聯(lián)合捕獲局部像素匹配信息和圖像級(jí)統(tǒng)計(jì)。
本文模型與13種先進(jìn)的模型進(jìn)行比較,包括基于深度學(xué)習(xí)和非深度學(xué)習(xí)的方法。包括兩種2D顯著性檢測(cè)方法:EGNet[16], DSS[17],兩種3D顯著性檢測(cè)方法:S2MA[18], ATSA[19],9種光場(chǎng)顯著性檢測(cè)方法: PANet[8], ERNet[12], LFNet[13], MAC[20],MoLF[14], DLFS[6], FPM[21], DILF[22]和RDFD[23]。為了公平起見,本文使用已有方法提供的顯著圖或設(shè)置的默認(rèn)參數(shù)運(yùn)行可行的代碼,在現(xiàn)有實(shí)驗(yàn)設(shè)備和條件下,對(duì)部分對(duì)比實(shí)驗(yàn)的默認(rèn)參數(shù)進(jìn)行調(diào)優(yōu),以正常運(yùn)行代碼并訓(xùn)練數(shù)據(jù)。
3.2.1 定量評(píng)估
根據(jù)表1所示的定量結(jié)果可以看出,本文的方法在DUT-LF數(shù)據(jù)集中3個(gè)指標(biāo)獲得了最高值,另外一個(gè)指標(biāo)也獲得了接近最高值的結(jié)果。同時(shí),LFSD數(shù)據(jù)集中的兩個(gè)指標(biāo)分別達(dá)到了次高:Sα和Fβ。本文方法的指標(biāo)優(yōu)于大部分所對(duì)比的先進(jìn)方法指標(biāo),表中下劃線和加粗字體表示最優(yōu),僅加粗的字體表示次優(yōu)。同時(shí),本文還根據(jù)PR曲線比較了這些方法,從圖5可以看出,本文方法的PR曲線在DUT-LF和LFSD數(shù)據(jù)集上都優(yōu)于所對(duì)比的方法。由于LFSD數(shù)據(jù)集圖像的分辨率為360×360,而本文網(wǎng)絡(luò)輸入圖像的分辨率為256×256,圖像下采樣后分辨率減小,包含的特征信息也會(huì)減少,因此測(cè)試時(shí),評(píng)估指標(biāo)沒有全部達(dá)到最優(yōu)或次優(yōu)。但本文方法在數(shù)據(jù)集中包含前/背景相似的挑戰(zhàn)性場(chǎng)景中得到了比其他方法更完整準(zhǔn)確的顯著圖,同時(shí)本文所提出的跨層特征融合可以良好替代傳統(tǒng)特征融合方式。

表1 不同算法在DUT-LF數(shù)據(jù)集和LFSD數(shù)據(jù)集中的指標(biāo)結(jié)果對(duì)比

圖5 不同算法在 DUT-LF和LFSD數(shù)據(jù)集的 PR曲線結(jié)果對(duì)比
3.2.2 定性評(píng)估
圖6展示了本文以及現(xiàn)有方法可視化的結(jié)果。可以看出,在前/背景相似等場(chǎng)景中,本文方法可以預(yù)測(cè)比其他方法更準(zhǔn)確完整的顯著圖。具體而言,諸如PANet, ERNet, MoLF和LFNet利用光場(chǎng)信息能夠精確定位顯著對(duì)象,但忽略了上下文信息無(wú)法預(yù)測(cè)出完整準(zhǔn)確的顯著對(duì)象。當(dāng)提供高質(zhì)量的深度圖時(shí),諸如S2MA的3D顯著性檢測(cè)方法能準(zhǔn)確地檢測(cè)顯著對(duì)象,但容易受到低質(zhì)量深度圖的影響。2D顯著性檢測(cè)方法如EGNet, PoolNet,由于缺少空間信息而無(wú)法檢測(cè)到準(zhǔn)確的顯著對(duì)象。實(shí)驗(yàn)結(jié)果表明,本文方法能準(zhǔn)確整合定位聚焦的顯著區(qū)域,突出顯著區(qū)域抑制非顯著區(qū)域。本文網(wǎng)絡(luò)具有更少的假陽(yáng)性和假陰性,給出了最接近真值圖的預(yù)測(cè),在前/背景相似的挑戰(zhàn)性場(chǎng)景下可以實(shí)現(xiàn)比其他先進(jìn)網(wǎng)絡(luò)更完整和準(zhǔn)確的預(yù)測(cè)。

圖6 不同算法在DUT-LF的定性比較
為了驗(yàn)證每個(gè)關(guān)鍵模塊的有效性,本文設(shè)計(jì)了7項(xiàng)消融實(shí)驗(yàn)。采用VGG19作為主干,在實(shí)驗(yàn)a中,保留主干和ECA共同作為Baseline網(wǎng)絡(luò),然后通過求和操作簡(jiǎn)單融合特征。在實(shí)驗(yàn)b中,保留了Baseline和FR模塊,同樣采用求和操作融合FR細(xì)化后的特征。
為了驗(yàn)證MCCA機(jī)制的作用,實(shí)驗(yàn)c和實(shí)驗(yàn)e都去除了MCCA機(jī)制。實(shí)驗(yàn)c在實(shí)驗(yàn)b基礎(chǔ)上加入并行級(jí)聯(lián)反饋解碼器PCFD,去除了PCFD中CFFM模塊內(nèi)部的MCCA機(jī)制,并用一個(gè)卷積塊來(lái)代替。實(shí)驗(yàn)d在實(shí)驗(yàn)c的基礎(chǔ)上,把MCCA機(jī)制重新加入CFFM模塊中,以驗(yàn)證MCCA機(jī)制在跨層特征融合過程中的作用。實(shí)驗(yàn)e在實(shí)驗(yàn)d的基礎(chǔ)上將GCM與PCFD進(jìn)行級(jí)聯(lián),加入的GCM內(nèi)部也去除了MCCA機(jī)制。實(shí)驗(yàn)f在實(shí)驗(yàn)e的基礎(chǔ)上,再次把MCCA機(jī)制加入到GCM模塊內(nèi)部,驗(yàn)證MCCA對(duì)GCM模塊的有效性。實(shí)驗(yàn)g加入損失函數(shù)是本文網(wǎng)絡(luò)的完整模型,與圖1的結(jié)構(gòu)一致。
定量結(jié)果和視覺對(duì)比結(jié)果分別如表2和圖7所示。結(jié)果表明,當(dāng)使用FR機(jī)制(實(shí)驗(yàn)b)時(shí),特征圖被有效細(xì)化和增強(qiáng),加入PCFD (實(shí)驗(yàn)d) 時(shí)有效減少了特征之間的差異并且能有效融合特征,避免引入過多冗余信息的同時(shí)銳化了跳頻邊界;加入GCM(實(shí)驗(yàn)f)時(shí),更多豐富的上下文信息被利用,引導(dǎo)網(wǎng)絡(luò)更多地關(guān)注顯著區(qū)域,很好地抑制了背景增強(qiáng)了復(fù)雜區(qū)域的特征提取能力。

表2 不同模塊在DUT-LF和LFSD數(shù)據(jù)集的消融研究

圖7 消融實(shí)驗(yàn)視覺對(duì)比結(jié)果
表3定量結(jié)果驗(yàn)證了設(shè)計(jì)的MCCA機(jī)制的有效性,實(shí)驗(yàn)c中用卷積來(lái)代替PCFD中CFFM模塊內(nèi)部的MCCA機(jī)制,實(shí)驗(yàn)e中,直接去除了MCCA機(jī)制和雙分支的殘差結(jié)構(gòu),只用兩個(gè)分支的卷積和平均池化進(jìn)行特征處理。從圖7可以看出,實(shí)驗(yàn)c和實(shí)驗(yàn)e檢測(cè)結(jié)果要么部分缺失不完整,要么受到冗余信息的干擾,實(shí)驗(yàn)d和實(shí)驗(yàn)f加入MCCA機(jī)制后,表3可以看出,F(xiàn)β和MAE分別有了顯著提升和下降,從圖7可以看出,加入MCCA機(jī)制后不僅得到了完整的顯著圖,同時(shí)保留了相對(duì)精確的輪廓表示。實(shí)驗(yàn)g加入損失函數(shù)并融合所有模塊得出了最好的性能指標(biāo),也可以從圖6看出本文的方法得到了效果最好的顯著圖。

表3 MCCA在DUT-LF和LFSD數(shù)據(jù)集的消融研究
表4比較了幾種先進(jìn)方法的模型大小和每秒傳輸幀數(shù)(Frame Per Second, FPS),所對(duì)比方法的源代碼和預(yù)訓(xùn)練模型是公開的。本文方法達(dá)到了29幀/s的實(shí)時(shí)速度,略優(yōu)于所對(duì)比方法,模型尺寸卻不如PANet和ERNet的60 MB和93 MB,但本文方法在DUT-LF和LFSD數(shù)據(jù)集上的Sα分別達(dá)到了90.0%和85.3%,優(yōu)于PANet的89.9%和84.2%、ERNet的89.9%和83.4%。與基于RGB圖像以及RGB圖像和深度圖兩種模態(tài)的方法相比,例如S2MA和EGNet,本文在推理速度和性能方面都有所提升。與4種基于深度學(xué)習(xí)的光場(chǎng)方法相比,本文方法提高了執(zhí)行速度。總體而言,表4的結(jié)果表明,本文模型在平均計(jì)算負(fù)載水平上實(shí)現(xiàn)了優(yōu)于所對(duì)比方法的性能。

表4 本文方法和其他方法復(fù)雜度比較
針對(duì)光場(chǎng)顯著性檢測(cè)在前景與背景顏色、紋理相似或者背景雜亂的場(chǎng)景中存在檢測(cè)對(duì)象不完整以及背景難抑制的問題,本文提出了一種基于上下文感知跨層特征融合的光場(chǎng)顯著性檢測(cè)網(wǎng)絡(luò),將跨層特征融合和目標(biāo)檢測(cè)任務(wù)自然地結(jié)合起來(lái)相互促進(jìn)。提出了跨層特征融合模塊,融合主干提取的特征,解決了不同卷積層產(chǎn)生不同差異的問題,避免特征不準(zhǔn)確整合。其次,提出了全局上下文模塊,將融合特征轉(zhuǎn)化為多尺度特征以充分利用豐富的全局上下文信息,有效地從前/背景相似場(chǎng)景檢測(cè)出更完整和清晰的顯著對(duì)象。最后提出了一個(gè)由跨層特征融合模塊構(gòu)成的并行級(jí)聯(lián)反饋解碼器,代替直接組合多層特征的方式,更有效地處理多層特征。本文進(jìn)行了大量實(shí)體消融研究以驗(yàn)證每個(gè)模塊的有效性,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提出每個(gè)模塊的有效性,本文網(wǎng)絡(luò)從前/背景相似等復(fù)雜的場(chǎng)景中檢測(cè)出的顯著圖也都優(yōu)于其他先進(jìn)的方法,與現(xiàn)有的算法相比,本文的方法在顯著圖完整度方面有明顯的改善,同時(shí)也表現(xiàn)出較高的準(zhǔn)確性和泛化能力。