宋 佳,陳程立詔
(青島大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,山東青島 266071)
視頻顯著性物體檢測(cè)旨在提取人眼最感興趣的目標(biāo)區(qū)域,并在動(dòng)態(tài)場(chǎng)景中將其與背景分離[1]。視頻顯著性物體檢測(cè)作為計(jì)算機(jī)視覺(jué)的預(yù)處理步驟,被廣泛應(yīng)用于視頻質(zhì)量評(píng)估[2]、目標(biāo)跟蹤[3]、視頻壓縮[4]等領(lǐng)域。
目前,圖像顯著性物體檢測(cè)研究比較深入,但視頻顯著性物體檢測(cè)依然面臨巨大挑戰(zhàn),其原因是視頻顯著性物體檢測(cè)不僅考慮視頻中單幀圖像的空間特征,還考慮受時(shí)域上運(yùn)動(dòng)特征的影響[6]。根據(jù)人體視覺(jué)系統(tǒng)特點(diǎn),人眼對(duì)正在運(yùn)動(dòng)的物體更敏感,因此將己有的視頻單幀圖像顯著性檢測(cè)方法與視頻序列的運(yùn)動(dòng)信息相結(jié)合能夠有效提高顯著性檢測(cè)精確度。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,許多研究[7-8]已經(jīng)將卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用到視頻顯著性檢測(cè)領(lǐng)域中,而運(yùn)動(dòng)信息也作為一個(gè)重要因素被考慮在內(nèi)。研究表明,將運(yùn)動(dòng)信息嵌入網(wǎng)絡(luò)的優(yōu)勢(shì),一方面減少問(wèn)題域并屏蔽非顯著的背景區(qū)域,例如當(dāng)視頻場(chǎng)景中的背景復(fù)雜且多樣時(shí),人們僅依靠顏色信息難以識(shí)別顯著性物體,但運(yùn)動(dòng)信息可以突出顯著性物體的位置信息,另一方面提供了空間連貫性的基本提示,即具有相同位移的圖像像素屬于同一區(qū)域的概率較高[7]。
對(duì)于運(yùn)動(dòng)信息的提取,通過(guò)設(shè)計(jì)有效的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)實(shí)現(xiàn),如單流網(wǎng)絡(luò)和雙流網(wǎng)絡(luò)[6]。單流網(wǎng)絡(luò)中運(yùn)動(dòng)信息的提取依賴(lài)循環(huán)卷積[8],循環(huán)卷積一般以長(zhǎng)短期記憶(convLSTM)[9]模型為代表,通過(guò)提取長(zhǎng)期時(shí)序信息以實(shí)現(xiàn)具有強(qiáng)時(shí)空一致性的較優(yōu)檢測(cè)。然而,convLSTM 模型因過(guò)度依賴(lài)長(zhǎng)期的時(shí)序一致性,當(dāng)連續(xù)多幀出現(xiàn)誤檢時(shí),當(dāng)前幀的特征無(wú)法被相鄰幀修復(fù),導(dǎo)致其存在性能瓶頸。由于convLSTM 模型與單流網(wǎng)絡(luò)都忽略了光流圖[10]的空間信息,因此在單流網(wǎng)絡(luò)的基礎(chǔ)上增加運(yùn)動(dòng)分支的雙流網(wǎng)絡(luò)能夠有效提取光流的空間線(xiàn)索[11]。
雖然雙流網(wǎng)絡(luò)的檢測(cè)精度較高,但光流對(duì)光強(qiáng)度和局部變化敏感,當(dāng)顯著物體發(fā)生劇烈或慢速地移動(dòng)時(shí),導(dǎo)致運(yùn)動(dòng)估計(jì)準(zhǔn)確率低和檢測(cè)性能下降。針對(duì)以上問(wèn)題,本文提出基于多流網(wǎng)絡(luò)一致性的視頻顯著性檢測(cè)算法(MSNC),在雙流網(wǎng)絡(luò)的基礎(chǔ)上增加先驗(yàn)流,從而彌補(bǔ)光流信息的不足,同時(shí)通過(guò)多流一致性融合(MCP)模型優(yōu)化多流分支,采用循環(huán)訓(xùn)練策略均衡三重網(wǎng)絡(luò)的權(quán)重。
傳統(tǒng)視頻顯著性檢測(cè)算法是以低級(jí)線(xiàn)索為主導(dǎo),采用手工提取特征方式提取運(yùn)動(dòng)信息。文獻(xiàn)[13]提出一種兩級(jí)學(xué)習(xí)策略來(lái)提取長(zhǎng)期時(shí)空線(xiàn)索。文獻(xiàn)[14]設(shè)計(jì)一種簡(jiǎn)單的方法,即通過(guò)對(duì)框級(jí)物體進(jìn)行排序和選擇來(lái)識(shí)別顯著物體。文獻(xiàn)[15]提取空間和時(shí)間邊緣信息,以增強(qiáng)顯著物體定位。傳統(tǒng)視頻顯著性檢測(cè)算法是最基礎(chǔ)的檢測(cè)算法,其操作簡(jiǎn)便。由于運(yùn)動(dòng)場(chǎng)景的更新、目標(biāo)尺寸的變化以及拍攝視角的切換,使得該類(lèi)算法的檢測(cè)準(zhǔn)確率難以達(dá)到理想的要求,有待進(jìn)一步提高和完善。
為彌補(bǔ)傳統(tǒng)手工提取特征方式的不足,基于深度學(xué)習(xí)的視頻顯著性檢測(cè)算法通過(guò)數(shù)據(jù)驅(qū)動(dòng)自動(dòng)提取特征,從而實(shí)現(xiàn)較高的精確度和較優(yōu)的魯棒性。視頻顯著性檢測(cè)主流網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,按照網(wǎng)絡(luò)結(jié)構(gòu)不同,分為單流網(wǎng)絡(luò)、雙流網(wǎng)絡(luò)、3D 卷積網(wǎng)絡(luò)、三流網(wǎng)絡(luò)。

圖1 視頻顯著性檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of video saliency detection network
單流網(wǎng)絡(luò)以長(zhǎng)短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)模型為代表,其結(jié)構(gòu)如圖1(a)所示。從圖1(a)可以看出,連續(xù)幀作為輸入,首先提取靜態(tài)特征,然后利用LSTM 融合幀間信息,并間接獲取時(shí)間序列線(xiàn)索。3D 卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖1(b)所示,其同時(shí)提取時(shí)空線(xiàn)索,避免出現(xiàn)時(shí)空信息分離的情況,減少了時(shí)間消耗。文獻(xiàn)[16]設(shè)計(jì)一個(gè)端到端的3D 框架以獲取時(shí)空特征,該框架在編碼器和解碼器后增加了細(xì)化組件,主要原理是提取更深層的語(yǔ)義信息來(lái)細(xì)化時(shí)空顯著圖。文獻(xiàn)[17]提出一種基于全卷積的網(wǎng)絡(luò),采用分階段的方式進(jìn)行顯著性檢測(cè)。全卷積網(wǎng)絡(luò)首先預(yù)計(jì)算空間顯著圖,然后融合該空間顯著圖和連續(xù)幀以產(chǎn)生最終的時(shí)空顯著圖。為擴(kuò)大感知范圍,文獻(xiàn)[18]采用基于光流的映射關(guān)系將長(zhǎng)期時(shí)序信息添加到當(dāng)前視頻幀中。文獻(xiàn)[19]提出一種新的方案來(lái)感知多尺度時(shí)空信息,采用多孔空間金字塔池化[20](Atrous Spatial Pyramid Pooling,ASPP)提取多尺度空間顯著性特征,隨后將這些特征送入雙向convLSTM 網(wǎng)絡(luò)中,以獲取長(zhǎng)期和多尺度信息。文獻(xiàn)[21]提出一個(gè)注意力轉(zhuǎn)移基線(xiàn),同時(shí)開(kāi)源了針對(duì)視頻顯著性檢測(cè)問(wèn)題的大規(guī)模注意力轉(zhuǎn)移數(shù)據(jù)集。
雙流網(wǎng)絡(luò)結(jié)構(gòu)如圖1(c)所示,以MGA[7]為代表,光流和靜態(tài)圖分別作為兩個(gè)分支的輸入,之后單個(gè)分支對(duì)特征信息進(jìn)行多向融合以得到最終檢測(cè)結(jié)果。其主要原理是利用運(yùn)動(dòng)信息定位顯著物體,同時(shí)提供顏色特征的通道權(quán)重。此方法的檢測(cè)性能雖優(yōu)于許多單流結(jié)構(gòu),但其顯著結(jié)果極易受光流質(zhì)量影響。若視頻中運(yùn)動(dòng)模式出現(xiàn)快速運(yùn)動(dòng)或靜止的情況,光流信息可能會(huì)無(wú)作用甚至產(chǎn)生負(fù)面作用。針對(duì)以上問(wèn)題,本文提出多流網(wǎng)絡(luò)一致性檢測(cè)算法(MSNC),如圖1(d)所示,利用先驗(yàn)分支彌補(bǔ)低質(zhì)量的光流分支,將融合后的分支作用于空間分支,以得到最終的顯著圖。
MSNC 算法使用三重網(wǎng)絡(luò)對(duì)提取的信息進(jìn)行檢測(cè),即在雙流的基礎(chǔ)上增加先驗(yàn)流來(lái)彌補(bǔ)運(yùn)動(dòng)流的不足,同時(shí)實(shí)現(xiàn)多流的多向融合互補(bǔ),采用循環(huán)訓(xùn)練策略避免網(wǎng)絡(luò)產(chǎn)生過(guò)擬合現(xiàn)象。MSNC 算法主要分為4 個(gè)步驟:1)利用空間子網(wǎng)提取顏色信息;2)利用運(yùn)動(dòng)子網(wǎng)提取時(shí)序信息;3)利用先驗(yàn)子網(wǎng)提取先驗(yàn)特征;4)利用多流一致性融合模型多流信息,并生成最終的顯著圖。
MSNC 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。該網(wǎng)絡(luò)由空間子網(wǎng)、運(yùn)動(dòng)子網(wǎng)、先驗(yàn)子網(wǎng)以及MCP 模型組成。三重分支都采用卷積神經(jīng)網(wǎng)絡(luò)提取預(yù)選目標(biāo)區(qū)域特征,使用VGG16[22]前5 層卷積層作為編碼器,其中空間分支和運(yùn)動(dòng)分支采用相同的網(wǎng)絡(luò)結(jié)構(gòu),均由編碼器和級(jí)聯(lián)解碼器構(gòu)成,分別輸入靜態(tài)圖片和光流圖。相比三重分支和空間分支,先驗(yàn)分支僅包含VGG16[22]基礎(chǔ)網(wǎng)絡(luò)的前5 層結(jié)構(gòu)。此外,經(jīng)MCP 模型融合后的特征輸入到級(jí)聯(lián)解碼器中,進(jìn)而融合多級(jí)特征以生成最終的檢測(cè)圖。

圖2 MSNC 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of MSNC network
對(duì)于卷積神經(jīng)網(wǎng)絡(luò),淺層網(wǎng)絡(luò)提取邊緣和細(xì)節(jié)信息,其深層網(wǎng)絡(luò)提取語(yǔ)義和位置信息。本文使用級(jí)聯(lián)網(wǎng)絡(luò)融合多級(jí)特征,使得網(wǎng)絡(luò)更關(guān)注顯著物體,通過(guò)引入注意力機(jī)制來(lái)增大位置權(quán)重??臻g子網(wǎng)的結(jié)構(gòu)如圖3 所示。本文采用級(jí)聯(lián)方式融合多層信息,以降低前2 層卷積的利用率來(lái)加快運(yùn)行速度,以VGG16 作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行特征提取,該過(guò)程分別使用殘差空洞卷積池化金字塔(ResASPP)在Conv3、Conv4、Conv5 這3 個(gè)卷積層上提取多尺度特征。ResASPP 模型由ASPP[20]和一個(gè)殘差連 接[23]構(gòu) 成。ASPP 由4 個(gè)平行的分支組成,首先將特征通過(guò)1×1卷積降維到通道數(shù)C為32,對(duì)于每個(gè)分支都使用空洞卷積,膨脹率分別是1、3、5、7,然后分別用3×3 卷積統(tǒng)一到相同的通道數(shù)并進(jìn)行疊加操作,最后通過(guò)殘差連接得到新的特征信息。

圖3 空間子網(wǎng)結(jié)構(gòu)Fig.3 Structure of spatial subnet
新生成的多尺度特征以UNet[24]的形式進(jìn)行融合,融合方式如式(1)~式(3)所示:

其中:Fi表示第i層卷積特 征;Conv(·)為卷積操 作;Cat(·)為特征在 通道維度的疊 加;Up(·)為上采樣 操作;×為逐元素相乘。首先將第5 層卷積特征Conv5進(jìn)行上采樣操作,然后與第4 層特征Conv4 相乘得到F1特征,F(xiàn)1繼續(xù)上采樣與第3 層卷積Conv3 相乘得到F2特征,最后將融合后的特征在通道維度上進(jìn)行疊加,得到融合后特征F3,再經(jīng)過(guò)1×1 卷積降維,獲得最終的顯著圖。
目前,提取運(yùn)動(dòng)信息的通用技術(shù)主要以光流為代表,利用時(shí)域中像素的位移以及相鄰幀之間的相關(guān)性建立前一幀和當(dāng)前幀之間的關(guān)系。計(jì)算光流最先 進(jìn)的方法包括SPyNet[25]、PWCNet[10],這些光流估計(jì)方法在檢測(cè)精度和速度方面都具有較優(yōu)的性能。
深度學(xué)習(xí)需要大量相關(guān)數(shù)據(jù)進(jìn)行訓(xùn)練,但光流圖缺少相應(yīng)的像素級(jí)人工標(biāo)注,在訓(xùn)練數(shù)據(jù)較少的條件下難以得到高質(zhì)量的運(yùn)動(dòng)顯著圖[26]。為此,本文利用顏色真值圖作為訓(xùn)練標(biāo)簽對(duì)靜態(tài)圖像模型進(jìn)行微調(diào),能夠有效解決在小樣本訓(xùn)練過(guò)程中的過(guò)擬合問(wèn)題,首先,在光流網(wǎng)絡(luò)中輸入相鄰視頻幀,經(jīng)過(guò)光流網(wǎng)絡(luò)PWCNet[10]獲得稠密的光流圖;其次,對(duì)于每個(gè)光流數(shù)據(jù),使用文獻(xiàn)中的編碼方式將2 通道的光流數(shù)轉(zhuǎn)換為3 通道RGB 圖像,之后將生成的3 通道光流圖輸入到運(yùn)動(dòng)子網(wǎng)中,以產(chǎn)生最終的運(yùn)動(dòng)顯著圖。為提高網(wǎng)絡(luò)的泛化能力,本文在空間子網(wǎng)預(yù)訓(xùn)練模型的基礎(chǔ)上,利用Davis 數(shù)據(jù)集2 000 幀來(lái)微調(diào)該模型,且將學(xué)習(xí)率設(shè)置為10-5,并使用二值交叉熵?fù)p失指導(dǎo)訓(xùn)練。
先驗(yàn)網(wǎng)絡(luò)由VGG16 前5 層網(wǎng)絡(luò)構(gòu)成,3 通道先驗(yàn)疊加作為網(wǎng)絡(luò)輸入。先驗(yàn)圖的構(gòu)成相對(duì)簡(jiǎn)單,因此,使用較淺層的網(wǎng)絡(luò)就可以提取先驗(yàn)特征。在訓(xùn)練過(guò)程中,為保持訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的一致性,輸入網(wǎng)絡(luò)的先驗(yàn)圖不能直接用標(biāo)簽替代,而使用腐蝕后的標(biāo)簽。
為獲取三重網(wǎng)絡(luò)的最優(yōu)組合,本文提出MCP 模型,該模型通過(guò)融合三分支權(quán)重,使得三重網(wǎng)絡(luò)具有一致性,MGA[7]和MCP 結(jié)構(gòu)如圖4 所示。其中:Fa、Fm、Fp分別為空間、運(yùn)動(dòng)及先驗(yàn)特征。

圖4 MGA 與MCP 模型結(jié)構(gòu)對(duì)比Fig.4 Structure comparison of MGA and MCP models
MGA 模型以空間特征Fa和運(yùn)動(dòng)特征Fm作為輸入,F(xiàn)m經(jīng)1×1 卷積和Sigmoid 激活得到空間權(quán)重圖,之后與Fa相乘得到Fa1。Fa1經(jīng)過(guò)GAP 操作將新的特征降維后使用1×1 卷積及Softmax 函數(shù)得到通道權(quán)重,此權(quán)重作用于Fa1得到融合后的特征。MCP 模型首先對(duì)運(yùn)動(dòng)特征Fm進(jìn)行GAP 操作,將其展成一個(gè)一維特征,然后經(jīng)過(guò)2 層全連接操作更新通道權(quán)重,之后對(duì)更新過(guò)的權(quán)重進(jìn)行Softmax 操作,使特征權(quán)重的值歸一化為0~1,生成新的特征向量并作為權(quán)重,將其與先驗(yàn)特征相乘,從而保留運(yùn)動(dòng)特征與先驗(yàn)特征的一致性,并與原先的先驗(yàn)特征進(jìn)行殘差連接,進(jìn)而將Fpm作為新的注意力權(quán)重與空間特征相融合。該融合過(guò)程首先使用1×1 卷積大小將C×W×H的Fpm特征降維到W×H的權(quán)重圖,并增加Sigmoid 激活操作,并與空間特征Fa相乘產(chǎn)生新的特征Fa1,最終對(duì)Fa1進(jìn)行GAP 操作降維成高維向量g1,經(jīng)過(guò)多層感知機(jī)(Multilayer Perceptron,MLP)操作得到更新后的向量g3,MLP 比MGA 中的卷積操作更復(fù)雜,使網(wǎng)絡(luò)更易保留有用信息。g3經(jīng)Softmax 操作后作為Fa1的通道注意力權(quán)重,該權(quán)重向量與之前的特征Fa1相乘再加上最初的特征Fa以得到最終的輸出特征。MLP操作過(guò)程如式(4)所示:

其中:g1為更新前高維向量;g3為更新后高維向量;為第i次全連接操作;σ為Relu 激活函數(shù)。
三重網(wǎng)絡(luò)中先驗(yàn)分支的輸入作為三通道疊加的先驗(yàn)圖,通過(guò)傳統(tǒng)方法和深度學(xué)習(xí)算法生成先驗(yàn)圖,其中傳統(tǒng)方法[27-28]通過(guò)RGB 圖的顏色對(duì)比生成粗略的顯著圖,深度學(xué)習(xí)算法是采用當(dāng)前主流的深度學(xué)習(xí)檢測(cè)模型的預(yù)測(cè)顯著圖作為先驗(yàn)圖。這兩種方法都屬于外部干預(yù),且得到的先驗(yàn)圖受限于模型本身,很難找到先驗(yàn)圖存在的共性,并對(duì)網(wǎng)絡(luò)的訓(xùn)練造成干擾。因此,本文使用網(wǎng)絡(luò)訓(xùn)練過(guò)程中生成的上一幀顯著圖作為當(dāng)前幀先驗(yàn)圖的輸入,在訓(xùn)練過(guò)程中,將經(jīng)過(guò)腐蝕處理的真值標(biāo)簽作為網(wǎng)絡(luò)的輸入,降低先驗(yàn)圖在網(wǎng)絡(luò)訓(xùn)練過(guò)程中的權(quán)重。網(wǎng)絡(luò)的輸入以每批大小為一個(gè)輪次,每次循環(huán)的第一幀使用腐蝕后的真值圖,之后每次輸入網(wǎng)絡(luò)的先驗(yàn)圖為上一幀所產(chǎn)生的顯著圖。以上訓(xùn)練策略生成的先驗(yàn)?zāi)J蕉鄻?,可以避免網(wǎng)絡(luò)出現(xiàn)過(guò)擬合現(xiàn)象。在測(cè)試過(guò)程中,先驗(yàn)分支首次輸入高質(zhì)量關(guān)鍵幀先驗(yàn)圖,本文使用顏色顯著圖和運(yùn)動(dòng)顯著圖的一致性度量來(lái)選取關(guān)鍵幀,其中一致性度量使用S-Measure[29]進(jìn)行計(jì)算。通常S-Measure 值越大,說(shuō)明顏色和運(yùn)動(dòng)顯著圖的一致性越高,其主要原因是低質(zhì)量運(yùn)動(dòng)顯著圖和顏色顯著圖完全一致的概率通常較低。因此,按上述方法確定關(guān)鍵幀所對(duì)應(yīng)的顏色顯著圖(先驗(yàn)圖)的質(zhì)量通常較高。對(duì)于非關(guān)鍵幀,本文將上一幀或者下一幀的最終顯著圖作為當(dāng)前幀的先驗(yàn)圖輸入,假設(shè)關(guān)鍵幀先驗(yàn)圖是第i幀,那么第i幀先驗(yàn)圖作為第i+1 幀的先驗(yàn)輸入,得到第i+1 的最終顯著圖,第i+1 幀最終顯著圖又可以作為第i+2 幀的先驗(yàn)輸入,后續(xù)依次傳遞。
為準(zhǔn)確地評(píng)估模型的精度及魯棒性,本文使用通用評(píng)價(jià)指標(biāo)對(duì)顯著圖進(jìn)行定量評(píng)估,包括F值度量(maxF[30])、平均絕對(duì)誤差、結(jié)構(gòu)度量(SMeasure[29])。
3.1.1F值度量
maxF 是準(zhǔn)確率(P)和召回率(R)的綜合評(píng)估,如式(5)所示:

在顯著性工作[7]的基礎(chǔ)上增加準(zhǔn)確率的權(quán)重值,本文將β2設(shè)置為0.3,并且認(rèn)為準(zhǔn)確率比召回率更重要。
本文在計(jì)算準(zhǔn)確率和召回率時(shí),輸出的顯著圖首先需要進(jìn)行二值化,二值化閾值為0~255,大于等于閾值的像素值設(shè)為1,小于閾值的像素值設(shè)為0。本文將生成的255 張二值顯著圖與真值圖進(jìn)行比較,計(jì)算得到255 個(gè)準(zhǔn)確率和召回率。準(zhǔn)確率越高,說(shuō)明有較多的顯著區(qū)域被正確檢測(cè),并作為前景區(qū)域,召回率越高,說(shuō)明顯著區(qū)域覆蓋真值圖的前景區(qū)域越完整。
3.1.2 平均絕對(duì)誤差
平均絕對(duì)誤差能夠直觀地計(jì)算預(yù)測(cè)值和真實(shí)值之間的誤差,如式(6)所示:

其中:W和H分別為圖像的寬度和高度;S(x,y)為顯著性預(yù)測(cè)圖在像素點(diǎn)處的預(yù)測(cè)值;G(x,y)為像素點(diǎn)的真實(shí)值。
3.1.3 結(jié)構(gòu)度量
結(jié)構(gòu)度量被定義為評(píng)估非二進(jìn)制前景圖的結(jié)構(gòu)相似性,用于評(píng)估基于區(qū)域和基于對(duì)象的誤差,如式(7)所示:

其中:Sr為區(qū)域感知的結(jié)構(gòu)相似性,將顯著性圖分為許多塊,以評(píng)估物體部分的結(jié)構(gòu)相似性;So為對(duì)象級(jí)別的結(jié)構(gòu)相似性,用于評(píng)估考慮全局的相似性;×表示像素間的乘法操作;α通常設(shè)置為0.5。
在深度學(xué)習(xí)中,視頻顯著性檢測(cè)通常需要較多的數(shù)據(jù)集以驗(yàn)證實(shí)驗(yàn)的有效性,研究人員對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,評(píng)估顯著性算法的性能。目前常用的數(shù)據(jù)集主要有以下5 類(lèi)。
Davis 數(shù)據(jù)集[32]是視頻任務(wù)中通用的數(shù)據(jù)集,包含3 455 幀數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)集包含2 076 幀,測(cè)試數(shù)據(jù)集包含1 379 幀,每段視頻都能夠提供稠密的人工標(biāo)記的標(biāo)簽。
Segtrack-v2 數(shù)據(jù)集[33]包含豐富的運(yùn)動(dòng)模式,如快速運(yùn)動(dòng)、劇烈形變等,其中顯著物體偏小,當(dāng)背景發(fā)生輕微運(yùn)動(dòng)時(shí),使得檢測(cè)變得更困難。
Visal 數(shù)據(jù)集[34]只 有17 段視頻(193 幀),每 隔5 幀給出像素級(jí)人工標(biāo)記,運(yùn)動(dòng)模式較單一,一般以慢速運(yùn)動(dòng)為主。
Davsod 數(shù)據(jù)集[21]不僅是最新提出的大型視頻顯著性物體檢測(cè)數(shù)據(jù)集,而且是第一個(gè)與人眼注意力相關(guān)的數(shù)據(jù)集。根據(jù)檢測(cè)難度不同,該數(shù)據(jù)集分為簡(jiǎn)單、正常和困難3 個(gè)級(jí)別,共有2.4×104的數(shù)據(jù),同時(shí)提供相關(guān)的眼動(dòng)注視點(diǎn)及實(shí)例級(jí)標(biāo)注。
Vos 數(shù)據(jù)集[35]共有7 464 幀視頻數(shù)據(jù),包含較多的室內(nèi)場(chǎng)景,且多數(shù)為靜止及相機(jī)晃動(dòng)的情況。
本文所有訓(xùn)練過(guò)程的損失函數(shù)都使用二值交叉熵?fù)p失,其具體實(shí)現(xiàn)如式(8)所示:

其中:gi為真值圖第i個(gè)像素值;pi為預(yù)測(cè)圖第i個(gè)像素值;×為逐元素乘法;ln()為對(duì)數(shù)函數(shù)。
本文所有實(shí)驗(yàn)使用Pytorch 深度學(xué)習(xí)框架,在RTX2080Ti 工作站上進(jìn)行訓(xùn)練。此外,為減少時(shí)間消耗,網(wǎng)絡(luò)所有的輸入都下采樣到352×352,BatchSize 設(shè)置為5,參數(shù)學(xué)習(xí)率為10-5,使用Adam[36]優(yōu)化器,訓(xùn)練迭代次數(shù)設(shè)置為20。本文采用多階段訓(xùn)練策略對(duì)多流網(wǎng)絡(luò)中的空間和運(yùn)動(dòng)分支進(jìn)行預(yù)先訓(xùn)練,進(jìn)而再微調(diào)多流網(wǎng)絡(luò)。除使用Duts10000的圖片顯著性數(shù)據(jù)集以外,所有的分支和融合模型僅使用Davis 訓(xùn)練集中2×103張圖片來(lái)進(jìn)行訓(xùn)練。
4.1.1 多流融合的有效性
為驗(yàn)證本文算法的有效性,在不同數(shù)據(jù)集上不同融合分支的評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比,如表1 所示,加粗表示最優(yōu)數(shù)據(jù)。其中運(yùn)動(dòng)分支以光流圖作為輸入,使用Davis 2000 數(shù)據(jù)量在空間子網(wǎng)預(yù)訓(xùn)練模型上進(jìn)行微調(diào),外觀分支表示外觀子網(wǎng)原始結(jié)果,雙流分支是按照MGA 的融合方式進(jìn)行復(fù)現(xiàn),多流分支是本文方法(MSNC)。雙流分支的評(píng)價(jià)指標(biāo)均優(yōu)于運(yùn)動(dòng)分支,其原因是雙流分支中的光流圖缺少節(jié)信息以及存在運(yùn)動(dòng)靜止的情況。此外,在運(yùn)動(dòng)比較復(fù)雜的Davsod 和Segtrack-v2 數(shù)據(jù)集上,多流分支相較于雙流分支評(píng)價(jià)指標(biāo)較高。

表1 不同融合分支的評(píng)價(jià)指標(biāo)對(duì)比Table 1 Evaluation indexs comparison among different fusion branches
不同的消融分析結(jié)果如圖5 所示。當(dāng)視頻中運(yùn)動(dòng)顯著性處于靜止時(shí)(如第2 行和第3 行),光流圖未能表征運(yùn)動(dòng)線(xiàn)索,提供了錯(cuò)誤的位置信息,從而影響雙流網(wǎng)絡(luò)的最終結(jié)果,如圖5(f)所示。本文算法通過(guò)兩流彌補(bǔ)光流的不足,能夠有效解決上述問(wèn)題。

圖5 多流融合網(wǎng)絡(luò)消融結(jié)果Fig.5 Ablation results of muti-stream fusion network
4.1.2 多種融合方式對(duì)比
不同融合方式的評(píng)價(jià)指標(biāo)對(duì)比如表2 所示,加粗表示最優(yōu)數(shù)據(jù)。從表2 可以看出,在Davis、Segtrack-v2 和Davsod 數(shù)據(jù)集上多流融合方式的MMAE相較于乘法融合和加法融合較低。在Visal和VOS 數(shù)據(jù)集上,多流融合方式的評(píng)價(jià)指標(biāo)均較高,能夠充分驗(yàn)證多流融合中MCP 融合的有效性。

表2 不同融合方式的評(píng)價(jià)指標(biāo)對(duì)比Table 2 Evaluation indexs comparison among different fusion methods
4.1.3 訓(xùn)練策略的指標(biāo)對(duì)比
本文以隨機(jī)訓(xùn)練和循環(huán)訓(xùn)練作為自變量進(jìn)行實(shí)驗(yàn)對(duì)比。不同訓(xùn)練策略的性能指標(biāo)對(duì)比如表3所示,加粗表示最優(yōu)數(shù)據(jù)。t=0 表示不使用循環(huán)訓(xùn)練策略,并且先驗(yàn)圖全部使用經(jīng)腐蝕得到的真值標(biāo)簽。t=4 表示BatchSize=4,即4 張先驗(yàn)圖為一個(gè)循環(huán),每個(gè)循環(huán)僅使用一個(gè)經(jīng)腐蝕處理過(guò)的手工標(biāo)注,之后依次向下傳遞。從表3 可以看出,當(dāng)BatchSize(t)=5 時(shí),MSNC在不同數(shù) 據(jù)集上的性能指標(biāo)均較優(yōu)。

表3 不同訓(xùn)練策略的評(píng)價(jià)指標(biāo)對(duì)比Table 3 Evaluation indexs comparison among different training strategies
本文主要從指標(biāo)得分、視覺(jué)顯著圖和運(yùn)行速度3 個(gè)方面對(duì)本文算法與其他算法進(jìn)行了比較。
1)定量分析
為驗(yàn)證本文算法的有效性,本文以maxF、S-meature和MMAE作為評(píng)價(jià)指標(biāo),與當(dāng)前主流算法進(jìn)行比較,包括PCSA[37]、LSTI[38]、MGA、SSAV[21]、CPD[39]、PDBM[19]、MBNM[40]。在不同數(shù)據(jù)集上不同算法的性能指標(biāo)對(duì)比如表4所示,加粗表示最優(yōu)數(shù)據(jù),本文算法在Davis數(shù)據(jù)集上的性能指標(biāo)較優(yōu),對(duì)比MGA算法,MSNC在VOS數(shù)據(jù)集上maxF指標(biāo)上提升了1個(gè)百分點(diǎn),與PCSA[37]相比,MSNC未使用Davis的訓(xùn)練集卻得到了較高的檢測(cè)精度。

表4 不同算法的評(píng)價(jià)指標(biāo)對(duì)比Table 4 Evaluation indexs comparison among different algorithms
2)結(jié)果可視化分析
在不同的視頻場(chǎng)景中,不同算法的顯著性檢測(cè)結(jié)果對(duì)比如圖6 所示。本文所提算法在不同運(yùn)動(dòng)模式下都能取得較好的檢測(cè)結(jié)果。當(dāng)物體運(yùn)動(dòng)緩慢時(shí),如第3 段視頻,MSNC 算法能夠得到較完整的顯著圖,而其他算法在車(chē)身位置易發(fā)生空洞檢測(cè),如第1、2 段視頻。與其他算法相比,本文算法提取的顯著性圖中背景區(qū)域包含的噪聲較少,顯著物體更凸顯,表明在背景復(fù)雜以及低對(duì)比度的場(chǎng)景中三重網(wǎng)絡(luò)定位更準(zhǔn)確。此外,針對(duì)遮擋問(wèn)題(如第4 段視頻),MSNC 算法提取的顯著性圖與真值圖具有較高的一致性,并未存在假陽(yáng)性的問(wèn)題。

圖6 不同算法的顯著性檢測(cè)結(jié)果對(duì)比Fig.6 Saliency detection results comparison among different algorithms
3)效率對(duì)比
不同算法的運(yùn)行速度對(duì)比如表5所示。相比當(dāng)前主流算法,本文算法更高效,其運(yùn)行速度達(dá)到21.00 frame/s。其中,F(xiàn)PS表示模型運(yùn)行速度,即每秒測(cè)試的幀數(shù)。MSNC算法運(yùn)行速度為21.00 frame/s。Ours+表示本文的雙流網(wǎng)絡(luò),運(yùn)行速度為24.00 frame/s,因此,先驗(yàn)分支會(huì)增加網(wǎng)絡(luò)的耗時(shí),但僅是每秒3幀的差距。即使先驗(yàn)分支增加了耗時(shí),其運(yùn)行速度依然比當(dāng)前主流算法快。從表5可以看出,MSNC算法的運(yùn)行速度是LSTI算法的30倍。由于LSTI算法使用超像素分割方法,因此增加了總體時(shí)間消耗。同時(shí)MSNC算法的運(yùn)行速度也是MGA算法的1.5倍,因?yàn)楸疚牡木W(wǎng)絡(luò)結(jié)構(gòu)比MGA 更加簡(jiǎn)單。

表5 不同算法的運(yùn)行速度對(duì)比Table 5 Comparison of running speed of different algorithms
本文提出基于多流網(wǎng)絡(luò)一致性的檢測(cè)算法,設(shè)計(jì)并使用一種新的三重網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提取預(yù)選目標(biāo)區(qū)域的顏色信息、時(shí)序信息和先驗(yàn)特征。利用多流一致性融合模型對(duì)三流分支進(jìn)行優(yōu)化,從而得到最優(yōu)的視頻顯著性檢測(cè)結(jié)果。同時(shí)使用循環(huán)訓(xùn)練策略防止網(wǎng)絡(luò)產(chǎn)生過(guò)擬合,增強(qiáng)網(wǎng)絡(luò)的泛化能力。實(shí)驗(yàn)結(jié)果表明,相比PCSA、SSAV、MGA 等算法,MSNC 算法在Davis 數(shù)據(jù)集上的性能指標(biāo)較優(yōu),具有較高的視頻顯著性檢測(cè)精度。后續(xù)將對(duì)冗余的卷積層進(jìn)行剪枝,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),在不降低精確度的前提下加快檢測(cè)速度。