東野長磊 萬文鑫



摘 要:為了解決計算機視覺模擬人眼的視覺機制,顯著性目標(biāo)檢測DSS( Deeply Supervised Salient)在某個場景中人眼首先觀察到的目標(biāo)。基于卷積神經(jīng)網(wǎng)絡(luò)和圖像前背景分離算法,通過神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練得到顯著性的粗粒度圖,然后將得到的粗粒度圖通過圖像前背景分離得到顯著性的細(xì)粒度圖,即最終的顯著性目標(biāo)圖。基于卷積神經(jīng)網(wǎng)絡(luò)( Convolutional neural network)和圖像前背景分離(image matting)方法進(jìn)行實驗,結(jié)果表明,在廣泛測試的顯著性目標(biāo)數(shù)據(jù)集上得到的測試結(jié)果F值與MAE分別是0.96和0.03,說明基于卷積神經(jīng)網(wǎng)絡(luò)和圖像前背景分離的顯著性目標(biāo)檢測方法能夠有效檢測圖像中顯著性目標(biāo),在準(zhǔn)確率和細(xì)節(jié)方面效果很好。
關(guān)鍵詞:顯著性目標(biāo)檢測;計算機視覺;卷積神經(jīng)網(wǎng)絡(luò);圖像前背景分離
DOI: 10. 11907/rjdk.192566
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP317.4
文獻(xiàn)標(biāo)識碼:A
文章編號:1672-7800(2020)001-0271-04
O 引言
顯著性檢測的目標(biāo)是識別圖像中視覺上最顯著的目標(biāo)或者區(qū)域,然后將它們從背景中分割出來。與語義分割等其它類分割任務(wù)不同,顯著性目標(biāo)檢測更關(guān)注的是少數(shù)有趣、有吸引力的對象,所以顯著性檢測通常作為各種計算機視覺應(yīng)用程序的第一步,例如圖像分割[1-2]、目標(biāo)識別[3-4]、弱監(jiān)督分割[5-6]、視覺跟蹤[7-8]和動作識別[9-10]等。
早期的顯著性目標(biāo)檢測方法主要受人眼視覺注意模型[11]認(rèn)知研究的啟發(fā),其中對比度在顯著性檢測中起著重要作用。基于這一啟發(fā),手工設(shè)計特征的顯著性計算算法取得很大進(jìn)展,這些算法主要利用圖像的全局對比度或局部對比度。然而,由于這些傳統(tǒng)算法的特性是基于先驗知識,因此它們不能在全部場景下使用。盡管嘗試不同的算法來結(jié)合這些特性,但是得到的顯著性圖仍不能讓人滿意,特別是在各種復(fù)雜場景情況下。
與使用手工特征的傳統(tǒng)方法相比,卷積神經(jīng)網(wǎng)絡(luò)成功突破了傳統(tǒng)目標(biāo)檢測局限,性能有了很大提高。
He等[12]利用層次對比特征提出了一種超像素卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。對于每個超像素尺度,使用兩個對比度序列輸入到卷積網(wǎng)絡(luò)中以構(gòu)建更高級的特征,最后學(xué)習(xí)不同的權(quán)重將多尺度顯著性圖融合在一起,得到最終的顯著性圖;Li等[13]提出利用深度卷積神經(jīng)網(wǎng)絡(luò)的多尺度特征提取顯著性圖,通過將不同層次的圖像拼接輸入到網(wǎng)絡(luò)中,聚合得到多個特征,然后使用一組全連接層判斷每個分割區(qū)域是否為顯著性目標(biāo)區(qū)域;Wang等[14]將局部估計和全局搜索相結(jié)合,預(yù)測顯著性映射。神經(jīng)網(wǎng)絡(luò)首先用于學(xué)習(xí)局部特性,為每個像素提供一個顯著值。然后將局部顯著性映射、全局對比度和幾何信息融合在一起作為輸入,輸入到另一個神經(jīng)網(wǎng)絡(luò)中,以預(yù)測每個區(qū)域的顯著性得分;Zhao等[15]提出一個用于顯著目標(biāo)檢測的神經(jīng)網(wǎng)絡(luò)框架,設(shè)計兩個不同的神經(jīng)網(wǎng)絡(luò)分別獲取全局信息和上下文信息,最后通過一個回歸量來確定最終顯著性目標(biāo);Lee等[16]考慮從神經(jīng)網(wǎng)絡(luò)中提取高級特征和低級特征,利用全連接層將不同的特征結(jié)合起來估計每個區(qū)域的顯著性;Liu等[17]設(shè)計了一個兩階段的神經(jīng)網(wǎng)絡(luò),首先生成一個粗粒度顯著性圖,然后生成一個遞歸神經(jīng)網(wǎng)絡(luò),分層漸進(jìn)地細(xì)化粗粒度顯著性圖的細(xì)節(jié)。
以上方法存在顯著性目標(biāo)邊界丟失、邊緣細(xì)節(jié)模糊的問題,本文通過前背景分離方法,改進(jìn)了顯著性目標(biāo)邊界不明確的問題。
1 研究基礎(chǔ)
本文主要基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性目標(biāo)檢測和圖像前背景分離方法,實現(xiàn)對顯著性目標(biāo)的檢測,改善了顯著性目標(biāo)的邊緣細(xì)節(jié)丟失,以及邊緣細(xì)節(jié)模糊的問題。
1.1 顯著性目標(biāo)檢測模型
一個好的顯著性目標(biāo)檢測網(wǎng)絡(luò)應(yīng)該足夠深,這樣才能學(xué)習(xí)到多層次特征。此外,它應(yīng)該有多個跳躍結(jié)構(gòu),以便能夠從不同尺度學(xué)習(xí)更多的內(nèi)在特征。DSS的神經(jīng)網(wǎng)絡(luò)模型[18]使用VCGnet作為預(yù)訓(xùn)練模型,如圖1所示。在每個階段最后的卷積層添加了側(cè)輸出層(見表1)以及多個短連接結(jié)構(gòu)(見圖2)來學(xué)習(xí)不同尺度特征。表1中,(n,kxk)中的n和k分別表示通道數(shù)和卷積核大小,Layer表示側(cè)輸出連接在哪一層,1,2,3表示每個側(cè)輸出有3個層,前兩層為卷積層,最后一層為RELU層。通過融合不同尺度的特征得到最終的顯著性圖。
1.2 圖像前背景分離
圖像前背景分離[19]即從圖像中提取前景對象,求解式(1)中圖像前景F和背景B的最佳線性組合。
I= aF+(1- a)B
(1)
其中ac∈[0,1],定義了每個像素的不透明度。將輸入的圖像分為3個不重疊的部分:①已知的前景區(qū)域;②已知的背景區(qū)域;③未知區(qū)域。首先擴展圖像的已知區(qū)域部分,檢測未知區(qū)域中的像素屬于前景區(qū)域還是背景區(qū)域,然后將剩余的未知區(qū)域中的像素匹配樣本對確定最終的a值以分離圖像的前背景。通過圖像前背景分離算法得到的前背景目標(biāo)可以很好地保留邊緣細(xì)節(jié)信息。
2 本文方法
基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性目標(biāo)檢測模型和圖像的前背景分離相結(jié)合,既可以得到圖像顯著性區(qū)域的明確位置,又可以豐富顯著性目標(biāo)的邊緣信息。
2.1 基于DSS的顯著性檢測模型改進(jìn)
DSS的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從功能上分為兩個階段:①顯著性定位階段;②細(xì)節(jié)細(xì)化階段。顯著性定位階段主要是定位圖像中最顯著的區(qū)域。對于細(xì)節(jié)細(xì)化階段,DSS引入了自頂向下的方法,即從較深的側(cè)輸出層到較淺的層之間的一系列短連接。之所以這樣考慮,是因為在較深的側(cè)輸出層幫助下,較低的側(cè)輸出層既可以準(zhǔn)確預(yù)測顯著性目標(biāo),又可以從較深的側(cè)輸出層中豐富細(xì)節(jié),從而得到具有邊緣豐富細(xì)節(jié)的顯著性圖。DSS網(wǎng)絡(luò)結(jié)構(gòu)中通過多個短連接將各個階段的側(cè)輸出結(jié)合起來,得到效果更好的顯著性圖,見圖3。
DSS網(wǎng)絡(luò)結(jié)構(gòu)采用了許多方法來提升最后短連接的性能。隨著短連接數(shù)量的增加,最終顯著性圖的效果得到了提升,但是最終得到的顯著性圖仍然存在邊緣細(xì)節(jié)丟失的問題。相對于使用多個短連接來學(xué)習(xí)不同層次的內(nèi)部特征以豐富最終的顯著性圖,本文只保留部分短連接以確保較深層側(cè)輸出能夠正確找到顯著性目標(biāo)位置,通過更加簡單的方法豐富顯著性圖的細(xì)節(jié)特征。本文融合各個側(cè)輸出層結(jié)果作為粗粒度顯著圖,如圖4所示。
本文將所有網(wǎng)絡(luò)的參數(shù)集合用W表示。假設(shè)該卷積神經(jīng)網(wǎng)絡(luò)共有M個邊輸出,每個邊輸出的權(quán)重表示為w:(w(1),w(2)…w(M)),邊輸出的損失和融合輸出的損失分別如式(2)、式(3)所示。
(3)雖然采樣過程考慮了局部像素之間的相似性,但是還會產(chǎn)生目標(biāo)邊界不連續(xù)的情況,因此通過高斯濾波確保邊界的平滑性。
該算法通過對顯著性目標(biāo)邊緣未知部分的像素進(jìn)行計算,排除未知區(qū)域像素,將未知區(qū)域像素明確地分為顯著性區(qū)域和非顯著性區(qū)域兩部分,細(xì)化粗粒度的顯著性圖,得到具有豐富邊緣細(xì)節(jié)的最終顯著性圖。
3 實驗結(jié)果與分析
將本文算法與傳統(tǒng)方法、基于卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行比較。使用的數(shù)據(jù)集為ECSSD、MSRA-IOK( MSRA-B和MSRAlOK數(shù)據(jù)集有很大的重疊,所以使用較大的數(shù)據(jù)集)和PASCALS三個數(shù)據(jù)集。將數(shù)據(jù)集分為訓(xùn)練集、測試集和驗證集3部分,其比例為6:1:3,測試集中的數(shù)據(jù)和訓(xùn)練集不重合,所有用于測試的數(shù)據(jù)并沒有經(jīng)過訓(xùn)練。
3.1 實驗設(shè)置
測試實驗在Windowsl0的系統(tǒng)平臺下進(jìn)行,計算機配置為CPU, Inter Core i7-7700HQ@2.80G Hz, GPU為NVID-IA CTX 1050ti,初始學(xué)習(xí)率為0.000 1。為了客觀評價算法的有效性,本文采用兩個常用的顯著性目標(biāo)檢測指標(biāo)進(jìn)行衡量:F值( F-measure)和平均絕對誤差(MAE),公式分別如式(5)和式(6)所示,其中在計算F值時,控制參數(shù)β2取默認(rèn)值0.3。
3.2 主觀對比
第1和第3幅圖像來自PASCALS數(shù)據(jù)集,第2和第6幅圖像來自ECSSD數(shù)據(jù)集,第4和第5幅圖像來自MS-RA-10K數(shù)據(jù)集。
實驗結(jié)果如圖5所示。
通過與GroudTruth圖像對比可發(fā)現(xiàn),本文所提算法在邊緣提取細(xì)節(jié)上優(yōu)于傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。
分別用兩項測試指標(biāo)繪制直線圖以更直觀地感受不同算法的性能指標(biāo)。從不同數(shù)據(jù)集中隨機選取圖像進(jìn)行比較,見圖6、圖7。從結(jié)果可以看出,本文算法相對于其它算法結(jié)果更好,性能更優(yōu)。
4 結(jié)語
本文提出的基于CNN和圖像前后背景分離的顯著性目標(biāo)檢測方法,通過卷積神經(jīng)網(wǎng)絡(luò)定位圖像中顯著性目標(biāo)區(qū)域,得到粗粒度的顯著性圖,采用圖像前背景分離算法對粗粒度顯著性圖進(jìn)行邊緣細(xì)化,相比于通過增加神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)細(xì)化顯著性圖,既減少了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,又得到了性能更加優(yōu)異的顯著性圖。但在對粗粒度顯著性圖的邊緣細(xì)化階段還存在邊緣細(xì)節(jié)丟失情況,今后將繼續(xù)優(yōu)化顯著性目標(biāo)的邊緣細(xì)化效果。
參考文獻(xiàn):
[1]侯春萍,楊陽,徐金辰,等.一種基于圖像分割的自然場景文本位置檢測方法:CN110059539A[P].2019-02-27.
[2] 鄺輝宇,吳俊君.基于深度學(xué)習(xí)的圖像語義分割技術(shù)研究綜述[J].計算機工程與應(yīng)用,2019,55(19):12-21,42.
[3] 于坤林基于計算機視覺的無人機目標(biāo)識別技術(shù)研究[J].長沙航空職業(yè)技術(shù)學(xué)院學(xué)報,2018,18( 4):47-50.
[4]劉硯菊,李云功,宋建輝,等,基于邊界標(biāo)記的形狀上下文目標(biāo)識別算法[J].沈陽理工大學(xué)學(xué)報,2018.37(6):49-55.
[5]WEI Y, LIANC X, CHEN Y, et al. STC:a simple to complex frame-work for weakly-supervised semantic segmentation[J].IEEE transac-tions on pattern analvsis and machine intelligence, 2016, 39( 11):2314-2320.
[6] 熊昌鎮(zhèn),智慧.多模型集成的弱監(jiān)督語義分割算法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2019, 31(5):800-807.
[7]王天琪,賀乃寶,高倩,等.一種用于跟蹤不連續(xù)運動目標(biāo)的視覺伺服方案[J].人工智能與機器人研究,2019.8(3):118-125.
[8] 陳思萌,鄧雨.基于粒子濾波的視覺目標(biāo)跟蹤算法[J].計算機科學(xué)與應(yīng)用,2018. 8(5):619-626.
[9]ABDULMUNEM A, LAI Y-K, SUN X.Saliency guided local and glob-al descriptors for effective action recognition[J]. Computational Visu-al Media. 2016.2(1):97-106.
[10] 張輝.高強度運動下的人體動作圖像識別方法研究[J].計算機仿真,2019. 36(9):469-472.
[11]ITTI L,KOCH C.Computational modelling of visual attention [J].Nature reviews neuroscience, 2001.2(3):194-220.
[12] HE S,LAU R W, LIU W, et al. Supercnn:a superpixelwise convo-lutional neural network for salient object detection [J]. Internationaljournal of computer vision, 2015,1 15(3):330-344.
[13]11 G,YU Y.Visual saliency based on multiscale deep features[C].Proceedings of the IEEE conference on computer vision and patternrecognition, 2015: 5455-5463.
[14]WANG L,LU H. RLrAN X, et al. Deep networks for saliencv detec-tion via local estimation and global search [C]. Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,2015:3183-3192.
[15] ZHAO R. OUYANG W,LI H,et al. Saliencv detection bv multi-con-text deep learning[C].Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition, 2015: 1265-1274
[16]LEE G,TAI Y W, KIM J.Deep saliency with encoded low level dis-tance map and high level features[C].Proceedings of the IEEE Con-ference on Computer Vision and Pattern Recognition, 2016: 660-668.
[17]LIU N, HAN J.Dhsnet: deep hierarchical saliencv network for sa-lient object detection [C]. Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, 2016: 678-686.
[18]HOU Q,CHENGMM,HU X, et al. Deeply supervised salient objectdetection with short connections[C].Proceedings of the IEEE Confer-ence on Computer Vision and Pattern Recognition, 2017: 3203-3212
[19]GASTAL E S,OLIVEIRA M M. Shared sampling for real-time alphamatting[C].Computer Graphics Forum, 2010: 575-584.
[20]WANC J, JIANC H, YUAN Z,et al. Salient object detection:a dis-criminative regional feature integration approach [J]. InternationalJournal of Computer Vision. 2017. 123(2):251-268.
[21]11 X, ZHAO L, WEI L,et al. Deepsaliencv: multi-task deep neu-ral network model for salient object detection [J]. IEEE Transactionson Image Processing, 2016, 25(8):3919-3930
[22]LIU N,HAN J,YANC M H. Picanet: learning pixel-wise contextualattention for saliency detection[C].Proceedings of the IEEE Confer-ence on Computer Vision and Pattern Recognition, 201 8: 3089-3098
(責(zé)任編輯:杜能鋼)
作者簡介:東野長磊(1979-),男,博士,山東科技大學(xué)計算機學(xué)院講師、碩士生導(dǎo)師,研究方向為醫(yī)學(xué)圖像分割;萬文鑫(1995-),男,山東科技大學(xué)計算機科學(xué)與工程學(xué)院碩士研究生,研究方向為圖像顯著性檢測。本文通訊作者:東野長磊。