基于CNN與圖像前背景分離的顯著目標(biāo)檢測

2020-07-14 01:47:41東野長磊萬文鑫

軟件導(dǎo)刊 2020年1期

東野長磊萬文鑫

摘要：為了解決計算機視覺模擬人眼的視覺機制，顯著性目標(biāo)檢測DSS（ Deeply Supervised Salient）在某個場景中人眼首先觀察到的目標(biāo)。基于卷積神經(jīng)網(wǎng)絡(luò)和圖像前背景分離算法，通過神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練得到顯著性的粗粒度圖，然后將得到的粗粒度圖通過圖像前背景分離得到顯著性的細(xì)粒度圖，即最終的顯著性目標(biāo)圖。基于卷積神經(jīng)網(wǎng)絡(luò)（ Convolutional neural network）和圖像前背景分離（image matting）方法進(jìn)行實驗，結(jié)果表明，在廣泛測試的顯著性目標(biāo)數(shù)據(jù)集上得到的測試結(jié)果F值與MAE分別是0.96和0.03，說明基于卷積神經(jīng)網(wǎng)絡(luò)和圖像前背景分離的顯著性目標(biāo)檢測方法能夠有效檢測圖像中顯著性目標(biāo)，在準(zhǔn)確率和細(xì)節(jié)方面效果很好。

關(guān)鍵詞：顯著性目標(biāo)檢測;計算機視覺;卷積神經(jīng)網(wǎng)絡(luò);圖像前背景分離

DOI： 10. 11907/rjdk.192566

開放科學(xué)（資源服務(wù)）標(biāo)識碼（OSID）：

中圖分類號：TP317.4

文獻(xiàn)標(biāo)識碼：A

文章編號：1672-7800（2020）001-0271-04

O 引言

顯著性檢測的目標(biāo)是識別圖像中視覺上最顯著的目標(biāo)或者區(qū)域，然后將它們從背景中分割出來。與語義分割等其它類分割任務(wù)不同，顯著性目標(biāo)檢測更關(guān)注的是少數(shù)有趣、有吸引力的對象，所以顯著性檢測通常作為各種計算機視覺應(yīng)用程序的第一步，例如圖像分割[1-2]、目標(biāo)識別[3-4]、弱監(jiān)督分割[5-6]、視覺跟蹤[7-8]和動作識別[9-10]等。

早期的顯著性目標(biāo)檢測方法主要受人眼視覺注意模型[11]認(rèn)知研究的啟發(fā)，其中對比度在顯著性檢測中起著重要作用。基于這一啟發(fā)，手工設(shè)計特征的顯著性計算算法取得很大進(jìn)展，這些算法主要利用圖像的全局對比度或局部對比度。然而，由于這些傳統(tǒng)算法的特性是基于先驗知識，因此它們不能在全部場景下使用。盡管嘗試不同的算法來結(jié)合這些特性，但是得到的顯著性圖仍不能讓人滿意，特別是在各種復(fù)雜場景情況下。

與使用手工特征的傳統(tǒng)方法相比，卷積神經(jīng)網(wǎng)絡(luò)成功突破了傳統(tǒng)目標(biāo)檢測局限，性能有了很大提高。

He等[12]利用層次對比特征提出了一種超像素卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。對于每個超像素尺度，使用兩個對比度序列輸入到卷積網(wǎng)絡(luò)中以構(gòu)建更高級的特征，最后學(xué)習(xí)不同的權(quán)重將多尺度顯著性圖融合在一起，得到最終的顯著性圖;Li等[13]提出利用深度卷積神經(jīng)網(wǎng)絡(luò)的多尺度特征提取顯著性圖，通過將不同層次的圖像拼接輸入到網(wǎng)絡(luò)中，聚合得到多個特征，然后使用一組全連接層判斷每個分割區(qū)域是否為顯著性目標(biāo)區(qū)域;Wang等[14]將局部估計和全局搜索相結(jié)合，預(yù)測顯著性映射。神經(jīng)網(wǎng)絡(luò)首先用于學(xué)習(xí)局部特性，為每個像素提供一個顯著值。然后將局部顯著性映射、全局對比度和幾何信息融合在一起作為輸入，輸入到另一個神經(jīng)網(wǎng)絡(luò)中，以預(yù)測每個區(qū)域的顯著性得分;Zhao等[15]提出一個用于顯著目標(biāo)檢測的神經(jīng)網(wǎng)絡(luò)框架，設(shè)計兩個不同的神經(jīng)網(wǎng)絡(luò)分別獲取全局信息和上下文信息，最后通過一個回歸量來確定最終顯著性目標(biāo);Lee等[16]考慮從神經(jīng)網(wǎng)絡(luò)中提取高級特征和低級特征，利用全連接層將不同的特征結(jié)合起來估計每個區(qū)域的顯著性;Liu等[17]設(shè)計了一個兩階段的神經(jīng)網(wǎng)絡(luò)，首先生成一個粗粒度顯著性圖，然后生成一個遞歸神經(jīng)網(wǎng)絡(luò)，分層漸進(jìn)地細(xì)化粗粒度顯著性圖的細(xì)節(jié)。

以上方法存在顯著性目標(biāo)邊界丟失、邊緣細(xì)節(jié)模糊的問題，本文通過前背景分離方法，改進(jìn)了顯著性目標(biāo)邊界不明確的問題。

1 研究基礎(chǔ)

本文主要基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性目標(biāo)檢測和圖像前背景分離方法，實現(xiàn)對顯著性目標(biāo)的檢測，改善了顯著性目標(biāo)的邊緣細(xì)節(jié)丟失，以及邊緣細(xì)節(jié)模糊的問題。

1.1 顯著性目標(biāo)檢測模型

一個好的顯著性目標(biāo)檢測網(wǎng)絡(luò)應(yīng)該足夠深，這樣才能學(xué)習(xí)到多層次特征。此外，它應(yīng)該有多個跳躍結(jié)構(gòu)，以便能夠從不同尺度學(xué)習(xí)更多的內(nèi)在特征。DSS的神經(jīng)網(wǎng)絡(luò)模型[18]使用VCGnet作為預(yù)訓(xùn)練模型，如圖1所示。在每個階段最后的卷積層添加了側(cè)輸出層（見表1）以及多個短連接結(jié)構(gòu)（見圖2）來學(xué)習(xí)不同尺度特征。表1中，（n，kxk）中的n和k分別表示通道數(shù)和卷積核大小，Layer表示側(cè)輸出連接在哪一層，1，2，3表示每個側(cè)輸出有3個層，前兩層為卷積層，最后一層為RELU層。通過融合不同尺度的特征得到最終的顯著性圖。

1.2 圖像前背景分離

圖像前背景分離[19]即從圖像中提取前景對象，求解式（1）中圖像前景F和背景B的最佳線性組合。

I= aF+（1- a）B

（1）

其中ac∈[0，1]，定義了每個像素的不透明度。將輸入的圖像分為3個不重疊的部分：①已知的前景區(qū)域;②已知的背景區(qū)域;③未知區(qū)域。首先擴展圖像的已知區(qū)域部分，檢測未知區(qū)域中的像素屬于前景區(qū)域還是背景區(qū)域，然后將剩余的未知區(qū)域中的像素匹配樣本對確定最終的a值以分離圖像的前背景。通過圖像前背景分離算法得到的前背景目標(biāo)可以很好地保留邊緣細(xì)節(jié)信息。

2 本文方法

基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性目標(biāo)檢測模型和圖像的前背景分離相結(jié)合，既可以得到圖像顯著性區(qū)域的明確位置，又可以豐富顯著性目標(biāo)的邊緣信息。

2.1 基于DSS的顯著性檢測模型改進(jìn)

DSS的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從功能上分為兩個階段：①顯著性定位階段;②細(xì)節(jié)細(xì)化階段。顯著性定位階段主要是定位圖像中最顯著的區(qū)域。對于細(xì)節(jié)細(xì)化階段，DSS引入了自頂向下的方法，即從較深的側(cè)輸出層到較淺的層之間的一系列短連接。之所以這樣考慮，是因為在較深的側(cè)輸出層幫助下，較低的側(cè)輸出層既可以準(zhǔn)確預(yù)測顯著性目標(biāo)，又可以從較深的側(cè)輸出層中豐富細(xì)節(jié)，從而得到具有邊緣豐富細(xì)節(jié)的顯著性圖。DSS網(wǎng)絡(luò)結(jié)構(gòu)中通過多個短連接將各個階段的側(cè)輸出結(jié)合起來，得到效果更好的顯著性圖，見圖3。

DSS網(wǎng)絡(luò)結(jié)構(gòu)采用了許多方法來提升最后短連接的性能。隨著短連接數(shù)量的增加，最終顯著性圖的效果得到了提升，但是最終得到的顯著性圖仍然存在邊緣細(xì)節(jié)丟失的問題。相對于使用多個短連接來學(xué)習(xí)不同層次的內(nèi)部特征以豐富最終的顯著性圖，本文只保留部分短連接以確保較深層側(cè)輸出能夠正確找到顯著性目標(biāo)位置，通過更加簡單的方法豐富顯著性圖的細(xì)節(jié)特征。本文融合各個側(cè)輸出層結(jié)果作為粗粒度顯著圖，如圖4所示。

本文將所有網(wǎng)絡(luò)的參數(shù)集合用W表示。假設(shè)該卷積神經(jīng)網(wǎng)絡(luò)共有M個邊輸出，每個邊輸出的權(quán)重表示為w：（w（1），w（2）…w（M）），邊輸出的損失和融合輸出的損失分別如式（2）、式（3）所示。

（3）雖然采樣過程考慮了局部像素之間的相似性，但是還會產(chǎn)生目標(biāo)邊界不連續(xù)的情況，因此通過高斯濾波確保邊界的平滑性。

該算法通過對顯著性目標(biāo)邊緣未知部分的像素進(jìn)行計算，排除未知區(qū)域像素，將未知區(qū)域像素明確地分為顯著性區(qū)域和非顯著性區(qū)域兩部分，細(xì)化粗粒度的顯著性圖，得到具有豐富邊緣細(xì)節(jié)的最終顯著性圖。

3 實驗結(jié)果與分析

將本文算法與傳統(tǒng)方法、基于卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行比較。使用的數(shù)據(jù)集為ECSSD、MSRA-IOK（ MSRA-B和MSRAlOK數(shù)據(jù)集有很大的重疊，所以使用較大的數(shù)據(jù)集）和PASCALS三個數(shù)據(jù)集。將數(shù)據(jù)集分為訓(xùn)練集、測試集和驗證集3部分，其比例為6：1：3，測試集中的數(shù)據(jù)和訓(xùn)練集不重合，所有用于測試的數(shù)據(jù)并沒有經(jīng)過訓(xùn)練。

3.1 實驗設(shè)置

測試實驗在Windowsl0的系統(tǒng)平臺下進(jìn)行，計算機配置為CPU， Inter Core i7-7700HQ@2.80G Hz， GPU為NVID-IA CTX 1050ti，初始學(xué)習(xí)率為0.000 1。為了客觀評價算法的有效性，本文采用兩個常用的顯著性目標(biāo)檢測指標(biāo)進(jìn)行衡量：F值（ F-measure）和平均絕對誤差（MAE），公式分別如式（5）和式（6）所示，其中在計算F值時，控制參數(shù)β2取默認(rèn)值0.3。

3.2 主觀對比

第1和第3幅圖像來自PASCALS數(shù)據(jù)集，第2和第6幅圖像來自ECSSD數(shù)據(jù)集，第4和第5幅圖像來自MS-RA-10K數(shù)據(jù)集。

實驗結(jié)果如圖5所示。

通過與GroudTruth圖像對比可發(fā)現(xiàn)，本文所提算法在邊緣提取細(xì)節(jié)上優(yōu)于傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。

分別用兩項測試指標(biāo)繪制直線圖以更直觀地感受不同算法的性能指標(biāo)。從不同數(shù)據(jù)集中隨機選取圖像進(jìn)行比較，見圖6、圖7。從結(jié)果可以看出，本文算法相對于其它算法結(jié)果更好，性能更優(yōu)。

4 結(jié)語

本文提出的基于CNN和圖像前后背景分離的顯著性目標(biāo)檢測方法，通過卷積神經(jīng)網(wǎng)絡(luò)定位圖像中顯著性目標(biāo)區(qū)域，得到粗粒度的顯著性圖，采用圖像前背景分離算法對粗粒度顯著性圖進(jìn)行邊緣細(xì)化，相比于通過增加神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)細(xì)化顯著性圖，既減少了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度，又得到了性能更加優(yōu)異的顯著性圖。但在對粗粒度顯著性圖的邊緣細(xì)化階段還存在邊緣細(xì)節(jié)丟失情況，今后將繼續(xù)優(yōu)化顯著性目標(biāo)的邊緣細(xì)化效果。

參考文獻(xiàn)：

[1]侯春萍，楊陽，徐金辰，等.一種基于圖像分割的自然場景文本位置檢測方法：CN110059539A[P].2019-02-27.

[2] 鄺輝宇，吳俊君.基于深度學(xué)習(xí)的圖像語義分割技術(shù)研究綜述[J].計算機工程與應(yīng)用，2019，55（19）：12-21，42.

[3] 于坤林基于計算機視覺的無人機目標(biāo)識別技術(shù)研究[J].長沙航空職業(yè)技術(shù)學(xué)院學(xué)報，2018，18（ 4）：47-50.

[4]劉硯菊，李云功，宋建輝，等，基于邊界標(biāo)記的形狀上下文目標(biāo)識別算法[J].沈陽理工大學(xué)學(xué)報，2018.37（6）：49-55.

[5]WEI Y， LIANC X， CHEN Y， et al. STC：a simple to complex frame-work for weakly-supervised semantic segmentation[J].IEEE transac-tions on pattern analvsis and machine intelligence， 2016， 39（ 11）：2314-2320.

[6] 熊昌鎮(zhèn)，智慧.多模型集成的弱監(jiān)督語義分割算法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報，2019， 31（5）：800-807.

[7]王天琪，賀乃寶，高倩，等.一種用于跟蹤不連續(xù)運動目標(biāo)的視覺伺服方案[J].人工智能與機器人研究，2019.8（3）：118-125.

[8] 陳思萌，鄧雨.基于粒子濾波的視覺目標(biāo)跟蹤算法[J].計算機科學(xué)與應(yīng)用，2018. 8（5）：619-626.

[9]ABDULMUNEM A， LAI Y-K， SUN X.Saliency guided local and glob-al descriptors for effective action recognition[J]. Computational Visu-al Media. 2016.2（1）：97-106.

[10] 張輝.高強度運動下的人體動作圖像識別方法研究[J].計算機仿真，2019. 36（9）：469-472.

[11]ITTI L，KOCH C.Computational modelling of visual attention [J].Nature reviews neuroscience， 2001.2（3）：194-220.

[12] HE S，LAU R W， LIU W， et al. Supercnn：a superpixelwise convo-lutional neural network for salient object detection [J]. Internationaljournal of computer vision， 2015，1 15（3）：330-344.

[13]11 G，YU Y.Visual saliency based on multiscale deep features[C].Proceedings of the IEEE conference on computer vision and patternrecognition， 2015： 5455-5463.

[14]WANG L，LU H. RLrAN X， et al. Deep networks for saliencv detec-tion via local estimation and global search [C]. Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition，2015：3183-3192.

[15] ZHAO R. OUYANG W，LI H，et al. Saliencv detection bv multi-con-text deep learning[C].Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition， 2015： 1265-1274

[16]LEE G，TAI Y W， KIM J.Deep saliency with encoded low level dis-tance map and high level features[C].Proceedings of the IEEE Con-ference on Computer Vision and Pattern Recognition， 2016： 660-668.

[17]LIU N， HAN J.Dhsnet： deep hierarchical saliencv network for sa-lient object detection [C]. Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition， 2016： 678-686.

[18]HOU Q，CHENGMM，HU X， et al. Deeply supervised salient objectdetection with short connections[C].Proceedings of the IEEE Confer-ence on Computer Vision and Pattern Recognition， 2017： 3203-3212

[19]GASTAL E S，OLIVEIRA M M. Shared sampling for real-time alphamatting[C].Computer Graphics Forum， 2010： 575-584.

[20]WANC J， JIANC H， YUAN Z，et al. Salient object detection：a dis-criminative regional feature integration approach [J]. InternationalJournal of Computer Vision. 2017. 123（2）：251-268.

[21]11 X， ZHAO L， WEI L，et al. Deepsaliencv： multi-task deep neu-ral network model for salient object detection [J]. IEEE Transactionson Image Processing， 2016， 25（8）：3919-3930

[22]LIU N，HAN J，YANC M H. Picanet： learning pixel-wise contextualattention for saliency detection[C].Proceedings of the IEEE Confer-ence on Computer Vision and Pattern Recognition， 201 8： 3089-3098

（責(zé)任編輯：杜能鋼）

作者簡介：東野長磊（1979-），男，博士，山東科技大學(xué)計算機學(xué)院講師、碩士生導(dǎo)師，研究方向為醫(yī)學(xué)圖像分割;萬文鑫（1995-），男，山東科技大學(xué)計算機科學(xué)與工程學(xué)院碩士研究生，研究方向為圖像顯著性檢測。本文通訊作者：東野長磊。

軟件導(dǎo)刊2020年1期

軟件導(dǎo)刊的其它文章: 基于Stacking模型融合策略的腦力負(fù)荷等級評定方法; 一種自動確定密度峰值的聚類算法改進(jìn); 混部負(fù)載場景下離線負(fù)載資源調(diào)度策略研究; 基于社交網(wǎng)絡(luò)的推薦系統(tǒng)研究; 一種基于詞聚類信息熵的新聞提取方法; 基于MATLAB的車牌識別系統(tǒng)研究