隨婷婷 王曉峰
?
一種基于CLMF的深度卷積神經(jīng)網(wǎng)絡(luò)模型
隨婷婷1王曉峰1
針對(duì)傳統(tǒng)人工特征提取模型難以滿足復(fù)雜場(chǎng)景下目標(biāo)識(shí)別的需求,提出了一種基于CLMF的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks with candidate location and multi-feature fusion,CLMF-CNN).該模型結(jié)合視覺顯著性、多特征融合和CNN模型實(shí)現(xiàn)目標(biāo)對(duì)象的識(shí)別.首先,利用加權(quán)Itti模型獲取目標(biāo)候選區(qū);然后,利用CNN模型從顏色、亮度多特征角度提取目標(biāo)對(duì)象的特征,經(jīng)過加權(quán)融合供目標(biāo)識(shí)別;最后,與單一特征以及目前的流行算法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明本文模型不僅在同等條件下正確識(shí)別率得到了提高,同時(shí),達(dá)到實(shí)時(shí)性要求.
圖像識(shí)別,深度學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò),多特征融合
引用格式隨婷婷,王曉峰.一種基于CLMF的深度卷積神經(jīng)網(wǎng)絡(luò)模型.自動(dòng)化學(xué)報(bào),2016,42(6):875-882
隨著科學(xué)技術(shù)的飛速發(fā)展,圖像識(shí)別技術(shù)已從簡單的理論融入到了大眾的日常生活之中[1-2].從手機(jī)、電腦、打卡機(jī)等使用指紋身份識(shí)別,到阿里巴巴發(fā)布的人臉識(shí)別支付技術(shù),都離不開圖像識(shí)別.然而,在這個(gè)信息量爆炸的時(shí)代,如何能夠提高識(shí)別率意義重大,直接關(guān)系到圖像識(shí)別的實(shí)用性和安全性.
幸運(yùn)的是,深度學(xué)習(xí)的出現(xiàn)解決了如何自動(dòng)學(xué)習(xí)出“優(yōu)質(zhì)特征”的問題[2-3].它通過模仿人腦分析學(xué)習(xí)的機(jī)制,將分級(jí)信息處理過程引用到了特征表示上,通過逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類識(shí)別更加容易.相比于人工構(gòu)造特征的方法,利用深度學(xué)習(xí)方法來學(xué)習(xí)特征,能夠更為豐富地刻畫數(shù)據(jù)的內(nèi)在信息[4].
深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)作為深度學(xué)習(xí)的常用模型,已成為眾多科研領(lǐng)域的研究熱點(diǎn)之一.受到Hubel-Wiesel生物視覺模型的啟發(fā),LeCun等于1989年首先提出了CNN模型,解決了小規(guī)模的圖像識(shí)別問題[5-6].但對(duì)于大規(guī)模的圖像無法得到較好的效果.直至2012年,Krizhevsky等在傳統(tǒng)的CNN模型上提出了深度的理念,取得了不錯(cuò)的識(shí)別結(jié)果,推進(jìn)了圖像識(shí)別技術(shù)[7].與傳統(tǒng)識(shí)別算法相比,它的輸入不使用任何的人工特征,避免了復(fù)雜繁瑣的手動(dòng)特征提取過程,可實(shí)現(xiàn)自動(dòng)特征學(xué)習(xí),在處理大規(guī)模的圖像識(shí)別時(shí)同樣具有優(yōu)勢(shì).目前,CNN模型被廣泛應(yīng)用于圖像識(shí)別領(lǐng)域之中[4,7-9].Ji等通過延伸數(shù)據(jù)的空間維度,提出一種3D CNNs模型[10],用于人體運(yùn)動(dòng)行為的識(shí)別之中,取得了不錯(cuò)的識(shí)別效果.2013年,徐姍姍等[11]利用CNN模型對(duì)木材的缺陷進(jìn)行識(shí)別,降低時(shí)間消耗的同時(shí),獲得了較高的缺陷識(shí)別精度.2014年,賈世杰等將CNN模型用于商品圖像分類中[12],為電子商務(wù)軟件提供了一種快捷、高效的分類過濾手段.這無不說明CNN模型在圖像識(shí)別方面的優(yōu)勢(shì),即高效特征抽取、權(quán)值共享、模型復(fù)雜度低的特點(diǎn).故本文采用CNN模型作為圖像特征提取的基礎(chǔ)模型.
然而,在目標(biāo)識(shí)別的初期階段需要對(duì)目標(biāo)對(duì)象進(jìn)行定位(Candidate location,CL),這是CNN模型所忽略的.近年來,神經(jīng)科學(xué)方面的研究者發(fā)現(xiàn),人類視覺系統(tǒng)具有快速定位興趣目標(biāo)的能力[13].顯然,將這種能力引入CNN模型,無疑將提升目標(biāo)識(shí)別的效率.目前,最具代表的是Itti模型[14-15],它能模擬視覺注意機(jī)制,利用顏色、亮度和朝向特征獲取感興趣區(qū).故采用Itti模型實(shí)現(xiàn)CL階段.
同時(shí),CNN模型常采用灰度圖像作為圖像的輸入,缺失了對(duì)于顏色、亮度特征的理解.而顏色特征對(duì)于圖像的旋轉(zhuǎn)、尺度變換和平移具有不錯(cuò)的穩(wěn)定性[16].亮度是人類視覺系統(tǒng)較為敏感的圖像特征.若融合顏色、亮度特征,能夠更為完善地表達(dá)圖像.因此,采用多特征融合的方法來表示圖像具有一定的必要性.
綜上所述,為了能夠使CNN模型更為快捷地實(shí)現(xiàn)CL階段的目標(biāo)定位,多特征信息的互補(bǔ),本文以CNN模型為基礎(chǔ)模型,添加Itti模型以及多特征融合思想,建立一種基于CLMF的深度卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional neural networks with candidate location and multi-feature fusion,CLMFCNN),以便快速地獲取目標(biāo)區(qū)域,提高目標(biāo)識(shí)別效率和準(zhǔn)確度.
深度卷積神經(jīng)網(wǎng)絡(luò)是第一個(gè)成功訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法.由于該網(wǎng)絡(luò)有效地避免了復(fù)雜的圖像預(yù)處理,可以自主學(xué)習(xí)圖像特征,所以得到了廣泛的應(yīng)用.CNN模型通過對(duì)局部感受野卷積(Local connections)、權(quán)值共享、下采樣和多網(wǎng)絡(luò)層[17],實(shí)現(xiàn)NN(Neural network)結(jié)構(gòu)的優(yōu)化,不但減少了神經(jīng)元和權(quán)值的個(gè)數(shù).同時(shí),利用池化操作(Pooling)使特征具有位移、縮放和扭曲不變性[17].
典型的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.第一層為圖像輸入層,然后由多個(gè)卷積層(Convolution,C層)和下采樣層(Subsampling,S層)組成,最后一層為全連接層.
1.1C層的學(xué)習(xí)
C層主要是利用卷積核抽取特征,實(shí)現(xiàn)對(duì)特征進(jìn)行過濾和強(qiáng)化的效果.在每個(gè)卷積層中,將前一層輸出的特征圖與卷積核進(jìn)行卷積操作[18],然后通過激活函數(shù),即可輸出該層的特征圖,如式(1)所示.

其中,f是激活函數(shù),本文選用Sigmoid函數(shù).t表示層數(shù),ki,j是卷積核,?表示2D卷積操作,bj是偏置,Pj表示所選擇的輸入特征圖的集合.
1.2S層的學(xué)習(xí)
S層主要通過下采樣減少C層的特征維數(shù),對(duì)S層中每個(gè)大小為n×n的池進(jìn)行“池平均”或“池最大”操作[19],以獲取抽樣特征,如式(2)所示.

其中,w為權(quán)重,down(·)為下采樣函數(shù),本文采用“池最大”操作.通過池化操作,不僅有效降低了C層的復(fù)雜度,抑制了過擬合現(xiàn)象,同時(shí),提升了特征對(duì)微小畸變、旋轉(zhuǎn)的容忍能力,增強(qiáng)了算法的性能和魯棒性.

圖1 深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖Fig.1 The structure chart of CNN model
為了使CNN模型能夠在圖像中快速搜索到目標(biāo)對(duì)象,模仿人腦視覺系統(tǒng),在CL階段添加視覺注意模型,旨在快速獲取目標(biāo)對(duì)象.同時(shí),從特征融合的角度,實(shí)現(xiàn)圖像顏色、亮度的多特征表達(dá).CLMFCNN的模型結(jié)構(gòu)圖如圖2所示,由候選目標(biāo)區(qū)獲取和多特征融合兩模塊組成.

圖2 CLMF-CNN模型結(jié)構(gòu)圖Fig.2 The structure chart of CLMF-CNN model
2.1基于視覺顯著性的候選目標(biāo)獲取
大量研究發(fā)現(xiàn),人類的視覺系統(tǒng)能夠快速搜索到興趣目標(biāo),并進(jìn)入視覺感知[20-21].受其啟發(fā),若在目標(biāo)識(shí)別的CL階段采用視覺顯著性獲取候選目標(biāo),能夠有效地降低背景所帶來的干擾.目前最具代表性的是Itti等于1998年提出的選擇注意模型,該模型經(jīng)過不斷的改進(jìn),已經(jīng)可以較好地應(yīng)用于目標(biāo)識(shí)別之中.其基本思想是采用自底向上的模式,通過構(gòu)建不同尺度的高斯金字塔,并利用式(3)~式(5)獲取亮度、顏色、朝向特征[15];然后,計(jì)算中央周邊算子得到特征顯著圖;最后,通過歸一化組合得到顯著圖,從而模擬人類視覺系統(tǒng)選擇出顯著區(qū)域.


其中,r、g、b為三個(gè)顏色分量.R=r-(g+b)/2;G=g-(r+g)/2;Y=(r+g)/2-|r-g|/2-b;c、s代表金字塔中央尺度和周邊尺度.θ為Gabor濾波器的方向;?代表“中央—周邊”算子.
然而,Itti模型僅采用自底向上的機(jī)制,缺失了高級(jí)認(rèn)知的指導(dǎo)[14-15].特別地,由其獲取的顯著圖僅由各類特征疊加而成的,這違背了視覺系統(tǒng)的選擇機(jī)制.在不同的環(huán)境下,視覺系統(tǒng)搜索不同目標(biāo)時(shí),對(duì)于各個(gè)特征的倚重應(yīng)有所不同.故綜合考慮各類特征對(duì)于目標(biāo)定位的貢獻(xiàn)度,賦予權(quán)重,通過特征與權(quán)重的乘積和確定顯著區(qū),如式(6)所示.

其中,βj為顯著特征權(quán)重,由式(7)獲得.Sali代表顯著值,SaliCo為顏色顯著值、SaliIn為亮度顯著值、SaliOr為朝向顯著值,k代表不同的尺度.
目前,對(duì)于顯著區(qū)域的提取多由目標(biāo)知識(shí)驅(qū)動(dòng),忽略了背景特征對(duì)于目標(biāo)檢測(cè)的抑制作用.而神經(jīng)物理學(xué)實(shí)驗(yàn)表明,背景特征對(duì)于目標(biāo)檢測(cè)也具有重要意義[22].因此綜合考慮目標(biāo)和背景的概率知識(shí),利用式(7)確定顯著特征權(quán)重βr.

其中,βr表示顯著特征權(quán)重,P(O)表示目標(biāo)O出現(xiàn)的先驗(yàn)概率;P(O|Fsalir)表示給定前景區(qū)的某一圖像度量Fsalir時(shí),目標(biāo)O出現(xiàn)的條件概率;P(O|Bsalir)表示給定背景區(qū)某一圖像度量Bsalir時(shí),目標(biāo)O出現(xiàn)的條件概率;圖像度量包括顏色特征值SaliCo、亮度特征值SaliIn和朝向特征值SaliOr.
2.2多特征融合
由于CNN模型在特征提取過程中使用的特征單一,忽略了顏色、亮度特征的影響,如圖1所示.故本文在深度卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,添加顏色、亮度特征提取的思想,使用B-Y顏色通道、R-G顏色通道以及亮度通道三通道對(duì)視覺圖像進(jìn)行特征提取.其中,B-Y和R-G顏色通道的圖像表示可由式(8)和(9)獲得.

因此,CLMF-CNN模型不僅考慮了亮度特征,同時(shí)考慮了對(duì)象的顏色特征,使得特征向量更能表現(xiàn)目標(biāo)對(duì)象的特性.
然而,多特征的融合方法對(duì)于特征的表達(dá)能力具有一定的影響.目前,常用的多特征融合方法有簡單疊加、串行連接等.但這些方法不僅較難體現(xiàn)各種特征的差異性,反而擴(kuò)大了特征的維數(shù),增加了計(jì)算量.因此,引出權(quán)重的概念,根據(jù)不同的特征在識(shí)別過程中的貢獻(xiàn)度,在CNN的全連接層后添加一層各類特征的權(quán)重計(jì)算層.
通常,特征的識(shí)別效果采用誤差率表示,誤差率越低則表示該類特征具有較強(qiáng)的區(qū)分能力.受此啟發(fā),從誤差率的角度定義權(quán)重,如式(10)所示.

其中,wn為特征n的權(quán)重,0≤wn≤1且en表示特征n的誤差率.由此可以發(fā)現(xiàn),en越低的特征將獲得越高的權(quán)重.因此,每個(gè)目標(biāo)融合后的特征向量可表示為式(11).

2.3算法流程
CLMF-CNN模型由學(xué)習(xí)階段以及目標(biāo)識(shí)別階段兩部分組成.具體步驟如下:
1)學(xué)習(xí)階段:
步驟 1.根據(jù)學(xué)習(xí)樣本,采用樣本統(tǒng)計(jì)分析法計(jì)算樣本圖像內(nèi)目標(biāo)對(duì)象與背景的條件概率P(O|Fsalir)和P(O|Bsalir);
步驟2.根據(jù)式(7)確定Itti模型內(nèi)的權(quán)重βj;
步驟3.利用CNN模型獲取目標(biāo)對(duì)象在B-Y顏色通道、R-G顏色通道以及亮度通道三通道的特征向量;
步驟4.訓(xùn)練不同特征向量,獲取各類特征的誤差率en;
步驟5.根據(jù)誤差率en,利用式(10)獲取不同特征的權(quán)重.
2)目標(biāo)識(shí)別階段:
步驟1.根據(jù)權(quán)重βj,利用加權(quán)Itti模型獲取測(cè)試圖像相應(yīng)的候選目標(biāo)區(qū)域;
步驟2.利用CNN模型對(duì)候選目標(biāo)進(jìn)行B-Y顏色通道、R-G顏色通道以及亮度通道三通道的特征提取;
步驟 3.根據(jù)式(11),結(jié)合不同特征的權(quán)重wn進(jìn)行加權(quán)融合,形成候選目標(biāo)的特征表達(dá);
步驟4.對(duì)候選目標(biāo)進(jìn)行識(shí)別,輸出測(cè)試圖像的類別.
仿真實(shí)驗(yàn)平臺(tái)配置為酷睿四核處理器2.8GHz,8GB內(nèi)存,使用Caltech 101數(shù)據(jù)集,該數(shù)據(jù)庫包含101類,每類大約包含40到800張彩色圖片.然而,CNN模型需要建立在大量樣本的基礎(chǔ)上,故選取其中樣本量較大的8類:飛機(jī)(Airplanes)、人臉(Faces)、鋼琴(Piano)、帆船(Ketch)、摩托車(Motor)、手槍(Revolver)、手表(Watch)以及豹(Leopards),并利用Google對(duì)圖庫進(jìn)行擴(kuò)充,每種類別選用2000幅圖像,本文方法的參數(shù)設(shè)置如表1所示,其中,學(xué)習(xí)率初始值設(shè)為0.1,并在迭代過程中線性下降以尋找最優(yōu)值.同時(shí),為了評(píng)估識(shí)別效果,采用十折交叉實(shí)驗(yàn)法進(jìn)行驗(yàn)證,并利用識(shí)別精度作為評(píng)價(jià)標(biāo)準(zhǔn),如式(12)所示.

其中,PreV ali表示第i類圖像的識(shí)別精度,PTi表示正確識(shí)別的樣本數(shù),F(xiàn)Ti表示錯(cuò)誤識(shí)別的樣本數(shù).

表1 本文方法參數(shù)設(shè)置表Table1 Parameters setting of our method
3.1CL階段提取候選目標(biāo)的作用
由圖3可以發(fā)現(xiàn),利用改進(jìn)的Itti模型可以有效地在CL階段提取目標(biāo)候選區(qū),避免了背景的干擾,便于后續(xù)CLMF-CNN模型的特征提取.實(shí)驗(yàn)結(jié)果表明,平均每幅圖像的處理時(shí)間約為62.76ms.顯然,在目標(biāo)候選區(qū)的提取上消耗了一定的計(jì)算時(shí)間,但是,相應(yīng)地減少了30%~50%的偽目標(biāo)區(qū)域,降低了識(shí)別干擾,反而提高了識(shí)別效率.從圖4可以發(fā)現(xiàn),利用Itti模型改進(jìn)的CNN模型的確提升了目標(biāo)的識(shí)別精度.

圖3 目標(biāo)候選區(qū)域提取效果圖Fig.3 The extraction of object candidate

圖4 CNN模型添加候選目標(biāo)后的識(shí)別效果對(duì)比圖Fig.4 The recognition performance of CNN model with candidate objects
為了進(jìn)一步分析CL階段目標(biāo)定位的有效性,選用覆蓋率(Overlap value,OV)評(píng)價(jià)目標(biāo)對(duì)象區(qū)界定的成功率,如式(13)所示.

其中,preboxij是圖像i對(duì)應(yīng)的第j個(gè)候選目標(biāo)區(qū)域. objboxi是圖像i對(duì)應(yīng)的目標(biāo)區(qū)域.
由圖5可以發(fā)現(xiàn),由于文獻(xiàn)[23]利用固定窗口遍歷搜索的方法,所以對(duì)于臉、鋼琴、手槍的定位效果較好.然而,對(duì)于飛機(jī)、帆船、豹等大小多變的目標(biāo)對(duì)象,界定的效果產(chǎn)生了一定的影響.相反,本文方法充分考慮了各項(xiàng)特征的貢獻(xiàn)率,能夠較好地定位目標(biāo)對(duì)象的區(qū)域,為后期的目標(biāo)識(shí)別提供了一定的保證.

圖5 覆蓋率對(duì)比圖Fig.5 The comparison chat of OV
3.2識(shí)別時(shí)間消耗對(duì)比
時(shí)間消耗無疑是對(duì)目標(biāo)識(shí)別效果的一個(gè)重要評(píng)價(jià)指標(biāo).圖6從目標(biāo)識(shí)別所需時(shí)耗的角度對(duì)比了文獻(xiàn)[23]方法和CLMF-CNN模型.由于文獻(xiàn)[23]方法需要以固定大小的窗口遍歷圖像來實(shí)現(xiàn)目標(biāo)的定位,因此定位的時(shí)耗十分受滑動(dòng)窗口大小以及圖像大小的限制.若以30×30的窗口遍歷一幅N×N的圖像時(shí),文獻(xiàn)[23]方法在定位時(shí)將進(jìn)行(N-29)2個(gè)操作.若圖像為256×256,則單幅圖像在定位時(shí)的操作將超過5萬次,無疑增加了圖像識(shí)別過程中的時(shí)間消耗.相反,由于CLMF-CNN模型采用視覺顯著性定位的方法,雖然在對(duì)單幅圖像搜索目標(biāo)時(shí)需要消耗時(shí)間用于定位顯著區(qū)域,但可以快速濾除圖像中的偽目標(biāo)區(qū)域,大幅度地減少后期識(shí)別操作,反而降低了目標(biāo)識(shí)別的時(shí)間消耗,十分有利于圖像的快速識(shí)別.
3.3特征融合的作用
在特征提取階段,采用了多特征融合方法,利用各類特征的貢獻(xiàn)度來分配權(quán)重.為了驗(yàn)證權(quán)重的作用,實(shí)驗(yàn)將本文的多特征融合方法與各類單一特征方法以及目前流行的多特征乘性融合方法[24]、多特征加性融合方法[25]進(jìn)行對(duì)比.

圖6 目標(biāo)識(shí)別時(shí)耗對(duì)比圖Fig.6 The comparison chat of time consumption on object recognition
從圖7可以發(fā)現(xiàn),采用單一特征的CNN模型識(shí)別效果明顯不佳,且不穩(wěn)定,易受光照等外界因素的干擾.說明需要通過特征融合,使各類特征取長補(bǔ)短,才能實(shí)現(xiàn)更好的識(shí)別效果.文獻(xiàn)[24]方法,可實(shí)現(xiàn)各類特征的融合,但該方法易放大噪聲的影響,導(dǎo)致融合結(jié)果對(duì)噪聲較為敏感.相反,文獻(xiàn)[25]在一定程度能夠抑制噪聲,說明加性融合的確能較好地融合各類特征.然而其識(shí)別效果仍不理想,說明權(quán)重的分配對(duì)融合后特征向量的識(shí)別效果具有一定的影響.本文的方法具有較好的識(shí)別結(jié)果,原因在于:CLMF-CNN模型充分考慮了各項(xiàng)特征對(duì)于識(shí)別效果的貢獻(xiàn)度,從誤差率的角度分配各項(xiàng)權(quán)重,降低了對(duì)于噪聲的敏感度,且提升了識(shí)別效果,增強(qiáng)了識(shí)別方法的魯棒性.
3.4識(shí)別效果對(duì)比
為了驗(yàn)證本文方法的有效性,實(shí)驗(yàn)將CLMFCNN模型和文獻(xiàn)[26-28]的方法進(jìn)行對(duì)比,如圖8所示.其中,對(duì)于人臉、摩托車和手表這些目標(biāo)對(duì)象,CLMF-CNN模型具有一定的優(yōu)勢(shì).原因在于,這些目標(biāo)較為顯著,對(duì)于CLMF-CNN模型更易找到目標(biāo)對(duì)象區(qū)域.而對(duì)于文獻(xiàn)[26-28]方法,由于過多的依賴固定窗口滑動(dòng)搜索的方法,導(dǎo)致對(duì)目標(biāo)區(qū)域的定位有一定的偏差.同時(shí),本文的多特征融合方法能夠充分地考慮各類特征的貢獻(xiàn)度,合理地分配權(quán)重,使得各類特征揚(yáng)長避短,更有效地表達(dá)目標(biāo)對(duì)象.由圖8可以發(fā)現(xiàn),CLMF-CNN模型的識(shí)別效果基本優(yōu)于其他方法,為目標(biāo)識(shí)別提供了一種較為有效的方法.

圖8 不同方法的分類效果對(duì)比圖Fig.8 Recognition performance of different methods
同時(shí),為了進(jìn)一步驗(yàn)證本文方法的識(shí)別效果,實(shí)驗(yàn)將CLMF-CNN模型運(yùn)用于圖像標(biāo)注中.從表2可以發(fā)現(xiàn),本文方法基本可以標(biāo)注出預(yù)先學(xué)習(xí)的目標(biāo)對(duì)象,說明CLMF-CNN模型可以較好地解決圖像的自動(dòng)標(biāo)注問題.

?
本文提出一種基于CLMF的卷積神經(jīng)網(wǎng)絡(luò)模型,并用于圖像識(shí)別,取得了較為滿意的實(shí)驗(yàn)結(jié)果.與現(xiàn)有方法相比,CLMF-CNN具有以下幾個(gè)突出的特點(diǎn):1)模仿人腦視覺認(rèn)知的過程添加了CL階段的候選目標(biāo)區(qū)選取模塊,確立了目標(biāo)對(duì)象區(qū),減少了由于偽目標(biāo)區(qū)域所造成的計(jì)算時(shí)間消耗和識(shí)別干擾.2)利用多特征的加權(quán)融合降低了由單一特征不充分所引起的歧義,豐富了圖像的特征表達(dá).
然而,圖像質(zhì)量對(duì)于目標(biāo)識(shí)別具有一定影響.下一步工作的重點(diǎn)將從圖像融合技術(shù)文獻(xiàn)[29-30]的角度提高圖像質(zhì)量,進(jìn)一步改善目標(biāo)識(shí)別效果.
References
1 Sarikaya R,Hinton G E,Deoras A.Application of deep belief networks for natural language understanding.IEEE/ACM Transactions on Audio,Speech,&Language Processing,2014,22(4):778-784
2 Graves A,Mohamed A R,Hinton G.Speech recognition with deep recurrent neural networks.In:Proceedings of the 38th IEEE International Conference on Acoustics,Speech and Signal Processing.Vancouver,BC:IEEE,2013. 6645-6649
3 Liu Jian-Wei,Liu Yuan,Luo Xiong-Lin.Research and development on deep learning.Application Research of Computers,2014,31(7):1921-1930(劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進(jìn)展.計(jì)算機(jī)應(yīng)用研究,2014,31(7):1921-1930)
4 Najafabadi M M,Villanustre F,Khoshgoftaar T M,Seliya N,Wald R,Muharemagic E.Deep learning applications and challenges in big data analytics.Journal of Big Data,2015,2:1
5 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-2324
6 LeCun Y,Boser B,Denker J S,Henderson D,Howard R E,Hubbard W,Jackel L D.Backpropagation applied to handwritten zip code recognition.Neural Computation,1989,1(4):541-551
7 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceedings of the Advances in Neural Information Processing Systems 25.Lake Tahoe,Nevada,USA:Curran Associates,Inc.,2012.2012-2020
8 Wang Xin,Tang Jun,Wang Nian.Gait recognition based on double-layer convolutional neural networks.Journal of Anhui University(Natural Science Edition),2015,39(1):32-36(王欣,唐俊,王年.基于雙層卷積神經(jīng)網(wǎng)絡(luò)的步態(tài)識(shí)別算法.安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,39(1):32-36)
9 Ouyang W,Wang X.Joint deep learning for pedestrian detection.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.2056-2063
10 Ji S W,Xu W,Yang M,Yu K.3D convolutional neural networks for human action recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231
11 Xu Shan-Shan,Liu Ying-An,Xu Sheng.Wood defects recognition based on the convolutional neural network.Journal of Shandong University(Engineering Science),2013,43(2):23-28(徐姍姍,劉應(yīng)安,徐昇.基于卷積神經(jīng)網(wǎng)絡(luò)的木材缺陷識(shí)別.山東大學(xué)學(xué)報(bào)(工學(xué)版),2013,43(2):23-28)
12 Jia Shi-Jie,Yang Dong-Po,Liu Jin-Huan.Product image fine-grained classification based on convolutional neural network.Journal of Shandong University of Science and Technology(Natural Science),2014,33(6):91-96(賈世杰,楊東坡,劉金環(huán).基于卷積神經(jīng)網(wǎng)絡(luò)的商品圖像精細(xì)分類.山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,33(6):91-96)
13 Unuma H,Hasegawa H.Visual attention and object perception:levels of visual features and perceptual representation. Journal of Kawamura Gakuen Womans University,2007,18:47-60
14 Serre T,Wolf L,Poggio T.Object recognition with features inspired by visual cortex.In:Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR).San Diego,CA:IEEE,2005.994-1000
15 Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis.IEEE Transactions on Pattern Analysis&Machine Intelligence,1998,20(11):1254-1259
16 Yao Yuan-Qing,Li Feng,Zhou Shu-Ren.Target tracking based on color and the texture feature.Computer Engineering&Science,2014,36(8):1581-1587(姚原青,李峰,周書仁.基于顏色–紋理特征的目標(biāo)跟蹤.計(jì)算機(jī)工程與科學(xué),2014,36(8):1581-1587)
17 LeCun Y,Bengio Y,Hinton G.Deep learning.Nature,2015,521(7553):436-44
18 Huang F J,LeCun Y.Large-scale learning with SVM and convolutional for generic object categorization.In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision&Pattern Recognition.New York,USA:IEEE,2006.284-291
19 Scherer D,M¨uller A,Behnke S.Evaluation of pooling operations in convolutional architectures for object recognition. In:Proceedings of the 20th International Conference on Artificial Neural Networks.Thessaloniki,Greece:Springer,2010.92-101
20 Serences J T,Yantis S.Selective visual attention and perceptual coherence.Trends in Cognitive Sciences,2006,10(1):38-45
21 Li Wan-Yi,Wang Peng,Qiao Hong.A survey of visual attention based methods for object tracking.Acta Automatica Siinica,2014,40(4):561-576(黎萬義,王鵬,喬紅.引入視覺注意機(jī)制的目標(biāo)跟蹤方法綜述.自動(dòng)化學(xué)報(bào),2014,40(4):561-576)
22 Maljkovic V,Nakayama K.Priming of pop-out:I.role of features.Memory&Cognition,1994,22(6):657-672
23 Roos M J,Wolmetz M,Chevillet M A.A hierarchical model of vision(HMAX)can also recognize speech.BMC Neuroscience,2014,15(Suppl 1):187
24 Li P H,Chaumette F.Image cues fusion for object tracking based on particle filter.In:Proceedings of the 3rd International Workshop on Articulated Motion and Deformable Objects.Palma de Mallorca,Spain:Springer,2004.99-110
25 Wang X,Tang Z M.Modified particle filter-based infrared pedestrian tracking.Infrared Physics&Technology,2010,53(4):280-287
26 Zhu Qing-Sheng,Zhang Min,Liu Feng.Hierarchical citrus canker recognition based on HMAX features.Computer Science,2008,35(4):231-232(朱慶生,張敏,柳鋒.基于HMAX特征的層次式柑桔潰瘍病識(shí)別方法.計(jì)算機(jī)科學(xué),2008,35(4):231-232)
27 Tang Yu-Jing.Classification and Recognition Research based on Human Visual Perception Mechanism[Master dissertation],Nanjing University of Science and Technology,China,2009.(湯毓婧.基于人腦視覺感知機(jī)理的分類與識(shí)別研究[碩士學(xué)位論文],南京理工大學(xué),中國,2009.)
28 Wang J,Yang J,Yu K,Lv F,Huang T,Gong Y.Localityconstrained linear coding for image classification.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).San Francisco,CA:IEEE,2010.3360-3367
29 Zhang Xiao-Li,Li Xiong-Fei,Li Jun.Validation and correlation analysis of metrics for evaluating performance of image fusion.Acta Automatica Sinica,2014,40(2):306-315(張小利,李雄飛,李軍.融合圖像質(zhì)量評(píng)價(jià)指標(biāo)的相關(guān)性分析及性能評(píng)估.自動(dòng)化學(xué)報(bào),2014,40(2):306-315)
30 Yang Bo,Jing Zhong-Liang.Image fusion algorithm based on the quincunx-sampled discrete wavelet frame.Acta Automatica Sinica,2010,36(1):12-22(楊波,敬忠良.梅花形采樣離散小波框架圖像融合算法.自動(dòng)化學(xué)報(bào),2010,36(1):12-22)

隨婷婷上海海事大學(xué)信息工程學(xué)院博士研究生.2013年獲得上海海事大學(xué)信息工程學(xué)院碩士學(xué)位.主要研究方向?yàn)樯疃葘W(xué)習(xí),人工智能,數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn).本文通信作者.
E-mail:suisui61@163.com
(SUI Ting-TingPh.D.candidate at the College of Information Engineering,Shanghai Maritime University.She received her master degree from the College of Information Engineering,Shanghai Maritime University in 2013.Her research interest covers deep learning,artificial intelligence,data mining and knowledge discovery.Corresponding author of this paper.)

王曉峰上海海事大學(xué)教授,博士.主要研究方向?yàn)樯疃葘W(xué)習(xí),人工智能,數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn).
E-mail:xfwang@shmtu.edu.cn
(WANG Xiao-FengPh.D.,professor at Shanghai Maritime University. His research interest covers deep learning,artificial intelligence,data mining and knowledge discovery.)
Convolutional Neural Networks with Candidate Location and Multi-feature Fusion
SUI Ting-Ting1WANG Xiao-Feng1
To solve the problem that the traditional manual feature extraction models are unable to satisfy object recognition in complex environment,an object recognition model based on convolutional neural networks with candidate location and multi-feature fusion(CLMF-CNN)model is proposed.The model combines the visual saliency,multi-feature fusion and CNN model to realize the object recognition.Firstly,the candidate objects are conformed via weighted Itti model.Consequently,color and intensity features are obtained via CNN model respectively.After the multi-feature fusion method,the features can be used for object recognition.Finally,the model is tested and compared with the single feature method and current popular algorithms.Experimental result in this paper proves that our method can not only get good performance in improving the accuracy of object recognition,but also satisfy real-time requirements.
Image recognition,deep learning,convolutional neural networks(CNN),multi-feature fusion
10.16383/j.aas.2016.c150741
Sui Ting-Ting,Wang Xiao-Feng.Convolutional neural networks with candidate location and multi-feature fusion.Acta Automatica Sinica,2016,42(6):875-882
2015-11-03錄用日期2016-03-24
Manuscript received November 3,2015;accepted March 24,2016
國家自然科學(xué)基金(31170952),國家海洋局項(xiàng)目(201305026),上海海事大學(xué)優(yōu)秀博士學(xué)位論文培育項(xiàng)目(2014bxlp005),上海海事大學(xué)研究生創(chuàng)新基金項(xiàng)目(2014ycx047)資助
Supported by National Natural Science Foundation of China (31170952),F(xiàn)oundation of the National Bureau of Oceanography(201305026),Excellent Doctoral Dissertation Cultivation Foundation of Shanghai Maritime University(2014bxlp005),and Graduate Innovation Foundation of Shanghai Maritime University(2014ycx047)
本文責(zé)任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.上海海事大學(xué)信息工程學(xué)院上海201306
1.College of Information Engineering,Shanghai Maritime University,Shanghai 201306