999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向場景解析的空間結構化編碼深度網絡

2018-01-15 09:19:52張國印王澤宇吳艷霞布樹輝
哈爾濱工程大學學報 2017年12期
關鍵詞:特征

張國印, 王澤宇, 吳艷霞, 布樹輝

(1.哈爾濱工程大學 計算機科學與技術學院,黑龍江 哈爾濱 150001; 2.西北工業大學 航空學院,陜西 西安 710072)

隨著智能時代的到來,場景解析作為計算機視覺研究方向上的重要技術領域,近年來取得了突飛猛進的發展,這對于提升機器人、無人機、水下航行器等的自主導航能力起到至關重要的作用。場景解析作為一項復雜的計算機視覺工作,不僅需要檢測并分割出不同的物體,而且需要能夠識別出不同物體所屬的類別,因此,實現場景解析的核心技術是準確地為圖像中每個像素做分類[1-2]。

近年來,基于卷積神經網絡(convolutional neural networks,CNNs)的方法已經證明在場景解析工作中取得成功[3-7]。文獻[3]以現有的分類網絡(AlexNet[8]、VGGNet[9]和GoogLeNet[10])為基礎,首先修改分類網絡末端的全連接層為卷積層,并在網絡末端添加反卷積層,然后級聯不同卷積層提取的特征作為反卷積層的輸入,最后采用端到端、像素到像素的訓練方式將分類網絡轉換成面向場景解析的全卷積神經網絡(fully convolutional neural networks,FCNNs)。在文獻[3]的基礎上,文獻[4-5]分別提出了一種結構對稱的FCNNs,該結構的卷積層和反卷積層的功能相反,類似自編碼器,對輸入圖像先編碼后解碼,從而解析出圖像中的物體。文獻[6-7]提出了一種帶孔的卷積(atrous convolution),這使得卷積層提取的特征尺寸不變,從而減少噪聲的引入,提升了場景解析的結果。但是,單純CNNs方法的空間結構化學習能力很弱,如果想要實現更準確的場景解析,就需要網絡具有空間結構化學習能力,能夠感知圖像的全局空間狀態,即:圖像中物體所處空間的物體分布以及物體之間的空間位置關系。

為此,具有空間結構化學習能力的條件隨機場(conditional random fields,CRFs)[11]聯合CNNs的混合架構應運而生[12-14]。文獻[12]提出了一種CRF-RNN結構化學習模型,并將CRF-RNN作為CNNs的一部分重新構建CNNs深度網絡,這樣,該深度網絡就結合了CNNs和CRFs各自的優點,具有了空間結構化學習能力。文獻[13]提出了一種基于CRFs的端到端深度網絡,該網絡通過多尺度的FCNNs學習CRFs的一元項和二元項,具有獲取圖像中空間結構化信息的能力。文獻[14]提出了一種具有空間結構相關性的CRFs二元項,并通過結構化支持向量機(structured support vector machine,SSVMs)訓練CRFs參數,從而能夠充分利用物體之間的空間位置關系來提升場景解析的準確率。但是,CRFs圖模型僅能描述圖像中物體之間的距離(位置)和相似度(顏色、紋理等),無法較為充分地學習物體所處空間的物體分布以及物體之間的空間位置關系,因此,場景解析效果提升的并不顯著。

最近,長短期記憶網絡(long short-term memory,LSTMs)[15-17]聯合CNNs的混合架構在場景解析中取得了一些突破,這些方法[18-21]主要通過LSTMs網絡的記憶能力實現一定程度的空間結構化信息推理,從而能夠學習圖像的空間結構化信息。但是,LSTMs存在無顯式空間結構化信息推理、無空間結構化編碼等問題,從而無法準確地學習和描述圖像的空間結構化信息。

與上述方法不同,推理深度網絡(inference embedded deep networks,IEDNs)[22]具有很強的空間結構化學習能力,它以CNNs和CRFs的混合架構為基礎,利用混合架構的分類概率推理圖像的空間結構化信息,并將視覺信息與空間關系信息相融合,從而大幅提升場景解析的準確率。但是,IEDNs沒有全面地考慮圖像中物體所處空間的物體分布以及物體之間的空間位置關系,不能充分地學習和描述圖像的空間結構化信息。

在此基礎上,本文提出了空間結構化編碼深度網絡(spatial structure encoded deep networks,SSEDNs),它以CNNs和CRFs的混合架構為基礎,能夠結合CNNs和CRFs各自的優點。與現有深度網絡的結構不同,SSEDNs以CRFs作為中間層,并與空間結構化編碼算法(spatial structure encoded algorithm,SSEAs)有機地結合,從而以編碼的方式較為準確地描述圖像中物體所處空間的物體分布以及物體之間的空間位置關系。

1 空間結構化編碼深度網絡

空間結構化編碼深度網絡SSEDNs包含3個部分:特征提取層、結構化學習層和特征融合層。其中,特征提取層主要由全卷積神經網絡FCNNs構成,用來提取圖像的視覺特征;結構化學習層在空間結構化編碼算法SSEAs的基礎上,一方面利用條件隨機場CRFs的分類概率推理超像素所處空間的物體分布,另一方面依據超像素的坐標位置學習相鄰超像素對的空間位置關系,從而獲取超像素以及相鄰超像素對的空間關系特征;特征融合層主要包括深度置信網絡DBNs,用來將上述學習到的視覺特征和空間關系特征做融合,從而融合生成超級素和相鄰超像素對的混合特征。整個SSEDNs的網絡框架如圖1所示。

1.1 特征提取層

在場景解析研究中,提取的特征將直接影響分類結果。最近的研究表明包含多層形狀信息的特征能夠提升分類結果。這種特征的結構是分層的,不同層次是對原始圖像不同級別的抽象,這意味著特征提取是逐層進行的,因此,具有多層結構的深度網絡成為特征提取的有效工具。另外,卷積操作和反卷積操作能夠分別模擬人眼和人腦的機制來提取特征和還原特征,這樣,由多個卷積層和反卷積層逐級相連構成的FCNNs就可以對圖像進行不同級別的抽象,從而獲取包含多層形狀信息的多維視覺特征。SSEDNs使用FCNNs提取特征的原理如圖2所示。

1.1.1 全卷積神經網絡

假設FCNNs的卷積網絡包含Lc層,反卷積網絡包含Ld層,輸入圖像為x,第l層的輸出特征為Fl,那么,第l層的操作可以表示為

Fl=

(1)

式中:初始特征F0為輸入圖像x,函數conv、rect和pool分別表示卷積網絡每層的卷積操作、校正操作和池化操作,函數unpool、deconv和rect分別表示反卷積網絡每層的反池化操作、反卷積操作和校正操作。其中,對于卷積網絡的每層操作,conv將卷積核內的多個低層特征值映射為一個特征值,rect(abs,tanh和sigmoid等激活函數)對conv生成的特征作修整,pool則挑選生成特征感知域內最敏感的值作為特征值,從而去除特征中的噪聲,新生成的特征尺寸減小,變得抽象;對于反卷積網絡的每層操作,unpool與pool相反,它將卷積網絡生成的特征尺寸還原,同時補償pool造成的空間信息損失,deconv與conv相反,它將unpool生成特征的一個值映射為多個,使得特征稠密化,rect功能與上面相同,新生成的特征尺寸增大,變得具體。

圖1 空間結構化編碼深度網絡Fig.1 Spatial structure encoded deep networks

圖2 特征提取層Fig.2 Feature learning layer

為了獲取包含多層視覺信息的特征,SSEDNs對FCNNs卷積網絡和反卷積網絡提取的特征進行上采樣操作,使新生特征尺寸與輸入圖像相同,然后分別將卷積網絡和反卷積網絡的新生特征級聯,從而得到深度卷積特征DCF和深度反卷積特征DDF:

DCF=[up(F1),up(F2),…,up(FLc)]∈RNc×H×W

(2)

DDF=[up(FLc+1),up(FLc+2),…,
up(FLc+Ld)]∈RNd×H×W

(3)

式中: Nc和Nd分別表示特征DCF和DDF的維數,H和W分別表示特征的高度和寬度,Nl表示FCNNs第l層生成特征的維數或者卷積核的個數,up(Fl)∈RNl×H×W表示上采樣函數。這樣,對于輸入圖像x的某一像素,假設其坐標為(h,w),則它的多維視覺特征HVF可以表示為

HVF(h,w|x)=[DCF(h,w|x),

DDF(h,w|x)]∈RNc+Nd

(4)

與單一深度卷積特征不同,深度反卷積特征能夠彌補卷積網絡丟失的細節信息,同時深度卷積特征能夠糾正反卷積網絡還原的錯誤信息,SSEDNs將兩者級聯,得到的多維視覺特征能夠更準確地表達圖像的視覺信息。

1.1.2 超像素分割

為了避免多維視覺特征中噪聲造成的像素分類概率錯誤,SSEDNs使用SLIC算法[23]對輸入圖像進行超像素分割,并計算超像素塊內所有像素特征的均值,從而以超像素塊的多維視覺特征HVF∈RNc+Nd作為分類預測的基本單位。這樣不僅降低了噪聲帶來的影響,而且提升了整個網絡的訓練和預測速度。與此同時,超像素塊能夠準確劃分圖像中的物體邊界,滿足場景解析的要求。

1.2 結構化學習層

雖然FCNNs能夠提取包含多層形狀信息的多維視覺特征,但是該特征缺乏空間關系信息,可能會造成分類預測錯誤。為了彌補FCNNs缺少空間結構化學習能力的缺點,SSEDNs內嵌空間結構化編碼算法,SSEAs一方面推理超像素所處空間的物體分布,另一方面學習相鄰超像素對的空間位置關系,從而更為準確地描述圖像的空間結構化信息。結構化學習層的原理如圖3所示。

圖3 結構化學習Fig.3 Structural learning layer

1.2.1 LAB顏色空間

LAB顏色空間[24]是常用的顏色空間之一,與RGB顏色空間不同,LAB顏色空間與人類的視覺更為接近,因此,SSEDNs以相鄰超像素對的LAB顏色特征相似度作為CRFs的二元項進行訓練。另外,SSEDNs采用顏色空間轉換標準[25]將RGB圖像轉換為LAB圖像。

1.2.2 條件隨機場

假設輸入圖像為x,圖像的標簽為y,經過超像素分割,可以得到x的圖G=(V,E),其中V表示超像素的集合,E表示相鄰超像素對的集合,則圖像x的能量函數可以表示為

(5)

式中:w=[wNwE]表示CRFs的模型參數,U表示一元項:

U(yi,xi)=exp(-αuci)

(6)

V表示二元項:

V(yi,yj,xij)=

(7)

在CRFs訓練階段,本文使用循環置信傳播算法和L-BFGS優化算法求解CRFs的參數w[26]。在CRFs預測階段,對于一張新的圖像x,它的后驗概率為

(8)

1.2.3 空間結構化編碼算法

雖然CRFs圖模型能夠根據相鄰超像素對的距離(位置)和特征(顏色、紋理等)的相似度來全局最優化分類概率,但是它僅能實現場景解析的一致性和平滑性優化,依然缺乏較強的空間結構化學習能力。因此,SSEDNs內嵌空間結構化編碼算法,一方面通過CRFs的分類概率推理超像素所處空間的物體分布,另一方面根據超像素的坐標位置學習相鄰超像素對的空間位置關系,從而生成描述超像素(節點)和相鄰超像素對(邊)的空間關系特征。

1)超像素(節點)空間關系特征。

本文以CRFs的分類概率作為超像素的類別,將超像素所處空間劃分為上、下、左、右4個區域,然后分別統計每個區域內各類別出現的頻率(區域內每種類別的超像素節點個數),從而近似生成描述超像素(節點)所處空間物體分布的空間關系特征。

假設超像素vi,以vi為中心的鄰域空間定義為Gu=(Vu,Eu),則vi的節點空間關系特征NSF可以表示為

NSF(i)=[NSF(∧),NSF(∨),NSF(<),

NSF(>)]∈R4×K

(9)

式中:NSF(∧),NSF(∨),NSF(<),NSF(>)分別表示超像素vi上、下、左、右4個區域內各類別出現的頻率,它們可以統一表示成如下的形式:

(10)

式中:Vu(d)表示超像素vi在d方向上的區域,向量aj表示Vu(d)區域內超像素vj的類別,其定義如下

(11)

式中:bj表示CRFs生成的超像素vj的分類概率,max(bj)表示vj各類別概率的最大值,bj(k)表示vj第k類的類別概率,K表示類別數。

實際中,假設輸入圖像x的短邊長為l,定義vi的空間Gu為以vi為中心的正方形鄰域,其鄰域的邊長為0.4l。在此基礎上,定義vi的區域Vu(d)為Gu空間內vi在d方向上的長方形區域,如圖3所示。

2)相鄰超像素(邊)空間關系特征。

為了充分探究圖像中相鄰超像素對的空間位置關系,SSEDNs根據圖像中超像素的坐標位置,將相鄰超像素對的空間位置關系劃分為上-下、下-上、左-右、右-左4類,從而生成描述相鄰超像素對(邊)的空間位置關系特征。

假設相鄰超像素分別為vi和vj,其對應的邊為eij,則eij的邊空間關系特征ESF可以表示為

ESF(i,j)=ESF(d),d∈[∧,∨,<,>]

(12)

式中:d表示超像素對vi和vj的空間位置關系,向量ESF(∧),ESF(∨),ESF(<),ESF(>)分別表示上-下、下-上、左-右、右-左4類位置關系對應的邊空間關系特征。

實際中,ESF(∧),ESF(∨),ESF(<),ESF(>)可以簡單地編碼為‘0001’、‘0010’、‘0100’和‘1000’。另外,由于部分相鄰超像素對之間不滿足垂直或者水平的空間位置關系,因此SSEDNs根據相鄰超像素對連線與垂直線和水平線夾角的大小近似區分其空間位置關系。

與單一視覺特征不同,當兩個超像素具有相似的視覺特征時,SSEDNs就可以根據超像素所處空間物體分布的差異區分兩個超像素的類別;另外,當僅憑視覺特征預測相鄰超像素對的類別不合理時(例如草原、湖泊或者公路出現在天空上方),SSEDNs就可以根據學到的合理空間位置關系避免上述錯誤。

1.3 特征融合層

經過特征提取層和結構化學習層,SSEDNs可以分別生成超像素的多維視覺特征HVF、節點空間關系特征NSF和相鄰超像素對的邊空間關系特征ESF。為了進一步挖掘視覺特征和空間關系特征之間復雜的非線性關系,SSEDNs使用DBNs對上述特征做融合,分別生成超像素(節點)的分類概率和相鄰超像素對(邊)的置信度。在此基礎上,SSEDNs以節點分類概率和邊的置信度重新定義CRFs的一元項和二元項,并再次訓練CRFs,完成深度結構化學習。特征融合層的流程如圖4所示。

圖4 特征融合層Fig.4 Feature fusion layer

1.3.1 深度置信網絡

研究表明,利用DBNs融合不同特征之間的非線性關系來提升物體的分類概率效果顯著。DBNs[27]由一組受限的波爾茲曼機(restricted boltzmann machine,RBMs)[28-29]自下而上堆疊而成,它以級聯的不同特征作為輸入,按照低層RBMs輸出作為高層RBMs輸入的順序逐層抽象,最終輸出高度抽象的融合特征。

SSEDNs采用對比散度算法對RBMs做快速訓練[28-29, 32]。在此基礎上,訓練DBNs[27, 30-31]可以分為預訓練和微調兩個階段:在預訓練階段,采用無監督的貪心算法自底向上逐層訓練DBNs中的RBMs,得到初始DBNs的參數;在微調階段,采用無監督的wake-sleep算法對參數調優。為了使得DBNs具有分類功能,SSEDNs在DBNs的頂層添加判別網絡(例如SoftMax分類器),此時,DBNs與標準的前饋神經網絡相同,采用有監督的反向傳播算法[35]進一步調優DBNs參數。

1.3.2 深度結構化學習

SSEDNs通過級聯超像素的多維視覺特征HVF和節點空間關系特征NSF得到超像素的節點混合特征(node hybrid feature,NHF)。在此基礎上,相鄰超像素對的邊混合特征(edge hybrid feature,EHF)被定義為相鄰兩個超像素的節點混合特征NHF和邊空間關系特征ESF的組合。假設超像素為vi,相鄰超像素對vi和vj對應的邊為eij,則vi節點混合特征NHF和eij邊混合特征EHF可以分別表示為

NHF(i)=[HVF(i),NSF(i)]∈RNc+Nd+4×K

(13)

EHF(i,j)=[NHF(i)NHF(j)ESF(i,j)]

(14)

式中:HVF(i)表示vi的多維視覺特征HVF,NSF(i)表示vi的節點空間關系特征NSF,ESF(i,j)表示eij的邊空間關系特征ESF。

在此基礎上,節點混合特征NHF和邊混合特征EHF的DBNs融合過程可以分別表示為

θi=fusion(NHF(i))∈RK

(15)

θij=fusion(EHF(i,j))∈RK×K

(16)

式中:fusion表示DBNs的特征融合操作,θi表示DBNs生成的超像素vi的分類概率,θij表示DBNs生成的相鄰超像素對vi和vj對應邊eij的置信度。

為了深度結構化學習,SSEDNs以上述節點分類概率和邊的置信度重新定義CRFs的一元項U和二元項V的輸入,其中,一元項U可以表示為

U(yi,xi)=exp(-αuθi)

(17)

二元項V可以表示為

V(yi,yj,xij)=exp(-αvθij)

(18)

注意,與1.2.2節所述CRFs二元項V的含義不同,這里的V表示相鄰超像素對(vi,vj)類別為(yi,yj)的置信度。最后,SSEDNs通過上述一元項和二元項重新訓練CRFs,從而能夠根據相鄰超像素對之間的置信度進一步調優場景解析的結果。

2 實驗與分析

為了評價空間結構化編碼深度網絡SSEDNs的場景解析效果,SSEDNs使用場景解析標準數據集SIFT FLOW[33]和PASCAL VOC 2012[34]做訓練,并將測試結果與當前的先進方法作比較。另外, SSEDNs采用像素準確率、平均類別準確率和平均組合交叉準確率[3]作為場景解析的評價標準。

2.1 SSEDNs的訓練流程

SSEDNs由3類子網絡組成:全卷積神經網絡FCNNs、條件隨機場CRFs和深度置信網絡DBNs。由于SSEDNs各子網絡相互獨立,可以分別獨立訓練,因此,SSEDNs逐次訓練特征提取層(FCNNs)、結構化學習層(CRFs)以及特征融合層(DBNs),從而依次獲取各層的網絡參數,整個網絡框架的訓練簡單而快速。

在預處理階段,SSEDNs通過SLIC算法[23]對圖像進行超像素分割,同時將RGB顏色空間的圖像映射到LAB顏色空間[25]。

在特征提取階段,SSEDNs以卷積網絡工具包MatConvNet[36]提供的46層全卷積神經網絡‘fcn8s’為框架。首先,采用隨機梯度下降算法和反向傳播算法[3, 35]對‘fcn8s’網絡進行訓練和微調;然后,對‘fcn8s’各層提取的卷積特征和反卷積特征進行上采樣操作;最后,級聯上述各層特征生成像素的多維視覺特征,同時,通過計算超像素塊內所有像素特征的均值,從而得到超像素塊的多維視覺特征。

在結構化學習階段,SSEDNs使用基于MATLAB的UGM工具包[37]創建CRFs圖模型。首先,采用循環置信傳播算法和L-BFGS優化算法求解CRFs的參數[26],這樣,CRFs就能夠通過相鄰超像素對在LAB顏色空間的特征相似度來全局最優化分類概率;然后,根據空間結構化編碼算法生成超像素(節點)和相鄰超像素對(邊)的空間關系特征。

在特征融合階段,SSEDNs使用基于PYTHON的DBNs工具包[38]構建DBNs網絡。首先,采用貪心算法和反向傳播算法完成DBNs訓練[27-32];然后,分別以DBNs融合生成的節點分類概率和邊的置信度重新定義CRFs的一元項和二元項,并重新訓練CRFs。

SSEDNs的訓練和測試在一臺2.3 GHz Xeon CPU、128 GB內存的計算機上進行。

2.2 SIFT FLOW數據集

SIFT FLOW數據集由2 488張訓練圖像和200張測試圖像組成,共包含34類物體和背景。SSEDNs關于該數據集的實驗結果如表1所示,場景解析效果如圖5所示。

在表1中,‘FCNNs’表示全卷積神經網絡FCNNs的場景解析結果,‘FCNNs+CRFs’表示條件隨機場CRFs調優FCNNs后的結果,‘SSEDNs’表示所提出網絡的場景解析結果。從實驗結果中可以發現:首先,‘FCNNs+CRFs’的場景解析結果雖然優于‘FCNNs’,但是結果相差不大,說明CRFs的空間結構化學習能力較弱。然后,‘SSEDNs’的結果較‘FCNNs’和‘FCNNs+CRFs’相比有明顯提升,一方面說明僅僅包含視覺特征的場景解析效果一般,而融合視覺信息和空間結構化信息的特征能夠顯著提升網絡的場景解析結果,另一方面說明根據相鄰物體間的置信度可以進一步調優場景解析的結果。最后,與當前先進方法做比較[3, 13, 22],‘SSEDNs’在場景解析各評價標準中均取得最好的結果,其原因可以歸納為如下4點:1)SSEDNs使用FCNNs提取圖像不同抽象級別的視覺特征,從而得到級聯的多維視覺特征,另外,深度卷積特征和深度反卷積特征能夠互相彌補丟失的信息和糾正錯誤的信息,兩者級聯得到的多維特征能夠更準確地表達圖像的視覺信息;2)SSEDNs內嵌空間結構化編碼算法,通過該SSEAs分別生成超像素(節點)和相鄰超像素對(邊)的空間關系特征,該空間關系特征具有表示圖像中物體所處空間的物體分布以及物體之間的空間位置關系的能力,這不僅能夠修正單一視覺特征造成的分類錯誤,而且能夠避免不合理的分類預測(例如草原、湖泊或者公路出現在天空上方),從而提升場景解析的準確率;3)SSEDNs通過DBNs分別對超像素(節點)和相鄰超像素(邊)的混合特征進行融合,從而進一步挖掘視覺特征和空間關系特征之間的非線性關系,融

合后的特征能夠更全面地表達圖像的語義信息;4)SSEDNs分別以融合后的超像素(節點)分類概率和相鄰超像素對(邊)的置信度作為一元項和二元項來重新訓練CRFs,從而能夠根據相鄰物體之間的置信度進一步調優場景解析的結果。

表1SIFTFLOW數據集場景解析實驗結果

Table1TheexperimentalresultsonSIFTFLOWdataset%

圖5 SIFT FLOW場景解析效果Fig.5 The scene parsing results from the SIFT FLOW dataset

在圖5中,第1列表示輸入圖像,第10列表示Ground Truth,第2~4列分別表示‘FCNNs’、 ‘FCNNs+CRFs’和‘SSEDNs’對應的場景解析效果。從場景解析效果中可以發現:首先,從第2~4列,物體輪廓越來越接近Ground Truth,從而進一步證明了表1的實驗分析結果。然后,無論物體的輪廓是簡單(天空、大海、沙灘等)還是復雜(人、樹、植物等),場景解析的結果均與Ground Truth接近,說明SSEDNs提取的特征能夠更全面地表達圖像中物體的語義信息,具有更強的空間結構化學習能力。最后,對于尺寸很小的物體,SSEDNs可能會出現解析錯誤,其原因可能是超像素替代像素完成解析任務造成的,這樣雖然能夠加速整個網絡的訓練和預測,但是網絡卻可能丟失尺寸很小物體的細節信息。

2.3 PASCAL VOC 2012數據集

PASCAL VOC 2012數據集由20類前景物體和1類背景組成。原始的PASCAL VOC 2012數據集中分別包含1 464張訓練圖像、1 449張驗證圖像和1 456張測試圖像。為了使得整個網絡訓練得更加充分,SSEDNs使用PASCAL VOC 2012的2個擴展數據集[39-40],從而增加訓練圖像的數量。對于PASCAL VOC 2012數據集,通常采用平均組合交叉準確率作為評價網絡場景解析效果的標準,本文的實驗結果如表2所示,其場景解析效果如圖6所示。

從表2中可以發現:首先,‘SSEDNs’的場景解析結果明顯優于‘FCNNs’和‘FCNNs+CRFs’的結果,從而進一步證明具有空間關系特征學習能力的網絡能夠更準確地解析場景。其次,‘SSEDNs’與當前先進方法做比較[3, 7, 12-13, 22],也均取得較好的結果,從而印證了空間結構化編碼算法,通過SSEAs生成的空間關系特征不僅能夠更為準確的描述物體所處空間的物體分布,而且能夠表達相鄰物體之間的空間位置關系;在此基礎上與視覺特征相互融合,一方面彌補了單一視覺特征的不足,另一方面更準確地表達了圖像的語義信息,從而顯著提升了網絡場景解析的結果。

表2PASCALVOC2012數據集場景解析實驗結果

Table2TheexperimentalresultsonPASCALVOC2012dataset

%

圖6 PASCAL VOC 2012場景解析效果Fig.6 The scene parsing results from the PASCAL VOC 2012 dataset

3 結論

1)本文面向場景解析提出空間結構化編碼深度網絡SSEDNs。SSEDNs通過有機地結合條件隨機場CRFs和空間結構化編碼算法SSEAs,使其具有較強的空間結構化學習能力,從而彌補現有方法結構化學習能力的不足,顯著地提升了場景解析的結果。

2)實驗結果表明,在SIFT FLOW和PASCAL VOC 2012標準數據集下,SSEDNs的場景解析結果具有較高的準確率。因此,SSEDNs可以應用到實際的視覺任務中,從而提升機器人、無人機、水下航行器等的自主導航能力。

3)SSEDNs可以被劃分為3個獨立的部分,這樣雖然能夠縮短網絡的訓練和測試時間,但是可能無法充分地利用結構化學習層的優勢。因此,本文后續準備研究構建網絡3個部分的新架構,從而適合利用反向傳播算法聯合優化整個網絡,進一步挖掘結構化學習層的空間結構化學習能力。

[1] SHOTTON J, WINN J, ROTHER C, et al. Textonboost for image understanding: Multi-class object recognition and segmentation by jointly modeling texture, layout, and context[J]. International journal of computer vision, 2009, 81(1): 2-23.

[2] FARABET C, COUPRIE C, NAJMAN L, et al. Learning hierarchical features for scene labeling[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1915-1929.

[3] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(4): 640-651.

[4] NOH H, HONG S, HAN B. Learning deconvolution network for semantic segmentation[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1520-1528.

[5] BADRINARAYANAN V, KENDALL A, CIPOLLA R. Segnet: a deep convolutional encoder-decoder architecture for image segmentation[EB/OL]. 2015,arXiv preprint arXiv:1511.00561, 2015.

[6] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. Computer sience, 2014(4): 357-361.

[7] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE transactions on pattern analysis & machine Intelligence, 2017.

[8] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Advances in neural information processing Systems, 2012, 25(2): 2012.

[9] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-4-10) ,arXiv preprint arXiv:1409.1556.

[10] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Boston, USA, 2015: 1-9.

[11] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Eighteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc, 2001: 282-289.

[12] ZHENG S, JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1529-1537.

[13] LIN G, SHEN C, VAN DEN HENGEL A, et al. Efficient piecewise training of deep structured models for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 3194-3203.

[14] LIU F, LIN G, SHEN C. CRF learning with CNN features for image segmentation[J]. Pattern recognition, 2015, 48(10): 2983-2992.

[15] BYEON W, LIWICKI M, BREUEL T M. Texture classification using 2d lstm networks[C]//2014 22nd International Conference on. Pattern Recognition (ICPR). [S.l.]2014: 1144-1149.

[16] THEIS L, BETHGE M. Generative image modeling using spatial LSTMs[C]//Advances in Neural Information Processing Systems.[S.l.] 2015: 1927-1935.

[17] BYEON W, BREUEL T M, RAUE F, et al. Scene labeling with lstm recurrent neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3547-3555.

[18] LIANG X, SHEN X, XIANG D, et al. Semantic object parsing with local-global long short-term memory[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 3185-3193.

[19] LIANG X, SHEN X, FENG J, et al. Semantic object parsing with graph lstm[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 125-143.

[20] LI Z, GAN Y, LIANG X, et al. LSTM-CF: Unifying context modeling and fusion with LSTMS for RGB-D scene labeling[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 541-557.

[21] ZHANG R, YANG W, PENG Z, et al. Progressively Diffused Networks for Semantic Image Segmentation [EB/OL]. [2016-12-20], arXiv preprint arXiv:1702.05839.

[22] BU S, HAN P, LIU Z, et al. Scene parsing using inference Embedded Deep Networks[J]. Pattern recognition, 2016, 59: 188-198.

[23] ACHANTA R, SHAJI A, SMITH K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(11): 2274-2282.

[24] HUNTER R S. Photoelectric color difference meter[J]. JOSA, 1958, 48(12): 985-995.

[25] SMITH T, GUILD J. The CIE colorimetric standards and their use[J]. Transactions of the optical society, 1931, 33(3): 73.

[26] KOLLER D, FRIEDMAN N. Probabilistic graphical models: principles and techniques[M]. [S.l.]: MIT Press, 2009.

[27] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

[28] FREUND Y, HAUSSLER D. Unsupervised learning of distributions on binary vectors using two layer networks[C]//Advances in neural information processing systems, 1992: 912-919.

[29] HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Training, 2006, 14(8).

[30] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.

[31] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[C]//Advances in Neural Information Processing Systems, 2007: 153-160.

[32] HINTON G. A practical guide to training restricted Boltzmann machines[J]. Momentum, 2010, 9(1): 926.

[33] LIU C, YUEN J, TORRALBA A. Nonparametric scene parsing via label transfer[J]. IEEE transactions on pattern analysis and machine intelligence, 2011, 33(12): 2368-2382.

[34] EVERINGHAM M, ESLAMI S M A, VAN GOOL L, et al. The pascal visual object classes challenge: A retrospective[J]. International journal of computer vision, 2015, 111(1): 98-136.

[35] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop[M]//Neural networks: Tricks of the trade. Berlin Heidelberg: Springer, 2012: 9-48.

[36] VEDALDI A, LENC K. Matconvnet: convolutional neural networks for matlab[C]//Proceedings of the 23rd ACM international conference on Multimedia. 2015: 689-692.

[37] SCHMIDT M. UGM: A Matlab toolbox for probabilistic undirected graphical models [2016-12-20]. [EB/OL]. URL http://www. cs. ubc. ca/schmidtm/Software/UGM. html.

[38] PERCEPTRON M. DeepLearning 0.1 documentation. [EB/OL].2014,URL http://deeplearning.net/tutorial/

[39] HARIHARAN B, ARBELáEZ P, BOURDEV L, et al. Semantic contours from inverse detectors[C]//2011 IEEE International Conference on Computer Vision (ICCV). 2011: 991-998.

[40] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: Common objects in context[C]//European conference on computer vision. Springer, 2014: 740-755.

本文引用格式:

張國印, 王澤宇, 吳艷霞, 等. 面向場景解析的空間結構化編碼深度網絡[J]. 哈爾濱工程大學學報, 2017, 38(12): 1928-1936.

ZHANG Guoying, WANG Zeyu, WU Yanxian, et al.Spatial structure encoded deep networks for scene parsing[J]. Journal of Harbin Engineering University, 2017, 38(12): 1928-1936.

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 久久中文字幕2021精品| 国产人人射| 丁香五月激情图片| 国产精品入口麻豆| 青青青视频91在线 | 日韩无码一二三区| 57pao国产成视频免费播放| 美女被操黄色视频网站| 18禁黄无遮挡免费动漫网站| 色婷婷综合在线| 国产精品网址在线观看你懂的| 国产网友愉拍精品| 国产成人亚洲日韩欧美电影| 日本黄色不卡视频| 天天综合亚洲| 国产福利在线观看精品| 中文字幕乱码二三区免费| 无码乱人伦一区二区亚洲一| 尤物精品视频一区二区三区| 国产第一页屁屁影院| 手机精品福利在线观看| 99久久精品视香蕉蕉| av大片在线无码免费| 欧美黄色网站在线看| 国产精品第三页在线看| 国产99免费视频| 91久草视频| 91小视频在线| 亚洲永久精品ww47国产| 国产精品福利导航| 中文字幕在线一区二区在线| 91麻豆精品国产高清在线| 一本一道波多野结衣av黑人在线| 久久情精品国产品免费| 无码人中文字幕| 无码国产伊人| 乱人伦99久久| www.国产福利| 日韩高清中文字幕| 四虎国产在线观看| 国产色图在线观看| 欧美在线一二区| 91精品啪在线观看国产60岁 | jizz国产视频| 日韩精品专区免费无码aⅴ| 最新无码专区超级碰碰碰| 亚洲国产高清精品线久久| 欧美日韩中文字幕二区三区| 特级毛片免费视频| 99视频在线精品免费观看6| 波多野结衣的av一区二区三区| 国产精品第页| 亚洲一区毛片| 精品国产香蕉伊思人在线| 92精品国产自产在线观看 | 欧美一级高清片欧美国产欧美| 五月天综合网亚洲综合天堂网| 欧美天天干| 国产激爽大片高清在线观看| 成人国产精品2021| 伊人精品成人久久综合| 国产在线拍偷自揄观看视频网站| 日韩欧美国产另类| 9966国产精品视频| 全裸无码专区| 国产精品美女网站| jizz国产在线| 精品一区二区无码av| 国产精品私拍在线爆乳| 国产夜色视频| 国产微拍精品| AV在线天堂进入| 色综合狠狠操| 中文字幕2区| 亚洲欧美极品| 成色7777精品在线| 色网站免费在线观看| 国产内射一区亚洲| 精品国产99久久| 日本91在线| 视频一本大道香蕉久在线播放| 亚洲资源在线视频|