999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合CRF與ShapeBM形狀先驗的圖像標記

2017-05-03 07:37:34王浩郭立君王亞東張榮
電信科學 2017年1期
關鍵詞:模型

王浩,郭立君,王亞東,張榮

(寧波大學信息科學與工程學院,浙江 寧波 315211)

結合CRF與ShapeBM形狀先驗的圖像標記

王浩,郭立君,王亞東,張榮

(寧波大學信息科學與工程學院,浙江 寧波 315211)

條件隨機場(CRF)是一種強大的圖像標記模型,適合描述圖像相鄰區域間(例如超像素)的相互作用。然而,CRF沒有考慮標記對象的全局約束。對象的整體形狀可以作為對象標記的一種全局約束,利用形狀玻爾茲曼機(ShapeBM)在建模對象的整體形狀方面的優勢,提出了一種CRF與ShapeBM相結合的標記模型。標記模型建立在超像素的基礎上,并通過pooling技術在CRF的超像素層與ShapeBM的輸入層間建立對應關系,增強了 CRF與 ShapeBM結合的有效性,提高了標記準確率。在 Penn-Fudan Pedestrians數據集和 Caltech-UCSD Birds 200數據集上的實驗結果表明,聯合模型明顯地改善了標記結果。

條件隨機場;形狀玻爾茲曼機;聯合模型;超像素;圖像標記

1 引言

圖像分割與區域標記是計算機視覺中的核心技術,目的是把圖像區域分割成相關的若干部分。現如今很多視覺中的高層應用都依賴于準確的圖像分割結果或者標記結果,如對象識別、場景分析等。由于存在遮擋、陰影、目標與背景特征相似等問題使得圖像分割與標記一直是計算機視覺中最富有挑戰性的任務之一。

在圖像標記中將圖像標記成對象(前景)與背景部分,已有研究工作表明,CRF常常被用于圖像標記任務。在圖像的標記任務中,圖像的局部約束關系一般表示表觀特征的局部一致性(相鄰的區域更可能具有相同標記)。CRF是一個概率圖模型,能夠有效地描述圖像的局部約束關系,而對要標記對象的全局約束關系的描述具有局限性。例如,當對象部分區域邊界模糊時,CRF僅僅利用圖像的局部約束關系,很可能將表觀特征相似的背景錯標記成對象部分,或者反之。在這種情況下,引入對象的全局約束來補充CRF在對象標記上的局限性。近年的研究表明,受限的玻爾茲曼機(RBM)和它的一些擴展模型,例如深度玻爾茲曼機(DBM)等,常常被用于目標對象的形狀建模,特別是Eslami等人提出的ShapeBM (形狀玻爾茲曼機)在捕捉目標對象的形狀方面有很好的表現,而對象的形狀信息可以作為對象全局約束的一種表示。本文提出了一種CRF結合ShapeBM的標記模型,有效結合了CRF模型(增強相鄰節點之間的局部約束)與ShapeBM模型(獲得目標對象的整體形狀信息作為對象的全局約束)的優點,獲得較好的標記效果。這個模型有效地權衡了以下3個目標。

· 區域標記結果應該與圖像的底層特征一致。

· 完整的圖像標記結果應該符合通過訓練數據所學習到的形狀先驗。

· 結合局部與全局約束使得區域標記結果遵守對象邊界。

其中,第一個目標由CRF部分完成,第二個目標通過訓練ShapeBM完成,而第三個目標由CRF與ShapeBM聯合完成。在Penn-Fudan Pedestrians數據集和Caltech-UCSD Birds 200數據集上評估了所提出的模型的標記效果,經過實驗論證發現提出的模型比 CRF和ShapeBM等模型效果好。

本文的主要工作總結如下。

·所提出的模型有效地結合了CRF和ShapeBM模型,保持了圖像局部約束與對象全局約束的一致性。

·針對聯合模型求解較難的問題,給出了有效的訓練和推斷算法。

· 聯合模型在對象標記的結果上要明顯優于基本的CRF模型與ShapeBM模型。

2 相關工作

Lafferty等人在2001年基于隱馬爾可夫模型和最大熵模型的理論基礎提出了CRF[1],是一種概率圖模型,最早應用于自然語言處理,近年來已成功應用于圖像分割[2-5]。He等[3]用CRF分割靜態圖像,通過引入隱隨機變量加入更多的上下文知識以便進行圖像分割。Zhang等[6]將超像素方法引入CRF模型中,通過一種各向異性擴散算法將圖像過分割成超像素區域,然后將區域作為CRF圖模型中的節點,通過參數估計獲得給定測試圖像的最優標記。上述方法均只利用圖像局部約束信息,缺乏標記對象的全局約束信息,導致對象邊界模糊的情況,分割效果不理想。針對上述情況,引入對象全局約束信息來補充CRF的局限很有必要。對象的形狀約束信息可以作為對象全局約束信息的一種表現形式,最近很多文獻都采用了RBM[7]或者其擴展模型來獲取對象的形狀約束信息。Salakhutdinov等[8]在RBM的基礎上提出DBM,是一個多層的RBM模型,通過多層的RBM進行特征提取獲得目標對象的高層語義特征如形狀、姿態等。Eslami等[9]提出了ShapeBM,是一個兩層的DBM,第一層將輸入單元分成4部分,每一部分與其相對應的部分隱單元連接,而第二層與RBM相同采用全連接,ShapeBM在對象形狀建模上取得較好效果。近年來有許多方法也在圖像的局部約束和對象的全局約束相結合上做了很多工作。Kae等[10,11]提出通過RBM模型學習人臉形狀先驗特征作為對象全局約束,并借助于CRF分割框架能夠融入其他分割線索的特性,將所學到的形狀先驗融入CRF分割框架中,獲得較好的分割與標記效果。Chen等[12]通過ShapeBM學到的對象形狀先驗結合到 Cremers等[13]提出的變分分割模型中,通過求其能量函數最小達到分割的效果。

聯合模型同樣根據CRF分割框架能夠融入多種分割線索的特性,通過ShapeBM學習對象的形狀先驗,并以能量項的形式融入CRF分割框架中,通過有效訓練和推斷算法,得到最終標記結果。所提出的模型盡管與上述介紹的局部與全局約束相結合的方法相似,但是聯合模型與它們有一些區別。首次提出CRF與ShapeBM結合的聯合標記模型,該聯合模型采用超像素標簽代替像素標簽,有效地利用了超像素邊界通常與真實對象邊界一致的特性,提高了聯合模型的分割效果并且降低了聯合模型計算的復雜性,并且通過pooling技術解決了圖像的超像素個數與ShapeBM輸入節點不對應問題,使得CRF與 ShapeBM有效結合并保持了圖像局部約束與對象全局約束的一致性。

3 模型建立

提出CRF與ShapeBM結合的聯合模型,該模型有效地結合了圖像局部約束與對象全局約束,其中用CRF描述圖像的局部約束,用ShapeBM描述對象形狀作為對象的全局約束,首先分別介紹基本CRF模型、ShapeBM模型,在此基礎上詳述提出的CRF與ShapeBM相結合的聯合模型。

使用如下定義。

·S(I)表示圖像I的超像素個數。

·V(I)={1,…,S(I)}表示第 I幅圖像的超像素節點的

集合。

·ε(I)={(i,j),i,j∈V(I)}表示相鄰超像素節點組成的邊

的集合。

·V(I)={XV(I),Xε(I)}表示節點特征與邊特征的集合,其中XV(I)表示節點特征的集合即{xsnode∈RDn,S∈V},Dn表示節點特征的維度。Xε(I)表示相鄰節點連接邊的邊特征集合即{xijedge∈RDe,(i,j)∈ε},De表示邊特征的維度。

·Y(I)={ys∈{0,1}L,S∈V表示圖像超像素節點標簽的集合,其中 L表示類標簽數,本文的實驗中 L為 2,ys中 0表示背景,1表示對象 (前景)。即本文中的聯合模型完成圖像前景背景二類標記問題。

3.1CRF

CRF是一個強大的判別型模型,并在文本分析、圖像分割[2-4,14]等領域有廣泛應用。CRF的條件分布與其能量函數定義如下:

其中,Enode(Y,XV)表示CRF中的一階勢,表示超像素屬于對象或屬于背景的似然。Eedge(Y,Xε)表示二階勢,主要決定了兩個超像素之間是如何相互作用的,體現對象的局部約束,主要作用是去除鋸齒、平滑邊界。通過求解訓練集 V(I)={Y(I),X(I)}Ii=1的最大條件似然概率來訓練其模型參數:

對于該條件似然概率可以通過 LBP (loopy belief propagation)[15]或者結合了標準優化算法 LBFGS[16]的平均場估計[17](mean-field approximation)計算。

3.2ShapeBM

針對對象形狀信息的獲取,近些年RBM及其擴展模型在這方面應用較多,本文所采用的模型是RBM的一種擴展模型ShapeBM,已有文獻證明它相對于RBM能夠更加有效地提取對象整體形狀信息。RBM可以被視為一個無向圖,具有一個可見層、一個隱藏層,其層間全連接層內無連接,結構如圖1(a)所示。ShapeBM是一個3層模型,具有一個可見層和兩個隱層,ShapeBM具體結構如圖1(b,c)所示,由圖1(c)可以看出,ShapeBM的可見層與第一層隱層相比RBM有些變化,主要是可見層分成了4部分區域,并且每部分區域之間有部分重疊,區域重疊使得ShapeBM能夠更好地訓練對象邊界的連續性。另外,可見層中每部分可見單元與其相對應的部分隱層單元的連接權值共享(如圖1(c)中陰影部分可見單元與陰影部分隱層單元的連接權值可以共享作為其他顏色部分的連接權)。但其可見單元偏置不共享。權值共享使得ShapeBM第一層的參數相對于全連接方式要縮小16倍,即ShapeBM對訓練集數量要求變小。ShapeBM兩個隱層的隱單元間的連接方式與RBM相同,采用全連接。

ShapeBM能通過圖模型的多層結構對對象的整體形狀信息進行提取,使其最高層隱單元含有一些形狀信息,通過實驗結果驗證了這一點。在Penn-Fudan Pedestrians數據集和Caltech-UCSD Birds 200數據集上通過一定數量的訓練集訓練,得到了ShapeBM最高層隱單元所含有的形狀信息,并通過重構得出可視化的結果,圖2列舉出部分代表性重構結果。由其結果可以看出,ShapeBM能夠得到對象的整體形狀,但可能會丟失一些細節,這也表明,能夠對同一類對象的形狀進行抽象描述。由此可見,ShapeBM能夠抽象出對象形狀作為對象全局約束融合到聯合標記模型中。

圖1 ShapeBM結構

圖2 部分代表性重構結果

在本文中,假設ShapeBM有R2個可見單元yr∈{0,1}L,第一層隱層h1有K個隱單元,第二層隱層h2有M個隱單元。它們的聯合分布可以有如下定義:

其中,W1∈RR2×L×K是可見單元與第一層隱單元之間的連接權重,W2∈Rk×M表示第一層隱層h1與第二層隱層h2之間的連接權重。bk表示第一層隱節點的偏置值,arl表示可見節點的偏置值,cm表示第二層隱節點的偏置值。訓練ShapeBM分為兩步,首先采用DBM分層貪婪預訓練的方式去預訓練ShapeBM的每一層,預訓練第一個RBM時其連接方式要遵守ShapeBM的連接方式,通過預訓練的方式得到初始化參數θ={W1,W2,a,b,c}。將得到的初始化參數θ={W1,W2,a,b,c}作為 ShapeBM的初始參數,然后采用隨機梯度下降(stochastic gradient descent)法最大化如下對數函數來微調參數θ:

由于參數的梯度不易直接求解,采用平均場估計(mean-field approximation)來近似計算。

3.3 聯合模型

在圖像標記中,表觀特征的局部一致性(相鄰的區域更可能具有相同標記)和全局一致性約束(對象的整體形狀)都很重要。一方面,CRF在通過二階勢(邊勢能)建模局部一致性方面具有優勢;另一方面,ShapeBM能通過隱層單元描述對象全局形狀結構。本文從兩者優點出發,采用有效的方式融合了CRF與ShapeBM得到聯合標記模型,使其既有局部約束又有全局約束即對象形狀信息。

3.3.1 基于超像素的CRF與ShapeBM結合方式

聯合模型中CRF與ShapeBM的結合是基于超像素的,基于超像素的結合有以下兩點好處:一,超像素的邊界通常為真實對象邊界,提高了聯合模型的分割效果;二,采用超像素代替像素,降低了計算的復雜性。然而,采用超像素也給CRF與ShapeBM的結合帶來一定困難。由于不同圖像的超像素個數不固定,而ShapeBM要求輸入層的可見層節點數量是固定的,這造成超像素個數與ShapeBM的輸入節點不對應,因此不能簡單地將超像素標簽層作為ShapeBM的輸入與其隱節點直接相連,需要對其進行處理。為了建立超像素標簽層與ShapeBM隱節點之間的連接,在超像素標簽層與ShapeBM隱層之間引入一個固定大小的虛擬標簽層,將每個超像素標簽節點通過pooling方式映射到R×R個虛擬標簽層節點,每個虛擬可見節點都是一個小方格,如圖3所示,上面3層是ShapeBM部分,包括虛擬可見節點層以及兩層隱藏節點層。下兩層是CRF部分,包括特征層以及超像素標簽層。其中P(i)rs1表示pooling中的映射概率用r來表示一個虛擬節點的標簽。重新定義ShapeBM的能量函數,其函數定義如下:

圖3 聯合模型

其中,Region(s)和Region(r)表示對應超像素s覆蓋區域和標簽層第r個節點在超像素層投影覆蓋的區域。

另外,CRF部分采用的是基本 CRF的一個變形叫做空間條件隨機場(SCRF)[10],它利用了對象空間分布的特征,將對象的空間依賴關系引入CRF。例如,在空間上人體的頭部在軀干的上方,而軀干在腿部的上方。具體做法將圖像規則成 N×N的虛擬小格(注意這里的虛擬小格的大小與上文 ShapeBM虛擬輸入中的 R×R的虛擬小格不同),這時一個超像素可能跨越多個虛擬小格,這樣每個超像素落在不同小格的部分都能夠學習到不同的節點特征權重。本文定義SCRF的一階勢函數如下:

其中,Nsd表示第 S個超像素的節點特征,αnld為每個超像素落在不同虛擬方格部分的節點權重,Psn表示每個超像素由哪幾個虛擬小方格組成psn求解類似于上文prs采用面積比,區別在于psn表示每個小方格在一個超像素中的面積占比。

SCRF二階勢函數定義如下:

其中,xije表示邊特征,用來衡量相鄰超像素之間的相似度。βll′e為相鄰超像素間邊特征的對應權重。

有了SCRF和ShapeBM的具體形式,而本文聯合模型是在超像素的基礎上結合SCRF與ShapeBM模型。因此,可以得到聯合模型的具體形式。具體地,在給定的超像素特征X下,超像素標簽集Y的條件分布以及能量函數定義如下:

從上述定義可以看出,聯合模型的結合在形式上僅僅是結合了SCRF和ShapeBM的能量函數。但是,實際上,本文提出的基于超像素的pooling方式在SCRF和ShapeBM的結合上起著至關重要的作用。

3.3.2 聯合模型的訓練與推斷

關于聯合模型的訓練,原則上,可以直接通過最大化條件似然概率來一起訓練模型的參數{W1,W2,a,b,c,α,β}。但是實際上,會通過單獨預訓練SCRF和ShapeBM來提供一組參數作為聯合模型的初始參數,然后采用隨機梯度下降法(stochastic gradient descent)最大化聯合模型對數似然函數來調整參數{W1,W2,a,b,c,α,β}。模型的整個訓練步驟見算法1。在算法1的步驟3采用隨機梯度下降法最大化條件似然過程中,由于參數的梯度不易直接求解,本文采用CD-PercLoss[18]方法來近似估計參數梯度,而在CD-PercLoss算法反向計算過程中所推斷出的超像素標簽不僅僅與ShapeBM的隱節點有關,還與CRF有關,因此超像素的標簽和隱節點的聯合推斷是必需的。本文采用平均場估計的方法來解決該聯合推斷問題。具體地,發現分布其中能夠使達到最小。即可以通過平均場估計的方法循環迭代更新 μsl和 γm來使模型的能量達到最小,從而獲得較優的標記結果。平均場具體推斷步驟見算法2。

算法1 訓練聯合模型

(1)通過最大化空間CRF模型(SCRF)的條件似然來預訓練參數{α,β}(見式(1)、式(2)、式(9)和式(10))。

(3)通過最大化聯合模型的條件似然來訓練參數{W1,W2,a,b,c,α,β}(見式(11))。

算法2 平均場推論

(1)初始化μ(0)和γ(0),

(2)for t=0:maxiter(或者直到收斂)do更新 μ(t+1),

更新 γ(t+1),

4 實驗與分析

4.1 數據集

本文在 Penn-Fudan Pedestrians數據集[19]和 Caltech-UCSD Birds 200數據集[20]上評估了所提出的聯合模型的標記效果。Penn-Fudan Pedestrians數據集共有170張圖像,每張圖像包含至少一個行人,每個被標記的行人都有ground-truth。根據Penn-Fudan Pedestrians數據集的行人檢測框標記信息提取出行人檢測框部分的圖像,得到423張單個行人圖像并將圖像大小統一為128 dpi×256 dpi像素。為了增加訓練和測試樣本,對Penn-Fudan Pedestrians數據集提取的 423張行人圖像進行鏡像對稱復制形成846張圖像的數據集,其中500張圖像作為訓練集,346張圖像作為測試集。

Caltech-UCSD Birds 200數據集包含 200類鳥類的6 033張圖像,圖像擁有粗糙的分割掩膜,因為其掩膜精確度不夠,Yang等人[21]手動標記出該數據集中圖像的準確掩膜,采用Yang等人手動標記的準確掩膜作為該數據集標準結果。另外本文根據數據集提供的檢測框標記對6 033張圖像分別提取出其中檢測框部分的圖像并將圖像大小統一為128 dpi×128 dpi像素。其中3 033張圖像作為訓練圖像,3 000張圖像作為測試圖像。

4.2 仿真與分析

本文對兩個數據集中的每張圖像都采用SLIC[22]方法進行超像素分割(如圖4所示),并基于標準分割掩膜對每個超像素進行了標記作為 ground-truth。圖 4(a)是Penn-Fudan Pedestrians數據集和 Caltech-UCSD Birds 200數據集中根據標記信息提取的單張圖像,圖4(b)是通過SLIC方法分割獲得的超像素圖片,圖4(c)為ground truth。

圖4 超像素分割

對每個超像素使用如下的節點特征。

·顏色:在LAB空間中采用K-means產生的64位歸一化顏色直方圖。

·紋理:采用參考文獻[23]產生的64位歸一化紋理直方圖。

·位置:每張圖像規則成8 dpi×8 dpi的方格,超像素落在每個方格的概率直方圖。相鄰超像素之間采用如下的邊特征。

· 采用參考文獻[24]邊界的PB值之和。

· 平均顏色直方圖之間的歐式距離。

· 采用參考文獻[25]計算紋理直方圖之間的卡方距離。

評估模型的標記能力時采用了4種不同的模型:標準的CRF、SCRF、ShapeBM以及本文聯合模型。本文在CPU為Intel Xeon E5-2650 2.60 GHz,內存為128 GB的計算機上進行實驗。

本文正確率的衡量標準如下:

式(13)主要表示標記正確的超像素個數和總的超像素個數的比例。其中Yi表示第i張測試圖像的超像素標記結果,OR為異或操作,GT(i)為第張測試圖像超像素標記的ground-truth,I表示測試圖像的數量。

針對Penn-Fudan Pedestrians數據集,經過多次實驗證明,本文設置參數K=500,M=200,R=30,N=23具有較優的效果。通過10次交叉實驗,每次實驗的500張訓練圖像和346張測試圖像都不完全相同,通過式(13)得到每次實驗的準確率并通過平均得到本文最終實驗準確率87.90%。在相同實驗情況下,相對于標準CRF,SCRF、ShapeBM在超像素標記上準確率都有提高,具體對比結果見表1。表1中的錯誤率減少的比例表示模型相較于標準的CRF錯誤率減少程度。還給出了Penn-Fudan Pedestrians數據集中具有代表性的部分可視化分割結果,如圖5所示。圖5(a)表示聯合模型相較于其他模型分割效果較好的部分對比結果,圖5(b)表示聯合模型分割效果不理想的部分對比結果,其中第一列為原圖,第二列為CRF模型分割結果,第三列為SCRF模型分割結果,第四列為本文聯合模型分割結果,第五列為ground-truth。聯合模型結合了對象的整體形狀先驗,所以相對于其他的兩個未增加對象整體形狀信息的模型,聯合模型能夠調整明顯違背對象形狀信息的錯誤標記,如圖5(a)中第1行,行人兩腿中間有一塊錯誤標記,該錯誤標記明顯違背了對象形狀信息,聯合模型通過形狀信息將該部分錯誤標記調整過來。另外,如圖5(a)中第2行,行人的臉部和行人的手臂處都有一部分缺少,而聯合模型能夠通過形狀信息將其填充完整。然而,聯合模型有時在部分樣本上分割效果不理想,如圖5(b)中第2行,由于圖片分辨率較低以及光照影響較強,聯合模型在處理光照變化存在一定局限性,所以導致圖像分割失敗,但是其他模型在這種情況下分割效果也不理想。如圖5(b)中第5行,圖像中人體對象的腿部部分,聯合模型將背景中的腿部部分錯誤估計為人體對象形狀的一部分造成錯誤分割。

針對Caltech-UCSD Birds 200數據集,經過多次實驗證明,設置參數K=400,M=100,R=32,N=21具有較優的效果。通過10次交叉實驗,每次實驗的3 033張訓練圖像和3 000張測試圖像都不完全相同,通過式(13)得到每次實驗的準確率并通過平均得到本文最終實驗準確率83.34%。在相同實驗情況下,相對于標準CRF,SCRF、ShapeBM在超像素標記上準備率對比結果見表2,可以看出聯合模型準確率為83.34%相對于其他方法有提高。理論上,該數據集上聯合模型正確率提高的程度應該比Penn-Fudan Pedestrians數據集上高,因為該數據集的訓練樣本多,訓練效果應該更好。但是實際上,從具體數據看,在該數據集上聯合模型正確率提高的程度相對于Penn-Fudan Pedestrians數據集提高的程度反而較低,主要因為該數據集中包含了200類鳥類圖片,各類鳥類的形狀差異較大。而本文是直接將3 033張多類鳥類的圖像統一作為訓練集,使得訓練集中鳥類形狀多樣化,所以聯合模型訓練出的結果并不理想。后期可以考慮將形狀近似的鳥類作為訓練集, 訓練出一個較好的結果。關于Caltech-UCSD Birds 200數據集的具有代表性的部分可視化分割結果如圖6所示。

表1 本文方法與其他方法在Penn-Fudan Pedestrians數據集上標記準確率對比

表2 本文方法與其他方法在Caltech-UCSD Birds 200數據集上標記準確率對比

圖5 Penn-Fudan Pedestrians數據集上的部分分割結果

圖6 Caltech-UCSD Birds 200數據集上的部分分割結果

對聯合模型的算法復雜度進行分析。CRF模型使用LBP算法預測一副圖像標簽的時間復雜度是O(ELC)[28],E為圖模型中邊的數量,邊數與超像素個數S直接關聯,使用Ncut算法估算E為4×S,C為超像素塊的大小,即CRF算法復雜度為ShapeBM模型算法復雜度分為正向學習階段時間復雜度和反向學習階段時間復雜度,其中正向學習的時間復雜度為O(N×h1×h2×n),反向學習的時間復雜度為 O(N×h1×h2×kCD1×kCD2),則ShapeBM算法復雜度為O(N×h1×h2×(kCD1+kCD2+n)),其中N表示ShapeBM虛擬輸入節點個數,h1表示第一層隱層節點個數,h2表示第二層隱層節點個數,kCD1、kCD2表示對比散度算法迭代次數,n表示迭代次數。因為聯合模型的能量函數是SCRF與ShapeBM的能量函數的疊加,即SCRF與ShapeBM能量函數為線性關系,故聯合模型的整體復雜度為即聯合模型在標記準確率提高的情況下,整體復雜度并沒有更復雜。

5 結束語

本文提出了一種結合CRF與ShapeBM的新標記模型,將ShapeBM與CRF的結合建立在超像素基礎上,通過pooling技術克服圖像超像素個數與ShapeBM輸入不對應問題,使得該模型有效地結合了CRF模型(增強相鄰節點之間的局部約束)與ShapeBM模型(獲得目標對象的整體形狀信息作為對象的全局約束)的優點。在與其他方法的對比實驗中驗證了本文模型在標記準確性方面的優勢。在未來的工作中,可以將本文的二類標記應用到多類標記中,可以做人體對象的部件檢測、場景分析。另外,可以在該模型中加入時間勢,在視頻幀之間建立聯系,后期可將該模型擴展到視頻對象分割上。

[1]LAFFERTY J,MCCALLUM A,PEREIRAF C,etal. Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//ICML,June 28-July 1,2001, Williams College,UK.New Jersey:IEEE Press,2001.

[2]BORENSTEIN E,SHARON E,ULLMAN S,et al.Combining top-down and bottom-up segmentation [C]//Conference on Computer Vision and Pattern Recognition,June 27-July 2, 2004,Washington,DC,USA.New Jersey:IEEE Press,2004.

[3]HE X,ZEMEL R S,CARREIRAPERPINAN M A,et al. Multi-scale conditional random fields for image labeling[C]// Conference on Computer Vision and Pattern Recognition,June 27-July 2,2004,Washington,DC,USA.New Jersey:IEEE Press, 2004.

[4]HE X,ZEMEL R S,RAY D,et al.Learning and incorporating top-down cues in image segmentation[C]//European Conference on Computer Vision,May 7-13,2006,Graz,Austria.New Jersey:IEEE Press,2006:338-351.

[5]SHOTTON J,WINN J,ROTHER C,et al.Texton boost for image understanding: multi-class object recognition and segmentation by jointly modeling texture,layout,and context[J]. International Journal of Computer Vision,2009,81(1):2-23.

[6]ZHANG L.A unified probabilistic graphical model and its application to image segmentation[J].Rensselaer Polytechnic Institute,2009(3).

[7]SMOLENSKY P.Information processing in dynamical systems: foundations of harmony theory[M].Cambride:MIT Press,1986(1): 194-281.

[8]SALAKHUTDINOV R,HINTON G E.Deep Boltzmann machines[J].Journal of Machine Learning Research,2009,5(2): 1967-2006.

[9]ESLAMI S M,HEESS N,WILLIAMS C K,et al.The shape Boltzmann machine:a strong modelofobjectshape[J]. International Journal of Computer Vision,2014,107(2):155-176.

[10]KAE A,SOHN K,LEE H,et al.Augmenting CRFs with Boltzmann machine shape priors forimage labeling[C]// Conference on Computer Vision and Pattern Recognition,June 23-28,2013,Portland,Oregon,USA.New Jersey:IEEE Press, 2013.

[11]KAE A,MARLIN B M,LEARNEDMILLER E G,et al.The shape-timerandom field forsemantic video labeling[C]// Conference on Computer Vision and Pattern Recognition,June 23-28,2014,Columbus,OH,USA.New Jersey:IEEE Press, 2014.

[12]CHEN F,YU H,HU R,et al.Deep learning shape priors for object segmentation[C]//Conference on Computer Vision and Pattern Recognition,June 23-28,2013,Portland,Oregon,USA. New Jersey:IEEE Press,2013.

[13]CREMERS D,SCHMIDT F R,BARTHEL F,et al.Shape priors in variational image segmentation: Convexity, Lipschitz continuity and globally optimal solutions[C]//Conference on Computer Vision and Pattern Recognition,June 24-26,2008, Anchorage,Alaska,USA.New Jersey:IEEE Press,2008.

[14]ARBELAEZP,HARIHARAN B,GU C,etal.Semantic segmentation using regions and parts [C]//Conference on Computer Vision and Pattern Recognition,June 16-21,2012, Providence,RI,USA.New Jersey:IEEE Press,2012.

[15]MURPHY K,WEISS Y,JORDAN M I,et al.Loopy beliefpropagation for approximate inference:an empirical study[C]// 15th Conference on Uncertainty in Artificial Intelligence,July 30-August 1,1999,Stockholm,Sweden.New Jersey:IEEE Press,1999.

[16]SCHMIDT M. minFunc: unconstrained differentiable multivariate optimization in Matlab[EB/OL].[2016-07-10].http://www.di.ens.fr/~mschmidt/Software/minFunc.html.

[17]SAUL L K,JAAKKOLA T S,JORDAN M I,et al.Mean field theory for sigmoid belief networks[J].Journal of Artificial Intelligence Research,1996(13).

[18]MNIH V,LAROCHELLE H,HINTON G E,et al.Conditional restricted Boltzmann machines for structured output prediction[C]// Conference on Uncertainty in Artificial Intelligence,Aug 15-17, 2012,Catalina Island,USA.New Jersey:IEEE Press, 2012.

[19]WANG L,SHI J,SONG G,et al.Object detection combining recognition and segmentation[C]//Asian Conference on Computer Vision,November 18-22,2007,Tokyo,Japan.New Jersey: IEEE Press,2007.

[20]WELINDER P,BRANSON S,MITA T,et al.Caltech-UCSD Birds 200[J].California Institute of Technology,2010.

[21]YANG J,SAFAR S,YANG M H.Max-margin Boltzmann machines for object segmentation [C]//IEEE Conference on Computer Vision and Pattern Recognition,June 23-28,2014, Columbus,OH,USA.New Jersey:IEEE Press,2014.

[22]ACHANTA R P,SHAJIA,SMITH K M,etal.SLIC superpixels compared to state-of-the-art superpixelmethods[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2274-2282.

[23]MALIK J,BELONGIE S,SHI J,et al.Textons,contours and regions:cue integration in image segmentation[C]//ICCV, September 20-25,1999,Kerkyra,Corfu,Greece.New Jersey: IEEE Press,1999.

[24]MARTIN D R,FOWLKES C C,MALIK J,et al.Learning to detect natural image boundaries using brightness and texture[C]// Conference on Neural Information Processing Systems, December 8-13,2003,Providence,USA.New Jersey:IEEE Press,2003.

[25]HUANG G B,NARAYANA M,LEARNEDMILLER E G,et al.Towardsunconstrained face recognition [C]//Conference on Computer Vision and Pattern Recognition,June 24-26,2008, Anchorage,Alaska,USA.New Jersey:IEEE Press,2008.

[26]COHN T.Efficientinferencein largeconditionalrandom Fields[M].Berlin:Springer,2006:606-613.

CRF combined with ShapeBM shape priors for image labeling

WANG Hao,GUO Lijun,WANG Yadong,ZHANG Rong
School of Electrical Engineering and Computer Science,Ningbo University,Ningbo 315211,China

Conditional random field(CRF)is a powerful model for image labeling,it is particularly well-suited to model local interactions among adjacent regions (e.g.superpixels).However,CRF doesn’t consider the global constraint of objects.The overall shape of the object is used as a global constraint,the ShapeBM can be taken advantage of modeling the global shape of object,and then a new labeling model that combined the above two types of models was presented.The combination of CRF and ShapeBM was based on the superpixels,through the pooling technology was wed to establish the corresponding relationship between the CRF superpixel layer and the ShapeBM input layer.It enhanced the effectiveness of the combination of CRF and ShapeBM and improved the accuracy of the labeling.The experiments on the Penn-Fudan Pedestrians dataset and Caltech-UCSD Birds 200 dataset demonstrate that the model is more effective and efficient than others.

CRF,ShapeBM,join model,superpixels,image labeling

TP391

A

10.11959/j.issn.1000-0801.2017004

王浩(1992-),男,寧波大學信息科學與工程學院碩士生,主要研究方向為計算機視覺與模式識別。

郭立君(1970-),男,博士,寧波大學教授,主要研究方向為計算機視覺與模式識別、移動互聯網及其應用。

王亞東(1990-),男,寧波大學信息科學與工程學院碩士生,主要研究方向為計算機視覺與模式識別。

張榮(1974-),女,博士,寧波大學副教授,主要研究方向為計算機視覺與信息安全。

2016-07-24;

2016-09-30

郭立君,guolijun@nbu.edu.cn

國家自然科學基金資助項目(No.61175026);浙江省自然科學基金資助項目(No.LY17F030002);寧波市自然科學基金資助項目(No.2014A610031);浙江省“信息與通信工程”重中之重學科開放基金資助項目(No.xkxl1516,No.xkxl1521)

Foundation Items:The National Natural Science Foundation of China(No.61175026),Zhejiang Provincial Natural Science Foundation of China(No.LY17F030002),Ningbo Municipal Natural Science Foundation(No.2014A610031),Open Research Fund of Zhejiang First-Foremost Key Subject-Information and Communications Engineering of China(No.xkxl1516,No.xkxl1521)

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产偷国产偷在线高清| 色哟哟国产精品| 亚洲精品中文字幕无乱码| 久久中文字幕av不卡一区二区| 免费国产黄线在线观看| 午夜激情福利视频| 一级毛片免费观看久| 日韩免费成人| 99久久无色码中文字幕| 色呦呦手机在线精品| 四虎AV麻豆| 免费毛片全部不收费的| AV无码无在线观看免费| 香蕉国产精品视频| 国产91全国探花系列在线播放| 国产白浆视频| 久久这里只有精品66| 欧美黄网在线| 国产精品分类视频分类一区| 成人一区专区在线观看| a级毛片免费看| 成年人午夜免费视频| 中文字幕欧美日韩| 亚洲成网777777国产精品| 国产精品毛片一区视频播| 亚洲性一区| 欧美丝袜高跟鞋一区二区 | 91精品视频网站| 韩国v欧美v亚洲v日本v| 亚洲第一黄色网| m男亚洲一区中文字幕| 久久77777| 女同国产精品一区二区| 中文字幕首页系列人妻| 日本国产一区在线观看| 在线高清亚洲精品二区| 欧美激情综合| 一本一道波多野结衣一区二区 | 国产激情无码一区二区三区免费| 久久毛片网| 久久无码av一区二区三区| 亚洲一区网站| 欧洲亚洲一区| 精品国产一二三区| 22sihu国产精品视频影视资讯| 美女毛片在线| 欧美国产日韩在线播放| 国产高清不卡视频| 欧美精品1区2区| 久久这里只有精品23| 精品国产免费观看| 色吊丝av中文字幕| 亚洲欧美在线综合图区| 欧美人与性动交a欧美精品| 久久人搡人人玩人妻精品| 亚洲欧美日本国产专区一区| 欧美在线视频不卡第一页| 亚洲另类第一页| 免费看黄片一区二区三区| 国产日韩久久久久无码精品| 久久综合色视频| 国产九九精品视频| 国产门事件在线| 国产白浆一区二区三区视频在线| 熟女成人国产精品视频| 久久久久国产一区二区| 香蕉在线视频网站| 天天色综合4| 日本日韩欧美| av色爱 天堂网| аv天堂最新中文在线| 色哟哟国产精品| 免费一级毛片不卡在线播放| 国产精品短篇二区| 无码一区18禁| 高清码无在线看| 国产亚洲美日韩AV中文字幕无码成人 | 免费看一级毛片波多结衣| 97se亚洲综合在线天天| 中文字幕一区二区人妻电影| 亚洲国产精品VA在线看黑人| 久久黄色一级视频|