室內場景的布局估計與目標區域提取算法

2018-08-17 00:27:30吳曉秋

計算機工程 2018年8期

關鍵詞：區域

吳曉秋,,b

(南京郵電大學 a.通信與信息工程學院; b.江蘇省圖像處理與圖像通信重點實驗室,南京 210003)

0 概述

室內場景理解是國內外學者的研究熱點之一,對于解決一些高級計算機視覺問題具有非常重要的意義。目標分割與提取結果通常為目標候選區域或目標邊界框,是場景解析的關鍵步驟之一。經過多年的發展,目標提取算法目前可分為2類:一類是基于滑動窗口檢測思想[1]的算法,另一類是基于分割的算法,包含圖像過分割與分割拼合策略。第1類算法較經典的是文獻[2]提出的DPM(Deformable Parts Model)目標檢測算法,其采用改進HOG特征[3]和SVM分類器[4],對目標的形變具有很強的魯棒性,在行人檢測等方面具有顯著成果[5],但計算代價較大且不能使用復雜的特征表示。第2類算法較經典的是文獻[6]提出的基于圖的圖像分割(Graph Based Segmentation,GBS)算法,其能快速找出視覺上一致的區域,被廣泛地應用于圖像處理領域[7-8]。此后,文獻[9]提出gPb-UCM分層圖像分割算法,通過譜聚類結合局部和全局信息進行輪廓檢測。文獻[10]提供了一個大型室內RGB-D數據集-NYUv2。文獻[11]提出CPMC(Constrained Parametric Min-Cuts)約束參數最小割的前景目標分割算法。文獻[12-13]利用RGB-D數據集,通過增加幾何特征或深度信息來提升效果,但這些有監督算法的計算復雜度較大,需要預先得到的訓練數據,檢測時容易忽視平面區域物體。文獻[14]提出MCG多尺度組合分組算法,計算速度較快,分割效果在發表當時屬于頂尖水平。文獻[15]融合深度信息將該算法擴展到RGB-D圖像,但需要預訓練輪廓模型。文獻[16]利用文獻[13]的方法產生前景以及文獻[12]的方法進行布局推理,提高了目標提取的準確度,但是目標類別較少且召回率較低。文獻[17]提出一種無監督的快速RGB-D目標提取與分割算法,實例分割效果較好,但對圖像亮度變化等比較敏感。

雖然目標提取算法在不斷的發展,但是由于RGB圖像的特征局限性,在應用于復雜的室內場景時還是存在一些提取錯誤,例如:遮擋造成的大物體提取不完整問題;平面區域物體及小尺寸物體容易被忽視的問題。針對上述問題,本文提出基于室內RGB-D場景的無監督場景布局估計與目標區域提取算法。該算法通過過分割層次分組獲取所有由小至大的目標區域,保留小尺寸物體;基于3D點云信息進行平面分類,留取所有位于平面區域的RGB圖像分組結果,突出保留平面區域中的物體;同時通過點云信息的幾何連續性減少因遮擋造成的大物體提取錯誤。

1 算法結構

本文算法首先利用輸入的3D點云做平面分割得到平面區域與非平面區域,并將平面區域進行分類;然后利用基于圖的分割算法與約束參數最小割算法對預處理后的深度圖與RGB圖做過分割,得到不同大小的區域集合;接著利用4種不同的相似度衡量方式進行區域合并以完成區域層次分組,獲取所有尺度大小的目標區域,考慮了多種圖像情況增加了算法的魯棒性;在此基礎上,對平面區域與非平面區域的遮罩采取不同的策略匹配包含遮罩的最小矩形邊界框;最后利用邊界框交疊率消除冗余邊界框,留下最佳目標區域邊界框。本文算法流程如圖1所示。

圖1 本文算法流程

2 場景布局估計

在布局估計部分,本文首先從由深度圖得到的密集3D點云中提取主要平面布局結構,為避免RGB圖像的噪聲影響,平面分割算法只利用由Kinect等深度傳感器得到的3D點云來做平面分割。

2.1 平面分割

首先對3D點云中的每一個有效點p計算一個法線向量Np,然后在深度圖上進行一致性采樣得到三角點集T={(pi1,pi2,pi3),i=1,2,…}來初始化平面候選區。對于每個三角點組ti∈T,采用RANSAC(Random Sample Consensus)點集對齊算法匹配一個候選平面Pi,然后在3D空間搜尋其內點Si。

每個內點可由深度圖中的一個像素點及其對應的3D有效點表示,當d(p,Pi)

其中,f為焦距,b為傳感器的基線長度,m為線性歸一化參數,Z代表深度值。

得到內點和候選平面之后,移除細小平面并且拼合空間上相近或接近共面的平面。為了過濾掉由于深度噪聲產生的假平面,計算每個平面Pi的內點Si對應的像素點連通域CCi={ci1,ci2,…,cij,…}每個連通域cij在3D點云中匹配一個對應的平面Pcij。當法線NPcij與NPi的角度大于一定閾值時,將cij從CCi中移除,然后根據剩下的連通域內點重新計算Pi的平面參數。

2.2 平面分類

在檢測得到主要平面區域以后,進一步將它們分為邊界與非邊界平面,邊界平面即是沒有其他物體在其后面的平面。假設平面的法線向量面向觀察者,計算在平面另一面的點云數與整個場景的點云總數量之比γ,理想情況下邊界平面的γ即為0,考慮到噪聲影響,這里設置γ為0.01。

3 圖像過分割與層次分組

為了盡可能包含室內場景的主要幾何結構以及錯綜復雜的大小物體,本文結合RGB信息與深度信息,首先對像素級別的圖像進行不同程度的過分割,得到區域級別的圖像,然后根據區域特征進行層次分組,以獲取包含所有大小目標區域的組級別圖像。

3.1 圖像過分割

圖像過分割將圖像劃分為多個子區域,這些子區域由一系列位置相鄰且特征相似的像素點組成,也稱為超像素。本文采用2種快速的無監督圖像分割方法——基于圖的分割方法和約束參數最小割方法利用RGB-D數據集進行圖像過分割。

1)基于預處理后的RGB圖與深度圖的分割

對于RGB圖像,為了得到較精細的過分割效果以保留小尺寸目標,而不產生過多的冗余分割,先將圖像從RGB轉換到RGI顏色空間,即歸一化RGB中的R、G通道加上亮度I;另外為了減少陰影對分割的影響,對RGB圖像加上同態濾波,處理后為一張壓縮了亮度范圍并提亮了陰影部分的灰度圖。對于深度圖,由于深度圖中存在著深度信息丟失造成的深度空洞,利用全局優化著色方法[18]對深度圖進行空洞填補。

基于圖的分割方法能保留圖像低變化區域的細節而忽略高變化區域的細節,有利于保留平面區域中目標,所以本文采用該方法對預處理后的彩色圖與深度圖進行3種不同程度的分割。圖2展示了RGI通道圖像的分割結果,其中k為懲罰因子,控制著分割所形成的超像素大小,也表示圖像過分割程度,k越大,超像素越大,過分割程度越小。

圖2 基于RGI顏色空間3種程度的分割結果

2)基于RGB-D混合通道的分割

為更好地結合RGB圖像信息與深度信息提升分割效果,本文采用約束參數最小割方法結合圖像紋理、亮度等特征與深度信息來計算勢能。該算法由同等間隔的種子像素產生候選前景區域,目的是最小化式(2)所示的能量公式,即完成前背景分割。該能量公式基于像素標簽{x1,x2,…,xN},其中xi∈{0,1},分別代表背景或前景,N為像素點總數。

在式(2)中,μ,υ∈,λ∈R,ν是所有像素點的集合,ε為相鄰像素間的邊緣集合,Cλ為代價函數,給每個像素賦予前背景標簽時都會產生一個代價,二元勢函數Vμυ在這里作為懲罰函數,當給相似的相鄰像素賦予不同的標簽時,就會有一個懲罰值。

代價函數Cλ定義如下:

其中,νf代表前景種子,νb代表背景種子,λ為偏移量,f定義如式(4)所示。

f(xμ)=lnpf(xμ)-lnpb(xμ)

(4)

在式(4)中,pf表示像素點i屬于前景區域的概率分布,為了加入深度信息,pf定義如式(5)所示。

(1-α)·‖D(i)-D(j)‖))

(5)

在式(5)中,D為深度圖,I為RGB圖像,j指種子區域的代表性像素點,這些像素點由K-均值算法(k=5)選出作為區域中心,α為比例因子,γ為尺度因子。

二元勢函數Vμυ定義如式(6)所示。

其中,2個鄰近像素的相似性g(μ,υ)是根據像素點μ與υ的gPb值[9]計算的,即:

在式(7)中,σ2為邊緣銳化參數,用于控制二元項Vμυ的光滑性,gPb表示每一個像素作為邊界的可能性或者稱為后驗概率。為了結合深度信息,算法對RGB圖像和深度圖都進行gPb計算,并將其線性組合起來作為像素點的gPb值:

gPb=α·gPbr+(1-α)·gPbd

(8)

其中,gPbr表示RGB圖中像素點的gPb值,gPbd表示深度圖中像素點的gPb值,此處α設為0.3。

3.2 過分割層次分組

由于區域通常包含更豐富的信息,因此能更有效地表示物體的特征。在得到圖像過分割結果以后,根據區域特征對這些超像素進行層次分組。

本文使用一種貪心算法來迭代進行區域合并:假設初始區域(超像素)集合為R={r1,r2,…,rn},初始化相似度集合S=?,計算所有兩兩相鄰區域的相似度s(ri,rj)并將其添加到S中。找出集合S中相似度最大的2個區域ri和rj,將其合并為一個區域rt,從S中除去原先ri和rj與相鄰區域之間計算的相似度,即S=Ss(ri,r*)。然后計算rt與其相鄰區域的相似度,添加到集合S中,同時將新區域rt添加到集合R中。重復以上步驟直到整張圖像成為一個大區域就可完成區域層次樹的構建即層次分組。

由于復雜室內場景需要考慮紋理、光照條件等眾多因素,為了提高算法的魯棒性,本文定義4種高效的相似度衡量方法,這4種相似性特征在合并過程中是能夠被傳遞的,即將合并后rt的特征能由ri和rj直接計算得到,具體定義如下:

1)顏色相似度sc(ri,rj)

顏色直方圖在合并過程中同樣也是能被高效傳遞的,新區域的直方圖可通過計算下式得到:

其中,s(ri)表示區域ri的大小,即區域中包含像素點的個數,新區域的大小為s(rt)=s(ri)+s(rj)。

2)紋理相似度st(ri,rj)

3)尺寸相似度ss(ri,rj)

尺寸相似度主要是為了鼓勵小區域盡早合并,這也避免了單一區域不斷吞并其他區域直至整個圖像被其吞并為一個區域,其計算公式如下:

其中,I是指整張圖像。

4)吻合相似度sf(ri,rj)

吻合相似度支持有相交或者包含關系的區域優先合并,假設BBij為包含ri和rj的最小矩形邊界框,其越小則兩區域的吻合度越高。吻合相似度計算公式如下:

最后相似度s(ri,rj)的計算方式由以上4種相似度組合得到,計算公式如下:

s(ri,rj)=a1sc(ri,rj)+a2st(ri,rj)+

a3ss(ri,rj)+a4sf(ri,rj)

(14)

其中,ai∈{0,1},表示該相似度是否被使用。

4 遮罩邊界框匹配

由于不同區域的幾何屬性不一樣,本文在完成區域層次分組以后,將得到的所有由小至大的目標區域轉換為單個區域的二值圖像即遮罩,并根據平面分類的結果對不同區域的遮罩采取不同的匹配策略來匹配最小矩形邊界框。

1)平面區域

平面區域分為邊界平面與非邊界平面,邊界平面(如墻壁、地板等)能直接被采用,非邊界平面通常代表會因為雜物的遮擋被分割成多段的大物件(如床、沙發等)。因此,為降低遮擋影響完整地定位大物體,對每一個非邊界平面,找到它的邊界點來計算與其他非邊界平面的最小歐式距離,將距離小于一定閾值(5 cm)的平面區域拼合起來。最后,對邊界平面以及拼合后的非邊界平面匹配矩形邊界框。另外,對于位于平面區域的物體(如相框、紙張等),由RGB圖像產生的遮罩全都被保留采用,這改善了傳統分割與層次分組方法易將平面區域中目標與背景混為一體的現象[12]。

2)非平面區域

對于非平面區域的物體,除了與非平面區域重疊面積過小的遮罩以外,其他遮罩都直接被采用。

最后對這些遮罩一一匹配邊界框,得到總邊界框集合B,如式(15)所示。

B=BBP+BMPR+BNPR+BPR

(15)

其中,BBP代表邊界平面的邊界框,BMPR代表拼合平面的邊界框,BNPR代表非平面區域的邊界框,BPR代表平面區域的邊界框。

假設B={b1,b2,…,bn},首先去除細小邊界框,然后將邊界框按面積大小排序,從第一個邊界框開始循環計算其與其他邊界框的交除并(Intersection over Union,IoU),即2個邊界框的交疊率O(bi,bj):

其中,bi,bj∈B,a(bi)表示邊界框bi的面積。將交疊率大于閾值t的其他邊界框濾去,重復上述步驟,得到最后的邊界框集合。

5 實驗仿真與評估

本文利用NYUv2數據集進行實驗仿真,圖3和圖4所示為場景布局估計結果,其中,黑色區域代表非平面區域,其他都代表平面區域,1代表邊界平面,0代表非邊界平面。可以看出:平面分割基本可以將主要平面幾何結構(如墻壁)劃分出來,也可以將一些大尺寸物體(如櫥柜、電視機等)分割出來,非平面區域也能被較完整地劃分出來,如圖3(a)中的自行車;平面分類也基本可以將主要邊界平面與非邊界平面區分出來,如墻壁都被分類為邊界平面,而櫥柜等靠墻的大物件都為非邊界平面,但是由于深度信息的丟失與不完整也存在一些錯誤。

圖3 客廳場景布局估計結果

圖4 臥室場景布局估計結果

對于目標邊界框,將本文算法與5個優秀的類別獨立的目標提取算法進行比較,由于其中一部分算法帶有監督學習步驟,為了公平比較,本文遵守了該數據集的劃分標準(795張訓練圖像和654張測試圖像),僅對測試集做了算法測試與評估。

算法對每張圖片生成一系列邊界框,這些邊界框準確地包含了各個尺度的目標區域,為之后的高質量實例分割、目標識別、語義分割等問題打下良好基礎。5個比較算法分別為CPMC3D[13]、gPb3D[12]、MCG[14]、MCG3D[15]以及ZD3D算法[17]。其中,gPb3D、MCG、MCG3D均為有監督方法,CPMC3D、ZD3D與本文均為無監督方法。6種算法的邊界框召回率對比如圖5所示。

圖5 6種算法的邊界框召回率對比

跟隨MCG算法,本文定義邊界框召回率為超過0.5杰卡德得分(Jaccard score)的邊界框的占比率。由圖6～圖8和表1可以看出,本文算法得到的邊界框達到了最高召回率(91.6%),而邊界框數只占到了排第二的ZD3D算法的75%以及排第三的MCG3D的31%。同時,本文的算法是完全無監督的,不需要任何預先的訓練過程,計算效率也相對較高。從圖中對比可以看出,本文的算法定位到了更多的小物體,如圖8中桌上的臺燈與最左邊桌上的相框,以及圖7中左下方的玻璃瓶等。同時也兼顧地改善了區域遮擋現象,大物體也能被完整正確地框出來,如圖7中的瓶栽植物與圖8中桌子旁的暖風機等。這說明本文算法結果盡可能地包含了各種尺度大小的物體,達到了很高的召回率。由于本文算法根據平面分割與分類的結果對不同的區域采取了不同的邊界框匹配策略,所以結果不容易忽視位于平面區域中的物體,如圖6中墻壁上的開關與插座等。

圖6 辦公室場景4種算法的細節對比

圖7 書房場景4種算法的細節對比

圖8 臥室場景4種算法的細節對比

表1 6種算法的召回率與候選邊界框數量比較

6 結束語

本文提出一種無監督的室內RGB-D場景布局估計與目標區域提取算法。首先基于RGB-D數據集對場景進行平面分割與分類,然后對RGB-D圖像進行不同程度的過分割,接著利用4種相似度計算方式進行區域合并得到區域層次分組結果,最后對不同區域的遮罩采取不同的匹配策略以得到更準確的目標區域邊界框。實驗結果表明,該算法在產生較少目標候選區的情況下達到了較高的召回率,能夠克服部分遮擋影響,準確定位大小物體以及平面區域物體,并且結構簡單,計算速度快。下一步將利用機器學習提煉高質量邊界框,同時根據得到的目標邊界框結合前景摳圖算法得到準確的實例分割結果。