柳 明, 黃影平, 胡福志
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院, 上海200093)
棒狀像素(Stixel)模型是表達(dá)交通場(chǎng)景的一種有效方法。 每個(gè)棒狀像素寬度占據(jù)幾個(gè)像素,垂直于地平面且具有一定高度。 Badino 等人首次提出棒狀像素模型,依據(jù)立體視覺(jué)圖像計(jì)算占據(jù)柵格圖,獲取棒狀像素的基點(diǎn)信息,使用灰度代價(jià)函數(shù)計(jì)算前景與背景邊界,以確定棒狀像素的高度[1]。 Chen 等為了避免視差模糊帶來(lái)的誤差,提出了一種基于U視差的棒狀像素建立算法,有效提高了部分場(chǎng)景下的估計(jì)精度[2]。 棒狀像素模型以其緊湊的3D 表達(dá)優(yōu)勢(shì),能很好地實(shí)現(xiàn)對(duì)道路場(chǎng)景中各種障礙物的檢測(cè),因此被廣泛采用。 盡管如此,現(xiàn)有的棒狀像素模型只是解決了對(duì)障礙物的檢測(cè)任務(wù),沒(méi)有對(duì)各類(lèi)障礙物進(jìn)行辨識(shí)并進(jìn)行類(lèi)別標(biāo)注。 本文的主要工作是在棒狀像素檢測(cè)模型的基礎(chǔ)上,進(jìn)一步對(duì)棒狀像素進(jìn)行語(yǔ)義標(biāo)注。
對(duì)于視覺(jué)方法,交通場(chǎng)景理解的目的是將語(yǔ)義類(lèi)標(biāo)簽分配給圖像中的像素或者區(qū)域。 如Carreira等、 Ladicky 等的自由形態(tài)區(qū)域分類(lèi)和Cheng 等的區(qū)域像素級(jí)分類(lèi),采用自下而上的方式操作且通常不會(huì)恢復(fù)對(duì)象級(jí)的場(chǎng)景表示[3-5]。 在這種情況下,密集特征和無(wú)序模型(BOF)被證明有效[6],其步驟包括:自由形狀區(qū)域內(nèi)的局部特征提取,給定區(qū)域內(nèi)所有特征的編碼和空間池化,以及隨后的混合特征向量的判別分類(lèi)。
在優(yōu)化棒狀像素估計(jì)方面,Sanberg 等擴(kuò)展了一個(gè)在線的自監(jiān)督顏色模型,以便更好地分離地面和障礙物[7]。 與他們的工作不同,本文提出的棒狀像素級(jí)語(yǔ)義標(biāo)簽生成算法使用類(lèi)標(biāo)簽來(lái)增強(qiáng)棒狀像素表示。 兩種方法都能在一定程度上解決視差圖誤差或稀疏時(shí),棒狀像素算法產(chǎn)生錯(cuò)誤估計(jì)的問(wèn)題。 但本文的方法在棒狀像素優(yōu)化的同時(shí),還為其添加了語(yǔ)義信息。
圖1 為算法的總體框架圖。 首先從原始彩色圖中獲取色彩與紋理特征,從原始圖像的視差圖中獲得像素級(jí)的高度特征。 以顏色、紋理和高度為特征,使用隨機(jī)森林分類(lèi)器來(lái)實(shí)現(xiàn)像素級(jí)特征通道至語(yǔ)義標(biāo)簽的映射,將可行駛區(qū)域以上的場(chǎng)景分為障礙物(包括建筑物、車(chē)輛、行人)、植物和天空三大類(lèi),實(shí)現(xiàn)像素級(jí)語(yǔ)義表達(dá)。 像素級(jí)語(yǔ)義圖中的可行駛區(qū)域(道路區(qū)域)通過(guò)棒狀像素圖[2]獲得。 將棒狀像素位置信息融合至像素級(jí)語(yǔ)義圖,用類(lèi)別標(biāo)簽來(lái)優(yōu)化每個(gè)棒狀像素的頂點(diǎn)估計(jì),然后以其內(nèi)部像素的優(yōu)勢(shì)類(lèi)來(lái)判定類(lèi)別,得到語(yǔ)義棒狀像素圖。
1.2.1 顏色特征
為了去除圖像的絕對(duì)強(qiáng)度,只保留相對(duì)的顏色信息,對(duì)RGB 圖像應(yīng)用以下兩個(gè)轉(zhuǎn)換:
光照不變性: Ratnasingam 等[8]編碼了特定日光光譜的色度。 在光譜為黑體光譜的前提下,定義了從RGB 到單通道光照不變圖像的映射。

圖1 算法框架圖Fig. 1 Framework of the algorithm

其中,α 的值須根據(jù)每個(gè)相機(jī)傳感器的特點(diǎn)確定。 其證明與直接使用RGB 圖相比,該方法具有更強(qiáng)的魯棒性。 圖2(b)為其可視化結(jié)果。
RG 色度: 對(duì)每個(gè)像素的RGB 值進(jìn)行歸一化處理。 此轉(zhuǎn)換方法減弱了陰影等強(qiáng)度變化,加強(qiáng)了植被和天空的顏色。 圖2(c)展示了經(jīng)過(guò)這種標(biāo)準(zhǔn)化處理后的示例。

光強(qiáng):CIELab 圖相比于RGB 圖更加符合人類(lèi)的視覺(jué)特點(diǎn),選用其中的L 分量來(lái)編碼一些在日光下具有典型光強(qiáng)等級(jí)的類(lèi)別。
1.2.2 紋理特征
Gabor 濾波器[9]由一組基本濾波器線性組合而成,簡(jiǎn)單哺乳動(dòng)物大腦視覺(jué)皮層的細(xì)胞可以通過(guò)Gabor 函數(shù)進(jìn)行建模。 Gabor 基本濾波器gmn(x,y) 由它的尺度和方向確定:

其中:g(x′, y′) 為二維Gabor 函數(shù), a 為一個(gè)固定的尺度因子,m 是尺度參數(shù),n 是方向參數(shù), K是總的尺度數(shù)目,L 是總的方向數(shù)目。
選用4 個(gè)方向參數(shù)n(n =0°,45°,90°,135°) 和3 個(gè)尺度參數(shù)m(m =3,4,5), 采集窗口尺寸設(shè)為5×5個(gè)像素,應(yīng)用Gabor 濾波器至彩色圖YCbCr 顏色空間的明度分量Y 上,取得到的12 個(gè)子帶系數(shù)中絕對(duì)值最大的系數(shù)值作為相應(yīng)像素的紋理特征,結(jié)果見(jiàn)圖2(d)。
1.2.3 高度特征
幾何高度:將像素點(diǎn)的圖像坐標(biāo)(u,v) 轉(zhuǎn)換為世界坐標(biāo)(Xw,Yw,Zw)[10],并選用其中的Yw分量作為像素距離道路面的高度特征。

φp為雙目相機(jī)的安裝俯仰角, ( Cx,Cy,Cz)T為雙目相機(jī)在世界坐標(biāo)系下的三維坐標(biāo)。 (Xc,Yc,Zc,1)T為相機(jī)坐標(biāo)系下的齊次坐標(biāo)。 圖像坐標(biāo)到相機(jī)坐標(biāo)的投影關(guān)系,Zc為目標(biāo)至相機(jī)的距離,與視差d 成反比,滿足Zc= fxb/d。 其余參數(shù)與雙目相機(jī)的內(nèi)部結(jié)構(gòu)有關(guān),稱為相機(jī)內(nèi)部參數(shù),必須通過(guò)相機(jī)標(biāo)定才能得到。fx=f/ dx與fy=f/ dy為經(jīng)過(guò)像素尺寸歸一化后的相機(jī)焦距,(u0,v0) 為圖像坐標(biāo)原點(diǎn):

特征提取結(jié)果如圖2(e)。
像素位置:選用像素距道路平面的垂直高度作為高度特征的補(bǔ)充,道路平面由U 視差探測(cè)的可行駛區(qū)域[2]確定。 檢測(cè)到的可行駛區(qū)域如圖2(f)。

圖2 部分特征通道可視化Fig. 2 Visualization of some feature channels
所用算法為基于CART 的隨機(jī)森林分類(lèi)器[11]。節(jié)點(diǎn)處選取分裂特征的準(zhǔn)則為Gini 指數(shù)。 其作為熵的一階近似,值越小表明劃分越正確。 pk為某一節(jié)點(diǎn)的樣本集D 在按某一特征的某個(gè)特征值劃分后,類(lèi)別k 的樣本所占的比率,K 為總的類(lèi)別數(shù):

具體訓(xùn)練過(guò)程如下:
(1)采用隨機(jī)且有放回的方式(Boostrap[9])從總訓(xùn)練集S 中抽取總數(shù)2/3 左右的樣本,生成子集Si。
(2)使用子集Si生成決策樹(shù):
①隨機(jī)從總特征集M 中選取n 個(gè)特征(n ≤M);
②每個(gè)節(jié)點(diǎn)處,對(duì)每個(gè)特征的數(shù)值型取值采用“二分法”劃分樣本。 依據(jù)式公式(6),從n 個(gè)特征中選最優(yōu)分裂特征以及其最優(yōu)的劃分值;
③以“完全分裂”方式生成決策樹(shù)。
(3)重復(fù)(2)步驟使得所有樣本均到達(dá)葉子節(jié)點(diǎn)或子樣本集不能再分裂為止。
(4)重復(fù)(1)~(3)建立預(yù)設(shè)數(shù)量的決策樹(shù),形成隨機(jī)森林。
以像素級(jí)語(yǔ)義標(biāo)簽作為輸入,對(duì)原始Stixel[2]表達(dá)進(jìn)行拓展。 單純依據(jù)深度信息進(jìn)行Stixel 的估計(jì)是具有局限性的,在一些視野較寬的道路場(chǎng)景中,稍遠(yuǎn)區(qū)域的障礙物與天空由于紋理信息缺失,雙目圖像立體匹配會(huì)出現(xiàn)錯(cuò)誤,此時(shí)視差信息變得不可靠,前后景無(wú)法有效區(qū)分,導(dǎo)致Stixel 的高度估計(jì)出現(xiàn)明顯的失真。 本文在文獻(xiàn)[2]算法的基礎(chǔ)上引入語(yǔ)義信息來(lái)更好的進(jìn)行高度估計(jì)。
U 視差圖I1中的一點(diǎn)M?(u,d,n) 在原始視差圖 I2中 有 多 個(gè) 對(duì) 應(yīng) 點(diǎn)( u1,v1,d1) ,( u2,v2,d2) ,…,( us,vs,ds) 。 在原方法的投影條件最后加入語(yǔ)義信息約束:

L ( ui,vi) 為語(yǔ)義標(biāo)簽圖L 對(duì)應(yīng)位置 ( ui,vi) 的語(yǔ)義類(lèi)別,Cobstacle為障礙物,即語(yǔ)義標(biāo)簽中的障礙物大類(lèi)與植物。 通過(guò)在I2的第p 列搜索具有視差為b的點(diǎn),并借助語(yǔ)義信息排除明顯屬于非障礙物的對(duì)應(yīng)點(diǎn),即可得到全部前景障礙物相關(guān)的圖像坐標(biāo)點(diǎn)集。
選用KITTI 數(shù)據(jù)集[12]進(jìn)行算法評(píng)估,實(shí)驗(yàn)硬件配置為Intel Xeon(R) Silver 4110,實(shí)驗(yàn)軟件環(huán)境為VS2013+Python3.0。 像素級(jí)RF 分類(lèi)器的訓(xùn)練與測(cè)試選用KITTI 數(shù)據(jù)集中的pixel-level semantics 序列,此序列提供了帶有像素級(jí)語(yǔ)義標(biāo)簽的測(cè)試集與訓(xùn)練集。 對(duì)于光照不變性特征,設(shè)置α =0.48。
像素級(jí)分類(lèi)結(jié)果采用交并比評(píng)價(jià)指標(biāo):

其中,TP(True Positive)為將正例判斷為正例的樣本數(shù),F(xiàn)P(False Positive)為將反例判斷為正例的樣本數(shù),F(xiàn)N (False Negative)為將正例判斷為反例的樣本數(shù)。
RF 分類(lèi)器執(zhí)行時(shí)間與分類(lèi)性能取決于兩個(gè)主要參數(shù):樹(shù)棵數(shù)與樹(shù)深度。 從像素級(jí)訓(xùn)練集中隨機(jī)選取10%的平衡樣本作為調(diào)節(jié)參數(shù)的驗(yàn)證集。 實(shí)驗(yàn)選用所有特征通道,針對(duì)所有類(lèi)別,在保持其中一個(gè)參數(shù)不變,逐漸變動(dòng)另一個(gè)參數(shù)的策略下進(jìn)行參數(shù)選取。 當(dāng)使用35 棵數(shù)、樹(shù)深25 時(shí),分類(lèi)性能達(dá)到一個(gè)穩(wěn)定水平。
對(duì)于像素級(jí)分類(lèi)器,為了定量分析每個(gè)特征通道對(duì)總體分類(lèi)性能的影響,首先使用所有特征通道來(lái)測(cè)試模型的分類(lèi)性能,由于總體像素過(guò)多,此處將分類(lèi)結(jié)果化為占對(duì)應(yīng)實(shí)際類(lèi)別總數(shù)的百分比,得到了表1 的混淆矩陣,其中使用了交并作為比評(píng)價(jià)指標(biāo)。 從表中可見(jiàn),有7.1%屬于障礙物類(lèi)別的像素被誤分為了天空,這是因?yàn)橛行┙ㄖ蛘甙咨?chē)輛的光照具有高飽和度,導(dǎo)致錯(cuò)誤分類(lèi)。 有些場(chǎng)景下部分植物區(qū)域與障礙物區(qū)域的陰影較深,導(dǎo)致分類(lèi)器無(wú)法進(jìn)行有效區(qū)分。

表1 使用了所有特征通道的像素級(jí)分類(lèi)混淆矩陣(%)Tab. 1 Confusion matrix using all pixel-level feature channels
采取每次只排除一個(gè)特征或只留下一個(gè)特征的策略來(lái)測(cè)試特征的顯著性。 從表2 可以看出一旦只剔除像素的幾何高度特征后,相比剔除其他的特征,平均IoU 下降最明顯,即說(shuō)明幾何高度特征明顯提高了分類(lèi)性能,是最顯著的特征。 關(guān)于顏色特征,由表2 可見(jiàn),只剔除RG 色度通道相比只剔除光照不變性通道后下降的平均IoU 更多,且只保留前者的平均IoU 更高,即RG 色度通道攜帶了更重要的分類(lèi)信息。 以同樣方式分析可知,紋理通道明顯對(duì)分類(lèi)貢獻(xiàn)最低,將其歸因于整合多個(gè)紋理通道時(shí)損失了一定的有效信息。
在Stixel 估計(jì)方面,本文算法優(yōu)化了Stixel 算法[2]的頂點(diǎn)估計(jì)。 根據(jù)文獻(xiàn)[2]對(duì)棒狀像素頂點(diǎn)誤差的定義,選用KITTI 數(shù)據(jù)集[10]中城市、校園、居民區(qū)、道路四個(gè)場(chǎng)景下的圖像序列進(jìn)行平均頂點(diǎn)誤差的計(jì)算,兩種方法的平均頂點(diǎn)誤差對(duì)比如表3 所示。由表3 可知,道路場(chǎng)景下的棒狀像素頂點(diǎn)估計(jì)精度有所提高。

表2 像素級(jí)分類(lèi)不同特征通道組合的混淆矩陣(%)Tab. 2 Confusion matrix of different feature channel combinations Pixel-level classification results

表3 拓展Stixel 與原始Stixel 的頂點(diǎn)估計(jì)誤差比較Tab. 3 Comparison of top - point estimation error between extended Stixel and original Stixel
圖3 為本算法應(yīng)用于KITTI 中兩個(gè)場(chǎng)景的實(shí)驗(yàn)結(jié)果。 每個(gè)場(chǎng)景從左至右分別為原圖、初始Stixel圖(顏色表示深度,不代表類(lèi)別)、像素級(jí)語(yǔ)義標(biāo)簽圖(顏色代表類(lèi)別,分為天空、植物、障礙物大類(lèi))、語(yǔ)義Stixel 圖(顏色代表類(lèi)別,分為背景、植物、障礙物大類(lèi))。 在上述圖中,淺藍(lán)色為天空,綠色為植物,土紅色代表障礙物大類(lèi),紫色代表根據(jù)原Stixel[2]得到的自由空間,灰色為Stixel 分類(lèi)后確定的背景區(qū)域。
本文在前期棒狀像素檢測(cè)的基礎(chǔ)上,進(jìn)一步提出了一種能夠?qū)崿F(xiàn)棒狀像素語(yǔ)義標(biāo)注的方法。 此算法既充分利用了棒狀像素的障礙物檢測(cè)優(yōu)勢(shì),又實(shí)現(xiàn)了在道路場(chǎng)景中對(duì)各類(lèi)前景障礙物的語(yǔ)義理解,優(yōu)化了原有的棒狀像素估計(jì)。

圖3 兩個(gè)典型交通場(chǎng)景的棒狀像素語(yǔ)義分割結(jié)果Fig. 3 Semantic segmentation of two typical traffic scenarios