胡江策, 盧朝陽, 李靜, 鄧燕子, 劉陽
(西安電子科技大學通信工程學院, 710071, 西安)
交通場景圖像分割在機器人自動導航、無人機著陸點判斷以及可穿戴設備中應用非常廣泛。交通場景圖像分割就是對交通場景中物體進行分割并對物體所屬種類進行判斷。本文參照文獻[1]中場景幾何結構的劃分方式,將交通場景劃分為天空、垂直物和道路3類,研究如何實現交通場景的幾何分割。
對于交通場景分割,傳統方法主要有逐像素計算標注方法[2-4]、強調分割區域特征方法[4-6]等,這些方法大多都需要定義幾個類別并且每個類別都需進行模型訓練。模型訓練一般要耗費很長時間,但是當增加新的訓練圖像或者類別時又要重新進行模型訓練。針對這一問題,有些學者提出了非參數[7-9]方法,雖然該類方法可解決模型訓練類方法耗時較長的問題,但是該類算法需要搜索集,并且搜索集的大小對算法效果有很大影響。
深度學習給上述問題帶來了新的解決思路,但是該類方法[10-11]不僅對計算機硬件的要求高,而且需要大量精確的像素級真值標注。在利用深度學習模型時,模型的許多參數都要根據具體情況不同進行適當調節,而參數的調節和設定依賴于實驗者的經驗和反復實驗,這些因素帶來了很大的局限性。
基于以上問題,本文提出了一種采用超像素標注匹配的交通場景幾何分割方法。對于一張待分割交通場景圖像,首先在搜索集中對其進行相似性匹配,找到一組和待分割圖像相似的圖像,然后對待分割圖像進行超像素分割,并計算各超像素塊特征。根據待分割圖像各超像素塊的特征在相似圖像集中找到與其相似的超像素塊。根據相似的超像素塊計算待分割圖像各超像素塊屬于某一類別的似然比,將似然比最大的類標簽分配給待分割圖像超像素塊,從而得到交通場景初步分割結果。為了提高分割正確率,根據初步分割結果計算出一元勢,結合原圖像采用全連接條件隨機場模型[12]對初步分割結果進行優化,可實現交通場景的幾何分割。實驗結果表明,本文方法能夠有效地將交通場景圖像分割為天空、道路和垂直物體3個類別。
全局特征主要用于搜索一組與待分割交通場景圖像相似的圖像,本文所用全局特征為Gist特征[13]。Gist特征主要包括場景的空間頻率、顏色和紋理等信息,能夠比較全面地對一幅圖像進行描述。在進行分割時,首先對待分割圖像和搜索集中圖像進行Gist特征提取,然后計算待分割圖像Gist特征向量與搜索集中每幅圖像Gist特征向量之間的歐氏距離,最后將計算的距離按照從小到大進行排序,取前50張作為相似圖像集。
相似圖像集用來完成測試圖像標注任務。在進行標注時逐像素標注效率太低,因此本文選擇對超像素塊進行標注。超像素分割就是將紋理、顏色等特征相似的像素進行分組,用超像素塊來代替像素,在圖像處理時最小處理單位為超像素塊,這樣做能減少問題的復雜性。采用基于圖的超像素分割方法[14]來進行超像素分割,因為該方法分割的超像素塊能夠較好地聚集屬于單個物體的特征,具體效果如圖1所示。為了更好地區分各超像素塊,對各超像素塊進行了隨機上色。

圖1 基于圖的超像素分割方法結果示例
描述物體的視覺特征有顏色、形狀、紋理、空間位置等。本文對超像素塊特征的提取從這4方面進行考慮。在進行特征提取時借鑒了文獻[15]和文獻[8]中特征提取的方式,并進行了特征修改和適當添加。
超像素特征包含描述顏色的特征:RGB各分量的均值和標準差、RGB顏色直方圖、LAB空間顏色直方圖(各通道11個等級);描述形狀的特征:外接框內的8×8像素的形狀掩膜(外接框是完全包含超像素塊的最小矩形框)、外接框的寬高分別與圖像寬高的比值、外接框面積與圖像面積的比值;描述紋理的特征:紋理基元直方圖和擴張紋理基元直方圖、量化SIFT直方圖和量化擴張SIFT直方圖、上下左右邊界的量化SIFT直方圖;描述位置的特征:外接框內掩膜在圖像中的位置、位置框上邊緣相對于圖像上邊緣的高度;描述外表的特征:圖像三通道(8×8像素)的縮略圖、超像素塊外接框的灰度Gist特征。
在進行實驗前需要對搜索集中的所有圖像進行超像素分割,并計算出所有圖像的超像素塊特征,將圖像的超像素塊特征和其所屬類標簽放到一起。
將測試圖像進行超像素分割并計算分割后各超像素塊特征,然后對每個待分割圖像超像素塊sr和搜索集中類別l之間進行似然比計算;將計算的似然比最大的類標簽分配給各超像素塊,從而得到整張圖像的初次分割結果。


根據概率論的相關知識可得

由于采取標注匹配方式來完成初次分割,所以會出現錯誤分割的情況,為了降低分割結果對搜索集的依賴性并提高分割正確率,采用全連接條件隨機場模型來對初步分割結果進行優化。
X是定義在一組變量{X1,X2,…,XB}上的隨機場,每個變量的值域是一組標簽L={l1,l2,…,lB};同時隨機場I定義在一組變量{I1,I2,…,IB}上,I包括可能輸入圖像的尺寸;X包括可能的像素級圖像標注;Ij是像素j的顏色向量;Xj是分配給像素j的標簽。條件隨機場[12](I,X)可表示為吉布斯分布
式中:T(X|I)表示吉布斯分布;Z(I)為配分函數;exp(·)指底數為e的指數函數;G=(V,E)是定義在隨機場X上的圖,CG為G一元和二元團的集合;φc(Xc|I)表示勢函數,一個標注為x∈L的吉布斯能量[12]為
式中:E(·)表示吉布斯能量,為簡化表達,后文用ψ(·)(x(·))代表φ(·)(x(·)|I)。
在成對全連接條件隨機場中,對應的吉布斯能量可表示為
式中:i和j的范圍均為1~N,ψu(xi)為一元勢,根據初步分割結果計算得來,ψp(xi,xj)為二元勢,其具體形式為

為了減少錯誤分割,本文借鑒文獻[12]用對比度敏感的雙核勢函數來完成圖像的分割和標注,該函數能夠考慮各像素點和所有像素點之間的關系,能夠提高分割的正確率和精度。雙核勢函數定義按照3維的顏色向量Ii和Ij以及位置pi和pj來定義,表達式如下
式中:等式右邊第1項為外表核,用來判斷相鄰同顏色像素是否為同一類別;θα為相鄰程度控制參數;θβ為相似程度控制參數;θr為平滑程度控制參數;借鑒文獻[12],本文中選取θα=60,θβ=10;等式右邊第2項為平滑核,其對分割精度影響不大,為減少計算量選取ω2=0。
本文采用平均場[12]來近似隨機場,平均場近似計算在所有分布中使得相對熵F(Q‖P)最小的分布Q(X),而不是求P(X)的準確分布,Q(X)可表示為各獨立邊緣的乘積
為了使相對熵最小并保證Q(X)和Qi(Xi)為有效分布,需要滿足以下迭代更新公式
式中:l的取值分別為天空、道路和垂直物3類;l′表示與l不同的類;Qi(xi=l)為各類的分布;Q(X)為最后結果分布。
本文算法的執行共包括5個步驟,具體步驟為:
步驟1對輸入圖像進行Gist特征的提取,然后進行超像素分割并提取超像素特征;
步驟2根據Gist特征在搜索集中搜索與輸入圖像相似的50幅圖像構成相似圖像集;
步驟3根據超像素特征以及所要分割的類別利用樸素貝葉斯原理進行似然比計算;
步驟4根據計算的似然比為輸入圖像的各超像素塊匹配標注,得到初步分割結果;
步驟5根據初步分割的結果結合原圖像,應用全連接條件隨機場進行優化得到最后結果。
SiftFlow數據集共包括2 688幅不同場景的圖像,其中包括181張高速道路交通場景圖像和506幅城市交通場景圖像,圖像大小為256像素×256像素。該數據集中每張圖像都有幾何分割真值標注。
為了驗證本文方法的有效性,在SiftFlow數據集中交通場景圖像上進行實驗,并與文獻[1]方法、文獻[8]局部標注方法和文獻[10]方法進行實驗對比。從687張交通場景圖像中任意選取200張作為搜索集,其他圖像作為測試圖像來驗證本文方法。采用Matlab2016進行編程實現,計算機配置為Intel E7400/4GB RAM。
對于實驗結果的評估,本文采用像素分割正確率Ra[17]、平均召回率Rb[18]兩個指標和混淆矩陣[1]來客觀評價分割結果。將所有測試圖像的像素分割正確率的平均值作為本文方法的像素分割正確率。將3類方法的召回率的平均值作為本文方法的平均召回率,Rb的計算方式如下
式中:分別用1、2、3代表天空、道路和垂直物。Ndg表示類別d被標記成類別g的像素數。

(a)原圖像 (b)幾何分割真值圖像

(c)文獻[1]方法的結果 (d)文獻[8]局部標注方法的結果

(e)文獻[10]方法的結果 (f)本文方法的結果圖2 各類方法幾何分割實驗結果對比

(a)實際拍攝交通場景圖像 (b)本文方法幾何分割的結果圖3 實際拍攝交通場景分割的結果
在除搜索集外的圖像上進行測試,圖2為本文方法和其他方法實驗結果對比,分別用白色、灰色和黑色3種顏色代表天空、垂直物和道路3類。圖3給出了本文方法在實際拍攝交通場景進行實驗的結果。方法的分割結果和其對應的真值圖像相似度越高方法分割效果越好,由圖2中各類方法的分割的結果可以看出,本文方法分割的結果更接近真值圖像。通過統計測試結果繪制出圖4的混淆矩陣,表1給出了各種方法的性能比較。
為了進一步驗證方法的適應性,在實際拍攝的交通場景圖像上進行了實驗,由圖3可以看出,本文方法可實現較好的分割效果,能分割出比較完整的區域,證明了本文方法具有良好的適應性。
由圖4可以看出:本文方法對天空和垂直物體的召回率為0.94,而對道路的召回率為0.88。由混淆矩陣可見,本文方法易將道路誤判為垂直物體,其原因為道路和垂直物體的交接處存在陰影、車輛和行人等因素的干擾,進而影響道路的分割。

圖4 文中分割方法的混淆矩陣
由表1可以看出,本文方法的分割正確率和平均召回率都優于文獻[1]方法、文獻[8]局部標注方法和文獻[10]方法。雖然本文方法分割正確率低于文獻[4]方法,但召回率比文獻[4]方法略高,并且本文方法無需進行模型訓練。

表1 各種方法的性能比較
與文獻[1]方法相比,本文方法對于空間結構較不完整的場景,即某一類別占圖像比例較少時的情況,分割效果更好。
文獻[8]局部標注方法的相似圖像集搜索需要3個全局特征,本文只需要一個Gist特征作為全局特征來進行相似圖像集搜索,這樣降低了計算量;并且在搜索集數相同時,本文方法的分割精度在一定程度上高于文獻[8]的局部標注方法。
文獻[10]方法需要長時間的模型訓練,本文方法不需要進行模型訓練。當文獻[10]方法的訓練集數和本文搜索集數相同時,本文方法的分割效果優于文獻[10]的方法。此外,文獻[10]方法為逐像素標注方法,分割結果存在較多錯誤分割的小區域,而本文方法對超像素塊進行標注,此類情況較少。
本文提到的模型訓練類方法都需要先進行模型訓練然后再使用模型,模型的訓練和應用是兩個獨立的過程,因此訓練時間對模型應用沒有直接的影響。但是模型訓練一般要耗費較長的時間,當增加了新的訓練圖像或者類別時就要重新進行模型訓練,靈活性較差,而本文方法無需進行模型訓練,更加靈活。
為了驗證閾值t的選擇對實驗結果的影響,閾值t在20~120范圍內變動,將閾值t的變動對算法Ra的影響制成折線圖,如圖5所示。由圖5可以看出,當閾值t取值為80時算法的整體Ra為0.92,取得最大值,所以本文方法選取閾值t為80。

圖5 算法整體Ra隨t的變化
除了比較方法的分割效果之外,本文還對方法的復雜度和執行時間進行了討論,對于一張像素為M×H的交通場景圖像,若用逐像素標注的方法,計算復雜度為O(MH)。本文方法對超像素塊進行標注,假設M×H的交通場景圖像分割為K個超像素塊,本文采用基于圖的超像素分割方法,K遠小于M×H,本文方法在標注時的計算復雜度為O(l)。
各類方法處理一張圖像所用平均運行時間對比見表2。由表2可以看出:本文方法的執行效率優于文獻[1]和文獻[8]中局部標注的方法。雖然本文方法與文獻[4]方法執行速度稍慢,但本文方法的平均召回率優于文獻[4];文獻[10]方法執行時間較短,但是該方法前期的模型訓練需要耗費數小時的時間。
本文方法的不足之處是在光照比較強烈的區域、路面和垂直物交接處情況比較復雜時會存在錯誤分割的情況,此外,本文方法的運行時間較長,無法達到實時處理,在以后的工作中將會對存在的問題進行進一步的改進。

表2 各種方法平均運行時間的對比
與一些傳統方法相比,本文提出的采用超像素標注匹配的交通場景幾何分割方法優越性在于:本文方法不需要進行復雜的模型訓練,而是通過對超像素塊進行標注匹配完成分割任務。與逐像素處理相比,超像素塊標注匹配能夠明顯減少計算量,在一定程度上提高分割結果的精度。另外,全連接條件隨機場模型對初次分割結果進行優化能夠有效降低對搜索集數量的要求。實驗結果表明,本文方法能夠有效地實現交通場景的幾何分割并提高分割的精度和效率。