999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的交通場景語義分割方法研究

2018-05-08 01:09:59李琳輝錢波連靜鄭偉娜周雅夫
通信學報 2018年4期
關鍵詞:語義

李琳輝,錢波,連靜,鄭偉娜,周雅夫

(大連理工大學工業裝備結構分析國家重點實驗室運載工程與力學學部汽車工程學院,遼寧 大連 116024)

1 引言

無人駕駛是汽車領域的研究熱點之一,提高無人駕駛系統智能化程度的關鍵技術之一是具備對交通場景準確有效的認知。

目前,比較成熟的交通場景分類主要針對環境中的特定目標進行識別,多數屬于二分類范疇,如路面識別[1]、車輛識別、行人識別等,用到的方法主要為淺層學習方法,如支持向量機、AdaBoost等。近幾年,深度學習[2]的研究取得了突破性進展,并被廣泛應用于圖像領域。使用深度學習方法能夠較好地解決多分類問題,特別適用于復雜的自然數據,包括交通場景圖像數據。隨著 GPU并行計算的發展,使用深度學習方法造成計算量大的問題得到解決,從而使面向復雜交通環境的像素級別場景分割成為可能。

深度學習已被驗證能夠提高目標識別[3]和圖像語義分割[4,5]的精度,具有代表性的深度網絡包括AlexNet[6]、VGGNet[7]和 GoogLeNet[8]等,它們在圖像的單標簽分類問題上取得了較好的成績,對1 000類圖像分類的 Top-5錯誤率均在 8%以內,是近年來ImageNet[9]圖像分類大賽的主要解決方案。在此基礎上,針對圖像的語義分割問題,Long等[10]提出了一種基于全卷積網絡(FCN)的語義分割方法,對目前的圖像分類網絡進行了修改,將全連接層改為卷積層,使其學習到的特征適用于圖像的語義分割任務;針對更為復雜的室外交通場景,Badrinarayanan等[11,12]提出了一種卷積神經網絡,用來實現交通場景圖像的語義分割,通過最大非線性上采樣方法得到與輸入圖像分辨率相同的語義分割結果;Noh等[13]利用反卷積和上采樣方法實現了圖像的語義分割任務,在細小物體的語義分割問題上取得了較好的結果。

隨著面掃描激光、立體視覺、紅外體視等深度傳感器的發展,獲取圖像的深度信息變得越來越容易,基于 RGB-D圖像的語義分割研究成為未來的發展趨勢之一。目前,RGB-D數據集主要用于室內場景的語義分割,例如,Silberman等[14]制作了RGB-D室內場景數據集NYUv2,考慮到物體之間的支撐關系,提出了基于 RGB-D圖像的室內場景語義分割算法;Gupta等[15]在室內物體檢測算法的基礎上提出了基于 RGB-D的室內場景語義分割算法。相關研究[16,17]表明,基于 RGB-D圖像的室內場景分割相比RGB圖像具有更高的分類準確度和環境適應性,可以為基于RGB-D圖像的室外場景分割提供借鑒。對室外的交通環境而言,場景復雜多變且需要獲取更遠距離的深度信息,相應地,也急需更為有效的深度信息獲取方法及深度學習方法。

基于以上分析,本文從視差圖獲取和深度學習2個角度入手,提出一種基于RGB-D卷積神經網絡的交通場景語義分割方法。首先,研究一種基于掃描線最優的半全局立體匹配算法,并通過快速全局圖像平滑方法獲取連續的視差圖;然后,從KITTI[18]的Stereo2012雙目視覺數據集中選取具有代表性的交通場景圖像,通過上述立體匹配算法獲取對應的視差圖D,將左圖RGB圖像和對應的視差圖D融合成四通道RGB-D圖像,并將物體分為7個類別:天空、建筑、路面、路邊界、樹木、草坪、車輛,以左圖 RGB圖像作為樣本對每個像素所屬類別進行標注;最后,使用RGB-D四通道圖像對2種不同結構的卷積神經網絡進行訓練和測試,并與基于 RGB三通道圖像方法的測試結果進行對比分析,結果表明使用 RGB-D四通道圖像訓練得到的網絡在交通場景的語義分割任務上能夠獲得更高的分割精度。

2 基于立體視覺的視差圖獲取

通過立體視覺的立體匹配步驟,可以獲得包含所拍攝場景三維信息的視差圖,視差圖的精度越高,卷積神經網絡從視差圖中能夠提取到的物體特征信息越豐富。因此,立體匹配的精度直接影響著語義分割精度。

立體視覺匹配算法可分為3類:局部匹配算法、半全局匹配算法、全局匹配算法,這3種匹配算法的匹配精度依次增高,但匹配所消耗的時間也依次增高。考慮到算法的實時性要求,且半全局匹配算法的精度接近于全局匹配算法,本文通過半全局匹配算法[19]來計算獲取視差圖,并通過一種基于最小二乘法的快速全局圖像平滑方法[20]獲取視差值更加連續的視差圖,算法的基本步驟如下。

1) 采用基于窗口的局部算法計算單個像素點的灰度相似性匹配代價。

2) 通過多個方向掃描線上基于平滑約束的方法對匹配代價進行聚合,建立一個全局的能量函數。

3) 采用勝者為王方法選取使能量函數最小的視差值,并通過二次曲線擬合估計亞像素級別的視差。

4) 分別根據左右視圖生成的視差圖剔除異常點,使其符合一致性約束,消除遮擋帶來的誤匹配。

5) 采用基于最小二乘法的快速全局圖像平滑方法對視差圖進行濾波處理,填充沒有匹配到的像素點,獲得視差值更為連續、更為平滑的視差圖。

步驟1) 中的基于窗口的局部算法采用5×5的窗口,灰度相似性采用灰度差的絕對值疊加方法計算。步驟2) 中采用了掃描線最優算法的思想,沿8路不同方向的掃描線分別計算匹配代價,采用多個方向的一維平滑約束合并的方式來逼近圖像平面內二維的平滑約束。步驟 5) 是獲取視差圖的關鍵,通過前面的步驟得到的視差圖比較粗糙,如圖1(b)所示,包含一些未匹配的像素點,且物體邊界較為粗糙,通過步驟5),可以得到更為平滑的視差圖,如圖1(c)所示,較好地保留物體的邊緣、輪廓信息。

圖1為KITTI數據集中一對立體視覺圖像的匹配結果。在視差圖中,灰度值越大的點對應的視差值越大,即越亮的點距離相機越近。其中,圖1(b)為未經平滑處理的視差圖,可以看出,其中存在一些未匹配的像素點,物體的邊緣信息比較模糊,圖1(c)為平滑處理后的視差圖,可以看出,經平滑處理后的視差圖較好地保留了物體的邊緣、輪廓信息,為基于RGB-D圖像的交通場景語義分割奠定了基礎。

圖1 立體視覺圖像的匹配結果

3 交通場景語義分割

3.1 RGB-D樣本庫的建立

在具有代表性的交通場景數據集中[18,21,22],KITTI是目前最大的道路場景數據集,其中包含了通過立體視覺相機拍攝的交通場景圖像,場景中包括天空、路面、樹木、車輛等多種類別,便于立體匹配算法驗證及網絡訓練。

首先,從KITTI的Stereo2012子數據集中選取具有代表性的交通場景立體圖像,并將交通場景分為7個類別:天空、建筑、路面、路邊界、樹木、草坪、車輛,類別的標簽從0到6,其他類別的標簽為 7,不參與反向傳播時權值的更新計算。以立體視覺圖像中的左側 RGB圖像為樣本,對圖像的每個像素所屬類別進行標注,將其作為訓練的標簽。然后,基于前述立體匹配算法,獲取左右圖像對應的視差圖D。最后,將左圖RGB圖像和視差圖D融合成四通道RGB-D圖像。最終建立的樣本庫包含訓練集、驗證集和測試集。

3.2 網絡訓練

本文基于SegNet[12]和SegNet-Basic[11]網絡來實現交通場景 RGB-D圖像的語義分割。SegNet和SegNet-Basic具有不同的網絡結構,其中,SegNet包含26個卷積層、5個下采樣層和5個上采樣層,SegNet-Basic包含 8個卷積層、4個下采樣層和 4個上采樣層。這2種網絡架構均能夠進行端到端的訓練,且相對于其他網絡架構[10],在交通場景的語義分割上,SegNet和SegNet-Basic能夠獲得較高的語義分割精度,且使用訓練好的模型進行語義分割測試的實時性較好。

采用小批量訓練的方法進行網絡的訓練,每次選取一定數量的樣本圖像送入網絡進行前向傳播,得到每個像素點的輸出誤差,然后計算該小批量樣本圖像上所有像素點的輸出誤差和的平均值,作為網絡的輸出誤差,即訓練誤差,并根據最小化訓練誤差的方法來更新網絡的權值參數。其中,采用交叉熵損失函數[10]來計算網絡的訓練誤差,計算式為

其中,P(x=k)為像素點x屬于其類別k的概率,ai為第i個類別的特征值,由最后一層卷積層得到,K為分類的類別數量,N為一個批量上所有像素點的數量,L為網絡最終輸出的訓練誤差值。由于在訓練集上各個類別所占的像素數量相差較大,如天空、路面等像素點所占的像素數量較多,因此,采用中值頻率平衡[23]方法來計算不同類別的實際誤差值,其計算式為

其中,λi為第i個類別的誤差值權重,ni為訓練集上第i個類別所占像素的數量,m為各個類別所占像素數量的中值。優化后的訓練誤差計算式為

在反向傳播更新網絡權值參數階段,采用隨機梯度下降法[24]來更新網絡的權值參數,其通過負梯度?L(W)和上一次的權值更新值的線性組合來更新權值,計算式為

其中,Wt是第t次迭代計算時的權值矩陣,Vt是第t次迭代計算時的權值更新值,α是負梯度的基礎學習率,μ是權值更新值Vt的權重,用來加權之前梯度方向對現在梯度下降方向的影響,這2個值一般根據經驗設定。通常在迭代計算過程中,需要對基礎學習率進行調整,常用的調整策略為 fixed和step,使用fixed方式時,在迭代計算過程中基礎學習率保持不變;使用step方式時,實際的基礎學習率β和α之間的關系為

其中,a是當前迭代次數,b為基礎學習率更新的步長,g為基礎學習率縮放因子,floor為上取整函數。

為了減少網絡訓練時陷入局部最小值的概率,驗證算法的可擴展性和頑健性,本文使用 fixed和step這2種方法對網絡進行訓練,將α設為0.01,μ設為0.9,使用step學習策略時,將b設為2 000,g設為0.1,即每進行2 000次迭代,基礎學習率更新為上次的0.1倍。

4 實驗結果與分析

本文算法的具體實現使用的是深度學習框架Caffe[25],網絡的訓練與測試均在Caffe環境下完成。實驗的硬件環境為Intel Xeon E5-2620中央處理器,NVIDIA TITAN X顯卡;軟件環境為Ubuntu 14.04 LTS操作系統,cuda7.5,cudnn v2。該配置是目前深度學習計算的主流配置。網絡訓練及權值調整流程如圖2所示,具體步驟如下。

1) 初始化網絡權值參數。

2) 讀取訓練圖片數據,進行網絡的前向傳播,并輸出在訓練數據上的誤差。

3) 判斷是否達到訓練次數,如果未達到訓練次數,根據得到的誤差進行網絡權值梯度的計算,并進行反向傳播更新網絡的權值參數,執行步驟2);如果達到訓練次數,則停止訓練。

圖2 網絡訓練及權值調整流程

在語義分割網絡的訓練與測試中,小批量的大小設置為4,即每次選取4張圖片進行迭代計算,每400次迭代計算后在驗證集上驗證一次精確率直至訓練誤差值開始收斂。

語義分割精度通常有2種評判方法,即全局精確率和平均精確率。全局精確率是分類正確的像素點占數據集全部像素點的百分比,全局精確率越高,圖像分割結果越平滑;平均精確率是所有類別預測精確率的平均值,與樣本中每個類別所占像素點的比例有關,其中,每個類別分割精度為分類正確像素點占該類別所有像素點的比例。語義分割的最終目的是獲得平滑的語義預測,所以本文選取在驗證集上全局精確率最高的一次迭代計算得到每個類別的分割精度作為此次訓練的最終結果。

為了對比不同網絡、不同學習率策略及不同數據源輸入對交通場景語義分割精度的影響,針對SegNet和 SegNet-Basic網絡,分別選擇 RGB和RGB-D圖像,采用fixed和step這2種學習率調整策略對網絡進行訓練,得到不同類別的分類精度統計如表1和表2所示。為了得到網絡的訓練誤差和精確率的收斂情況,以使用 fixed學習率策略時SegNet網絡訓練誤差和驗證集分割精確率為例,其迭代過程中的變化趨勢如圖3所示。通過分析,可以得到以下結論。

表1 采用fixed學習率所得語義分割精度

表2 采用step學習率所得語義分割精度

圖3 訓練誤差和驗證精確率曲線

1) 2種網絡均在收斂的基礎上取得了良好的分割精度。

2) 對于相同的網絡結構,使用fixed學習率策略得到的全局精確率高于使用step學習率策略時得到的全局精確率。

3) 天空、路面等所占像素點數量較多的類別,分割精度較高;草坪、人行道等所占像素點數量較少的類別,分割精度較低。

以 fixed學習率策略得到的分割精度為例,將基于RGB-D圖像和基于RGB圖像得到的結果進行對比分析,得到以下結論。

1) 針對RGB和RGB-D圖像,SegNet得到的全局精確率分別為 0.858、0.875,SegNet-Basic的到的全局精確率分別為 0.859、0.87,因此,使用RGB-D圖像作為網絡輸入使 SegNet和 SegNet-Basic網絡的全局精確率分別提高了0.017、0.011,平均精確率分別提高了0.016、0.035。

2) 在建筑、路面、人行道、草坪、車輛這5個類別的語義分割精度上,基于RGB-D圖像的方法得到的精度均高于基于RGB圖像的方法,對于SegNet網絡,以上5個類別的分割精度分別提高了0.034、0.005、0.003、0.035、0.031;對于SegNet-Basic網絡,以上5個類別的分割精度分別提高了0.051、0.010、0.091、0.079、0.036。

通過以上對比分析可以得到,使用同一種深度網絡時,在相同的訓練參數下,基于 RGB-D圖像的方法較基于 RGB圖像的方法能夠得到較高的全局精確率和平均精確率。

圖4 測試集部分樣本的語義分割結果

圖4 給出了測試集上部分交通場景圖像的視差圖和語義分割結果,其中,圖 4(c)為圖像對應的標簽,作為對比基準來評定圖像的語義分割效果。圖4(d)為使用RGB三通道圖像作為網絡輸入時得到的語義分割結果,與圖 4(c)中的標簽相比,其語義分割結果存在相對較大的噪聲輸出。圖 4(e)為使用 RGB-D四通道圖像作為網絡輸入時得到的語義分割結果,通過將圖 4(d)與圖 4(e)進行對比可以看出,圖4(e)中的語義分割結果噪聲較小,更加接近圖 4(c)中圖像的標簽。這說明視差圖 D的引入在一定程度上減少了分類噪聲,能夠得到更加平滑的語義分割結果。

5 結束語

本文提出一種基于卷積神經網絡的交通場景語義分割方法。通過半全局立體匹配和快速全局圖像平滑方法獲取更加平滑的交通場景視差圖D,將視差圖D與RGB圖像融合成RGB-D四通道圖像,作為網絡的輸入;將交通場景分為7個類別,采用不同結構的卷積神經網絡和不同的學習率策略對網絡進行訓練。在KITTI數據集下的實驗結果表明,

所提方法能夠實現像素級別的交通場景語義分割并具有良好的頑健性和可擴展性。通過與以 RGB

圖像為輸入的交通場景分割方法的對比分析表明,本文提出的基于 RGB-D圖像和卷積神經網絡的交通場景分割算法具有更高的語義分割精度,為進一步實現無人駕駛和提高車載環境認知的智能化程度奠定了良好基礎。

參考文獻:

[1]ANBALAGAN T,GOWRISHANKAR C,SHANMUGAM A. SVM based road surface detection to improve performance of ABS[J]. Journal of Theoretical & Applied Information Technology,2013,51(2):234-239.

[2]LECUN Y,BENGIO Y,HINTON G. Deep learning[J]. Nature,2015,521(7553): 436-444.

[3]高常鑫,桑農. 基于深度學習的高分辨率遙感影像目標檢測[J]. 測繪通報,2014(S1):108-111.GAO C X,SANG N. Deep learning for object detection in remote sensing image[J]. Bulletin of Surveying and Mapping,2014(S1):108-111.

[4]高凱珺,孫韶媛,姚廣順,等. 基于深度學習的無人車夜視圖像語義分割[J]. 應用光學,2017,38(3):421-428.GAO K J,SUN S Y,YAO G S,et al. Semantic segmentation of night vision images for unmanned vehicles based on deep learning[J]. Journal of Applied Optics,2017,38(3):421-428.

[5]劉丹,劉學軍,王美珍. 一種多尺度 CNN的圖像語義分割算法[J].遙感信息,2017,32(1):57-64.LIU D,LIU X J,WANG M Z. Semantic segmentation with multi-scale convolutional neural network[J]. Remote Sensing Information,2017,32(1):57-64.

[6]KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems,2012,25(2): 1-9.

[7]SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. ArXiv Preprint,ArXiv: 1409. 1556,2014.

[8]SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1-9.

[9]DENG J,DONG W,SOCHER R,et al. ImageNet: a large-scale hierarchical image database[C]// IEEE Computer Vision and Pattern Recognition.2009:248-255.

[10]LONG J,SHELHAMER E,DARRELL T. Fully convolutional networks for semantic segmentation[C]// IEEE Computer Vision and Pattern Recognition. 2015: 3431-3440.

[11]BADRINARAYANAN V,HANDA A,CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling[J]. ArXiv Preprint,ArXiv: 1505. 07293,2015.

[12]BADRINARAYANAN V,KENDALL A,CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,PP(99): 1.

[13]NOH H,HONG S,HAN B. Learning deconvolution network for semantic segmentation[C]//IEEE International Conference on Computer Vision. 2015: 1520-1528.

[14]SILBERMAN N,HOIEM D,KOHLI P,et al. Indoor segmentation and support inference from RGBD images[C]//European Conference on Computer Vision. 2012: 746-760.

[15]GUPTA S,GIRSHICK R,ARBELáEZ P,et al. Learning rich features from RGB-D images for object detection and segmentation[C]// European Conference on Computer Vision. 2014: 345-360.

[16]SHAO T,XU W,ZHOU K,et al. An interactive approach to semantic modeling of indoor scenes with an RGBD camera[J]. ACM Transactions on Graphics,2012,31(6): 439-445.

[17]FILLIAT D,BATTESTI E,BAZEILLE S,et al. RGBD object recognition and visual texture classification for indoor semantic mapping[C]//2012 IEEE International Conference on Technologies for Practical Robot Applications.2012: 127-132.

[18]GEIGER A,LENZ P,URTASUN R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]//IEEE Conference on Computer Vision and Pattern Recognition.2012: 3354-3361.

[19]LI L,HUANG H,QIAN B,et al. Vehicle detection method based on mean shift clustering[J]. Journal of Intelligent & Fuzzy Systems,2016,31(3):1355-1363.

[20]MIN D,CHOI S,LU J,et al. Fast global image smoothing based on weighted least squares[J]. IEEE Transactions on Image Processing a Publication of the IEEE Signal Processing Society,2014,23(12): 5638-5653.

[21]RUSSELL B C,TORRALBA A,MURPHY K P,et al. LabelMe: a database and web-based tool for image annotation[J]. International Journal of Computer Vision,2008,77(1-3): 157-173.

[22]GOULD S,FULTON R,KOLLER D. Decomposing a scene into geometric and semantically consistent regions[C]// IEEE International Conference on Computer Vision.2009:1-8.

[23]EIGEN D,FERGUS R. Predicting depth,surface normals and semantic labels with a common multi-scale convolutional architecture[C]// IEEE International Conference on Computer Vision. 2015: 2650-2658.

[24]LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11): 2278-2324.

[25]JIA Y,SHELHAMER E,DONAHUE J,et al. Caffe: convolutional architecture for fast feature embedding[C]//The 22nd ACM International Conference on Multimedia. 2014: 675-678.

猜你喜歡
語義
為什么字看久了就不認識了
語言與語義
“社會”一詞的語義流動與新陳代謝
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
“吃+NP”的語義生成機制研究
長江學術(2016年4期)2016-03-11 15:11:31
“V+了+NP1+NP2”中V的語義指向簡談
認知范疇模糊與語義模糊
“V+X+算+X”構式的語義功能及語義網絡——兼及與“V+X+是+X”構式的轉換
語言與翻譯(2014年2期)2014-07-12 15:49:25
“熊孩子”語義新探
語文知識(2014年2期)2014-02-28 21:59:18
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 免费Aⅴ片在线观看蜜芽Tⅴ | 91日本在线观看亚洲精品| 亚洲娇小与黑人巨大交| 免费人成网站在线高清| 欧美日韩国产成人高清视频| 欧美成人免费午夜全| 人人妻人人澡人人爽欧美一区| 欧美精品v欧洲精品| 日韩精品一区二区三区大桥未久| 男女男免费视频网站国产| 尤物成AV人片在线观看| 天堂av综合网| 一级黄色网站在线免费看| 亚洲av无码专区久久蜜芽| 香蕉综合在线视频91| 国模粉嫩小泬视频在线观看| 欧美激情视频一区| 99视频全部免费| 国产网站在线看| 在线观看欧美国产| vvvv98国产成人综合青青| 欧美a级在线| 久久精品aⅴ无码中文字幕 | 久青草网站| 国产成人a毛片在线| 欧美第二区| 国产特一级毛片| 久久免费看片| 亚洲 欧美 偷自乱 图片| 久久综合九九亚洲一区| 亚洲最新网址| 99er这里只有精品| 国产人人射| 婷婷五月在线| 国产大全韩国亚洲一区二区三区| 黄色成年视频| 永久免费av网站可以直接看的 | 久久精品视频一| 中国一级毛片免费观看| 茄子视频毛片免费观看| 国产精品美女免费视频大全 | 99re在线免费视频| 成人综合久久综合| 精品久久久久久成人AV| 久久熟女AV| 国产日韩欧美一区二区三区在线| 亚洲婷婷丁香| 日韩高清在线观看不卡一区二区| 国产午夜福利亚洲第一| 国产又爽又黄无遮挡免费观看 | 久久女人网| 看国产毛片| 久久青草精品一区二区三区| 国产系列在线| 免费国产好深啊好涨好硬视频| 欧美色99| 99无码中文字幕视频| 国产综合另类小说色区色噜噜 | 免费国产福利| 国产一区二区三区精品欧美日韩| 精品综合久久久久久97超人| 亚洲二区视频| www.国产福利| 色综合国产| 国产极品嫩模在线观看91| 又爽又大又黄a级毛片在线视频| 亚洲天堂网站在线| 国产成人精品一区二区| 国产午夜福利在线小视频| 综合网久久| 国产精品久久精品| 日本免费a视频| 美女潮喷出白浆在线观看视频| 国产精品原创不卡在线| 亚洲系列无码专区偷窥无码| 国产人成网线在线播放va| 精品少妇人妻av无码久久| 亚洲婷婷六月| 日本一区二区不卡视频| 免费看美女自慰的网站| 午夜毛片福利| 亚洲国内精品自在自线官|