何銀銀 賴水長 侯建赭



摘? 要: 地表分類技術對地面無人駕駛車輛的感知能力有著重要影響。而針對傳統卷積神經網絡CNN(Convolutional Neural Networks)地表分類效果不佳的問題,本文提出一種結合多通道深度學習和隨機森林的地表分類算法。算法先通過圖像計算得到人工設計的特征LBP;再采用多通道融合技術,將原彩色圖像的RGB三通道和LBP通道加以融合形成融合圖像;然后構建并預訓練卷積神經網絡,以此提取融合圖像的關鍵特征信息;最后用隨機森林分類器代替卷積神經網絡輸出層完成地表分類。實驗結果表明,本文算法識別正確率達到98.56%,相比于傳統卷積神經網絡能取得更好的分類結果,具有一定的魯棒能力。
關鍵詞: 卷積神經網絡;多通道融合;地表分類;隨機森林;LBP特征
【Abstract】: Surface classification technology has an important effect on perception ability of ground driverless vehicles. To solve the problem of ineffective land surface classification of traditional Convolutional Neural Networks (CNN), the paper proposes a land surface classification algorithm based on multi-channel deep learning and random forest. The algorithm firstly obtains artificially designed feature LBP by image calculation, then fuses RGB three-channel and LBP channel of original color image to form the fusion image with multi-channel fusion technology, constructs and pretrains convolutional neural network to extract key feature information of the fusion image, finally replaces output layer of convolutional neural network with random forest classifier to complete surface classification. Experimental results show recognition accuracy of the algorithm reaches 98.56%. Compared with traditional convolution neural network, the algorithm can achieve better classification results and has some certain robustness.
【Key words】: Convolutional neural network; Multi-channel fusion; Surface classification; Random forest; LBP characteristics
0? 引言
近年來,隨著計算機硬件水平與模式識別技術的發展,無人駕駛車輛的研究得到了得到了重大發展[1-3],其廣泛應用于國防等各個領域。地表分類是無人駕駛車輛研究的一個重要課題,對于提升車輛的感知能力有重要影響。
目前,針對非結構化道路的地表分類技術還不成熟,因為在非結構化的行車環境下,場景結構復雜,光照條件多變,圖像品質隨感知距離增大而下降,非結構化環境感知成為亟待解決且極具挑戰性的問題。文獻[4]提出一種基于 PCA-SVM 準則改進區域生長的方法,因為降維可能會忽略原圖像部分特征,導致對道路邊緣相似地表的識別效果不佳。文獻[5]提出多通道卷積神經網絡模型,雖然處理的是完整圖像,效果良好,但對紋理特征信息并不重視,針對復雜紋理地表圖像的區分效果不佳。
上述的兩種方法都使用了原圖像作為輸入,而如果直接對原圖像進行處理是較為容易忽略部分關鍵特征的。而本文提出算法先對圖像處理生成紋理特征,將其與原圖像融合形成多通道的方法就可以在這方面做到比較好的解決,同時對非結構化道路的適應性更強,對于非結構化地表分類的研究有極大的參考價值。
本文算法采用多通道融合技術將RGB彩色圖像和人工設計的特征LBP[6]加以融合,構建卷積神經網絡提取融合圖像的關鍵特征信息,再將關鍵特征信息輸入隨機森林分類器使其自分類學習,最終得到圖像分類結果。
1? 地表圖像特征提取及分類
地表圖像分類是根據地表圖像及其反映的傳統特征,將不同類別的地表圖像進行區分。鑒于直接使用原彩色圖像可能并不能很好地刻畫紋理特征,我們先從原圖像提取得紋理信息;再將其與原彩色圖像加以融合[7],利用深度學習技術對其再處理提取更為有效地的信息。
算法流程如圖1所示。
整個算法由多通道融合特征模塊、卷積神經網絡提取模塊以及隨機森林分類器兩部分組成。首先,由樣本圖像計算出LBP紋理特征,再將其與原彩色圖像融合處理成新的張量。然后,采用預訓練多通道卷積神經網絡,經過多次卷積、池化和降采樣操作,得到更關鍵的特征向量。最后將特征向量輸入隨機森林分類器,分類器進行運算與分類后,完成最終分類。
1.1? 多通道融合特征
本算法采用多通道融合特征,包含地表原彩色圖像以及LBP紋理特征圖。
LBP(局部二值模式)算子主要用于描述圖像的紋理特征信息,具有灰度不變性、旋轉不變性等優點。
LBP算子是對圖像中的任意像素都進行以下處理:以其為中心取一個3*3大小的矩形窗口,將其像素值設置為閾值pc,窗口內其他像素值x若大于此閾值則取一、小于其則取零,這樣窗口內將產生八位二進制數字,按順序組合起來則為中心像素的LBP值(取值范圍為0-255),即反映了該區域的紋理特征。LBP的計算公式如下:
通過該算子對所有像素進行計算,每個像素填入LBP值,最終生成與原圖大小一致的LBP特征圖,作為第四通道數據。
最后將四個通道疊加,輸入構建的卷積神經網絡。采用RGBA圖像格式可視化顯示如圖2所示。
1.2? 構建卷積神經網絡特征提取
卷積神經網絡CNN[8-13]是一種經典神經網絡,其模型是模仿人腦神經元細胞信息傳遞的機制,該模型對視覺信息處理非常有效,近年來被廣泛使用在圖像處理領域并取得顯著成果。卷積神經網絡對地表圖像進行逐層特征處理,不斷提取更為重要的特征數據輸入到下一層中,直到最后一層通過全連接層轉換到類別向量,與標記類別進行對比,并通過BP[14]算法將結果誤差信息反饋給前層網絡,使網絡模型根據數據集不斷學習,最終得到參數訓練好的模型。
卷積神經網絡包括輸入層、卷積層、最大池化層、全連接層。輸入層,將雙通道融合特征圖輸入模型。卷積層,將前一層的特征圖迭代乘上若干個卷積核,得多層特征圖像。卷積層的計算公式如下:
如圖3所示,為本文在調整Alexnet網絡結構基礎上構建的地表分類CNN模型結構。
相比于大卷積核,多個小的卷積核可以使模型引入更多的非線性,得到更多圖像特征,同時減少模型參數量[15],所以模型采用3*3的小卷積核。
Dropout層為隨機失活層,即根據丟失幾率隨機將某全連接層的部分節點設置為不參與運算,以此來降低網絡模型的過擬合幾率,使網絡更加健壯,對復雜數據具有更好的魯棒性,所以模型在卷積層及全連接層中引入Dropout抑制過擬合。
在全連接層中,神經元個數減少的同時,特征語義性更強,但卻導致部分低級語義特征喪失,對FC2層神經元個數的選取極為重要。通過調整FC2層神經元個數設計5種網絡如表1所示,通過后序實驗選擇性能最優的網絡。
由于卷積神經網絡輸出層softmax分類器較為簡單,分類能力較弱,所以使用訓練集預訓練模型,獲得模型參數后,將特征圖輸入模型后取出倒數第二層數據獲得特征向量。使用其他分類器對特征向量進行分類。
1.3? 隨機森林分類器
分類模型選取了隨機森林[16]分類器,即在訓練集中隨機重采樣選出一定數量的樣本(可重復采樣),在所有樣本上,對這些樣本建立分類器,重復以上兩步多次,獲得相應個數的分類器。在測試實驗中,將測試數據輸入隨機森林分類器,它會傳入所有分類器,進行各自分類,最后根據分類器匯總的投票結果,選擇票數最多的類別作為最終結果輸出。
由于隨機森林分類器實際上擁有多個分類器,所以對數據的泛化能力好,出錯率低。
2? 實驗結果與分析
為了驗證本文所提出的基于多通道卷積神經網絡的地表分類模型的有效性,將本文中提出的方法在南京理工大學自然紋理數據庫上進行了測試,并將測試結果與其他常用方法進行了對比。
2.1? 數據集介紹
數據集選用南京理工大學自然紋理數據庫進行實驗,該數據庫一共包含8997張分辨率為64X64的彩色地表圖像,其中泥土圖像2999張,草地圖像2999張,沙礫圖像2999張。將數據集按7:3的比例隨機劃分為訓練集和測試集。部分數據集如圖4所示。
為實現更好的分類效果,首先對訓練集數據進行預處理,將圖像RGB每個通道等分為16個灰度級,以該灰度占各通道比例做直方圖,以該直方圖為特征(圖5所示)用kmeans進行聚類,肘方法(參
考文獻)確定最佳的聚類簇數。將泥土樣本分為2個子類,砂石樣本分為3個子類,草地樣本保持不變,一共6個類別,如圖6所示。
2.2? 實驗設計與結果分析
實驗使用搭載有NVIDIA Tesla T4的服務器進行訓練,顯存為16GB。使用tensorflow平臺訓練模型,實驗批尺度為32,模型共迭代200次,設置初始學習率為0.001,為防止過擬合設置學習率衰減項為0.000001,動量為0.9進行優化。
針對表1中的5種網絡,在南京理工大學自然紋理數據庫上采用原圖像RGB三通道加LBP人工設計特征通道共四通道為輸入進行實驗測試,得到結果如表2所示。
由表2可知,網絡Ⅲ具有最好的分類性能,其FC2層的神經元個數為128個,說明在網絡其他結構及輸入輸出相同的條件下,FC2層大小選擇128較為合理。
以網絡Ⅲ為卷積神經網絡結構,在南京理工大學自然紋理數據庫上采用RGB、LBP、HOG、gray等通道及支持向量機(SVM)、隨機森林(RFC)分類器進行試驗,為減少偶然性,每組實驗做5次取平均,得到表3所示的結果數據。
表中給出了灰度圖、RGB彩色圖、HOG特征圖、LBP特征圖、RGB+HOG多通道圖、RGB+LBP多通道特征圖在不同分類組合下的測試集正確率,可以看出,相較于單一的灰度特征,顏色信息的加入對于地表分類效果有明顯的提升,并且RGB顏色信息和人工設計的特征HOG、LBP的融合識別率也高于單獨使用的實驗結果,且采用LBP特征與RGB融合效果更好。同時,采用CNN作為特征提取器與傳統分類器組合的方式優于單獨使用效果,隨機森林分類器的表現優于SVM。
使用本文提出的方法,得到最終各類別的識別正確率及混淆矩陣如表4和表5所示。
2.3? 泛化性測試
為測試模型的泛化性,下面是在野外真實場景中進行分類的實驗結果,其中,圖7為分辨率為2048768的原圖像,圖8為由本文分類方法分類得到的圖像,其中黑色為泥土區域,灰色為草地區域,白色為砂石區域。
圖8可以看出,本文提出的基于RGB和LBP的多通道深度學習結合隨機森林的模型能夠較好地識別地表紋理圖像。
3? 結語
針對非結構化道路識別中特征繁多、分類困難,本文采用基于多通道深度學習的方法,在保留原始特征的同時,結合人工設計的特征LBP,加強了紋理特征的刻畫,并采用隨機森林完成最后分類,以提升分類能力。實驗結果也表明該方法具有良好的分類性能,識別正確率達到98.56%。相較傳統方法,本文方法可以更好提升地面無人駕駛車輛非結構化環境感知能力與水平。
參考文獻
[1]Chavez-Garcia R O, Guzzi J, Gambardella L M, and Giusti A. Learning ground traversability from simulations [J]. IEEE Robotics and Automation Letters, 3(3): 1695-1702, July 2018.
[2]Andrakhanov A, Stuchkov A. Traversability estimation system for mobile robot in heterogeneous environment with different underlying surface characteristics[C]. In Proceedings of CSIT, pp. 549-554, September 04-08, 2017, Lviv, Ukraine.
[3]劉家銀, 唐振民, 吳國星. 基于MVSVM和超像素的可通行區域檢測方法[J].? 華中科技大學學報(自然科學版), 43(增刊I): 345-249, 2015.
[4]王新晴, 孟凡杰, 呂高旺, et al. 基于PCA-SVM準則改進區域生長的非結構化道路識別[J]. 計算機應用, 2017(6).
[5]崔巍, 楊健, 常合友. 基于多通道卷積神經網絡的非結構化道路路表分析[J]. 計算機應用與軟件,2016, 33(1): 159-162.
[6]盧官明, 左加闊. 基于二維局部保持鑒別分析的特征提取算法[J]. 南京郵電大學學報(自然科學版), 2014, 34(5): 1-8.
[7]毛鶯池, 王靜, 陳小麗, 徐淑芳, 陳豪. 基于特征組合與CNN的大壩缺陷識別與分類方法[J]. 計算機科學, 2019, 46(03): 267-274.
[8]Ji S , Xu W , Yang M , et al. 3D Convolutional Neural Networks for Human Action Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.
[9]Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th annual international conference on machine learning. ACM, 2009: 609-616.
[10]Gong Y, Jia Y, Leung T, et al. Deep convolutional ranking for multilabel image annotation[J]. arXiv preprint arXiv: 1312. 4894, 2013.
[11]Chan T H, Jia K, Gao S, et al. PCANet: A simple deep learning baseline for image classification?[J]. IEEE transactions on image processing, 2015, 24(12): 5017-5032.
[12]Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231.
[13]Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231.
[14]LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551.
[15]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409. 1556, 2014.
[16]李玲, 李晉宏. 基于隨機森林修正的加權二部圖推薦算法[J]. 軟件, 2018, 39(01): 110-115.