張樂 張志梅 劉堃 王國棟







摘要:? 針對目前存在的復雜交通場景中車輛分割精度不足的問題,本文提出了一種基于全卷積神經網絡對圖像中車輛進行分割的方法。在VGG16Net基礎上,將全連接層改為卷積層,為獲得更精細的邊緣分類結果,減少了部分卷積層,并融合淺層和深層特征,同時,為提高交通環境下車輛的分割精度,減少其他類別目標的干擾,將對車輛目標的分割問題改為基于像素的二分類問題,為提高網絡的訓練速度,采用Adam優化算法對網絡進行訓練。實驗結果表明,與現有的全卷積神經網絡分割效果相比,該網絡對復雜交通場景下的車輛分割精度明顯提高。該研究在智能交通方面具有較好的應用前景。
關鍵詞:? 全卷積神經網絡; 車輛分割; Adam優化算法; 深度學習
中圖分類號: TP389.1 文獻標識碼: A
隨著科學技術的發展,交通智能化成為當今研究的必然趨勢[13],在智能交通系統中的車輛追蹤識別和自動駕駛等方面,車輛分割精細程度起到關鍵性作用。將圖像分為背景和車輛子區域的過程被稱為車輛分割。目前,車輛分割方法主要是基于傳統方法和基于深度學習的方法。在基于傳統方法方面,吳忻生等人[4]提出一種結合最優分割雙閾值法和條件隨機場模型等對車輛分割的算法;F. Cloppet等人[5]提出用分水嶺分割算法來分割車輛;A. Zaccarin等人[6]構建后驗概率模型并利用動態場景參數,區分車輛目標與背景。這些傳統方法計算量大、處理過程復雜,易造成過分割現象,在復雜環境下分割精準率低且效果差;在基于深度學習方法方面,J. Long等人[7]提出了一種基于全卷積網絡(full convolutional network,FCN)的語義分割方法,該方法通過像素級分類實現語義分割;計夢予等人[89]分析了語義分割的常用算法及最新成果;徐國晟等人[1013]對車道線及鐵路場景下的語義分割進行研究;高凱珺等人[14]提出使用卷積反卷積神經網絡,對無人車夜視圖像進行語義分割;V. Badrinarayanan等人[15]通過最大非線性上采樣方法實現語義分割。這些基于深度學習的方法,隨著解決的問題越來越復雜,網絡復雜程度及消耗的計算資源增大,訓練時間變長。因此,通過分析比較隨機梯度下降法(stochasitc gradient descent,SGD)、monmentum動量法[16]、內斯特羅夫加速梯度(nesterov accelerated gradient,NAG)[17]、Adagrad[18]和Adam(adaptive moment estimaton)[19]等優化算法優缺點后,本文選擇使用收斂速度最快的Adam算法訓練網絡,并基于VGG16Net網絡,構建全卷積神經網絡。結合大量車輛樣本數據集進行訓練,提高了在復雜交通環境下車輛圖像的分割精度。該研究為智能交通的發展奠定了理論基礎。
1 基于全卷積神經網絡車輛分割模型
本文以Karen等人[20]提出的VGG16Net模型為基礎,構建了復雜環境下的車輛分割全卷積神經網絡。本文構建的基于全卷積網絡的車輛分割網絡結構如圖1所示。圖1中,Conv表示卷積層,Conv12表示連續兩個卷積,P表示池化層,Fc表示全連接層轉換成的卷積層,Dc表示反卷積輸出層,Fu表示深層特征與淺層特征融合結果。
VGG16Net是典型的卷積神經網絡,由13層卷積、5層池化和2層全連接組成,具有很好的自然圖像特征空間的表征能力。因此,本文以VGG16Net為基礎,按照圖1網絡結構,構建全卷積神經網絡。
將VGG16 Net中的兩層全連接層轉換為卷積層,直接對最后卷積層輸出的特征圖反卷積,獲得圖像的分割結果。但由于轉換后的卷積層屬于深層卷積層,獲得的特征圖因卷積次數過多丟失很多細節信息,分割結果粗糙。因此,在此變換基礎上,構建跳躍網絡結構,融合深層和淺層網絡特征(見圖1)。因為網絡淺層含有更多的細節信息,而深層卷積層的特征含有更抽象的語義信息,適當的將反卷積層的預測結果與淺層網絡輸出的特征圖像進行融合,可以得到更為精確的分割結果。因FCN網絡模型[7]是對21種類圖像的語義分割,在對基于二分類目標分割時,網絡結構復雜,對目標邊緣、細節特征的分割效果并不好。因此,減少卷積層數,改變最后輸出分類個數,并將21種類別的目標分割問題轉換為基于像素的二分類問題,減少其他特征干擾,提高交通環境下車輛圖像的分割像素準確率和類平均準確率。采用數據集對搭建好的神經網絡訓練,訓練完成的神經網絡可用于對車輛圖像的分割。
1.2 全連接層卷積化及網絡層的融合
為了將卷積層提取的特征用以實現像素級分類,達到對圖像分割的目的,將VGG16Net最后全卷積層換成卷積層。由于全連接層的權重矩陣是固定的,導致輸入神經網絡的圖像大小必須是固定的,將全連接層改為卷積層后,輸入圖像大小不必固定,在一定程度上保留了目標的特征。實現方式是將全連接層中的每個神經元,改為與其輸入維度相同的卷積核卷積操作后的輸出。若有N個輸出,卷積核的個數也為N,可獲得N個不同的輸出。N標著輸出的類別個數,變換后的網絡,通過卷積層的特征圖與輸入的原圖大小并不一致,為使網絡的最終輸出與輸入大小相同,在全連接層轉換為卷積層后,需增加一個上采樣層,或者反卷積層,這樣整個網絡只有卷積層和池化層,不存在全連接層,可稱為全卷積神經網絡。
通過反卷積或者上采樣等獲得與原圖大小相等的輸出,細節信息少,直接用于像素級分類的準確率不高,所以最后卷積層輸出圖像經過反卷積,獲得與淺層網絡輸出的特征圖等大的圖像,通過跳躍結構與淺層網絡相融合,再通過反卷積,獲得與輸出圖像相等的圖像。網絡層的融合增加了豐富的細節信息,實驗證明了提高像素級分類的準確率。
對于機器學習中大多數監督學習模型,使用合適的優化算法得到最小的函數損失值,以此得到最優的權值。目前,Adam算法是訓練速度最快,效果最好,并對超參數的選擇相當魯棒的優化算法。在Adam中,動量直接并入梯度一階矩的估計,并且修正從原點初始化的一階矩和二階矩的估計。因此,本文采用Adam優化算法訓練網絡參數。
2 實驗驗證
2.1 數據集
本文采用Pascal VOC2012數據集和基于青島交通監控視頻采用的Pascal VOC數據集的格式,制作VehicleDataSet數據集。這是由于Pascal VOC2012數據集中包括的車輛數據集只有約700張,訓練時數據量少,交通場景不豐富,為獲得更好的訓練后的網絡模型,本文制作了VehicleDataSet數據集。VehicleDataSet數據集共有1 000張圖像,包括光照強烈的白天、光照弱的傍晚、不同角度下的車輛以及車輛稀疏、擁堵等各種不同場景,VehicleDataSet數據集中的車輛圖像如圖2所示。
本實驗采用Ubuntu1404操作系統,深度學習框架采用基于NVIDIA GTX 970 GPU硬件平臺上搭建的TensorFlow。網絡在訓練過程中,首先使用VGG16Net預訓練好的網絡模型作為實驗的微調模型,用于初始化本文構建的網絡模型前10層網絡參數,即第3次池化層之前的網絡參數,同時使用Pascal VOC2012數據集和VehicleDataSet數據集對所有網絡進行訓練,并使用Adam更新網絡權值,直到網絡收斂。
對訓練好的神經網絡進行測試,將1幅任意大小的圖像輸入已經訓練好的網絡中,通過前向傳遞的方式,對圖像每個像素點進行預測分類,通過對每個像素的分類,實現對整張圖像中的目標分割。
2.2 分割結果評價指標
本文提出的對車輛分割的方法,是對圖像進行像素級分類,即對每個像素點進行分類。其性能評估方法包括:像素準確率、類平均準確率和平均區域重合度(mean IU,intersection over union)3種,平均IU表示預測像素正確的交集,除以預測像素和原來像素的并集。各性能評估方式定義如下:
2.3 實驗結果及分析
在復雜的交通環境下,基于本文構建的全卷積神經網絡,對2分類和21分類的分割結果進行比較。實驗結果表明,對于不完整的車輛,21分類網絡與2分類網絡相比,分割效果并不好,如車輛細節和邊緣輪廓分割不準確,且當環境變的復雜,如光照不足、有陰影遮擋車輛、車輛數密集等,2分類網絡的分割準確率比21分類網絡分割準確率高。不同分割種類的分割結果如圖3所示。
對于2分類全卷積神經網絡和21分類全卷積神經網絡,不同訓練數據集車輛分割情況如表1所示。由表1可以看出,在不同訓練樣本條件下,2分類網絡比21分類網絡對車輛的分割精度有明顯提高,而且隨著樣本數的增加,像素準確率、類平均準確率和平均IU均有所提高。對于2分類和21分類的分割網絡模型,采用2分類分割算法的平均IU可以達到90%,比21分類網絡模型對車輛目標的平均IU值提高4%。
使用相同數據集微調各種不同全卷積神經網絡,由相同數據集的分割結果可以看出,文獻[7]中FCN模型隨著融合次數的增加,分割精度在上升,證明進行淺層與深層的融合在一定程度上能提高分割準確率。本文針對交通環境下車輛分割問題,減少深層卷積層,兩次融合增加了分割結果中的噪聲,導致在車輛邊緣部分分割效果并不好,在減少深層網絡卷積層的基礎上,只進行1次深層特征與淺層特征融合,得到最優分割結果。不同模型分割結果如圖4所示。
由圖4可以看出,一定程度地增加訓練樣本的容量,可以提高全卷積神經網絡對目標分割的準確率,對網絡的中深層特征層與淺層特征層適當融合,提取的特征更多更細,識別的像素更多更準確,對目標分割的準確度也會提高。同時,降低網絡分割目標的類別數,一定程度上提高了目標分割的準確率。
使用本文所提出的全卷積神經網絡,得到不同環境下車輛分割可視化后的結果,其中,復雜場景分為光照強弱、是否有陰影和擁堵場景等??梢暬能囕v分割結果如圖5所示。
1) 光照強弱。由于白天到夜晚間的光照不同,且夜間光照弱,車燈具有明顯的反光現象,影響車輛分割。以是否有自然光為標準,分為光照弱和一般場景圖像。
2) 是否有陰影。由于車道兩旁建筑物不同,易對行駛的車輛覆上陰影。以是否覆上陰影為標準,分為有陰影和一般場景圖像。
3) 擁堵場景。車輛圖像密集,使圖像較為復雜,若每幅圖像超過10輛車,則將其判定為擁堵場景。
由圖5可以看出,本文提出的算法,在復雜交通環境下也能很好實現車輛分割,并且很接近真實的分割圖。
將本文FCN結果可視化圖和人工標記可視化圖進行對比,細節對比圖如圖6所示。
由圖6可以看出,當車輛邊緣有輕微凸起時,對后視鏡和車輪邊緣的分割較平滑,并不理想;當有車輛粘連時,粘連部分的分割效果比較差,但對于整體邊緣的分割效果較好。
3 結束語
本文基于VGG16Net構建全卷積神經網絡,并將其用于復雜交通環境下的車輛分割。研究了把對圖像的分割問題轉換成基于像素的二分類問題后對車輛分割結果的影響,同時研究了深層與淺層融合次數對分割結果的影響。實驗結果表明,對于復雜環境中的車輛,適當的將深層卷積層與淺層卷積層特征融合,可以提高對車輛的分割準確率,而過多融合和不融合的分割效果都不佳。對于不同的分割目標,應選擇合適的融合次數。將目標分割問題轉換成對像素的二分類問題后,減少了其他目標特征的干擾,提高了車輛的分割準確率,但對于光照弱場景下的車輛及粘連遮擋過多的車輛,分割效果并不好,以后將對此問題進一步展開研究。
參考文獻:
[1] 王曉, 要婷婷, 韓雙雙, 等. 平行車聯網: 基于ACP的智能車輛網聯管理與控制[J]. 自動化學報, 2018, 44(8): 13911404.
[2] Li D M, Deng L B, Cai Z M, et al. Intelligent Transportation System in Macao Based on Deep SelfCoding Learning[J]. IEEE Transactions on Industrial Informatics, 2018, 14(7): 32533260.
[3] Yang Z, Lilian S C, Pun C. Vechicle detection in intelligent transportation systems and its applications under varying environments: A review[J]. Image and Vision Computing, 2018, 69(1): 143154.
[4] 吳忻生, 鄧軍, 戚其豐. 基于最優閾值和隨機標號法的多車輛分割[J]. 公路交通科技, 2011, 28(3): 125132.
[5] Cloppet F, Boucher A. Segmentation of overlapping/aggregating nuclei cells in bioimages [C]∥19th International Conference on Pattern Recongnition. Tampa, USA: IEEE, 2008: 14.
[6] MartelBrisson N, Zaccarin A. Kernel Based Learning of Cast Shadows from a Physical Model of Light Sources and Surfaces for Low Level Segmentation[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, Alaska, USA: IEEE, 2008: 18.
[7] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 34313440.
[8] 計夢予, 襲肖明, 于治樓. 基于深度學習的語義分割方法綜述[J]. 信息技術與信息化, 2017, 24(10): 137140.
[9] 張新明, 祝曉斌, 蔡強, 等. 圖像語義分割深度學習模型綜述[J]. 高技術通訊, 2017, 27(9): 808815.
[10] 徐國晟, 張偉偉, 吳訓成, 等. 基于卷積神經網絡的車道線語義分割算法[J]. 電子測量與儀器學報, 2018, 32(7): 8994.
[11] He Z W, Tang P, Jin W D, et al. Deep semantic segmentation neural networks of railway scene[C]∥37th Chinese Control Conference. Wuhan, China: China Academic Journal Electronic Publishing House, 2018: 90959100.
[12] 吳駿逸, 谷小婧, 顧幸生. 基于可見光/紅外圖像的夜間道路場景語義分割[J]. 華東理工大學學報, 2018, 44(6): 111.
[13] 李琳輝, 錢波, 連靜, 等. 基于卷積神經網絡的交通場景語義分割方法研究[J]. 通信學報, 2018, 39(4): 123130.
[14] 高凱珺, 孫韶媛, 姚廣順, 等. 基于深度學習的無人車夜視圖像語義分割[J]. 應用光學, 2017, 38(3): 421428.
[15] Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoderdecoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(12): 24812495.
[16] Qian N. On the momentum term in gradient descent learning algorithms. Neural Networks[J]. The Official Journal of the International Neural Network Society, 1999, 12(1): 145151.
[17] Nesterov Y E. A method of solving a convex programming problem with the convergence rate o(1/k2)[J]. Doklady ANSSSR (Translated as Soviet. Math. Docl.), 1983, 27(1): 543547.
[18] John L D, Hazan E, Singer Y.Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2010, 12(7): 257269.
[19] Kingma D P, Ba J L. Adam: a method for stochastic optimization[C]∥International Conference on Learning Representations. California, San Diego, USA: SDRS, 2015.
[20] Simonyan K, Zisserman A. Very deep convolutional networks for largescale image recognition[C]∥ International Conference on Learing Representations. California, San Diego, USA: SDRS, 2014: 11501210.