


摘要:輔助駕駛和自動駕駛技術(shù)將對人類的生活方式帶來巨大影響,而交通標志識別技術(shù)則是其中至關重要的一環(huán)。為了進一步完善交通標志識別理論,文章提出了一種融合自組織映射的卷積神經(jīng)網(wǎng)絡架構(gòu)。自組織映射能將圖像樣本量化至拓撲空間中,從而對微小的變化提供降維和不變性處理。該方法與卷積神經(jīng)網(wǎng)絡相結(jié)合,能充分利用卷積神經(jīng)網(wǎng)絡對平移、旋轉(zhuǎn)、縮放和形變的部分不變性能,從而提高該架構(gòu)的效率和準確度。經(jīng)過初步測試,本系統(tǒng)在200個測試樣本中表現(xiàn)出98.5%的準確率,取得了顯著的成效。
關鍵詞:卷積神經(jīng)網(wǎng)絡;交通標志識別;自組織映射;深度學習
中圖分類號:TP183
文獻標志碼:A
0 引言
輔助駕駛和自動駕駛技術(shù)需要快速準確地從圖像中檢測交通標志。交通標志識別主要依賴于圖像視覺信息,如標志的形狀、大小和顏色等[1]。然而,傳統(tǒng)的識別算法在實時測試中面臨著照明強度、攝像頭角度、障礙物等問題。此外,實現(xiàn)多目標檢測也是目前技術(shù)面臨的困難之一[2]。
雖然深度學習作為一種機器學習方法很早就被提出,但近年來隨著計算機硬件和神經(jīng)網(wǎng)絡架構(gòu)的不斷發(fā)展,深度學習才開始進入發(fā)展黃金時期[3]。卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)是一種重要的深度學習架構(gòu),可以實現(xiàn)對人臉或其他圖像的學習和識別[4],在人臉識別[5]、自動駕駛汽車[6]和智能醫(yī)療[7]等領域得到廣泛應用。當采用CNN模型時,并不需要太多的數(shù)據(jù)預處理任務,它主要是通過卷積完成圖像特征的提取,同時不會丟失重要信息,在降維的同時也保留了與特征相關的信息[8-9]。
因此,本研究系統(tǒng)性地研究了基于自組織映射(Self-organizing Map, SOM)的CNN網(wǎng)絡架構(gòu)來實現(xiàn)交通標志識別。主要包括3個方面:對交通標志數(shù)據(jù)集進行分析和預處理、介紹CNN在圖像識別中的應用以及提出SOM-CNN架構(gòu)并進行數(shù)據(jù)集地訓練和測試。實驗結(jié)果表明,本研究工作具有一定的發(fā)展?jié)摿Α?/p>
1 針對交通標志識別的CNN架構(gòu)
1.1 CNN的典型結(jié)構(gòu)
典型的CNN由多個層組成,主要包含卷積層和池化層,如圖1所示[10]。其中,卷積層包含有多個面,每個面都具有固定的特征檢測器,與前一層的局部窗口做卷積。池化層在卷積層后面,用于進行局部平均和下采樣操作,減少數(shù)據(jù)量,同時保留重要特征。在交通標志識別任務中,CNN已被證明可以有效地識別交通標志的形狀、顏色、符號等。該模型的成功應用主要是因為其卷積層可以學習低級特征,例如邊緣和角點等,然后在池化層中進一步提取和減少特征,最終在全連接層中組合這些特征,形成對交通標志的分類和識別。此外,通過使用反向傳播梯度下降法進行訓練,可以進一步優(yōu)化網(wǎng)絡中的連接策略,從而減少網(wǎng)絡中的權(quán)重數(shù)量,提高模型的精度和效率。
1.2 SOM-CNN
為了進一步提高CNN架構(gòu)的效率和精度,本文引入了SOM來優(yōu)化整個系統(tǒng),提出了SOM-CNN架構(gòu),如圖2所示。該方法能將圖像樣本投影到量化的低維空間的SOM上,實現(xiàn)局部圖像采樣和部分光照不變性技術(shù)的使用。具體研究工作包括:
(1)對于集中訓練的圖像,在整個圖像上設置固定大小的窗口(例如5×5),并在每一步提取局部圖像樣本,其中每步中窗口移動4個像素點;
(2)SOM的3個維度可以被認為是3個特征,在前一階段的向量上進行訓練時,SOM將25維輸入向量量化為125個拓撲值;
(3)在訓練集和測試集中的所有圖像上都會出現(xiàn)與(1)中相同的窗口。局部圖像樣本在每個步驟都通過SOM,從而在SOM創(chuàng)建的輸出空間中創(chuàng)建新
的訓練和測試集。此時,每個輸入圖像由3個映射表示,每個映射對應于SOM中的維度。這些映射的大小等于輸入圖像的大小除以步長;
(4)采用新創(chuàng)建的訓練集訓練CNN網(wǎng)絡。
2 實驗設計和結(jié)果
2.1 實驗設計
本實驗采用了比利時交通標志數(shù)據(jù)集(Belgium Traffic Signs Dataset),該數(shù)據(jù)集包括警示標志、優(yōu)先通行標志、禁止通行標志、強制通行標志、停車路牌、指定通行標志等6大類,訓練和測試數(shù)據(jù)文件夾包含62個子文件夾,所有圖像的格式均為ppm。因此,本實驗的任務是將給定圖像分類為表示交通標志面板的62個類別之一。
實驗環(huán)境搭建基于Python的Tensorflow。Python是一種常用的編程語言,在機器學習中廣泛使用。本實驗使用的Python模塊包含一個名為scikit-learn tool的模塊,該模塊集成了大量用于監(jiān)督和非監(jiān)督問題的機器學習算法。Tensorflow則是一個多用途開源庫,可以在Python,C++,Java,Scala,R等多種編程語言中使用,并可以在Unix,Windows,iOS和Android等平臺上運行。Keras是TensorFlow的官方高級API,用于提供開發(fā)接口,其模型制作簡單,支持卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡以及兩者的組合,支持任意連接方案(包括多輸入和多輸出訓練)。
2.2 實驗結(jié)果
經(jīng)過多組實驗,本文利用SOM-CNN模型對交通標志進行分類識別。每次實驗分別具有200張訓練圖像,200張測試圖像,并且訓練和測試集之間沒有重疊。為了比較訓練和執(zhí)行時間,本實驗使用了NVIDIA GeForce RTX 2060和3080進行對比實驗,如表1所示。
實驗表明,該模型對交通標志識別效果良好。在多次實驗中,平均每200張測試圖像種有3張被錯誤分類,其正確率約為98.5%,表現(xiàn)出很好的分類效果。
3 結(jié)語
交通標志檢測通常基于機器學習方法,而深度神經(jīng)網(wǎng)絡的出現(xiàn)進一步提升了其分類精度。深度神經(jīng)網(wǎng)絡基于許多簡單互連的神經(jīng)元,可以從大量數(shù)據(jù)中提取有意義的特征以解決復雜的分類問題。為了進一步提高交通標志識別的準確率,文章結(jié)合現(xiàn)有理論開發(fā)了SOM-CNN架構(gòu),并對交通標志數(shù)據(jù)集進行了分類,取得了良好的效果。盡管其準確率與主流方法相比尚有差距,但其高效性使其具有一定的發(fā)展?jié)摿ΑN磥恚芯咳藛T可以通過改進結(jié)構(gòu)來進一步提高SOM-CNN模型的效率和精度,并擴展模型以檢測其他對象,如行人、動物和其他復雜障礙物,以期在實際應用中取得更好的效果。
參考文獻
[1]SAADNA Y,BEHLOUL A.An overview of traffic sign detection and classification methods[J].International Journal of Multimedia Information Retrieval,2017(6):193-210.
[2]HE Z,NAN F,LI X,et al.Traffic sign recognition by combining global and local features based on semi‐supervised classification[J].IET Intelligent Transport Systems,2020(5):323-330.
[3]LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015(521):436-444.
[4]ALZUBAIDI L,ZHANG J,HUMAIDI A J,et al.Review of deep learning: concepts, CNN architectures, challenges, applications, future directions[J].Journal of Big Data,2021(8):71-74.
[5]KASAR M M,BHATTACHARYYA D,KIM T H.Face recognition using neural network: a review[J].International Journal of Security and Its Applications,2016(3):81-100.
[6]ALAM A,PRAVEEN S.A review of automatic driving system by recognizing road signs using digital image processing[J].Journal of Informatics Electrical and Electronics Engineering (JIEEE),2021(2):1-9.
[7]SINGH S P,WANG L,GUPTA S,et al.3D deep learning on medical images: a review[J].Sensors,2020(18):5097.
[8]LI Z,LIU F,YANG W,et al.A survey of convolutional neural networks: analysis, applications, and prospects[J].IEEE Transactions on Neural Networks and Learning Systems,2021(4):1-21.
[9]HINTON G E.To recognize shapes, first learn to generate images[J].Progress in Brain Research,2007(165):535-547.
[10]HAJI S H,ABDULAZEEZ A M.Comparison of optimization techniques based on gradient descent algorithm: a review[J].PalArch’s Journal of Archaeology of Egypt/Egyptology,2021(4):2715-2743.
(編輯 王雪芬)
Research on convolutional neural network architecture based on self-organizing map
Zhao Yi’ai
(Zhengzhou University of Industrial Technology, Zhengzhou 451100, China)
Abstract: Assisted driving and automatic driving technologies are poised to greatly impact human lifestyle, with traffic sign recognition technology representing a pivotal aspect thereof. To refine the theoretical underpinnings of traffic sign recognition, a convolutional neural network framework combined with self-organizing map algorithm is proposed. And, self-organizing map algorithm can quantize image samples into topological space, thus providing dimensionality reduction and invariance processing for small changes in image samples. This method, combined with the partial invariant performance of convolution neural network for translation, rotation, scaling and deformation, improves the efficiency and accuracy of this architecture. The experimental results show that the accuracy of proposed system is 98.5% in 200 test samples, representing a highly promising outcome.
Key words: convolution neural network; traffic sign recognition; self-organizing map; deep learning