黃娜君,汪慧蘭,朱強(qiáng)軍,洪名佳
(安徽師范大學(xué) 物理與電子信息學(xué)院,安徽 蕪湖 241000 )
隨著社會(huì)經(jīng)濟(jì)的發(fā)展,現(xiàn)代交通已經(jīng)非常發(fā)達(dá),交通安全和交通阻塞隨之成了日益嚴(yán)重的社會(huì)問(wèn)題,同時(shí)也造成了驚人的經(jīng)濟(jì)損失,這使得道路交通問(wèn)題的解決不得不求助于智能技術(shù)。基于此智能交通系統(tǒng)(Intelligent Transportation System ,ITS)這一研究領(lǐng)域迅速發(fā)展起來(lái),道路交通標(biāo)志識(shí)別(Traffic Sign Recognition ,TSR) 是ITS領(lǐng)域中難度較大的問(wèn)題之一。現(xiàn)今車載系統(tǒng)中,交通標(biāo)志的提示信息大多通過(guò)數(shù)字地圖數(shù)據(jù)獲知,但是該方法只限于作為地圖數(shù)據(jù)的一部分的道路,而在其他情況下則無(wú)法獲知,因此基于視覺(jué)交通標(biāo)志識(shí)別系統(tǒng)應(yīng)運(yùn)而生,經(jīng)過(guò)幾十年的不斷發(fā)展,特別近年來(lái)隨著移動(dòng)互聯(lián)網(wǎng)、高性能計(jì)算機(jī)和智能移動(dòng)終端的普及,圖像采集設(shè)備和處理能力的提高,交通標(biāo)志識(shí)別已經(jīng)成為實(shí)景圖像識(shí)別中熱點(diǎn)研究問(wèn)題。
現(xiàn)今,交通標(biāo)志識(shí)別方法主要有以下兩種。一種是采用“人工特征提取+機(jī)器學(xué)習(xí)”的識(shí)別方法,如支持向量機(jī)(Support Vector Machine,SVM)、基于淺層神經(jīng)網(wǎng)絡(luò)的特征識(shí)別等。這種方法,機(jī)器學(xué)習(xí)僅負(fù)責(zé)最后特征的分類或識(shí)別,而人工通過(guò)先驗(yàn)知識(shí)設(shè)計(jì)的特征好壞,直接影響到整個(gè)系統(tǒng)的性能,且復(fù)雜的特征提取花費(fèi)了大量的人力和時(shí)間。另一種是近些年發(fā)展起來(lái)的Deep learning模型,如基于限制波爾茲曼機(jī)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network ,CNN)等。其無(wú)需構(gòu)造任何的人工特征,而是直接將圖像像素作為網(wǎng)絡(luò)輸入,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程。但整幅圖像作為輸入,由于運(yùn)動(dòng)模糊、背景干擾、光照以及交通標(biāo)志局部遮擋破損等因素的影響,使得網(wǎng)絡(luò)的識(shí)別率和識(shí)別速度往往不高。
針對(duì)這一問(wèn)題,本文采用基于ROI和CNN的方法進(jìn)行交通標(biāo)志識(shí)別。首先為了消除天氣等因素影響,對(duì)獲取的一幅圖像先進(jìn)行光照均衡化處理;然后,充分利用交通標(biāo)志的自身特點(diǎn)進(jìn)行顏色閾值分割,再用MSER算法進(jìn)行濾除,提取出交通標(biāo)志所在的感興趣區(qū)域(Region of Interest,ROI);緊接著把分割結(jié)果輸入深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行一系列的卷積和池化處理,形成交通標(biāo)志圖像的特征子圖,將特征子圖轉(zhuǎn)化成為一維的特征矢量;最后可以通過(guò)一個(gè)全連接的BP網(wǎng)絡(luò)完成一維特征矢量的分類識(shí)別,并輸出結(jié)果。實(shí)驗(yàn)結(jié)果表明本文方法與其他方法相比,對(duì)于實(shí)景拍攝圖像的識(shí)別率和識(shí)別速度不高的問(wèn)題有了明顯的改進(jìn)。
為了提高網(wǎng)絡(luò)的識(shí)別率和識(shí)別速度,對(duì)獲取的一幅圖像,首先提取感興趣區(qū)域,這樣大大縮小了網(wǎng)絡(luò)識(shí)別的范圍。
1.1 亮度均衡化
提取交通標(biāo)志ROI的流程如圖1所示。對(duì)于采集來(lái)的一幅圖像,為了消除天氣等因素影響,首先要進(jìn)行光照均衡化處理。本文采用直方圖均衡化的思想。先將采集的RGB圖像轉(zhuǎn)換為YCbCr顏色模型下;然后對(duì)亮度分量Y進(jìn)行直方圖均衡化處理;最后將處理后的圖像再轉(zhuǎn)為RGB模型。光照均衡化公式如下:
(1)
式中,Sk為處理后的灰度值,nj為灰度色階j的像素?cái)?shù)量,N為圖像像素總和。

圖1 交通標(biāo)志ROI提取的流程圖
1.2 采用MSER算法進(jìn)行濾除
根據(jù)交通標(biāo)志顏色特點(diǎn),光照均衡化處理后,用MSER算法檢測(cè)提取交通標(biāo)志ROI,具有很好的穩(wěn)定性、仿射不變性和計(jì)算高效快捷等特點(diǎn)。
MSER算法的思想是當(dāng)使用不同的灰度閾值對(duì)圖像進(jìn)行二值化時(shí)得到的最穩(wěn)定的區(qū)域。MSER提取過(guò)程如下:① 使用一系列灰度閾值對(duì)交通標(biāo)志圖像進(jìn)行二值化處理;② 對(duì)于每個(gè)閾值得到的二值圖像,得到相應(yīng)的黑色區(qū)域與白色區(qū)域;③ 在比較寬的灰度閾值范圍內(nèi)保持形狀穩(wěn)定的區(qū)域是MSERs;④ 評(píng)判標(biāo)準(zhǔn): dA/dt。其中A: 二值圖像區(qū)域面積,t: 灰度閾值。
通過(guò)MSER算法提取MSERs得到交通標(biāo)志ROI。圖2是給出禁令標(biāo)志交通標(biāo)志ROI提取的過(guò)程。首先禁令標(biāo)志是紅色,對(duì)紅色進(jìn)行分割,公式如下:

(2)
在RGB模型下分割結(jié)果如圖2(b)所示,再對(duì)CA進(jìn)行膨脹處理,如圖2(c)所示,最后通過(guò)MSER算法對(duì)圖2(c)單通道圖像進(jìn)行濾除,得到交通標(biāo)志ROI如圖2(d)所示。

圖2 檢測(cè)提取交通標(biāo)志ROI
1.3 歸一化處理
將MSER算法濾除后的交通標(biāo)志ROI提取分割出來(lái),然后利用鄰近插值法將ROI規(guī)格化得到固定大小(32*32)的圖像。從機(jī)器視覺(jué)的角度分析,與顏色相比,形狀或圖形是交通標(biāo)志識(shí)別的關(guān)鍵。因此,最后對(duì)固定大小的圖像利用最大類間方差將其二值化,得到適合網(wǎng)絡(luò)輸入的圖像。
2.1 CNN基本結(jié)構(gòu)
CNN是Deep Learning的一個(gè)重要算法,最早是1962年Hubel和Wiesel通過(guò)對(duì)貓視覺(jué)皮層細(xì)胞的研究,提出了感受野的概念[12]。其是輸入到輸出的非線性映射,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程,是在空間或時(shí)間上的采樣,具有權(quán)重共享,減少了權(quán)值的數(shù)量,降低了計(jì)算量、局部區(qū)域感知等特點(diǎn)。這種結(jié)構(gòu)類似于生物神經(jīng)網(wǎng)絡(luò),簡(jiǎn)化了網(wǎng)絡(luò)模型的復(fù)雜度,對(duì)輸入數(shù)據(jù)在空間上和時(shí)間上的扭曲,具有很強(qiáng)的魯棒性,在輸入是多維圖像時(shí)表現(xiàn)的最為明顯[13]。
根據(jù)交通標(biāo)志圖像的特點(diǎn),這里的CNN是由一層卷積層接一層池化層后再加一層卷積層與池化層構(gòu)建而成的網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)其對(duì)輸入(32*32)的交通標(biāo)志圖像特征進(jìn)行提取形成特征子圖,然后把特征子圖全部展開,形成一維的特征子集,最后可以加一個(gè)全連接的BP網(wǎng)絡(luò)對(duì)一維的特征矢量分類識(shí)別,并輸出結(jié)果,網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖3 所示。

圖3 CNN網(wǎng)絡(luò)的基本結(jié)構(gòu)圖
2.2 網(wǎng)絡(luò)訓(xùn)練
要實(shí)現(xiàn)交通標(biāo)志ROI的識(shí)別,首先要對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,主要的過(guò)程是通過(guò)前向傳遞與反向傳播的交替,反復(fù)調(diào)整權(quán)值和閾值,直到達(dá)到訓(xùn)練次數(shù)或要求的收斂條件為止。
具體步驟如下:
① 首先,要建立訓(xùn)練庫(kù),本文通過(guò)現(xiàn)實(shí)場(chǎng)景拍攝圖像和德國(guó)交通標(biāo)志基準(zhǔn)庫(kù)(German Traffic Sign Benchmark,GTSDB)共同構(gòu)成網(wǎng)絡(luò)訓(xùn)練樣本集與測(cè)試庫(kù)。其中GTSDB是2013年在IJCNN會(huì)議上,Stallkamp J 等人針對(duì)沒(méi)有公開的交通標(biāo)志數(shù)據(jù)集問(wèn)題,提出來(lái)的標(biāo)準(zhǔn)的交通標(biāo)志數(shù)據(jù)庫(kù)[14],并對(duì)2011年提出的GTSRB數(shù)據(jù)集進(jìn)行了繼承與優(yōu)化。
② 然后,充分利用交通標(biāo)志的自身特點(diǎn)進(jìn)行顏色閾值分割,再用MSER算法進(jìn)行濾除,提取出交通標(biāo)志所在的感興趣區(qū)域。
③ 網(wǎng)絡(luò)權(quán)值和閾值的初始化:利用隨機(jī)分布函數(shù)將權(quán)值W初始化為-1~1之間的隨機(jī)數(shù);而將閾值b初始化為0。
④ 網(wǎng)絡(luò)訓(xùn)練與權(quán)值和閾值的調(diào)整:用訓(xùn)練樣本集,對(duì)CNN進(jìn)行訓(xùn)練,將輸出矢量中的元素與目標(biāo)矢量中的元素進(jìn)行比較,計(jì)算輸出誤差:
δk=(Tk-Yk)Yk(1-Yk)。
(3)
對(duì)中間層的隱單元也計(jì)算誤差:
(4)
卷積層的權(quán)值和閾值的導(dǎo)數(shù):
(5)
(6)
再依次調(diào)整權(quán)值和閾值,公式如下:
(7)
Wij(k+1)=Wij(k)+ΔWij(k+1) ,
(8)
(9)
bj(k+1)=bj(k)+Δbj(k+1),
(10)
式中,k表示迭代次數(shù);ΔWij、Δbj分別表示權(quán)值和閾值的調(diào)整值;Wij、bj分別表示權(quán)值和閾值調(diào)整后的值;α為學(xué)習(xí)效率;η為動(dòng)量因子。
⑤ 判斷指標(biāo)是否滿足精度要求E≤ε,或訓(xùn)練已達(dá)到預(yù)先設(shè)定好的最大訓(xùn)練次數(shù),進(jìn)行下一步;否則,返回步驟④。其中E為總誤差,ε表示精度要求。
2.3 網(wǎng)絡(luò)測(cè)試
網(wǎng)絡(luò)訓(xùn)練好以后,用GTSDB數(shù)據(jù)集與現(xiàn)實(shí)場(chǎng)景拍攝的大量圖像組成測(cè)試庫(kù),然對(duì)庫(kù)中圖像進(jìn)行歸一化處理,得到適合網(wǎng)絡(luò)輸入標(biāo)準(zhǔn)的圖像,然后網(wǎng)絡(luò)測(cè)試參數(shù)配置,最后進(jìn)行測(cè)試,輸出結(jié)果。
為了驗(yàn)證本文基于ROI和卷積神經(jīng)網(wǎng)絡(luò)交通標(biāo)志識(shí)別方法的有效性,將提出的方法在現(xiàn)實(shí)場(chǎng)景拍攝和GTSDB數(shù)據(jù)集上進(jìn)行了一系列的實(shí)驗(yàn)。充分利用CNN的海量學(xué)習(xí)能力,選取了GTSDB數(shù)據(jù)集中850張和現(xiàn)實(shí)場(chǎng)景拍攝的150張,共1 000張圖像作為訓(xùn)練庫(kù),對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;再在GTSDB數(shù)據(jù)集中取150張和現(xiàn)實(shí)場(chǎng)景拍攝的50張,包含運(yùn)動(dòng)模糊、背景干擾、光照以及交通標(biāo)志局部遮擋破損等不同情況和同一環(huán)境由遠(yuǎn)及近等圖像,對(duì)網(wǎng)絡(luò)進(jìn)行測(cè)試,如圖4所示。

圖4 測(cè)試樣本集截選
每個(gè)樣本通過(guò)顏色和MSER算法提取交通標(biāo)志ROI,再利用鄰近插值法將ROI規(guī)格化,最后將固定大小的交通標(biāo)志ROI二值化得到適合網(wǎng)絡(luò)輸入的標(biāo)準(zhǔn)圖像。
實(shí)驗(yàn)中基于相同的數(shù)據(jù)集,分別對(duì)SVM方法、傳統(tǒng)的整幅圖直接輸入CNN的方法以及本文基于ROI和CNN的交通標(biāo)志識(shí)別方法進(jìn)行了訓(xùn)練和測(cè)試,測(cè)試結(jié)果如表1所示。
表1 測(cè)試結(jié)果識(shí)別率/%

名稱SVMCNNROI-CNNGTSDB數(shù)據(jù)集95.7397.1297.27現(xiàn)實(shí)場(chǎng)景拍攝85.0160.5899.81平均識(shí)別率90.3778.8598.54
由表1可見,本文的ROI-CNN交通標(biāo)志識(shí)別方法識(shí)別率最高,平均為98.54%,在GTSDB數(shù)據(jù)集上97.27%,在現(xiàn)實(shí)場(chǎng)景拍攝的識(shí)別率為99.81%;SVM識(shí)別方法,平均識(shí)別率為90.37%,現(xiàn)實(shí)場(chǎng)景拍攝的識(shí)別率不是很高,只有85.01%,且需要復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程;傳統(tǒng)CNN識(shí)別的方法在GTSDB數(shù)據(jù)集上略高于SVM識(shí)別方法,為97.12%,但是在復(fù)雜背景干擾的現(xiàn)實(shí)場(chǎng)景拍攝的數(shù)據(jù)集下識(shí)別率僅有60.58%。ROI-CNN的識(shí)別結(jié)果如圖5所示,在運(yùn)動(dòng)模糊、背景干擾、光照以及交通標(biāo)志局部遮擋破損等因素的干擾下,其仍然有很好的識(shí)別結(jié)果。因此,ROI-CNN的方法無(wú)論是現(xiàn)實(shí)場(chǎng)景拍攝下的,還是在GTSDB數(shù)據(jù)集上的識(shí)別率都是最高的,特別適用于復(fù)雜背景干擾的現(xiàn)實(shí)場(chǎng)景圖像,驗(yàn)證了基于ROI和CNN交通標(biāo)志識(shí)別方法具有更好的識(shí)別與分類的能力。

圖5 識(shí)別結(jié)果
算法方面對(duì)比分析,在SVM方法中,機(jī)器學(xué)習(xí)模型僅負(fù)責(zé)特征的分類,前期需要復(fù)雜的HOG特征提取和數(shù)據(jù)重建過(guò)程,特征設(shè)計(jì)的好壞直接影響到整個(gè)系統(tǒng)的性能。而CNN是輸入到輸出的非線性映射,無(wú)需復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程,具有海量學(xué)習(xí)能力,權(quán)值共享,由多層特征卷積、池化、局部響應(yīng)歸一化以及產(chǎn)生億萬(wàn)級(jí)參數(shù)來(lái)表達(dá)特征,這些都是任意傳統(tǒng)特征提取方法所不能及的,且這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)平移、比例縮放、傾斜或者共他形式的變形具有高度不變性,對(duì)輸入數(shù)據(jù)在空間上和時(shí)間上的扭曲有很強(qiáng)的魯棒性[15]。但是直接一整幅圖像作為輸入,由于存在復(fù)雜的背景干擾,需要花費(fèi)大量的時(shí)間進(jìn)行學(xué)習(xí),且識(shí)別率往往不高,如表1所示。鑒于此,再次驗(yàn)證了基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)交通標(biāo)志識(shí)別方法是較優(yōu)的。
由圖6可見,batchsize為10,學(xué)習(xí)率為1,隨著迭代的進(jìn)行誤差不斷變小。傳統(tǒng)的把整幅圖作為CNN輸入的交通標(biāo)志識(shí)別方法迭代100次,收斂的速度才趨于平緩如圖6(a)所示,耗時(shí)較長(zhǎng),需359.083 s;本文基于ROI和CNN交通標(biāo)志識(shí)別的方法40次迭代就有很好的收斂效果,耗時(shí)只需144.955 s。由此可以看出,本文方法提高了交通標(biāo)志識(shí)別速度。

圖6 CNN與ROI-CNN結(jié)果對(duì)比
針對(duì)采集過(guò)程中由于運(yùn)動(dòng)模糊、背景干擾、光照以及交通標(biāo)志局部遮擋破損等因素影響交通標(biāo)志識(shí)別的現(xiàn)狀,采取檢測(cè)提取ROI作為CNN輸入,實(shí)現(xiàn)交通標(biāo)志的識(shí)別。并在現(xiàn)實(shí)場(chǎng)景拍攝與GTSDB數(shù)據(jù)集所組成的樣本庫(kù)上,分別對(duì)SVM方法、傳統(tǒng)的CNN方法以及本文基于ROI和CNN交通標(biāo)志識(shí)別方法進(jìn)行了一系列的訓(xùn)練與測(cè)試。實(shí)驗(yàn)結(jié)果表明利用本文方法,耗時(shí)最短、準(zhǔn)確率最高,平均識(shí)別率能達(dá)到98.54%。為了使其具有廣泛的適應(yīng)性,研制一個(gè)能夠在移動(dòng)客戶端上進(jìn)行實(shí)時(shí)監(jiān)測(cè)的系統(tǒng)是下一階段的工作重點(diǎn)。
[1] Zhao N,Yuan J B,Han XU.Survey on Intelligent Transportation System[J].Computer Science,2014,28(1):1-5.
[2] Juan Zhicai,CAO Wenjing.Study on Driver Traffic Signs Comprehension Basedon Cognitive Psychology [J].China Safety Science Journal,2005,15 (8):8-11.
[3] Gudigar A,Chokkadi S,Raghavendra U .A Review on Automatic Detection and Recognition of Traffic Sign[J].Multimedia Tools and Applications,2016,75(1):333-364.
[4] 鄭文貴,李向云.1996-2003年全國(guó)交通事故傷害的時(shí)間序列分析[J].中國(guó)衛(wèi)生事業(yè)管理,2006,22(2):105-107.
[5] Wang Xiaogang.Deep Learning in Image Recognition [J].Communications of the CCF,2015,11(8): 15-23.
[6] Saha S K,Dulal C M ,Bhuiyan A A.Neural Network Based Sign Recognition [J].International Journal of Computer Application,2012,50 (5) :35-41.
[7] Yuan Xue,Guo Jiaqi,Hao Xiaoli,et al.Traffic Sign Detection Via Graph-based Ranking and Segmentation Algorithms [J].IEEE Traffic on Systems,Man,and Cybernetics: Systems,2015,45 (12) : 1509-1521.
[8] Schmidhuber J.Deep Learning in Neural Networks: An Overview[J].Neural Networks,2014,61(9):85-117.
[9] He K M,Zhang X Y,Ren S Q,et al.Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[10] Matas J,Chum O,Urban M,et al.Robust Wide-baseline Stereo from Maximally Stable Extremal Regions [J].Image and Vision Computing,2004,22 (10) : 761-767.
[11] Greenhalgh J,Mirmehdi M.Real-Time Detection and Recognition of Road Traffic Signs [J].IEEE Transactions on Intelligent Transportation Systems,2012 ,13 (4) :1498-1506.
[12] Seokwoo Jung,Unghui Lee,Jiwon Jung,et al.Real-time Traffic Sign Recognition System with Deep Convolutional Neural Network[C]∥Xian: 2016 13th International Conference on Ubiquitous Robots and Ambient Intelligence (URAI),2016:31-34.
[13] Hossain M S,Hyder Z.Traffic Road Sign Detection and Recognition for Automotive Vehicles [J].International Journal of Computer Applications,2015,120 (24) :10-15.
[14] Houben S,Stallkamp J,Salmen J,et al.Detection of Traffic Signs in Real-world Images: The German Traffic Sign Detection Benchmark[C]∥ International Joint Conference on Neural Networks.IEEE,2014:1-8.
[15] Szegedy C,Liu Wei,Jia Yangqing,et al.Going Deeper with Convolutions[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition.New York,2015: 1-9.