






摘 要: 針對貨運列車車號字符識別,提出了基于卷積神經網絡LeNet?5的改進識別方法,考慮到卷積神經網絡的層次化以及局部領域等結構特點,對網絡中各層特征圖的數量及大小等參數進行相應的改進,形成了適用于貨運車號識別的新網絡模型。實驗結果表明,該方法對車號的斷裂、污損等問題的解決有較強的魯棒性,達到了較高的識別率,為整個車號識別系統的精確性提供了保障。
關鍵詞: 列車車號; 車號識別; 卷積神經網絡; LeNet?5
中圖分類號: TN911.73?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)13?0063?04
Abstract: For the character recognition of freight train license, the improved recognition method based on convolutional neural network LeNet?5 is proposed. Considering the structural features of the hierarchical convolutional neural network and local field, the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition. The experimental results show that the proposed method has strong robustness to solve the license breakage and stain, and high recognition rate, which provides a guarantee for the accuracy of the entire license recognition system.
Keywords: train license; license recognition; convolutional neural network; LeNet?5
0 引 言
目前貨運列車車號識別系統[1?2]主要是基于RFID技術實現的,但是,由于該系統的準確性依賴于列車底部安裝的RFID標簽,而RFID標簽容易損壞、丟失,因此,此類系統無法保證車號識別的準確性。為此,研究者開發了基于圖像的貨運列車車號識別系統,系統根據視頻采集到的圖像,利用模糊集合論[1?2]、人工神經網絡[3]、支持向量機[4]以及隱馬爾可夫模型[4]等技術進行車號字符的識別。但是,由于貨運列車車號存在因噴涂方式而導致的單個字符斷裂,或者列車長期的野外運行導致的車廂污損,車號字符的殘缺等現象,這使得目前的基于圖像的貨運列車車號識別系統的魯棒性與識別率還有待進一步提高。
LeNet?5[5?7]是由YannLecun等人提出的一種專門用于二維圖像識別的卷積神經網絡,該網絡避免了人工提取特征依賴于主觀意識的缺點,只需要將歸一化大小的原始圖像輸入網絡,該網絡就可以直接從圖像中識別視覺模式。LeNet?5把特征提取和識別結合起來,通過綜合評價和學習,并在不斷的反向傳播過程中選擇和優化這些特征,將特征提取變為一個自學習的過程,通過這種方法找到分類性能最優的特征。LeNet?5已經成功應用于銀行對支票手寫數字的識別中。
為此,本文將卷積神經網絡LeNet?5應用于列車車號字符的識別中,為了使之適用于列車車號字符的識別需求,去除掉了LeNet?5中的一些針對手寫字符識別而特別設計的連接方式及參數,并在此基礎上,改變網絡中各層特征圖的數量以形成新的網絡模型。
1 LeNet?5的改進
卷積神經網絡可以從很多方面著手改進。諸如多層前饋網絡,可以考慮在誤差函數中增加懲罰項使得訓練后得到趨向于稀疏化的權值,或者增加一些競爭機制使得在某個特定時刻網絡中只有部分節點處在激活狀態等。本文主要從卷積神經網絡的層次化以及局部鄰域等結構上的特點入手,考慮卷積神經網絡中各層特征圖數量及大小對網絡訓練過程及識別結果的影響。
以LeNet?5結構為基礎,去除掉LeNet?5中的一些針對手寫字符識別而特別設計的連接方式及參數,得到改進后的神經網絡。在此基礎上,改變網絡中各層特征圖的數量以形成新的網絡模型。定義一種新的網絡模型,將其命名為LeNet?5.1,該網絡結構與LeNet?5基本相同,主要做出以下改變:
(1) 將原先LeNet?5所采用的激活函數由雙曲正切函數修改為Sigmoid函數,此時,網絡中所有層的輸出值均在[0,1]區間內,輸出層的最終結果也將保持在[0,1]區間內。
(2) 省略掉F6層,將輸出層與C5層直接相連,連接方式為全連接,而不是原LeNet?5中所采用的徑向基函數(RBF)網絡結構。
(3) 簡化原LeNet?5中的學習速率。原LeNet?5網絡中采用的學習速率為一個特殊的序列,而在本網絡中將學習速率固定為0.002。
(4) 輸入數據原始尺寸為28×28,采取邊框擴充背景像素的方法將圖像擴充至32×32。
之所以做以上相關改動,是因為原始的LeNet?5就是專門為手寫字符識別任務而特殊設計的,這就造成了LeNet?5網絡中相關的預處理及參數的選擇過程或多或少均帶有一些針對特定問題的先驗知識。例如激活函數中參數的選擇,學習速率中特定的速率序列以及數據預處理中特殊的填充方式等,這些特定的設計使得LeNet?5在其他任務的識別過程中并不一定適用,或者需要進行長期的觀察實驗以選得一組針對特定任務的較好的值,造成了LeNet?5不能快速的應用于除手寫字符外其他的識別任務中。
2 改進后的網絡對列車車號字符的識別
車號經過分割之后為一個個的單字符圖像,采用邊框擴充背景像素的方法將其歸一化為32×32,如圖1所示。
由圖1中可以看出,待識別的字符圖像質量不高,有的數字字符出現殘缺、斷裂或者嚴重變形。這都給識別任務提出了一定的挑戰。
本文采集到的車號圖像來自于不同型號的貨運列車。從中選取400幅圖像作為訓練集,另外選取400幅圖像作為測試集。用上一節提出的LeNet?5.1網絡進行訓練,誤分類率曲線如圖2所示??梢钥闯觯贚eNet?5.1訓練過程中,訓練MCR(Misclassification Rate)和測試MCR的變化過程相對穩定,驗證了改進后網絡結構的合理性。在經過16次的迭代之后,測試MCR降至最低(5.75%),之后基本保持穩定,即16次迭代之后,網絡達到了當前的最佳訓練效果,達到了收斂狀態。這時,訓練MCR為0.5%,測試MCR是5.75%。
訓練過程中的誤分類率曲線
而針對相同的數據,采用原始的LeNet?5進行訓練和測試后,誤分類率如圖3所示。從圖3中可以看出,LeNet?5經過了18次的迭代后,測試MCR才達到相對穩定的狀態,降至6%,最終的訓練MCR為1%。相比之下,經過簡化和改進的LeNet?5.1,由于改進了原始的LeNet?5中專門為手寫字符識別任務而特殊設計的一些預處理及函數選擇等固定模式,并且精簡了網絡結構,使得LeNet?5.1在列車車號的識別方面具有了更快的訓練速度和收斂速度,另外,最終達到的準確度也有所提升。
在證明了改進后的LeNet?5.1網絡的合理性之后,增加訓練圖像的規模,采用10 000幅車號數字字符圖像用來訓練,5 000幅用來測試。為了與其他方法進行比較,采用相同的訓練數據對車號識別中常用的三層BP網絡進行訓練和測試,這里采用的BP網絡隱含層節點數量為450,學習速率采用0.01。實驗結果比較如表1所示。從表1可以看出,改進后的LeNet?5.1網絡的識別率比BP網絡的識別率高出4.62個百分點,在識別速度方面,LeNet?5.1也明顯優于傳統的BP神經網絡。
3 針對車型號字母識別而改進的神經網絡及其結果
貨運列車車號的組成是由車型號與車號共同組成的,因此還需要對車型號進行識別,車型號中除了有阿拉伯數字字符之外,還有很多表示車種及車廂材質等屬性的英文字母,這些英文字母同樣采用卷積神經網絡來識別。由于車型號很多,初期針對若干常用型號的列車進行識別,以測試網絡的性能,后期對全車型進行識別。
3.1 常用列車車型的識別
在試運行階段主要識別的車型局限于7種主要的車型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于車種都為敞篷車(第一個大寫字母C),主要對后面代表該車型載重量的兩位數字以及最后代表車廂材質等屬性的字母進行識別。考慮到車型號字符串的固定模式,如圖4所示,可以分別建立兩個不同的卷積神經網絡分別用來識別數字和字母,由于之前已經解決了數字的識別問題,接下來主要進行字母的識別。要識別的代表車廂材質的字母共有6個:K,H,A,E,A和B,為了盡可能的避免因字母分割問題而導致的識別錯誤,把AK和BK分別作為一個整體來識別,那么需要識別的字符組合變為:K,H,A,E,AK和BK。由于識別種類的減少,可以對網絡模型LeNet?5.1進行相應的簡化,命名該模型為LeNet?5.2。
LeNet?5.2是在LeNet?5.1的基礎上進行改動而得到的:
(1) 卷積層C1的特征圖由6個減少為4個,相應地,S2層的特征圖也由6個減少為4個。
(2) 卷積層C3的特征圖由16個減少為11個,相應地,S4層的特征圖也由16個減少為11個。
(3) 卷積層C5的特征圖個數由120個減少為80個。
(4) 輸出分類的數目由10個減少為6個。
另外,卷積層C3層與次抽樣層S2層的連接情況如表2所示。
表2的連接方式采用與表1相同的思想,每一列都說明了C3層中的一個特征圖是由S2中的那幾個特征圖結合而成。卷積層C3中第0個至第5個特征圖分別與次抽樣層S2中的兩個特征圖相連接,一共6種組合。C3中的這6個特征圖負責抽取上一層中某兩個特征圖所潛在的特征。C3層中第6個至第9個特征圖中每個特征圖分別對應上一層中的3個特征圖的組合,而C3層中最后一個特征圖則與上一層中所有的特征圖相連接。這樣卷積層C3中的特征圖就包含了次抽樣層S2中多個特征圖的所有組合,這樣使得卷積層C3抽取到的特征比S2層更抽象、更高級,同時,相對于輸入數據,C3層相比S2層具有更好的對位移、扭曲等特征的不變性。
相比LeNet?5.1,LeNet?5.2將網絡層中的特征圖數量做了相應的削減,減少了網絡中可訓練參數的數量。
實驗數據來自以上提到的7類常用車型。經過前面過程的定位和分割之后,將分割之后代表車廂材質等屬性的字母圖像收集起來。本實驗中,共收集到6種代表不同車廂材質屬性的字母共800幅,其中400幅用作訓練數據,另外400幅用作測試數據。
圖5為LeNet?5.2使用以上數據訓練過程中得到的MCR曲線圖。由圖5中可以看出,在經過13次迭代之后,測試MCR達到最低的3.25%,并且在隨后的迭代過程中基本保持穩定,而對應的訓練MCR為0.75%。
3.2 全車型識別
經過對鐵道行業標準《鐵路貨車車種車型車號編碼》(TB2435?93)里面包含的所有車型號進行統計,除了10個阿拉伯數字外,包括了除O,R,V,Z四個字母外所有的大寫英文字母,總共有32類字符。
訓練過程中的誤分類率曲線
針對車型號的識別需求,本文在LeNet?5.1的基礎上提出了一種新的網絡模型,稱之為LeNet?5.3。與LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基礎上對網絡中各層的特征圖數量進行擴充:
(1) 卷積層C1的特征圖由6個增加至8個,相應地,S2層的特征圖也由6個增加至8個。
(2) 卷積層C3的特征圖由16個增加至24個,相應地,S4層的特征圖也由16個增加至24個。
(3) 卷積層C5的特征圖個數由120個增加至240個。
(4) 輸出層神經元的個數由10個增加至32個。
其中卷積層C3層與次抽樣層S2層的連接情況參考LeNet?5.2所采用的原則,使卷積層C3中的特征圖包含次抽樣層S2中多個特征圖的主要組合。
與LeNet?5.1相比,LeNet?5.3需要有更多的輸出類別,各層的特征圖數量也做了相應的增加,以增加整個網絡的識別性能。為了驗證改進后的LeNet?5.3的性能,收集了大量真實列車車廂圖片,經過車號定位和分割之后,將單個的數字字符或者大寫字母字符圖像尺寸依次歸一化為32×32,分別建立訓練圖像庫和測試圖像庫。
由于LeNet?5.1各層的特征圖數量多,因此該網絡涉及到的可訓練參數也大大增加,這也意味著需要更多的數據樣本用于網絡訓練。若訓練集和測試集規模依然采用跟前面實驗中一樣的各400幅,訓練過程中的誤分類率曲線如圖6所示,圖6中的曲線變化非常不穩定,波動較大。測試MCR達到最低點后又突然升高,不能獲得穩定的分類結果,訓練過程無法收斂。
網絡訓練過程中無法收斂的主要原因在于相比網絡中過多的需要訓練確定的權值,數據集規模過小,已然不能滿足學習的要求。從特征圖角度來看,網絡無法通過不充足的訓練樣本學習到穩定而有效的特征圖組合,從而導致了網絡不收斂。要解決這個問題需要加大測試樣本的數量。
為了訓練和測試LeNet?5.3,對數據集進行了擴充:訓練圖像庫包含字符圖像4 000幅,測試圖像庫包含字符圖像2 000幅。訓練過程中的誤分類率曲線如圖7所示。從圖7中可以看出,經過32次迭代之后網絡趨于收斂,并且達到了較好的識別率。
4 結 語
本文針對貨運列車車號識別的難題,提出了基于卷積神經網絡LeNet?5改進后的識別方法,主要對卷積神經網絡中各層特征圖數量及大小進行了改進。且與傳統的BP網絡進行了比較,從實驗結果可以看出,改進后的卷積神經網絡無論在魯棒性還是識別率以及識別速度上都優于BP網絡,可以很好地勝任列車車號識別任務。
參考文獻
[1] 宋敏.鐵路車輛車號自動識別系統的研究和開發[D].天津:河北工業大學,2011:1?5.
[2] LU S, CHEN B M, KO C C. Perspective rectification of document images using fuzzy set and morphological operations [J]. Image and vision computing, 2005, 23(5): 541?553.
[3] SHAH P, KARAMCHANDANI S, NADKAR T, et al. OCR?based chassis?number recognition using artificial neural networks [C]// Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES). [S.l.]: IEEE, 2009: 31?34.
[4] CHEN D, BOURLARD H, THIRAN J P. Text identification in complex background using SVM [C]// Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2001: 621?626.
[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.
[6] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop [M]// Anon. Neural networks: tricks of the trade. Berlin: Springer Berlin Heidelberg, 1998: 9?50.
[7] SIMARD P, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// Proceedings of 2003 7th International Conference on Document Analysis and Recognition. [S.l.]: IEEE, 2003: 958?962.
[8] KORNAI A. An experimental HMM?based postal OCR system [C]// Proceedings of 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing. US: IEEE, 1997, 4: 3177?3180.