楊 航,張鑫淼,楊 沖
(1. 武漢大學 遙感信息工程學院,湖北 武漢 430079)
基于卷積神經網絡的公路限速牌識別方法
楊 航1,張鑫淼1,楊 沖1
(1. 武漢大學 遙感信息工程學院,湖北 武漢 430079)

首先詳細介紹了卷積神經網絡(CNN)的原理和特點,然后設計了一種基于卷積神經網絡的能夠識別限速牌的網絡模型,最后對未來研究方向進行了展望。實驗結果表明,該模型對訓練樣本具有良好的識別能力,且對非訓練樣本也具有一定識別能力,具有實際應用價值。
限速牌;CNN;公路;識別
公路車輛限速牌(以下簡稱限速牌)識別對于現代移動導航系統具有重要意義,高效的限速牌識別系統能有效防止超速事件的發生,對于保障駕駛人員的安全、減少交通事故的發生具有重要意義[1]。傳統的限速牌識別系統,利用的是導航系統中自帶的靜態地圖。這種方式的靈活性越來越不能滿足現代城市建設發展的需要,如當某道路進行翻修時,其最大速度必然會降低,而靜態地圖不能實時更新,滿足不了用戶需求。
近幾年,一些頂級的汽車制造廠商開始將視覺導航系統引入其高端車型。這些系統大多數利用人工神經網絡 (ANN)或支持向量機 (SVM)進行限速牌識別。不可否認,該方式能有效識別限速牌,但其算法的實現需消耗大量時間,且對于不同城市的限速牌需重新設計算法,實際應用有限。然而CNN作為監督型網絡克服了ANN和SVM的不足,能夠通過簡單的訓練實現有效地限速牌識別,具有廣闊的應用前景。
CNN是近年發展起來的,并引起廣泛重視的一種高效識別方法[2]。由于該網絡無需對圖像進行復雜的前期預處理,可直接輸入原始圖像,因而在圖像模式識別領域得到廣泛應用。
CNN通過3個特性(局域感受野、權值共享和次抽樣)來實現位移識別、縮放和扭曲不變性[3]。其中局域感受野是指每一個卷積層上的神經元只與上一層中的一個小鄰域內的神經元鏈接,通過局域感受野,每個神經元實現初級視覺特征的提取。權值共享使得CNN所需要訓練的參數大量減少,從而減少了對訓練樣本的需求。次抽樣可減少特征圖的分辨率,從而實現對位移、縮放和其他形式扭曲的不變性。
1.1 卷積層
在卷積層中,前一層特征圖與一個可以學習的卷積核進行卷積運算,將結果通過一個激活函數后得到的輸出結果構成這一卷積層的特征圖。每個特征圖可與前一層的一個或多個特征圖的卷積結果建立關系。一般的,卷積層的形式為:

式中,l為層數;k為卷積核;Mj為輸入特征圖的一個選擇;b為每個輸出圖的偏置。
1.2 次抽樣層
每個次抽樣層對輸入圖進行抽樣運算。次抽樣層的特征圖個數與輸入特征圖個數保持一致。但是抽樣特征圖的尺寸為原特征圖的1/4,如原圖大小為M×N,特征圖為M/2×N/2。次抽樣層的一般表示形式為:

式中,down(x)表示次抽樣函數,一般為對輸入圖像的n×n區域的求和,在本文中n=2。此外每個輸出特征圖有各自的β和b。
2.1 網絡結構設計
本文所使用的網絡結構包含輸入層(InPut),卷積層(C1、C2),次抽樣層(S1、S2)和輸出層(OutPut)共6層,如圖1所示。
cDWI和b閾值圖方法作為臨床DWI擴展工具,既保留了常規DWI的特點——顯示病灶的擴散受限程度進而反映腫瘤細胞密度,又具有較為明顯的優勢。從技術層面而言,這兩種技術都是以常規掃描DWI為基礎,無需使用新的掃描序列或者增加掃描時間,但圖像質量較掃描的高b值DWI明顯提高,而且使用簡單。cDWI和b閾值圖能較好抑制胰腺癌背景信號,擴大周邊組織與腫瘤的對比度,因此既能提高病灶的檢出率又能夠非常清晰地顯示病灶輪廓,可以輔助常規MRI進行腫瘤的診斷和鑒別診斷。

圖1 網絡結構圖
1)InPut為28×28的輸入圖像,圖像需要為灰度圖像。
2)C1包含6個特征圖,每個特征圖與輸入圖的5 鄰域建立鏈接,每個特征圖的大小為24×24。
3)S1包含6個12×12大小的特征圖,由C1次抽樣得到,每個特征圖與C1中的一個特征圖對應,且每個神經元與相應特征圖的2×2鄰域相連。
4)C2由12個大小為8×8的特征圖組成,特征圖的每個神經元與S1的若干特征圖的5×5鄰域相鏈接。表1表示了C2和S1的鏈接方式,其中每一列代表C2的12個特征圖,每一行代表S1的6個特征圖,X代表兩個特征圖鏈接,如C2的特征圖1與S1中的特征圖1、2、3相鏈接。
5)S2層由12個4×4的特征圖組成,由C2抽樣得到,特征圖的每個神經元與對應特征圖的2×2鄰域相鏈接。
6)OutPut由10個神經元組成,這些神經元同時構成了分類器,對應輸入圖像的類別。

表1 S1與C2的連接方式
2.2 輸出層設計

表2 輸出層編碼
3.1 數據采集
本次的數據采集工作主要包括兩部分:背景的采集,主要通過SOSO街景地圖進行采集;限速牌的采集,由于采取SOSO街景地圖采集較慢,因此采用百度圖片收索。本次實驗總共采得原始圖片157張,部分數據如圖2所示。

圖2 限速牌圖片
3.2 數據處理
3.2.1 數據樣本擴充
為了使采集樣本數據具有更好的代表性,本次實驗采用如下方式對灰度化后的原始數據進行擴充,得到更加多樣化的樣本集。
1) 將圖像的灰度分別乘以[0.8、0.9、1.1、1.2]后取整,大于255的全部設為255;處理后得到628張圖像。
2)將圖像按[0.93、1.05]比例縮放后得到314張圖像。
3.2.2 歸一化
由于本次實驗所使用網絡結構中的輸入層為28×28的輸入圖像,因此需要將擴充得到的1 099張圖像轉換為大小為28×28圖像,該步驟使用Photoshop軟件進行批處理,在批處理過程中5 km/h的2張圖以及背景中1張圖處理失敗,因而最終歸一化后的圖像樣本僅有1 096張。
3.3 樣本數量統計
本次實驗使用的數據統計情況如表3所示,其中使用的樣本數為訓練樣本與測試樣本之和。

表3 樣本數目統計
4.1 網絡訓練
本次實驗使用893個訓練樣本分別進行了迭代次數不同的訓練。迭代次數分別為:10、50、150,得到3個不同性能的網絡。訓練所花費時間分別為:迭代10次:119.949 933 s;迭代50次:601.392 847 s;迭代150次:1 879.194 572 s。
4.2 網絡測試
本次實驗使用383個測試樣本,其中200個測試樣本不包含在訓練樣本(代號OUT)中,183個屬于訓練樣本(代號IN)。分別利用迭代10次、迭代50次、迭代150次建立的CNN結構進行測試,識別樣本數為RN,未識別樣本數為URN,結果見表4。

表4 網絡測試結果
4.3 結果分析
由上述實驗可知,通過10次訓練,網絡幾乎不具備識別功能,訓練樣本識別率小于30%,而非訓練樣本幾乎無法識別。通過增加迭代次數,在迭代50次時,網絡對訓練樣本已具有良好的識別效果,可以看到183 個訓練樣本全數識別成功,但這時網絡對非訓練樣本僅具有初步的識別能力,只能識別非訓練樣本中的少部分樣本,識別率小于20%。而且此時再增加迭代次數已不能增強網絡的識別能力,可以從表4看到,迭代50次和迭代150次的結果一模一樣,也就是說,當迭代次數達到50以上時,網絡的識別能力不再受迭代次數影響,此時決定網絡識別能力的主要因素為訓練樣本集的好壞。
通過上述的實驗過程得出2條結論:
1)訓練樣本的優劣對網絡的識別能力有重大影響,只有當訓練樣本具有充分的代表性和普遍性時,網絡才能具有良好的識別效果。
2)迭代次數對網絡的識別能力具有一定影響,這種影響隨著迭代次數的增加而減弱。
本文在介紹CNN的基礎上,設計了一種基于卷積神經網絡的能夠識別限速牌的網絡模型。通過實驗可知,該網絡對訓練樣本集具有很好的識別效果,對非訓練樣本集也有一定的識別能力。在實際應用中,只需保證訓練樣本集具有充分的代表性,所得到的網絡即可用于限速牌的識別系統進行車輛超速預警。
在今后的研究中可以試驗不同網絡結構的卷積神經網絡,尋找更加適合限速牌識別的網絡結構;將CNN與視頻相結合,設計基于視頻和CNN的限速牌識別系統。
[1] 王海軍.基于限速牌數據的識別算法研究[J].信息技術,2014(8)∶299-300
[2] 趙志宏,楊紹普,馬增強.基于卷積神經網絡LeNet-5的車牌字符識別研究[J].系統仿真學報, 2010,22(3)∶639-641
[3] 高學,王有旺.基于CNN和隨機彈性形變的相似手寫漢字識別[J].華南理工大學學報∶自然科學版,2014,42(1)∶72-75
[4] 呂剛.基于卷積神經網絡的多字體字符識別[J].浙江師范大學學報∶自然科學版,2011,34(4)∶425-428
[5] 孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8)∶2 806-2 810
[6] 段寶彬,韓立新.改進的深度卷積網絡及在碎紙片拼接中的應用[J].計算機工程與應用,2014,50(9)∶176-181
[7] Zouxy. Convolutional Neural Networks卷積神經網絡[EB/ OL]. http∶//blog.csdn.net/zouxy09/article/details/8781543, 2013-04-10/2014-09-20
P208
B
1672-4623(2016)01-0031-03
10.3969/j.issn.1672-4623.2016.01.009
楊航,碩士,研究方向為數字圖像處理與信息提取等。
2014-09-26。