胡胤 黃啟權 廣東工業大學自動化學院
受CNN模型成功應用于手寫數字識別、交通信號識別及人臉識別等的啟發,本文將漢字特征提取和特征降維過程相結合,提出一種基于CNN的漢字識別方法和另外一種成熟的基于CNN的數字識別方法應用到身份證識別中。
隨著互聯網的發展,需要網絡實名認證的場景越來越多。當人們在享受互聯網帶來便利的同時,卻不得不考慮到個人信息的甄別問題。將深度學習應用在字符識別場景中,能夠快速準確的識別出數字和字符,也為錄入身份證、行駛證、駕駛證等證件信息提供了便利。
卷積神經網絡類似于一般的神經網絡,由可學習的權重和誤差組成,每 一個神經元接受一些輸入,完成一些非線性的操作。整個神經網絡完成了一個可微的打分函數,從圖像點到分類得分。在全連接或者最后一層他們也有一個損失函數。
卷積神經網絡通常包含以下幾層:
卷積層(Convolutional layer),卷積神經網路中每層卷積層由若干卷積單元組成,每個卷積單元的參數都是通過反向傳播算法優化得到的。卷積運算的目的是提取輸入的不同特征,第一層卷積層可能只能提取一些低級的特征如邊緣、線條和角等層級,更多層的網絡能從低級特征中提取更復雜的特征。
線 性 整 流 層(Rectified Linear Units layer, ReLU layer),這一層神經的活性化函數(Activation function)使用線性整流(Rectified Linear Units, ReLU)f(x)=max(0,x)。
池化層(Pooling layer),通常在卷積層之后會得到維度很大的特征,將特征切成幾個區域,取其最大值或平均值,得到新的、維度較小的特征。
全連接層(Fully-Connected layer),把所有局部特征結合變成全局特征,用來計算最后每一類的得分。
以下是一個簡單的LeNet-5卷積神經網絡模型:

圖1 LeNet-5網絡模型
數字0~9一共分為10類,考慮類別少的因素,用MATLAB腳本生成數字數據時候使用二值圖片,像素為48*48大小,對文字圖片做隨機旋轉、隨機裁剪、隨機腐蝕膨脹核腐蝕膨脹、隨機resize處理。
GB2312標準共收錄6763個常用漢字,使用覆蓋率在99.75%以上。用身份證的底色隨機剪切作為訓練圖片的底色,然后用opencv生成隨機底色、隨機旋轉、隨機裁剪、隨機腐蝕膨脹核腐蝕膨脹、隨機resize,隨機模糊噪點圖片等作為訓練數據。

圖2 訓練底色圖

圖3 訓練數據
Google Inception Net首次出現在ILSVRC 2014的比賽中,以較大優勢取得了第一名。那屆比賽中的Inception Net通常被稱為Inception V1,它最大的特點是控制了計算量和參數量的同時,獲得了非常好的分類性能——top-5錯誤率6.67%。
本文在GoogleNet的基礎上結合本文任務進行了網絡結構改造,改造后的網絡模型IDNet如圖所示:

圖4 IDNet網絡模型結構
訓練使用GTX1080設備,數字和漢字訓練都使用48*48的原始圖片,crop_size為45*45的網絡訓練圖片。
漢字訓練圖片為超參數學習率設為0.01,最大迭代次數設為30萬次,batch_size設為128,stepsize設為100000,訓練所用時間花費9個多小時,測試集使用一萬張剪切的真實字符數據,最后測試得到的數字識別的正確率為99.91%,漢字識別的的正確率為99.82%。
[1]孫華,張航.字識別方法綜述[J].Computer Engineering,2010,36(20).
[2]王有旺.深度學習及其在手寫漢字識別中的應用研究[D].華南理工大學,2014.
[3]嚴曲.身份證識別系統的原理及算法研究[D].中南大學.2005.3
[4]倪桂博.印刷體文字識別技術的研究[D].華北電力大學.2008
[5]Romero R D,Touretzky D,Thibadeaun R H.Optical Chinese character recognition using probabilistic neural networks[J].Pattern Recognition,1997,30(8):127-129.
[6]Liu C L,Sako H,Fujisawa H.Handwritten Chinese Character Recognition:
Alternatives to Nonlinear Normalization[C].ICDAR. 2003, 3:524-528.