廣州廣電運通金融電子股份有限公司 王倩文 崔山領 徐 靖
試卷識別中的手寫體識別
廣州廣電運通金融電子股份有限公司 王倩文 崔山領 徐 靖
傳統閱卷方式要耗費大量的人力和物力、耗時長,管理也不方便。隨著科技的發展,自動化閱卷需求日益增多。自動化閱卷系統強烈依賴于圖像處理技術,整個系統主要包括圖像采集、圖像傾斜校正、版面分析、圖像分割、在線閱卷和成績錄入等模塊,是一個龐大而復雜的系統。本文針對自動化閱卷系統中的一個重要環節在線閱卷模塊中涉及的手寫體識別,提出基于卷積神經網絡的解決方案。
手寫體識別;卷積神經網絡;字符識別;自動閱卷
完整的自動閱卷系統包括:(1)掃描試卷的定位和糾正;(2)試卷的版面及內容分類;(3)考生信息識別;(4)答案自動識別;(5)成績錄入與管理等。而在上述的(3)、(4)、(5)這三個模塊中,均涉及手寫體的識別。為此,本文提出一種基于卷積神經網絡的手寫體識別的方法解決自動閱卷上的識別問題。
對于手寫體,不同的人群書寫習慣不同造成同一字符的形態、大小千變萬化。而且字符間筆畫也可能存在粘連。傳統的手寫體算法一般是對識別的區域進行字符串定位、字符切割、提取字符特征、利用神經網絡或者支持向量機等方法進行字符識別等多個步驟進行識別。但是手寫體的形態、大小變化多端,且存在字符的粘連,或部分筆畫的相互串擾,字符切割和字符的特征提取成為挑戰。為了解決此問題,本文提出一種基于卷積神經網絡的無須進行字符切割和字符特征提取的試卷手寫體識別方法。
卷積神經網絡(CNN)是人工神經網絡的一種,也是一種使用廣泛的深度學習架構,目前已成為語音分析和圖像識別領域的研究熱點。它的權值共享網絡結構使之更類似于生物神經網絡,降低了網絡模型的復雜度,減少了權值的數量。該優點在網絡的輸入是多維圖像時表現的更為明顯,使圖像可以直接作為網絡的輸入,避免了傳統識別算法中復雜的特征提取和數據重建過程。卷積網絡是為識別二維形狀而特殊設計的一個多層感知器,這種網絡結構對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。
CNN能夠得出原始圖像的有效表征,這使得CNN能夠直接從原始像素中,經過極少的預處理,識別視覺上面的規律,而不需利用特征描述子手動進行特征提取。

圖1 LeNet5 結構圖
CNN是一種深度學習的架構,基于此架構,可以演變為不同的網絡。但是CNN具備共性的基本組成單元。以 LeNet-5 為例,這個CNN 含有三種類型的神經網絡層:
(1)卷積層:設定卷積核數目和大小,自動學會識別輸入數據的特性表征。如上述圖1中的C1,C3,C5均為卷積層。其中C1對應的是6個28*28的特征圖,其每個神經元與輸入中5*5的鄰域相連。C3同樣通過16個5x5的卷積核去卷積層S2,從而得到10x10個特征圖。C5層是一個卷積層,有120個特征圖。每個單元與S4層的全部16個單元的5*5鄰域相連。由于S4層特征圖的大小也為5*5(同濾波器一樣),故C5特征圖的大小為1*1:這構成了S4和C5之間的全連接。
(2)池化層:典型的操作包括平均池化和最大化池化。每個卷積層后面跟著一個實現局部平均和子抽樣的計算層,由此特征映射的分辨率降低。這種操作具有使特征映射的輸出對平移和其他 形式的變形的敏感度下降的作用。LeNet-5中S2和S4均為平均池化層。
(3)全連接層:將卷積層和Pooling 層堆疊起來以后,在網絡的最后一般連接一層或多層全連接層,實現高階的推廣能力。 LeNet-5中F6即為全連接層。
CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測層通過訓練數據進行學習,所以在使用CNN時,避免了顯示的特征抽取,而隱式地從訓練數據中進行學習;再者由于同一特征映射面上的神經元權值相同,所以網絡可以并行學習,這也是卷積網絡相對于神經元彼此相連網絡的一大優勢。卷積神經網絡以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優越性,其布局更接近于實際的生物神經網絡,權值共享降低了網絡的復雜性,特別是多維輸入向量的圖像可以直接輸入網絡這一特點避免了特征提取和分類過程中數據重建的復雜度。
在自動閱卷系統中,在前面的(1)掃描試卷的定位和糾正、(2)試卷的版面及內容分類兩個模塊中已把待識別的區域精確定位出來。但是在待識別區域的手寫體字符、數字等由于書寫風格各異,大小形狀各異,因此按照常規的字符串定位、字符切割、考卷表格線擦除、字符特征提取等傳統的處理方法,是無法達到好的識別效果的。在我們的系統實現中,我們對于待識別區域,定義一個字符的最大寬度為MAX_WIDTH,其最小寬度為MIN_WIDTH,從最小寬度逐步遞增的步長為dW。對于待識別區域Block(大小為block_ width, block_height):
1)從區域的左側(即橫坐標為0)開始,選定MIN_WIDTH* block_height區域,在此區域通過水平投影,確定字符的上下邊界,從而得到待識別區域MIN_WIDTH*height_this。將其歸一化為32*32作為LeNet-5的輸入,從而得到相應的網絡識別結果。
2)橫坐標x增加dW,重復第1步,獲得LeNet-5網絡識別結果。
3)橫坐標x若小于MAX_WIDTH,重復第2步。
4)綜合前3步得到一系列的識別結果,找出綜合置信度最高的作為最終識別結果。
5)橫坐標繼續增加dW,重復1~4得出所有的識別結果。
通過上述方法,我們可以避免繁瑣的字符切割和特征提取過程,充分利用多次滑動中的識別結果綜合評判得到最終的識別結果,進一步的提高了識別的準確性。
[1]Y。LeCun,L。Bottou,Y。Bengio,and P。Haffner。Gradient-based learning applied to document recognition。Proceedings of the IEEE, november 1998.
[2]Y。LeCun,B。Boser,J。S。Denker,D。Henderson,R。E。Howard,W。 Hubbard,and L。D。Jackel。Handwritten digit recognition with a back-propagation network。In David Touretzky,editor,Advances in Neural Information Processing Systems 2(NIPS?89),Denver,CO,1990.Morgan Kaufman。
[3]沈茜。基于神經網絡與GPU的手寫數字識別及其試卷管理[D]。蘇州大學,2011.
[4]高鵬,譚紅,杜華等。基于神經網絡方法的手寫體數字識別[J]。吉林工業大學學報,1997(1):79-82.
[5]趙曉娟。手寫體數字及英文字符的識別研究[D]。東北師范大學,2010.