陳擎國

摘 要 隨著計算機技術以及大數據時代的到來,大眾將在越來越多的方面需要手寫體漢字識別技術產品。這意味著手寫體漢字識別技術的市場空間將變得更加廣闊。手寫體漢字識別技術主要分為聯機手寫體漢字識別技術與脫機手寫體漢字識別技術。其中,聯機手寫體漢字識別技術已較為成熟。文章對手寫體漢字識別技術發展歷程、基本原理、脫機手寫體漢字識別技術識別準確率較低、反應時間長等問題,以及手寫體漢字識別技術的未來發展方向做了研究及展望。
關鍵詞 手寫漢字;漢字識別;脫機識別;光學字符識別
中圖分類號 G2 文獻標識碼 A 文章編號 1674-6708(2018)220-0001-03
隨著計算機科學技術的發展以及大數據時代的到來,傳統的紙質文獻將越來越多地需要被轉化為電子文檔儲存在計算機中。例如:將紙質的會議記錄拍攝成圖像,將其快速地轉化為能夠在計算機內儲存與加工的電子文檔;將文獻古籍以圖片或掃描件的形式快速轉換為電子文檔進行保存等。這將勢必需要完善目前的漢字手寫體識別方面的技術,并提升其識別的準確率以及減少其對較大訓練樣本及硬件運行內存的依賴。
1 手寫體漢字識別技術的發展歷程
隨著計算機技術的發展,漢字識別技術已經逐漸融入人們的日常生活中,并將在經濟、教育等領域發揮越來越重要的作用。漢字識別技術,主要基于光學字符識別技術(Optical Character Recognition),以識別對象為標準,可分為印刷體漢字識別與手寫體漢字識別技術;以輸入方式為標準,可分為聯機漢字識別與脫機漢字識別。手寫體漢字識別技術,源于印刷體漢字識別技術,從20世紀六七十年代開始,大致可分為3個時期:理論探索期、快速發展期、深入發展期。
1.1 理論探索期(20世紀60年代—70年代)
自1946年世界上第一臺電子計算機在美國出現后,人們除了將計算機用于復雜計算外,還將其應用于文檔的處理與保存。由于電子文檔擁有效率高、易于儲存、容量大等特點,一經問世便受到科學家們的廣泛重視與研究。因為英文字母數量較少、筆畫簡單,在計算機識別中遇到的困難較小。而漢字數量大、筆畫繁雜、形近字較多,給予這一時代的科學家不小的困難。
在這一階段,主要是歐美大型計算機企業以及中國國內一些高校、研究所進行初步的理論探索。例如:在1966年,Casey R與Nagy G首次發表關于印刷體漢字識別的文章,提出計算機識別漢字的理論基礎以及需要解決的技術難題。清華大學、南開大學、北京大學等高校開始進行對規則且有限的漢字識別進行研究。這個時期進行的探索,盡管較為粗淺,但其為之后印刷體及手寫體漢字識別奠定了理論基礎、發現并定位了亟待解決的問題。
1.2 快速發展期(20世紀80年代至21世紀初)
到了20世紀80年代,漢字識別技術有了一定發展。印刷體漢字識別技術逐漸發展并最終成熟。科學家們通過模仿人類視覺識別的過程,采用統計模式識別方法,通過逼近取值的算法來提取漢字,解決了印刷體漢字識別中漢字結構與筆畫提取困難的難題,也為手寫體漢字識別提供了思路與方法。
在這個階段,一些實用性高、錯誤率低的印刷體漢字識別軟件問世。例如:IBM公司的OCR技術已經趨于成熟;20世紀90年代,清華大學研發的TH-OCR產品率先實現了中英文混排識別;漢王公司的漢王OCR憑借識別率高等優勢,在2000年達到世界領先水平。80年代中國發布了GB 2312-80國家標準字符庫,國外計算機公司也建立了相應字符庫。這對漢字識別的發展起到極大的推動作用。
而在20世紀80年代,手寫體漢字識別技術才剛剛起步,僅作為印刷體漢字識別產品的附加功能,識別率低,實用性不強。但至21世紀初,聯機手寫體漢字識別技術由于可通過筆畫的先后順序進行識別,發展已經較為完善,也有多種實用的聯機手寫體漢字識別產品面世。然而,脫機手寫體識別技術仍處于萌芽階段。
1.3 深入探索期(21世紀初至今)
在21世紀初期,印刷體漢字識別技術已經完善的背景下,越來越多的學者將目光投向了脫機手寫體漢字識別技術,并構建出基本識別流程,針對漢字分類提出了多種方法。主要分類方法分為:統計模式識別與結構模式識別。這兩種方法各有利弊,但實用性尚為欠缺。近幾年隨著人工智能的發展,人工神經網絡、多分類器聚合等方法也相繼被提出。
近年來,騰訊云OCR推出手寫體漢字識別服務;百度、科大訊飛等互聯網企業也推出了手寫體漢字識別產品。但是,真正有效實用的脫機手寫體漢字識別技術仍然需要科學家們繼續深入探索。
2 手寫體漢字識別基本原理
目前,計算機對手寫體漢字進行識別分為兩種類別:聯機手寫體漢字識別與脫機手寫體漢字識別。盡管聯機識別時有筆順可進行輔助參考,但兩種類別的基本原理大致相同,均分為:樣本輸入、預處理、特征提取、分類識別、末處理等五大流程(參見圖1)。
2.1 樣本輸入
樣本輸入,指的是將所需識別的漢字通過拍攝圖片、掃描等手段,轉換為計算機所能識別的圖像。在聯機手寫體漢字識別中,不僅要將相應的圖像信息輸入電腦,也需把對應的筆畫順序輸入電腦,以作為分類識別時的輔助參考。由于缺少相應的筆畫順序作為輔助判斷的工具,脫機手寫體漢字識別在下列步驟中的識別速度與準確率目前均不及聯機手寫體漢字識別。
2.2 預處理
預處理,指的是計算機對輸入的圖像通過二值化、去噪等手段,降低圖片的維度,通過扭轉校正等方法,初步規范漢字圖像,繼而對圖像進行切分,切分出單一的漢字,以便于對漢字的特征提取并降低識別的錯誤率。
其中:二值化指的是,對圖片進行灰度處理,將圖片轉換為黑白色,并用坐標的方式標記各個像素點,從而簡化計算機對漢字特征提取的難度,降低出錯率。去噪指的是,對圖像中的孤立點、孤立的筆畫、污點等進行去除,以簡化識別難度,降低對CPU的使用率,降低對計算機硬件的要求。扭轉校正是指:將歪斜扭曲的筆畫變化成整齊規則的標準筆畫,或將不同字體、風格的文字統一轉換為標準字體,從而降低分類識別的難度。
2.3 特征提取
特征提取,指的是計算機對漢字中能夠體現出差異的特有信息進行提取,例如:提取漢字的偏旁部首、筆畫的離散程度等。目前,特征提取方法主要分為兩種:提取結構特征與提取統計模式特征。提取結構特征是指:提取漢字結構中的特殊結構,如:部首、框架等,并記錄提取的信息以供分類識別使用。
該方法的優點是易識別形近字,對不同字體的識別能力較強。但是,此方法對預處理要求較高,若預處理的圖像中出現斷裂、連筆等影響因素,此方法的提取成功率將會下降。而提取統計模式特征指的是:對樣本的坐標進行數學變換,利用傅里葉變換、Gabor變換等數學方法,再結合正態分布等統計方法來提取漢字特征。這種方法對預處理要求較低,但識別形近字、不同字體漢字的能力較弱。
2.4 分類識別
分類識別是指:利用上一步所提取的漢字特征信息,在計算機的字符庫中進行檢索比對,檢索出相似程度最高的漢字作為輸出結果。這種檢索比對的方法被稱為分類識別方法。目前,漢字的主流分類識別方法有基于結構的識別方法、基于統計模式的識別方法、神經網絡識別法、貝葉斯決策法與支持向量機法等。其中神經網絡識別法與支持向量機法是時下的熱點研究方向。
各種分類方法適用不同的情形,有他們各自的優缺點,例如基于結構的識別方法中,隱馬爾科夫模型是其中的典型,該方法成功率較高,在中小字符集的識別中成功率較高,但在識別大字符集方面識別率較低。而支持向量機法,擁有識別率較高,適應訓練字符集較小情況等優勢,復雜程度高,對大字符集的識別時間較長。
2.5 末處理
在分類識別給出結果后,需要計算機通過解析句式結構來驗證對漢字識別的正確與否。此時,聯機手寫體漢字識別還可以通過筆畫順序來輔助驗證。若驗證通過,則輸出識別結果;若驗證未通過,如:出現識別亂碼或語意等嚴重不符時,則反饋給分類識別環節重新進行識別。末處理能夠顯著降低識別的錯誤率。目前,科學家也在試圖用增加末處理的環節等手段來提高手寫體漢字識別的準確率。
3 手寫體漢字識別技術的短板及發展趨勢
近年來,聯機手寫體漢字識別由于擁有可以運用筆畫順序來輔助識別的優勢,發展比脫機手寫體漢字識別技術較快。目前,市場上已經有為數眾多的聯機漢字識別產品供大眾使用。即使目前已有脫機手寫體漢字識別技術產品問世,我們也無法忽視脫機手寫體漢字識別技術中仍然存在的問題。下面將大致說明脫機手寫體漢字識別技術存在的缺陷。
3.1 識別準確率較低
脫機手寫體漢字識別技術由于只能夠通過輸入的圖像進行分析,受字體風格、連筆、缺損、污點、扭曲等因素影響較大,給予預處理及特征提取步驟不小的困難。這也導致了在一開始的兩步中極易出現錯誤,從而導致后面分類識別環節中的錯誤,降低了識別準確率。
3.2 反應時間長,對計算機硬件要求高
脫機手寫體漢字識別技術由于缺乏筆畫作為輔助參考,一個漢字往往有幾個,甚至幾十個、上百個相似的漢字。因此在分類識別環節中,相應的算法較為復雜,檢索比對的耗時較長,從而拖慢了整個流程的反應時間。這也使得該技術對計算機硬件的要求較高,特別是對CPU的要求較高,并且增加能耗,浪費資源。
3.3 分類識別方法的適應性較差
盡管目前某些分類識別方法在某一方面的識別準確率、反應時間表現均比較出色,但或多或少都存在著不足之處。例如:隱馬爾科夫模型在中小字符集的識別中成功率較高,但在識別大字符集方面識別率較低;貝葉斯決策法識別正確率較高,但其需要的樣本量較大,計算較為復雜,同時對硬件的要求也比較高;神經網絡識別法在小字符集識別方面表現優異,但若將大字符集拆分成小字符集來識別,又會造成響應時間過長等問題。
雖然脫機手寫體漢字識別技術仍需進一步完善,市場上產品較少,用戶反饋不佳。但脫機手寫體漢字識別技術依然存在著較大的應用市場空間。隨著科學家們對相應技術的進一步改進,手寫識別領域出現了許多新的發展方向。
1)利用多種方法進行漢字切分。通過運用多種方法對圖像中的漢字進行切分,能夠有效地減少后面步驟中的反應時間與識別錯誤率,降低對計算機硬件的需求,從而提升脫機手寫體漢字識別技術的實用性。
2)將多種分類方法并行。科學家們認為,如果將多種分類器并行使用、取長補短,將會大大提高脫機手寫體漢字識別技術的識別準確率,以達到用戶滿意的程度。
3)延長末處理流程。一些學者指出,通過延長末處理流程,如增加利用語意等語法因素在末處理步驟中進行查證,能夠進一步提升脫機手寫體漢字識別技術的識別準確率,同時也不會對計算機硬件提出更高的要求。
4 結論
文章對手寫體漢字識別技術的發展歷程、基本原理及未來發展的趨勢進行了概述與展望。能夠看出,近年來,聯機手寫體漢字識別技術已經逐漸完善,市場上也出現較多的聯機手寫體漢字識別產品。脫機手寫體漢字識別技術從無到有。基本原理也較為清晰。但是,脫機手寫體漢字識別技術仍不完善,存在著識別準確率較低、反應時間長、計算復雜、對硬件要求高等缺陷,制成的產品詬病頗多。
在不斷研究的同時,科學家們開始嘗試運用多種方法對漢字進行切分、將多種分類方法并行、增加末處理環節流程等方法,從而使這項技術能夠真正的實用化。相信通過解決這些難題,可以將脫機手寫體漢字識別技術更好地運用于大眾的日常生活,贏得用戶的贊許。
參考文獻
[1]孫華,張航.漢字識別方法綜述[J].計算機工程,2010,36(20):194-197.
[2]何志國,曹玉東.脫機手寫體漢字識別綜述[J].計算機工程,2008,34(15):201-204.
[3]宋佳.模式識別綜述及漢字識別的原理[J].科技廣場,2007(9):133-135.
[4]丁曉青.漢字識別研究的回顧[J].電子學報,2002,30(9):1364-1368.