OCR漢字識別系統(tǒng)獲取紙質(zhì)圖片資料文字信息技巧

2017-08-22 09:10:28鐘子喆韋軍朱鳳印

現(xiàn)代交際 2017年16期

關(guān)鍵詞：技巧方法

鐘子喆+韋軍+朱鳳印

摘要：OCR漢字識別系統(tǒng)通過掃描儀掃描，能快速將紙質(zhì)文本信息轉(zhuǎn)換成Word可編輯文本，極大地提高了工作效率，因此漢字OCR識別技術(shù)有著廣泛的發(fā)展前途及實際應(yīng)用價值，文章提到的具體操作方法可以有效地應(yīng)用于實際工作當中，供同行參考。

關(guān)鍵詞：OCR漢字識別系統(tǒng) 原理方法技巧

中圖分類號：TP391 文獻標識碼：A 文章編號：1009-5349（2017）16-0191-03

一、什么是OCR？

OCR是（Optical Character Recognition）的縮寫，即光學字符識別，也可簡稱文字識別。它的工作原理就是通過電子設(shè)備檢查紙質(zhì)資料上打印的字符，采用光電轉(zhuǎn)換裝置將漢字或字符轉(zhuǎn)換成電信號，并由計算機進行檢測暗、亮的模式確定其形狀，然后用字符識別方法將形狀翻譯成計算機文字的過程。[1]

衡量OCR系統(tǒng)性能優(yōu)劣主要指標有：拒識率、誤識率、識別速度、用戶界面的友好性，產(chǎn)品的穩(wěn)定性，易用性及可行性等。[2]早期的OCR軟件在識別率等方面不是很理想。文字識別的工作只能由簡單的識別軟件逐字進行，無法分辨不同的字體，對于手寫體或是印刷效果不清晰的印刷品，在識別上有一定的難度。有人做過實驗，對于印刷品模糊或是手寫體過于潦草的漢字，識別后的修改時間與正常打字的速度相差不多，有時甚至還趕不上人工打字的速度。但是隨著這項技術(shù)的日趨成熟，識別軟件已經(jīng)進入了人工智能階段，它不僅能識別黑白印刷體漢字，還能識別灰度和彩色印刷體漢字，識別正確率能達到99% ，對于手寫漢字識別率已達到70% 以上，對于大批量的印刷文字向電子文檔的輸入，OCR漢字識別效率與識別率都能讓用戶十分滿意。[3-12]

二、原理與功能模塊[4]

OCR的功能是將各種錄入漢字、印刷體或手寫體中每個漢字的圖形或圖像通過計算機辨認出來，并標出漢字類別代碼，從而獲取文字及版面信息的過程。[2]因此，漢字識別歸根結(jié)底是一個圖像識別問題。由于漢字信息量很大，具有不同的字形、字體，而且結(jié)構(gòu)復(fù)雜，因此漢字識別的過程極其復(fù)雜。漢字識別系統(tǒng)可由漢字圖形輸入裝置、予處理器、識別器、后處理器幾部分組成。如圖1所示。

漢字圖形輸入裝置主要功能是通過光、電輸入設(shè)備，將原稿轉(zhuǎn)換成二維點陣圖形。所謂的原稿指的就是印刷的紙質(zhì)資料。

予處理器是指對印刷的紙質(zhì)資料文稿頁，進行成分分析、字符的分割、去干擾等。

后處理器是對識別后的詞組、詞條和上下文關(guān)系進行后期糾錯、輸出。

三、OCR適合對象[4]

（1）印刷行業(yè)、文印店經(jīng)常會遇到客戶只給你一本厚厚的宣傳冊，要明天之前必須把那本宣傳冊上的文字原原本本打出來。OCR能極大地減輕錄入工作強度、提高錄入速度，是非常快捷、省力的好幫手。

（2）辦公室工作人員經(jīng)常會遇到要馬上把紙質(zhì)文本打印成Word文檔的工作，對于打字慢或是懶得打字的人，為了完成工作任務(wù)，OCR是非常好的選擇。

（3）其他對象：廣泛應(yīng)用于網(wǎng)上資源數(shù)據(jù)庫、數(shù)字化圖書館、檔案部門，尤其是對于原始紙質(zhì)文件、檔案、書稿等的引用、檢索數(shù)字化工作，OCR能輕松提高效率。

四、OCR系統(tǒng)識別漢字的方法

文字識別模塊是OCR軟件的核心部分，它主要對輸入的漢字進行“閱讀”，但不能一目多行，必須逐行切割，一個個字的辨認，即單字識別，再進行歸一化。文字識別模塊通過對不同樣本漢字的特征進行提取，完成識別，自動查找可疑字，具有前后聯(lián)想等功能。[4]

（一）漢字識別所需硬件、軟件

一般來說進行漢字識別只需要一臺計算機、掃描儀即可。OCR漢字識別軟件在購買掃描儀時會自帶，安裝在本機上運行即可。不同的掃描儀所附帶的OCR漢字識別軟件是不一樣的。目前，市面上的OCR軟件有丹青、漢王、蒙恬OCR、清華紫光、尚書等。OCR軟件的種類雖然很多，但其使用方法大同小異。現(xiàn)以清華紫光OCR2003專業(yè)版為例，介紹其具體操作過程和使用技巧。[5]清華紫光OCR2003專業(yè)版具有識別率高、支持表格識別等特點，流程分為四步：獲取識別圖像；圖像版面處理；識別及修改；結(jié)果輸出。[6]

（二）設(shè)置掃描模式及掃描

在本機上安裝好清華紫光OCR2003千禧版之后雙擊桌面圖標，打開掃描儀對掃描參數(shù)進行設(shè)置。如果選擇“直接終掃”，系統(tǒng)只進行一次掃描。“直接終掃”能節(jié)約時間，但是前提是要把需識別的紙質(zhì)文本在掃描儀中放好，掃描時盡量不要出現(xiàn)歪斜現(xiàn)象。

掃描時采用的分辨率是識別過程的關(guān)鍵。一般雜志或報紙需300dpi的分辨率就能足夠供OCR產(chǎn)生良好的識別效果，以激光打印機輸出設(shè)備的紙質(zhì)文件在300dpi的掃描品質(zhì)下，識別率可以達到99%。[7]掃描完成后，利用紫光OCR2003千禧版對該紙質(zhì)文件進行識別。拖動中間或是右側(cè)工作區(qū)域內(nèi)的藍色線框，可調(diào)整識別范圍，框選部分顏色會以黃色顯示，如圖2所示。

（三）傾斜矯正和版面分析

OCR系統(tǒng)有自動傾斜矯正和手動傾斜矯正兩種方式，建議使用自動傾斜矯正。由于印刷和用戶多方面操作的原因，掃描得到的圖像可能有一定的傾斜角度，尤其是小的傾斜角度，在掃描中難以避免，傾斜角度小OCR系統(tǒng)可以自動適應(yīng)，無須任何處理就可識別；傾斜角度小于10—15度時可以先進行傾斜矯正，然后再進行識別處理；如果傾斜角度大于15度的圖像，建議重新掃描。[8]

版面分析是指將掃描得到的圖像，劃分出每一個區(qū)域塊，目的是告訴OCR軟件將同一版面的文章、表格等分開，以便于分別處理，并按照一定的順序進行識別。對于劃分出的區(qū)域范圍，簡單的圖像版式筆者建議使用自動分析，報刊等復(fù)雜版式建議采用手動分析，以免遺漏所要識別的文字。[9]

（四）進行文字識別

掃描后的圖像文件，經(jīng)過傾斜矯正、版面分析等處理后，即可進入識別階段。識別窗口菜單欄上有“橫排正文”按鈕

和“豎排文字”按鈕

，如果沒有其他的復(fù)雜的內(nèi)容，一般默認用

就可以，不用進行版面分析就能識別。識別是OCR系統(tǒng)的核心，為了保證正確地識別，應(yīng)按以下的步驟進行。

（1）選擇正確地識別字體。[10]選擇工具面板上的

按鈕旁邊的小黑三角，根據(jù)識別圖像的具體情況選擇字體。

簡體多體（印刷體）——常見的宋體、仿宋體、黑體、楷體、圓體

繁體多體（印刷體）——常見的宋體、仿宋體、黑體、楷體、圓體

純英文（印刷體）——常見的英文多種字體

手寫體——要求筆記規(guī)范、不潦草

（2）在展開的左側(cè)面板下拉列表中選擇“TMP0000.TXT”，同時，軟件右側(cè)會自動顯示需識別的掃描文字，如圖3所示。

（3）點擊OCR系統(tǒng)工具條中的【全部識別】

按鈕之后，面板被分為上下兩部分，如圖4所示，其中上部分顯示已經(jīng)識別出來的字符，下半部分是掃描原稿。識別體現(xiàn)OCR的核心技術(shù)。從掃描文本中分檢出的文字圖像，計算機根據(jù)方案的筆畫、特征點、投影信息、點的區(qū)域分布等進行分析，并將其轉(zhuǎn)變成文字的標準代碼的過程。[11]

圖中醒目的紅色漢字，表示系統(tǒng)識別認為有誤，需要進一步識別和確認。同時，系統(tǒng)還提供了相似的文字供選擇。因為大部分漢字已經(jīng)被識別，紅顏色顯示的只有小部分，需要使用者逐個比對。如果想要對于識別過的圖像進行再次識別，系統(tǒng)會出現(xiàn)對話框，提示是否覆蓋已有的識別結(jié)果。

（4）對已識別的文字進行保存。點擊【導出】按鈕

→【保存類型】→】，或Word的RTF文件，文件名為“掃描1”。用記事本打開識別 “掃描1” 文件并將其拷貝/粘貼在Word中，對其進行編輯和格式調(diào)整即可。

五、結(jié)語

使用OCR軟件時要保證印刷品的清晰度，是真正提高工作效率的關(guān)鍵，如何除錯或利用輔助信息提高識別正確率，仍是OCR最重要的課題。

參考文獻：

[1] 徐永芳.OCR技術(shù)在檔案數(shù)字化過程中的應(yīng)用[J].藝術(shù)科技，2011（2）.

[2] OCR文字識別系統(tǒng)[EB/OL].http：//zhidao.baidu.com/question/277594055.html， 2011-06-09.

[3] 白樺.提高OCR識別率[J].電腦知識與技術(shù)，2004（34）：4.

[4] 丁龍，陸俞，顏世崇.漢字OCR的原理、方法與應(yīng)用[J].高師理科學刊，1998，18（6）：19-21.

[5] 王桂敏，齊鳳河. OCR軟件使用經(jīng)驗淺談[J].科技信息，2006（6）：18.

[6] 詹莊影.OCR文字識別系統(tǒng)使用技巧[J].華南金融電腦，2002（11）：81.

[7] 印刷體OCR識別技術(shù)[J].企業(yè)標準化，2004（5）：44.

[8] 藍色理想.OCR 圖片文字識別圖解教程[EB/OL]. 2006-11-20[20012-03-08].http：//www.blueidea.com/computer/soft/2006/4278.asp.

[9] 可可豆.自己動手提高OCR 識別率[J].廣東電腦與電訊，2003（3）：81.

[10] OCR文字識別技術(shù)[EB/OL].2006-03-07[20012-03-08].http：//news.pack.cn/packtechnology/bzxjs/2006-03/2006030714050309.shtml.

[11] 淺談文字識別軟件OCR [EB/OL].http：//wenku.baidu.com/view/5961ef68af1ffc4ffe47ac58.html.

[12] 深入探究光學字符識別軟件——OCR[EB/OL]. 2004-05-13[2012-03-08].http：//info.printing.hc360.com/HTML/001/010/001/29952.htm.

Abstract： OCR Chinese characters recognition system is scanned by a scanner， can quickly be paper text information into Word editable text， improved work efficiency greatly， so the Chinese characters OCR recognition technology has a broad development prospects and practical value， this article refers to the specific operation method can be effectively applied in practical work， for reference.

Key words： OCR Chinese characters recognition system， Principle ，Method， Skill，