鐘子喆+韋軍+朱鳳印


摘要:OCR漢字識別系統(tǒng)通過掃描儀掃描,能快速將紙質(zhì)文本信息轉(zhuǎn)換成Word可編輯文本,極大地提高了工作效率,因此漢字OCR識別技術(shù)有著廣泛的發(fā)展前途及實際應(yīng)用價值,文章提到的具體操作方法可以有效地應(yīng)用于實際工作當中,供同行參考。
關(guān)鍵詞:OCR漢字識別系統(tǒng) 原理 方法 技巧
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-5349(2017)16-0191-03
一、 什么是OCR?
OCR是(Optical Character Recognition)的縮寫,即光學字符識別,也可簡稱文字識別。它的工作原理就是通過電子設(shè)備檢查紙質(zhì)資料上打印的字符,采用光電轉(zhuǎn)換裝置將漢字或字符轉(zhuǎn)換成電信號,并由計算機進行檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。[1]
衡量OCR系統(tǒng)性能優(yōu)劣主要指標有:拒識率、誤識率、識別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。[2]早期的OCR軟件在識別率等方面不是很理想。文字識別的工作只能由簡單的識別軟件逐字進行,無法分辨不同的字體,對于手寫體或是印刷效果不清晰的印刷品,在識別上有一定的難度。有人做過實驗,對于印刷品模糊或是手寫體過于潦草的漢字,識別后的修改時間與正常打字的速度相差不多,有時甚至還趕不上人工打字的速度。但是隨著這項技術(shù)的日趨成熟,識別軟件已經(jīng)進入了人工智能階段,它不僅能識別黑白印刷體漢字,還能識別灰度和彩色印刷體漢字,識別正確率能達到99% ,對于手寫漢字識別率已達到70% 以上,對于大批量的印刷文字向電子文檔的輸入,OCR漢字識別效率與識別率都能讓用戶十分滿意。[3-12]
二、 原理與功能模塊[4]
OCR的功能是將各種錄入漢字、印刷體或手寫體中每個漢字的圖形或圖像通過計算機辨認出來,并標出漢字類別代碼,從而獲取文字及版面信息的過程。[2]因此,漢字識別歸根結(jié)底是一個圖像識別問題。由于漢字信息量很大,具有不同的字形、字體,而且結(jié)構(gòu)復(fù)雜,因此漢字識別的過程極其復(fù)雜。漢字識別系統(tǒng)可由漢字圖形輸入裝置、予處理器、識別器、后處理器幾部分組成。如圖1所示。
漢字圖形輸入裝置主要功能是通過光、電輸入設(shè)備,將原稿轉(zhuǎn)換成二維點陣圖形。所謂的原稿指的就是印刷的紙質(zhì)資料。
予處理器是指對印刷的紙質(zhì)資料文稿頁,進行成分分析、字符的分割、去干擾等。
后處理器是對識別后的詞組、詞條和上下文關(guān)系進行后期糾錯、輸出。
三、OCR適合對象[4]
(1)印刷行業(yè)、文印店經(jīng)常會遇到客戶只給你一本厚厚的宣傳冊,要明天之前必須把那本宣傳冊上的文字原原本本打出來。OCR能極大地減輕錄入工作強度、提高錄入速度,是非常快捷、省力的好幫手。
(2)辦公室工作人員經(jīng)常會遇到要馬上把紙質(zhì)文本打印成Word文檔的工作,對于打字慢或是懶得打字的人,為了完成工作任務(wù),OCR是非常好的選擇。
(3)其他對象:廣泛應(yīng)用于網(wǎng)上資源數(shù)據(jù)庫、數(shù)字化圖書館、檔案部門,尤其是對于原始紙質(zhì)文件、檔案、書稿等的引用、檢索數(shù)字化工作,OCR能輕松提高效率。
四、OCR系統(tǒng)識別漢字的方法
文字識別模塊是OCR軟件的核心部分,它主要對輸入的漢字進行“閱讀”,但不能一目多行,必須逐行切割,一個個字的辨認,即單字識別,再進行歸一化。文字識別模塊通過對不同樣本漢字的特征進行提取,完成識別,自動查找可疑字,具有前后聯(lián)想等功能。[4]
(一)漢字識別所需硬件、軟件
一般來說進行漢字識別只需要一臺計算機、掃描儀即可。OCR漢字識別軟件在購買掃描儀時會自帶,安裝在本機上運行即可。不同的掃描儀所附帶的OCR漢字識別軟件是不一樣的。目前,市面上的OCR軟件有丹青、漢王、蒙恬OCR、清華紫光、尚書等。OCR軟件的種類雖然很多,但其使用方法大同小異。現(xiàn)以清華紫光OCR2003專業(yè)版為例,介紹其具體操作過程和使用技巧。[5]清華紫光OCR2003專業(yè)版具有識別率高、支持表格識別等特點,流程分為四步:獲取識別圖像;圖像版面處理;識別及修改;結(jié)果輸出。[6]
(二)設(shè)置掃描模式及掃描
在本機上安裝好清華紫光OCR2003千禧版之后雙擊桌面圖標,打開掃描儀對掃描參數(shù)進行設(shè)置。如果選擇“直接終掃”,系統(tǒng)只進行一次掃描。“直接終掃”能節(jié)約時間,但是前提是要把需識別的紙質(zhì)文本在掃描儀中放好,掃描時盡量不要出現(xiàn)歪斜現(xiàn)象。
掃描時采用的分辨率是識別過程的關(guān)鍵。一般雜志或報紙需300dpi的分辨率就能足夠供OCR產(chǎn)生良好的識別效果,以激光打印機輸出設(shè)備的紙質(zhì)文件在300dpi的掃描品質(zhì)下,識別率可以達到99%。[7]掃描完成后,利用紫光OCR2003千禧版對該紙質(zhì)文件進行識別。拖動中間或是右側(cè)工作區(qū)域內(nèi)的藍色線框,可調(diào)整識別范圍,框選部分顏色會以黃色顯示,如圖2所示。
(三)傾斜矯正和版面分析
OCR系統(tǒng)有自動傾斜矯正和手動傾斜矯正兩種方式,建議使用自動傾斜矯正。由于印刷和用戶多方面操作的原因,掃描得到的圖像可能有一定的傾斜角度,尤其是小的傾斜角度,在掃描中難以避免,傾斜角度小OCR系統(tǒng)可以自動適應(yīng),無須任何處理就可識別;傾斜角度小于10—15度時可以先進行傾斜矯正,然后再進行識別處理;如果傾斜角度大于15度的圖像,建議重新掃描。[8]
版面分析是指將掃描得到的圖像,劃分出每一個區(qū)域塊,目的是告訴OCR軟件將同一版面的文章、表格等分開,以便于分別處理,并按照一定的順序進行識別。對于劃分出的區(qū)域范圍,簡單的圖像版式筆者建議使用自動分析,報刊等復(fù)雜版式建議采用手動分析,以免遺漏所要識別的文字。[9]
(四)進行文字識別
掃描后的圖像文件,經(jīng)過傾斜矯正、版面分析等處理后,即可進入識別階段。識別窗口菜單欄上有“橫排正文”按鈕
和“豎排文字”按鈕
,如果沒有其他的復(fù)雜的內(nèi)容,一般默認用
就可以,不用進行版面分析就能識別。識別是OCR系統(tǒng)的核心,為了保證正確地識別,應(yīng)按以下的步驟進行。
(1)選擇正確地識別字體。[10]選擇工具面板上的
按鈕旁邊的小黑三角,根據(jù)識別圖像的具體情況選擇字體 。
簡體多體(印刷體)——常見的宋體、仿宋體、黑體、楷體、圓體
繁體多體(印刷體)——常見的宋體、仿宋體、黑體、楷體、圓體
純 英 文(印刷體)——常見的英文多種字體
手 寫 體——要求筆記規(guī)范、不潦草
(2)在展開的左側(cè)面板下拉列表中選擇“TMP0000.TXT”,同時,軟件右側(cè)會自動顯示需識別的掃描文字,如圖3所示。
(3) 點擊OCR系統(tǒng)工具條中的【全部識別】
按鈕之后,面板被分為上下兩部分,如圖4所示,其中上部分顯示已經(jīng)識別出來的字符,下半部分是掃描原稿。識別體現(xiàn)OCR的核心技術(shù)。從掃描文本中分檢出的文字圖像,計算機根據(jù)方案的筆畫、特征點、投影信息、點的區(qū)域分布等進行分析,并將其轉(zhuǎn)變成文字的標準代碼的過程。[11]
圖中醒目的紅色漢字,表示系統(tǒng)識別認為有誤,需要進一步識別和確認。同時,系統(tǒng)還提供了相似的文字供選擇。因為大部分漢字已經(jīng)被識別,紅顏色顯示的只有小部分,需要使用者逐個比對。如果想要對于識別過的圖像進行再次識別,系統(tǒng)會出現(xiàn)對話框,提示是否覆蓋已有的識別結(jié)果。
(4)對已識別的文字進行保存。點擊【導出】按鈕
→【保存類型】→】, 或Word的RTF文件,文件名為“掃描1”。用記事本打開識別 “掃描1” 文件并將其拷貝/粘貼在Word中,對其進行編輯和格式調(diào)整即可。
五、結(jié)語
使用OCR軟件時要保證印刷品的清晰度,是真正提高工作效率的關(guān)鍵,如何除錯或利用輔助信息提高識別正確率,仍是OCR最重要的課題。
參考文獻:
[1] 徐永芳.OCR技術(shù)在檔案數(shù)字化過程中的應(yīng)用[J].藝術(shù)科技,2011(2).
[2] OCR文字識別系統(tǒng)[EB/OL].http://zhidao.baidu.com/question/277594055.html, 2011-06-09.
[3] 白樺.提高OCR識別率[J].電腦知識與技術(shù),2004(34):4.
[4] 丁龍,陸俞,顏世崇.漢字OCR的原理、方法與應(yīng)用[J].高師理科學刊,1998,18(6):19-21.
[5] 王桂敏,齊鳳河. OCR軟件使用經(jīng)驗淺談[J].科技信息,2006(6):18.
[6] 詹莊影.OCR文字識別系統(tǒng)使用技巧[J].華南金融電腦,2002(11):81.
[7] 印刷體OCR識別技術(shù)[J].企業(yè)標準化,2004(5):44.
[8] 藍色理想.OCR 圖片文字識別圖解教程[EB/OL]. 2006-11-20[20012-03-08].http://www.blueidea.com/computer/soft/2006/4278.asp.
[9] 可可豆.自己動手提高OCR 識別率[J].廣東電腦與電訊,2003(3):81.
[10] OCR文字識別技術(shù)[EB/OL].2006-03-07[20012-03-08].http://news.pack.cn/packtechnology/bzxjs/2006-03/2006030714050309.shtml.
[11] 淺談文字識別軟件OCR [EB/OL].http://wenku.baidu.com/view/5961ef68af1ffc4ffe47ac58.html.
[12] 深入探究光學字符識別軟件——OCR[EB/OL]. 2004-05-13[2012-03-08].http://info.printing.hc360.com/HTML/001/010/001/29952.htm.
Abstract: OCR Chinese characters recognition system is scanned by a scanner, can quickly be paper text information into Word editable text, improved work efficiency greatly, so the Chinese characters OCR recognition technology has a broad development prospects and practical value, this article refers to the specific operation method can be effectively applied in practical work, for reference.
Key words: OCR Chinese characters recognition system, Principle ,Method, Skill,