999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算機OCR文字識別技術的原理和未來發展趨勢

2017-08-23 00:56:55楊俊葉王訓偉
魅力中國 2017年20期
關鍵詞:功能模塊

楊俊葉++王訓偉

摘要:文章首先對OCR技術的發展背景進行了介紹,指出了OCR文字識別系統在掃描儀、文字編輯等領域的應用及優勢。通過對OCR技術工作原理的介紹,重點論述了OCR文字識別系統主要的圖像處理模塊、版面分析模塊、文字識別模塊、文字校對模塊及輸出模塊的功能、實現方式以及技術要點。文章最后從更精準的文字編碼庫和一種到多種算法的改進兩個方面就OCR文字識別技術未來的發展趨勢進行了分析。

關鍵詞:OCR技術;圖像識別;功能模塊;文字編碼庫

一、概述

OCR(Optical Character Recognition) 技術的中文名稱是光學字符識別,通常是指通過掃描儀、數碼相機等電子輸入設備將紙質文檔上的信息,如文字、表格和圖像等信息,利用各種模式識別算法分析文字形態特征,判斷出漢字的標準編碼,并按通用字符格式存儲在文本文檔中。隨著移動internet網、高級智能手機以及微信和QQ等社交網絡的發展帶來了海量圖片信息,圖片成為internet網信息交流主要媒介之一,如果信息是由文字作為載體我們可以通過搜索引擎進行檢索,但是圖像和表格文字我們卻無能為力,在這種情況下,計算機的OCR圖像識別技術就可以解決這個難題。OCR實際上就是讓計算機去識別圖像為可編輯的文字,實現圖像到文字的轉換,通過圖像處理和模式識別技術對光學字符進行識別,這是自動識別技術研究和應用領域中的一個重要方面。目前大部分的掃描儀制造商將OCR技術集成到掃描儀軟件中,實現邊掃描邊進行OCR文字識別,掃描儀與OCR文字識別技術的完美結合,大大方便了人們對掃描圖像上的文字編輯需求,OCR文字識別技術己成為絕大多數掃描儀軟件的標配。

二、OCR文字識別的原理

OCR文字識別的原理是計算機對圖像進行版面分析、處理和模式識別。圖像版面分析是指通過對圖像文字的預處理,文字圖像的分割和坐標定位;文字模式識別是通過檢測暗、亮的模式,放大圖像確定其形狀特征并進行提取和判斷,最終通過圖像黑白點二進制與字符編碼進行匹配,根據最相近的匹配度將文字圖像特征進行文字的轉換。

標準的OCR文字識別系統主要包括圖像處理模塊、版面分析模塊、文字識別模塊、文字校對模塊和輸出模塊。

(一)圖像處理模塊

主要是通過掃描儀設備將紙質的期刊、學位等文獻數據進行掃描,一般建議掃描成線圖模式(灰圖或彩色圖識別率低),擴展名為tif圖格式,圖像分辨率為300DPI,圖像要進行去污點、去黑邊、圖像居中和圖像糾偏等工作,最好不要有底紋,總之保持圖像為白底黑字,圖像頁面整潔從而提高文字識別率。

(二)版面分析模塊

可以分為自動和手工兩種方式,自動版面分析程序主要使用黑白二值法,逐頁將所有文字區域部分進行畫框定位并存儲相應的區域塊坐標;手工版面分析是指人工通過鼠標在圖像文字區域進行畫框,選擇特定區域進行文字識別,這種方式主要應用于需要從圖像提取特定區域的文字,有針對性的文字識別。另外還可以設置圖像文字的橫豎排版方式以及中外文字體信息等以提高文字識別率。版面分析模塊原理主要是對版面劃分、更改劃分,即對版面的理解、字切分、歸一化等,可選擇自動或手動兩種版面劃分方式。目的是告訴OCR軟件將同一版面的中英文字體、圖像、表格、橫版豎版方式等分開,以便于分別處理,并按照怎樣的順序進行識別。

(三)文字識別模塊

文字識別模塊是OCR軟件的核心部分,文字識別主要使用了黑白二值法,以單個漢字“一”為例,將文字顏色取反,也就是白變成黑,黑變成白,以單字圖像區域分為上下兩部分,這種方式將每個字都可以劃分為不同區域,將不同區域的反選區域用二進制的方式進行轉換,將每個文字區域劃分后生成一個二進制編碼,我們預先對每個標準的文字進行二進制編碼存放到數據庫中,用OCR文字識別完的結果與標準數據庫中的二進制編碼進行比對,從而選擇最接近的二進制編碼文字,最終得到文字識別結果,如果沒有找到相似度高的編碼,則系統識別認為有誤文字會以醒目的紅色顯示,提示用戶需進行人工修改。文字識別模塊主要對單個圖像文字進行識別,所以必須對圖像進行逐行切割,對每行漢字通常也是逐字進行識別,即單字識別,再進行歸一化處理。

(四)文字校對模塊

文字校對主要分縱向校對和橫向校對,縱向校對是指按照順序把文字識別結果進行排列,將識別結果所有相同文字進行調用,顯示識別結果中所有相同的文字,調用識別結果同時調出對應原圖進行人工比對。橫向校對是指按照我們的閱讀習慣逐行進行校對,顯示一行識別結果和對應的原圖進行校對,發現錯字進行人工修改,對識別結果經常出錯的文字,需要重新進行標準文字編碼庫改寫,以達到文字精準識別。

(五)輸出模塊

將校對無誤的文字可以輸出為文本或XML等格式,輸出的文本文字完全可以編輯了,同時原圖像文檔可以輸出PDF文檔用于瀏覽原圖,也可輸出符合移動閱讀的電子出版ePub格式等。

三、OCR文字識別未來發展趨勢

目前的OCR發展技術主要是從圖像處理進行圖像清潔、去污點、圖像糾偏等,然后對圖文進行分析進行文字切割、圖文分離等最終進行黑白二值法取得二進制編碼,但是對文字進行黑白二值法,用什么方法進行文字特征抽取,成為影響OCR文字識別率的關鍵,所以目前文字特征提取主要是統計的特征提取方法,即通過文字區域的黑白點數,當一個圖像文字分為幾個區域時,一個文字切割的多個區域黑白點數進行聯系,就成為空間數量組合,這種算法是目前OCR文字特征的主流算法,文字識別率幾乎能達到95%以上正確率。但對于我們中國漢字特征是由象形字演變而來,所以我們還可以從漢字的筆劃入手來提取文字的特征,簡單說就是取得字的筆劃端點、交叉點之數量及位置,或以筆劃段為特征,配合特殊的比對方法,進行比對。當然無論用哪種識別算法,識別完后最終需要通過對比標準編碼二進制文字數據庫,當輸入文字算完特征后,須有一比對數據庫或特征數據庫來進行比對,數據庫的內容應包含所有欲識別的字集文字,根據與輸入文字一樣的特征抽取方法所得的特征群組,標準編碼庫精準也將直接影響OCR文字識別正確率。

所以,OCR文字識別技術未來發展趨勢,一方面將在文字編碼庫方面更加精準,利用精準的文字編碼庫與識別結果進行比對,選擇最優的文字識別結果,另一方面將從一種算法向多種算法進行轉換,并且我們還可以利用多種算法得到的文字識別結果之間再進行比對,最終選擇最優的文字識別結果,這樣將大大提升OCR文字識別率。

猜你喜歡
功能模塊
OA系統新增功能界面設計與流程開發
青年時代(2016年31期)2017-01-20 00:08:39
商業模式是新媒體的核心
中國廣播(2016年11期)2016-12-26 10:02:01
二次措施單編制系統的應用
基于ASP.NET標準的采購管理系統研究
軟件導刊(2016年9期)2016-11-07 21:35:42
風景區潮汐性人流與可移動建筑設計研究
科技視界(2016年11期)2016-05-23 12:04:33
電網企業物資合同臺賬管理系統的建設與實踐
FJGS公司集中財務管理建設實踐與啟示
新會計(2016年2期)2016-03-25 20:47:50
電子檔案管理系統解決方案及其關鍵技術實現
輸電線路附著物測算系統測算功能模塊的研究
M市石油裝備公服平臺網站主要功能模塊設計與實現
石油知識(2016年2期)2016-02-28 16:20:16
主站蜘蛛池模板: 99999久久久久久亚洲| 色综合狠狠操| 亚洲国产精品一区二区高清无码久久 | 久久久精品无码一二三区| 欧美在线中文字幕| 国内老司机精品视频在线播出| 欧美.成人.综合在线| 在线国产三级| 91在线高清视频| 中文字幕一区二区人妻电影| 黄色网页在线播放| 国产人妖视频一区在线观看| 精品一区二区三区自慰喷水| 欧美精品亚洲精品日韩专区va| 毛片视频网址| 毛片久久久| 欧美成人一级| 香蕉视频在线观看www| 精品视频一区在线观看| 97综合久久| 色综合天天综合| 999国产精品| 国产麻豆永久视频| 久久亚洲综合伊人| 国产微拍一区二区三区四区| 成人综合网址| 国产一区二区丝袜高跟鞋| 亚洲床戏一区| 欧美在线综合视频| 最新日韩AV网址在线观看| 欧美日韩国产一级| 国产丰满成熟女性性满足视频| 亚洲国产看片基地久久1024| 日韩福利视频导航| 91国内在线视频| 国产一区二区视频在线| 97超碰精品成人国产| 国产美女在线观看| 91最新精品视频发布页| 国产杨幂丝袜av在线播放| www中文字幕在线观看| 十八禁美女裸体网站| 国产精品密蕾丝视频| 国内精品久久久久久久久久影视| 精品1区2区3区| 伊人网址在线| 美女免费黄网站| 孕妇高潮太爽了在线观看免费| 国产成人免费手机在线观看视频| 2021最新国产精品网站| 国产精品冒白浆免费视频| 国产特级毛片aaaaaa| 亚洲一级毛片在线观| 国产欧美日韩视频一区二区三区| 久久久久无码国产精品不卡 | 日本一本正道综合久久dvd | 国产精品白浆在线播放| 欧美国产菊爆免费观看| 亚洲欧美日本国产综合在线| 亚洲成人一区二区| 999精品色在线观看| 国产成人做受免费视频| 曰韩免费无码AV一区二区| 国产亚洲精品自在线| 曰韩免费无码AV一区二区| 在线无码私拍| 99无码中文字幕视频| 美女被狂躁www在线观看| 狼友视频国产精品首页| 国产喷水视频| 国产欧美日韩91| 日韩欧美国产综合| 在线观看视频一区二区| 国产另类视频| 伊人久久综在合线亚洲2019| 欧美a网站| 国产在线一区二区视频| 久久久受www免费人成| 欧美午夜在线观看| 久久免费精品琪琪| 久久网欧美| 特级欧美视频aaaaaa|