999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

OCR技術在報刊加工中的應用分析

2019-07-16 20:08:32姜嘉佳
科技傳播 2019年10期

姜嘉佳

摘 要 OCR技術在圖書數字化加工過程中發揮了巨大作用,實現了報刊的電子化形態,由于技術的限制,目前OCR技術的利用并不是最佳狀態,在文字識別率過程中,會受到圖像外在因素影響如掃描參數、圖像質量等,降低識別率,未來對OCR技術的研究升級還有待完善和提高。

關鍵詞 OCR技術;數字化;掃描參數;識別率

中圖分類號 G2 文獻標識碼 A 文章編號 1674-6708(2019)235-0159-02

隨著數字化時代的趨勢,越來越多的圖書館致力于圖書的信息化建設來實現信息資源的整合,以保證圖書館的生存和發展。通過將館藏文獻如期刊、報紙、圖書等進行數字化加工,形成電子資源數據庫,實現數字圖書館的功能。在圖書數字化加工領域,OCR技術發揮了作用,最大限度地降低了人工著錄時發生問題的概率,既節約成本,又提高效率。本文就以上海圖書館報刊數字化加工項目為例,探討OCR技術在報刊加工中的應用及難點和解決方法。

1 OCR技術概念特點

何為OCR?OCR的全稱是Optical Character Recognition,意為光學字符識別,是指利用電子設備查看印刷體字符,以檢測亮暗方式來確定字符輪廓,通過字符識別方式將其轉換成計算機文字,整個過程分為圖像處理與文字識別兩大步驟。圖像處理,即對通過掃描儀存儲到計算機的圖像進行預處理,處理工作包括圖片降噪、灰度值、二值化、傾斜矯正、文字切分等步驟。圖像預處理過后,后期將通過文字特征來識別提取文字。

2 我國OCR技術的發展現狀

OCR是由德國科學家Tausheck于1929年提出來的,隨后美國科學家Handel也提出了文字識別的想法,隨后世界各國就開始了文字識別的研究。我國OCR技術起步較晚,70年代初才開始研究數字、字母、符號的識別,90年代清華大學推出了首套中文OCR產品,這一成果標志了國內在OCR技術研究領域有了質的飛躍。隨著技術不斷地推陳出新,目前國內已有多家大型公司致力于OCR技術的研究發展,像漢王科技公司、點通數據公司、合合信息技術公司等。從單一的印刷體字體識別,到多字體簡繁混合、中英文混合識別,到現在各種識別系統的推出,OCR技術已經逐漸成熟并融入了各行各業。

3 OCR技術的應用及流程

為順應數字化時代的潮流,上海圖書館致力于圖書的數字化加工工作,從最初的印刷月刊到網絡平臺一體化,每年數字化加工處理的期刊文獻達500萬條,創辦的《全國報刊索引》亦是知名信息服務品牌,提供期刊、報紙、特輯資源數據庫,包括《晚清期刊全文數據庫》、《字林洋行中英文報全文紙數據庫》、《現刊索引數據庫》等。

以《現刊索引數據庫》為例,建立一個索引篇名數據庫需要的信息包括期刊的期刊名、年卷期、題名、頁碼、作者、單位、分類號、主題詞、摘要等。假設人工著錄信息必須要大量的人力物力財力,且非常容易出錯,比如錄入錯字,錯行,甚至錯篇等。使用OCR技術著錄信息,就可以大大節省時間和成本,以下是OCR技術在實際運用中的大致流程,如圖1。

1)圖像掃描輸入。用掃描儀把期刊整本輸入進計算機,為確保存儲的圖像質量及后續的識別工作,在掃描過程中,設備參數至關重要,包括色彩模式、分辨率、掃描閾值、亮度、對比度、保存格式等。2)圖像預處理。掃描的時候由于不同紙張的厚薄度、光滑度、印刷質量等情況會出現圖像模糊、畸變、斷筆、粘連、傾斜等問題,所以需對其進行預處理,可使用Photoshop或其他工具,處理包括降噪、灰度化、二值化、去黑邊、去底色等,如此一來可減少后期文字識別時遇到字跡模糊不清楚等問題。3)圖像版面分析。圖像版面分析即識別圖像的區域屬性,是橫排文字還是豎排文字,表格還是圖片、規則版面還是不規則版面等。4)文字切分。分為自動切分與人工切分。自動切分是計算機通過對圖像的初步識別,按照字符每一行的上界限、下界限、每個字符的左右邊界將文字自動切割成獨立的個體。人工切分即在自動切分的基礎上對完成切分的文字進行校對,在切割有誤的地方重新切分,保證單詞、詞組、句子的完整性。5)文字特征識別。因為每個文字都有其固定的特征,根據特征對文字進行識別,通過特殊特征提取,如筆畫位置、交叉點數等結構特征,就可以得到字符。6)文字比對識別。初步得到的字符通過對比文字數據庫,可以得到文字。文字比對識別需人工干預進行錯字標改。7)成品輸出保存。文字校對結束后,系統根據內容自動進行格式排版,確認無誤后,成品導出需要的文件格式,即完成了數字化工作。

整個數字化加工流程看似復雜繁瑣,實際用到OCR技術識別圖像只有零點幾秒,難點就在于前期的圖像處理與后期的校對處理,前期的圖像全文掃描與預處理工作,直接導致了整體的文字識別率。而后期的人工校對也是在識別率基本正確的情況進行校對。

4 OCR技術的難點

雖然圖像的前期與后期工作較為繁瑣復雜,但比起傳統人工手動文字錄入,OCR技術的使用在速度、準確、便捷等方面略勝一籌,人會因為疲勞等各種原因犯錯,但機器不會,因此使用OCR技術加工整體消耗的人力物力都比人工著錄要少的多。盡管OCR技術很先進,在保證圖像掃描質量的前提下,后續的文字識別過程仍會遇到下面幾種問題:

1)文字切分錯字。在進行文字自動切分時,部分固定詞組會因為分行而造成切分錯誤。2)相近文字識別不出來。目前對于那些結構特征相近的字,OCR技術仍不能完全分辨出來,如分和兮,人或入,藝和芝等。3)英文單詞識別困難。比起漢語,英文字母識別更困難,尤其是中文、英文和數字混合排列的時候,問題最為明顯,原因在于結構大都比較相近,掃描的時候會由于光線問題造成識別混亂,如a和d,大寫i和小寫L,小寫L和1,G或6等。

5 提高識別率方法

1)選擇合適的數字掃描儀。一般從圖像傳感器性能、掃描分辨率大小、掃描適應能力、操作便捷性幾方面考慮,針對不同的掃描資料選擇簡便的掃描儀。2)合理設置掃描儀參數。包括色彩模式、分辨率、黑白值、亮度、對比度等。對于常見的文檔資料,建議設置成黑白模式,或在特殊要求下選擇彩色模式;合理確定分辨率,選擇300dpi模式,除非有特殊情況,否則分辨率過高不僅會降低掃描速度、增加計算機存儲,還會降低OCR識別;掃描后,如果字體顏色較淺或較粗,可以調節亮度和對比度。3)選擇圖像存儲格式。掃描結束后圖像的存儲需要保證分辨率不受影響、無損壓縮,且適應主流圖像編輯軟件和識別軟件,建議選擇JPEG或Tiff格式。4)即時更新文字比對數據庫。對于可能出現的繁體字、象形字、外文字符,即時更新可避免識別率問題。5)人工校對的重要性。正是由于OCR技術的不夠完善,不能做到100%的正確識別,后期的人工校對是提高識別率的重要環節,雖然人工校對費時,但相比于手工錄入,總體耗時與錯誤率都要低很多。

6 結論

從技術角度出發,OCR技術的出現到發展,給圖書數字化發展帶來了翻天覆地的變化,它改變了傳統紙質媒介的概念,實現了文字識別功能,提高了資料加工的效率,為文獻的存檔、數據查詢開辟了新的篇章。使用OCR技術可以有效地提高工作效率,減少不必要的工作量。但是,OCR技術的識別率問題目前還是一個比較大的挑戰,畢竟電腦不如人腦這么靈活,碰到圖像掃描模糊、相近文字、換行斷字、英文字符等識別率就會降低,如何降低錯誤率或利用其他工具來提高識別率,是OCR技術未來發展的一個重要環節。

參考文獻

[1]錢炎.醫療保險系統中信息處理關鍵技術研究[D].南京:南京航空航天大學,2005.

[2]曾伊蕾,喻世俊,陶俊.基于OCR技術的圖像驗證碼識別[J].軟件,2013,34(10):106-107,110.

[3]張志遠.復雜背景下文字增強算法研究與應用[D].上海:上海交通大學,2010.

[4]李冠藝.OCR技術在電子商務信息采集中的應用研究[J].電腦與電信,2013(8):56-58.

[5]陶新宇.《全國報刊索引數據庫》芻議[J].現代情報,2004(9):9-10.

[6]劉明英.檔案數字化過程中OCR技術的應用分析[J].中國高新技術企業,2017(5):55-56.

[7]蔡旸.JPEG靜態圖像壓縮算法的研究[D].武漢:武漢科技大學,2009.

[8]郭軍.基于數字掃描儀性能的文本型數字圖像OCR識別準確度提高策略研究[J].網絡安全技術與應用,2017(9):118-120.

[9]王玲麗.淺談OCR技術在圖書館文獻資源加工中的應用——以上海圖書館近代文獻全文OCR數據制作項目為例[J].數字與縮微影像,2015(1):23-26.

[10]張肇玲.圖書資料檢索與信息化建設[J].人力資源管理,2018(4):396.

主站蜘蛛池模板: 国模极品一区二区三区| 久久精品视频亚洲| 免费国产黄线在线观看| 国产精品短篇二区| 国产亚洲现在一区二区中文| 亚洲欧美不卡中文字幕| www.狠狠| 中文字幕亚洲专区第19页| 亚洲高清中文字幕| 日本三级欧美三级| 伊人久热这里只有精品视频99| 亚洲无码37.| 91蝌蚪视频在线观看| 久久久久国产精品嫩草影院| 91福利一区二区三区| 国产亚洲高清视频| 黄色片中文字幕| 无码乱人伦一区二区亚洲一| 亚洲欧美日韩高清综合678| 亚洲男人的天堂久久香蕉网| 福利在线不卡| V一区无码内射国产| 国产99在线| 成人免费网站久久久| 亚洲男人的天堂在线观看| 国产精品亚洲专区一区| 亚洲视频色图| 波多野结衣一区二区三区AV| 高清免费毛片| 亚洲成综合人影院在院播放| 中文字幕天无码久久精品视频免费| 中文字幕亚洲第一| 欧美日韩动态图| 国产成人av一区二区三区| 国产白丝av| 亚洲日本韩在线观看| 91精品国产一区自在线拍| 99偷拍视频精品一区二区| 久久精品中文字幕少妇| 五月丁香伊人啪啪手机免费观看| 538国产在线| 亚洲二区视频| 亚洲AV无码精品无码久久蜜桃| 国产视频久久久久| 五月天在线网站| 国产一级在线播放| 黄色网址手机国内免费在线观看| 丁香五月激情图片| 夜夜高潮夜夜爽国产伦精品| 欧美人与牲动交a欧美精品| 欧美日韩国产精品va| 亚洲电影天堂在线国语对白| 亚欧美国产综合| 国产午夜在线观看视频| 亚洲av中文无码乱人伦在线r| P尤物久久99国产综合精品| 一级做a爰片久久免费| 久久国产精品无码hdav| a级毛片毛片免费观看久潮| 亚洲天堂在线免费| 色综合综合网| 国产幂在线无码精品| 国产高清毛片| a级毛片网| 婷婷激情亚洲| 亚洲资源站av无码网址| 婷婷色狠狠干| 中国一级特黄大片在线观看| 久久天天躁夜夜躁狠狠| 亚洲高清无码久久久| 麻豆国产精品一二三在线观看| 亚洲AV无码一区二区三区牲色| 国产激情无码一区二区免费 | 久久毛片免费基地| 国产午夜福利片在线观看 | 波多野结衣久久高清免费| 日韩大乳视频中文字幕| 国产真实乱了在线播放| 免费人成网站在线观看欧美| 伊人激情综合| 毛片基地美国正在播放亚洲| 婷婷综合色|