999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析OCR技術及其在檔案管理中的應用

2021-02-01 14:02:06劉濤張文娟唐文博楊露左佳未
科學與信息化 2021年2期
關鍵詞:檔案管理

劉濤 張文娟 唐文博 楊露 左佳未

云南云電同方科技有限公司 云南 昆明 650000

緒論

隨著計算機技術的飛速發展,電子設備的快速迭代進步,信息技術對于大部分企業的現代信息化產業起到了巨大的推動作用。對于大部分企業的檔案管理工作來說,都會面臨著將大量紙質檔案信息化然后錄入計算機的難題。即使現在大力推行檔案信息化的發展,依然還有海量的歷史遺留檔案保存在檔案室中,僅僅只有部分的檔案通過簡單的拍照上傳方式處理,以照片的形式存在數據庫中并不利于后續生產工作任務中處理和維護,而且以這種形式存儲需要大量的存儲設備,耗費財政收入。 并且現階段采取人工檢核手工錄入成本非常高,工作量巨大且效率非常低。

1 國內外研究現狀

光學字符識別(Optical Character Recognition)是指通過利用現代計算機編程技術,對紙質文件的電子圖像副本進行處理和分析,以獲取文件的原始文本信息等數據的過程。OCR識別技術其實是由計算機視覺系統研究領域的一個分支技術演變而來,和人工智能技術和識別模式方向有著不可分割的密切聯系,是現代計算機發展過程中的熱門技術。同時,OCR技術也是實現文字錄入技術向高速度和高精度的發展的必要技術條件。

在OCR技術茁壯成長的生命周期中,最先誕生的成果便是對印刷體的數字識別技術,這項技術在當時是眾多文字識別中最成熟的。OCR的首個專利早在1929年便被一位德國科學家取得。然后隨著社會的發展,歐美國家產生了大量有價值的書籍,報刊和政府文件等有存儲價值的資料,在大量信息存儲需求的推動下,各國展開了對對常用語言如拉丁文、英文等語言的OCR識別技術的研究,意圖取代傳統的手工錄入模式。到了二十世紀末,伴隨計算機技術的蓬勃成長,拉丁文、英文等光學字符識別技術等到普及滲透于各個領域,將浩如煙海般的文字材料能夠便捷、迅速、節省人力財力并且及時錄入計算機中。

國內對OCR算法的研發相比歐美國家起步較晚,從1970年開始,我國開始對OCR識別領域投入充足的科研經費和科學人才進行支持,在這種環境下我國的識別技術獲得了飛躍式的進步[1]。

2 OCR技術簡介

從宏觀的角度來了解OCR技術的話,會發現主流OCR技術主要可以分為兩個階段,分別為圖像處理階段和文字識別階段。

2.1 圖像處理

在圖像處理這一階段,所做的工作就是對原始的圖片資料進行一系列的加工處理,為揭曉來的文字識別階段做好準備。本節會以圖1為例子,介紹說明圖像處理階段所需要進行的工作。

圖1 原始圖片

(1)灰度化

圖2 灰度化

首先進行的工作便是對圖片進行灰度化處理如圖2所示,灰度化是將一張彩色圖片轉化為灰度圖片的過程,灰度化以后的圖片只有黑白灰三種顏色,但是仍然保存了圖片整體的色度以及高亮等級的分布特征,可以有效地降低后續的計算量。

(2)二值化

對圖片進行灰度化操作之后,圖片中仍然存在許多影響因素,所以需要再做進一步進行二值化處理,如圖3所示。

二值化最重要的操作就是為圖片選擇一個適合的閾值,這個閾值過高或者過低都會影響二值化最終的成果。然后根據這個閾值,我們可以將圖片中的所有圖像數據歸類到兩種截然不同的類型中去。最終,經過二值化的灰度化圖片將不再包含灰色,僅僅剩下黑白兩種顏色,這就是二值化的最終效果。

圖3 二值化

(3)圖像降噪

在現實中工作中,圖片會因為受到人工操作失誤和成像設備內部老化的干擾而產生意料之外的噪聲干擾,而為了減少圖片中的這些影響我們需要對圖片進行降噪處理,降噪結果如圖4所示。

從二值化過后的圖片中,如果仔細觀察我們會發現有大量細小的墨點分布在圖片的每一個部分,這些墨點就是這張圖片中需要消除的噪聲,如何處理這些墨點對OCR識別的結果會起到決定性的影響,所以我們在這個階段需要進行降噪處理。

圖4 降噪處理

(4)傾斜矯正

在實際操作的時候,人們通過拍照或者掃描的生成的圖像資料不可能完全的水平,所以在切圖之前,我們需要通過算法對圖像資料進行旋轉處理,只有當圖像資料接近完全水平時,切圖工作才能準確的分割圖像資料。

(5)文字切分

目前,主流的資料都 是多行文本的形式進行保存的,在對這種形式的圖像資料進行切割工作主要可以分為行切分和字符切分兩個步驟。文字切分的主要原理就是將上一步處理之后的文字投影到y軸上,并將所有的特偵知加在一起,這樣得到的就是一個關于行字符的特征直方圖,如圖5所示。

對于一段多行文本來講,文字切分包含了行切分與字符切分兩個步驟,傾斜矯正是文字切分的前提。我們將傾斜矯正后的文字投影到 Y軸,并將所有值累加,這樣就能得到一個在y軸上的直方圖。

圖5 特征直方圖

在這個直方圖之中,越靠近y軸說明文字特征越少,當圖像完全靠經y軸就說明這一部分是背景區域,根據這個規律,我們就可以將每一行文字單獨識別出來,如圖6所示。

圖6 行切分

接下來的字符切分和行切分所使用的原理大致相同,只是將投影的方向從y軸變為x軸,如圖7所示。

值得注意的是,當兩個字符之間的距離較小時,程序可能不會將兩個字符分開,又或者有些左右結構的漢字由于中間存在間隙,導致被切割為兩個字符,這些都會導致最終的識別結果出現偏差。對于這種情況,現在主流的處理方式就是在進行字符切割時,提前為字符間距設置一個理想的期望值,這樣在對字符進行切分時便會大大降低出現錯誤切分的情況。

圖7 文字切分

2.2 文字識別

通過文字切分對圖像資料中的文字進行區域劃分后,就可以對區域內的文字進行識別,文字識別有以下幾個步驟。

(1)特征提取和降維

每一種文字都會有自己獨有的特征,這種特征使對不同種類文字的識別具有了可行性,也是程序進行識別工作的重要信息。就拿常用的幾種語言來進行說明,英語和阿拉伯數字因為其字母種類較少,分別為10和52個字符,所以他們的特征就容易提取。但是對于漢字來說,特征提取的難度就大幅增加,因為漢字不僅擁有大量的總數,并且字體結構相當復雜,所以擁有極大的特征維度。

所以在確定識別對象是中文后,我們需要對識別對象的特征維度進行降維,否則分類器的效率會受到非常大的影響。并且,降維的程度和很重要,既要降低維數提升識別要率,也要保證降維后的特征向量有足夠的信息量去識別不同的文字[2]。

(2)分類器設計、訓練

分類器是在文字識別中,對樣本資料進行分類的方法程序的統稱,我們的任務就是根據根據識別樣本然后設計出對應的設計器,現在主流的設計方法會選擇模板匹配法和神經網絡分類法。在設計好之后,設計器往往還不能直接使用,我們還需要用監督學習的方法對設計器進行訓練之后才能投入使用。

(3)后處理

分類器的處理結果僅僅相當于一份草稿,我們還需要對對這份草稿進行處理,這和自然語言理解有很大的關系。主要的處理內容就是對形近字和文字排版進行特殊處理。

3 OCR技術在檔案管理中的應用方式

最近幾年,只能檔案管理系統開始逐漸應用OCR技術來提高檔案管理的工作效率,實用的應用方式有以下幾種:

3.1 提取檔案內容

在閱讀紙質檔案時,常常會出現需要使用檔案某一部分內容的情況,這時使用OCR文字識別功能對目標內容進行掃描識別操作,可以直接提供目標文本的電子拷貝,可以有效減少信息利用過程中的重復勞動,提升工作效率。

3.2 制作電子檔案

檔案管理員可以在檔案新建,入庫時利用OCR技術制作對應的電子檔案,在檔案利用者來申請檔案借閱等工作時優先提供電子資料,減少檔案管理工作人員去檔案庫尋找檔案的次數,并且紙質檔案丟失損壞問題也得以解決。

3.3 建立文本數據庫

通過OCR文字識別和區塊鏈技術建立一個和紙質檔案一一對應的電子檔案數據庫,可以為全文檢索提供對應的條目數據。通過全文檢索來搜索檔案或者是目標內容可以在提高檢索效率的同時,降低檔案管理人員的工作量[3]。

4 結束語

綜合上文所述,在檔案數字化的過程中,使用OCR技術可以有效地提高檔案錄入與輸出的速度與質量,減少檔案管理工作所需的工作人員及其工作量,最大限度地降低了檔案管理工作中的人力消耗。然而,只有解決了OCR識別率方面存在的問題,該技術才能真正地促進檔案數字化的發展。

猜你喜歡
檔案管理
如何規范檔案管理
對加強城建檔案管理的相關思考
檔案管理中的電子檔案管理
檔案管理與企業內部控制關系的思考
消費導刊(2017年24期)2018-01-31 01:29:20
煤炭企業檔案管理的創新
蘭臺內外(2017年5期)2017-06-06 02:24:18
論如何做好檔案管理工作
蘭臺內外(2017年5期)2017-06-06 02:24:17
論科研項目檔案管理
西藏科技(2015年12期)2015-09-26 12:13:40
健康檔案管理的“云”前景
中國衛生(2014年11期)2014-11-12 13:11:34
關于電力企業檔案管理之創新探討
河南科技(2014年7期)2014-02-27 14:11:32
加強工程項目檔案管理的有效途徑
主站蜘蛛池模板: 欧美日韩动态图| 色综合天天操| 亚洲欧美综合另类图片小说区| 永久在线播放| 在线欧美日韩| 久久这里只精品国产99热8| 四虎成人精品| 就去色综合| 欧美日韩精品在线播放| 国产亚洲视频播放9000| 欧美日韩精品在线播放| 国产亚洲精| 91精品网站| 免费无遮挡AV| 欧美另类图片视频无弹跳第一页| 亚洲国产亚综合在线区| 五月综合色婷婷| 国产精品亚洲专区一区| 亚洲天堂视频在线观看| 激情综合图区| 国产在线拍偷自揄拍精品| 67194亚洲无码| 日a本亚洲中文在线观看| 国产资源站| 亚洲国产天堂在线观看| 国产成人免费手机在线观看视频| 亚洲永久色| 欧美精品二区| 黄色成年视频| 国产亚洲视频免费播放| 午夜一级做a爰片久久毛片| 欲色天天综合网| 免费国产一级 片内射老| 伊人成人在线视频| 国产日本视频91| 无码日韩人妻精品久久蜜桃| 久久国产亚洲欧美日韩精品| 亚洲天天更新| 免费无码网站| 99伊人精品| 在线观看无码av五月花| 秋霞午夜国产精品成人片| 国产在线观看第二页| 亚欧美国产综合| 日本高清成本人视频一区| 欧美自拍另类欧美综合图区| a级毛片一区二区免费视频| 精品成人一区二区| 中文天堂在线视频| 久久亚洲国产一区二区| 一区二区三区国产精品视频| 国产极品美女在线| 国产91高清视频| 国产黑丝一区| 国产精欧美一区二区三区| 国产亚洲精品精品精品| 青草娱乐极品免费视频| 国产成人精品一区二区三在线观看| 久久天天躁夜夜躁狠狠| 中文无码精品a∨在线观看| 人禽伦免费交视频网页播放| 欧美狠狠干| 亚洲一区精品视频在线| 操操操综合网| 亚洲国产精品一区二区高清无码久久| 午夜a视频| 国产精品永久不卡免费视频| 久久精品国产精品青草app| 网久久综合| 中文字幕2区| 国产在线观看精品| 国产 在线视频无码| 日本精品中文字幕在线不卡| 国产福利小视频高清在线观看| 精品国产99久久| 久久精品视频亚洲| 婷婷综合缴情亚洲五月伊| 国产精品男人的天堂| 黄色一及毛片| 免费三A级毛片视频| 亚洲国产成人麻豆精品| 亚洲中文精品人人永久免费|