999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

試論檔案數字化過程中OCR技術的應用

2017-01-28 09:40:27鄭艷昆中國現代文學館
消費導刊 2017年17期
關鍵詞:檔案管理

鄭艷昆 中國現代文學館

試論檔案數字化過程中OCR技術的應用

鄭艷昆 中國現代文學館

引進信息化系統、推動數字化發展已經成為現階段檔案管理的主流趨勢,檔案數字化不僅減輕了管理人員的工作壓力,提高了檔案管理效率,而且也能夠進一步挖掘檔案資料的潛在價值,真正發揮檔案資料的借鑒、參考價值。在檔案數字化發展過程中,如何將紙質檔案內容準錄入到計算機中是需要重點關注的核心問題,OCR(光學字符識別)技術的應用,實現了文字、圖像的快速識別和準確轉換,逐漸成為數字檔案管理中的核心技術之一。

檔案管理 數字化 OCR技術 應用技巧

OCR技術是指利用電子設備(掃描儀、數碼相機等),掃描紙質檔案中的文字、圖像,然后借助于字符識別將其轉換為計算機可識別的二進制數據,并生成對應文字和圖像的一種技術。我國自20世紀70年代開始著手漢字識別的相關研究,隨著經驗的積累和技術的成熟,目前國內OCR技術的應用較為成熟。文章首先對OCR技術的運作流程和檔案錄入優勢進行了簡單概述,隨后結合工作經驗,就OCR技術在檔案數字化中的實際應用展開了分析。

一、OCR技術的工作流程

(一)影像輸入

各類光學儀器是實現紙質檔案文字識別的主要工具,目前常用的影像輸入儀器主要有掃描儀、數碼相機和傳真器等。這些電子設備在掃描精度、速度等方面均有較大差異,需要在實際的檔案數字化轉化中篩選使用。在選擇好掃描設備后,將需要進行文字轉換的紙質檔案進行整理劃分,例如圖片、表格、文字等要單獨分類,這樣一方面可以提高文字識別率,盡量降低掃描識別中出現亂碼、錯位等現象,另一方面也能夠最大限度的還原紙質檔案的信息,提高檔案資料的利用價值。另外,考慮到檔案掃描過程中會涉及到人工操作,操作時可能會導致待識別檔案誤動,因此還需要對采取傾斜校正措施,避免掃描識別字體出現傾斜問題。

(二)對比識別

漢字中有許多形體結構類似的文字,例如“日”和“曰”、“子”和“于”等,由于掃描設備只能通過識別文字區域黑/白點數的方式完成掃描錄入,因此掃描這些文字時容易出現較高的錯誤率。對比識別能夠進一步細化文字特征,包括文字的筆畫端點、交叉點數量等,都可以在掃描過程中進行針對性的識別。這樣一來,雖然并不能保證OCR技術100%的識別率,但是也能夠大幅度降低誤識率,從而使得識別結果更加穩定。目前OCR技術中應用較為成熟的對比識別算法有歐式空間對比法、動態程序對比法以及HMM對比法等。

(三)人工校正

人工校正是OCR技術在檔案數字化應用中的最后一個技術環節,對于實現文字糾偏、減少錯誤率有很好的效果。在以往的檔案數字化錄入過程中,需要技術人員逐字逐句的檢查檔案是否存在錯誤,不僅浪費了大量的校正時間,而且容易因技術人員的疏忽大意,而影響校正效果。借助于OCR技術,人工校正只是一種輔助手段,多數情況下是由計算機篩選出可能存在錯誤的文字區域,然后再安排技術人員進行專門的檢查。這樣就縮小了人工校正的范圍,從而提高了工作效率。

(四)結果輸出

完成上述一系列操作,且經過系統性的人工校正后,可以將掃描結果輸出形成電子檔案。通過大量的對比可以發現,利用OCR技術得到的數字檔案無論是在字形、排列等方面,均與原紙質檔案有極高的吻合度。需要注意的是,生成電子檔案后,要及時進行電子檔案的復制備份,避免因設備故障或人為破壞導致數字檔案受到損失。將原版檔案進行加密保存,備份檔案可以供人瀏覽、下載使用。

二、OCR技術在檔案錄入上的優勢分析

(一)真正意義上實現了全文檢索

在檔案數字化工作中,所謂的全文檢索主要可以分為兩種:一種是針對全文目錄的檢索,必須在目錄數據庫中找到相關的條目才能將所需的文檔打開;另一種則是真正意義上的全文檢索,該檢索方式可以對檔案全文進行逐字逐句的檢索,二者之間的工作效率與作用是十分明顯的,逐漸深入開發并利用檔案信息資源。

(二)檔案錄入速度和質量提升

OCR技術的使用,在著錄標引方法上取得了一定的突破。在傳統的檔案目錄創建中,其中的許多內容都是通過手工錄入的方式,費時費力易出錯。OCR技術為檔案目錄的創建與錄入提供了一種全新的方式。在實際的工作中,工作人員可以直接從OCR中尋找著錄相關項目,使用基本的復制、粘貼操作將其放入到目錄數據庫中的相應段落當中即可。然而,由于OCR技術自身方面還存在著一些問題,導致了該方法在實際使用的過程中缺乏可行性。在OCR技術未來發展的過程中,必須要從可行性的方面入手,逐漸完善OCR技術,確保OCR在技術方面的應用能夠獲得突破。

(三)拓寬了用戶的檔案利用面

在過去,用戶在選擇與利用檔案信息文件的過程中,主要以其憑證價值作為其是否使用的判定標準。然而,部分檔案在使用過程中,對檔案的原真性具有較高的要求,例如結婚證、戶口薄、學生證、房產證等,只有使用紙質檔案才能真正地發揮出起作用。檔案絕不僅僅擁有憑證價值,也具有一定的情報價值與參考價值。若要將其用于學術研究或決策參考,按照現行的工作方式,只能去檔案館使用印刷或手工摘錄的方式來獲取,不僅不便于實際工作中的使用,也會影響檔案信息的傳播速度,對其使用效果產生影響。使用OCR文字識別技術,使用數字化檔案代替傳統的紙質檔案,使我國的檔案信息技術取得了全面性的突破,使其可以為用戶提供更加優質的服務。

三、檔案數字化過程中OCR技術的應用技巧

雖然OCR技術已經逐漸趨于成熟和完善,并且經過大量的實踐證明,利用OCR技術可以實現提高文字錄入正確率的效果。但是仍然有一些檔案管理部門反映OCR技術的應用效果不理想。究其原因,還是因為這些部門沒有掌握該項技術的應用技巧。總結來說,檔案數字化過程中OCR技術的應用應當注意做好以下幾方面。

(一)合理設置分辨率

分辨率的高低直接決定了文字識別的準確率,這也是早期數字掃描過程中極其容易出現文字亂碼的主要原因。近年來,隨著掃描設備性能不斷提升,這些設備的分辨率也越來越高,例如一些比較高端的光學掃描設備的分辨率可以達到800pi以上。需要注意的是,文字識別過程中的設備分辨率并不是越高越好,不同字號的文字對應著最佳分辨率,例如1-3號字體可以選擇200pi,而6-8號字體可以選擇600pi等。另外,分辨率的高低也會直接影響掃描成本,尤其是對于一些工作量較大、檔案較多的單位,合理設置分辨率還能節省一部分費用。

(二)調整好亮度和對比度的值

上文中提到,OCR技術進行紙質檔案掃描的原理是通過識別目標區域的黑/白點陣,選取黑色部分作為文字的字體結構,從而高度還原文字,實現文字的轉換。在對紙質檔案掃描時,如果檔案文件黑白分明,則可以實現較好的文字識別效果;但是很多早期的檔案資料或特殊紙質的檔案資料,黑白對比度不高,因此給掃描儀的識別準確度造成了一定的影響。針對這種情況,可以人為調整掃描儀的亮度值:可以通過掃描實驗來確定亮度值的大小,例如掃描結果中文字線條較粗,則說明亮度值偏大;反之,如果文字輪廓不清晰,則說明亮度值偏小。

(三)選擇恰當的掃描軟件

合理選擇OCR軟件也是關系到文字識別效率的重要因素。近年來,部分智能掃描儀自帶OEM掃描軟件,雖然能夠為掃描工作提供一些方便,但是無論是在掃描效果還是實用功能等方面,均不如OCR軟件。另外,這些高端掃描儀大多為國外品牌,部分甚至沒有中文文字識別功能,因此其實際應用價值不高。好的掃描軟件應當至少具備兩方面要素:其一是能夠進行中文漢字的高效、準確識別,其二是圖像軟件自帶文字編輯和加工功能,便于后期人工校正。除此之外,向其他一些輔助功能也可以適當選取,對于檔案文字的錄入也有一定幫助。

(四)注意調整檔案文字格式

原紙質檔案中的部分特殊文字或特殊格式,在掃描時可能會出現無法識別的現象,需要相關人員進行手動調整。目前確定無法正確識別的格式有粗體、斜體、首行縮進等,另外向一些復雜的數學、物理、化學公式,以及模糊的黑白圖像等,在識別時也容易出現亂碼或格式丟失等現象。針對這種問題的解決辦法主要有兩種:一種是利用數碼相機進行拍照識別,將目標圖像或公式進行拍照選取,然后直接粘貼到數字檔案中;另一種是后期人工校正,由于亂碼會被系統自動標注,后期可以人工查看這些亂碼,并對照原檔案進行修正。

(五)盡量手動選取掃描區域

許多檔案中同時包含圖片和文字,甚至多數情況下采用圖文混排的形式,這就給OCR的掃描識別增加了難度。為了提高掃描效率和識別成功率,可以人為進行檔案資料的版面區分,將檔案分成多個掃描區域,從而提高了識別效率。理論上來說,應當盡可能的保持同一掃描區域中的字號相同,且文字排列整齊,行間距一致。掃描時要分區域進行,每完成一個區域的掃描工作,在換檔案開始下一區域掃描,這樣不僅提高了OCR識別的專業性,也可以留出一定的時間進行人工校正,提高了文字處理速度。

四、結語

OCR技術的應用為提升檔案錄入速度和質量提供了必要的技術支持,重視OCR技術的應用也成為優化數字檔案管理工作的核心內容。作為數字檔案管理人員,一方面要不斷提高個人的數字化設備操作能力,掌握OCR技術在檔案轉化和文字錄入中的操作技術,另一方面又要總結以往工作經驗,注意學習OCR技術的應用技巧,例如學會如何進行對比度調節、如何設置分辨率等,為提高OCR技術的應用成效提供人力支持。

[1]趙燁,王明磊,李新友.信息化時代背景下應用OCR技術的大數據量文檔處理系統模型[J].計算機應用,2015(s1):329-331.

[2]彭健,潘保昌.基于OCR技術的金融和財務票據自動錄入與管理系統[J].重慶工商大學學報(自然科學版),2017(03):150-154.

[3]張文國.OCR數字化加工系統研發成功為圖書、檔案、文獻資料數字化提供先進技術手段[J].電子出版,2013(04):139-142.

[4]王玲麗.淺談OCR技術在圖書館文獻資源加工中的應用——以上海圖書館近代文獻全文OCR數據制作項目為例[J].數字與縮微影像,2015(01):23-26.

鄭艷昆,女,中國現代文學館征集編目部助理館員,研究方向:檔案資源建設。

猜你喜歡
檔案管理
如何規范檔案管理
對加強城建檔案管理的相關思考
檔案管理中的電子檔案管理
檔案管理與企業內部控制關系的思考
消費導刊(2017年24期)2018-01-31 01:29:20
煤炭企業檔案管理的創新
蘭臺內外(2017年5期)2017-06-06 02:24:18
論如何做好檔案管理工作
蘭臺內外(2017年5期)2017-06-06 02:24:17
論科研項目檔案管理
西藏科技(2015年12期)2015-09-26 12:13:40
健康檔案管理的“云”前景
中國衛生(2014年11期)2014-11-12 13:11:34
關于電力企業檔案管理之創新探討
河南科技(2014年7期)2014-02-27 14:11:32
加強工程項目檔案管理的有效途徑
主站蜘蛛池模板: 国产高清在线丝袜精品一区 | 啦啦啦网站在线观看a毛片| 999福利激情视频| 青青草一区二区免费精品| 9久久伊人精品综合| 久久77777| 久久久精品无码一区二区三区| 国产乱子伦手机在线| 成人亚洲视频| 麻豆精选在线| 美女被操91视频| 人妻中文字幕无码久久一区| 久久天天躁狠狠躁夜夜2020一| 凹凸精品免费精品视频| 久久福利网| 老司机久久99久久精品播放| 色天堂无毒不卡| 国产精品久线在线观看| 国产原创演绎剧情有字幕的| 高h视频在线| 手机成人午夜在线视频| 不卡午夜视频| 欧美成人看片一区二区三区| 欧美一级99在线观看国产| 毛片手机在线看| 亚洲AV无码一区二区三区牲色| 亚洲aaa视频| 亚洲最大福利网站| 久久久久亚洲av成人网人人软件| 亚洲aⅴ天堂| 尤物午夜福利视频| 91在线激情在线观看| 无码国产偷倩在线播放老年人| 亚洲日韩精品欧美中文字幕 | 久久香蕉国产线看观| 欧美一级特黄aaaaaa在线看片| 欧美黄网站免费观看| 亚洲精品无码高潮喷水A| 伊人中文网| 亚洲国产成熟视频在线多多| 日韩小视频在线观看| 福利在线不卡| 国产精品成人第一区| 国产成人精品在线1区| 国产成人免费视频精品一区二区| 亚洲AV成人一区国产精品| 亚洲AⅤ无码国产精品| 亚洲午夜国产精品无卡| 久久精品人妻中文系列| 久久综合九九亚洲一区| 天堂av高清一区二区三区| 免费Aⅴ片在线观看蜜芽Tⅴ| 呦女精品网站| 婷婷色一区二区三区| 天天做天天爱天天爽综合区| 亚洲国产欧美国产综合久久| 2021最新国产精品网站| 人人看人人鲁狠狠高清| 国产一级特黄aa级特黄裸毛片| 日韩黄色大片免费看| 国产亚洲欧美日韩在线一区二区三区| a级毛片免费播放| 毛片三级在线观看| 国产人成乱码视频免费观看| 成人精品在线观看| 国产亚洲高清视频| 中文无码精品A∨在线观看不卡| 国产视频大全| 欧美成在线视频| 欧美国产视频| 亚洲国产精品日韩欧美一区| 亚洲妓女综合网995久久| 激情午夜婷婷| 国产激情影院| 亚洲中文制服丝袜欧美精品| 亚洲福利一区二区三区| 亚洲bt欧美bt精品| 国产喷水视频| 色视频久久| 国产乱子伦一区二区=| 久久a级片| 久草视频精品|