王 瑜
(中國電建集團北京勘測設計研究院有限公司,北京 100024)
OCR(Optical Character Recognition,光學字符識別)是指電子設備(例如掃描儀或數相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即針對印刷體字符,采用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。
在信息時代的檔案管理中,OCR識別是非常實用的工具。很多老舊的檔案在形成之初受年代限制沒有一開始就形成電子文件的條件,所以只能靠后期掃描完成數字化,這樣的文件在企業中依然有著龐大的數量,而這龐大數量的未數字化的檔案給檔案管理帶來了很大的難度,急需一種可以幫助檔案管理工作人員提高效率的方式來解決問題,這個時候OCR識別自然而然的被關注。OCR技術相對于傳統的手工錄入方式來說,具有強大的優勢,首先OCR識別的速度遠快于手工錄入。根據國際通行的打字速度評級標準,即使是專業人員,每分鐘也僅能輸入150-240個字,而采用OCR技術,即使算上前后期的處理環節所花的時間,其速度也比手工錄入快很多。其次,OCR識別的準確率也遠高于手工錄入,在檔案文本提取方面優勢卓越,為后面的檔案全文檢索功能提供了基礎,并且可以大大節省人力資源,優化資源配置,使檔案人員可以從繁忙的錄入工作中解脫出來,把精力分配給更加有意義的工作。
OCR識別技術分為兩個具體步驟:文字的檢測和文字的識別,兩者缺一不可,尤其是文字檢測,是識別的前提條件,若文字都找不到,那何談文字識別文本檢測不是一件簡單的任務,尤其是復雜的檔案數字化下的文本檢測,非常具有挑戰性。檔案信息化場景下的文本檢測有如下幾個難點:
早期的檔案的文本存在多種分布,許多檔案中包含圖片和文字,甚至多數情況下采用圖文混排的形式,老檔案紙面發黃,字跡模糊這就給OCR的掃描識別增加了難度。當然除了檔案全文的文字識別,在檔案著錄環節,OCR識別也很難提取有用信息。著錄時主要從需從檔案中提取文件題名、責任者、人名、密級、保密期限等信息,填寫到檔案系統的相應位置。而這些信息因為早期檔案格式不規范,或者檔案種類的不同的原因,所在的位置也不同,很難總結出一個可以一套公式用到底的規律。
建立的檔案數字化系統必須與本單位的存儲和應用系統兼容,否則會造成不必要的運行環境問題。引進OCR軟件也一定要與OCR軟件也一定要與本單位的存儲和應用系統兼容,便于今后的數據管理與利用,這一點在需求分析中應涉及。
國家檔案局的《DA/T 77-2019 紙質檔案數字復制件光學字符識別(OCR)工作規范》中對檔案的OCR識別早有規定,按照T 77規定,OCR識別時首先掃描時就需要注意,紙質數字復制件的圖片分辨率不應低于200dpi,特殊情況下,如字體偏小、密集、清晰度較差等,可以適當提高分辨率。圖像應做降噪處理,處理中應去除掃描過程中產生的污點、污線、黑邊等影響圖像質量的雜種,去除檔案頁面原有的紙張褪變斑點、水漬、污點。裝訂孔等影響識別的地方。其次調節檔案的亮度、對比度。部分檔案由于年代久遠,很多會底色發黃、字跡變淡,若要提高OCR識別率,需要改變很多參數,即調節亮度和對比度,且應先調亮度再調對比度。
要選擇好的OCR軟件,目前,市場上比較流行的OCR軟件很多,主要有百度文字、騰訊云、科大訊飛、清華紫光。漢王等品牌。各個品牌都有不同的特點,可以就檔案系統接口情況選擇。其次在著錄時無法提取有效信息的問題,可以通過人工框選的方式來解決。其次訓練OCR識別軟件的機器學習功能,減少文字識別的誤差。只有OCR軟件和人工搭配工作,才能更好地完成檔案管理。
檔案管理是一門相當繁瑣又傳統的學問,他記錄著我們每個人、每個行業、甚至世界各民族的榮辱浮沉、盛衰興亡。而OCR技術的存在能讓檔案這門古老的學問煥發出光來。我相信只有深刻學習各種技術,才可以使得我們管理的檔案在日后發揮更大的作用。