唐文博 李瑜 楊露 左佳未 劉濤 張文娟



摘 要:隨著現代編程技術的飛速發展,使得企業對紙質檔案的管理方式向數字化和信息化轉變成為了必然的發展趨勢。檔案是在企業運營發展過程中形成的重要資料,對企業未來的發展起到舉足輕重的作用。但是在檔案的日后使用中,紙質檔案和掃描生成的圖像還是存在無法針對檔案的具體內容進行檢索和引用等操作,這對檔案的利用工作造成很大的不便。考慮到日后的檔案管理利用需求,需要將紙質檔案轉化為真正的文本形態的電子檔案,這樣才能更好的利用智能檔案管理系統進行檔案管理工作。本文介紹了國內外OCR研究現狀然后簡單的介紹了OCR技術的原理,最后介紹了OCR技術在檔案管理工作中的應用。
關鍵詞:檔案管理;OCR;圖像處理;文字識別
緒 論
隨著計算機技術的飛速發展,電子設備的快速迭代進步,信息技術對于大部分企業的現代信息化產業起到了巨大的推動作用。為了適應數字化進程的飛速發展,企業需要將信息轉化為能被計算機接受和處理的形式,這樣一來企業首先面對的便是如何將紙質信息數字化的難題。縱觀人類漫長的發展歷程,我們會發現大量對于人類文明的記錄都是出現在文字和記錄媒介之后,所以用文字來記錄信息對于人類的發展起到了至關重要的作用。即使現在計算機技術慢慢的在人們的生活中普及,但是在企業的生產運作中產生的大量資料都還是儲存在紙質檔案中。
對于大部分企業的檔案管理工作來說,都會面臨著將大量紙質檔案信息化然后錄入計算機的難題。即使現在大力推行檔案信息化的發展,依然還有海量的歷史遺留檔案保存在檔案室中,僅僅只有部分的檔案通過簡單的拍照上傳方式處理,以照片的形式存在數據庫中并不利于后續生產工作任務中處理和維護,而且以這種形式存儲需要大量的存儲設備,耗費財政收入。 并且現階段采取人工檢核手工錄入成本非常高,工作量巨大且效率非常低。
國內外研究現狀
光學字符識別(Optical Character Recognition)是指通過利用現代計算機編程技術,對紙質文件的電子圖像副本進行處理和分析,以獲取文件的原始文本信息等數據的過程。OCR識別技術其實是由計算機視覺系統研究領域的一個分支技術演變而來,和人工智能技術和識別模式方向有著不可分割的密切聯系,是現代計算機發展過程中的熱門技術。同時,OCR技術也是實現文字錄入技術向高速度和高精度的發展的必要技術條件。
在OCR 技術茁壯成長的生命周期中,最先誕生的成果便是對印刷體的數字識別技術,這項技術在當時是眾多文字識別中最成熟的。OCR的首個專利早在1929年便被一位德國科學家取得。然后隨著社會的發展,歐美國家產生了大量有價值的書籍,報刊和鎮府文件等有存儲價值的資料,在大量信息存儲需求的推動下,各國展開了對對常用語言如拉丁文、英文等語言的OCR識別技術的研究,意圖取代傳統的手工錄入模式。到了二十世紀末,伴隨計算機技術的蓬勃成長,拉丁文、英文等光學字符識別技術等到普及滲透于各個領域,將浩如煙海般的文字材料能夠便捷、迅速、節省人力財力并且及時錄入計算機中。
國內對OCR算法的研發相比歐美國家起步較晚,從1970年開始,我國開始對OCR識別領域投入充足的科研經費和科學人才進行支持,在這種環境下我國的識別技術獲得了飛躍式的進步。
OCR技術簡介
從宏觀的角度來了解OCR技術的話,會發現主流OCR技術主要可以分為兩個階段,分別為圖像處理階段和文字識別階段。
圖像處理
在圖像處理這一階段,所做的工作就是對原始的圖片資料進行一系列的加工處理,為揭曉來的文字識別階段做好準備。本節會以圖1為例子,介紹說明圖像處理階段所需要進行的工作。
1.灰度化
首先進行的工作便是對圖片進行灰度化處理如圖2所示,灰度化是將一張彩色圖片轉化為灰度圖片的過程,灰度化以后的圖片只有黑白灰三種顏色,但是仍然保存了圖片整體的色度以及高亮等級的分布特征,可以有效的降低后續的計算量。
2.二值化
對圖片進行灰度化操作之后,圖片中仍然存在許多影響因素,所以需要再做進一步進行二值化處理,如圖3所示。
二值化最重要的操作就是為圖片選擇一個適合的閾值,這個閾值過高或者過低都會影響二值化最終的成果。然后根據這個閾值,我們可以將圖片中的所有圖像數據歸類到兩種截然不同的類型中去。最終,經過二值化的灰度化圖片將不再包含灰色,僅僅剩下黑白兩種顏色,這就是二值化的最終效果。
3.圖像降噪
在現實中工作中,圖片會因為受到人工操作失誤和成像設備內部老化的干擾而產生意料之外的噪聲干擾,而為了減少圖片中的這些影響我們需要對圖片進行降噪處理,降噪結果如圖4所示.
從二值化過后的圖片中,如果仔細觀察我們會發現有大量細小的墨點分布在圖片的每一個部分,這些墨點就是這張圖片中需要消除的噪聲,如何處理這些墨點對OCR識別的結果會起到決定性的影響,所以我們在這個階段需要進行降噪處理。
4.傾斜矯正
在實際操作的時候,人們通過拍照或者掃描的生成的圖像資料不可能完全的水平,所以在切圖之前,我們需要通過算法對圖像資料進行旋轉處理,只有當圖像資料接近完全水平時,切圖工作才能準確的分割圖像資料。
5.文字切分
目前,主流的資料都 是多行文本的形式進行保存的,在對這種形式的圖像資料進行切割工作主要可以分為行切分和字符切分兩個步驟。文字切分的主要原理就是將上一步處理之后的文字投影到y軸上,并將所有的特偵知加在一起,這樣得到的就是一個關于行字符的特征直方圖,如圖5所示。
對于一段多行文本來講,文字切分包含了行切分與字符切分兩個步驟,傾斜矯正是文字切分的前提。我們將傾斜矯正后的文字投影到 Y軸,并將所有值累加,這樣就能得到一個在y軸上的直方圖。
在這個直方圖之中,越靠近y軸說明文字特征越少,當圖像完全靠經y軸就說明這一部分是背景區域,根據這個規律,我們就可以將每一行文字單獨識別出來,如圖6所示。
接下來的字符切分和行切分所使用的原理大致相同,只是將投影的方向從y軸變為x軸,如圖7所示。
值得注意的是,當兩個字符之間的距離較小時,程序可能不會將兩個字符分開,又或者有些左右結構的漢字由于中間存在間隙,導致被切割為兩個字符,這些都會導致最終的識別結果出現偏差。對于這種情況,現在主流的處理方式就是在進行字符切割時,提前為字符間距設置一個理想的期望值,這樣在對字符進行切分時便會大大降低出現錯誤切分的情況。
文字識別
通過文字切分對圖像資料中的文字進行區域劃分后,就可以對區域內的文字進行識別,文字識別有以下幾個步驟。
1.特征提取和降維
每一種文字都會有自己獨有的特征,這種特征使對不同種類文字的識別具有了可行性,也是程序進行識別工作的重要信息。就拿常用的幾種語言來進行說明,英語和阿拉伯數字因為其字母種類較少,分別為10和52個字符,所以他們的特征就容易提取。但是對于漢字來說,特征提取的難度就大幅增加,因為漢字不僅擁有大量的總數,并且字體結構相當復雜,所以擁有極大的特征維度。
所以在確定識別對象是中文后,我們需要對識別對象的特征維度進行降維,否則分類器的效率會受到非常大的影響。并且,降維的程度和很重要,既要降低維數提升識別要率,也要保證降維后的特征向量有足夠的信息量去識別不同的文字。
2.分類器設計、訓練
分類器是在文字識別中,對樣本資料進行分類的方法程序的統稱,我們的任務就是根據根據識別樣本然后設計出對應的設計器,現在主流的設計方法會選擇模板匹配法和神經網絡分類法。在設計好之后,設計器往往還不能直接使用,我們還需要用監督學習的方法對設計器進行訓練之后才能投入使用。
3.后處理
分類器的處理結果僅僅相當于一份草稿,我們還需要對對這份草稿進行處理,這和自然語言理解有很大的關系。主要的處理內容就是對形近字和文字排版進行特殊處理。
OCR技術在檔案管理中的應用方式
最近幾年,只能檔案管理系統開始逐漸應用OCR技術來提高檔案管理的工作效率,實用的應用方式有以下幾種:
1.提取檔案內容
在閱讀紙質檔案時,常常會出現需要使用檔案某一部分內容的情況,這時使用OCR文字識別功能對目標內容進行掃描識別操作,可以直接提供目標文本的電子拷貝,可以有效的減少信息利用過程中的重復勞動,提升工作效率。
2.制作電子檔案
檔案管理員可以在檔案新建,入庫時利用OCR技術制作對應的電子檔案,在檔案利用者來申請檔案借閱等工作時優先提供電子資料,減少檔案管理工作人員去檔案庫尋找檔案的次數,并且紙質檔案丟失損壞問題也得以解決。
3.建立文本數據庫
通過OCR文字識別和區塊鏈技術建立一個和紙質檔案一一對應的電子檔案數據庫,可以為全文檢索提供對應的條目數據。通過全文檢索來搜索檔案或者是目標內容可以在提高檢索效率的同時,降低檔案管理人員的工作量。
結 論
綜合上文所述,在檔案數字化的過程中,使用OCR技術可以有效地提高檔案錄入與輸出的速度與質量,減少檔案管理工作所需的工作人員及其工作量,最大限度地降低了檔案管理工作中的人力消耗。然而,只有解決了OCR識別率方面存在的問題,該技術才能真正地促進檔案數字化的發展。
參考文獻
[1] 馬澤. OCR文字識別技術在不動產數據整合中的應用——以廣東省清遠市清新區為例
[2] 劉明英. 檔案數字化過程中OCR技術的應用分析
[3] 胡澤楓.基于OCR的批量發票識別系統研究與實現
[4] 陳小慶.基于Android平臺的OCR識別技術研究與實現
[5] 邱聯鵬. 非結構化數據在社保行業中的應用研究
[6] 宮天丞. 關于光學字符識別實現原理簡述