摘要:文章在對信息資源數字化工作中的OCR識別原理進行闡述的基礎上,分析了OCR識別在信息資源數字化工作中的作用。隨后,文章將信息資源數字化工作中OCR識別的生命周期劃分為數字掃描對象的獲取、數字圖像的生產、數字圖像的處理、OCR文本識別和識別結果優化等五個階段,并依次對各個階段的主要任務及主要特點展開了介紹。
關鍵詞:信息資源數字化 OCR識別 生命周期
中圖分類號:G250.7 文獻標識碼:A 文章編號:1007-9416(2014)08-0217-02
信息資源數字化,是指把原先用紙張形式存貯的文獻信息轉化為用計算機存貯設備中的電、磁、光電信號存貯的信息,并實現對形式轉換后的信息的計算機管理、網絡傳輸和數字化存取[1]。具體實施過程中,通常采用數字掃描或數字拍照這兩種方式來實現信息資源載體形式的轉換,進而生成諸如PDF、CAJ等格式的數字圖像。信息資源數字化工作的最終目的,是為了向用戶提供全面、快捷的數字化產品和服務[2]。基于此,將信息資源數字化工作的初級產品——數字圖像,進一步轉化為易于編輯、深加工的諸如TXT、WORD等格式的文本信息就顯得尤為重要。目前,在這一領域應用最廣泛的技術手段當推OCR(Optical Character Recognition,光學字符識別)。
1 信息資源數字化工作中的OCR識別原理
OCR這一概念最早于1929年由德國科學家Tausheck提出[3]。隨后,美國科學家Handel對利用光學技術識別文字的工作模型展開了描述,但因當時計算機技術尚未問世,這一模型一直停留在概念階段。計算機技術和掃描技術的相繼出現,為OCR識別進入實際應用領域提供了必要條件,計算機設備和掃描設備應能的迅猛提升與價格的不斷下降,促使OCR識別的性能逐步完善,應用領域迅速擴展。信息資源數字化工作中的OCR識別,其原理簡單來說就是利用光學技術對文字和字符信息進行掃描識別,并將其轉化為計算機內碼,進而按照要求輸出相應格式的文檔信息。
2 OCR識別在信息資源數字化工作中的作用
信息資源數字化工作的最終目的,是為向用戶提供方便、快捷的文獻信息資源和服務。在信息資源數字化工作過程中,OCR識別承擔著將信息資源數字化產品按照用戶利用需求進一步優化的任務。OCR識別實際上是一種字符轉換的過程,OCR識別工作的產品--文本文檔,一方面需要滿足用戶對信息資源數字化產品方便獲取、便于利用的需求,同時還必須忠于文獻信息資源的原始內容。基于此,OCR識別是確保信息資源數字化產品質量的重要因素,同時也是為信息資源數字化工作提供用戶保障的重要環節。
3 信息資源數字化工作中OCR識別的生命周期
根據信息資源數字化中OCR識別流程圖,結合已有學者的研究內容[4],筆者認為可以將信息資源數字化OCR識別工作的生命周期劃分為數字掃描對象的獲取、數字圖像的生產、數字圖像的處理、OCR文本識別和識別結果優化等五個階段。
3.1 數字掃描對象的獲取階段
從目前國內外所開展的大型信息資源數字化項目情況來看,該階段一般通過兩種途徑來獲取數字掃描對象。一種途徑是選擇原始文獻進行數字掃描或數碼拍照,另一種途徑是先通過縮微技術制作原始文獻的縮微膠片,然后對縮微膠片進行數字掃描或數碼拍照。
當選擇直接對原始文獻進行數字掃描或數碼拍照時,應注意盡量避免拆分裝訂成冊的原始文獻,尤其應當避免在操作過程中對部分珍稀文獻造成損傷。如果有若干可供選擇的原始文獻實體,應選擇紙張平整、壓裝平滑、潔凈無污損的原始文獻進行數字掃描或數碼拍照。當選擇對原始文獻的縮微膠片進行數字掃描或數碼拍照時,首先應采用以聚酯為片基、含有銀明膠涂層的膠片,避免采用相對容易老化的醋酸片基類縮微膠片。在縮微膠片沖洗過程中,應將顯影液中的濃縮儲存液(阿克發藥液G231c)與清水的體積配比為1:3,同時將顯影液的溫度控制在35℃左右,以防止縮微膠片出現灰霧、污染和影像不清晰等現象;應將殘留于縮微膠片表面的定影劑含量控制在1.4μg/cm2以下,以防止縮微膠片硫化變黃;應對縮微膠片進行充分水洗,以避免殘留在膠片乳劑層中的硫代硫酸鹽與空氣中的二氧化碳和水發生化學反應所生成的硫化物與影像中的銀發生反應,造成亞硫酸被氧化,最終導致使影像變黃或褪色消失[5];應對縮微膠片進行合理干燥,避免因烘干溫度過高導致縮微膠片卷曲、發脆、甚至折裂,或因烘干溫度過低導致縮微膠片乳劑層粘連、滋生霉菌。
3.2 數字圖像的生產階段
該階段通過對原始文獻或原始文獻的縮微膠片進行數字掃描或數碼拍照,進而生成信息資源數字化工作的初級產品—數字圖像。信息資源數字化工作過程中,數碼相機一般用于對三維立體文獻載體進行成像,因此在具體應用中該階段一般采用數字掃描來形成原始文獻的數字圖像。
為保證數字圖像的質量,該階段應選擇合適的數字掃描儀并采用正確的使用方法。在數字掃描儀的選擇方面,應在相同條件下選擇配有光電耦合器(CCD,Charged Coupled Device)的掃描儀;數字掃描儀能夠提供的最低光學分辨率不應低于300dpi,最高光學分辨率應能夠達到600dpi;當掃描對象是印刷型文本時,應首選平臺式數字掃描儀,當掃描對象是縮微膠片時,應選用縮微膠片數字掃描儀或滾筒式數字掃描儀。在數字掃描儀的使用方面,應根據被掃描對象的具體情況設置合適的掃描模式、掃描分辨率、掃描閾值、亮度/對比度及掃描文件的保存格式;正式使用前應充分預熱,并開啟去除網紋功能;使用過程中應保持鏡頭組件的牢固性,正確擺放被掃描對象,并時刻保持清潔的工作環境。
3.3 數字圖像的處理階段
該階段的任務是對數字圖像進行一系列針對性的增強處理,以滿足OCR識別軟件精準識別的目的。圖像增強處理工作的直接目的是為了提高圖像的解譯力,把圖像中我們感興趣的特征強調出來,同時抑制不感興趣的特征[6]。具體實施過程中,應注意選擇合適的數字圖像處理軟件并采用正確的數字圖像增強處理操作。endprint
在數字圖像處理軟件的選擇方面,應在軟件的價格與性能之間做出妥善選擇。經常出現的情況是,數字掃描儀自身附帶的圖像處理軟件價格低廉(在購買掃描儀時由廠家免費贈送),但圖像處理功能有限;商業數字圖像處理軟件功能較為完善,但其市場價格昂貴。筆者認為,為確保數字圖像增強處理質量進而為后續的OCR精確識別提供基礎,應選用性能完善的商業數字圖像處理軟件。
在數字圖像增強處理操作過程中,應注意合理調整數字圖像的幾何位置,以使數字圖像中的字符圖案恢復到水平與垂直方向上,為OCR軟件正確辨識字符提供基礎;應設置合適的閾值對數字圖像進行二值化處理,以增強數字圖像的黑白對比效果,使其細節特征得以凸顯;應在盡可能保留數字圖像細節特征的基礎上,有效抑制數字圖像中的噪聲;應對數字圖像進行合理銳化,以增強字符圖案輪廓邊緣部分的清晰度,便于工作人員及OCR識別軟件辨識。
3.4 OCR文本識別階段
該階段使用OCR軟件對經過處理的數字圖像進行識別,在信息資源數字化工作OCR識別生命周期中,OCR文本識別階段處于中心位置。具體實施過程中,應注意選用合適的OCR軟件。以精確識別數字圖像、為信息資源數字化工作提供高質量產品為衡量,筆者認為該階段應從對形近字符的識別能力、對數字圖像“噪聲”的適應能力、對數字圖像中標點符號的識別能力、對數字圖像的預處理能力、支持識別的項目類型、用戶界面友好型等六個方面入手來選用合適的OCR識別軟件。
3.5 識別結果優化階段
信息資源數字化工作中,經OCR軟件識別的文本材料并非整項工作的最終產品。實際操作過程中,經OCR軟件識別的文本材料中常常存在亂碼字符、文本排列格式混亂等現象,這與用戶的使用需求尚存在差距。鑒于此,以原始文獻信息資源內容作參照,對經OCR軟件識別的文本材料進行人工校正處理就顯得十分必要。在此基礎上,以用戶使用需求為考量,為經人工校正的文本材料選用合適的格式進行輸出、保存,是信息資源數字化OCR識別工作過程的最后一個環節。
參考文獻:
[1]陳光祚、雷燕.中外信息資源數字化比較研究[J].情報科學,2001(08).
[2]郭軍.信息資源數字化文本型數字圖像OCR識別準確度影響因素及提高策略研究.鄭州大學碩士畢業論文,2011(04).
[3]Schantz,Herbert F.The History of OCR,Optical Character Recognition[J].Recognition Technologies,1982,(2):78-81.
[4]臧國全.文本數字化圖像OCR識別的準確度測度實驗與提高[J].圖書情報知識,2010(03):62-67.
[5]徐杰.淺談縮微膠片沖洗[J].縮微技術,2001(04):30-31.
[6]王斐,王杰生,胡德永.三個商用遙感數字圖像處理軟件比較[J].遙感技術與應用,1998(06):49-56.endprint