陳旭平
摘 要:圖像模式識別作為一種新型數字圖書修復技術,在修復圖書資料中能夠起到較好的作用,通過計算機的結合,利用模式識別對數字圖書資料的內容進行修復,采用掃描等方式將不清晰的圖形修復,使數字圖書資料得到較好的恢復。文章對圖像模式識別的數字圖書資料修復進行了詳細的分析。
關鍵詞:圖像模式識別;數字圖書資料;局部二值化
1 數字化圖書背景
圖書向著電子化和網絡化的特點發展,形成了數字形式的圖書,經過數字化的圖書可以在數據庫中進行保存和使用,使用者利用網絡可以對數字化圖書進行閱讀和下載等,同時這種資料的內容和實際的內容沒有差異,內容一致,由于數字化的圖書經過了特殊處理可以保留原本圖書中的完整內容,但是兩種形式的展現方式具有很大的差異。數字化圖書的產生中,需要借助先進的技術實現,并且技術起到了重要的作用,比如清華同方等文獻資料的數據庫已經將數字化圖書建立并且開始進行使用,更加的簡便,有著較好的效果。
2 數字圖書資料修復過程的問題
圖書資料需要結合數字化技術進行處理,將收集的數據輸入到計算機中,之后對出現的長方形框進行圖像的預處理,使在其區域之內的部分能夠被識別,進而將圖像轉換成文字,這種方式可以使圖書等中的文字更加的明確的展現,對圖書資料的修復起到了重要的作用,也能夠提供幫助,經過這種方式的處理,能夠使圖書等資料的數字化得到成功的實踐。
二值化方式在數字化處理圖書資料中比較常用,數字圖書資料在修復中,需要通過數據的處理來完成,二值化方法可以使這個過程得到實現,由于這種方式具有較高的效率,所以有著一定的優點,將數字圖書進行二值化處理后可以使圖像的對比度提高,相比原來的圖書,具有更好的清晰度,這樣可以使識別更加的有效,也可以利于進行閱讀。然而二值化處理中也有一些問題,二值化會使圖像中的模糊的部分變得更加的不清晰,使識別無法正常的進行,這個問題會導致圖書的數字化處理受到較大的不良影響,導致數字化處理中的要求不能得到滿足,管理人員在處理中會由于這個現象而放棄對部分圖書資料繼續修復。圖像采集過程中,收集的圖像會成為BMP格式的文件,這種格式的文件在計算機中顯示的不是正常的狀態,而是灰度較高的圖像狀態,圖像還會出現不清晰和字符筆畫不連貫等問題,這些問題會使圖像的識別受到影響,同時存在孤立噪聲的現象,導致識別的難度大大提升。
數字化圖書資料等具有的問題,為了將其解決,通過對二值化技術的改善進行處理,改為局部的形式,使不清晰的數字化圖書資料能夠更好的得到修復,還可以使圖書資料的數字化水平提高。
3 圖像模式識別方式的使用原理
3.1 圖像模式識別含義
模式識別指的是對事物中的現象進行分析,包括文字、邏輯等,經過處理,使事物以及現象得到描述和分辨,同時使事物能夠被分類和闡述的這個過程,這種方式在識別上能夠更加的準確,通過信息的處理來進行計算機計算和推理,將識別內容的性質分析出來,包括對形狀、數字和圖形等的分析,這就是模式識別。
3.2 局部二值化的含義
先對整個大圖像進行分割,使之變成若干張大小相等的小圖像,然后利用二值化方法對這些小圖像進行閥值計算,而后將經過二值化之后的小點陣進行整合,得到最后的結果,這種方法就是局部二值化。在對數字圖書資料中的圖像進行二值化的過程中,需要先將圖像的局部切割成小塊,這樣就能將大圖像的二值化問題轉換成為小圖像的二值化問題。
3.3 圖像模式識別的原理
圖像模式識別的工作原理主要由兩部分構成,即局部二值化的原理和圖像分塊的確定。下面就對這兩方面進行具體分析。
3.3.1 局部二值化原理
所謂的局部二值化就是將一張比較大的圖像分割成若干比較小的圖像,然后對這些比較小的圖像進行二值化,經過組合之后形成完整的二值化圖像。換句話說,只需要分割、塊二值化和合并三個步驟就能完成圖像的二值化處理。
3.3.2 圖像分塊的確定
在對大圖像進行分割時,應該將圖像的局部灰度平均值作為分割的依據,這樣就可以使一些質量較差圖像的局部二值化效果得到提高。從理論上講,對大圖像分割的小圖像數量越多,最后二值化的效果就會越好。但是在實際的操作過程中,這樣的分割方法會大大降低計算的速度。而且,圖像分割得越小,經過局部的二值化之后,最后整合出來的二值化的噪音就會越多,這樣就會給后面的平滑處理帶來更多的問題,增加后期處理的難度。
4 數字圖書資料的修復方法
4.1 對圖像進行預處理
基于圖像模式識別的數字圖書資料修復及應用一方面,受掃描系統的版本、光電轉換的不同位置以及工作環境中的光電等因素的影響,會使圖書或者是檔案資料在進行數字化的過程中,出現圖像掃描不均勻、對比度差異較大等問題,導致圖像的清晰度不夠,還原度和可視程度降低。光電敏感元件中的載荷粒子會隨著機器的運轉產生一定的噪音灰度圖像在經過數字化的處理之后,都會含有一定的噪聲。在對圖書或者是檔案圖像進行二值化的處理之前,都需要對圖像進行預處理。圖書資料數字化的過程中,對圖像進行預處理的辦法主要有兩種,即灰度變換和平滑濾波。
4.2 提取圖像中的字符信息
對于亮度比較大的點,可以將它的值假設為0;對于亮度較小的點,可以假設它的值為1。像素的集合就是圖像的背景區域,如果將小于或者是等于閾值N的像素設置成黑色,那么像素的值就為1,通過這樣的方法就能得到只有黑白兩個等級的二值化圖像,圖像中字符信息就會顯示出來。通常情況下,數字圖書資料的背景色都很淺,而字符的顏色比較深。以紙質圖書為例,它的背景色通常都是白色,而字符則是黑色。
4.3 二值化圖像的二次處理
對圖像進行局部二值化的處理之后,就能得到各個小塊圖像的值點。雖然這種方法能夠避免部分小塊顏色暗淡只是整體圖像沒有值點現象的產生,但會使圖像中包含很多的噪音。這些噪音在進行圖像的重組之前必須去除,一般情況下,可以使用圖像重構的方式進行處理。采用圖像重構法不僅能夠得到完整的原始圖像,還能夠構造出BMP位圖文件,打印出比原來效果更好的圖書資料,達到修復圖書資料的目的。
5 結語
隨著網絡技術的應用逐漸普及,數字圖書資料的占據的部分會隨著擴大,其中包括較多的損壞的資料,或者不完整的資料,為了將損壞資料進行修復,需要加強數字圖書資料的修復效果,使用有效的技術,比如圖像模式識別,使數字圖書資料得到有效的修復,還可以利于科技水平的提升,使圖像模式識別方法的質量提升,還可以使修復的效果逐漸提高,保證數字圖書的使用效果。
參考文獻
[1]趙迎春.計算機模式識別技術在圖書館的應用研究[J].科學技術創新,2016(14):186-186.
[2]趙登攀,劉娟.計算機模式識別技術在圖書資料數字化中的應用[J].電子技術與軟件工程,2016(16):169-169.
[3]姜雅慧.基于模式識別的圖像處理方法[J].通訊世界,2016(4):262-262.