999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于梯度差的文檔圖像文本行檢測算法

2011-07-25 00:34:00王希常
網絡安全與數據管理 2011年18期
關鍵詞:文本區域檢測

王 丹,王希常,楊 俠

(山東師范大學 信息科學與工程學院,山東 濟南 250014)

目前大多數文檔圖像的信息以數字化形式存在,并以文檔形式存儲在數據庫中。文檔圖像處理是辦公自動化的一個重要組成部分,在辦公自動化、數字圖書館、圖像視頻檢索等領域得到越來越廣泛的應用[1]。其內容主要包括掃描輸入、預處理、布局分析、字符識別等步驟,其中,文本行檢測是進行布局分析、檢索以及字符識別的重要組成部分。目前主要采用三種方法來進行文本定位:基于區域的方法、基于邊緣的方法和基于紋理的方法[1]。基于區域的方法利用連通區域進行投影分析來獲取文本區域,投影特性法[2]主要是對文檔圖像在指定方向上進行投影測試,根據投影的分布特征,在得到的結果中選取最佳的投影結果,以完成文本行的檢測。但由于傳統投影方法需要對整個圖像進行指定方向上的投影,其計算量和復雜度都較高[3]。基于邊緣的方法利用了圖像中的文本與背景之間有較高對比度這一特性來進行定位。Chen Datong等人[4]利用Canny算法提取圖像邊緣,并用形態學膨脹的方法將邊緣連接成塊,再利用基線定位完成文本行檢測,但時間復雜度較高,當背景邊緣較為復雜時,這類算法處理起來較為困難。基于紋理的方法利用文本具有的較強的紋理特征來區分背景,Mao Wenge等人[5]利用小波變換檢測圖像紋理,再通過圖像的紋理分析定位出文本。該方法通常具有較高的魯棒性,但計算量大,復雜度較高,且文本定位不是很精確。

本文在總結上述算法特點的基礎上,提出了一種基于梯度差的文本行檢測算法,該算法利用了文檔圖像文本行特征,在水平方向上進行梯度差計算,然后進行文本行區域的合并和非文本區域的過濾,減少了文字粗細和圖像分辨率的干擾,提高了檢測的速度和精度。

1 文本行特點分析

文檔圖像文本行的特殊性主要表現在以下幾個方面:

(1)大部分的文字邊緣均突出,可以利用邊緣信息進行文本檢測,尤其是中文在水平和垂直方向上邊緣均比較突出。邊緣與梯度之間存在很大的關聯,梯度的方向在數學中表示為某函數變化率最大的方向,在文檔圖像中梯度往往反映了圖像邊緣清晰度[6],對于梯度較大的區域可表示為可能的文本區域。

(2)對于印刷體文檔圖像中的文本,同一行中文字的字符間距相同,間距與字符之間滿足一定的比例關系,如字符間距大于字符寬度的1/5而小于字符寬度的兩倍。在進行文本區擴展不同的字符區域使之成為一個有效的文本塊時,非文本區域往往不具備該特征。對于手寫體文檔圖像,字符間距不同,比印刷體文檔圖像復雜,但可以利用文本區域擴展特征進行文本行檢測。

(3)文本行具有直線特征,有很強的方向性,可根據該特征進行文本行標記與定位,此外該特征還可用于傾斜校正和版面分析等。

文本梯度的信息不同于非文本區域的梯度,主要是由于一般文字和背景之間有很高的對比度。由于正負梯度值之差在文字區域較大,因此,本文利用梯度差方法進行文本行檢測。

2 文本行檢測算法

文本行檢測算法沒有進行文檔圖像的預處理過程,一定程度上減少了檢測時間,如果輸入的圖像為真彩圖像,首先進行灰度轉化[7],這比單獨對彩色圖像的每個通道進行處理效率要高。

2.1 最大梯度差計算

字符圖像往往具有較強的邊緣信息,在字符邊緣地帶,相鄰像素的灰度值變化劇烈,對應梯度幅度值較大。此外,文字行區域具有直線特點。因此,本文根據字符圖像的特殊性,采用水平梯度差進行文本行區域的合并。其算法如下:

①對輸入的文檔圖像I(x,y),利用濾波掩模[-1 0 1]進行卷積運算,得到梯度圖像G,計算公式如下:

其中,I(x,y)為文檔圖像中的像素值。

②在一個大小為1×w的局部窗口內找出最大和最小梯度,二者的差值即為最大梯度差MGD。計算公式如下:

③根據梯度圖像的像素平均值計算梯度圖像的閾值T:

其中count為梯度圖像中大于平均梯度像素值的統計個數,m×n為梯度圖像G的大小。

④在局部窗口w中通過比較MGD(x,y)和自適應閾值T的大小,得到二值化后的最大梯度差圖像BMGD,其中的每個像素值按照以下方法進行分類:

2.2 文本行塊標記

通常情況下,文檔圖像中的字符會存在字符高低不平的情況,為獲取較為規則的文本行塊,需進行消除字符階躍的跳變。本文利用非文本過濾的基本思想,判斷一個可能的文本區像素點兩邊是否滿足非文本過濾的要求。主要方法是設定局部窗口,然后沿水平方向滑動,判斷窗口內的像素是否全部為黑色像素(像素值為0),若滿足,則停止計算,認為該區域為文本行區域,否則將窗口的像素值置為1。通過文本行定位可有效地消除字符間高低不平的情況,根據實際應用的需要,可再次進行非文本區域過濾操作,圖1所示為輸入的英文手寫體文檔圖像,圖2所示為文本行經過非文本區域過濾后得到的文本行檢測效果。

3 實驗結果及分析

選擇若干幅尺寸相同但字體不一的純文字文檔圖像進行實驗,實驗環境為Windows XP操作系統,Pentium(R)1.7 G CPU,512 MB內存,用Matlab7.0仿真實現了文檔圖像的文本行檢測。

經實驗得到的閾值為77.5,為方便起見,本文選取80作為梯度圖像的文本行檢測閾值。在不同的局部窗口下對圖1進行文本行檢測,結果如圖3所示。當局部窗口 w取 13時,行內會存在斷點;當 w取 19時,看到行與行之間會有融合,二者效果都不理想;在w取得15時,效果較好。

將本文算法和投影檢測算法[8]分別作用于印刷體文檔圖像中的某一圖像(如圖4所示),圖5所示為利用水平梯度差得到的文本行檢測效果,圖6所示為利用投影算法得到的文本行檢測效果。

采用本文算法、投影檢測算法分別對10、20、30幅圖像分別進行實驗,結果如表1所示。

表1 本文算法與投影算法的平均檢測時間對比

通過實驗結果可以看出,在進行文本行檢測時,對于行間距較小的文檔圖像,利用投影算法進行文本行檢測時,行間距較小的文本行之間可能會發生融合,這樣檢測的正確率就會下降。本文算法通過最大梯度差和文本行標記算法可有效完成文本行的檢測,且檢測的平均時間短,因此具有較好的魯棒性。

使用本算法對傾斜的文檔圖像(如圖7所示)進行文本行檢測,圖8所示為文本行檢測的結果。從圖8可以看出,對傾斜的文檔圖像進行文本行檢測時,會造成文本行融合現象,從而降低了檢測正確率,這是本文算法的不足之處,需要進一步改進,以提高對傾斜文檔圖像的文本行檢測正確率。

本文分析了文檔圖像的文本行特點,提出了一種基于梯度差的文檔圖像文本行檢測算法,該算法計算簡單、復雜度低。實驗結果表明,該算法可以對印刷體以及手寫體文檔圖像進行快速的文本行檢測。本文算法也存在著不足,即在處理傾斜的文檔圖像時效果不佳,有待進一步改進。文本行檢測算法可以為進一步進行文檔圖像的版面分析,深入進行文檔圖像檢索、圖文分割等奠定良好的基礎。

[1]晉瑾,平西建,張濤.圖像中的文本定位技術研究綜述[J].計算機應用研究,2007,24(6):8-11.

[2]范玉鳳.基于投影自適應算法的中文版面分析方法研究[J].光盤技術,2009(1):19-20.

[3]吳濤,賀漢根.一種快速的文本傾斜檢測方法[J].計算機工程與應用,2002:113-115.

[4]Chen Datong,SHEARER K,BOURLARD H.Text enhancement with asymmetric filter for video OCR[C].International Conference on Image Analysis and Processing,2001:192-197.

[5]Mao Wenge,Chung Fulai,LANM K,et al.Hybrid chinese/English text detection in images and vedio frames[C].International Conference on Pattern Recognition,2002:1015-1018.

[6]張弘.數字圖像處理[M].北京:機械工業出版社,2007:115-118.

[7]JAE H K,TAE T P,YANG H C,et al.Photo-text segmentation in complex color document[C].The 5th Japan-Korean Joint Symposium on Imaging Materials and Technologies,Kyoto, Japan,2004:44-47.

[8]Gao Feng,Zheng Nanning,Song Yonghong.Document images retrieval based on multiple features combination[C].IEEE ICDAR,2007.

猜你喜歡
文本區域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應用
關于四色猜想
分區域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 欧美三級片黃色三級片黃色1| 亚洲欧美一级一级a| 久草网视频在线| 日韩在线观看网站| 第一页亚洲| 欧美精品亚洲精品日韩专区va| 久久久精品国产亚洲AV日韩| 国产精品xxx| 91免费国产在线观看尤物| 2020亚洲精品无码| 99热这里只有精品国产99| 国产美女视频黄a视频全免费网站| 亚洲成A人V欧美综合天堂| 一级香蕉视频在线观看| 欧美成人综合在线| 热九九精品| 国产乱子精品一区二区在线观看| 日本一区二区三区精品国产| 国产另类视频| 欧美三级自拍| 成人夜夜嗨| 伊人久久大香线蕉影院| 无码专区国产精品第一页| 国产精品香蕉在线观看不卡| 无遮挡一级毛片呦女视频| 91年精品国产福利线观看久久| 中文字幕1区2区| 成人国产免费| 久久精品嫩草研究院| 四虎影视8848永久精品| 又粗又硬又大又爽免费视频播放| 国内精自视频品线一二区| 亚洲二三区| 欧美精品H在线播放| 亚洲va在线∨a天堂va欧美va| 露脸一二三区国语对白| 成年人国产视频| 国产精品2| 国产精品无码翘臀在线看纯欲| 奇米精品一区二区三区在线观看| 成人午夜天| 国产成人精品一区二区三在线观看| 久久亚洲高清国产| 亚洲欧美日韩视频一区| 国产日产欧美精品| 成·人免费午夜无码视频在线观看| 国产人前露出系列视频| 最新国产成人剧情在线播放 | 成人伊人色一区二区三区| 久久香蕉国产线看精品| 伊人久久福利中文字幕| 青草精品视频| 亚洲A∨无码精品午夜在线观看| 亚洲中文字幕久久无码精品A| 国产91蝌蚪窝| 日韩中文精品亚洲第三区| 国产黄网站在线观看| 国产成人调教在线视频| 呦女亚洲一区精品| 四虎成人在线视频| 国产在线拍偷自揄观看视频网站| 色综合久久88| 无码人妻免费| 国产精品一区在线观看你懂的| 色综合天天视频在线观看| 午夜精品久久久久久久99热下载 | 亚洲欧美另类日本| 午夜电影在线观看国产1区| 中文字幕在线看| 丝袜国产一区| 国产国语一级毛片| 国产成人成人一区二区| 午夜不卡视频| 亚洲一级毛片在线观| 精品福利视频网| 蜜桃臀无码内射一区二区三区 | 国产精品流白浆在线观看| 99久久精品国产自免费| 成人va亚洲va欧美天堂| 超碰91免费人妻| vvvv98国产成人综合青青| 国内丰满少妇猛烈精品播|