999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種中文文檔圖像中檢索方法研究

2009-04-29 00:00:00韓曉琴
電腦知識與技術 2009年26期

摘要:如何對急速增長的文檔圖像進行有效檢索是文檔圖像管理系統的關鍵技術之一。提出了一種不需要識別文字的檢索中文文檔圖像的方法,該方法在字符分割基礎上采用基于粗外圍特征粗匹配和基于改進Hausdorff距離相似度測量的兩級匹配方法,以適應于時間、準確性的不同要求。同時用對200幅文檔圖像樣本進行了實驗,其結果表明,使用該方法對檢索印刷體漢字的文檔圖像具有較高的檢索效果,對于數字圖書館中文檔圖像檢索系統的設計,有一定的參考價值。

關鍵詞:中文文檔圖像;字符切分;粗外圍特征;Hausdorff距離

中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2009)26-7485-02

A Study on Chinese Document Images Retrieval

HAN Xiao-qin

(The College of Education Science, Luoyang Normal University, Luoyang 471022, China)

Abstract: How to search for desired information from increasing imaged documents effectively, is one of the key technologies of the imaged documents management system. An approach to searching for words in Chinese document images without character recognition is proposed in this paper. This method, on the basis of character segmentation, has two matching procedures, coarse periphery feature matching and character image similarity matching based on modified Hausdorff Distance. For 200 samples of imaged document,experimental results show that the present method have high retrieval results.

Key wors: chinese document images; character segmentation; coarse periphery feature; hausdorff distance

目前,大量的文檔資料以數字圖像的形式保存。這些文檔圖像數量巨大,并以驚人的速度增長,如何快速的從這些文檔中檢索信息是一個重要的研究課題。通過OCR(Optical Character Recognition)系統能夠將文檔圖像中的文字部分轉化為文本數據,但OCR在實際應用中,尤其是對中文的識別還有較大的限制[1]。基于內容的文檔圖像檢索 (Content-based Document Image Retrieva1, DIR) [2],是一種不使用OCR(Optical Character Recognition)直接利用圖像特征進行檢索的技術。這種方法是通過對字符圖像的檢索,能夠快速的從大量文檔圖像中檢索到相應的內容,而不需要使用OCR系統對所有的文檔進行轉化,它可以作為OCR系統的有效補充。很多學者在中文文檔圖像檢索方面做了一些研究[3-6]。本文提出了一個使用關鍵詞對印刷體中文文檔圖像搜索的方法,該方法在字符分割基礎上采用基于粗外圍特征和基于改進Hasdorff距離的兩級匹配方法,具有較高的檢索效率。

1 中文字符切分

目前我國的出版物一般以橫排版本為主。橫排版的文字是從左向右按行編排,然后再從上往下逐行排列。本文主要針對這種版本的文檔,使用投影分量方法進行字符切分。為了消除文檔傾斜和噪音對字符切分的影響,在切分之前對文檔圖像進行傾斜校正和中值濾波。字符切分包含兩個步驟:行切分,列切分。

1.1 行切分

行切分采用水平投影法分割行,設大小為N×M的字符的二值圖像為f(i,j),則定義在i行上的投影公式為其中,j=1,2,…,N.H(i),反映了字符圖像按行累計分布情況。分析H(i)的分布規律,圖像的水平投影為零的區域對應了文字行間空白間隔,從而獲得了文本的行數及其分布。應為文檔圖像行與行之間有明顯的間隙,所以這個階段效率比較高。

1.2 列切分

將行切分后得到的圖像行采用垂直投影進行切分。垂直投影式為:

其中,i=1,2,…,N。和行切分一樣,投影為零的區域對應了文字之間的空白間隔。

但是,漢字中有相當數量的左右兩部分構成的二分字和由左中右三部分構成的三分字。這些字的圖像垂直投影在一個單字內部也會出現空白間隙,而且較低的印刷質量可能會存在少量字符間的粘連[8],很容易造成誤分。所以在切分后需要對分割區域進行二次切分和合并。

設第 段字符圖像的寬度為W(i),該字符的平均高度為H。如果W(i)>?鄣H,則說明第 段字符圖像為粘連搭接字符段,需要進行切分。分別從該字符圖像的左邊界到右邊界和從右邊界到左邊界查找可能的切分結果,把置信度最好的結果確定為切分位置。將所有字符圖像切分完畢后,根據字符的平均高度,切分后的字符圖像寬度和空白間隙確定需要合并的區域。

2 字符圖像匹配

切分后得到單個字符圖像,首先要進行歸一化處理。為了在切分后的字符圖像中找到指定的字符,需要對每一個字符建立一個標準大小的模板圖像,在查找過程中,將模板圖像同分割后的字符圖像逐一進行相似度比較。為了進一步提高識別速度,本文采用了兩級匹配方法。第一階段是基于粗外圍特征[9]的粗匹配,該過程簡單高效,但是不足以區分相似的文字。第二階段選用改進的Hausdorff距離來匹配候選圖像和模板圖像。

2.1 粗匹配

在粗匹配階段,首先提取字符圖像的粗外圍特征,然后計算兩個圖像間的相似度。粗外圍特征的提取過程是:從字符圖像的上下左右四個邊緣,分別發射N條掃描射線,掃描射線遇到漢字像素為止(如圖1所示)。設這4N條線段的長度分別為li(l≤i≤4/N)則粗外圍特征向量可以表示為:fi=(li,l2i,…,l4Ni)。用特征向量間的距離來判別相似度,距離公式為:

為了簡化計算這里選用Minkowsky距離,即q=1。

2.2 基于改進Hausdorff距離的字符圖像匹配

Hausdorff距離是描述兩組點集之間相似程度的一種量度,是匹配點特征的一種方法,它不需要建立點之間的一一對應關系,只是計算兩個點集之間的相似程度,所以可以有效地處理很多特征點的情況。Hausdorff距離被廣泛的應用于二維圖像匹配,尤其是目標物體識別和運動物體的跟蹤監測等。

設兩組點集X和Y,則在這兩個點集上的Hausdorff距離定義為:

H(X,Y)=max{h(X,Y),h(Y,X)}(4)

考慮到傳統的Hausdorff距離容易受到噪聲的干擾并且效率不高。為了提高魯棒性, 研究人員提出了許多改進算法[5,10-12],如PHD(partial Hausdorff distance),MHD(Modified Hausdorff Distance),LTS-HD(Least Trimmed Square Hausdorff Distance)和WHD(Weighted Hausdorff Distance)等。本文根據漢字圖像的特征,提出了一種改進的加權Hausdorff距離。經過粗匹配得到的候選漢字圖像同模板圖像外圍輪廓相似,所以將漢字圖像分為內外兩個區域(如圖2所示),并分別給這兩個區域的設置不同的權值。改進的Hausdorff距離的單向距離公式為:

圖2中不同區域權值設置為W(C)=3W(P)。

3 試驗結果和結論

為了驗證本文提出的檢索算法的正確性,選取了200多幅文檔圖像,每幅圖像包含大約800個印刷體漢字,并且包含不同字體和不同字號。根據文檔的內容選取了50個長度為2-6的關鍵詞對文檔進行檢索。實驗表明該方法的平均準確率能夠達到96.17%,檢索一幅文檔圖像所花費的平均時間是0.0303秒。

本文提出的在中文圖像文檔中搜索指定關鍵詞的方法,不需要對文檔排版格式分析和識別整個文檔圖像,實驗結果較好。但對于復雜排版的文檔,如橫豎混排并且帶有藝術型字體的情況,效果較差,而且計算Hausdorff距離的計算量較大,這些都需要進一步的研究。

參考文獻:

[1] Chang F,Retrieving Information from Document Images: Problem and Solutions[J].International Journal on Document Analysis and Recognition,2001,4(1):46-55.

[2] Tan C I,Huang W,Yu Z,et al.Imaged Document Text Retrieval without OCR[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(6): 838-844.

[3] Andreev,Andrey and Kirov,Nikolay.Text Search in Document Images Based on Hausdorff Distance Measures[C].Gabrovo,Bulgaria:Proceedings of the 9th International Conference on Computer Systems and Technologies and Workshop for PhD Students in Computing,2008(1):1-6.

[4] Wang C L,Cher T,ChanY K,et al.Chinese Document Image Retrieval System Based on Proportion of Black Pixel Area in a Character Image[C].Taipei,Taiwan:Proceedings of the 6th International Conference on Advanced Communication Technology,2004(1):25-29.

[5] Lu Y,Tan C L.Chinese Word Searching In Imaged Documents[J].International Journal of Pattern Recognition and Artificial Intelligence,2004,18(2): 229-246.

[6] 黃祥林,高蕓,楊麗芳,等.一種基于關鍵詞的中文文檔圖像檢索方法[J].中文信息學報,2007,21(4):61-64.

[7] Congedo G,DimauroG,ImpedovoS,et al.Segmentation of Numeric Strings[C].Washington,DC:Proceedings of the Third International Conference on Document Analysis and Recognition,1995(2):1038-1041.

[8] 魏湘輝,馬少平.粘連字符切分綜述[J].計算機科學,2004,31(11):199-201.

[9] 馬永成,肖詩斌,林春雨,等.基于內容的文檔圖像檢索的特征抽取研究[J].江西師范大學學報:自然科學版,2008,32(2):138-141.

[10] Huttenlocher D P,Klanderman G A,Rucklidge W J.Comparing Images Using the Hausdorff Distance[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1993,15(9):850-863.

[11] Dubuisson M P,Jain A.A Modied Hausdorff Distance for Object Matching[A].In: Proceedings ofthe 12th International Conference Pattern Recognition[C].Jerusalem,Israel,1994(1):566-568.

[12] Sim D G,Kwon O K,Park R H.Object Matching Algorithms Using Robust Hausdorff Distance Measures[J].IEEE Transactions on Image Processing,1999,8(3):425-429.

主站蜘蛛池模板: 欧美亚洲国产日韩电影在线| 日韩精品欧美国产在线| 一级做a爰片久久毛片毛片| 亚洲国产精品一区二区第一页免| av在线人妻熟妇| 亚洲成a∧人片在线观看无码| 亚洲精品国产日韩无码AV永久免费网| 久久综合九九亚洲一区| AⅤ色综合久久天堂AV色综合| 四虎精品国产AV二区| 中文字幕在线播放不卡| 第一区免费在线观看| 欧美亚洲综合免费精品高清在线观看| 国产理论最新国产精品视频| 欧美在线网| 99九九成人免费视频精品| 国产91在线|日本| 欧美视频在线观看第一页| 国产嫖妓91东北老熟女久久一| 国产中文一区a级毛片视频| 思思热在线视频精品| 思思热精品在线8| 四虎国产永久在线观看| 久久综合伊人 六十路| 久久人人爽人人爽人人片aV东京热| 欧美97欧美综合色伦图| 国产主播一区二区三区| 综合天天色| 国产在线观看一区二区三区| 亚洲AV无码一二区三区在线播放| 国产黄在线免费观看| 中文字幕在线日本| 亚洲国产午夜精华无码福利| 亚洲综合一区国产精品| 婷婷激情亚洲| 最新亚洲人成网站在线观看| 亚洲三级影院| 四虎国产精品永久在线网址| 国产精品30p| 国产亚洲成AⅤ人片在线观看| 尤物精品国产福利网站| 强乱中文字幕在线播放不卡| 欧美午夜视频| 人人艹人人爽| 18禁高潮出水呻吟娇喘蜜芽| 精品一区二区无码av| 国产免费人成视频网| 韩日免费小视频| 丰满人妻一区二区三区视频| 丁香婷婷综合激情| 日本少妇又色又爽又高潮| 3344在线观看无码| 无码 在线 在线| 人妻中文字幕无码久久一区| 国产区精品高清在线观看| 国产精品成人观看视频国产| 久久黄色视频影| 日本午夜视频在线观看| 91丝袜乱伦| 国产精品无码一区二区桃花视频| 亚洲综合香蕉| 欧美一级在线播放| 亚洲成肉网| 亚洲伊人天堂| 欧美在线黄| 香蕉视频在线观看www| 免费在线成人网| 国产乱人伦偷精品视频AAA| 91小视频在线观看| 在线精品亚洲国产| 欧美三级视频在线播放| 99无码中文字幕视频| 国产对白刺激真实精品91| 国产激爽大片高清在线观看| 91成人在线观看| a欧美在线| 超碰色了色| 亚洲高清无码久久久| 日韩在线视频网| 国产噜噜噜| 色偷偷综合网| 欧美区一区|