999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于投影輪廓分析的文本圖像版面分割算法研究

2017-05-17 13:14:31王莉麗陳曄劉玲
數(shù)字技術(shù)與應用 2017年3期

王莉麗++陳曄++劉玲

摘要:本文提出了一種新的基于投影輪廓分析的版面有效分類;隨后詳細介紹了該方法的實現(xiàn)技術(shù)流程,給出了該方法進行版面分析所依據(jù)7個特征的含義及作用。實驗結(jié)果表明:提出的新方法,能夠?qū)碗s版面文本圖像進行有效的版面分割及區(qū)域類型分類,并能夠準確的識別如頁眉這樣的特殊區(qū)域,版面分析結(jié)果準確。

關(guān)鍵詞:文本圖像處理;版面分割;投影法

中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2017)03-0164-02

目前,信息采集的多樣化,已嚴重威脅到了信息存儲的安全性。僅用一部手機,就可獲取與泄露重要的信息。對文本數(shù)據(jù)信息安全性的擔憂,促使了紙質(zhì)文本圖像信息隱藏與提取方法的提出。這類方法的核心在于將安全標識信息,以特有的方式嵌入到文本圖像的文本區(qū)域中,這樣,如果發(fā)生信息泄露或者要找尋到泄露源,就可以通過分析文本區(qū)域中包含的安全標識信息,反向追蹤,查出泄漏源,或者通過安全標識信息,回收被泄露出去的信息。對于簡單的、只包含文本信息的文本圖像,目前的處理技術(shù)已比較成熟,能夠比較準確的將版面信息進行有效的分析,但是對于包含文本、圖形和圖像區(qū)域的復雜版面文本圖像,當前的處理技術(shù)尚不成熟,需要進一步提高。本文聚焦于復雜文本圖像分割方法研究。

版面分割的方法,大體上可以分為兩大類:層次式和非層次式的。層次式分割算法,主要有自頂向下和自底向上兩種算法。非層次式算法則主要是利用復雜的圖形圖像處理技術(shù),根據(jù)其圖像特征,對文本圖像進行版面分割[1-4]。層次式方法中,游程平滑RLS(Run-length Smoothing)算法和投影輪廓切分PPC(Projection Profile Cut)算法是兩種有代表性且應用較廣泛的算法。而基于紋理分析的版面分析算法,則是將版面分析和版面區(qū)域類型識別結(jié)合實現(xiàn)的一種算法。但上述方法時間消耗較大,為此本文提出了一種簡單有效的分割方法。

1 提出的分類算法

首先,讀入待分類文本圖像,并對其格式轉(zhuǎn)換,確保圖像數(shù)據(jù)完整性,以防止丟失圖像數(shù)據(jù);然后進行有效區(qū)域提取,剔除四周的空白無效區(qū)域,得到有效信息區(qū)。在此基礎上,對有效信息區(qū)進行二維坐標下的行投影,確定并統(tǒng)計、提取特征值,再根據(jù)統(tǒng)計得來的特征值,進行孤立行分析,并依據(jù)判定的孤立行,對文本圖像進行區(qū)域的粗分割,得到版面分析的粗分割結(jié)果。在上述過程中,可根據(jù)投影結(jié)果以及統(tǒng)計的特征值,完成對純文本區(qū)域、純圖像區(qū)域的分割工作。需要指出的是,本文著眼于復雜文本圖像,為此還須對區(qū)域粗分割得到的各個子區(qū)域,進行二維坐標下的列投影,再根據(jù)投影結(jié)果,判定子區(qū)域中是否存在分欄版面。完成以上步驟后,原本復雜的文本圖像版面就被分割為了多個簡單版面的文本圖像區(qū),在此基礎上,再進行行、列投影,根據(jù)所得特征值分析與分類,區(qū)分出文本區(qū)、圖像區(qū)和圖形圖表區(qū)域,完成分割任務。具體流程見圖1。

本文采用特征7個特征統(tǒng)計分析文本圖像,各特征分別為:(1)行高,記錄投影行高度的值。本文對行進行投影,依據(jù)投影結(jié)果,計算二值化投影平均值發(fā)生改變的臨界點值,在臨界點值作運算,獲得行高值。 我們對各行高度值進行平均運算,在分別與各行高度作對比,進而初步確定異常區(qū)域;(2)行間距,行與行之間的間隔距離。此間距,由投影結(jié)果而得的下標值計算求得。在文本圖像中,行間距發(fā)生明顯變化的部分,往往為段落或者區(qū)域塊之間的分割標識,此處計算行間距,作為段落區(qū)分和區(qū)域塊區(qū)分的一個標識;(3)縮進率,文本與頁面邊界之間的距離。依據(jù)每一行的列投影結(jié)果,計算邊界至文本的距離占左右邊界之間距離的比率,求得縮進率。在文本圖像中,標題不同于其它文本行,往往存在較大縮進,或左縮進,或右縮進,或左右都有,為此可結(jié)合行高,完成對標題的判定。此外,段落中往往有首行縮進,段尾也常因字符無法填滿文本行而存在縮進,因此也可根據(jù)縮進率,判定段落區(qū)域;(4)行外接矩形填充率,在縮進的行區(qū)域塊中,有效信息區(qū)域占整個區(qū)域塊的比率。依據(jù)每一行的列投影結(jié)果值計算填充率。主要用來判斷一些特殊的文本行,如頁眉的判斷;(5)最大跳變位置,對文本行進行列投影時,坐標軸所示下標發(fā)生最大變化的區(qū)域位置。根據(jù)該特征,如果連續(xù)多行在相同位置都發(fā)生最大跳變,且跳變區(qū)內(nèi)像素點平均值為1,則可以判定在該位置處存在分欄,此外,還可以根據(jù)最大跳變,判定是否存在異常區(qū)域;(6)行內(nèi)信號跳變周期(頻率),對文本行進行列投影后,坐標軸上投影下標值發(fā)生周期性變化的周期或者頻率。根據(jù)此特征,可用來判定是否存在異常區(qū)域;(7)對齊方式,該特征用來衡量文本圖像中內(nèi)容距離左右邊界的距離,具體有居中,左對齊和右對齊三種方式,可用來輔助計算縮進率,進而分割區(qū)域塊。分割結(jié)果舉例見圖2。

2 結(jié)語

文本圖像版面分析是對文本圖像處理的關(guān)鍵環(huán)節(jié)。針對上述問題,本文以文本圖像二維坐標下行列投影結(jié)果為基礎,提取并分析相關(guān)特征,提出了一種新的基于投影輪廓分析的版面有效分類方法。該方法通過對特征的綜合運算與分析完成復雜版面文本圖像的分析工作。驗證了方法的有效性及準確性。

參考文獻

[1]Kise K, Sato A, Iwata M. Segmentation of page images using the area Voronoi diagram[J]. Computer Vision Image Understanding,1998,70(3): 370-382.(8-4).

[2]楊洋,平西建.復雜版面的文本圖像圖文分割算法[J].微計算機信息,2006,22(5):66-225.

[3]劉仁金,高遠飆,郝祥根.文本圖像頁面分割算法研究[J].中國科學技術(shù)大學學報,2010,40(5):500-504.

[4]Fletcher L A, Kasturi R A. A robust algorithm for text string separation from mixed text/graphic images[J]. IEEE Trans On Pattern Recognition and Machine Intelligence, 1998,10(6): 910~918.(9-5).

主站蜘蛛池模板: 欧美日韩第三页| 国产精品白浆在线播放| 色悠久久久| 国产亚洲精品在天天在线麻豆 | 爆乳熟妇一区二区三区| 成人va亚洲va欧美天堂| 免费在线a视频| 婷婷开心中文字幕| 欧美国产成人在线| 欧美精品另类| 国产精品综合色区在线观看| 日本欧美成人免费| 亚洲欧美成aⅴ人在线观看| 国产无遮挡裸体免费视频| 国产打屁股免费区网站| 日韩在线1| 欧美在线天堂| 国产一区二区免费播放| 欧美三级自拍| 免费一级毛片在线播放傲雪网| 毛片手机在线看| 亚洲精品免费网站| AV老司机AV天堂| av色爱 天堂网| 国产精品浪潮Av| 久久a级片| 免费人成视网站在线不卡| 内射人妻无码色AV天堂| 国产成人成人一区二区| 精品国产99久久| 日本人又色又爽的视频| 26uuu国产精品视频| 亚洲欧美日韩精品专区| 亚洲国产精品成人久久综合影院| 亚洲日本中文字幕天堂网| 99精品伊人久久久大香线蕉| 亚洲天堂视频在线免费观看| 亚洲国产综合精品一区| 日本人妻丰满熟妇区| 国产日韩欧美成人| 综合天天色| 99热这里只有精品免费| 日韩a在线观看免费观看| 人妻无码中文字幕一区二区三区| 久久这里只有精品66| 高清欧美性猛交XXXX黑人猛交| 日韩av在线直播| 久久精品66| 专干老肥熟女视频网站| 四虎免费视频网站| 国产区人妖精品人妖精品视频| 国产最新无码专区在线| 毛片免费视频| 麻豆AV网站免费进入| 亚洲综合第一区| 欧美日韩国产成人在线观看| 国产www网站| 日a本亚洲中文在线观看| 亚洲精品黄| 亚洲美女一区| 国产喷水视频| 国产日本欧美在线观看| 亚洲热线99精品视频| 69综合网| 四虎在线高清无码| 国产偷国产偷在线高清| 九九久久99精品| 国产一级毛片网站| 日本不卡在线视频| 日本午夜三级| 在线免费看片a| 最新国产高清在线| 成人无码区免费视频网站蜜臀| 欧美日韩导航| 欧美成人精品高清在线下载| 国产福利小视频在线播放观看| 九九线精品视频在线观看| 91外围女在线观看| 在线一级毛片| 欧美精品在线视频观看| 欧美啪啪视频免码| 欧美国产日韩在线播放|