999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然場景下中文文本定位關鍵技術的研究

2018-07-25 11:22:46王曉華
計算機應用與軟件 2018年7期
關鍵詞:文本區域

萬 燕 王曉華 盧 達

(東華大學計算機科學與技術學院 上海 201620)

0 引 言

隨著移動終端和多媒體技術的飛速發展,各種新型的應用場景中將會用到圖像中的文本信息,而文字能夠幫助人們更有效地理解場景圖像的高層語義信息。利用計算機技術自動地提取場景圖像中的文字信息是計算機視覺和模式識別領域重要的研究內容。

在現有的研究中,自然場景文本定位的方法主要可歸為兩類[1]。一是基于滑動窗口的方法[2-3]。該方法主要利用多尺度滑動窗口和紋理,將邊緣梯度和直方圖等特征相結合,然后利用機器學習等方法設計分類器來識別文字窗口和非文字窗口。該方法的時間復雜度高,計算速度也很慢。二是基于連通區域的方法[4,6-11]。該方法是把具有相似屬性(顏色、亮度、筆畫寬度等)的像素點聚合起來提取候選文字,然后合并候選文字,從而完成文本區域的定位。近年來,基于連通區域的文本定位方法最典型是基于MSER[5]和基于SWT[6](Stroke Width Transform)的方法。基于MSER的文本定位方法是使用MSER算法提取出候選文字區域,該方法對圖像的旋轉、仿射變換具有魯棒性,并且快速、穩定。2010年,Neumann等[7]將MSER算法應用于自然場景文本定位。Ye等[8]對場景圖像多通道提取MSER,然后利用紋理特征和文本之間的特征相結合對候選文本進行合并、分類,得到文本檢測結果。Yin等[9]利用剪枝算法去除檢測到的重復區域,然后利用單聚鏈算法將單個候選字符合并成文本行,并對文本行進行分類,得到最終定位結果。Epshtein 等[10]提出了基于筆畫寬度變換SWT的文本檢測算法,將具有相同筆畫寬度的像素點聚合在一起生成連通區域,再根據文字的結構特征濾除掉非文本區域,得到檢測結果。Yao[11]基于筆畫寬度變換算法,并在此基礎上提出多方向文本聚鏈的方法,最終可以定位任意方向的文本。該方法獲得了良好的效果。

以上方法是針對自然場景圖像的英文字符定位提出的。而漢字一般包含多個連通區域,并且漢字的結構復雜,直接使用以上算法對中文文本定位往往存在定位錯誤和漏檢的問題。基于此,本文根據漢字的結構特點,提出一種中文文本定位算法。該方法利用形態學運算連接漢字分離的筆畫,解決了一個漢字對應多個連通區域的問題;再結合漢字的結構特點,加入提取漢字的結構特征這一處理技術,提高了漢字定位的精確性;之后對SWT算法進行改進,在提取出的候選文本圖像塊內做筆畫寬度變換,有效減少了文字筆畫粘連的問題。實驗結果表明,本文算法能有效提高自然場景圖像中文文本定位的準確率和召回率。

1 中文文本定位算法

1.1 設計思想

本文算法主要根據漢字的結構特點提出的。其主要算法思想:首先采用基于MSER的方法提取候選文本區域,實現快速定位。對于漢字由多個連通區域構成的情況,把原圖像歸一化后使用形態學膨脹和閉運算來連接漢字分離的筆畫,再提取漢字的結構特征并結合啟發式規則過濾明顯不是文字的區域,實現初步定位;然后,改進SWT算法,在初步定位提取出的候選圖像塊內作筆畫寬度變換并加入自適應的判斷方法,根據漢字的筆畫特征實現漢字精確定位。

本文算法的總體流程如圖1所示,主要包含三部分:文字初步定位、文字精確定位以及構建文本行。其中,文字初步定位主要是利用MSER算法、形態學運算和連通域分析得到候選的文字區域;文字精確定位通過候選文字區域的筆畫寬度特征進一步確定文字區域;利用候選文字區域的顏色信息和幾何位置關系構建文本行并對合并后的文本行進行驗證,從而得到最終的文本區域。

1.2 候選文本區域定位

提取候選文本區域的目的就是對輸入的原自然場景圖像進行快速定位,將可能是文本區域提取出來,再進行下一步的過濾非文本區域,這樣不僅能減少精細定位的復雜度,還能提高運算的速度。

(1) 提取MSER

MSER算法是一種圖像特征區域提取算法,有較強的仿射、旋轉不變性,在文字檢測領域取得了良好效果。MSER算法是對一幅灰度圖像做二值化處理,二值化閾值取[0, 255],在閾值的變化過程中,有些區域的面積隨著閾值的上升變化很小,這種區域就叫最穩定極值區域(MSER),其嚴格的數學定義在文獻[12]中給出。由于自然場景圖像中的文本一般具有相同的顏色,并且與背景差別較大,而文字本身也是由連通區域組成,故本文采用基于MSER算法提取場景圖像中的候選文字區域。

如圖2所示的MSER處理效果可以看出,當圖像背景與文本字符顏色差異度較明顯時能取得較好的效果,但是當圖像的對比度較低時存在檢測不全的問題。因此,本文采用直方圖均衡化技術對原圖像進行預處理。

圖2 MSER檢測效果圖

(2) 形態學運算

漢字由各個筆畫構成,而各個筆畫之間往往相互分離,并非構成一個完整的連通區域,這是由漢字本身的結構屬性所決定的。這種現象不利于文字整體特征的提取。因此,我們把MSER檢測結果通過數學形態學運算,把文字的各個筆畫連接成一個完整的連通區域。

本文首先對采集到的自然場景圖像進行歸一化處理,歸一化后得到分辨率為950×840像素的圖像。然后,采用膨脹運算對圖像進行形態學操作,膨脹既保留了文本區域的完整性,又避免了后續文本區域標記時筆畫的丟失。最后,對膨脹后的圖像采用閉運算操作填充圖像內細小的空洞來連接斷開的鄰近區域,此時,檢測出來的單個漢字已成為一個完整的連通區域。其形態學處理效果如圖3所示,可見,“會”字由原來的兩個連通區域已經連接成一個完整的連通區域。

圖3 形態學運算效果圖

(3) 基于啟發式規則的候選文字區域過濾

經過MSER檢測和形態學運算后,將檢測到的連通區域作為候選文本區域,并基于其輪廓標記各個連通區域。由圖4可以看出,標記出的MSER包含大量的非文字區域。為了縮小精確定位的范圍,本文通過分析標記后的連通區域,主要使用候選連通區域的面積、高寬比、連通區域占整幅圖像的比例、區域占有率等規則過濾掉一些明顯不是文本的區域。比如面積太小的噪聲區域、細長條狀的電線桿和曲線狀的物體等。經過啟發式規則過濾后的效果如圖5所示。

圖4 連通區域標記

圖5 啟發式規則過濾

(4) 基于漢字特征的候選文本區域過濾

由圖5可以看出,經過啟發式規則過濾后的候選文本區域仍含有較多的非文本區域。眾所周知,漢字有著復雜的筆畫,一個漢字通常有點、橫、撇、豎、豎彎鉤等筆畫構成,同時這些筆畫相交相匯形成了很多交點,而角點是在漢字的兩個筆畫交匯處形成。相對于非文字區域,文本候選區域存在更多的角點。故本文選擇在候選文本區域內通過提取漢字的這一特征來進一步過濾掉非文本區域。

Shi等[13]提出的角點檢測算法是在圖像中尋找最大特征值的角點。該算法穩定較好,對旋轉和視角變化圖像具有良好的檢測效果,對圖像中紋理較復雜的區域能夠提取出更多的角點,并且角點可以作為漢字的有效特征區別于非文字區域。Shi-Tomasi算法是根據計算出的兩個特征值中較小的特征值是否大于閾值來判斷是否為強角點。為了更好地檢測出漢字的角點,本文通過設置最小特征值為0.01,小窗口尺寸為3,權重系數為0.04來提取漢字的結構特征。然后,計算候選文本區域內檢測出的角點個數和角點的外界矩形的信息來進一步過濾掉非文本區域,漢字特征提取步驟如下示。

(2) 對步驟(1) 中求得的矩陣用高斯平滑濾波器濾波得到矩陣M:

(1)

式中:w(x,y)為高斯濾波器。

(3) 根據矩陣M求得行列式的兩個特征值λ1、λ2。兩個特征值中的最小值與初始設定的最小閾值進行比較,大于初始值的點確定為強角點。

(4) 通過設定閾值,對檢測到的角點數目和角點間的距離進行約束,去除偽角點。

(5) 統計啟發式規則過濾后的候選文本區域中角點的數目,把不滿足式(2)的候選文本區域作為非文本區域過濾掉。

N角點>3

(2)

式中:N角點代表候選文本區域的角點數目。

(6) 計算候選文本區域角點的外接矩形的長、寬,并根據其與候選文本區域的長、寬之間的關系進一步過濾非文本區域。具體的條件如下:

w角點>0.5×w∩h角點>0.5×h

(3)

式中:w角點和h角點代表候選文本區域所有角點外接矩形的寬度和高度,h和w分別表示候選文本區域的高和寬。

通過上述流程,根據漢字特征能夠有效過濾掉一些非文本區域。圖6展示了漢字特征提取的二值化效果,其中大矩形框為候選文本區域,大矩形框內嵌套的小矩形框為文字角點的外接矩形。圖7展示了經過漢字特征過濾之后的效果。

圖6 文本候選區域漢字特征提取

圖7 文字特征過濾效果

1.3 基于改進的SWT算法的文本精確定位

經過初步定位,一部分非文本區域能夠有效地被過濾掉,但是在自然場景圖像中還存在一些像樹葉、雜草等非文本物體。通過分析可知,自然場景圖像中的文本區域一般具有相似的筆畫寬度,故本文在初步定位后的候選文本圖像塊內進行筆畫寬度變換,并通過文字的筆畫寬度的均值、方差等特征進一步過濾掉非文本區域,從而實現精確定位。

1) 筆畫寬度變換 Epshtein等[10]依據鄰近區域的文字通常具有大致相等的筆畫寬度,提出了筆畫寬度變換的概念,現已被很多學者應用于文本定位領域。筆畫寬度變換SWT是一種圖像局部描述算子,能很好地描述文本的特征,并且對非文字有良好的區分度。SWT算法是基于英文字符的檢測提出的,其主要思想是對整個圖像進行邊緣檢測。然后基于邊緣像素點進行筆畫寬度變換,即把圖像中的每一個像素點的像素值轉化為每個像素點的筆畫寬度值,然后把具有相似筆畫寬度的像素點進行聚合,進而使文本區域突出顯示。

該算法在英文字符檢測方面取得了突破性的進展。但是,漢字一般由多個連通區域構成,不能通過像素聚合的方法來檢測漢字。另外,SWT算法主要針對暗字亮底的圖像,若為亮字暗底的圖像,需要執行算法兩遍,故不能直接使用SWT算法。

基于以上問題,本文對SWT算法進行改進。首先,在初步定位后的候選文本圖像塊內進行筆畫寬度變換,從而有效地避免了因漢字筆畫不平行或者筆畫缺失導致無法形成有效的筆畫路徑,同時減小了計算的時間復雜度。然后,對于亮底暗字圖像或者暗底亮字圖像,本文提出了一種自適應的解決方案:先計算候選文本框邊緣上下各兩行的平均像素亮度值,再計算文本框中間四行的平均亮度值,比較兩者的大小。如果前者大于后者,則判定當前圖像為亮底暗字,否則是暗底亮字。最后,通過筆畫寬度變換后不是通過像素聚合,而是通過設置具有相似筆畫寬度像素的像素值得到筆畫寬度圖像,從而根據圖像塊筆畫寬度的均值、方差等特征進一步過濾掉非文本區域。

改進的SWT算法如下:初始條件設置圖像的每一個像素點的像素值為無窮大。

(1) 判斷初步定位提取出的候選圖像塊是亮底暗字圖像還是暗底亮字圖像。

(2) 對候選文本圖像塊進行 Canny邊緣檢測,取得邊緣圖像。

① 若無相匹配的q或者dp與dq的方向不滿足要求,則廢棄此路徑r=p+n·dp(n≥0),需另選取一個新的邊緣像素點并查找與之相匹配的像素點。

② 如果找到相匹配的像素點q,則對應于[p,q]這條路徑上的每個像素點的值將被賦值為像素點p、q之間的歐氏距離‖p-q‖,即筆畫寬度值,如果該點已被賦值且當前筆畫寬度值比之前的小,則取較小者作為該像素的筆畫寬度值。

(4) 重復上述步驟(2),算出該圖像上所有沒被廢棄掉的路徑上像素的筆畫寬度值。

(5) 計算每一條路徑上的所有像素的筆畫寬度的中值,如果該路徑上像素點的筆畫寬度值超過了中值,則對該像素點賦值為該路徑上筆畫寬度的中值,用于矯正拐角處像素的筆畫寬度值,算法結束。

圖8展示了SWT算法改進前的筆畫寬度圖, 圖9展示了改進的SWT算法提取的部分文本圖像塊和非文本圖像塊的筆畫寬度圖。由此可見,改進后只對候選文本區域內的圖像作筆畫寬度轉換,有效解決了筆畫粘連的問題。

圖8 原圖像筆畫寬度圖

圖9 候選圖像塊筆畫寬度圖

2) 筆畫寬度特征過濾 由圖9可以看出,文字區域的筆畫寬度比較均勻,并且文字像素點占整個文字圖像區域的比例適中,而非文字區域的筆畫寬度變化較大,并且還有部分圖像區域沒有形成有效的筆畫路徑。所以,本文選取候選文本圖像塊筆畫寬度的變化性、文字像素占空比等特征對非文字圖像區域進一步過濾。

首先,計算候選文本圖像塊內形成有效筆畫的均值、方差,根據均值與方差的關系,圖像塊內相鄰區域筆畫寬度的比值等特征過濾掉筆畫寬度變化較大的非文本區域。然后,通過計算圖像塊內文字像素點占圖像塊像素點的比值,進一步過濾掉非文本物體。經過實驗證明,此條規則可以過濾掉在初步定位階段無法過濾的樹葉、雜草等非文本物體,從而實現精確定位。其筆畫寬度特征過濾效果如圖10所示。

圖10 筆畫度特征過濾

1.4 文本區域合并

通過初步定位和精細定位,可以得到自然場景圖像的單個文字區域。但是,其定位結果中往往還會存在個別的漏檢文字和一些沒有濾除的非文本區域。文字定位的結果一般要求以文本行的形式存在,但是,自然場景圖像的文本不僅有水平方向,而且還有豎直方向和傾斜方向等多種形式存在。

針對以上問題,本文采用文獻[9]提出的任意方向文本行構建算法并結合漢字的特點合并文本區域。因此,首先是對精細定位之后的單個文字區域依照區域相關的位置信息和幾何信息兩兩配對,然后按照距離對配對后的區域排序。最后,用聚合算法合并文字區域。本文通過設置文字區域的高寬比、相鄰區域筆畫寬度均值之比、兩文本區域的中心距離及區域顏色相似性等規則進行配對。

配對后,首先按照兩區域中心點的距離進行從小到大排序,距離越小越優先合并成文本行。然后基于兩文本對有一端相同并且方向基本一致這一規則,把兩文本對合并構成文本鏈,并更新文本鏈的距離和方向。重復上述過程,直到沒有文本對可以合并為止。經過上述合并,可以把字符階段漏檢的文字通過構建文本行準確定位。另外,對于在單個文字定位階段未過濾掉的非文本區域,通過設置文本鏈中文字的個數進一步濾除,最終獲得較準確的文本定位效果,其效果如圖11所示。

圖11 最終定位結果

2 實驗結果及分析

由于ICDAR競賽提供的數據集主要是針對英文字符的定位,而本文主要研究自然場景圖像中文文本的定位。因此,本文自建數據庫,利用智能手機采集200張不同字體、不同場景的圖像,圖像的像素為1 000萬,包括標志牌、路標、指示牌等,其圖像中的文字方向任意,文本行數任意。對每張圖像中的文本區域用最小外接矩形框進行手工標定。

為了證明該算法的通用性,本文選取ICDAR2015(chanllenge2)和MSRA-TD500兩個標準數據庫上的部分圖像進行測試,其效果如圖12、圖13所示。可以看出,文本區域均被正確定位,其中圖13為一幅圖像中存在暗底亮字和亮底暗字兩種類型的文本。可以看出,本文算法對中文文本的定位具有較高的準確率,并且證明了改進的SWT算法對一幅圖像中存在兩種類型的中文文本定位有效、可行。

圖12 傾斜文本圖像定位結果

圖13 兩種類型文本圖像定位結果

表1展示了本文的方法與其他方法在自建數據庫上進行對比的實驗結果。文獻[14]是對MSER提取的結果,運用Adaboost分類器對連通區域分類,最后依據漢字的結構合并文本行,而本文是把漢字連接為一個完整的連通區域,根據同一行漢字的尺寸基本相似,運用任意方向文本行構建算法合并漢字。文獻[15]是通過提取文字的HOG特征,然后運用SVM進行區分文本和非文本。該方法沒有對文本行進行合并,故存在漏檢的文字。

表1 本文方法與其他方法文本定位算法對比

總之,在定位效果方面,本文相對于其他兩種方法能實現任意方向文本行定位和傾斜文本定位;在復雜度上,本文方法只是提取文字的相關特征,不需要設計分類器和對數據進行訓練,故本文算法計算量小,定位速度較快。

3 結 語

本文采用基于連通區域的MSER方法和改進的SWT算法對自然場景下的中文文本進行定位。在分析漢字特點的基礎上,通過提取漢字的結構特征,再結合啟發式規則去掉大部分明顯不是文本的區域。之后,對初步定位后的結果,根據區域筆畫特征進一步過濾掉非文字區域,比對整個圖像直接運用筆劃寬度變換在時間和效果上有所提高。實驗結果證明,該算法可提高中文文本定位的準確率和召回率,并且對字體的大小、文本的顏色有較好的魯棒性。

猜你喜歡
文本區域
永久基本農田集中區域“禁廢”
今日農業(2021年9期)2021-11-26 07:41:24
分割區域
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關于四色猜想
分區域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 天堂亚洲网| 国产毛片久久国产| 一本久道热中字伊人| 久久精品国产999大香线焦| 久久精品无码一区二区日韩免费| 日韩成人免费网站| 国产精品成人第一区| 麻豆国产精品| 最新国语自产精品视频在| 综合亚洲色图| 久久久久亚洲Av片无码观看| 中文字幕免费视频| 全部免费毛片免费播放| 亚洲中文制服丝袜欧美精品| 亚洲第七页| 伊人激情久久综合中文字幕| 天天婬欲婬香婬色婬视频播放| 亚洲成aⅴ人片在线影院八| 午夜啪啪网| 一级片免费网站| 99热这里只有成人精品国产| 91精品啪在线观看国产91九色| 精品国产欧美精品v| 玖玖精品在线| 天天躁夜夜躁狠狠躁图片| 亚洲一区二区约美女探花| 精品無碼一區在線觀看 | 手机在线免费不卡一区二| 91在线播放国产| 亚洲香蕉在线| аⅴ资源中文在线天堂| 在线观看免费黄色网址| 国产91精品久久| 老司机久久精品视频| 91精品国产91久久久久久三级| 久久久精品国产SM调教网站| 亚洲午夜福利精品无码| 国产精品免费久久久久影院无码| 国内毛片视频| 亚洲人成网18禁| 欧美一级夜夜爽www| 国产欧美日韩va另类在线播放| 国产女人水多毛片18| а∨天堂一区中文字幕| 色哟哟国产精品| 久爱午夜精品免费视频| 四虎永久在线| 成人精品亚洲| 国产不卡国语在线| 亚洲精品爱草草视频在线| 黄色在线网| 中文字幕日韩久久综合影院| 国产欧美中文字幕| 欧美日韩中文国产va另类| 91无码人妻精品一区二区蜜桃| 婷婷午夜天| 欧美一道本| 欧美午夜在线播放| 午夜无码一区二区三区在线app| 免费无码AV片在线观看国产| 人妻免费无码不卡视频| 国产午夜看片| 日日拍夜夜操| 婷五月综合| 国产人免费人成免费视频| 亚洲天堂日韩av电影| 国产精品亚欧美一区二区| 欧美高清三区| 天天摸天天操免费播放小视频| 亚洲人成网站18禁动漫无码| 在线观看国产精品一区| 91精品专区国产盗摄| 精品国产美女福到在线不卡f| 久久不卡精品| 国产自在线拍| 久久6免费视频| 亚洲性视频网站| 欧美视频在线第一页| 波多野结衣第一页| 日韩无码视频专区| 在线观看91精品国产剧情免费| 高清无码手机在线观看|