喻勃然,萬洪杰
(北京化工大學 信息科學與技術學院,北京100029)
基于啟發式規則和SVM的自然場景中文文本定位
喻勃然,萬洪杰
(北京化工大學 信息科學與技術學院,北京100029)
為了實現自然場景下的中文文本定位,設計實現了一種啟發式規則過濾和SVM精確分類的層次定位方法。首先通過最大穩定極值算法提取區域,對于漢字筆畫分離的問題,用形態學運算進行筆畫融合。再根據漢字的特點,設計啟發式規則過濾非文本區域,其中通過候選字符區域的橢圓擬合,引入橢圓的偏心率作為文本判別規則。最后提取HOG特征,通過SVM精確分類實現文本定位。實驗證明本文方法在復雜的自然場景下取得了良好的文本定位效果。
最大穩定極值區域;啟發式規則;HOG;SVM;文本定位
隨著智能手機,數碼相機等移動智能終端的普及,圖片和視頻已經成為人們傳遞信息的重要載體。其中包含的文字信息對基于語義的圖像理解和場景認知有重要的意義。利用計算機對海量的圖片提取信息,已成為國內外研究者關注的熱點。自然場景圖像各式各樣,光照不均,其中包含的文字字體多變、布局不一、背景復雜。因此精確地檢測和定位場景圖像中的文字仍然是一項充滿挑戰的任務。
目前,主要的場景文本定位方法有基于邊緣的方法,基于紋理的方法和基于機器學習的方法。在文獻[1]和[2]中,分別提出了多尺度的LoG邊緣檢測子和密集的垂直邊緣進行文本定位。該方法的運行速度較快,對于文本邊緣明顯的情況定位準確率較高。文獻[3]中重新定義了基于DCT的特征,并通過一個無監督的閾值法來對文本分類,能適應較復雜的背景,但對文本的尺度變化較敏感。Epshtein等人[4]提出了筆畫寬度變換的方法,通過計算每個像素點的值與該像素點相關的筆畫寬度來定位文本。文獻[5]通過AdaBoost機器學習算法訓練了一個由4個強分類器組成的串聯分類器,用了79個特征對候選文本區域分類。Lukas等人[6]利用最大穩定極值區域作為候選字符區域,通過SVM分類器進行文本和非文本的判別,該方法對自然場景有良好的適應性。
雖然英文文本定位的研究已取得了一定成果,但針對中文文本定位的研究還很缺乏。文中在相關研究的基礎上,設計實現了適用于中文文本定位的方法并進行了改進。算法首先提取最大穩定極值區域,采用數學形態學運算融合分離的筆畫,將融合后的連通區域作為候選字符區域。然后設計了一組啟發式的規則對候選字符區域進行過濾,減少了分類的計算量,加快了算法的速度。最后計算方向梯度直方圖特征,通過支持向量機實現對文本的精確定位。
1.1 最大穩定極值算法
最大穩定極值(Maximally Stable Extremal Regions,MSER)是一種圖像區域檢測算法,它最初用來解決立體寬基線匹配問題[7],具有很好的仿射不變性和光照魯棒性,因此在物體識別、文字檢測等應用中取得了良好的效果。MSER算法使用不同的灰度閾值對圖像進行二值化。選取閾值t={0,1,…,255},從0到255取值,將灰度值高于閾值t的點置為白色,低于閾值的點置為黑色。得到一系列黑色或白色的嵌套極值區域,可表示為Q1,…Qi-1,Qi,…,其中Qi?Qi+1。在極值序列Q1,…Qi-1,Qi,…中,極值意味著區域中所有像素的灰度值都高于或低于其外部邊界的像素值。如果極值區域在一定的灰度值范圍內是穩定的,這些區域就定義為最大穩定極值區域。用公式表示為,當且僅當i=i*:

如果式(1)在i*處存在局部最小值,那么Qi*就是最大穩定極值區域。其中Δ表示灰度閾值變化的步長。
1.2 數學形態學筆畫融合
漢字具有不同于英文字符的特殊性,它有橫、豎、撇、捺、點、折、鉤7種基本筆畫,再由這7種基本筆畫組合與變形,形成了2萬多個漢字[8]。單個漢字的筆畫之間往往是互相分離的。為了將分裂的筆畫融合,我們把MSER算法提取的區域通過數學形態學操作。文中采用閉運算對圖像進行形態學操作,閉運算能較好地保持圖像中目標物體的大小。圖1顯示原圖與閉運算圖像對比,這時單個漢字已經能作為一個連通區域被檢測出來。

圖1 原圖與閉運算圖像對比
經過MSER提取和數學形態學運算后,將檢測到的連通區域作為候選字符區域。由圖1(b)可以看出其中包含了大量的非文本區域干擾。如果直接將這些候選字符區域進行分類,勢必大大增加計算量,造成算法效率低下。因此根據漢字的特點設計了一組啟發式的規則來對候選字符進行初步判斷。
令提取的候選字符的集合為S,其中包含了字符ci和非字符nj,集合S定義如下:

考慮如下幾點:
1)場景圖像中的字符的面積不會過大或過小。令候選字符區域sk的外接矩形為rk,Area(rk)表示外接矩形的面積,經過大量實驗統計,候選字符sk的限定條件表述為:

將外接矩形面積小于15 000像素和大于150 000像素的區域視為非文本區域。
2)漢字字符形狀呈近似的正方形,即其外接矩形的長寬比接近于1。令外接矩形rk的寬高分別為width(rk)和height(rk)。寬高比的限定條件為:

3)經過上述兩條規則,過濾掉了一部分非文本區域,然而還有一些明顯的非文本區域通過了過濾規則,如圖2所示。

圖2 未被過濾的非文本區域
它們的外接矩形的幾何特征恰好落在限制條件之內。這些區域多呈傾斜的狹長形狀。根據此特點,將候選字符區域進行橢圓擬合,引入擬合橢圓的偏心率作為過濾規則。擬合橢圓的數學推導可見文獻[9]。令擬合橢圓的偏心率為Ec(sk),將偏心率大于0.75的區域視為非文本區域。即限制條件為:

將目標圖像通過上述規則過濾,去除了大量非文本區域,使得支持向量機判別的計算量減少,提高了整個算法的效率。過濾后效果如圖3所示。

圖3 啟發式規則過濾后圖像
通過啟發式規則過濾后,候選字符中還包含有少量的非文本區域,我們將提取候選字符的方向梯度直方圖[10](Histogram of Oriented Gradient,HOG)特征來訓練一個支持向量機分類器,對剩下的候選字符區域進行精確的分類判別。
3.1 HOG特征提取
HOG特征對于圖像的幾何變化和光照變化都有很強的適應性,因此用于自然場景文字檢測相比于其他算子更有優勢。將前文中經過啟發式規則過濾后的區域按照它們的外接矩形切分出來。分別對其提取HOG特征。主要步驟如下:計算梯度,像素點(x,y)的梯度為:

式中,Gx(x,y),Gy(x,y)分別表示像素點(x,y)的水平方向的梯度和垂直方向的梯度。H(x,y)是像素點(x,y)的值。(x,y)處的梯度幅值和方向為:

將候選字符歸一化為48×48像素大小,以8×8個像素為一個細胞單元,在細胞單元中的每個像素點都要基于某個梯度方向的直方圖投票,梯度方向取為0°~180°,劃分為9個區間,形成一個9維向量。直方圖采用加權投票,即每個像素的梯度幅值作為投票的權值。
最后將細胞單元組合成塊(block),相鄰的2×2個細胞單元作為一個塊,塊每次移動為1個細胞單元大小。因此每個塊中共有4個細胞單元,塊中向量的維度為4×9=36。被測圖像總共形成25個塊,所以每個候選字符區域的HOG特征向量維度為36×25=900維。
3.2 支持向量機分類
支持向量機(Support Vector Machine,SVM)是建立在統計學習理論VC維理論和結構風險最小化原則基礎上的機器學習方法。它利用一個分類超平面最為決策面,最大化兩類樣本的間隔距離。對于線性可分的情況,它將分類問題轉化為求解不等式約束下的最優化問題。對于非線性可分的情況,需要進行核函數映射。將原空間中的非線性問題轉換為新空間中的線性問題。常用的核函數有線性核函數、多項式核函數和徑向基核函數。使用支持向量機分類的主要步驟為:收集制作正負樣本,提取正負樣本的特征向量,通過交叉驗證獲取最優參數,利用獲得的最優參數訓練支持向量機模型,最后用待分類的樣本測試,得到分類結果。
文中通過手機拍攝了400幅場景圖像作為實驗的數據集,像素為800萬。場景圖像包括道路的指示牌,戶外廣告,提示標志和建筑物的名稱等內容,其中的漢字字符有不同的排列方向。從數據集中隨機選取出200幅圖像作為訓練集,剩下的200幅圖像作為測試集。
將訓練集中的圖像經過MSER提取和啟發式過濾。切分出候選字符區域,并統一歸一化為48×48像素。通過人工標注,將候選字符中的文字區域作為SVM分類器的正樣本,非文字區域作為負樣本。總共生成正樣本1 451個,負樣本3 694個。
將收集的正負樣本按前文所述步驟提取HOG特征以訓練SVM分類器,核函數選擇徑向基函數。核函數半徑g和懲罰系數C對SVM模型有重要影響。如果懲罰系數過高,雖然交叉驗證效果較好,但會造成過學習狀態,導致分類器推廣能力差。文中利用libSVM[11-12]工具箱參數尋優,通過網格搜索尋找C和g的值,然后進行交叉驗證,獲取精度最高的參數。最優參數為C=27.857 6,g=0.062 5,交叉驗證精度為95.743 4%。
從測試集中隨機選取50幅圖像驗證啟發式規則過濾性能。讓圖像通過過濾規則,分別對包含擬合橢圓偏心率約束(即前文規則3)和不包含偏心率約束規則的情況,統計候選字符區域的過濾數目。如圖4所示。

圖4 啟發式規則過濾效果
橫坐標1表示未進行過濾前的候選字符數目和實際字符數目,2表示未加入偏心率約束的過濾效果,3表示加入偏心率約束規則后過濾效果。50幅圖像共有候選字符區域3 742個,實際字符282個,未加入偏心率規則時,過濾掉非字符區域2 765個,加入偏心率約束后過濾掉區域3 137個,過濾性能提高了13.45%,同時字符區域數量保持不變。完整的啟發式規則能過濾掉候選字符中82.51%的非文本區域。
對整個測試集進行綜合檢測,通過精確率(precision)和召回率(recall)來評估本文的方法。精確率和召回率表達式為(10),(11)。其中T表示正確檢測出的字符數目,N表示總的檢測結果。C表示圖像中包含的所有字符數目。將文中的方法與其他英文字符檢測定位方法對比,見表1。可以看出,文中在召回率上高于其他方法,同時準確率也達到了較高水平。圖5為本文方法的部分檢測結果展示。


表1 不同算法結果對比

圖5 文本定位結果
文中針對自然場景下的中文文本定位問題進行了研究,通過數學形態學融合了文字筆畫,設計實現了啟發式規則過濾和基于支持向量機的兩層文本定位結構。實驗證明,設計的啟發式規則能快速有效地過濾非文本區域,同時文字區域得以保留。再經過支持向量機的精確分類,準確地定位了文本區域。文中的方法在光照變化,不同的文字排列方式和復雜背景的情況下均取得了很好的效果。但是對于文字前景遮擋和文字與背景過于接近的情況,候選字符區域提取的效果不佳,這也是文中后續研究的方向。
參考文獻:
[1]Chen Xi-lin,Yang Jie,Zhang Jing,et al.Automatic detection and recognition of signs from natural scenes[J].IEEE Transactions on Image Processing,2004,13(1):87-99.
[2]Kumar M,Lee G.Automatic text location from complex natural scene images[C]//International Conference on ComputerandAutomationEngineering,Singapore,2010,3:594-597.
[3]Goto H.Redefining the dct-based feature for scene text detection analysis and comparison of spatial frequency-based features[J].IJDAR,2008,11(1):1-8.
[4]Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transorm[C]//Proc.CVPR,2010,11(1):1-8.
[5]Chen Xiang-rong,Yuille A L.Detecting and reading text in natural scenes[C]//Proc.CVPR,2004:366-373.
[6]Neumann L,Matas J.A method for text localization and recognition in real-world images[C]//Proc.ACCV,2010:20-25.
[7]Matas J,Chum O,Urba M,et al.Robust wide baseline stereo from maximally stable extramal regions[C]//Proc.British Machine Vision Conference,2002:384-396.
[8]Gao Yan,Jin Lian-wen,Yang Wei-xin.An Empirical comparative study of online handwriting Chinese character recognition:simplified vs.traditional[C]//2013 12th ICDAR, 2013:862-866.
[9]柳濤.多通道圖像MSER局部不變性特征提取算法研究[D].長沙:國防科技大學,2010.
[10]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005,1:886-893.
[11]Chang Chih-chung,Lin Chih-jen.LIBSVM-A library for Support Vector Machines[EB/OL].[2015-03-01]http://www. csie.ntu.edu.tw/~cjlin/libsvm/index.html#nuandone.
[12]Faruto.libsvm-3.1-FarutoUltimate3.1code[EB/OL].[2015-03-01].http://www.matlabsky.com/thread-17936-1-1.html.
[13]Shahab A,Shafait F.Dengel A.ICDAR 2011 robust reading competition challenge 2:reading text in scene images[C]// 2011 International Conference on Document Analysis and Recognition,2011:1491-1496.
[14]Yi Chu-cai,Tian Ying-li.Text string detection from natural scenes by structure-based partition and grouping[J].IEEE Transactions on Image Processing,2011,20(9):2594-2605.
[15]Pan Yi-feng,Hou Xin-wen,Liu Cheng-lin.A robust system to detect and localize text in natural scene images[C]//The Eighth IAPR International Workshop on Document Analysis Systems,DAS’08,2008:35-42.
Chinese text localization in natural scene based on heuristic rules and SVM
YU Bo-ran,WAN Hong-jie
(College of Information Science and Technology,Beijing University of Chemical Technology,Beijing 100029,China)
To realize the Chinese text location in the natural scene,a level positioning method combined with heuristic rules filtering and SVM scientific classification is designed.Firstly,the Maximally Stable Extremal Regions algorithm is adopted to achieve stroke amalgamation and consequently the heuristic rules are made based on the characteristics of Chinese characters to filter non-text regions.By ellipse fitting in the candidate character zone,eccentricity ratio of ellipse is taken as decision rule of text,and finally given the extracted HOG features,SVM is used to do accurate classification to realize text location.It is shown in the experiment that proposed method in the paper gets good test location effect in the complex natural scene.
MSER;heuristic rules;HOG;SVM;text location
TN911.73
A
1674-6236(2016)24-0161-04
2015-12-07 稿件編號:201512069
喻勃然(1988—),男,貴州黔西人,碩士研究生。研究方向:圖像處理、模式識別。