肖 珂 戴 舜 何云華 孫利民
1(北方工業(yè)大學(xué)信息學(xué)院 北京 100144)2(中國(guó)科學(xué)院信息工程研究所 北京 100093)
目前傳感器已被應(yīng)用于各種環(huán)境的實(shí)時(shí)感知,感知數(shù)據(jù)的分析與利用逐漸改變著人們的生活方式,由此激起了各類物聯(lián)網(wǎng)[1](Internet of things, IoT)場(chǎng)景應(yīng)用,如智慧城市、智能醫(yī)療和國(guó)防軍事等[2].隨著城市化的進(jìn)展,智慧城市在大數(shù)據(jù)基礎(chǔ)上,通過(guò)物聯(lián)網(wǎng)將現(xiàn)實(shí)城市與數(shù)據(jù)進(jìn)行有效融合,自動(dòng)和實(shí)時(shí)地感知現(xiàn)實(shí)世界中人與物體的各種狀態(tài)和變化,為城市管理和公眾提供各種智能化的服務(wù).在智慧城市的推動(dòng)過(guò)程中,視頻圖像的檢測(cè)和識(shí)別成為一項(xiàng)關(guān)鍵的任務(wù).視頻圖像檢測(cè)和識(shí)別是基于內(nèi)容的視覺媒體,對(duì)圖像的顏色、紋理和布局等進(jìn)行分析和檢索,從中挖掘出規(guī)律性的內(nèi)容,這樣能方便城市電子警察對(duì)城市監(jiān)控和管理.
針對(duì)城市應(yīng)用環(huán)境,視頻圖像的檢測(cè)與識(shí)別方案也存在一些問(wèn)題,如捕獲的照片模糊失真,無(wú)法用于城市管理.電子產(chǎn)品往往暴露在外,受外界環(huán)境影響較大,采集的圖像會(huì)受到外界噪聲、散射等因素影響導(dǎo)致處理效果不理想.本文針對(duì)智慧城市系統(tǒng)架構(gòu)中圖像處理模塊,研究高效的自然場(chǎng)景文本提取算法,通過(guò)高效快速文本提取算法為智慧城市中場(chǎng)景檢測(cè)和識(shí)別功能提供保障.
現(xiàn)有文本提取方法可以分為兩大類:基于滑動(dòng)窗口的方法和基于連通域的方法[3].1)基于滑動(dòng)窗口的方法[4]通常利用固定大小的滑動(dòng)窗口來(lái)搜索圖像中的單個(gè)候選字符或候選字詞,然后使用機(jī)器學(xué)習(xí)技術(shù)來(lái)分類和識(shí)別文本.盡管這樣的方法對(duì)于噪聲和模糊是魯棒的,但是由于搜索空間大使得它們的速度偏慢.2)基于連通域的方法首先通過(guò)使用圖像的局部屬性(例如強(qiáng)度、顏色、筆畫寬度)從圖像中作為候選文本提取連通域,然后使用字符或文本行的屬性作為特征,利用統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)等來(lái)去除非文本連通域.該方法能夠?qū)崿F(xiàn)高魯棒性和低計(jì)算量,且針對(duì)英文文本的檢測(cè)在文檔分析與識(shí)別國(guó)際會(huì)議(International Conference on Document Analysis and Recognition, ICDAR)的競(jìng)賽中已有了很好表現(xiàn).但其應(yīng)用到中文的文本提取,并不能達(dá)到處理英文時(shí)的良好效果.這是由于中文的單個(gè)字符并不具有英文那樣單個(gè)連通域的形式,難以保證候選文本連通域的提取質(zhì)量.再加上文本提取中的一些公開性問(wèn)題,如光照不均和非文本的形狀非常類似于文本字符等,針對(duì)中文的文本提取很難達(dá)到滿意的效果.而已有的針對(duì)中文的提取算法在效率和提取能力上仍需提高.
針對(duì)上述問(wèn)題,本文提出了一種基于邊緣增強(qiáng)的最大穩(wěn)定極值區(qū)域(maximally stable extremal regions, MSER)和支持向量機(jī)(support vector machine, SVM)結(jié)合的自然場(chǎng)景中文文本提取算法.首先,在考慮圖像光照和模糊等因素的情況下,使用基于邊緣增強(qiáng)的MSER檢測(cè)方法,過(guò)濾和聚合候補(bǔ)MSER得到有效的中文文本域;再根據(jù)中文文本域的特征使用高效的機(jī)器學(xué)習(xí)算法將類似文本的結(jié)構(gòu)剔除從而保障中文文本提取的準(zhǔn)確性.
近年來(lái),對(duì)于自然場(chǎng)景的文本檢測(cè)和提取的工作已備受關(guān)注,學(xué)者們也提出一些優(yōu)秀方法值得參考.在基于滑動(dòng)窗口的一些方法中,Huang等人[5]提出了基于滑動(dòng)窗口和MSER結(jié)合的文本提取方法,MSER可以顯著減少掃描的窗口數(shù)量,并增強(qiáng)對(duì)低質(zhì)量文本的檢測(cè),最后使用卷積神經(jīng)網(wǎng)絡(luò)(convolu-tional neural network, CNN)分類出正確的文本;Gómez等人[6]探討了對(duì)象提議技術(shù)在場(chǎng)景文本理解中的適用性,提出了一種簡(jiǎn)單的文本特定的選擇性搜索策略,搜索圖像中的特定窗口,并通過(guò)凝聚聚類在層次結(jié)構(gòu)中分組,對(duì)每個(gè)節(jié)點(diǎn)定義可能的語(yǔ)義假設(shè),根據(jù)語(yǔ)義來(lái)檢測(cè)場(chǎng)景圖像中文本單詞;Zhou等人[7]提出了能夠直接預(yù)測(cè)全圖像中任意方位和矩形形狀的文字或文字線管道的方法,通過(guò)設(shè)計(jì)高效的損失函數(shù)和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用單個(gè)神經(jīng)網(wǎng)絡(luò)消除不必要的中間步驟(例如候選聚合和單詞分割).這些方法有效地利用滑動(dòng)窗口的特性,得到不錯(cuò)的提取效果.
以連通域?yàn)榛A(chǔ)的方法中,Minetto等人[8]提出了一個(gè)結(jié)合自下而上和自上而下機(jī)制來(lái)檢測(cè)文本框的綜合策略,自下而上的部分是基于連通域分割和分組進(jìn)行的,而自上而下的部分是通過(guò)基于框描述符的統(tǒng)計(jì)學(xué)習(xí)方法實(shí)現(xiàn)的,該部分主要貢獻(xiàn)在于引入一個(gè)適用于文本框分析的新描述符──模糊方向梯度直方圖,以此實(shí)現(xiàn)場(chǎng)景圖像的文本提取;Rajan等人[9]提出了一種基于分?jǐn)?shù)泊松的增強(qiáng)模型來(lái)提高拉普拉斯算子圖像的質(zhì)量,通過(guò)圖像增強(qiáng)操作以獲得目標(biāo)和背景之間更好的對(duì)比度,增強(qiáng)圖像有效避免拉普拉斯算子圖像的噪聲,實(shí)現(xiàn)了更高精度的文本檢測(cè)和識(shí)別;Yao等人[10]提出一種利用2級(jí)分類方案的文本提取方法,采用筆畫寬度變化(stroke width transform, SWT),并根據(jù)文本的一些固有屬性設(shè)計(jì)了對(duì)文本非常有效的2級(jí)分類方案,再以適度的訓(xùn)練來(lái)消除敏感的手動(dòng)參數(shù)調(diào)整,在場(chǎng)景圖像的文本提取方面取得了很好的效果.
以上這些算法雖然具有很好的效果,但它們的目標(biāo)都是針對(duì)英文.而如果將該類方法用于中文的文本提取,難以達(dá)到他們處理英文時(shí)的優(yōu)越性能,針對(duì)中文的提取方法,國(guó)內(nèi)學(xué)者也做出一些不錯(cuò)的工作.例如張偉偉等人[11]通過(guò)剪枝策略對(duì)圖像存在嵌套關(guān)系的連通域進(jìn)行取舍,得到候選筆畫區(qū)域,利用結(jié)構(gòu)元參數(shù)對(duì)圖像進(jìn)行動(dòng)態(tài)閉操作,以消除同一漢字筆畫之間的間隙,得候選漢字區(qū)域,之后利用結(jié)構(gòu)和角點(diǎn)規(guī)則過(guò)濾掉非漢字區(qū)域,并用顏色規(guī)則聚類得到候選文本區(qū)域;喻勃然等人[12]通過(guò)最大穩(wěn)定極值算法提取區(qū)域,對(duì)于漢字筆畫分離的問(wèn)題,用形態(tài)學(xué)運(yùn)算進(jìn)行筆畫融合,再根據(jù)漢字的特點(diǎn),設(shè)計(jì)啟發(fā)式規(guī)則過(guò)濾非文本區(qū)域,其中通過(guò)候選字符區(qū)域的橢圓擬合,引入橢圓的偏心率作為文本判別規(guī)則.但由于效率和圖像噪聲敏感等原因,這些算法無(wú)法滿足物聯(lián)網(wǎng)的環(huán)境,為了將文本提取算法實(shí)現(xiàn)在物聯(lián)網(wǎng)這樣的實(shí)時(shí)性平臺(tái)上,本文提出了一種基于MESR和SVM結(jié)合的高效中文提取方法.
在智慧城市概念中,有效監(jiān)測(cè)和分析城市中各場(chǎng)景信息可加強(qiáng)對(duì)城市的管理,而場(chǎng)景中包含的一些文本信息可以極大地提高場(chǎng)景信息分析的效率.因此,本文研究針對(duì)自然場(chǎng)景下的高效中文文本提取算法,并解決現(xiàn)有中文文本算法因效率不足而無(wú)法應(yīng)用于城市場(chǎng)景監(jiān)測(cè)的問(wèn)題.其中算法的流程如圖1所示.首先,提出使用基于邊緣增強(qiáng)的MSER檢測(cè)算法,提取出圖像的MSER;以MSER為單位進(jìn)行分析,并使用幾何特征的約束,對(duì)所得到的MSER進(jìn)行過(guò)濾;對(duì)于過(guò)濾后的MSER進(jìn)行中文聚合,圖像中的中文文本往往會(huì)被分割成多個(gè)MSER,使分散的結(jié)構(gòu)形成候選中文文本域;最后根據(jù)中文文本的特征,對(duì)文本進(jìn)行SVM分類,得到正確的正確文本.

Fig. 1 Algorithm flowchart圖1 算法流程圖
本文復(fù)現(xiàn)了Matas等人[13]提出的最大穩(wěn)定極值區(qū)域檢測(cè)算法,檢測(cè)結(jié)果如圖2所示.由圖2可知,自然場(chǎng)景圖像中存在大量的MSER,這些區(qū)域中包含了大量的非文本區(qū)域,需要進(jìn)一步的過(guò)濾.而在某些場(chǎng)景下部分文本區(qū)域并沒有被判斷為MSER,這將直接影響后續(xù)的提取結(jié)果.
由于文本與其背景的灰度對(duì)比通常極為重要,并且可以假定每個(gè)文本具有均勻灰度或顏色,因此MSER是文本區(qū)域檢測(cè)和提取的自然選擇.雖然MSER被視為最好的區(qū)域檢測(cè)器之一[14],但由于其對(duì)視點(diǎn)、比例和光照變化的魯棒性,加上它對(duì)模糊圖像的敏感,將MSER直接應(yīng)用于有限分辨率的圖像時(shí),不能有效地檢測(cè)或區(qū)分某些特殊的場(chǎng)景圖像的文本區(qū)域.
針對(duì)多個(gè)文本被檢測(cè)為單個(gè)MSER區(qū)域這類由圖像模糊造成的現(xiàn)象,本文結(jié)合Canny邊緣檢測(cè)和MSER的提取特性,通過(guò)Canny邊緣來(lái)增強(qiáng)極值區(qū)域的輪廓,然后沿著原始灰度圖像計(jì)算出的梯度方向修剪MSER,從而移除了由Canny邊緣形成的邊界外MSER像素.由于文本類型(亮或暗)在MSER檢測(cè)階段是已知的,因此可以調(diào)整梯度方向以保證它們的指向背景.邊緣增強(qiáng)的MSER,提供了顯著改進(jìn)的文本表示,其中分開單獨(dú)的連通區(qū).不僅可以提高幾何過(guò)濾器的性能,而且還可以增加在不同圖像特殊條件下基于MSER的特征匹配的可重復(fù)性,這種邊緣增強(qiáng)的MSER檢測(cè)算法,結(jié)合邊緣和MSER區(qū)域的優(yōu)點(diǎn),相比于傳統(tǒng)的MSER算法,不僅能夠提高檢測(cè)算法對(duì)復(fù)雜場(chǎng)景的應(yīng)用性,同時(shí)還可以減少背景的干擾,有利于后續(xù)對(duì)文本區(qū)域鑒別.圖2顯示了邊緣增強(qiáng)的MSER圖像分割的良好效果.

Fig. 2 Comparison of results between MSER and edge enhanced MSER圖2 MSER與邊緣增強(qiáng)的MSER實(shí)驗(yàn)結(jié)果對(duì)比
本文基于MSER的提取效果和中文字符的特點(diǎn)制定了一些高效的先驗(yàn)知識(shí),作為約束條件進(jìn)行初步的過(guò)濾:
1) 基于長(zhǎng)短軸長(zhǎng)度比的過(guò)濾.由于中文存在偏旁部首,而偏旁部首不像整個(gè)字符那樣特征鮮明,所以適當(dāng)放寬長(zhǎng)軸與短軸的比例約束,將長(zhǎng)短比大于4∶1的MSER過(guò)濾掉.值得注意的是,中文字符有些特殊的偏旁部首,如“亻”、“一”和“刂”等結(jié)構(gòu)不能滿足先前的約束,為了防止這樣的MSER被過(guò)濾,對(duì)這些MSER的過(guò)濾采用新的約束.經(jīng)過(guò)研究發(fā)現(xiàn),“亻”、“一”和“刂”等結(jié)構(gòu)的共同特征是擬合橢圓方向都接近豎直或者水平方向,所以當(dāng)MSER的橢圓擬合方向?yàn)樗胶拓Q直時(shí),長(zhǎng)短比大于8∶1的MSER才會(huì)過(guò)濾.
2) 基于孔洞數(shù)過(guò)濾.中文字符中包含孔洞數(shù)的范圍并不能輕易地約束,但是此時(shí)的MSER只是一個(gè)代表中文字符部分的連通區(qū)域,這樣的區(qū)域通常沒有過(guò)多的空洞數(shù).在眾多中文字符中,其所包含的單個(gè)偏旁部首結(jié)構(gòu),孔洞數(shù)量一般不超過(guò)5個(gè),即MSER_holei≤5,所以該約束條件能夠把孔洞數(shù)大于5的MSER都過(guò)濾.
3) 基于占空比過(guò)濾.中文字符的部分結(jié)構(gòu)通常具有一定占空比,即像素面積與橢圓面積的比例,正確的結(jié)構(gòu)其占空比通常不會(huì)太小也不會(huì)過(guò)大.因?yàn)樽址圆渴椎南袼爻四承┨厥狻柏椤焙汀耙弧钡龋渌挤植嫉孟鄬?duì)松散.而由MSER通過(guò)整體形狀擬合出橢圓,其面積必定不會(huì)比MSER像素組成面積小.所以將滿足占空比小于0.2且大于0.85的MSER過(guò)濾掉.
中文字符不同于英文字符的一筆而就,它通常是由多個(gè)MSER組成,為了得到正確的中文文本,在驗(yàn)證之前需要將分散的多個(gè)MSER聚合成候補(bǔ)的文本區(qū)域.對(duì)此,本文提出了如算法1所示的基于文本中心聚合的方法,有4個(gè)步驟:
1) 統(tǒng)計(jì)MSER屬性.得到每個(gè)MSER的矩形包圍盒信息、質(zhì)心坐標(biāo)、平均顏色分量以及平均筆畫寬度.由于中文字符被稱為“方塊字”,單個(gè)中文字符的最佳凸包通常是一個(gè)正方形.因此,矩形包圍盒的使用能夠更加有效地迎合中文字符的特點(diǎn).
2) 約束合并范圍.除了“一”等特殊的中文字符,單個(gè)完整的中文字符通常擁有相近的高度和寬度,并且在場(chǎng)景圖像中,為了方便人們辨識(shí)文字,字體的各個(gè)結(jié)構(gòu)會(huì)具有相似的筆畫寬度和顏色.所以該聚合算法在MSER相互合并之前,先在二維空間中找出每個(gè)MSER能夠?qū)崿F(xiàn)合并的一些對(duì)象,即對(duì)每個(gè)待處理的MSER只考慮質(zhì)心在距離約束范圍內(nèi)的MSER作為備選的合并結(jié)構(gòu),該距離約束范圍是以待處理的MSER的質(zhì)心為圓心、12倍的平均筆畫寬度為半徑的圓圈.同時(shí)為了避免背景的類似結(jié)構(gòu)誤入,以2個(gè)MSER之間平均顏色比值(顏色分量的比值)和平均筆畫寬度比值小于1.2作為約束.
3) 初步相交合并.由于中文的特性,無(wú)論是書寫還是印刷體,為了不讓漢字的偏旁部首,被誤判成相鄰漢字的一部分,相鄰字體之間會(huì)有一定距離,而這個(gè)距離會(huì)比字體的部首結(jié)構(gòu)之間距離大很多.這種距離的差距對(duì)字體的結(jié)構(gòu)合并成一個(gè)完整的字體很重要,因?yàn)樗欣趯⒄_的筆畫結(jié)構(gòu)歸并到字體中,從而得到完整的中文文本區(qū)域.在合并判斷時(shí),本文將所有情況分為2種:相交和相鄰.遍歷合并范圍內(nèi)的MSER,首先判斷2個(gè)MSER的包圍盒之間是否相交:
(1)
Δh=max(|R_bi-R_tj|,|R_bj-R_ti|),
(2)
Δw=max(|R_ri-R_lj|,|R_rj-R_li|),
(3)
其中,R_w和R_h表示MSER的寬和高;R_t,R_l,R_b,R_r分別表示連通域包圍盒的左上角和右下角的橫縱坐標(biāo),intersect代表2個(gè)MSER是否相交.如果intersect值為真就進(jìn)行合并操作,將已經(jīng)合并的MSER標(biāo)記.在第1次相交合并時(shí),被處理的MSER有可能被擴(kuò)大,造成與原本未相交的MSER開始出現(xiàn)相交.因此遍歷完合并范圍內(nèi)的MSER后,對(duì)未被標(biāo)記的MSER再次進(jìn)行相交判斷并標(biāo)記.
4) 相鄰合并.此時(shí)如果合并范圍內(nèi)的MSER仍未被完全標(biāo)記,則進(jìn)行相鄰合并,當(dāng)2個(gè)MSER滿足:

(4)
max(Δw,Δh)<λT,
(5)
(6)
其中,N表示約束范圍內(nèi)連通域的總個(gè)數(shù),經(jīng)實(shí)驗(yàn)證明κ和λ設(shè)置為4和10時(shí)效果最佳.通過(guò)限制合并集合的寬度、高度以及寬高比例,避免鄰近的包含完整字符的MSER被合并.
算法1.中文文本中心聚合.
輸入:過(guò)濾后最大穩(wěn)定極值區(qū)域CMSER;
輸出:候選中文文本域TC.
forc∈CMSERdo
Fature←swt,color,size,pos←c;
end for
forfi,fj∈Faturedo
iffj.pos∈Range(fi)
R←{CMSER|∈fjCMSER};
end if
end for
forci,cj∈Rdo
ifsimilarColor(ci,cj)
ifsimilarSWT(ci,cj)
ifintersect(ci,cj)
ci←ci∪cj;
else
ifadjacentLimit(ci,cj)
ci←ci∪cj;
end if
end if
end if
end if
end for
TC←{c1,…,ci,…,cj,…}.
經(jīng)過(guò)中文聚合后,形成了大量候選中文字符區(qū)域,在中文聚合前,初步過(guò)濾偽MSER仍然會(huì)存在許多類似的文本結(jié)構(gòu),所以需要經(jīng)過(guò)再次分類.本文選取了一些針對(duì)中文字符的特征,作為SVM的特征向量進(jìn)行訓(xùn)練與分類.
1) 面積比例特征

(7)
其中,Area(CC)代表候選文本區(qū)域面積,Area(Pic)表示圖像面積.
2) 長(zhǎng)度比例特征

(8)
其中,w,h分別表示候選文本區(qū)域的寬和高,而PicW和PicH分別表示圖像的寬和高.
3) 長(zhǎng)寬比特征

(9)
4) 邊緣對(duì)比度特征
f_EdgeContrast=

(10)
其中,Canny(Picture)和Sobel(Picture)分別表示圖像的歸一化Canny和Sobel邊緣檢測(cè);Border(CC)表示候選文本區(qū)域的邊界框包含的像素.
5) 形狀規(guī)則特征

(11)
其中,imfill(CC)表示填充候選文本區(qū)域;open(·)表示進(jìn)行開運(yùn)算;imholes(CC)表示統(tǒng)計(jì)候選文本區(qū)域中的孔洞數(shù).
6) 筆畫寬度特征

(12)
其中,varSW(CC)表示候選文本區(qū)域的筆畫寬度方差,meanSW(CC)表示候選文本區(qū)域的筆畫寬度均值.
7) 空間相干性面積比特征

(13)
其中,imdilate(·,strel)代表結(jié)構(gòu)元素strel的形態(tài)膨脹操作.
本文算法的實(shí)驗(yàn)平臺(tái)為戴爾臺(tái)式計(jì)算機(jī),其CPU為Intel core i7的處理器,運(yùn)行內(nèi)存為8 GB,操作系統(tǒng)為64位的Windows 7系統(tǒng).
公開的實(shí)驗(yàn)數(shù)據(jù)集對(duì)文本提取的研究責(zé)任重大,當(dāng)研究人員使用公開數(shù)據(jù)集進(jìn)行算法評(píng)估時(shí),算法的性能體現(xiàn)才更具說(shuō)服力.對(duì)于中文文本的提取,目前沒有公開且權(quán)威的自然場(chǎng)景圖像數(shù)據(jù)集.雖然有西安電子科技大學(xué)建立的中文圖像數(shù)據(jù)集,卻只在校園內(nèi)研究使用.為了更好地評(píng)定本文的研究,根據(jù)ICDAR數(shù)據(jù)集的圖像組成規(guī)則,建立了針對(duì)中文文本提取的圖像庫(kù),具體建立方法如下:
1) 數(shù)量組成.220幅訓(xùn)練樣本的圖像和180幅測(cè)試圖像.
2)
圖像分辨率范圍.ICDAR競(jìng)賽圖像庫(kù)的圖像分辨率范圍是860×640至1 600×1 200,本文采集的圖像其分辨率從860×640至2 048×1 536.
3) 難度比例.根據(jù)圖像中文本提取的難度,將圖像分為難、中和易3個(gè)等級(jí).ICDAR競(jìng)賽圖像庫(kù)中圖像難度比例約為3∶1∶1,因此自建的中文圖像庫(kù)也遵循著這一難度比例.
4)
圖像文本內(nèi)容.ICDAR圖像庫(kù)中文本內(nèi)容包括路邊標(biāo)志牌文本、服飾標(biāo)簽文本、圖書封面文本、車輛車牌號(hào)、宣傳字畫文本、包裝袋封皮文本和建筑物名稱等,自建庫(kù)也同樣包含這些內(nèi)容.
5) 字符組成.ICDAR圖像庫(kù)的圖像中只包含英文文本,而自建庫(kù)是針對(duì)中文的,因此主要由大量的中文文本、少量的阿拉伯?dāng)?shù)字和英文文本組成.
在ICDAR比賽出現(xiàn)之后,學(xué)術(shù)界對(duì)文本檢測(cè)、提取和識(shí)別的評(píng)價(jià)標(biāo)準(zhǔn)都迎合了ICDAR比賽中使用的評(píng)價(jià)方法.根據(jù)ICDAR評(píng)估協(xié)議,算法的性能是通過(guò)f值評(píng)定的,它是通過(guò)精確率和召回率調(diào)和平均值測(cè)定的.2個(gè)矩形之間的匹配度m被定義為交點(diǎn)面積與包含2個(gè)矩形的最小邊界矩形的比值.由每種算法估計(jì)的矩形集稱為估計(jì)值,而在ICDAR數(shù)據(jù)集中提供的基準(zhǔn)矩形集稱為目標(biāo).對(duì)于每個(gè)矩形,找到具有最大值的匹配.因此,1組矩形R中矩形r的最佳匹配是
m(r,R)=max{m(r,rg)|rg∈R}.
(14)
然后,精確率和召回率的含義是
(15)
(16)
其中,E和T分別是目標(biāo)矩形和估計(jì)矩形的集合.f是算法性能的單一度量,是精確率和召回率的組合指數(shù).提取結(jié)果的精確率和召回率的相對(duì)權(quán)重由1個(gè)參數(shù)α控制,其被設(shè)置為0.5,得到相等權(quán)重的精確率和召回率:

(17)
本文對(duì)圖像集中每張圖像的平均處理時(shí)長(zhǎng)為0.86 s,滿足物聯(lián)網(wǎng)的實(shí)時(shí)響應(yīng)要求.在本文算法利用先驗(yàn)知識(shí)初步過(guò)濾處理過(guò)程中,選取合適的約束條件值進(jìn)行初步的過(guò)濾,可以為后續(xù)的處理過(guò)程提供有力支撐.從圖3可以看出,當(dāng)過(guò)濾條件選取不恰當(dāng)時(shí),會(huì)對(duì)召回率的影響巨大,從而間接地影響了f值.
中文聚合步驟對(duì)于最終中文文本的提取至關(guān)重要,因此我們對(duì)其中涉及的關(guān)鍵參數(shù)λ的取值進(jìn)行了實(shí)驗(yàn).圖4顯示了不同的λ取值對(duì)算法性能f的影響,能夠看出:當(dāng)λ=10時(shí)精確率和召回率都達(dá)到了峰值,算法具有最佳的性能;而當(dāng)λ的取值逐漸增大,會(huì)造成聚合過(guò)度,即將2個(gè)獨(dú)立中文文本被錯(cuò)誤地合并成1個(gè)字符,這個(gè)錯(cuò)誤聚合的文本無(wú)法通過(guò)SVM的驗(yàn)證,影響了精確率和召回率;相對(duì)地,當(dāng)λ的取值逐漸變小,會(huì)逐漸地使得分散的筆畫無(wú)法被有效地聚合為1個(gè)完整中文文本,同樣會(huì)影響精確率和召回率,導(dǎo)致f值偏低.

Fig. 3 Comparison of prior knowledge parameters圖3 先驗(yàn)知識(shí)參數(shù)取值比較

Fig. 4 Comparison of Chinese aggregate parameter λ圖4 中文聚合參數(shù)λ取值比較
SVM分類時(shí)本文使用多項(xiàng)式核函數(shù),由于特征維數(shù)低,樣本數(shù)遠(yuǎn)超過(guò)特征維數(shù).分類的情況如表1所示,訓(xùn)練樣本為220幅訓(xùn)練圖像中提取出候選中文字符區(qū)域,而測(cè)試樣本為180幅測(cè)試圖像中提取的所有候選中文字符區(qū)域,可以看出SVM的分類效果明顯優(yōu)于KNN算法.

Table 1 Performance Comparison of Several Chinese Text Positioning Classification Methods表1 2種中文文本定位分類方法的性能比較
將本文的算法與近幾年提到的中文文本提取算法進(jìn)行對(duì)比,結(jié)果如表2所示.由表2可知,本文的算法在自建庫(kù)上具有較好的提取效果,相較前人的中文文本提取算法,由于本文的算法對(duì)光照不均圖像和模糊圖像具有更好的處理能力,并對(duì)自然場(chǎng)景中復(fù)雜背景圖像具有更穩(wěn)定的提取效果,所以精確率和召回率有一定程度的提高.

Table 2 Performance Comparison of Several Chinese Text Positioning Extraction Methods表2 5種中文文本定位提取方法的性能比較
圖5所示的為本文算法中文文本提取的效果,圖5(a)為原始自然場(chǎng)景圖像,而圖5(b)為提取后的二值圖像.從圖5中可以看出,自然場(chǎng)景圖像里的中文文本都被很好地提取出.

Fig. 5 Algorithm experimental result display圖5 算法實(shí)驗(yàn)結(jié)果展示
本文在迎合物聯(lián)網(wǎng)與圖像處理結(jié)合的思想上,針對(duì)智慧城市中應(yīng)用提取文本信息來(lái)加速對(duì)城市場(chǎng)景的監(jiān)測(cè),研究了針對(duì)自然場(chǎng)景下的高效中文文本提取算法,并解決了現(xiàn)有中文文本算法因效率不足而無(wú)法應(yīng)用于城市場(chǎng)景監(jiān)測(cè)的問(wèn)題.提出了在自然場(chǎng)景圖像下基于邊緣增強(qiáng)的最大穩(wěn)定極值區(qū)域中文文本提取方法,首先得到候選MSER,并使用字符的長(zhǎng)短軸和面積、空洞數(shù)目等約束條件高效地過(guò)濾明顯的非MSER,對(duì)候選文本進(jìn)行初步驗(yàn)證.經(jīng)過(guò)初步過(guò)濾后,運(yùn)用中心聚合的方法,使得MSER聚合成各個(gè)候選文本區(qū)域,最后通過(guò)SVM驗(yàn)證得到文本.通過(guò)對(duì)算法性能的測(cè)試和評(píng)估,結(jié)果表明,本文提出的算法具有較高的精確率和召回率,解決了現(xiàn)有的在自然場(chǎng)景圖像下針對(duì)中文文本提取效率不足的問(wèn)題,且較少的處理時(shí)間也滿足了智慧城市架構(gòu)下對(duì)城市場(chǎng)景分析和識(shí)別的實(shí)效性.