999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合邊緣檢測與CNN 分類場景文本檢測的研究

2019-06-27 00:38:52張哲汪毓鐸
現(xiàn)代計(jì)算機(jī) 2019年13期
關(guān)鍵詞:文本區(qū)域檢測

張哲,汪毓鐸

(北京信息科技大學(xué)信息與通信工程學(xué)院,北京100101)

0 引言

移動互聯(lián)網(wǎng)的高速發(fā)展以及智能手機(jī)、可穿戴設(shè)備等移動電子設(shè)備的普及,使得自然場景圖像的獲取和傳輸變得越來越便捷[1]。圖像中場景文本的檢測和識別是獲取圖像中語義信息的重要方法,其中場景文本的檢測高成功率可以有效降低場景文本識別的復(fù)雜度。到目前為止,不同于傳統(tǒng)的光學(xué)字符識別,場景文本檢測存在照明、投影的可變性、失真、尺度、字體方向等問題[2]。當(dāng)前許多應(yīng)用程序中都有用到從場景圖像中檢測文本,例如身份證識別、名片識別、票據(jù)識別、車牌識別、視頻字幕識別、Google 街景識別等。在當(dāng)今的智能化環(huán)境下,快速高效文本檢測可以有效提高文本識別的識別率,且整套的流程可以結(jié)合起來以便商用。因此面向場景文本圖像檢測方法的研究既有重要的理論研究意義,又有廣闊的應(yīng)用前景。

1 研究現(xiàn)狀

目前,常用的場景文本檢測方法主要有以下四類[3]:基于紋理特征的文字檢測[4-8]、基于邊緣的文字檢測[9-12]、基于連通域的文字檢測[13-18]以及基于深度學(xué)習(xí)的文字檢測[19-24]。

Kumuda T 等人基于紋理特征使用一階和二階統(tǒng)計(jì)提取,先檢測出文本區(qū)域,使用判別函數(shù)過濾掉非文本區(qū)域,再文本區(qū)域合并和定位[6]。Liu C 等人提出基于邊緣特征的無監(jiān)督分類的圖像文本檢測算法[10],它使用應(yīng)用邊緣檢測來獲得水平、垂直、左上和右上方向的四個邊緣圖,從四個邊緣圖中提取特征用來表示文本的紋理屬性,再應(yīng)用K 均值算法來檢測文本候選區(qū)域,最后通過經(jīng)驗(yàn)規(guī)則分析確定文本區(qū)域,主要針對圖像和視頻中的文本檢測。Ma J 等人提出構(gòu)造最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Region,MSER)樹,通過非最大抑制策略去除重疊MSER,根據(jù)節(jié)點(diǎn)特征修剪鏈接樹[13]。Jiang Y 等人使用基于旋轉(zhuǎn)區(qū)域CNN(R2CNN)的自然場景文本檢測方法,使用區(qū)域建議網(wǎng)絡(luò)生成軸對齊的邊界框,再利用傾斜非最大值抑制策略得到最終檢測結(jié)果[19]。

盡管許多學(xué)者對場景文本圖像中的文本檢測算法做了相應(yīng)的研究,并取得了較好的研究成果。但在復(fù)雜背景情況下,很難達(dá)到滿意的檢測效果。因此,本文研究了結(jié)合邊緣檢測與CNN 分類剔除非文本區(qū)域的場景文本圖像檢測方法,減少了從顏色信息和邊緣細(xì)節(jié)信息獲取場景文本圖像的限制,并提取文本區(qū)域。

2 場景文本檢測

在本文中,場景文本檢測分四步完成,其主要流程圖如圖1 所示。預(yù)處理模塊的主要功能是將輸入場景文本圖像的文本信息進(jìn)行增強(qiáng)處理。文本定位模塊主要功能是通過邊緣檢測方法對預(yù)處理的文本圖形進(jìn)行初始文本定位。文本篩選模塊主要功能是對初次定位完的文本信息進(jìn)行篩選,利用CNN 分類剔除非文本信息。文本框融合模塊的主要功能是按距離對過濾后的文本信息進(jìn)行整合,并輸出最終結(jié)果。

圖1 場景文本檢測流程圖

2.1 預(yù)處理

在圖像分析中,圖像質(zhì)量直接影響設(shè)計(jì)的準(zhǔn)確性和識別算法的效果,因此在圖像分析(特征提取、分割、匹配和識別等)之前需要進(jìn)行預(yù)處理。圖像預(yù)處理的主要目的是去除圖像中與文字無關(guān)的背景信息,凸顯真實(shí)有用的文字信息,提高有用文字信息的可檢測性。從而,可以實(shí)現(xiàn)提高字符特征提取的目的以及文本圖像分割,匹配和識別的可靠性。預(yù)處理流程如圖2所示。

圖2 預(yù)處理流程

(1)灰度圖像

對于輸入的顏色為RGB 的圖像,它在每個顏色分量上分解并分別由R、G 和B 表示。灰度圖像的灰度值表示如式(1)所示,其中Y 表示灰度值。灰度轉(zhuǎn)換前的待測場景文本圖像如圖3(a)所示,轉(zhuǎn)化后的場景文本圖像如圖3(b)所示。

圖3 場景文本顏色轉(zhuǎn)換圖像

(2)中值濾波

中值濾波是一種用于對圖像進(jìn)行非線性降噪的過程。中值濾波的原理是:首先選取一個像素中心點(diǎn),可以為當(dāng)前像素,然后在中心點(diǎn)周圍設(shè)置鄰域窗口,并將該鄰域范圍內(nèi)的所有像素的灰度值進(jìn)行排序,有序數(shù)列的中值將被視為中心點(diǎn)新的像素值。在中值濾波之后,可以有效平滑灰度文本圖像。

(3)圖像二值化

圖像二值化是將中值濾波后的圖像轉(zhuǎn)化成一個非黑即白二值圖像的過程。中值濾波圖像包含要測試的文本和相應(yīng)的背景噪聲。它的像素值在0 到255 之間,而二值圖像的像素值只有0 和255。要從多色值圖像中提取目標(biāo)文本,可使用設(shè)置閾值P 的方法。當(dāng)中值濾波圖像中的任何點(diǎn)的像素值大于閾值P 時,其像素值被設(shè)置為255。反之,當(dāng)像素值小于閾值P 時,將其設(shè)置為0。當(dāng)中值濾波圖像中的像素等于閾值P時,其像素值可以設(shè)置為0 或255 中的任一值。在本文中,中值濾波文本圖像通過進(jìn)行二值處理后,結(jié)果如圖4 所示。

圖4 場景文本二值圖像

2.2 邊緣檢測

由于文本由一系列帶邊的筆劃組成,因此圖像中的文本和背景被文本的邊分割。本文使用的邊緣檢測就是利用文字的邊緣與背景圖像的顏色差來定位文本,其主要流程是對二值圖像進(jìn)行擴(kuò)展、腐蝕再取兩者差值確定文本的邊緣。具體步驟為:

(1)設(shè)定擴(kuò)展核函數(shù),對二值圖像進(jìn)行邊緣細(xì)節(jié)擴(kuò)展處理,結(jié)果如圖5(a)所示;

(2)設(shè)定腐蝕核函數(shù),對二值圖像進(jìn)行邊緣細(xì)節(jié)腐蝕處理,結(jié)果如圖5(b)所示;

(3)對圖5(a)和圖5(b)的兩幅圖像像素值作異或處理,得到文本邊界,結(jié)果如圖5(c)所示;

(4)再次設(shè)定擴(kuò)展核函數(shù),對圖5(c)進(jìn)行邊緣細(xì)節(jié)擴(kuò)展處理,結(jié)果如圖5(d)所示。

設(shè)置擴(kuò)展的目的是讓輪廓更加突出,設(shè)置腐蝕的目的是去掉一些細(xì)節(jié)線,如表格線等。第二次異或后的圖像進(jìn)行擴(kuò)展是為了讓邊緣線輪廓更明顯一些。

圖5 場景文本邊緣檢測圖像

2.3 CNN分類

CNN 分類器的功能主要是過濾邊緣檢測結(jié)果并消除非文本區(qū)域。為了能夠訓(xùn)練出一個準(zhǔn)確率比較高的分類器,需要準(zhǔn)備大量的訓(xùn)練數(shù)據(jù),使用了5000 張訓(xùn)練圖像,大小統(tǒng)一,其中包括正樣本和負(fù)樣本圖像。正樣本圖像是多個場景圖像中截取的字體多樣、方向各異、大小不同的文字區(qū)域圖像。負(fù)樣本圖像是文本圖像的干擾項(xiàng),如樓梯、樹木、汽車、街道、房屋,等等。

在短文本分析任務(wù)中,由于句子長度有限,結(jié)構(gòu)緊湊,意思可以獨(dú)立表達(dá),使用CNN 來處理這類問題是十分可行的。CNN 分類器結(jié)構(gòu)包含兩層卷積層、一層池化層、一層全連接層。卷積核大小為5×5。訓(xùn)練樣本數(shù)據(jù)如圖6 所示,其中圖(a)是正樣本數(shù)據(jù),圖(b)是負(fù)樣本數(shù)據(jù)。

圖6 訓(xùn)練樣本數(shù)據(jù)

2.4 文本框融合

經(jīng)過分類器后,圖像中的文本區(qū)域可被標(biāo)識出來,文本框的位置、高度、寬度、中心點(diǎn)等數(shù)據(jù)也會被相應(yīng)記錄。文本框融合的目的是將相鄰字符,如同一個單詞的多個字母、包含同一個字符的多個文本框等可被合并的文本框融合為一個大的文本框,具體實(shí)現(xiàn)方法如下:

(1)對所有N 個文本框進(jìn)行標(biāo)記,編號為1,2,…,N,生成大小為N×N 的文本區(qū)域矩陣;

(2)根據(jù)文本區(qū)域的矩陣,計(jì)算個文本框之間的距離,并存儲在新的距離矩陣D 中,其中Dij表示第i 個區(qū)域與第j 個區(qū)域中心點(diǎn)間的歐氏距離,計(jì)算Dij的均值d;

(3)生成新的標(biāo)記矩陣T,初始值為0,大小為N×N。遍歷矩陣D,尋找小于特定門限(可設(shè)置為1.5d)的Dij,則認(rèn)為第i 個區(qū)域與第j 個區(qū)域可聚類為同一個區(qū)域,將Tij設(shè)置為與Tii相同的值,同時設(shè)置T(i+1,i+1)=T(i,i)+1;

(4)遍歷矩陣T,按行或按列尋找與Tii相同的Tij或Tji,連通對應(yīng)的第i 個區(qū)域與第j 個區(qū)域,生成新的矩形框;

(5)更新文本框。

經(jīng)過融合后的文本框不僅可以起到去重的作用,還可以為之后的文本識別奠定基礎(chǔ)。

3 可行性分析

輸入包含文本的自然場景圖像,使用上述方法進(jìn)行文本檢測,測試結(jié)果如圖7(a)所示。將檢測到的文本矩形框按距離進(jìn)行融合,得到如圖7(b)所示的最終結(jié)果。

圖7 檢測結(jié)果

4 結(jié)語

本文研究了場景文本檢測方法,充分利用了場景文本圖像的顏色信息和邊緣信息,并使用了深度學(xué)習(xí)模型做分類。首先對獲取的場景圖像執(zhí)行預(yù)處理,對預(yù)處理后的圖像執(zhí)行邊緣檢測,并獲得候選字符區(qū)域,將其輸入到CNN 模型中以進(jìn)行分類和篩選,以確定它是否為文本圖像,并保留所需的文本區(qū)域。從而實(shí)現(xiàn)文本字符的檢測提取。實(shí)驗(yàn)結(jié)果表明,本文的方法可以有效應(yīng)用于場景文本圖像的文本檢測,具有較好的文本區(qū)域提取能力。

猜你喜歡
文本區(qū)域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應(yīng)用
關(guān)于四色猜想
分區(qū)域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 国产欧美中文字幕| 国产h视频免费观看| 99久久这里只精品麻豆| 免费国产高清精品一区在线| 色综合激情网| 国产网站免费观看| 欧美无专区| 五月综合色婷婷| 国产精品欧美日本韩免费一区二区三区不卡 | 97在线公开视频| 国产欧美精品午夜在线播放| 欧美午夜一区| 欧美黑人欧美精品刺激| 日韩黄色在线| 日韩AV无码免费一二三区| 无码 在线 在线| 波多野结衣中文字幕一区二区 | 人妻无码AⅤ中文字| 91系列在线观看| 尤物成AV人片在线观看| 性欧美精品xxxx| 久久久精品久久久久三级| 国产麻豆va精品视频| 毛片卡一卡二| 午夜国产精品视频| 国产农村妇女精品一二区| 专干老肥熟女视频网站| 99一级毛片| aa级毛片毛片免费观看久| 国产毛片基地| 精品成人一区二区三区电影 | 久久久久久久97| 国产精品欧美激情| 天堂成人在线视频| 国产小视频网站| 亚洲精品老司机| 91年精品国产福利线观看久久| 免费人成黄页在线观看国产| 青青草综合网| 免费一级毛片不卡在线播放| 5555国产在线观看| 久久久久人妻一区精品色奶水| 黄色一及毛片| 啪啪免费视频一区二区| 天天色天天综合网| 精品国产香蕉伊思人在线| 中文无码精品A∨在线观看不卡| 自拍欧美亚洲| 潮喷在线无码白浆| 欧美三级视频在线播放| 日韩欧美91| 综1合AV在线播放| 日本欧美在线观看| 国产熟睡乱子伦视频网站| 中文字幕有乳无码| 日韩毛片基地| 亚洲第一区欧美国产综合| 久久动漫精品| 91成人在线观看| 欧美色综合久久| 国产精品99久久久| 狠狠做深爱婷婷久久一区| 国产69囗曝护士吞精在线视频| 亚洲中文在线视频| 久久综合九九亚洲一区| 四虎成人精品在永久免费| 91久久天天躁狠狠躁夜夜| 亚洲色图在线观看| 欧美日韩国产在线播放| 丁香六月激情综合| 2018日日摸夜夜添狠狠躁| 欧洲成人在线观看| 久精品色妇丰满人妻| 欧洲成人在线观看| 免费中文字幕在在线不卡 | 亚洲成人高清无码| 无码区日韩专区免费系列| 亚洲男人在线| 国产v精品成人免费视频71pao | 日韩中文无码av超清| 99在线视频免费观看| 精品国产中文一级毛片在线看|