999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然場景中文字定位系統(tǒng)研究綜述

2018-07-07 03:18:20季昊龍
山東化工 2018年11期
關鍵詞:文本區(qū)域方法

季昊龍

(中國刑事警察學院 聲像資料檢驗技術系,遼寧 沈陽 110035)

1 研究背景和意義

圖像逐步成為不可或缺的信息載體,這是由于智能手機等數碼產品的普及,使得圖像的產生越發(fā)容易。并且互聯(lián)網的普及,網民數量日益攀升,網絡成為圖片傳播的重要途徑,使得圖片的數量爆炸式增長。起初數字圖像處理重點處理圖像數據本身,如圖像的小波變換、壓縮、降噪等目的是提高圖像品質,降低儲存成本。現在圖像處理結合人工神經網絡、模糊邏輯等新理論方法,使圖像處理往更高層面發(fā)展,實現圖像處理的人工智能。

圖像含有大量內容,如人、建筑物以及文字等等。其中文字作為重要內容之一包含大量潛在關鍵信息。如馬路標識、店鋪名稱上面均含有文字,對于自然場景定位識別提供了重要線索。如圖1所示左邊是馬路標識,右邊是店鋪名稱。若實現對文字信息自動定位識別,則接下來可以用于圖片檢索、計算機視覺、自動巡航、無人汽車等,為人們生活提供便利。

圖1 馬路標識與店鋪名稱

2 自然場景文字定位技術研究現狀

2.1 自然場景文字定位特點

認知自然場景文字是在對文字所處環(huán)境限制少的情況下,對文字進行的定位和識別。先采集圖像,得到圖像后再進行定位、分析,達到識別的目的。自然場景圖像文字與傳統(tǒng)掃描文檔的文字相比,具有表1所示的特點。

表1 自然場景圖像文字與傳統(tǒng)掃描文檔的文字特點對比

圖2 背景復雜條件

圖3 易受環(huán)境因素影響條件

圖4 文字樣式不統(tǒng)一

2.2 文字定位技術研究現狀

在文字定位中OCR應用較普及,對于字符完整、背景單一的規(guī)則文字識別率高,但對有大量噪聲、形狀雜亂無章的文字識別率低。通過OCR測試,在任意的PDF文檔里選100個文字塊,識別準確率為97%。而用OCR識別自然場景圖片的文字,該甚至無法區(qū)別非文字區(qū)域和文字區(qū)域,需要事先優(yōu)化,才能將自然場景的文字轉換成可被OCR識別的字符。因此,文字定位系統(tǒng)的性能十分重要,目前定位算法不具普適性,需迫切提高算法性能。正因為自然場景文字定位具有定位價值,大量研究機構致力開發(fā)有效的文字定位系統(tǒng),代表性的有國際文檔分析和識別大會(ICDAR)文字比賽[1]。2017年舉行的ICDAR的中文檢測和識別比賽項目(RCTW)比賽包含兩項任務,分為end-to-end文本識別和文本檢測。文本檢測以PR曲線、mAP、ROC曲線、F-score為評價標準。

PR曲線:該曲線是以查準率(P)為縱坐標,以查全率(R)為橫坐標。P關心的是正、反例子挑選出正例的問題。R關心的是正例挑選出正例的問題。

mAP:每種類別均可繪制PR曲線,X軸與曲線下方之間的面積稱為AP,對AP再求mean,就是mAP。

ROC曲線:曲線的坐標分為假正例率(FPR)與真正例率(TPR)。

F-score:PR曲線中R和P兩個指標。

競賽前五名如表2所示。

表 2 競賽前五名信息

3 自然場景文字定位方法

自然場景文字定位的方法分為基于紋理特征方法、基于連通域分析方法和基于邊緣特征方法。

3.1 基于紋理特征的文本定位方法

對圖像的像素灰度級分布模式的表現被稱為紋理,紋理能反映物品粗糙程度、顆粒程度、光滑程度等質地。背景不具備紋理特征,而文字可以看做是具有特殊性的紋理,所以背景區(qū)域和紋理區(qū)域的分離可以利用基于紋理特征的方法。下面是表示圖像紋理的方法。

3.1.1 頻譜分析法

頻譜分析法是以傅里葉變換為基礎,根據傅里葉變換的波谷、波峰的分布對圖像進行分類。常用的參量有峰值的幅度、數量、峰值與峰值間的相差角、距離等。

3.1.2 統(tǒng)計分析法

統(tǒng)計分析法有紋理邊緣、自回歸模型、自相關函數、灰度空間共生概率等。

3.1.3 結構分析法

結構方法主要研究基元。基元是一種單元集合,這種單元集合因具有某種屬性(連通域的灰度、形狀),彼此相鄰。基元的空間關系包括基元的最近間隔和相鄰性等[2]。

基于紋理特征的方法對圖像中文字區(qū)域進行文字信息提取,首先對圖像的紋理特征進行檢測,常用傅里葉變換、小波變換等,然后利用窗口掃描并分析該窗口是否含有文本,當窗口內含有文本時得到候選文本區(qū)塊,然后使用金字塔對字符大小不一的情況進行分解,最后把候選文本區(qū)還原到原圖像進行合并[3]。如使用窗口遍歷圖像,并在窗口圖像中提取紋理特征分別為窗口內邊緣點的數量、提取窗口內梯度的均值、提取窗口內圖像邊緣點的直方圖以及提取窗口內梯度的方差。再從得到的這幾類紋理特征中利用信息熵選取出更有效的特征分類子窗口。Mao等人針對圖像含有混合文本的檢測,提出多尺度紋理分析的方法。先對圖像進行小波變換,計算圖像局部能量差異,非文本區(qū)域局部能量差異小,文本區(qū)域局部能量差異大。對差異圖二值化處理并連通域分析,得到候選文本區(qū)域將非文本區(qū)域排除。

基于紋理的方法能得到較高的檢測率,對于字符大小的尺寸不敏感。但該方法要先計算圖像紋理特征,當遇到與文字紋理特征相似的圖像時,易受干擾。并且計算過程中需要卷積運算,計算復雜,耗時長。

3.2 基于連通域分析的文本定位方法

該方法利用場景圖片中同一區(qū)域文本色彩相似,寬高大小比相似,字符與背景有較高的對比度且邊緣明顯的特性。采用二值化分割或顏色聚類得到連通區(qū)域,把得到的連通區(qū)域當做文本候選區(qū)域,利用連通域大小、字符覆蓋率等先驗知識為限制條件對上述的連通區(qū)域進行篩選。最終將非文本區(qū)域去除從而得到文本區(qū)域。但是自然場景圖像中,顏色相對復雜,對分割的影響較大,可能會出現一個字符被分割到不同的連通區(qū)域中,與可能會出現字符和背景被分割到一個區(qū)域的情況。研究人員對此進行相應的改進,例如:在檢測自然場景中任意字符串的時候。Yi利用顏色均勻性和局部梯度特性首先對自然場景的圖像進行分割,然后在分割好的圖像中找到含有文本字符的區(qū)域作為字符的候選區(qū)域[4]。依據文本字符大小差異、字符對齊以及字符與字符間距等結構特征,在候選區(qū)中合并候選字符。并假設三個及三個以上的字符組成一個文本字符串,他們提出檢測字符串的兩種算法:一是文本行合并法,文本行合并法通過霍夫變換使文本行在候選區(qū)的中心處,表示出潛在的字符串方向。該算法提高了準確性和效率,二是相鄰字符合并法。該方法的字符串片段是依靠計算字符的相鄰候選區(qū)得到,得到字符串片段后再對其進行交叉合并從而得到文本字符串。

對于雜志、新聞圖像上的文本,Soo-chang Pei提出一種新方法來進行檢測。首先對需要處理的圖像進行彩色量化得到柱狀圖,挑出幾種候選顏色。然后設置閾值對選出的顏色進行二值化,得到二值化圖像。再對二值子圖像進行邊緣檢測、連通域分析得到文本區(qū)域,該算法誤報率低[5]。

以上兩種基于顏色特征進行連通域分析法,在需要處理的圖像有噪聲或圖像中文本尺寸、方向變化的情況下,表現出較好的性能,適合根據圖像內容進行檢索的圖像系統(tǒng)。

3.3 基于邊緣特征的文本定位方法

因為自然場景圖片中背景與字符對比度較高,字符的邊緣信息十分豐富,像素灰度值的變化很大,兩者之間邊緣明顯,適用于計算機辨別自然場景圖像中的文字。基于邊緣特征的文本定位方法依據圖像中豐富的字符邊緣信息進行檢測。常用的邊緣檢測算子如表3所示。

表3 常用的邊緣檢測算子

對于自然場景圖片進行基于邊緣特征文本定位時,灰度化處理待處理圖片,得到灰度圖像后通過邊緣檢測定位文字區(qū)域。例如:Hasan提出使用形態(tài)學技術的辦法,待處理圖片進行灰度化處理并獲得對應的邊緣圖,然后利用形態(tài)學運算對邊緣圖進行噪聲過濾、連接邊緣,最后根據顏色相似性進行文本檢驗。該方法受到傾斜、文字方向、噪聲的干擾小。但如果在自然場景圖像中背景與文本色彩差異很大,圖像灰度化處理后兩者的灰度值差異很小的情況,該方法無法有效處理。Smith提出先對圖像利用差分濾波器進行過濾,得到文字垂直邊緣特征,之后對文字的相鄰連接邊緣、小邊緣進行過濾,即可定位到文本區(qū)域 Agnihotri提出一種對視頻中的文本進行定位方法,該方法流程如下:

Min Cai提出了一種利用邊緣密度、強度、水平分布等特征不變進行檢測的辦法[6]。先提取圖像邊緣并設定閾值對圖像中非文本邊緣進行過濾,設定閾值對比度低的文本進行保持,而復雜且對比度高的文本進行簡化。利用增強算子強調邊緣密度高、強度高的區(qū)域。最后定位含有文本的區(qū)域。

上述利用邊緣檢測進行文本定位,速度快,時間復雜性低。適用于簡單背景且文本有豐富的邊緣信息的定位,但當背景復雜時,會檢測出大量非文本,虛警率比較高。

4 總結

自然場景圖片中文字區(qū)域繁雜多樣,字符特征隨之變化。自然場景文字的定位方法對于不同類型的文本文字需要選擇性。一種文字定位方法對于特定的文本具有良好的定位效果,但對于其他類型的文本無法進行有效定位。并且在自然場景中背景復雜,光照不均勻,文字的大小、樣式、排列方式的不統(tǒng)一使得文本問題具有隨機性、多樣性以及挑戰(zhàn)性。由此可見僅僅選用某一類處理方法和特征并不能取得良好的效果,現在都是基于多種方法和特征的組合利用進行有效定位。

5 展望

目前文字識別系統(tǒng)商業(yè)化的發(fā)展受到自然場景中文字定位系統(tǒng)的制約,國內外大量的研究機構和人員力求開發(fā)出高識別性、高魯棒性、高準確性、高召回率的文字識別定位系統(tǒng)。人工智能的利用配合多方法結合和全方位分析稱為自然場景文字定位系統(tǒng)的發(fā)展潮流。智能手機的迅速發(fā)展及廣泛應用也對文字定位系統(tǒng)的運行速度等方面提出了新要求。隨著人們對于技術探索的不斷深入和人工智能的快速發(fā)展,我們期待在

未來自然場景中文字定位技術一定會有巨大的飛躍。

[1]王 煒.基于角點和顏色的自然場景文字定位技術研究[D].西安:西安電子科技大學,2011.

[2]周 易.基于關聯(lián)規(guī)則挖掘的圖像檢索[J].軟件,2012,33(4):28-30.

[3]陳 森.自然場景圖像中的文本定位方法及應用研究[D].廣州:華南理工大學,2011.

[4]柏宏飛.場景圖像文字提取方法研究與應用[D].上海:復旦大學,2009.

[5]歐文武,朱軍民,劉昌平.自然場景文本定位[J].中文信息學報,2004,18(5):42-47.

[6]王 毅.基于內容的新聞視頻摘要技術研究[D].鄭州:解放軍信息工程大學,2010.

猜你喜歡
文本區(qū)域方法
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關于四色猜想
分區(qū)域
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于嚴重區(qū)域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲无码精彩视频在线观看| 日本www色视频| 日韩高清在线观看不卡一区二区| 无码高潮喷水在线观看| 久热re国产手机在线观看| 国产综合日韩另类一区二区| 国产欧美日韩在线一区| 五月婷婷精品| www亚洲精品| 一级片一区| 国产91丝袜在线播放动漫 | 国产一区二区丝袜高跟鞋| 国产交换配偶在线视频| 中国特黄美女一级视频| 午夜国产精品视频黄| 亚洲中文在线视频| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产精品亚洲一区二区三区z| 亚洲国产91人成在线| 欧美一区二区人人喊爽| 国产色婷婷视频在线观看| 久久久久久久久18禁秘| a毛片基地免费大全| 日本人又色又爽的视频| 国产精品美人久久久久久AV| 国产精品99久久久久久董美香 | 免费一级α片在线观看| 国产亚洲高清在线精品99| 夜夜操狠狠操| 婷婷午夜天| 免费日韩在线视频| 成年人午夜免费视频| 国产在线观看成人91| 热99精品视频| 欧美亚洲一区二区三区导航| 一级黄色欧美| 国产成人精品高清在线| 天天色综网| 欧美成人在线免费| 91福利免费视频| 欧美福利在线| 99热这里只有精品5| 国产又色又爽又黄| 青青草原国产精品啪啪视频| 精品一区二区三区自慰喷水| 国产日韩精品欧美一区灰| 亚洲成人网在线播放| 欧美高清国产| 免费无码AV片在线观看国产| 婷婷开心中文字幕| 国产高清精品在线91| 欧美成人手机在线观看网址| 精品久久久久久久久久久| 久久国产av麻豆| 99精品福利视频| 欧美不卡视频一区发布| 免费va国产在线观看| 欧美激情网址| 狠狠色丁香婷婷综合| 国产在线精品人成导航| 四虎影视无码永久免费观看| 无码精油按摩潮喷在线播放 | 欧美成人综合视频| 国产精品久久久久婷婷五月| 成人免费午夜视频| 国产区91| 午夜毛片免费观看视频 | 91国内在线视频| 婷婷六月激情综合一区| 国产亚卅精品无码| 国产精品久久久久久久伊一| 国产欧美日韩资源在线观看| 人妻中文久热无码丝袜| 狼友视频一区二区三区| 天天躁狠狠躁| 91丝袜在线观看| 免费三A级毛片视频| 国产97视频在线| 在线日韩日本国产亚洲| 国产乱人伦偷精品视频AAA| 在线精品欧美日韩| 无码福利日韩神码福利片|