王康
摘 要:隨著現(xiàn)代科學(xué)技術(shù)的快速發(fā)展,視頻圖像技術(shù)的應(yīng)用越來越廣泛,與此同時,人們對從視頻圖像中檢測識別文字的要求也越來越高。文字檢測是文字信息提取系統(tǒng)的前端,是文字信息提取中最關(guān)鍵的一步。近年來,視頻圖像文字信息檢測領(lǐng)域有了新的重要的發(fā)展,本文分析了近年來文字檢測技術(shù)的主要進(jìn)展,并對視頻圖像中的文字檢測技術(shù)的難點(diǎn)進(jìn)行總結(jié)。
關(guān)鍵詞:視頻圖像文字 文字檢測 邊緣檢測 區(qū)域分析 基于紋理方法 機(jī)器學(xué)習(xí)
圖像的內(nèi)容可以分為感知內(nèi)容和語義內(nèi)容。色彩、灰度、形狀、紋理及其隨時間的變化是感知內(nèi)容,而物體、事件以及關(guān)系是語義內(nèi)容。語義內(nèi)容根據(jù)文字、人臉、車牌和人的行為等進(jìn)行分類。在這些分類基準(zhǔn)中,文字是本文尤其感興趣的部分,因?yàn)椋海?)文字相對其他語義內(nèi)容更容易被提取;(2)文字在描述圖像內(nèi)容時十分有效;(3)文字能夠支持關(guān)鍵字搜索、自動視頻日志和圖像索引。通過提取視頻圖像中的文字內(nèi)容信息,可對視頻圖像內(nèi)容進(jìn)行描述。提取視頻圖像中的文字,首要的是進(jìn)行視頻圖像中的文字檢測。因此,本文只關(guān)注文字檢測的發(fā)展進(jìn)程。
一、視頻文字檢測的定義
視頻本質(zhì)上是序列圖像流,故下文在敘述上對視頻和圖像、視頻中的文字和圖像中的文字,不作嚴(yán)格區(qū)分。文字信息提取系統(tǒng)是指從視頻圖像中獲取文字信息的系統(tǒng),主要包括文字檢測和識別。文字檢測性能的好壞直接決定了文字識別的結(jié)果,所以文字檢測是文字信息提取系統(tǒng)中最關(guān)鍵的一步。
文字檢測是指檢測視頻圖像是否含有文字,若有,則將文字區(qū)域定位并分割,它的結(jié)果可以直接用于文字識別。有研究中將文字檢測、定位、提取嚴(yán)格區(qū)分,但大部分研究是不作區(qū)分的,因此在本文中默認(rèn)這些概念可相互交換使用。視頻文字主要可分為兩種。一種是場景文字,即在視頻拍攝時自然包含在場景中的文字,如車牌、商標(biāo)、路標(biāo)和運(yùn)動服編號等;另一種是通過人為加工嵌入視頻中的字幕文字,如新聞標(biāo)題、電視劇/電影字幕和不法分子在某些視頻圖像中添加的非法宣傳、標(biāo)語等。早期主要研究字幕文字,近年來場景文字的檢測也取得了一定的發(fā)展。
二、文字檢測的性能指標(biāo)
文字檢測中主要的性能指標(biāo)有查全率、查準(zhǔn)率和f指數(shù)等。這些指標(biāo)來源于信息檢索中的評價(jià)參數(shù),查全率指所有正樣本中正確檢測出來的正樣本所占比例;查準(zhǔn)率指所有檢測出來的樣本(可能包含正、負(fù)樣本)中被正確檢測出來的正樣本所占比例。上述正樣本表示文字區(qū)域,負(fù)樣本表示虛警區(qū)域。f指數(shù)是查全率和查準(zhǔn)率的加權(quán)調(diào)和平均。
三、文字檢測的方法
文字檢測方法分為兩類:基于區(qū)域和基于紋理的方法。基于區(qū)域方法采用自底向上的結(jié)構(gòu),將圖像中的細(xì)小區(qū)域合并成可能的文字區(qū)域。一般采用的特征有連通區(qū)域、顏色和邊緣。基于紋理方法采用自頂向下的結(jié)構(gòu),利用文字的紋理特征將文字從背景分離出來。主要方法有小波變換、濾波器、傅里葉變換和基于機(jī)器學(xué)習(xí)的方法。
四、文字檢測技術(shù)的難點(diǎn)與趨勢
至今,還沒有找到一種能夠完全代表文字的特征,所以大部分文獻(xiàn)采用粗細(xì)法結(jié)構(gòu),使用兩種或多種特征。一般可將特征分為兩種:第一特征和第二特征。第一步粗檢測中,根據(jù)第一特征去除掉明顯的非文字場景;第二步細(xì)檢測中,提取第二特征,使用機(jī)器學(xué)習(xí)方法或啟發(fā)式方法進(jìn)行模式識別。雖然圖像文字檢測取得了很大發(fā)展,但是至今依然沒有一種統(tǒng)一的方法能有效處理各種背景下的文字。這是因?yàn)椋瑘D像背景通常變化多端,各種方法幾乎只在某些特定情況下才顯得有效。相當(dāng)一部分視頻圖像文字檢測的方法是啟發(fā)式的,研究人員一般沒有給出數(shù)學(xué)模型或者物理意義,只提出在某些情況下,該方法比較有效,這不利于進(jìn)一步研究發(fā)展。文字檢測方法繁多,尤其是近年來,基于區(qū)域、基于紋理的方法的分類方式已經(jīng)顯得乏力,圖像文字檢測方法的分類越來越模糊,使用綜合性方法呈增多趨勢。如何更好地歸納和總結(jié)這些方法,給研究人員們提出了新的挑戰(zhàn)。另外,從本文中可以看到,不同方法的性能指標(biāo)的結(jié)果也大相徑庭,更優(yōu)的性能指標(biāo)結(jié)果并不能說明方法就一定好,因?yàn)槟壳皼]有一個標(biāo)準(zhǔn)的視頻圖像數(shù)據(jù)庫用來測試,這在很大程度上影響了不同方法的性能評價(jià)。所以,未來視頻圖像文字檢測也對標(biāo)準(zhǔn)數(shù)據(jù)庫的建立提出了強(qiáng)烈需求。
五、基于區(qū)域的文字檢測方法
基于區(qū)域的方法利用顏色同質(zhì)性、強(qiáng)邊緣性將圖像像素組成文字,根據(jù)顏色、大小和幾何規(guī)則組成文字行。主要用到的特征有:顏色、邊緣、連通分量、角點(diǎn)等。
有研究中采用粗細(xì)法結(jié)構(gòu),第一步用塔式結(jié)構(gòu)處理不同大小的文字,K-均值法計(jì)算最大梯度差圖,得到文字區(qū)域的粗結(jié)果。第二步根據(jù)幾何特點(diǎn)和紋理特征修正結(jié)果后,對圖像進(jìn)行離散小波變換DWT變換,使用主成分分析法和SVM方法將文字和非文字區(qū)域分類。該方法能夠檢測不同大小的文字,方法穩(wěn)定,但是算法復(fù)雜度較高。
5.1基于邊緣的文字檢測
基于邊緣的文字檢測把文字和背景的強(qiáng)對比性作為最主要的特征。通常利用邊緣提取算子對圖像進(jìn)行邊緣檢測,再用平滑算子或形態(tài)學(xué)算子將其合并。
(1)基于連通分量
有研究通過從極值區(qū)域集合中高效地進(jìn)行順序選擇先計(jì)算極值區(qū)域的文字概率分布,獲得局部最大概率極值區(qū)域;再使用高效的反饋循環(huán)窮舉搜索算法將極值區(qū)域組成字母、單詞。該文實(shí)現(xiàn)了一種端到端的實(shí)時文字檢測和識別方法。
(2)角點(diǎn)檢測方法
角點(diǎn)檢測是一種新型的方法。在文字區(qū)域,角點(diǎn)響應(yīng)強(qiáng);在非文字區(qū)域,響應(yīng)較弱。基于角點(diǎn)對文字進(jìn)行檢測,生成角點(diǎn)響應(yīng)圖,利用基于塊的閾值法得到候選文字區(qū)域,進(jìn)行連通區(qū)域分析后用投影法得到文字行。有相關(guān)研究中對圖像進(jìn)行角點(diǎn)檢測,經(jīng)形態(tài)學(xué)膨脹,得到包含角點(diǎn)的區(qū)域。提取區(qū)域的五個特征:面積、飽和度、基于紋理的文字檢測方法
5.2 變換域中的紋理檢測方法
離散余弦變換DCT系數(shù)與灰度的周期性相對應(yīng)。有研究中提出了基于DCT系數(shù)的文字檢測、定位和追蹤的方法。將視頻中1-幀分為8*8的塊,從各塊中取紋理特征強(qiáng)的DCT系數(shù),根據(jù)它們可以得到水平、豎直和對角線的紋理信息,最終用投影法得到水平和垂直方向的文字框。
視頻圖像一般存儲在變換域中,因此基于變換域的文字檢測方法不需要轉(zhuǎn)換輸入格式就能對視頻圖像直接處理,有利于工程實(shí)踐,但是隨著滑動窗口的增大,計(jì)算量迅速增大。
六、結(jié)束語
隨著計(jì)算機(jī)技術(shù)的發(fā)展和互聯(lián)網(wǎng)的興起,人們對視頻數(shù)據(jù)庫檢索的需求越來越迫切,以往的視頻數(shù)據(jù)庫主要依靠人工添加標(biāo)簽,這種作法不但效率低,而且受人的主觀因素很大。建立穩(wěn)定、快速和低成本的視頻文字提取系統(tǒng)勢在必行,本文主要關(guān)注近五年來的圖像文字檢測方法的進(jìn)展,將方法概括為基于區(qū)域和基于紋理的方法,以及綜合性方法。
參考文獻(xiàn)
[1]崔愛斌.淺談數(shù)字視頻圖像檢測技術(shù)的應(yīng)用[J].科技情報(bào)開發(fā)與經(jīng)濟(jì). 2010(35).
[2]曹毅,王林澤.圖像檢測技術(shù)在液態(tài)試劑濃度檢測中的研究與應(yīng)用[J]. 杭州電子科技大學(xué)學(xué)報(bào). 2009(02).
[3]焦圣喜,張利輝,江絳.圖像檢測技術(shù)在工件在線分選中的應(yīng)用[J].機(jī)床與液壓. 2010(05).