999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種語義級文本協(xié)同圖像識別方法

2014-06-06 03:06:24段喜萍劉家鋒王建華唐降龍
關(guān)鍵詞:語義模態(tài)特征

段喜萍,劉家鋒,王建華,唐降龍

(1.哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,150001 哈爾濱;2.哈爾濱師范大學(xué)計算機(jī)科學(xué)與信息工程學(xué)院,150025 哈爾濱;3.黑龍江省高校智能教育與信息工程重點實驗室,150025 哈爾濱)

一種語義級文本協(xié)同圖像識別方法

段喜萍1,2,3,劉家鋒1,王建華2,3,唐降龍1

(1.哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,150001 哈爾濱;2.哈爾濱師范大學(xué)計算機(jī)科學(xué)與信息工程學(xué)院,150025 哈爾濱;3.黑龍江省高校智能教育與信息工程重點實驗室,150025 哈爾濱)

為解決單純依賴圖像低級視覺模態(tài)信息進(jìn)行圖像識別準(zhǔn)率低的問題.考慮到許多圖像中存在文本信息,提出了利用圖像中的文本信息輔助圖像識別的語義級文本協(xié)同圖像識別方法.該方法通過文本定位方法定位到圖像中的文本塊,對其進(jìn)行分割、二值化、提取特征等處理;然后獲取語義,提取圖像底層視覺信息,計算兩模態(tài)的相關(guān)性,從而得到協(xié)同后驗概率;最后,得到聯(lián)合后驗概率,并取其中最大聯(lián)合后驗概率對圖像進(jìn)行識別.在自建體育視頻幀數(shù)據(jù)庫中,通過與以樸素貝葉斯為代表的單模態(tài)方法進(jìn)行比較,方法在3種不同視覺特征下均具有更高的準(zhǔn)確率.實驗結(jié)果表明,文本協(xié)同方法能夠有效輔助圖像識別,具有更好的識別性能.

文本定位;圖像識別;多模態(tài)

如何有效地對圖像或視頻等多媒體信息進(jìn)行分類和識別,以實現(xiàn)諸如圖像自動標(biāo)注、圖像檢索等應(yīng)用具有重要意義,也是目前一個迫切需要解決的熱點問題.在圖像識別中,由于“語義鴻溝”的存在,單純利用圖像底層視覺信息往往不能達(dá)到很好的識別效果.同時許多圖像中包含著與圖像語義更為相關(guān)的文字或文本信息,并且這種圖像的數(shù)目相當(dāng)可觀,如圖1所示.而從目前的情況來看,對于這類圖像,存在不同角度的研究,關(guān)心圖像內(nèi)容識別的一般不關(guān)心其中包含的文本信息,將其視作與問題無關(guān)的背景或者是場景的一部分來處理;而關(guān)心圖像文本識別的則在檢測出文本所在的區(qū)域之后就不再關(guān)心圖像其他部分的內(nèi)容了.不論是圖像識別還是文本識別都沒有完整地利用圖像中所包含的視覺和文本兩種模態(tài)信息進(jìn)行識別,圖像中的信息被孤立地處理.而其中一種模態(tài)信息對另一種態(tài)的語義識別具有重要意義.例如,圖1給出的一組建筑物圖像,借助圖像中的文本信息,很容易對它們進(jìn)行區(qū)分和識別.著眼于此,本文研究利用圖像上的文本信息輔助圖像內(nèi)容識別.

圖1 包含嵌入文本的圖像

據(jù)進(jìn)行文獻(xiàn)搜索所掌握的資料來看,目前還沒有同時利用圖像視覺信息以及其上的文本信息進(jìn)行圖像識別的先例.與之相關(guān)的研究有:1)基于圖像底層信息進(jìn)行圖像識別,即基于計算機(jī)視覺的圖像識別,該類方法可進(jìn)一步分為判別式方法[1-3]和產(chǎn)生式方法[4-11].由于“語義鴻溝”現(xiàn)象的存在,不能保證視覺特征相似的圖像在語義上也相近.因而該類方法無法實現(xiàn)對圖像內(nèi)容的準(zhǔn)確識別.2)對圖像場景文本進(jìn)行檢測與識別[12-13].該類方法在圖像中檢測文本區(qū)域,然后提取文本區(qū)域的字符前景,使用字符識別技術(shù)識別圖像區(qū)域中的文本,一旦檢測出文本所在的區(qū)域之后就不再關(guān)心圖像其他部分的內(nèi)容.3)利用圖像周邊文本輔助圖像識別[14].這類方法利用圖像周圍文本,如圖像的標(biāo)題、鏈接、錨定文本以及替代文本等,建立圖像和文本之間的關(guān)聯(lián)關(guān)系,輔助圖像識別,這類方法適用于具有周圍文本的網(wǎng)絡(luò)圖像識別.

本文提出一種能夠同時利用圖像視覺信息與圖像上嵌入的文本信息的方法,將每個模態(tài)的識別結(jié)果作為一種最簡單的語義信息用于協(xié)同,而不涉及更高層級的語義內(nèi)容.具體來說,同時提取圖像視覺特征信息和文本特征信息,獲取文本語義信息,然后利用文本語義信息輔助圖像視覺信息進(jìn)行建模,建立聯(lián)合后驗概率.模型可分解為:單模態(tài)文本語義識別、單模態(tài)圖像內(nèi)容識別以及兩模態(tài)類別相關(guān)程度計算.通過對以上模型的訓(xùn)練,建立各圖像類識別器,對新圖像進(jìn)行識別.

1 協(xié)同模型

利用文本模態(tài)輔助圖像視覺模態(tài)進(jìn)行圖像識別的過程可以看作是一種利用“跨模態(tài)(crossmodality)”信息進(jìn)行識別的過程.單模態(tài)的識別過程一般是在觀察到屬性特征x的條件下對類別屬性ω的后驗概率進(jìn)行建模的過程.而在跨模態(tài)假設(shè)之下,其中某一模態(tài)類別屬性的后驗概率需要使用兩個模態(tài)的特征屬性共同建模.即對圖像類別ωI的識別不僅需要圖像視覺模態(tài)的特征xI,同時還需要考慮圖像中文本模態(tài)的特征 xT,即需要對進(jìn)行建模,這里將稱作聯(lián)合后驗概率,它可以通過以下兩種方式建模.

1.1 多模態(tài)直接建模

從理論上講,聯(lián)合后驗概率只是擴(kuò)大了識別對象的特征屬性集合,可以采用一般的識別方法進(jìn)行建模,即通過擴(kuò)大特征向量維數(shù)直接對多模態(tài)信息建模.然而對于實際問題來說,直接對聯(lián)合后驗概率建模往往存在著一定的困難,原因是:

1)特征的描述方式不同.來自于不同模態(tài)的特征可能是以不同方式描述的,如圖像內(nèi)容特征可以用顏色或梯度直方圖描述,顯著性區(qū)域的散列表示,甚至是采用多示例包的方式描述;而文本和文字特征則可以描述為筆劃的密度,傅里葉變換、小波變換系數(shù)、筆劃之間的結(jié)構(gòu)關(guān)系等等.按照不同方式描述的特征很難采用統(tǒng)一的形式建模,更適合于分別采用不同的模型描述.

2)模型學(xué)習(xí)困難.即使來自于不同模態(tài)的特征可以采用相同的方式描述,如果將兩個模態(tài)的特征組合為擴(kuò)大的特征集合,勢必造成描述聯(lián)合后驗概率的模型的復(fù)雜度的增加.而在圖像識別的實際應(yīng)用中,可獲得的學(xué)習(xí)樣本一般是有限的,采用數(shù)量不足的樣本學(xué)習(xí)一個復(fù)雜的模型,無法保證模型的泛化能力.

1.2 多模態(tài)協(xié)同建模

為解決聯(lián)合后驗概率直接建模和學(xué)習(xí)的困難,本文提出使用文本模態(tài)輔助視覺模態(tài)對聯(lián)合后驗概率建模,如圖2所示.

圖2 語義級文本協(xié)同的圖像識別過程

模型主要通過Stieltjes積分實現(xiàn)聯(lián)合后驗概率的簡化,具體簡化為

1)直接方式.已知某模態(tài)特征和另一個模態(tài)語義類別信息條件下,協(xié)同后驗概率描述的是該模態(tài)類別的發(fā)生概率.因此可以在學(xué)習(xí)階段,按照一個模態(tài)的類別監(jiān)督信息將樣本劃分成不同的子集,分別學(xué)習(xí)當(dāng)該模態(tài)屬于某個類別時另一個模態(tài)的分類器.協(xié)同識別時根據(jù)一個模態(tài)的識別結(jié)果分別使用不同的分類器計算另一個模態(tài)的類別后驗概率.

直接方式計算的好處是可以模型化一個模態(tài)的特征與另一個模態(tài)語義類別信息之間的關(guān)聯(lián)性,其缺點是學(xué)習(xí)時需要對樣本集合進(jìn)行劃分,這就造成了單個分類器的學(xué)習(xí)樣本較少,降低了模型的泛化能力.

2)間接方式.一般情況下,假設(shè)一個模態(tài)的特征與另一個模態(tài)的語義信息之間相互獨立是合理的,例如在不同場景下,某字符的特征是由所屬文本類別決定的,與其所處的環(huán)境無關(guān).在此假設(shè)下,協(xié)同后驗概率可被簡化為

將式(1)、(2)結(jié)合可以得到

由于語義類別信息是一個離散隨機(jī)變量,因此協(xié)同識別可以將式(1)和式(3)的Stieltjes積分轉(zhuǎn)化為有限求和式直接進(jìn)行計算.這樣式(3)可轉(zhuǎn)化為

式中:c為文本語義類別數(shù).需要強(qiáng)調(diào)一點,上述模型適合于僅利用圖像中的單字協(xié)同圖像識別的情況.考慮到多字情況,如 N個字,則可對式(1)~(4)進(jìn)行擴(kuò)展,得到

2 模型計算與學(xué)習(xí)

2.1 文本識別

文本識別的過程可歸結(jié)為文本定位、分割、二值化、特征提取以及識別的過程.其中前兩個過程本文采用文獻(xiàn)[12]的方法,首先將圖像劃分成塊,通過濾波器結(jié)合邊分析進(jìn)行文本定位;然后對確定的文本塊分別進(jìn)行垂直和水平投影,通過得到的垂直和水平柱條進(jìn)行文本分割.對分割出的每個字符圖像進(jìn)行二值化處理后可將得到的二進(jìn)制文本塊放縮到某一指定大小,并拉成一行向量,經(jīng)PCA處理后得到最終的文本向量,即特征向量.對通過以上過程得到的一組訓(xùn)練樣本,采用樸素貝葉斯方法可得到各文本類結(jié)構(gòu)P(ωT|xT),其中:ωT=1,2,…,cT,cT為文本類別總數(shù).

2.2 圖像內(nèi)容識別

圖像內(nèi)容識別可以根據(jù)具體應(yīng)用提取相應(yīng)的視覺特征,構(gòu)造相應(yīng)的識別器.當(dāng)需要對整體場景屬性分類時,可以以顏色分布、紋理特征為基礎(chǔ)構(gòu)建圖像分類器,而當(dāng)需要識別圖像中某類目標(biāo)時,則需要提取圖像的局部描述特征(如顯著性區(qū)域,Blob區(qū)域特征等)構(gòu)成Bag of Features,然后采用Constellation模型或多示例的方式構(gòu)造分類器.本文在實驗中分別提取了顏色分布特征、小波紋理特征以及Blob量化特征.同樣,在識別器設(shè)計過程中,基于提取的圖像視覺特征采用樸素貝葉斯方法訓(xùn)練出多個視覺模態(tài)識別器結(jié)構(gòu)P(ωI|xI),其中:ωI=1,2,…,cI,cI為圖像類別總數(shù).

2.3 兩模態(tài)類別相關(guān)程度計算

3 實驗設(shè)置與結(jié)果分析

3.1 數(shù)據(jù)集和實驗設(shè)置

為了檢驗本文本協(xié)同模型對圖像識別問題的有效性,這里對本協(xié)同模型與單模態(tài)分類器的識別性能進(jìn)行比較.單模態(tài)分類器選擇了樸素貝葉斯方法.

本實驗采集的圖像數(shù)據(jù)是從CCTV5網(wǎng)絡(luò)電視臺下載的包括籃球、排球、短道速滑、羽毛球等4類視頻,從中抽取了360張帶文本的視頻幀,建立體育視頻圖像數(shù)據(jù)庫,其中3/5用于訓(xùn)練,2/5用于測試,即有216張用于訓(xùn)練,144張用于測試.對文本數(shù)據(jù),在訓(xùn)練階段,一部分取自前面帶文本的圖像中的文本,另一部分為人工生成文本.增加人工生成文本的目的,主要是擴(kuò)大文本樣本數(shù)量,提高識別的泛化能力;在測試階段的文本,直接取自從測試圖像中獲得的文本.需要注意的是,本文在視頻圖像中提取的文本主要是體育視頻在后期制作中所添加的標(biāo)題文本(caption text或superimposed text),做這樣的選擇主要基于兩個原因:1)標(biāo)題文本是人為添加的,與視頻內(nèi)容具有更強(qiáng)的相關(guān)性和概括性;2)標(biāo)題文本相對于可能出現(xiàn)的場景文本(scene text)更清晰、更容易識別,并且識別準(zhǔn)確率高.本文在標(biāo)題文本定位過程中,除了使用文獻(xiàn)[12]中的方法外,還考慮到標(biāo)題文本通常在位置、高、寬等方面的限制,從而大大排除了場景文本的影響.

本文在實驗過程中,分別提取了圖像的全局顏色、全局紋理、Blob特征,設(shè)定的文本類別為8類,其目的是驗證本文本協(xié)同方法是否對不同的圖像視覺特征具有普遍適用性.

圖3 視覺特征取全局顏色特征的分類結(jié)果

圖4 視覺特征取全局紋理特征的分類結(jié)果

圖5 視覺特征取Blob特征的分類結(jié)果

3.2 結(jié)果比較與分析

在與單模態(tài)方法進(jìn)行的對比實驗中,圖像識別的性能通過識別準(zhǔn)確率進(jìn)行衡量,具體的識別結(jié)果如圖3~5所示,準(zhǔn)確百分率如表1所示.實驗表明:由于本文方法使用了除視覺模態(tài)信息外的文本模態(tài)信息,圖像表示更為全面和恰當(dāng).因此,本文方法的識別結(jié)果優(yōu)于單模態(tài)方法.特別是在單模態(tài)識別性能較低的情況下,本文方法能顯著提高性能.如在視覺特征取全局紋理時,單模態(tài)方法的準(zhǔn)確率為64.58%,本文方法的準(zhǔn)確率可達(dá)94.44%,提高了29.86%;在視覺特征取Blob特征時,單模態(tài)方法的準(zhǔn)確率為53.47%,本文方法的準(zhǔn)確率可達(dá)82.64%,提高了29.17%.

表1 識別準(zhǔn)確率比較 %

對上述結(jié)果進(jìn)行分析,可以得出:對選擇的不同圖像視覺特征,本文的文本協(xié)同方法都一定程度地提高了圖像識別的準(zhǔn)確率,從而驗證了本文最初想法的正確性和合理性.需要指出的是,本方法取得較好效果取決于文本識別要有較高精度,因而對標(biāo)題文本進(jìn)行操作可得到理想結(jié)果.

4 結(jié)論

1)本文提出一種使用文本模態(tài)信息輔助圖像視覺模態(tài)進(jìn)行圖像識別的方法,即一種語義級文本協(xié)同圖像識別方法.其優(yōu)勢在于:能夠全面地利用圖像中的視覺模態(tài)信息和文本模態(tài)信息.

2)該圖像識別方法的精度取決于選擇的圖像特征、選擇的文本類別數(shù)以及文本分類器的分類能力等方面.在選擇的幾種圖像視覺特征上實驗,本識別方法的識別準(zhǔn)確率均高于單模態(tài)方法.

3)需要指出的是,本文選擇的文本是體育視頻圖像中相對清晰的標(biāo)題文本,對場景文本情況并不理想.

[1]PANDA N,CHANG E Y.Efficient top-k hyperplane query processing for multimedia information retrieval[C]//Proceedings of the 14th annual ACM international conference on Multimedia.New York,NY:ACM,2006:317-326.

[2]LU Zhiwu,IP H H S.Image categorization with spatial mismatch kernels[C]//IEEE Conference on Computer Vision and Pattern Recognition.Miami,F(xiàn)L:IEEE,2009:397-404.

[3]SONG X,JIAO L C,YANG S,et al.Sparse coding and classifier ensemble based multi-instance learning for image categorization[J].Signal Processing,2013,93(1):1-11.

[4]RUSSELL B C,F(xiàn)REEMAN W T,EFROS A A,et al.Using multiple segmentations to discover objects and their extent in image collections[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2006:1605-1614.

[5]VAILAYA A,F(xiàn)IGUEIREDO M A T,JAIN A K,et al.Image classification for content-based indexing[J].IEEE Transactions on Image Processing,2001,10(1):117-130.

[6]LI F F,PERONA P.A bayesian hierarchical model for learning natural scene categories[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2005:524-531.

[7]LIU D,CHEN T.Unsupervised image categorization and object localization using topic models and correspondences between images[C]//International Conference on ComputerVision. Piscataway. NJ:IEEE,2007:1-7.

[8]FERGUS R,PERONA P,ZISSERMAN A.Object class recognition by unsupervised scale-invariant learning[C]//IEEE Conference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE,2003:264-271.

[9]LIU Y,GOTO S,IKENAGA T.A robust algorithm for text detection in color images[C]//Proceedings of the Eighth InternationalConference on DocumentAnalysis and Recognition.Piscataway,NJ:IEEE,2005:399-403.

[10]CHEN Y,WANG J Z.Image categorization by learning and reasoning with regions[J].The Journal of Machine Learning Research,2004,5(12):913-939.

[11]ZHU L,ZHAO B,GAO Y.Multi-class multi-instance learning for lung cancer image classification based on bag feature selection [C]//Fifth International Conference on Fuzzy Systems and Knowledge Discovery.Piscataway,NJ:IEEE,2008:487-492.

[12]SHIVAKUMARA P,HUANG W,TAN C L.An efficient edge based technique for text detection in video frames[C]//The Eighth IAPR International Workshop on Document Analysis Systems.Piscataway,NJ:IEEE,2008:307-314.

[13]MISHRA A,ALAHARI K,JAWAHAR C V.Top-down and bottom-up cues for scene text recognition[C]//2012 IEEE Conference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE,2008:2687-2694.

[14]許紅濤,周向東,向宇,等.一種自適應(yīng)的Web圖像語義自動標(biāo)注方法[J].軟件學(xué)報,2010,21(9):2183-2195.

A collaborative image recognition method based on semantic level of text

DUAN Xiping1,2,3,LIU Jiafeng1,WANG Jianhua2,3,TANG Xianglong1
(1.School of Computer Science and Technology,Harbin Institute of Technology,150001 Harbin,China;2.Computer Science and Information Engineering College,Harbin Normal University,150025 Harbin,China;3.Heilongjiang Provincial Key Laboratory of Intelligence Education and Information Engineering,150025 Harbin,China)

To solve the problem that singular-modal image recognition using only the low-level visual features has low accuracy,considering that many images have embedded-in textual information,a collaborative method using the embedded-in text to aid the recognition of images is proposed.The method includes three steps.Firstly,after localization,segmentation,binarization and feature extraction,semantics of text is gotten.Secondly,the collaborative posterior probability is calculated by extracting visual features of images and counting correlation of visual and textual modals.At last,for each class of images,the joint posterior probability is calculated using the previous two items.A new image is recognized to the class with maximal joint posterior probability.Experiments on the self-built data set of sports video frames showed that the proposed method performed better than the singular-modal method on three different visual features and had higher accuracy.

text localization;image recognition;multi-modal

TP391.41

A

0367-6234(2014)03-0049-05

2013-05-24.

國家自然科學(xué)基金資助項目(61173087,41071262).

段喜萍(1980—),女,博士研究生;

唐降龍(1960—),男,教授,博士生導(dǎo)師.

段喜萍,xpduan_1999@126.com.

(編輯 張 紅)

猜你喜歡
語義模態(tài)特征
語言與語義
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
認(rèn)知范疇模糊與語義模糊
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲综合第一区| 欧美亚洲中文精品三区| 日本精品一在线观看视频| 日韩欧美国产另类| 国产自无码视频在线观看| 亚洲综合天堂网| 午夜精品久久久久久久无码软件| 欧美国产日韩另类| 亚洲国产精品一区二区第一页免 | 亚洲成人在线网| 日本成人一区| 欧美成人精品一级在线观看| 免费人成网站在线高清| 亚瑟天堂久久一区二区影院| 国产午夜人做人免费视频中文| 成年片色大黄全免费网站久久 | 久久精品视频亚洲| 国产另类乱子伦精品免费女| 免费视频在线2021入口| 91亚洲国产视频| 国产福利在线免费观看| 亚洲美女久久| 网友自拍视频精品区| 一级毛片免费不卡在线视频| 伊人狠狠丁香婷婷综合色| 91小视频在线观看免费版高清| 国产日韩欧美中文| 欧美精品另类| 成人国产小视频| 国产综合网站| 人妻精品久久久无码区色视| 在线视频一区二区三区不卡| 91蜜芽尤物福利在线观看| 国产欧美日韩另类| 亚洲AV无码不卡无码| 亚洲精品国偷自产在线91正片 | 中文字幕在线看| 中文字幕在线一区二区在线| 福利在线一区| 精品福利一区二区免费视频| 欧美午夜一区| 午夜国产在线观看| 欧美一级大片在线观看| 美女无遮挡免费视频网站| 国产微拍一区| 福利小视频在线播放| 色偷偷一区二区三区| 老司机午夜精品视频你懂的| 一级毛片免费观看久| 国产国产人免费视频成18| 5555国产在线观看| 亚洲三级网站| 午夜日b视频| 欧美日韩导航| 亚洲欧洲日韩综合色天使| 欧美人人干| 呦视频在线一区二区三区| 国产成人AV男人的天堂| 在线观看精品国产入口| 国产精品v欧美| 国产精品xxx| 欧美激情二区三区| 91精品国产91久久久久久三级| 亚洲精品无码不卡在线播放| 72种姿势欧美久久久大黄蕉| 国产欧美日韩专区发布| 久久国产毛片| 国产日韩丝袜一二三区| 亚洲中文久久精品无玛| 在线观看国产小视频| 国产一级二级在线观看| 国产视频你懂得| 国产成人精品午夜视频'| 婷婷色婷婷| 色婷婷亚洲十月十月色天| 精品久久香蕉国产线看观看gif| 色婷婷成人网| 爱色欧美亚洲综合图区| 亚洲国产精品日韩av专区| 亚洲欧洲日韩久久狠狠爱| 2021国产精品自产拍在线| 欧美午夜一区|