999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視覺注意機(jī)制和條件隨機(jī)場(chǎng)的圖像標(biāo)注

2016-09-27 06:33:58孫慶美金聰
智能系統(tǒng)學(xué)報(bào) 2016年4期
關(guān)鍵詞:區(qū)域實(shí)驗(yàn)方法

孫慶美,金聰

(華中師范大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430079)

?

基于視覺注意機(jī)制和條件隨機(jī)場(chǎng)的圖像標(biāo)注

孫慶美,金聰

(華中師范大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430079)

傳統(tǒng)的圖像標(biāo)注方法對(duì)圖像各個(gè)區(qū)域同等標(biāo)注,忽視了人們對(duì)圖像的理解方式。為此提出了基于視覺注意機(jī)制和條件隨機(jī)場(chǎng)的圖像標(biāo)注方法。 首先,由于人們?cè)趯?duì)圖像認(rèn)識(shí)的過程中,對(duì)顯著區(qū)域會(huì)有較多的關(guān)注,因此通過視覺注意機(jī)制來取得圖像的顯著區(qū)域,用支持向量機(jī)對(duì)顯著區(qū)域賦予語義標(biāo)簽;再利用k-NN聚類算法對(duì)非顯著區(qū)域進(jìn)行標(biāo)注;最后,又由于顯著區(qū)域的標(biāo)注詞與非顯著區(qū)域的標(biāo)注詞在邏輯上存在一定的關(guān)聯(lián)性,因此條件隨機(jī)場(chǎng)模型可以根據(jù)標(biāo)注詞的關(guān)聯(lián)性校正并確定圖像的最終標(biāo)注向量。在Corel5k、IAPR TC-12和ESP Game圖像庫(kù)上進(jìn)行實(shí)驗(yàn)并且和其他方法進(jìn)行比較,從平均查準(zhǔn)率、平均查全率和F1的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性。

自動(dòng)圖像標(biāo)注;視覺注意;詞相關(guān)性;條件隨機(jī)場(chǎng)

中文引用格式:孫慶美,金聰. 基于視覺注意機(jī)制和條件隨機(jī)場(chǎng)的圖像標(biāo)注[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(4): 442-448.

英文引用格式:SUN Qingmei, JIN Cong. Image annotation method based on visual attention mechanism and conditional random field[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 442-448.

隨著互聯(lián)網(wǎng)的不斷發(fā)展以及移動(dòng)終端的迅速發(fā)展,圖像數(shù)據(jù)不斷擴(kuò)大。圖像數(shù)據(jù)大規(guī)模的增長(zhǎng)對(duì)圖像理解技術(shù)提出了更高的要求。如何從巨大的圖像庫(kù)中快速有效地找到想要的圖像,已經(jīng)成為了一個(gè)亟待解決且具有很大挑戰(zhàn)性的任務(wù)。而圖像標(biāo)注技術(shù)是數(shù)字圖像語義文本信息的關(guān)鍵技術(shù),在數(shù)字圖像處理的各個(gè)方面有著廣泛的應(yīng)用[1]。

圖像標(biāo)注技術(shù)就是為給定的圖像分配相對(duì)應(yīng)的語義關(guān)鍵詞以反映其內(nèi)容[2]。早些年的圖像標(biāo)注技術(shù)需要專業(yè)人員根據(jù)每幅圖像的語義給出關(guān)鍵詞,但那樣的方法會(huì)消耗大量時(shí)間并且?guī)в幸欢ǖ闹饔^性。因此近幾年來,有不少的研究者將注意力轉(zhuǎn)移到圖像的自動(dòng)標(biāo)注技術(shù)上來。就當(dāng)下的自動(dòng)標(biāo)注方法而言大致可以分為兩類:1)基于生成式的圖像自動(dòng)標(biāo)注方法[3-4];2)基于判別式的圖像自動(dòng)標(biāo)注方法[5-6]。前者主要是先對(duì)后驗(yàn)概率建模,然后依據(jù)統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況,以此來反映同類數(shù)據(jù)本身的相似度。文獻(xiàn)[3]就屬于該模型,它將標(biāo)注問題轉(zhuǎn)化成一個(gè)將視覺語言翻譯為文本的過程,再收集圖像與概念之間的關(guān)系以此來計(jì)算圖像各個(gè)區(qū)域的翻譯概率。文獻(xiàn)[4]提出的跨媒體相關(guān)模型,將分割得到的團(tuán)塊進(jìn)行聚類,得到可視化詞匯,然后建立圖像和語義關(guān)鍵詞之間的概率相關(guān)模型,估計(jì)圖像區(qū)域集合與關(guān)鍵詞集合總體的聯(lián)合分布。與此類似的方法還包括基于連續(xù)圖像特征的相關(guān)模型,該類方法也存在一定的問題,如當(dāng)遇到圖像過分割和欠分割的時(shí)候標(biāo)注性能大大降低,雖然可以通過改進(jìn)算法來提高標(biāo)注結(jié)果,但這樣增加了計(jì)算的復(fù)雜性,不具備在真實(shí)環(huán)境應(yīng)用的條件。另外,可以構(gòu)建圖像特征與標(biāo)注詞之間的關(guān)系模型,然而該模型一般情況下復(fù)雜度較高,而且無法確定主題的個(gè)數(shù)。而后者則是通過尋找不同類別之間的最優(yōu)分類超平面,從而反映異構(gòu)數(shù)據(jù)之間的不同。也就是說,該模型為每個(gè)類訓(xùn)練一個(gè)分類器,以此來判斷測(cè)試圖像是否屬于這個(gè)類。文獻(xiàn)[2]提出了MRESVM算法,即一個(gè)基于映射化簡(jiǎn)的可擴(kuò)展的分布式集成支持向量機(jī)算法的圖像標(biāo)注。為了克服單一支持向量機(jī)的局限性,利用重采樣對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,建立了一種支持向量機(jī)集成方法。在文獻(xiàn)[5-6]中提到的方法也屬于判別模型。這兩者既有優(yōu)點(diǎn)又有缺點(diǎn)。相比之下,判別式模型可以實(shí)現(xiàn)更好的性能。已有的圖像標(biāo)注方法沒有得到較好的標(biāo)注準(zhǔn)確率,主要是由于它們使用的圖像內(nèi)容描述方法和人們對(duì)圖像的理解方式相距甚遠(yuǎn)。實(shí)際上,當(dāng)人們看一幅圖像的時(shí)候,不會(huì)把注意力平均分配到圖像的各個(gè)區(qū)域,而是會(huì)有選擇地把注意力集中到顯著區(qū)域。由此本文提出了一種基于視覺注意機(jī)制和條件隨機(jī)場(chǎng)的圖像自動(dòng)標(biāo)注方法。

1 顯著區(qū)域的標(biāo)注過程

本文使用的圖像標(biāo)注算法,主要是將傳統(tǒng)依據(jù)底層特征的標(biāo)注方法和人們認(rèn)識(shí)圖像的方式結(jié)合在一起,然后又利用標(biāo)簽之間的共生關(guān)系對(duì)標(biāo)注詞進(jìn)行校正,得到最終標(biāo)注詞。

在使用本文所提算法之前要先對(duì)圖像進(jìn)行預(yù)處理,然后使用基于視覺注意機(jī)制和條件隨機(jī)場(chǎng)算法對(duì)圖像進(jìn)行標(biāo)注。算法主要流程如下:

輸入訓(xùn)練圖像和測(cè)試圖像的混合圖像集;

輸出所有圖像對(duì)應(yīng)的標(biāo)簽集。

1)使用支持向量機(jī)對(duì)顯著區(qū)域進(jìn)行識(shí)別并標(biāo)注;

2)對(duì)于非顯著區(qū)域,結(jié)合訓(xùn)練圖像庫(kù)的圖像與標(biāo)簽關(guān)系進(jìn)行標(biāo)注;

3)使用條件隨機(jī)場(chǎng)模型對(duì)每幅圖像的標(biāo)簽進(jìn)行優(yōu)化。

1.1顯著區(qū)域的提取

當(dāng)人們看一幅圖像時(shí),注意力更多地放在顯著區(qū)域而不是非顯著區(qū)域。圖像的顯著區(qū)域指的是在一幅圖像中最能引起人們視覺興趣的部分,圖像的顯著區(qū)域和圖像要表達(dá)的含義往往一致。充分利用這一點(diǎn)能提高圖像標(biāo)注的準(zhǔn)確率。基于此,本文選擇先對(duì)顯著區(qū)域進(jìn)行標(biāo)注,然后標(biāo)注非顯著區(qū)域。這種方法可以消除非顯著區(qū)域?qū)︼@著區(qū)域的影響,由此獲得更好的標(biāo)注效果。

在圖像處理方面,很多獲取圖像顯著區(qū)域的模型已被提出。例如,文獻(xiàn)[7]提出了一種顯著區(qū)域的獲取方法,它主要結(jié)合像素特征和貝葉斯算法。文獻(xiàn)[8]提出了一種視覺顯著性檢測(cè)算法,它將生成性和區(qū)分性兩種模型結(jié)合在一個(gè)統(tǒng)一的框架中。這些區(qū)域通常具有較大的共同特征,面積相對(duì)較大且亮度更高。因此本文提出一個(gè)新的方法來提取顯著區(qū)域,也就是視覺注意機(jī)制。定義如下:

在利用N-cut算法對(duì)圖像分割后,根據(jù)視覺注意機(jī)制求得圖像的每個(gè)區(qū)域的權(quán)重。視覺注意機(jī)制模型為

W=ω·Area+(1-ω)·Brightness

(1)

式中:W表示圖像中每個(gè)區(qū)域的顯著度;ω表示權(quán)重。為獲得圖像的顯著區(qū)域,本文通過大量實(shí)驗(yàn)來得到ω。計(jì)算并比較各個(gè)區(qū)域的顯著度W的大小,W值最大的區(qū)域就是該圖像的顯著區(qū)域。模型(1)中各參數(shù)的意義如下:

a)面積參數(shù)Area。在該模型中,Area是參數(shù)之一,一般情況下,面積越大的區(qū)域越能引起人們的注意,但是不能過大,過大面積的區(qū)域會(huì)使得顯著度降低。具體計(jì)算式為

Area=Si/S

(2)

式中:Si表示每幅圖像中第i個(gè)區(qū)域的像素個(gè)數(shù);S表示整幅圖像的像素個(gè)數(shù)。

b)亮度參數(shù)Brightness。亮度參數(shù)是獲得顯著區(qū)域最重要的參數(shù)。HSV顏色模型比較直觀,在圖像處理方面是一種比較常見的模型。定義一個(gè)區(qū)域的亮度為該區(qū)域和圖像其他區(qū)域HSV值的方差,用式(3)計(jì)算。也就是說,先計(jì)算圖像中所有區(qū)域HSV的平均值,然后計(jì)算每個(gè)區(qū)域HSV的值,最后取得各個(gè)區(qū)域的亮度值。具體公式為

(3)

1.2顯著區(qū)域的標(biāo)注

每一幅圖像中都包含不等個(gè)數(shù)的區(qū)域,這些區(qū)域或簡(jiǎn)單或復(fù)雜、或大或小,而它們都有不一樣的語義。傳統(tǒng)的標(biāo)注方法中,對(duì)圖像的各個(gè)區(qū)域同等對(duì)待,而事實(shí)上人們往往把更多的注意力集中在顯著區(qū)域。所以可以利用式(1)求出每幅圖像的顯著區(qū)域進(jìn)行單獨(dú)標(biāo)注,對(duì)非顯著區(qū)域的區(qū)域在后續(xù)的步驟中進(jìn)行標(biāo)注。

在對(duì)顯著區(qū)域進(jìn)行標(biāo)注時(shí),用一組訓(xùn)練圖像訓(xùn)練N個(gè)支持向量機(jī)分類器C= {c1,c2, …,cn}。具體來說,對(duì)一組訓(xùn)練圖像利用視覺注意機(jī)制提取顯著區(qū)域,再對(duì)每個(gè)顯著區(qū)域提取它們的底層特征構(gòu)成特征向量,并作為輸入訓(xùn)練支持向量機(jī)。

近年來支持向量機(jī)已經(jīng)被廣泛地應(yīng)用于圖像標(biāo)注中,像文獻(xiàn)[2]和[9]。在最簡(jiǎn)單的情況下,支持向量機(jī)是線性可分的支持向量機(jī),這時(shí)必須滿足數(shù)據(jù)是線性可分的。但是在實(shí)際應(yīng)用中,線性可分的情況很少,絕大多數(shù)問題都是線性不可分的。在遇到線性不可分的問題時(shí),可以通過非線性變換將它映射到高維空間中,從而轉(zhuǎn)化為線性可分問題。SVM的學(xué)習(xí)策略就是最大間隔法,可以表示為一個(gè)求解凸二次規(guī)劃的問題。設(shè)線性可分樣本集為(xi,yi),i=1,2,…,n,,i= 1,2,…,n,xi∈Rn,yi∈{+1, -1}是類別標(biāo)號(hào)。通過間隔最大化或等價(jià)地求解相應(yīng)的凸二次規(guī)劃問題學(xué)習(xí)得到的分離超平面為wT·x+b=0,線性判別函數(shù)為g(x)=wT·x+b。然后將判別函數(shù)進(jìn)行歸一化,使兩類中的所有樣本都必須滿足條件|g(x)|≥1,即讓距離分類面最近的樣本的|g(x)|值等于1,這樣分類間隔就等于 2/‖wT‖,因此使間隔最大等價(jià)于使‖wT‖最小;分類線若要對(duì)所有樣本都能正確分類,那么它必須滿足以下條件:

(4)

(5)

通過對(duì)w和b求解,計(jì)算出拉格朗日函數(shù)的極小值。再利用KKT條件對(duì)分類決策函數(shù)求出最優(yōu)解,最終結(jié)果為

(6)

式中:α*為最優(yōu)解,b*為分類的閾值。

分類時(shí)先提取測(cè)試圖像的顯著區(qū)域,然后提取圖像顯著區(qū)域的特征值,構(gòu)成特征向量輸入到訓(xùn)練好的支持向量機(jī)分類器中,得到每個(gè)顯著區(qū)域的標(biāo)注詞。

2 非顯著區(qū)域的標(biāo)注過程

對(duì)圖像的非顯著區(qū)域進(jìn)行標(biāo)注時(shí),本文將帶有標(biāo)簽的圖像區(qū)域引入對(duì)其進(jìn)行標(biāo)注。本文將未被標(biāo)注的非顯著區(qū)域和帶有標(biāo)注詞的圖像區(qū)域混合在一起,使用k近鄰法(k-nearestneighbor, k-NN)聚類算法進(jìn)行聚類,最終求得非顯著區(qū)域的標(biāo)注詞。k-NN算法的思路:假設(shè)給定一個(gè)訓(xùn)練數(shù)據(jù)集,里面的實(shí)例都有確定的類別,對(duì)測(cè)試實(shí)例,根據(jù)其k個(gè)最近鄰的訓(xùn)練實(shí)例的類別,通過多數(shù)表決方式進(jìn)行預(yù)測(cè)。具體的流程如下:

輸入待標(biāo)注的非顯著區(qū)域和帶標(biāo)簽的圖像區(qū)域;

輸出非顯著區(qū)域的標(biāo)注詞。

1)在帶有標(biāo)簽的圖像區(qū)域中找出與每個(gè)待標(biāo)注的非顯著區(qū)域相似的K個(gè)樣本,計(jì)算公式為

(7)

2)在每個(gè)非顯著區(qū)域的k個(gè)近鄰中,分別計(jì)算出每個(gè)類的權(quán)重,計(jì)算公式為

(8)

式中:x為待標(biāo)注區(qū)域的特征向量,Sim(x,di)為相似性度量計(jì)算公式,與上一步驟的計(jì)算公式相同,而y(di,Cj)為類別屬性函數(shù),即如果di屬于類Cj,那么函數(shù)值為 1,否則為0。

3)比較類的權(quán)重,將待標(biāo)注區(qū)域劃分到權(quán)重最大的那個(gè)類別中。這樣非顯著區(qū)域就得到了相應(yīng)的標(biāo)注詞,同時(shí)也得到了獲得該標(biāo)注詞的概率。

3 標(biāo)注詞校正

設(shè)每一幅待標(biāo)注圖像分割為n個(gè)子區(qū)域Di(i = 1, 2,…, n)。在得到一幅圖像的顯著區(qū)域標(biāo)簽和非顯著區(qū)域標(biāo)簽集合后,將這些標(biāo)簽整合成圖像的標(biāo)簽向量:

式中:p(an)表示該圖像的第n個(gè)區(qū)域獲得標(biāo)注詞an的概率。本文使用條件隨機(jī)場(chǎng)對(duì)圖像已獲取的標(biāo)注向量進(jìn)行校正,最終獲得圖像的標(biāo)注詞。自從條件隨機(jī)場(chǎng)被提出以來,已有很多研究者把它引入圖像標(biāo)注問題的研究中[10],為了提高圖像標(biāo)注性能,本文根據(jù)標(biāo)注詞之間的關(guān)系構(gòu)建合適的條件隨機(jī)場(chǎng)模型。條件隨機(jī)場(chǎng)可以用在很多不同的預(yù)測(cè)問題上。圖像標(biāo)注問題屬于線性鏈條件隨機(jī)場(chǎng)。本文條件隨機(jī)場(chǎng)模型是一個(gè)無向圖模型,圖中的每一個(gè)點(diǎn)代表一個(gè)標(biāo)注詞,而兩個(gè)點(diǎn)之間的邊則代表兩個(gè)標(biāo)注詞之間的關(guān)系。

條件隨機(jī)場(chǎng)算法對(duì)標(biāo)注詞的校正除了涉及到標(biāo)注詞之間的共生關(guān)系之外,還將標(biāo)注詞的概率向量作為標(biāo)注詞的先驗(yàn)知識(shí),然后建立標(biāo)注詞關(guān)系圖并重新計(jì)算圖像的標(biāo)注詞概率向量。該算法構(gòu)建所有標(biāo)注詞的關(guān)系無向圖,在該無向圖中除了包含有邊勢(shì)函數(shù)(即式(9))之外還包含有點(diǎn)勢(shì)函數(shù)(即式(10)),其中標(biāo)注詞概率向量確定圖中點(diǎn)的勢(shì)函數(shù),而邊的勢(shì)函數(shù)則由學(xué)習(xí)訓(xùn)練集中標(biāo)注詞的關(guān)系所得到。例如標(biāo)注詞“馬”出現(xiàn)了k1次,標(biāo)注詞“草地”出現(xiàn)了k2次,兩者同時(shí)出現(xiàn)在同一幅圖像的次數(shù)為k3次。那么兩個(gè)標(biāo)注詞的聯(lián)合概率為式(11)。

(9)

(10)

(11)

式中p(ai)是前面得到的圖像被標(biāo)注為ai的概率。

獲得無向圖中所有點(diǎn)勢(shì)和邊勢(shì)之后,求取最優(yōu)的圖結(jié)構(gòu)就能得到最終的圖像標(biāo)注集{afocus,a1,…,an-1}。當(dāng)圖勢(shì)函數(shù)值達(dá)到最小時(shí),就得到了最優(yōu)圖結(jié)構(gòu),即式(12)中M的值最小的圖結(jié)構(gòu):

(12)

式中:λ表示點(diǎn)勢(shì)函數(shù)和邊勢(shì)函數(shù)的權(quán)重關(guān)系,本文通過交叉驗(yàn)證的方法確定λ=0.3。

4  實(shí)驗(yàn)結(jié)果

4.1圖像庫(kù)

為了驗(yàn)證本文算法的圖像標(biāo)注性能,使用3個(gè)圖像庫(kù)。第1個(gè)圖像庫(kù)是Corel5K,該庫(kù)被許多圖像處理研究人員使用。它在許多文獻(xiàn)中都有提及。Corel5k數(shù)據(jù)集有5 000幅圖像,其中包括4 500個(gè)訓(xùn)練樣本和500測(cè)試樣本。每一幅圖像平均有3.5個(gè)關(guān)鍵詞。在訓(xùn)練數(shù)據(jù)集中有371個(gè)標(biāo)簽,在測(cè)試數(shù)據(jù)集中有263個(gè)標(biāo)簽。另一個(gè)數(shù)據(jù)集是IAPRTC-12。刪除一部分圖像后,留有100類的10 000幅圖像。在實(shí)驗(yàn)過程中,使用80%幅圖像用于訓(xùn)練,20%幅圖像用于測(cè)試。所使用的第3個(gè)數(shù)據(jù)集是ESPGame。總共包含21 844幅圖像。其中,19 659張圖像用作訓(xùn)練集,2 185張圖像用作測(cè)試集。

4.2實(shí)驗(yàn)設(shè)置

為了驗(yàn)證圖像標(biāo)注性能,采取3種評(píng)估方法:召回率、查準(zhǔn)率和F-measure值。假設(shè)一個(gè)給定的標(biāo)簽的圖像數(shù)量是|W1|,|W2|為有正確標(biāo)注詞w的圖像數(shù)量,|W3|是由圖像標(biāo)注方法得到標(biāo)簽的圖像的數(shù)量。召回率和查準(zhǔn)率可計(jì)算如下:

平均查準(zhǔn)率(AP)和查全率(AR)可以反映整體標(biāo)注性能。F-measure可以定義為

在本文實(shí)驗(yàn)中選擇了3種視底層覺特征進(jìn)行測(cè)試,它們分別為顏色直方圖、紋理特征和SIFT。這3種底層特征從不同的角度描述圖像的底層信息,同時(shí)使用會(huì)使標(biāo)注性能更好。然后在3個(gè)數(shù)據(jù)庫(kù)Corel5k、IAPRTC-12 和ESPGame上,將VAMCRF算法和其他著名算法進(jìn)行比較。這些算法已表現(xiàn)出了良好的性能,并且取得了很好的標(biāo)注結(jié)果。因此與它們的比較將能證明VAMCRF算法的性能。表1列出了這些算法和相應(yīng)的標(biāo)引。

表 1 實(shí)驗(yàn)中用到的算法

4.3 實(shí)驗(yàn)結(jié)果和比較

4.3.1參數(shù)影響

在視覺注意機(jī)制中有一個(gè)參數(shù)ω。該參數(shù)對(duì)顯著區(qū)域的提取有著重要的影響,需要通過實(shí)驗(yàn)來確定它的值。

首先從圖像庫(kù)中選取100幅有代表性圖像,根據(jù)經(jīng)驗(yàn)人眼對(duì)亮度的敏感度比面積大一些,所以對(duì)ω取這樣不同的一組值{0.30, 0.32, 0.34, 0.36, 0.38,0.40, 0.42, 0.44, 0.46, 0.48, 0.50}。通過實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)ω = 0.42時(shí),提取圖像顯著區(qū)域效果最好。圖1說明了當(dāng)ω = 0.42時(shí)一些類的顯著區(qū)域提取的實(shí)例。從表中可以看到,VAM算法能夠預(yù)測(cè)并很好地提取圖像的顯著區(qū)域。

圖1 用VAM算法提取顯著區(qū)域的例子Fig.1 Some examples using our proposed VAM

在對(duì)圖像的非顯著區(qū)域進(jìn)行標(biāo)注時(shí),采用了k-NN聚類算法。k-NN聚類算法是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一,其中k值的選擇對(duì)結(jié)果至關(guān)重要。實(shí)驗(yàn)測(cè)試了參數(shù)k取不同值時(shí)對(duì)標(biāo)注結(jié)果的影響。圖2展示的是用k-NN聚類算法在3個(gè)圖像庫(kù)上對(duì)非顯著區(qū)域標(biāo)注的性能。橫坐標(biāo)表示參數(shù)k取值的范圍,縱坐標(biāo)代表對(duì)應(yīng)k值時(shí)F1的變化。可以看到,當(dāng)k=100時(shí)F1達(dá)到最大值,也就是此時(shí)標(biāo)注效果最好。所以,在下面的實(shí)驗(yàn)當(dāng)中k取100。

圖2 在3個(gè)圖像庫(kù)上k取不同值的標(biāo)注結(jié)果Fig.2 The results of k-NN with different k in the image datasets 1~3

4.3.2標(biāo)簽數(shù)目對(duì)標(biāo)注的影響

標(biāo)注性能的好壞有很多影響因素,標(biāo)簽數(shù)目就是其中一種因素,為了驗(yàn)證標(biāo)簽數(shù)目對(duì)標(biāo)注性能的影響,選取了不同的標(biāo)簽數(shù)進(jìn)行實(shí)驗(yàn)。圖3分別顯示了在3個(gè)數(shù)據(jù)庫(kù)上不同的標(biāo)簽數(shù)目對(duì)標(biāo)注的影響。橫坐標(biāo)表示所取標(biāo)簽的個(gè)數(shù)從1~8,縱坐標(biāo)代表對(duì)應(yīng)標(biāo)簽數(shù)時(shí)F1的變化。這是在兩種方法下所做的實(shí)驗(yàn),方法1是使用視覺注意機(jī)制和SVM求得顯著區(qū)域的標(biāo)注詞,然后利用k-NN求得非顯著區(qū)域的標(biāo)注詞;方法2是在方法1的基礎(chǔ)上利用條件隨機(jī)場(chǎng)對(duì)所獲得的標(biāo)注詞進(jìn)行校正。

(a) Corel5k數(shù)據(jù)庫(kù)

(b) IAPR TC-12數(shù)據(jù)庫(kù)

(c)ESP Games數(shù)據(jù)庫(kù)圖3  不同標(biāo)簽數(shù)對(duì)標(biāo)注的影響Fig.3 The effect of different tag numbers on annotation

從圖3可以看出,當(dāng)只給圖像一個(gè)標(biāo)簽時(shí),標(biāo)注結(jié)果夠不好,隨著使用標(biāo)簽數(shù)目的增加,標(biāo)注的準(zhǔn)確度都在增加。但是使用的標(biāo)簽數(shù)不易過多,如果過多反而會(huì)使標(biāo)注準(zhǔn)確度下降。方法2比方法1的效果更好些,說明標(biāo)注詞之間的共生關(guān)系對(duì)標(biāo)注效果也是十分重要的。標(biāo)簽相關(guān)性的引入使得標(biāo)注結(jié)果更符合實(shí)際的標(biāo)簽集,由此證明了本文算法的優(yōu)勢(shì)。

4.3.3比較和結(jié)果分析

為了驗(yàn)證本文所提出算法的標(biāo)注性能,在Corel5k、IAPR TC-12和 ESP Game 3個(gè)圖像庫(kù)中的測(cè)試圖像集進(jìn)行了實(shí)驗(yàn),并對(duì)AR、AP和F1的值進(jìn)行對(duì)比。在表2~4給出了比較結(jié)果。

表2顯示了VAMCRF算法在Corel5k上得到的AR、AP和F1的值。從表中數(shù)據(jù)可見,VAMCRF算法取得了最高AR值0.48,AP最高值為0.45,F(xiàn)1最大值為0.464。與其他6種算法F1最高值0.439比較,VAMCRF的最大值0.464至少高出了0.014。

表2 在Corel5k數(shù)據(jù)庫(kù)上和其他算法標(biāo)注性能的比較

表3顯示了VAMCRF算法在IAPR TC-12上得到的AR、AP和F1的值。從表中數(shù)據(jù)可見,2PKNN+ML算法和VAMCRF算法取得了最高AR值0.37,AP最高值0.56,F(xiàn)1最大值0.445。與其他6種算法F1最高值0.450比較,VAMCRF的最大值0.445至少高出了0.006。

表4顯示了VAMCRF算法在ESP Game上得到的AR、AP和F1的值。從表中數(shù)據(jù)可見,VAMCRF算法取得了最高AR值0.28,2PKNN+ML最高AP值0.53,F(xiàn)1最大值0.358。與其他6種算法F1最高值0.357比較,VAMCRF的最大值0.358至少高出了0.001。

表3 在IAPR TC-12數(shù)據(jù)庫(kù)上與其他算法標(biāo)注性能的比較

表4 在ESP Game數(shù)據(jù)庫(kù)上和其他算法標(biāo)注性能的比較

5 結(jié)論

本文提出了一種基于視覺注意機(jī)制和條件隨機(jī)場(chǎng)的算法進(jìn)行圖像的標(biāo)注,并在Corel5k, IAPR TC-12 和 ESP Game圖像庫(kù)上進(jìn)行實(shí)驗(yàn)。首先,用視覺注意機(jī)制提取圖像的顯著區(qū)域,然后利用SVM進(jìn)行標(biāo)注,之后使用k-NN聚類算法對(duì)圖像的非顯著區(qū)域進(jìn)行標(biāo)注,最后利用條件隨機(jī)場(chǎng)對(duì)圖像的標(biāo)注詞向量進(jìn)行校正。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)方法相比,本文所提出的算法在標(biāo)注性能上取得了很好的效果,但是從時(shí)間復(fù)雜度方面來看還需要很多的改進(jìn)工作,在未來的研究中可以對(duì)算法進(jìn)行進(jìn)一步改進(jìn)以期降低時(shí)間復(fù)雜度。

[1]WANG Meng, NI Bingbing, HUA Xiansheng, et al. Assistive tagging: a survey of multimedia tagging with human-computer joint exploration[J]. ACM computing surveys, 2012, 44(4): 25.

[2]JIN Cong, JIN Shuwei. Image distance metric learning based on neighborhood sets for automatic image annotation[J]. Journal of visual communication and image representation, 2016, 34: 167-175.

[3]DUYGULU P, BARNARD K, DE FREITAS J F G, et al. Object recognition as machine translation: learning a lexicon for a fixed image vocabulary[C]//Proceedings of the 7th European Conference on Computer Vision. Berlin Heidelberg: Springer-Verlag, 2002: 97-112.

[4]JEON J, LAVRENKO V, MANMATHA R. Automatic image annotation and retrieval using cross-media relevance models[C]//Proceedings of the 26th annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA: ACM, 2003: 119-126.

[5]LOOG M. Semi-supervised linear discriminant analysis through moment-constraint parameter estimation[J]. Pattern recognition letters, 2014, 37: 24-31.

[6]FU Hong, CHI Zheru, FENG Dagan. Recognition of attentive objects with a concept association network for image annotation[J]. Pattern recognition, 2010, 43(10): 3539-3547.

[7]FAREED M M S, AHMED G, CHUN Qi. Salient region detection through sparse reconstruction and graph-based ranking[J]. Journal of visual communication and image representation, 2015, 32: 144-155.

[8]JIA Cong, QI Jinqing, LI Xiaohui, et al. Saliency detection via a unified generative and discriminative model[J]. Neurocomputing, 2016, 173: 406-417.

[9]KHANDOKER A H, PALANISWAMI M, KARMAKAR C K. Support vector machines for automated recognition of obstructive sleep apnea syndrome from ECG recordings[J]. IEEE transactions on information technology in biomedicine, 2009, 13(1): 37-48.

[10]PRUTEANU-MALINICI I, MAJOROS W H, OHLER U. Automated annotation of gene expression image sequences via non-parametric factor analysis and conditional random fields[J]. Bioinformatics, 2013, 29(13): i27-i35.

[11]VERMA Y, JAWAHAR C V. Image annotation using metric learning in semantic neighbourhoods[C]//Proceedings of the 12th European Conference on Computer Vision. Berlin Heidelberg: Springer, 2012: 836-849.

[12]NAKAYAMA H. Linear distance metric learning for large-scale generic image recognition[D]. Tokyo, Japan: The University of Tokyo, 2011.

[13]FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli relevance models for image and video annotation[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC, USA: IEEE, 2004, 2: II-1002-II-1009.

[14]MAKADIA A, PAVLOVIC V, KUMAR S. A new baseline for image annotation[C]//Proceedings of the European Conference on Computer Vision. Berlin Heidelberg: Springer-Verlag, 2008: 316-329.

[15]GUILLAUMIN M, MENSINK T, VERBEEK J, et al. TagProp: discriminative metric learning in nearest neighbor models for image auto-annotation[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009: 309-316.

孫慶美 ,女,1989年生,碩士研究生,主要研究方向?yàn)閿?shù)字圖像處理

金聰,女,1960年生,教授,博士。主要研究方向?yàn)閿?shù)字圖像處理

Image annotation method based on visual attention mechanism and conditional random field

SUN Qingmei, JIN Cong

(School of Computer, Central China Normal University, Wuhan 430079, China)

Traditional image annotation methods interpret all image regions equally, neglecting any understanding of the image. Therefore, an image annotation method based on the visual attention mechanism and conditional random field, called VAMCRF, is proposed. Firstly, people pay more attention to image salient regions during the process of image recognition; this can be achieved through the visual attention mechanism and the support vector machine is then used to assign semantic labels. It then labels the non-salient regions using a k-NN clustering algorithm. Finally, as the annotations of salient and non-salient regions are logically related, the ultimate label vector of the image can be corrected and determined by a conditional random field (CRF) model and inter-word correlation. From the values of average precision, average recall, and F1, the experimental results on Corel5k, IAPR TC-12, and ESP Game confirm that the proposed method is efficient compared with traditional annotation methods.

automatic image annotation; visual attention mechanism; inter-word correlation; conditional random fields

10.11992/tis.201606004

網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160808.0831.024.html

2016-06-02. 網(wǎng)絡(luò)出版日期:2016-08-08.

國(guó)家社會(huì)科學(xué)基金項(xiàng)目(13BTQ050).

金聰. E-mail: jinc26@aliyun.com.

TP391

A

1673-4785(2016)04-0442-07

猜你喜歡
區(qū)域實(shí)驗(yàn)方法
記一次有趣的實(shí)驗(yàn)
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
關(guān)于四色猜想
分區(qū)域
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
主站蜘蛛池模板: 久久国产精品77777| 欧美综合区自拍亚洲综合绿色| 久久这里只精品国产99热8| 亚洲精品日产精品乱码不卡| 日韩精品高清自在线| 欧美.成人.综合在线| 五月婷婷丁香色| 亚洲黄色成人| 91精品免费久久久| 91美女视频在线| 国产乱人激情H在线观看| 天堂成人在线| 网友自拍视频精品区| 国产v精品成人免费视频71pao| V一区无码内射国产| 久久精品丝袜高跟鞋| 欧美激情视频二区三区| 国产精品成人第一区| 激情网址在线观看| 欧美午夜在线播放| 国产人碰人摸人爱免费视频| 激情综合网址| 国产成人精品一区二区免费看京| 日韩高清无码免费| 亚洲中文久久精品无玛| 国产一区二区免费播放| 欧美在线三级| 精品自窥自偷在线看| 国产99视频免费精品是看6| 亚洲av日韩综合一区尤物| 精品综合久久久久久97超人| 亚洲品质国产精品无码| 国产高潮视频在线观看| 国产成人亚洲精品蜜芽影院| 福利在线一区| 九九九久久国产精品| 国产三级国产精品国产普男人| 性欧美久久| 成人免费黄色小视频| 在线播放国产一区| 日韩国产一区二区三区无码| 国产成人区在线观看视频| 亚洲欧洲AV一区二区三区| 色妞永久免费视频| 国产精品女主播| 久久精品欧美一区二区| 免费A∨中文乱码专区| 亚洲一区黄色| 国产成人综合在线观看| 成人欧美在线观看| 国产免费福利网站| 精品久久久久久成人AV| 91青青在线视频| 日日拍夜夜操| 久久女人网| 啪啪国产视频| 最近最新中文字幕在线第一页| 国产色爱av资源综合区| 国产午夜精品鲁丝片| 亚洲综合第一区| 国产午夜看片| 国产一区二区丝袜高跟鞋| 熟女成人国产精品视频| 五月婷婷精品| 国产精品亚欧美一区二区| 欧美成人午夜影院| av尤物免费在线观看| 亚洲热线99精品视频| 性激烈欧美三级在线播放| 欧美激情一区二区三区成人| 青青青亚洲精品国产| 国产国模一区二区三区四区| 男人天堂伊人网| 18禁高潮出水呻吟娇喘蜜芽| 国产欧美在线观看一区| 97影院午夜在线观看视频| 亚洲人精品亚洲人成在线| 亚洲精品无码AV电影在线播放| 99这里只有精品免费视频| 国产二级毛片| 青青草原偷拍视频| 国产尤物在线播放|