王培培,陳斯宇
(吉林大學,吉林 長春 130000)
由于共享信息的不斷膨脹,網絡中圖像的數量也在快速增長,其中隱藏著復雜且眾多的信息量,因此,如何對網絡上的圖像信息進行有效而迅速的管理成為了當今時代的熱點問題。圖像自動標注是解決圖像檢索過程中至關重要的步驟,這一過程取決于檢索過程中圖像的內容,計算機根據圖像的內容自動生成圖像對應的標注性關鍵字[1-3]。在圖像檢索過程中,經常采用三種特征,分別為:顏色特征、形狀特征和紋理特征[4-6]。其中顏色特征可以最簡單的描述一副圖像的視覺特征;形狀特征可以最本質的決定整幅圖像的含義,同時可以最直接的用于對圖像進行識別;紋理特征可以描述圖像結構與顏色分布,是刻畫像素鄰域灰度空間分布的一種特征。圖像自動標注作為實現圖像高層語言的理解,通過計算機生成圖像的語言描述,幫助人類迅速有效地理解圖像,具有重要的實用價值。文獻[7]融合PLSA和隨機游走模型的自動圖像方法,對已經標注的圖像文本信息,構建一個非對等模態的PLSA模型,來計算圖像初始語言標注,然后與相關聯的視覺信息構建標注圖像,在所構建的相似性圖像上隨機游走,進一步分析初始語言標注的潛在語言關聯,最終獲得圖像的精準化語言標注,該方法能夠更好的標注圖像效果和檢索性能,然而,該方法過于依賴圖像的視覺特性,很容易引起多義和同義現象。文獻[8]采用一種小波域K-Means遙感圖像分類標注算法,利用K-Means提取遙感圖像的紋理特征,對遙感圖像在小波域的分布特征進行濾波處理,利用語義對濾波后的圖像采取矢量分割歸類,對快速標注的圖像進行視覺分析,該方法能夠對變化的圖像得到更好的檢測結果,但是在分割的過程中很容易造成過分割和欠分割的現象。文獻[9]基于多特征融合與PLSA-GMM的圖像自動標注方法,在圖像檢索過程中提取顏色特征、形狀特征和紋理特征,然后融合PLSA與GMM構建圖像底層特征和所標注的關鍵詞之間的聯系,實現對圖像的自動標注,采用Corel 5k數據庫驗證結果表明該方法能夠較好的對圖像進行標注,但圖像處理的效率較低。
基于以上研究的優缺點,本文根據圖像在空間位置上的特征關系,將判別模型與生成模型的優點相結合來提高圖像標注的性能,通過構建層疊圖像標注模型與自適應劃分標注的方法相結合,利用相對很少的訓練圖像實現更好的標注結果,增強圖像區域自適應劃分標注的精度,有利于增強圖像的畫質感,提高圖像標注的效率。
對于任意一幅圖像,人類更容易被與周圍事物反差相對較大的事物所吸引。圖像的位置特征在人類視覺方面有著至關重要的影響。相鄰區域的高度對比,與相距較遠區域的高度對比,人類的視覺通常對前者的沖擊更為敏感。回想人類對事物觀察的情景,人類常常通過轉動視角把吸引自己的事物匯聚在視角中心。與此相似,在圖像采集過程中,圖像的空間位置特征屬于圖像標注的一部分,假設圖像在空間中的某點Q,其在空間坐標系中的坐標表示為(X,Y,Z),左右視覺像的平面坐標分別表示為(ul,vl)和(ur,vr),在空間中圖像的位置關系如圖1所示。

圖1 空間中圖像的位置關系
在空間視覺系統中,通過建立在同一個視覺坐標系下的圖像,得到兩組關于空間三維信息的線性方程,可以表示為
(al1-ulcl1)·X+(al2-ulcl2)·Y+(al3-ulcl3)·Z
=ulZl-Xl(bl1-vlcl1)·X+(bl2-vlcl2)·Y
+(bl3-vlcl3)·Z
=vl·Zl-Yl
(1)
(ar1-urcr1)·X+(ar2-urcr2)·Y+(ar3-urcr3)·Z
=urZr-Xr(br1-vrcr1)·X+(br2-vrcr2)·Y
+(br3-vrcr3)·Z
=vr·Zr-Yr
(2)
其中,(al1,al2,al3)、(bl1,bl2,bl3)、(cl1,cl2,cl3)和(Xl,Yl,Zl)分別表示左視覺的參數坐標;(ar1,ar2,ar3)、(br1,br2,br3)、(cr1,cr2,cr3)和(Xr,Yr,Zr)分別表示右視覺的參數坐標。假設所使用的左右視覺參數均為已知,且對視覺模型進行構建,已知左右視覺坐標(ul,vl)、(ur,vr)和內外參數,即可求解點Q的空間位置坐標(X,Y,Z),用方程可表示為
aX+bY+cZ=1
(3)
其中,H=(a,b,c)T表示已知的方程系數。將圖像空間位置引入到測試過程中,利用區域輪廓距離圖像中心的大小構建空間位置特征函數,提高圖像區域顯著性。歸一化后的圖像位置特征函數表示為
(4)
Ei即表示第i個圖像區域的位置特征函數,且滿足Ei∈[0,1];(xi,yi)點表示第i個圖像區域的質點坐標;H和W分別表示圖像區域的高度和寬度。通過上述公式便可求解出空間中的任意圖像坐標點,求出對應的空間位置。
本文提出的層疊圖像標注模型主要思想是利用自適應算法給一幅待標注的圖像進行聚類,然后判斷這幅待標注圖像的類別,選取其中類別概率相對高的幾種聚類作為該圖像的相關圖像集合,利用模型和待標注圖像的相關圖像集合對圖像進行標注。
在本文的層疊自動標注模型中,將待標注的圖像分配到其對應的聚類里面,這相當于圖像標注中的第一層標注(主題標注),主題標注是給待標注的圖像標注幾個待選擇的主題內容,所謂的主題是對所有的訓練圖像進行聚類得到的,因此每個聚類下所有的圖像內容都應與主題一一對應,主題概念只針對同一個視覺下的抽象概念,不具備實際意義。
本文通過構建圖像和關鍵詞的方法構建兩者之間的聯系。將每個關鍵詞和所對應的圖像構成一個集合,同個集合中的圖像最少對應某一種相同的關鍵詞,這樣圖像集合的個數便取決于所標注的詞匯個數。由于實際生活中同一種場景里面的不同物體之間必然存在著某種客觀聯系,因此通過相同的語義目標所建立的同一個集合里不同物體之間一定會存在著直接或間接的聯系,這樣就可以方便的建立相似場景里圖像和關鍵詞之間的關系了。
根據以上分析,需要設計迭代算法,選擇最優圖像集合對相關圖像進行拓展,在層疊圖像標注模型中,對待標注圖像進行訓練的權值用公式可表示為
(5)


(6)

(7)

(8)
那么第t+1次迭代時對應圖像的權值用公式可表示為
(9)

(10)

(11)
綜上所述,待標注圖像集合迭代算法終止條件用公式可表示為:

(12)
其中,αbn表示按降序排列時相對應圖像的權值;R表示最終所選定圖像集合的大??;θ表示相鄰兩次迭代相對應圖像差值的閾值大??;?表示迭代次數閾值大小。
每幅圖像區域和標注詞之間并不是完全對應關系,上節的目的只是為了找到整幅待標注圖像中最合適的若干標注詞,為了準確找到圖像標注詞,本節采用自適應劃分標注的方法對圖像進行標注。
按照密度運行的多樣性可知,應在圖像區域里面確定一個最優的標注,把每幅圖片打包成一個整體,經過自適應劃分后,將圖像作為包中的一個典范。假設把標注集合C(x(t))的圖像bi作為一個包,圖像塊zi∈bi作為包中的一個典范,就圖像集合R而言,在自適應劃分標注中,圖像集合用公式可表示為
G={Fi,Hi}·Ki
(13)
其中,G表示學習樣本;Hi表示Fi相對應的標注集合;Ki表示學習樣本G中圖像的個數。就h∈H而言,如果圖像Fi中有一樣的標注,可將其規定為正包,不一樣的標注規定為負包。通過計算zi與正負包之間的距離,能夠求得zi在不同標注值h下的得分值。那么選擇最大得分值所對應的圖像標注便是圖像的最佳標注,得分值用公式表示為

(14)
其中,FZ(u,v)表示標注為v時圖像u所對應的得分值FZ;minFi表示在圖像空間位置范圍內,與典范圖像u最近的Fi包中的任何一個典范圖像;maxFi表示圖像空間位置范圍內,與典范圖像u最遠的Fi包中的任何一個典范圖像;minFi和maxFi應分別滿足如下公式
(15)
(16)
綜上所述,可以通過求得分值FZ最大時的標注作為圖像典范的最佳標注,因此便可以實現圖像區域的自適應劃分標注。
為了驗證提出的層疊圖像空間位置特征自適應標注方法的可行性,本文在Corel5k數據包上進行實驗,該數據包包含多組圖片集合共10000幅圖像,每個數據包中包含相同主題的圖像有200幅,每幅圖像中有2~10個左右的關鍵詞,總計關鍵詞為520個。將圖像的視覺特征劃分為64×64的圖像區域,并將圖像區域劃分成1618維度的特征向量,其中顏色特征為162維度、形狀特征為240維度、紋理特征為118維度。最后將這些特征聚集成為視覺圖像,把每幅圖像打成一個包,從而構建層疊圖像標注模型。
為了驗證本文設計的標注性能,在Corel5k數據包上,將最佳性能的98個關鍵詞和總計的520個關鍵詞分別構成集合,基于語義標注結果對文獻[7]、文獻[8]、文獻[9]和本文的方法進行對比。語義標注結果如表1所示。

表1 語義標注結果
從表1中可以看出,本文提出的自適應標注算法標注結果明顯優于其它幾種算法,即使當一些關鍵詞沒有顯示在最初標注的情況下,但通過本文算法在某種程度上也能使多數關鍵詞標注在圖像中。本文提出的算法在最佳性能關鍵詞為98個時,語義標注的結果分別高出文獻[7]、文獻[8]和文獻[9]約13%、19%和26%。總關鍵詞為520個時,對圖像語義標注結果明顯優于文獻[7]、文獻[8]和文獻[9],且語義標注的結果分別高出18%、20%和28%,表明本文方法具有更好的特征識別效果與標注的全面性。
為了進一步驗證本文提出方法的可行性,基于Corel5k數據包上,在總關鍵詞為520、標注詞由2個增加到10個時,將圖像標注的準確性與文獻[7]、文獻[8]和文獻[9]進行橫向對比,有關準確性的對比結果如圖2所示。

圖2 圖像標注準確性對比結果
從圖中可以看出,當標注詞由2個增加到10個時,圖像標注的準確率呈下降的趨勢,但與其它三種方法相比,本文所提的自適應劃分標注方法具有最好的標注性能,準確率最高。標注準確率在關鍵詞高達到10個時,分別高出文獻[7]、文獻[8]和文獻[9]約15.7%、20.3%和35.2%。
隨著網絡信息的快速發展,網絡上的圖像信息管理成為了人們關注的重點問題,針對這一情況,本文提出了層疊圖像空間位置特征的自適應標注方法。首先,類比人類采集圖像的過程,根據圖像的空間位置特征求解出空間中的任意圖像坐標點,歸一化圖像位置特征函數,求出對應的空間位置。其次,對待標注的圖像進行聚類,選取其中類別概率相對高的幾種聚類作為該圖像的相關圖像集合,利用迭代算法對待標注圖像進行擴展。最后,按照密度運行的多樣性,把標注集合的圖像作為一個包,求解出最大得分值對應的圖像,得到最佳標注。實驗結果表明,本文提出的自適應劃分標注算法能夠充分利用圖像包含的特征,分析標注出更多的關鍵詞,提高標注的全面性,同時也顯著提高了標注的準確性。