999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖像自動標注技術研究進展

2016-09-29 19:08:54劉夢迪陳燕俐陳蕾
計算機應用 2016年8期

劉夢迪 陳燕俐 陳蕾

摘要:現有圖像自動標注技術算法可以大致劃分為基于語義的標注算法、基于矩陣分解的標注算法、基于概率的標注算法以及基于圖學習的標注算法等四大類。介紹了各類別中具有代表性的圖像自動標注算法,分析了這些算法的問題模型及其功能特點,并歸納了圖像自動標注算法中主要的優化求解方法及算法評價中常用的圖像數據集和性能評價指標。最后,指出了圖像自動標注技術目前存在的主要問題,并且提出了這些問題的解決思路。分析結果表明,對于圖像自動標注技術的研究,可充分利用現有算法的優勢互補,或借助多學科交叉的優勢,尋找更有效的算法。

關鍵詞:圖像檢索;圖像自動標注;標簽填補;標簽去噪;標簽預測

中圖分類號:TN911.73; TP391.413

文獻標志碼:A

0引言

隨著數碼技術和互聯網技術的迅速發展,出現了大量的社會化多媒體共享平臺,海量的圖像資源被用戶共享到這些平臺上,人類進入了大數據時代。在如此大規模的圖像資源中,為了有效地管理和查詢所需資源,圖像檢索技術出現在人們的視線中,成為了計算機領域的研究熱點之一。計算機領域的研究人員從不同角度對其進行了大量研究。20世紀70年代末期,基于文本的圖像檢索(Text-Based Image Retrieval, TBIR)技術[1]作為最早的圖像檢索技術出現。TBIR的圖像標簽需要手工標注,面對圖像數據庫的增長,消耗大量人力和物力資源,不適用于圖像數量巨大的數據庫。不過當時獲取圖像設備比較昂貴,圖像集數目比較小,早期的TBIR技術能夠滿足當時的需求。

20世紀90年代初,為了克服TBIR技術的缺陷,出現了基于內容的圖像檢索(Content-Based Image Retrieval, CBIR)技術[2],CBIR可以自動提取圖像視覺特性,不需要人工干預,并且使用計算機自動實現對顏色、形狀、紋理等低層視覺特征的提取和存儲。低層視覺特征主要是從顏色特征、紋理特征、形狀特征和空間關系特征這4方面[3]進行特征提取。針對不同的應用情況,CBIR可以采用任意不同的特征或特征組合來描述圖像的視覺內容,但是,CBIR仍然存在一些問題:底層視覺特征多樣性使刻畫較強的視覺特征成為難題,而且在低層視覺特征和高層語義特征之間存在“語義鴻溝”的缺陷。

進入21世紀以來,互聯網技術發展迅速,網頁數量成倍增長,圖像資源成倍增加。TBIR技術的巨大工作量和CBIR技術的“語義鴻溝”對圖像檢索的影響逐漸變大,它們已經不能很好地滿足用戶進行圖像檢索的需求。于是,Kulkarni[4]從關聯性的思想出發,提出了基于聯想的圖像檢索(Association-Based Image Retrieval, ABIR)技術。ABIR技術采用雙向聯想記憶模型來存儲圖像的關聯關系[5]。ABIR技術不夠成熟,不太適用于實際應用。由于用戶習慣于使用標簽進行需求查詢,并且現有的互聯網搜索引擎大都是提供基于文本的圖像檢索;但是人工標注的高代價、主觀性和不完整性影響了圖像標注的精確性,使得圖像檢索的效率降低。為了解決這一問題,圖像自動標注(Automatic Image Annotation, AIA)技術逐漸發展起來,并成為了諸多研究者關注的熱點。AIA技術[6]可以利用已標注的圖像集或其他可獲得的信息自動學習語義概念空間與視覺特征空間的關系模型,并用此模型標注未知語義的圖像;而且通過在圖像的高層語義特征和底層特征之間建立一種映射關系,它可以解決一定程度的“語義鴻溝”問題。互聯網圖像自動標注技術的難點主要集中在3方面:1)互聯網標注者的復雜性。圖像標簽的標注者為互聯網用戶,他們來自不同的國家、擁有不同的文化背景和不同的性格特點,這些差異導致圖像標注因人而異,從而決定了圖像和標簽之間的復雜對應關系,增加了圖像標注問題的復雜性。2)互聯網圖像標簽的缺失性和多義性。互聯網用戶往往對圖像標注不完整,這大大降低了圖像檢索的精確度。標簽也具有一詞多義性和多詞一義性,導致標簽語義的豐富性,從而進一步加大了圖像標注問題的難度。3)互聯網圖像視覺內容的多樣性。不同的互聯網用戶因各種自身因素和外部因素的影響,使同一標簽呈現出不同的圖像視覺內容,這使得圖像和標簽之間的對應關系更加復雜。

本文根據學習方法的不同,將現有算法劃分為基于語義的圖像自動標注算法、基于矩陣分解的圖像自動標注算法、基于概率的圖像自動標注算法以及基于圖學習的圖像自動標注算法等,并分別介紹了各類方法中代表性算法的問題模型及其功能特點。然后給出了圖像自動標注算法中主要的優化求解方法及算法評價中常用的圖像數據集和性能評價指標,最后探討了自動圖像標注技術目前存在的主要問題及其解決思路。

1圖像自動標注問題模型

假設I={xi∈Ri=1,2,…,n}表示圖像集合,其中n表示圖像數目。∈{0,1}n×m是一個二值矩陣,表示用戶所提供的初始圖像標簽矩陣,如果標簽tj標注圖像xi,則ij=1,否則為0。T∈Rn×m表示最終修正的圖像標簽矩陣,其中m表示圖像集中標簽的數量。V∈Rn×d表示圖像特征矩陣,其中d表示圖像集中特征的數量。R∈Rm×m表示圖像標簽之間語義相似度組成的矩陣,Rij≥0表示標簽ti和標簽tj之間的語義相似度。S∈Rn×n表示圖像間的視覺相似度組成的矩陣,Sij≥0表示圖像xi和圖像xj之間的視覺相似度。 μ、α、 β和ρ都是可調參數。

1.1基于語義的圖像自動標注模型

基于語義的圖像自動標注,可以利用WordNet[7]的結構化語義信息衡量詞匯之間的關系,從而更好地選擇適合圖像內容的語義詞匯,以及去除冗余的語義詞。

Jin等[8]提出了一種基于WordNet的圖像自動標注算法(WordNet Model, WNM)。該算法根據基于翻譯模型(Translation Model, TM)的方法得到每幅圖像的候選標注詞匯,并使用多種基于WordNet的語義度量計算每個詞匯與其他所有詞匯之間的語義相關度,然后根據標注結果之間的語義一致性來確定最終標注結果。Lee等[9]通過考慮標簽分類和標簽間的關聯性提出了一種模塊化標簽修正算法(Modular Approach towards Tag Refinement, TR-MA),該算法先利用WordNet語義詞典技術依據標簽的性質將標簽分為“where”“when”“who”“what”和“how”五大類,然后根據不同性質的標簽使用不同標簽修正方法的思想,對“what”類利用近鄰投票策略計算標簽之間的關聯性,從而區別出與圖像不相關標簽并找到相關標簽。Liu等[10]提出一種圖像重標記方案(Image Retagging, IRetagging),該方案先利用WordNet設計有效的視覺辭典過濾掉與視覺內容無關的標簽,再利用設計的優化算法對標簽修正,然后利用WordNet的詞匯樹結構得到每個標簽的同義詞和上位詞對其進行擴充,從而實現標簽的填補與去噪,得到高質量圖像標簽的集合。標簽修正問題建模如式(1)所示:

其中:θ是數值收縮因子,用來解決Tjl和jl的不同數值尺度問題。式(1)中加號前一項保證視覺相似性和語義相似性之間的一致性;加號后一項保證用戶提供的標簽有較高的正確性。

1.2基于矩陣分解的圖像自動標注模型

基于矩陣分解的圖像自動標注的本質是利用低秩性恢復圖像與標簽之間的對應關系。Liu等[11]提出一種基于上下文數據分解的標簽修復算法(Label Completion by pursuing Contextual Decomposability, LC-CD),該算法考慮了標簽內部的共性以及差異性、標簽之間的差異性、特征和標簽之間的一致性以及已標注標簽的一致性四方面,將標簽修正問題轉化為非負數據矩陣分解問題進行求解,而且它不需要顯式的圖像分解,只需將全局的圖像表達分解為局部的標簽表達(每個標簽對應一部分圖像區域),并充分利用了人工標注信息和多種上下文信息參與分解過程,最終自動完成圖像中未標注標簽的修正。Zhu等[12]提出一種同時考慮修正的圖像標簽矩陣低秩性和噪聲矩陣稀疏性的圖像標簽修正算法(Low Rank-Error Sparsity-Content Consistency-Tag Correlation, LR-ES-CC-TC),該算法將圖像標簽矩陣分解成低秩矩陣和噪聲稀疏矩陣之和,并利用圖像間語義和視覺特征一致性的約束條件優化圖像和標簽之間的對應關系,從而完成圖像標簽的修正。問題建模如式(2)所示:

Xia等[13]提出一種正則化優化算法(Tag Completion based on Nonnegative Matrix Factorization, TC-NMF),該算法同時考慮了標簽間的語義相關性和圖像的整體視覺相似性,使用非負矩陣分解算法找到標簽間的相關關系來實現標簽的去噪,然后根據圖像整體視覺離散度(圖像在特征空間中與其類均值的平均距離)加強圖像和標簽之間的關系,得到修正的圖像標注結果。問題建模如式(3)所示:

其中:H∈Rr×n表示維度為r的潛在低秩空間;W∈Rm×r表示T投影到H上的系數。V=[vT1;vT2;…;vTn]表示n個圖像視覺特征向量組成的矩陣;U=[uTi;uTi;…;uTi]表示第i個標簽的視覺特征均值向量的擴展矩陣;Tci=[TiTi…Ti]表示權重系數矩陣;“·”表示矩陣的點乘運算。式(3)中函數前兩項保證在潛在低秩空間中噪聲標簽的消除,從而保證在原有空間中標簽與圖像對應關系的準確性;后兩項的正則化項用來限制優化框架的復雜度。

Li等[14]提出了一種具有雙重建結構的低秩分解算法(Low-Rank Factorization with Dual Reconstruction Structure, LRF-DRS),該算法同時考慮了圖像標簽矩陣低秩性和噪聲矩陣稀疏性,并通過稀疏編碼將其中的修正標注矩陣分解為基矩陣和稀疏系數矩陣,然后根據線性重構思想分別在壓縮的低維特征空間和標簽空間進行局部線性重建,從而得到修正的圖像標簽矩陣。問題建模如式(4)所示:

其中:X和Y分別表示在特征空間或標簽空間下的局部線性重建系數矩陣;B∈Rn×k和D∈Rk×m分別表示最終修正的圖像標簽矩陣T分解的基矩陣和稀疏系數矩陣,其中B·i為基矩陣的第i個列向量。記基矩陣的每個列向量為一個基向量,對應一個特定標簽;記系數矩陣的每個列向量對應一幅圖像屬于不同標簽的概率,即置信度向量。

1.3基于概率的圖像自動標注模型

基于概率的圖像自動標注是通過概率統計分析圖像特征和圖像標簽之間的共生概率關系,并以此進行圖像的語義標注。Xu等[15]提出一種基于主題模型的標簽修正(Tag Refinement using Topic Model, TR-TM)算法,該算法先利用正則化潛在狄利克雷分布(regularized Latent Dirichlet Allocation, rLDA)[16]圖模型以一種迭代的方式聯合評估標簽相似性和標簽關聯性,然后使用k近鄰算法得到相關度較高的標簽,實現圖像標簽修正。Liu等[17]提出一種基于隨機游走的標簽排序(Tag Ranking based on Random Walk, RWTR)進行標簽修正,該算法先用一種概率的方法估計初始圖像標簽相關度;然后在描述標簽間關系的標簽圖中進行隨機游走傳播標簽之間的相關度;最后根據相關度得分進行標簽排序,保留得分高的標簽并移除得分低的標簽。

Lee等[18]提出一種使用概率估計方法的標簽修正算法(Tag Refinement in an Image Folksonomy, TRIF),該算法先利用k近鄰算法尋找一定相似圖像構建每幅圖像的視覺分類(Visual Folksonomy),然后在該圖像的視覺分類中統計標簽的分布規律和共現關系,利用統計信息推導出圖像和標簽之間的概率關系,并根據它們的概率與設定閾值之間的關系來清理與圖像內容無關的標簽。Xia等[19]提出一種基于雙層聚類標簽優化算法(Tag Refinement based on Bi-Layer Clustering, TR-BLC)。該算法先根據使用歸一化Google距離度量的標簽間相關性將圖像集合分組,再通過使用稀疏近鄰傳播(Affinity Propagation, AP)聚類算法[20]將融合視覺相似性和語義相似性的相似圖像分為更小的分組,然后對每一組圖像使用共現頻率和標簽間的相關性建立標簽與圖像子集的概率關系,最后利用改進的Fisher準則判斷出與圖像內容無關的標簽,完成圖像標簽的修正。該算法增強了低頻出現的正確標簽與圖像的相關度,從而提高了圖像標簽的去噪能力。

1.4基于圖學習的圖像自動標注模型

基于圖學習的圖像自動標注屬于半監督學習算法,即已知標注的訓練數據和未知標注的測試數據一起參加圖學習的算法。盧漢清等[21]提出一種基于圖學習的圖像標注(Image Annotation based on Graph Learning, IA-GL)算法。該算法同時考慮了圖像間視覺一致性和語義一致性,它利用圖像間視覺相似性構建以圖像為節點的圖,完成圖像間視覺相似性在已標注圖像到未知標注圖像的傳播,然后利用標注間語義關聯性構建以詞為節點的圖完成圖像標注的修正,得到最終標注結果。Liu等[22]提出一種基于圖學習模型的圖像標注(Two-phrases Graph Learning Model, TGLM)算法,該算法利用最近鄰生成鏈(Nearest Spanning Chain, NSC)方法構建基于圖像的圖模型,然后和文獻[21]中算法一樣使用兩個步驟進行連續學習,即基于圖像的圖學習獲得初始圖像標注和基于詞匯的圖學習獲得圖像最終標注結果。

Liu等[23]對文獻[17]進行改進,融入標簽間的相互關系,并利用圖學習的思想提出一種基于協同標記傳播的標簽修正(Tag Refinement based on Collaborative Tag Propagation, TR-CTP)算法。該算法將協同圖像標簽修正問題轉化為圖正則化優化問題,它先利用特定標簽圖像與特定標簽的視覺詞匯表建立相對于某一特定標簽的圖像相互關系,然后在多個特定標簽圖之間以協同的方式傳播進行圖像標簽修正,進一步提高圖像標簽的質量。問題建模如式(5)所示:

Feng等[24]提出一種噪聲矩陣恢復(Tag Completion by Matrix Recovery, TCMR)算法。該算法從一個未知的圖像標簽矩陣中選取觀察標簽樣本,并引入圖拉普拉斯統計圖像特征和標簽之間的依賴性,從而得到修正的圖像標簽矩陣,它同時實現了標簽的填補和去噪。問題建模如式(6)所示:

1.5其他圖像自動標注模型

Lin等[25]提出了一種線性稀疏重建(Linear Sparse Reconstructions, LSR)方案。該方案同時考慮了圖像間相似性、圖像標簽間關聯性和標簽間共現性,并在稀疏性的制約下分別對初始圖像標簽矩陣進行特定圖像和特定標簽線性稀疏重建,然后根據加權線性合并策略將得到的兩個圖像標簽矩陣進行合并,得到最終修正的圖像標注結果。LSR算法可以進行已部分標注圖像的補全(直推式方法)和未知標注圖像的補全(歸納方法)。之后Lin等[26]又提出了一種提高效率的雙視圖LSR(Dual-view LSR, DLSR)方案。該方案在重建圖像視圖時引入重建圖像時的加權向量和初始標記向量之間的差異來增加視覺上相似的圖像,并對得到的兩項重構標記結果進行有效的標準化和合并,得到最終圖像標注結果。這兩種方案均使用圖像間的視覺相似性和語義相似性重建圖像,使用標簽間共現性重建標簽,它們均可以被用來預測缺失的相關標簽,從而填補圖像的標簽。

Wang等[27]提出一種針對圖像標簽補全和預測的哈希(Hashing codes for Tag Completion and Prediction, HashTCP)算法,該算法利用漢明距離對所有觀測圖像和標簽構建緊湊的哈希編碼,把標簽或圖像相似性問題轉化為哈希編碼相似性問題進行求解,實現對觀測圖像缺失標簽的補全及對新加入圖像的標簽預測。問題建模如式(7)所示:

Wu等[28]提出了一種標簽矩陣補全(Tag Matrix Completion, TMC)算法,該算法同時考慮圖像間視覺相似性和標簽間關聯性,并在稀疏性的制約下,通過最小化每幅圖像的標簽與圖像視覺內容之間的差異進行標簽的補全。問題建模如式(8)所示:

Znaidia等[29]提出一種基于近鄰投票和Belief理論[30]的標簽補全(Tag Completion based on Belief Theory and Neighbor Voting, TC-BT-NV)算法,該算法先利用k近鄰算法獲取指定圖像的近鄰,然后根據Belief理論[30]進行近鄰投票,保留標簽列表中與該圖像相關的標簽并預測出更相關的標簽,完成標簽的補全。

除此之外,最近幾年深度學習算法作為解決“語義鴻溝”問題的有效方法,逐步被應用到圖像領域中。2012年,Krizhevsky等[31]提出一種深層次卷積神經網絡(Convolutional Neural Network, CNN)結構,該結構通過使用修正線性單元(Rectified Linear Unit, ReLU)引入非線性、多圖形處理器(Graphics Processing Unit, GPU)訓練、局部相應正則化及重疊池提高模型訓練速度,其在ImageNet評測上取得巨大突破,將結果錯誤率從26%降低到15%。Ciresan等[32]提出一種用于圖像分類的多列深度神經網絡(Multi-column Deep Neural Network, MCDNN)結構,該結構先利用GPU對分為多塊的輸入圖像中每塊訓練多個深神經列,然后平均所有獨立DNN輸出得到結果。Srivastava等[33]提出一種基于深度信念網絡(Deep Belief Network, DBN)模型的算法,該算法通過探索多模深度信念網絡來學習圖像標注中的表示,并通過融合含有共享隱藏表示的多個數據源來完成圖像檢索。Feng等[34]提出一種用于跨模式檢索的通信受限玻爾茲曼機(Correspondence Restricted Boltzmann Machine, Corr-RBM)結構,該結構先將文本和圖像輸入投影到同一表示空間中,然后利用距離度量對待查詢文本或圖像和所有候選圖像或文本之間的相似性進行排序,得到最終結果。楊陽等[35]提出一種深度學習的圖像自動標注算法(Image Auto-annotation based on Deep Learning, IA-DL),該算法先根據深度神經元網絡構建一個圖像自動標注專用模型,并利用圖像標簽的詞頻信息改進深度學習模型的監督信息,得到基本圖像標注結果,然后利用標記詞匯的共生關系與詞頻先驗知識來改善已得到的圖像標注結果。

1.6各圖像自動標注模型的對比

各圖像自動標注模型的功能特點如表1所示,其中:標簽填補指對已部分標注圖像進行缺失標簽補全;標簽去噪指去除與圖像對應關系有錯誤的標簽,即那些無法描述圖像視覺內容的標簽;標簽預測指對無標注圖像進行自動標注。

2圖像自動標注問題求解

分析現有圖像自動標注問題的求解算法的設計技巧不難發現,目前面向圖像自動標注問題求解的優化算法以一階算法居多,具有代表性算法包括:坐標下降(Coordinate Descent, CD)算法、梯度下降(Gradient Descent, GD)算法、次梯度下降(Subgradient Descent, SD)算法、加速近鄰梯度(Accelerated Proximal Gradient, APG)算法、交替方向乘子(Alternating Direction Method of Multipliers, ADMM)法等。

坐標下降算法、梯度下降算法、次梯度下降算法和加速近鄰梯度算法求解的優化問題均為典型的無約束優化問題:

坐標下降算法具有如下特點:1)如果函數是凸光滑的,那么算法保證收斂;2)如果函數是非光滑的,那么算法不一定收斂;3)如果非光滑部分是可分離的,那么算法也能保證收斂,如

3圖像自動標注算法評價

3.1常用圖像數據集

為了進行算法的性能分析,不同類型的圖像數據集被公布出來,這有效降低了研究者的工作難度,使得算法性能分析更易進行。常用的圖像數據集有COREL數據集、LabelMe數據集、MSRC數據集、MIRFlickr數據集、NUS-WIDE數據集和IAPR TC-12數據集等。表2從圖像數據集大小、標注類型等幾個方面進行對比。

COREL數據集[36]是由商業公司COREL發布的圖像數據集。為了適應不同的需求,從原始的大量圖像中抽取部分圖像,分別組成了COREL5K(含有5000幅圖像)和COREL30K(含有30000幅圖像)。本數據集中圖像的標注信息是人工提供的且都是基于整幅圖像的,而且給出的標注信息有具體的對象類別、場景、地點等。

LabelMe數據集[37]是由麻省理工學院計算機科學與人工智能實驗室發布的,主要用來為圖像自動標注算法提供訓練和測試數據集。該數據集由眾多志愿者進行標注,并獲得了較為完整的標注結果。LabelMe數據集共有4053幅圖像和65017個對象,分為訓練圖像數據集(包括2920幅,其中若干圖像標注不完整)和測試圖像數據集(包括1133幅圖像,這些圖像的標注較為完整)。

MSRC數據集[38]是由微軟劍橋研究院發布的,主要是用來為自動對象分割和對象識別算法提供訓練和測試數據集。為了能為對象分割算法提供支持,該數據集中所有圖像都是使用像素級別(Pixel-Wise Level)的人工標注信息,即每個像素點都標注了對應的對象類別。該數據集共發布了兩個版本:第一個版本中包含240幅圖像和9個對象;第二個版本中包含591幅圖像和23個對象,其中有21個對象比較常用。

MIRFlickr數據集[39]是由荷蘭萊頓大學LIACS媒體實驗室提供的數據庫。該數據集中的圖像標注信息由人工提供并含有30個標簽,它比較適合于圖像檢索的評價。在選用該數據集時,經常選用兩種大小的圖像子集,分別為MIRFlickr25K和MIRFlickr1M。

NUS-WIDE數據集[40]是由新加坡國立大學的LMS媒體搜索實驗提供的數據庫。該數據集也是通過收集Flickr圖像而構建的大規模圖像數據集。該數據集是利用人工進行大量的圖像標注的,并且提供了81個標簽的圖像標注結果。除此之外,該數據集還提供了基于數據集圖像的視覺特征,如144維的顏色特征、尺度不變特征轉換(Scale-Invariant Feature Transform,SIFT)特征等6種低水平的視覺特征。

IAPR TC-12數據集[41]是由國際模式識別協會(the International Association for Pattern Recognition, IAPR)TC-12技術委員會負責創建的圖像數據集。原始的IAPR TC-12數據集包含20000幅自然圖像,這些圖像的內容涵蓋了運動、人物、動物、景觀和當代生活中很多方面內容。該數據集最初用作跨語言圖像檢索的測試平臺,其中圖像的初始文本信息是由英語、德語和西班牙語三種語言給定的自由文本語句。為了使IAPR TC-12數據集適合于圖像標注研究,MAKADIA對原始的數據集進行改進,僅保留了英語語言的自由文本描述,并通過自然語言處理技術從中抽取自由文本中的名詞詞匯作為標簽;同時剔除了兩類圖像,包括灰度圖像和超低頻詞匯關聯的圖像[42]。改進后的IAPR TC-12數據集包括19805幅圖像,分為訓練圖像數據集(包括17825幅圖像)和測試圖像數據集(包括1980幅圖像)。整個圖像集包括291個標注詞匯,每幅圖像平均包括4.7個詞匯。

上述幾種圖像數據集各有特色,可以適應于不同的應用場景。從表2中可以看出,規模最大的MIRFlickr圖像數據集已經達到百萬級別,但是提供的標注類別數并不多。由此可以看出,數目越大的圖像集越難以提供較豐富的標注信息。而像COREL數據集這些較小的數據集花費的標注代價較小,并且能提供較完整的標注信息,因此在現有絕大多數影響較大的標注算法中常被用來評價算法性能。

3.2算法性能評價指標

為了評價圖像自動標注算法的性能,需要一定的性能評價準則。分析現有圖像自動標注算法的性能評價指標不難發現,目前常用的評價指標有查準率(Precision)、查全率(Recall)和F1-Score、P@N(Precision@N)、平均查準率(Average Precision, AP)和平均查準率的均值(Mean Average Precision, MAP)、AP@N(Average Precision@N)以及歸一化折扣累積增益(Normalized Discounted Cumulative Gain, NDCG)[43]等。

1)查準率、查全率和F1-Score。

查準率用來衡量標簽查詢圖像的準確度,查全率用來衡量標簽查詢圖像的成功度。根據圖像和標簽之間的關系,圖像標注結果可以分為四種情況,如表3所示。

4結語

本文對現有圖像自動標注算法進行了分析,包括算法的問題模型、問題求解方法以及算法評價中常用的圖像數據集和性能評價指標等。縱觀圖像自動標注的發展歷程,大都是根據人們對圖像檢索的需求,合理地在已有的算法的目標函數基礎上進行改進或直接設計出新的算法,大致思想都是從圖像和標簽之間的各種關系出發,最小化圖像自動標注過程中產生的各種誤差等。

盡管研究者們已經提出了諸多圖像自動標注算法,并且這些算法在其各自的數據集上表現出了良好的性能,但它們仍然存在如下不足:

1)現有圖像標注算法往往無法同時兼顧標簽補全和標簽預測,引入機器學習領域流行的遷移學習理論或許是一種不錯的解決思路。

2)現有圖像自動標注算法在圖像標注較豐富(或缺失的標簽較少)的情形下性能表現良好;但對于那些只有極少量圖像標注的情形性能將急劇下降,已有部分學者開始考慮引入機器學習領域中的主動學習技術來豐富部分圖像的標簽,通過主動地從用戶獲取知識來提高算法性能。

3)現有圖像自動標注算法大多只利用了圖像標簽矩陣的低秩性,沒有考慮圖像標簽矩陣所固有的稀疏性,從而一定程度上影響了算法性能,在對圖像自動標注問題建模時如果能同時考慮圖像標簽矩陣的稀疏性與低秩性應該是一種不錯的選擇。

4)現有圖像自動標注技術處理的問題規模有限,無法滿足人們對大規模社交圖像進行檢索的實際需求,為了適應更大問題規模,可以將現有算法在并行環境下進行拓展。在并行實現環境的選取上,源于加州伯克利大學的Spark是近年來大數據處理的新銳代表,已經在批處理、流計算、機器學習、圖計算等一系列領域得到廣泛應用,尤其適用于需要多次迭代計算的圖像自動標注算法,將極有可能成為圖像自動標注技術首選的并行實現平臺。

參考文獻:

[1]DATTA R, JOSHI D, LI J, et al. Image retrieval: ideas, influ-ences, and trends of the new age [J]. ACM Computing Surveys, 2008, 40(2): Article No. 5.

[2]SMEULDERS A W M, WORRING M, SANTINI S, et al. Content-based image retrieval at the end of the early years [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(12): 1349-1380.

[3]DESELAERS T, KEYSERS D, NEY H. Features for image retrieval: an experimental comparison [J]. Information Retrieval, 2008, 11(2): 77-107.

[4]KULKARNI A. Association-based image retrieval [C]// Proceedings of the 2010 42nd Southeastern Symposium on System Theory. Piscataway, NJ: IEEE, 2010: 30-34.

[5]CHEN L, YANG G, ZHANG Y, et al. Asymptotically stable multi-valued many-to-many associative memory neural network and its application in image retrieval [J]. Neural Network World, 2013, 2(13): 169-189.

[6]鮑泓,徐光美,馮松鶴,等.自動圖像標注技術研究進展[J].計算機科學,2011,38(7):35-40.(BAO H, XU G M, FENG S H, et al. Advances in automatic image annotation [J]. Computer Science, 2011, 38(7): 35-40.)

[7]MILLER G A. WordNet: a lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39-41.

[8]JIN Y, KHAN L, WANG L, et al. Image annotations by combining multiple evidence & WordNet [C]// Proceedings of the 13th Annual ACM International Conference on Multimedia. New York: ACM, 2005: 706-715.

[9]LEE S, DE NEVE W, RO Y M. Image tag refinement along the ‘what dimension using tag categorization and neighbor voting [C]// Proceedings of the 2010 IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE, 2010: 48-53.

[10]LIU D, HUA X S, YANG L, et al. Tag ranking [C]// Proceedings of the 18th International Conference on World Wide Web. New York: ACM, 2009: 351-360.

[11]LIU X, YAN S, CHUA T S, et al. Image label completion by pursuing contextual decomposability [J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2012, 8(2): Article No. 21.

[12]ZHU G, YAN S, MA Y. Image tag refinement towards low-rank, content-tag prior and error sparsity [C]// Proceedings of the 2010 International Conference on Multimedia. New York: ACM, 2010: 461-470.

[13]XIA Z, FENG X, PENG J, et al. A regularized optimization framework for tag completion and image retrieval [J]. Neurocomputing, 2015, 147: 500-508.

[14]LI X, ZHANG Y J, SHEN B, et al. Image tag completion by low-rank factorization with dual reconstruction structure preserved [C]// Proceedings of the 2014 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2014: 3062-3066.

[15]XU H, WANG J, HUA X S, et al. Tag refinement by regularized LDA [C]// Proceedings of the 17th ACM International Conference on Multimedia. New York: ACM, 2009: 573-576.

[16]JORDAN M I, BLEI D M, NG A Y. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3: 465-473.

[17]LIU D, HUA X S, WANG M, et al. Image retagging [C]// Proceedings of the 2010 International Conference on Multimedia. New York: ACM, 2010: 491-500.

[18]LEE S, DE NEVE W, RO Y M. Tag refinement in an image folksonomy using visual similarity and tag co-occurrence statistics [J]. Signal Processing: Image Communication, 2010, 25(10): 761-773.

[19]XIA Z, FENG X, PENG J, et al. Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation [J]. Journal of Signal Processing Systems, 2014, 81(1): 29-44.

[20]FREY B J, DUECK D. Clustering by passing messages between data points [J]. Science, 2007, 315(5814): 972-976.

[21]盧漢清,劉靜.基于圖學習的自動圖像標注[J].計算機學報,2008,31(9):1629-1639.(LU H Q, LIU J. Image annotation based on graph learning [J]. Chinese Journal of Computers, 2008, 31(9): 1629-1639.)

[22]LIU J, LI M, LIU Q, et al. Image annotation via graph learning [J]. Pattern Recognition, 2009, 42(2): 218-228.

[23]LIU D, YAN S, HUA X S, et al. Image retagging using collaborative tag propagation [J]. IEEE Transactions on Multimedia, 2011, 13(4): 702-712.

[24]FENG Z, FENG S, JIN R, et al. Image tag completion by noisy matrix recovery [M]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 424-438.

[25]LIN Z, DING G, HU M, et al. Image tag completion via image-specific and tag-specific linear sparse reconstructions [C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 1618-1625.

[26]LIN Z, DING G, HU M, et al. Image tag completion via dual-view linear sparse reconstructions [J]. Computer Vision and Image Understanding, 2014, 124: 42-60.

[27]WANG Q, RUAN L, ZHANG Z, et al. Learning compact hashing codes for efficient tag completion and prediction [C]// Proceedings of the 22nd ACM International Conference on Conference on Information & Knowledge Management. New York: ACM, 2013: 1789-1794.

[28]WU L, JIN R, JAIN A K. Tag completion for image retrieval [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3): 716-727.

[29]ZNAIDIA A, LE BORGNE H, HUDELOT C. Tag completion based on belief theory and neighbor voting [C]// Proceedings of the 3rd ACM Conference on International Conference on Multimedia Retrieval. New York: ACM, 2013: 49-56.

[30]SHAFER G. A Mathematical Theory of Evidence [M]. Princeton: Princeton University Press, 1976: 35-46.

[31]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// NIPS 2012: Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2012: 1106-1114.

[32]CIRESAN D, MEIER U, SCHMIDHUBER J. Multi-column deep neural networks for image classification [C]// Proceedings of the 25th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.

[33]SRIVASTAVA N, SALAKHUTDINOV R. Learning representations for multimodal data with deep belief nets [C]// Proceedings of the 29th International Conference on Machine Learning Workshop. New York: ACM, 2012: 1-8.

[34]FENG F X, LI R F, WANG X J. Deep correspondence restricted Boltzmann machine for cross-modal retrieval [J]. Neurocomputing, 2015, 154: 50-60.

[35]楊陽,張文生.基于深度學習的圖像自動標注算法[J].數據采集與處理,2015,30(1):88-98.(YANG Y, ZHANG W S. Image auto-annotation based on deep learning [J]. Journal of Data Acquisition and Processing, 2015, 30(1):88-98.)

[36]DUYGULU P, BARNARD K, DE FREITAS J F G, et al. Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary [C]// Proceedings of the 2002 European Conference on Computer Vision. Berlin: Springer, 2002: 97-112.

[37]RUSSELL B C, TORRALBA A, MURPHY K P, et al. LabelMe: a database and Web-based tool for image annotation [J]. International Journal of Computer Vision, 2008, 77(1/2/3): 157-173.

[38]SHOTTON J, WINN J, ROTHER C, et al. TextonBoost: joint appearance, shape and context modeling for multi-class object recognition and segmentation [C]// ECCV 2006: Proceedings of the 9th European Conference on Computer Vision. Berlin: Springer, 2006: 1-15.

[39]HUISKES M J, LEW M S. The MIR flickr retrieval evaluation [C]// Proceedings of the 1st ACM International Conference on Multimedia Information Retrieval. New York: ACM, 2008: 39-43.

[40]CHUA T S, TANG J, HONG R, et al. NUS-WIDE: a real-world Web image database from National University of Singapore [C]// Proceedings of the 2009 ACM International Conference on Image and Video Retrieval. New York: ACM, 2009: Article No. 48.

[41]GRUBINGER M, CLOUGH P, MLLER H, et al. The IAPR TC-12 benchmark: a new evaluation resource for visual information systems [C]// Proceedings of the 2006 International Workshop OntoImage Language Resources for Content-Based Image Retrieval. Genoa, Italy: [s.n.], 2006: 13-23.

http://tci.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi?o=dnclret&s=id=%22TCI0002281631%22.&searchmode=basic&tcihsspage=tcisearch_opt2_search

http://xueshu.baidu.com/s?wd=paperuri%3A%28784279d707a6f51174a70106eeba4d1d%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Bjsessionid%3DDD0E61692B0CFF7C88205F77BDC515B1%3Fdoi%3D10.1.1.175.3994%26rep%3Drep1%26type%3Dpdf&ie=utf-8&sc_us=10831976905929293321

[42]MAKADIA A, PAVLOVIC V, KUMAR S. Baselines for image annotation [J]. International Journal of Computer Vision, 2010, 90(1): 88-105.

[43]JRVELIN K, KEKLINEN J. Cumulated gain-based evaluation of IR techniques [J]. ACM Transactions on Information Systems, 2002, 20(4): 422-44.

主站蜘蛛池模板: 亚洲一欧洲中文字幕在线| 亚洲欧洲日韩综合色天使| 一本色道久久88| 亚洲黄色成人| 福利视频久久| 国产精品香蕉在线| 国产一区在线视频观看| 日韩毛片在线视频| 国产第一页屁屁影院| 国产免费一级精品视频 | 久久96热在精品国产高清| 日韩AV无码一区| 色噜噜狠狠狠综合曰曰曰| 乱码国产乱码精品精在线播放| 欧美日本中文| 亚洲无码A视频在线| 国产欧美精品一区二区| 国产又黄又硬又粗| 国产永久在线观看| 亚洲一区二区三区在线视频| 国产午夜无码专区喷水| 精品国产成人三级在线观看| 四虎成人精品在永久免费| 久青草免费在线视频| 黄色成年视频| 欧美日本一区二区三区免费| 国产成人无码Av在线播放无广告| 在线毛片网站| 午夜欧美在线| 激情在线网| 亚洲无码高清一区| 成人午夜免费观看| 国产精品女主播| 九九九精品成人免费视频7| 国产精品自在在线午夜| 婷婷综合缴情亚洲五月伊| 久久久91人妻无码精品蜜桃HD| 欧美亚洲国产一区| 国产一区二区精品福利| 精品久久久久久成人AV| 国内丰满少妇猛烈精品播| 国产成人盗摄精品| 九九热精品在线视频| 国产亚洲男人的天堂在线观看| 国产成人亚洲无吗淙合青草| 国产一区自拍视频| 国产毛片不卡| 91小视频在线观看| 亚洲欧洲日产国码无码av喷潮| 一级毛片无毒不卡直接观看 | 亚洲成人精品在线| 欧美日韩免费| 色天天综合久久久久综合片| 精品国产网| 欧美日韩久久综合| 中文字幕第1页在线播| 日韩东京热无码人妻| 久久精品国产免费观看频道| 99人体免费视频| 国产又粗又猛又爽视频| 久久午夜夜伦鲁鲁片无码免费| 91福利免费| 亚洲成av人无码综合在线观看| 亚洲精品日产精品乱码不卡| 亚洲无码一区在线观看| 亚洲第一成年网| 国产屁屁影院| 天天摸夜夜操| 国产精品白浆在线播放| 国产乱肥老妇精品视频| 青青草91视频| 欧美综合在线观看| 蜜芽国产尤物av尤物在线看| 浮力影院国产第一页| 自拍亚洲欧美精品| 欧美有码在线| AV网站中文| 天天视频在线91频| 无码人妻免费| 国产在线一区视频| 久久综合九色综合97婷婷| 国产不卡在线看|