吳小雪 張慶輝

摘要:圖像描述技術的出現滿足了人們追求的使計算機描述圖像的愿望,但關于這方面的研究目前還處于初級階段。介紹了圖片描述技術的發展,分析了早期圖像描述技術的短板,指出了深度學習應用與圖像描述。詳細介紹了圖像描述的模型及發展,引出注意力機制與高層語義關系對圖像描述的改進。
關鍵詞:深度學習;圖像描述;RNN;注意力機制;語義提取
一、引言
圖像描述,是指計算機根據輸入圖片內容,自動的對圖片生產一段描述性文字。對于人來說,完成圖像描述是簡單而自然的事情,但對于計算機而言,要實現該操作主要面臨三個步驟:1)對圖像進行目標檢測,獲得圖片中需要描述的物體;2)理解不同目標之間的語義關系;3)使用合理的語言描述出物體之間的關系,這需要將計算機視覺和自然語言處理結合起來。
傳統的圖像內容描述方法可以分為兩類:基于模板的方法[1,2]和基于探索[3]的方法。但由于模板固定,靈活性較低,且嚴重依賴訓練庫中的數據,因此被逐漸舍棄。深度學習的出現為圖像描述問題注入了新的活力,使用深度學習方法代替傳統的圖片描述方法已經取得了當前在圖片描述問題上的最佳結果。其中,基于CNN+LSTM的模型是深度學習描述圖片的主流模型,它最早是由Karpathy[4]提出的,其輸入經CNN獲取圖像的特征,然后將生成的特征向量輸入到一個雙向的RNN中產生圖像描述語句,隨后,Fang[5]等結合最大熵語言模型和深度多模相似網生成圖像內容描述語句,該模型先檢測出圖像中的屬性信息,然后利用屬性信息替代原始圖像信息輸入到LSTM中產生描述語句。
二、圖像描述模型
神經網絡在圖像描述上的應用離不開RNN的E-D結構。且隨著圖像識別技術的發展,各種新的結構模型層出不窮。本節就E-D做出簡要介紹,并描述目前圖像識別技術所涉及的最新模型。
(一)Encoder-Decoder結構
在原始的RNN結構中,輸入序列和輸出序列必須是嚴格等長的,但在機器翻譯等任務中,源語言句子和目標語言句子的長度往往不同,因此需要將原始映射為一個不同長度的序列。而Encoder-Decoder(E-D)模型的提出正是為了解決這樣一個長度不一致的映射問題。
將E-D結構應用到圖像描述中,由于輸入是圖像,為了獲取圖像的特征向量,將原先的E RNN換成CNN,并將原先用于D的RNN換成了性能更好的LSTM,已解決RNN可能存在的梯度消失問題,并擴展模型的記憶能力。改進的模型如圖,具體的做法是通過預訓練的InceptionNet網絡提取圖像的特征,然后將softmax前一層的數據作為圖像編碼過后的特征,傳入LSTM解碼獲取目標文字。
(二)注意力模型
沒有引入注意力的模型在輸入特征較少時性能較好,但當輸入圖片的特征多,圖片表示的目標類別復雜時,便會丟失很多細節信息。針對翻譯精度下降問題,研究人員在已有模型的基礎上提出了注意力機制,總結來說就是不再使用統一的語義特征,而讓D在輸入序列中自由選取需要的特征,從而大大提高E-D模型性能。引入注意力的框架仍使用CNN的空間特性給圖片的不同位置都提取一個特征,在獲得數量可觀的特征后,再讓D在解碼時擁有選擇特征的能力。在計算注意力時引入一個系數矩陣,用來表示注意力對于不同的輸出值的注意力分配概率分布信息,用表示,用表示CNN提取的圖像特征,設在第t階段傳入Decoder的向量是,LSTM前一時刻的隱層狀態為。則與a及的關系可以表示為(1)
(三)加入高層語義特征后的模型
除了使用注意力機制改善E-D結構外,還可以通過使用高層語義特征來改進原始模型。有研究人員認為,高層語義關系與最終生成的語句非常相關,不能輕易舍棄??梢园迅邔诱Z義理解為一個多標簽分類問題,由于圖片與標簽間可能存在一對一、一對多的關系,在新的模型中,對于一對一關系的卷積層后使用一個softmax,對于一對多的關系則使用多個softmax對應多個標簽。訓練時,首先在所有描述中提取出現最頻繁的c個單詞作為總標簽數,每個圖像的訓練數據直接從其描述單詞中取得,訓練完成后,針對每張圖片提取相應的高層語義表達向量,然后經過最大池化輸入到LSTM中用于描述生成。
三、總結與展望
圖像描述技術是機器學習在計算機視覺及自然語言領域結合的產物,在今后一段時間都將是人工智能領域研究的熱點問題。本文重點介紹了當前圖片描述技術所應用的最新框架及原理。作為一種新興的技術,圖片描述技術為科研人員提供了許多新的啟發,如在未來機器學習的研究中,可以用語音描述圖片,在機器學習不同領域的交界處探索以期迸發出新的火花??偠灾瑘D像描述技術目前還處于發展初期,在未來的研究中還有更多的路值得我們去探索。
參考文獻:
[1] Kulkarni G, Premraj V, Ordonez V, et al. BabyTalk: Understanding and Generating Simple Image Descriptions[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(12):2891-2903.
[2] Li S, Kulkarni G, Berg T L, et al. Composing simple image descriptions using web-scale n-grams[C] Fifteenth Conference on Computational Natural Language Learning. 2011.
[3] Kuznetsova P , Ordonez V , Berg A C , et al. Collective generation of natural image descriptions[C] Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers - Volume 1. Association for Computational Linguistics, 2012.
[4] Karpathy A, Feifei L. Deep Visual-Semantic Alignments for Generating Image Descriptions.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 39(4):664-676.
[5] Fang H , Gupta S , Iandola F , et al. From Captions to Visual Concepts and Back[J]. 2014.