

摘 要:圖像描述是一個綜合性問題,涉及自然語言處理領域和計算機視覺領域。隨著人工智能技術的發展,圖像特征提取技術和文本生成技術都得到了長足的進步,將兩者結合的圖像描述生成技術也越來越受學術界和工業界的重視。本文介紹了圖像描述生成技術的研究背景及國內外研究現狀,對現有模型進行了詳細的分類概括:基于模板的圖像描述生成方法、基于檢索的圖像描述生成方法、基于生成的圖像描述生成方法。并總結闡述了該領域面臨的問題和挑戰。
關鍵詞:圖像描述;特征提取;文本生成;自然語言處理;計算機視覺
一、引言
隨著科學技術的發展,圖像已然成為人類記錄日常生活的重要信息組成部分,圖像描述[1]是一個將計算機視覺[2]和自然語言處理[3]領域相結合的綜合性研究問題。其主要目標是運用深度學習[4]中的卷積神經網絡去檢測圖像中的關鍵物體,并且能夠準確理解圖像中物體與物體之間的邏輯關系。在實際場景中,由于圖像可能包含各種復雜的物體,并且物體之間還存在復雜的邏輯關系,因此如何有效地去提取物體,并能準確理解物體之間的聯系,成為了解決圖像描述任務的關鍵點。本文介紹了圖像描述由傳統的基于圖像輪廓、色彩、紋理等視覺特征[5]圖像處理,向高層次的基于圖像語義信息的處理方式發展的歷程。
二、國內外研究現狀
結合國內外研究人員對圖像描述生成方法的研究以及在不同時期采取的不同關鍵技術,早期的圖像處理方法是基于傳統機器學習[6],隨著深度學習技術的不斷發展,實現圖像描述的方法也在不斷更迭。……