利用自然語言文本描述進行圖像編輯

2020-06-11 09:26:32周作為錢真真

電子技術與軟件工程 2020年1期

文/周作為錢真真

（北京交通大學計算機與信息技術學院、交通數據分析與挖掘北京市重點實驗室北京市 100044）

1 概述

隨著智能手機的普及，越來越多的人開始使用手機拍攝照片，也開始對拍攝完成的照片有著越來越多的個性化需求。這一系列的需求催生了許多移動端圖像編輯軟件的發展，這些移動端圖像編輯軟件的產生，在滿足了人們需求的同時，也使得人們無需再掌握在PC 端才能運行的Photoshop 等專業工具，就能輕松實現圖像編輯。但是目前移動端圖像編輯軟件在操作上大多也需要使用者進行手動操作，從而在眾多的功能效果中挑選并通過不同的嘗試，實現對圖像的編輯操作。這種方法，通常情況下都比較費時，且不一定能夠滿足使用者的需求。我們注意到，語言使人們用于描述一個物體最簡單、最有效的方式。通過簡單的語言描述，人們能夠輕松地將腦海中的畫面構建出來。因此，在這篇文章中，我們嘗試實現一種利用自然語言文本描述來對圖像進行編輯操作的方法。

近年來，包括生成對抗網絡[1]、變分自動編碼器[2][3]、自回歸模型[4][5]在內的深度生成模型得到了廣泛的研究。這其中，關于生成對抗網絡的研究尤為火熱。簡單來說，生成對抗網絡由一個生成器和一個判別器構成，通過生成器和對抗器的交叉對抗訓練過程，最終達到一個納什均衡，此時生成器生成的圖片足以達到迷惑判別器的效果。生成對抗網絡的產生為深度學習（尤其是視覺）領域的研究打開了一扇神奇的大門。自生成對抗網絡產生之后，越來越多的研究人員將生成對抗網絡應用在不同場景，解決了很多在前生成模型時代很難解決的問題。這些研究進一步豐富了生成對抗網絡的研究內容。可以說，生成對抗網絡的發展推動了對圖像生成[6]、圖像翻譯[7]、圖像編輯[8]及圖像修復[9]等多個領域的進一步研究。

本文所研究的利用自然語言文本描述進行圖像編輯的問題，是一個綜合文本與圖像的多模態問題。解決這個問題的主要難點在于以下兩個方面：

（1）模型需要有將給定文本描述與圖像的相應區域對應匹配的能力，這就要求模型能夠將包含在文本和圖像中的語義解開；

（2）模型需要能夠學習到解開的文本和圖像語義之間的關系，以便能夠生成更加真實的圖像。

目前的研究多采用條件深度生成模型來解決文本與圖像結合的多模態問題。[8]是第一篇提出使用一種端到端的深度神經網絡結構，利用對抗學習自動學習隱式損失函數從而實現使用自然語言文本編輯圖像的目的。他們的方法建立在條件生成對抗網絡[10]的基礎上，使用圖像和文本描述作為條件約束，通過優化組合的成對損失來預訓練一個文本編碼器以及一個圖像編碼器，計算實現視覺語義文本嵌入。[11]通過引入在解決復雜視覺問答任務中提出的特征對線性調制，在不使用額外空間信息的情況下，將圖像特征和文本特征更好地聯系起來并進行轉換,使得模型能夠合成令人信服的圖像。另外，其他研究[12]通過對以往視覺語義文本嵌入方法的理論分析，證明所有的條件方法都可以使用基于[13]提出的的雙線性變換通用形式來建模。

圖1：研究目標示意圖

圖2：本文所提出模型的網絡結構圖

目前，關于利用自然語言文本描述進行圖像編輯的研究在與文本相關的圖像區域編輯效果以及與文本無關的圖像區域保持效果上仍具有不足之處。為了更好地解決這些問題，在這篇論文中，我們通過為生成器以及判別器設計并提供更加有效的損失函數，從而實現更有力地指導生成器和判別器的訓練，最終實現更好的編輯效果。本文在Caltech-200 鳥類數據集[14]以及Oxford-102 數據集[15]上開展了大量的實驗，結果表明，本文的方法在多個方面均優于現有方法。

2 問題描述

圖3：基準方法和本文方法在Caltech-200 鳥類數據集上的對比結果

圖4：基準方法和本文方法在Oxford-102 花卉數據集上的對比結果

圖1 形象地說明了本文研究的問題，在給定一個原始圖像和一個目標文本描述的情況下，我們希望能夠合成一張與文本描述一致的目標圖像，并且要求目標圖像能夠在于文本描述無關的區域保持與原始圖像一致。我們采用與[8]一致的定義方法，將原始圖像定義為x，目標圖像定義為，將與原始圖像對應的真實文本描述、語義相關文本描述以及不匹配文本描述分別定義為t，其中，原始圖像x 和真實文本描述t 由數據集給出。可以通過真實文本描述t 構建。本文研究的目標是在給定原始圖像和對應文本描述對的情況下，通過生成對抗網絡的對抗訓練過程，使得生成器最終能夠生成在視覺上滿足要求的圖像

3 方法分析

為了能夠解開在文本和圖像中包含的語義關系，與以往方法相同，我們利用了在文本與圖像相關性研究方面現有的方法[16]。首先利用給定的圖片以及對應的文本描述分別利用卷積神經網絡CNNs[17]構建的圖像編碼器φ 和長短時記憶網絡LSTM[18]構建的文本編碼器φ 編碼到相同的維度，然后計算成對的文本-圖像之間的余弦相似度，進一步構建一個成對排序損失函數。利用訓練集中相匹配的文本和圖像對進行訓練，最終獲得一個能夠成功解開蘊含在文本和圖像中語義信息的文本編碼器。利用這個預訓練的文本編碼器，我們就能夠在進一步訓練生成對抗網絡的過程中，實現對文本的編碼操作。預訓練模型的目標函數如下：

其中，s 用于計算圖像嵌入向量φ(x)和文本嵌入向量φ(t)之間的余弦相似度。xk和tk分別表示不匹配的圖像和文本。θ 代表圖像編碼器和文本編碼器中的所有參數，α 是一個邊際值。

我們基于條件生成對抗網絡設計了整體模型結構。圖2 是我們模型的整體網絡結構圖。與以往的方法相同，我們的模型在生成器部分也采用了編碼器-解碼器的結構。編碼器將原始圖片編碼成高維度特征，與經過預訓練文本編碼器編碼的文本特征連接之后，經過四個殘差塊進一步提取隱藏的圖像特征，最終輸入到解碼器進行解碼操作。判別器部分輸入圖片和相應的文本描述，在給出輸入圖片、文本是否匹配的同時，對輸入圖片的真實性進行判斷。與以往的方法相比，我們設計的模型在訓練生成器的過程中，通過加入對生成器生成的圖像以及文本的之間的相似度度量損失，為生成器提供更為有效的半監督指導，從而使得生成的圖像與文本描述具有更好的相關性。同時，如果我們將圖像與其真實描述輸入生成器，希望得到的圖像能夠盡量保持與原始圖像的一致性。因此，我們進一步引入了重構損失，通過將生成的圖像和原始圖像計算L1 損失附加給生成器，使得生成器在訓練的過程中能夠進一步理解語義，保持與文本描述無關的區域的特征。通過在判別器部分加入對生成圖像的判別損失，提高判別器對生成圖像和真實圖像的判別能力，從而為生成器提供更有力的對抗損失，提高生成圖像的真實性。值得說明的是，兩個判別器共享了圖像下采樣層的參數。

綜上所述，本文提出的模型的損失函數定義如下：

其中，Lpwrloss可以通過等式(1)計算得到， Lrec是計算生成的圖形與原始圖像的L1 損失。

4 實驗

4.1 數據集和實驗細節

我們通過在Caltech-200 數據集以及Oxford-102 數據集上進行實驗來驗證我們的方法。其中，Caltech-200 數據集包含200 個類別，共11788 張鳥類圖像，我們將其中150 個類別的鳥類圖像作為訓練數據，將剩下的50 個類別的鳥類圖像作為測試數據。Oxford-102數據集包含102 個類別，共8189 張花卉圖像，我們將其中82 個類別的花卉圖像作為訓練數據，將剩下的20 個類別的花卉圖像作為測試數據。針對Oxford-102 和Caltech-200 數據集里的每張圖像，數據集均提供十條用于描述該圖像的文本。我們使用Adam 優化器在一臺安裝有一個NVIDIA GeForce GTX 1080Ti 高性能顯卡以及ubuntu18.04 操作系統的服務器上對我們的模型進行了400 輪訓練。初始學習率設置為0.0002，每100 輪衰減為當前的0.5 倍。

4.2 定性比較

為了進行實驗評估，我們選取方法[8][11]作為基準方法來與我們的方法進行比較。圖3，4 展示了我們的方法以及基準方法在Caltech-200 和Oxford-102 數據集上的定性結果。正如圖[3]中所展示的，方法[8][11]生成的圖像能夠在一定程度上符合文本描述，但是他們的方法生成的圖片往往不能滿足我們的期望，這主要是因為他們的方法生成的圖像對原始圖像的編輯過于粗糙，而且對文本描述無關區域的保持較差，圖像變化巨大。例如，生成的經過編輯鳥類圖像結構發生了改變。相反，我們的方法生成的圖像比基準方法生成的圖片更加真實和生動，在實現根據文本描述進行圖像編輯的同時，更有效地保持了與文本描述無關區域的細節。

4.3 定量比較

我們選取了在[6][7]中使用的Inception Scrore(IS)來將我們的實驗結果與基準方法進行定量比較。IS 可以通過IS=exp(ExDKL(p(y|x)||p(y) ) )計算得到。其中，x 表示生成器生成的圖像，y 表示由inception-v3 模型預測得到的標簽。IS 指標用來度量模型生成圖片的清晰度和多樣性，越好的模型擁有越高的分數。表1 展示了我們的模型連同基準方法的模型在IS 指標計算得到的結果。

表1：基準方法和本文方法在IS 評分上的對比

我們的模型在兩個指標上均取得了最好的實驗結果，這表明我們的模型在生成與自然語言文本描述更具匹配性且保持了與文本描述無關的原圖細節的同時，生成了更加真實、更高質量的圖像。

5 結論

在本文中，我們研究了使用自然語言文本描述編輯圖像的任務，基于現有方法設計并提出我們基于條件生成對抗網絡的網絡結構。通過引入文本圖像相關度損失，實現了對文本圖像的精確匹配并且為生成器提供半監督損失，通過引入生成圖像與原始圖像的重構損失，實現了對文本無關區域圖像特征的保持效果。通過對抗損失的計算，進一步優化判別器，從而為生成器提供更有效的對抗損失，使得生成器生成的圖像更加真實。我們的模型很好地解決了現有方法存在的不足，在Caltech-200 數據集和Oxford-102 數據集上的結果表明，不管是在定性和定量比較上，我們的方法均優于現有的方法。