基于依存句法的可解釋圖像描述生成

2023-09-22 06:21:48劉茂福畢健旗周冰穎胡慧君

計算機研究與發展 2023年9期

劉茂福畢健旗周冰穎胡慧君

（武漢科技大學計算機科學與技術學院武漢 430065）

（liumaofu@wust.edu.cn）

圖像描述生成，旨在給定一幅圖像，生成描述該幅圖像的自然語言文本.近年來，隨著社會媒體和電子商務的發展，圖像描述生成已廣泛應用于商品描述生成等任務，引起廣泛關注[1-2].為適應需求，設計高效且具備可解釋性的圖像描述生成模型存在一定難度，原因包括：1）模型不易理解視覺目標實體與其對應文本之間復雜的關系；2）根據提取的視覺和語法特征，很難可控地、可解釋地生成圖像描述.

編碼器-解碼器框架在圖像描述生成任務中應用廣泛[3-4].編碼器中，Faster R-CNN 被用于提取圖像中的區域特征[5]，區域特征包括圖像區域中的實體、實體間關系和場景語義[6]的特征表示.在此基礎上，曾有工作將圖像中的實體根據位置等關系構成場景圖[7]，并應用圖神經網絡獲取實體詞結點的特征表示[8-9]，旨在高效利用圖像中包含的各類信息.在Faster RCNN 提取出的圖像區域特征基礎上，Transformer 被廣泛應用于提煉圖像實體及其關系的細粒度表征[10-11]；但僅使用Transformer 提取的圖像實體及其關系特征易忽視與圖像實體詞間潛在的語法關系，進而忽略語言模型的可解釋性.解碼器中，當前主流模型普遍采用長短期記憶網絡（long short-term memory,LSTM）或軟注意力機制LSTM[12]，通過選擇性聚焦于重點圖像區域來生成圖像描述中的單詞；但基于軟注意力機制的模型僅根據圖像部分區域特征和某一時刻的文本詞特征之間的關系來生成圖像描述文本，并未將深層語法信息帶入生成模型，無法很好地體現語言模型的可解釋性.為了在模型中增加語法信息，曾有工作從模板庫中提取詞性序列[13-14]或句法樹[15]作為額外的語法信息，以提高生成描述的準確性與多樣性.但利用詞性序列或句法樹僅考慮當前文本詞的語法限制，而缺乏當前文本詞與其他文本詞的長距離交互限制.此外，上述工作[10-15]在可解釋性上關注較少.依存句法反映了任意2 個長距離單詞之間依存關系的依存句法，可作為模型的補充語法信息用于提高模型的可解釋性.但由于每條圖像描述都對應唯一獨特的依存句法三元組序列，而構建一個依存句法模板庫較為困難.

為解決現有語言模型可解釋性不足和語法信息利用不全的問題，考慮設計同時生成依存句法三元組序列和圖像描述的模型.如圖1 所示，依存句法三元組序列（dependency syntax triplet sequence,DSTS）可以限制每個時間戳上的單詞選擇.例如，三元組“ 〈aux,2,3〉”不僅限制圖像描述中第3 個詞“is”的詞性為輔助動詞，還限制了圖像描述中位置2 和位置3對應單詞之間的修飾關系，而模型Bottom-Up[16]模型和X-LAN[17]模型由于缺少“car”與“road”之間的長距離依賴而不能生成輔助動詞“is”.

Fig.1 Examples of generated image captions by Bottom-Up,X-LAN and IDSTM models圖1 Bottom-Up，X-LAN 和IDSTM 模型生成的圖像描述示例

本文提出基于依存句法三元組的可解釋圖像描述生成模型（interpretable image caption generation based on dependency syntax triplets modeling,IDSTM），該模型主要由圖像編碼和文本解碼2 部分組成，聯合生成依存句法三元組序列和圖像描述.圖像編碼部分，依存句法編碼器提取圖像區域實體詞之間潛在的依存關系；圖像描述編碼器增強視覺實體詞的特征表示.文本解碼部分，依存感知長短期記憶網絡（dependency-aware LSTM,DLSTM）以依存句法編碼器輸出作為輸入，輸出潛在的圖像描述文本對應的依存句法；聚焦圖像信息的視覺感知長短期記憶網絡（vison-aware LSTM,VLSTM）和詞感知長短期記憶網絡（word-aware LSTM,WLSTM）交互地將DSTS 和視覺特征解碼為圖像描述文本.為評估生成DSTS 的質量，本文還提出新的評價指標B1-DS（BLEU-1-DS）,B4-DS（BLEU-4-DS）,M-DS（METEOR-DS）.

本文的主要貢獻包括3 個方面：

1）設計了基于依存句法三元組序列建模的可解釋圖像描述生成模型，將多任務學習的目標設定為聯合生成依存句法三元組序列和圖像描述文本.

2）將Transformer 作為圖像內容編碼器融進圖像視覺實體詞間的依存關系挖掘，并建立圖像視覺實體詞和依存句法三元組之間的映射關系.

3）提出新的應用于測評DSTS 生成質量的評估指標，即B1-DS，B4-DS，M-DS，以證明提出的模型在生成DSTS 方面的能力.

1 相關工作

1.1 圖像描述生成

目前大多數圖像描述生成模型傾向于應用編碼器-解碼器框架將輸入圖像轉換為文本.最初，軟注意力機制[12]被用來捕獲生成的文本詞在圖像中對應的顯著視覺區域.自適應注意力機制[18]控制模型的圖像注意力機制僅在視覺顯著區域存在的時刻發揮作用，而在生成連接詞的時刻關注文本本身的信息.He等人[19]引入了視覺-語義雙重注意力機制，從視覺和語義2 個角度分別捕捉圖像及其描述文本的有益信息.Ben 等人[20]使用帶有語義約束的自批判性學習方法[21]優化了圖像描述生成模型在訓練階段和測試階段之間的差異.Anderson 等人[16]和Shi 等人[8]的圖像編碼階段采用了Faster R-CNN 方法，通過檢測圖像中實體的邊界和實體間的關系來表示圖像區域實體特征.基于屬性骨架分解[15]的模型使用Attr-LSTM和Skel-LSTM 生成由句法樹引導的圖像描述文本.Deshpande 等人[13]將詞性標注序列作為模型的輸入，以提高生成圖像描述的速度和多樣性.Hou 等人[14]使用詞性標注序列模板來改進視頻文本的語法表示.Yang 等人[22]將語言模型與視覺結構對齊，使用詞性模板約束生成模型，而為圖像描述生成模型選擇合適的語法模板仍具有挑戰性.

Transformer 模型由于其強大的特征提取能力被廣泛使用.Luo 等人[10]使用雙層協同Transformer 來提高圖像描述生成模型的性能，并使用Transformer對齊了區域特征和網格特征.Ji 等人[11]利用Transformer中的層內和層間的全局表示，通過LSTM 梳理Transformer 編碼器層中的所有輸出向量來探索圖像實體詞間潛在的語義信息.因此，本文選擇Transformer 作為編碼器，旨在提取更高級的依存句法特征.

在圖像描述生成領域，多任務學習（multi-task learning,MTL）也常用于增強文本詞的表示.Shi 等人[8]提出的模型在生成圖像描述的同時預測了單詞的詞性，詞性預測任務作為輔助任務提高了模型生成圖像描述的準確率.Wang 等人[23]使用雙向長短期記憶網絡（bi-directional LSTM,BiLSTM）和多任務學習來完成圖像-句子檢索.多任務學習考慮了任務之間的共同性，可通過共享模型中的重要模塊降低模型參數大小.受多任務學習的啟發，考慮增加依存句法三元組序列生成任務作為輔助任務，使圖像描述生成任務更具可解釋性.

1.2 可解釋性

可解釋性是指模型為用戶解釋決策結果的能力[24].深度學習模型中的可解釋性研究大多集中在2個方向：1）可視化決策過程，如權重可視化或畫出一個決策樹等；2）多任務聯合訓練，通過輔助任務的學習降低主要任務學習的難度.Lu 等人[25]提出了可解釋Hash 編碼方法，嵌入了不同類別的判別信息，使每次決策都具有固定意義.Tang 等人[26]采用從解碼器獲得的規則來解釋編碼器中事件分類器的結果，使分類更具可解釋性.計算機視覺領域中常用的可視化技術在自然語言處理中也被廣泛應用，Gonen 等人[27]便基于視覺可視化方法提出了一種可解釋的錯誤單詞檢測方法，使錯誤單詞判定過程更具可解釋性.

1.3 依存句法

依存句法是一種以謂語動詞為結構中心的句法分析方法.Falenska 等人[28]采用基于BiLSTM 的模型驗證了依存句法中包含的結構信息對文本分析的積極作用.Wang 等人[29]根據依存句法構建了句法樹，并驗證了自注意力機制[30]中的位置標記嵌入向量結合依存關系順序后可以提高Transformer 對文本編碼的性能.Bugliarello 等人[31]的研究表明，依存句法通過自注意力機制增強了模型在機器翻譯的表現，而在圖像描述生成領域，沒有關于依存句法的開創性應用.因此，本文嘗試采用依存句法來提高圖像描述生成模型的可解釋性.

2 可解釋圖像描述生成模型

本文提出的可解釋圖像描述生成模型IDSTM 如圖2 所示，該模型由圖像編碼和文本解碼2 個部分組成.IDSTM 模型在生成圖像描述文本之前，會先理解潛在的依存句法，再根據句法信息組織用以描述圖像的單詞，符合人類的學習思維.

Fig.2 IDSTM model framework圖2 IDSTM 模型框架

圖像編碼部分，依存句法編碼器DSEncoder 以圖像區域特征IR、圖像區域位置嵌入向量和全局視覺特征IG作為輸入，通過與圖像描述編碼器CEncoder 交互來確定文本解碼部分DLSTM，VLSTM，WLSTM 所需的視覺與依存關系信息.文本解碼部分，通過多任務聯合學習方式完成依存句法三元組序列和圖像描述文本2 個生成任務.圖2 中，WLSTM 為詞感知LSTM，VLSTM 為視覺感知LSTM，DLSTM 是依存感知LSTM，生成依存句法三元組序列DSTS，ti表示第i個時間步，描述注意力CATT 和關系注意力RATT 為軟注意力機制.

2.1 圖像編碼階段

其中∈Rn×E表示增強后的圖像區域特征.基于區域特征，按區域個數維度求和平均后得到全局視覺特征表示IG，

IDSTM 模型采用了2 個基于Transformer 的編碼器提取圖像區域特征，即圖2 中依存句法編碼器和圖像描述編碼器.依存句法編碼器從優化后的圖像區域特征提取圖像內實體詞間的句法特征，用于依存句法三元組序列生成.圖像描述編碼器增強圖像中包含實體詞的特征表示，用于圖像描述生成.將全局視覺特征IG和圖像區域特征拼接得到圖像區域特征IP，

其中concate(·)指連接操作.將IP∈R(n+1)×E輸入至依存句法編碼器進一步處理，

其中Ol代表編碼器第l層的輸出，依存句法編碼器的初始輸入為IP，即X0=IP，FFN(·)代表雙層前饋神經網絡.多頭注意力Multihead(·)的計算公式為:

2.2 文本解碼

1）依存句法三元組序列生成.參考描述表示為S={word1,word2,…,wordn}，IDSTM 模型的輸入為由參考描述得到的依存句法三元組序列R={relation1,relation2,…,relationL}.利用視覺關系信息，首先采用了圖2 中的關系注意力機制RATT，使模型學習依存句法特征ID的有價值部分，用來指導時間步ti的三元組生成.注意力機制的計算過程為

為預測時間步ti的三元組，將與前一時間步ti-1三元組嵌入向量ri-1進行整合，作為DLSTM 輸入的ri-1，由依存句法三元組經過線性層得到，如依存句法三元組“ 〈aux,4,3〉”的下標為3，則線性層下標為3 的位置對應的參數即為三元組的嵌入向量，公式為:

其中wordi和relationi分別代表 S 和 R 中的第i個詞和依存句法三元組，L是依存句法三元組的長度，u指批次（其最大值為B），word0是初始化字符“ 〈start〉”.

2）圖像描述生成.給定包含n塊被選圖像區域特征和融合全局視覺特征的依存關系特征IC=，IDSTM 模型采用雙層LSTM來生成圖像描述.生成圖像描述的最小化交叉熵損失函數為

雙層LSTM 具體是指其底層和頂層.底層LSTM如圖2 的視覺感知VLSTM，由fVLSTM表示，向量與全局視覺特征表示IG作為輸入，

其中hv∈R1×H代表了VLSTM 的隱藏層狀態.

頂層LSTM 如圖2 的詞感知WLSTM，由fWLSTM表示，它將VLSTM 隱向量、RATT 注意力模塊輸出的依存關系特征和由DLSTM 生成的三元組嵌入向量ri作為輸入，通過式（14）限制詞表可選擇的范圍：

現代市場營銷模式把消費者的利益和需求放在首要位置，這是市場營銷的一場巨大變革。很多企業在企劃市場營銷之前，都要對消費者的消費需求和消費欲望與市場行情進行客觀、詳細的深入了解。其次，企業要針對自身的產品對行業內部的市場飽和程度進行調研，準確針對自身的產品進行市場定位，結合企業自身的情況和未來發展的方向，對潛在的消費者、市場、客戶進行精準的定位。在完成這一系列的前期轉化工作之后，企業集中所有的人力、物力、財力制定出準確的市場營銷計劃和方案，很好地落實到實踐中去，實現社會、消費者和企業三方共贏的良好發展趨勢。

采用軟限制和硬限制2 種機制將依存句法三元組嵌入向量ri整合至WLSTM，如圖3 所示.軟限制首先生成整個依存句法三元組序列的嵌入向量，再根據注意力機制使WLSTM 在嵌入向量中尋得關注部分；硬限制將依存句法三元組嵌入向量，根據位置信息直接指導文本單詞的生成，這是因為每個在第i個位置的三元組描述的是第i個詞與其他某位置的詞之間的依存關系.

Fig.3 The image caption generation based on soft limitation圖3 基于軟限制的圖像描述生成

IDSTM 模型采用了多任務學習的方式來優化目標，整體損失函數為

其中 γ為平衡系數.當 γ=1.5 時，圖像描述生成任務對模型損失值的影響程度大于依存句法三元組序列生成任務，符合模型最終目標.

3 實驗

3.1 數據集與評價指標

IDSTM 模型在MSCOCO 數據集[32]上進行了廣泛實驗.數據集劃分與Karpathy 等人[1]操作相同，即訓練集、驗證集和測試集圖像規模分別為113 000 幅、5 000 幅和5 000 幅，每幅圖像標注有5 個描述文本.為評估模型在圖像描述生成方面的性能，采用了7個標準評估指標，B1（BLEU-1）至B4（BLEU-4）[33],METEOR[34],ROUGE-L[35]和CIDEr[36].

生成DSTS 的質量間接反映所提出的IDSTM 模型的可解釋性.然而，與一般評測DSTS 任務不同，圖像描述生成任務的輸入不包含標簽文本，因此，需要設計新的評價指標來評估IDSTM 模型生成DSTS 的質量.本文提出新的評價指標B1-DS，B4-DS，M-DS，其采用了與B1，B4，METEOR 相同的計算公式，B1-DS 根據候選DSTS 和參考DSTS 的unigram 重復度來計算得分，M-DS 同時考慮了候選DSTS 和參考DSTS 之間的重疊塊的順序.

為直觀地評估生成DSTS 的可行性，在MSCOCO訓練集[1]上，對其依存句法三元組類別、三元組序列、單詞數量進行了統計，分別為4 442，566 500，11 275，其中依存句法三元組序列與圖像描述的數量相同.實驗中，對于三元組和單詞維度而言，由于三元組類別數量少，三元組的選擇比模板或單詞選擇更加簡單.

3.2 實驗設置

本文采用Faster R-CNN 來檢測所有可能的區域，并控制每個圖像包含的區域數量為36 個.每個區域的圖像特征都是一個2 048 維的向量.在訓練過程中，批大小設置為64.依存句法編碼器和圖像描述編碼器中，多頭注意力的層數為4，每層包含8 個頭、1 個線性層和1 個殘差連接.選擇Adam 作為模型訓練階段的優化器，編碼階段和解碼階段的初始學習率分別為0.001，0.0005.解碼階段，DLSTM，VLSTM，WLSTM隱向量維度均為1 024，每個單詞或三元組也被表示為1 024 維向量.軟注意力機制中的注意力維度為1 024.測試階段采用束搜索策略生成DSTS 和圖像描述文本，且束大小設置為5.在圖像描述生成過程中，采用教師強制（teacher-forcing）機制來提高訓練階段的收斂速度.與常用圖像描述生成模型不同，IDSTM 模型中的WLSTM 將三元組嵌入向量作為輸入，避免DLSTM可能導致的梯度誤差積累.使用Stanford CoreNLP工具包[37]來解析圖像描述，得到對應的由形如“〈relation,pos1,pos2〉”的三元組構成的DSTS，“relation”表示索引pos1 和索引pos2 之間的依存關系.

為驗證IDSTM 模型中Transformer 結構特征的提取能力，分別對圖2 依存句法編碼器和圖像描述編碼器注意力頭數進行參數優化，如圖4 所示.

Fig.4 The variance of B4 with the attention heads圖4 指標 B4 隨注意力頭數的變化

圖4 中可以看出，注意力頭數對指標B4 的影響呈波峰狀，在注意力頭數為8 時，模型取得最高B4 值；在注意力頭數從8 上升至16 時，模型的效果急劇下降，該現象表明大量注意力頭會使圖像在自注意力中的特征維度降低，進而影響特征表達，導致原本完整的特征被切分.此外，無論是依存句法特征還是依存關系特征均存在內部長距離依存關系，因此不適合被切分過細.

3.3 對比實驗分析

為驗證本文提出的IDSTM 模型的有效性，采用的對比模型為：

1）SCST[21]在重新訓練基線模型的過程中，獎懲正確與錯誤采樣以提高模型選擇的準確性.

2）LSTM-A[38]采用CNN 網絡來提取屬性信息，增強模型對圖像中實體間關系的理解.

3）Bottom-Up[16]提出利用自底向上和自頂向下的注意力機制來捕獲視覺特征，并將其用于語言模型來生成圖像描述文本.

4）ICSAD[15]將生成的語法樹作為圖像描述文本的語法框架，優化粗糙文本提高模型的圖像描述生成能力.

5）POS+Joint[13]利用詞性標注序列來提高模型的生成速度和文本多樣性.

6）X-LAN[17]采用X-Linear 注意力來捕獲多模態間二級交互關系，進而提取多模態間的高級特征表示，提高圖像描述的生成能力.

7）DLCT[10]沿用了Transformer 結構，將圖像網格特征與圖像區域特征對齊，提高模型對圖像的感知能力.

8）GET[11]在Transformer 結構基礎上沿用了LSTM，將Transformer 內部每層的輸出都作為LSTM 的輸入，并組合了所有圖像特征，用來指導圖像描述生成.

9）IDSTMwA 基于軟注意力機制選擇依存句法特征，指導圖像描述生成.

10）IDSTM 基于生成的依存句法三元組序列位置信息，指導WLSTM 生成圖像描述文本.

各模型的實驗結果如表1 所示，有3 個發現：

Table 1 Experimental Results of IDSTM and Comparative Models on MSCOCO Dataset表1 在MSCOCO 數據集上IDSTM 模型和對比模型的實驗結果 %

1）對于3 個評價指標B4，METEOR，ROUGE-L，IDSTM 模型比模型SCST，LSTM-A，Bottom-Up 的效果好，表明本文提出的IDSTM 模型可以生成更豐富的圖像描述文本，且模型生成的依存句法特征提供了足量句法信息，即IDSTM 模型能比其他基線模型發現更多的語法限制.然而，IDSTM 模型在CIDEr 分數上略低于LSTM-A 等模型.原因可能在于IDSTM模型生成的圖像描述文本中存在不同于參考描述的同義詞，導致整體文本重復度變低.對于模型ICSAD和POS+Joint，IDSTM 模型在所有評價指標上都表現更突出，相比于詞性標注序列和句法樹，依存句法提供了更豐富的句法信息.

2）X-LAN，DLCT，GET 模型的表現十分突出，在CIDEr 指標上體現最為明顯.主要原因是上述3 個模型均采用了強化學習的方法來獎勵模型，在模型得到的CIDEr 分數更高時獎勵則更大.與上述模型不同，IDSTM 模型更關注于模型的可解釋性.與IDSTM 模型結構更相似的X-LAN 模型在指標B1 上的值低于IDSTM 模型，體現出依存句法三元組對選詞的語法限制.

3）IDSTM 模型在所有指標上都優于IDSTMwA模型，在B4 和CIDEr 指標上，IDSTM 分別比IDSTMwA高0.71%和1.96%，這表明IDSTM 模型可以學習到質量更高的依存句法三元組嵌入向量特征表示.

圖5 為Bottom-Up 與IDSTM 模型在訓練階段的收斂速度對比圖，橫軸表示訓練的迭代次數，縱軸表示損失值或B4 值，訓練最大迭代次數為40.從圖5可以發現，在損失值和B4 值指標上，IDSTM 模型都取得了更好的效果.IDSTM 模型的損失值曲線相較于Bottom-Up 模型顯得更加平滑，在第29 輪訓練時取得最優模型，而Bottom-Up 則需要34 輪訓練.相較于模型Bottom-Up，IDSTM 模型在依存句法三元組序列生成和圖像描述生成2 個任務上共享圖像編碼區特征提取器的參數，因此在損失函數上的限制更多，也反映出依存句法可以提高模型對文本單詞和依存句法三元組的特征學習表示能力.

Fig.5 Convergence of IDSTM and Bottom-Up in the training phase圖5 IDSTM 與 Bottom-Up 在訓練階段的收斂情況

3.4 消融實驗分析

消融實驗通過替換至少1 個IDSTM 模型中的模塊來實現，表2 列出了用于消融實驗的變體模型名稱以及模型的描述，移除圖像特征提取模塊的對應模型會直接采用圖像區域特征代替，實驗結果如表3所示.

Table 2 Ablation Experiment Models表2 消融實驗模型

Table 3 Ablation Experiment Results表3 消融實驗結果 %

從表3 可得到6 個發現：

1）w/o 1 m 模型在B1，B4，CIDEr 指標上得分較低，然而在B1-DS，B4-DS，M-DS 指標上卻得分較高，w/o 2 m 的效果與其恰好相反.此現象表明使用基于Transformer 的單層圖像特征提取器只能提高2 個生成任務中的1 個，缺少2 個任務間的交互.

2）相比表1 的Bottom-Up 模型，w/o ms 模型的CIDEr 提高3.92%.w/o ms 模型在生成圖像描述文本時，生成了更多的連接詞，如“is”和“are”，連接詞的出現會增大共現概率，從而提高基于TF-IDF 的CIDEr指標.從模型結構上分析，w/o ms 模型與Bottom-Up模型只相差依存句法三元組序列生成模塊，表明依存句法三元組序列生成任務的有效性.

3）choms 模型在B1-DS，B4-DS，M-DS 指標上比IDSTM 模型分別低3.64%，6.44%，2.57%，可知當依存句法編碼器與圖像描述編碼器異構時，交換2 個特征提取器的順序會降低模型性能.

4）w/o conn 在各個指標上的效果均較差，表明殘差連接在IDSTM 模型中發揮了較重要的作用，使反向傳播更加穩定.

5）cls 模型在各個指標上的結果表明，將依存句法三元組序列的生成任務視為序列標注任務增大了模型的復雜度，因此將其視為生成任務更為合理.

6）w/o 1 m，w/o 2 m，w/o ms，choms 模型的實驗結果表明，依存句法編碼器和圖像描述編碼器在IDSTM模型中起到了關鍵作用，為依存句法三元組序列和圖像描述的生成提供了關鍵視覺和語法信息.

3.5 可解釋性分析

在IDSTM 模型生成圖像描述的過程中，其依存句法三元組與圖像描述中詞的向量權重可視化圖如圖6 所示.

Fig.6 The visualization of dependency syntax triples and word attention weight in IDSTM model圖6 IDSTM 模型中依存句法三元組與詞的注意力權重可視化

由圖6 可知，每個依存句法三元組都與對應位置文本詞的相關性最高，與其他長距離位置的文本詞的相關性較低.“ 〈nmod,5,11〉”三元組表示詞“tarmac”和詞“jetliner”存在“nmod（復合名詞修飾詞）”依存關系.“jetliner”作為依存句法中的詞“ROOT”與詞“large”也存在“amod（形容詞性修飾詞）”依存關系.此外，由三元組“ 〈case,7,6〉” 和“ 〈case,11,8〉”的嵌入向量存在的差異可知，依存句法三元組嵌入向量的計算不僅受到自身序列的限制，還受到單詞出現位置的影響.

通過分析Bottom-Up，X-LAN，IDSTM 模型在MSCOCO 數據集上圖像描述生成的實例，分析IDSTM模型的可解釋性，如圖7 所示.

Fig.7 The image captions generated by Bottom-Up,X-LAN and IDSTM models圖7 Bottom-Up，X-LAN，IDSTM 模型生成的圖像描述

每次圖像描述選詞決策時，IDSTM 模型都將依存句法三元組的嵌入向量考慮其中.IDSTM 模型首先從輸入圖像中提取實體詞對應的依存句法特征.在圖像中的實體間，依存句法關系可能存在于任意2 個圖像區域中.圖7 圖像實線框對齊的實體單詞“men（男人們）”和圖像虛線框中對齊的文本單詞“standing（站立）”存在一個依存句法關系“acl（動名詞）”，文本單詞“top（頂部）”和文本單詞“snow（雪面）”可以形成一個依存句法關系“nmod（名詞性形容詞）”.單詞與單詞之間的依存句法關系可以為多種類型，如“top”可以指名詞，表示頂部，也可以指形容詞，表示某物是頂尖的.在得到實體間可能存在的依存關系后，IDSTM 模型將該特征與圖像自身視覺特征輸入DLSTM 中得到對應的依存句法三元組.依存句法三元組嵌入向量作為指導信息會被輸入雙層LSTM，用來限制圖像描述生成模型在生成描述文本時的用詞.因此，IDSTM 模型是在依存句法信息已知的前提下生成對應合適的圖像描述，具備一定可解釋性.

對比Bottom-Up 模型和X-LAN 模型，本文的IDSTM模型生成了可解釋的句法信息.例如，在圖7 中，Bottom-Up 模型和X-LAN 模型僅使用圖像區域特征就得到了單詞“people（人們）”，但“people（人們）”更適用在通用場景下的圖像描述任務，然而IDSTM 模型采用了額外的可解釋的句法信息，即依存句法三元組“ 〈ROOT,0,4〉”的嵌入向量，生成了更加準確的實體單詞“men（男人們）”.語料庫中文本詞“men（男人們）”以“ROOT（詞根）”身份出現41 083 次，而文本詞“people（人們）”僅出現22 792 次.因此，相比于文本詞“people（人們）”，文本詞“men（男人們）”更可能成為 “ROOT”詞.此外，文本詞“people（人們）”在基于依存句法的統計下更偏向于跟隨在“A group of（一群）”詞組之后，所以IDSTM 模型在考慮依存句法三元組信息后，將“people（人們）”改為“men（男人們）”.

4 結論

本文提出了一種新的可解釋圖像描述生成模型，該模型采用多任務學習聯合生成依存句法三元組序列和圖像描述文本.多任務學習將依存句法三元組生成和圖像描述生成相結合，根據先生成句法再生成圖像描述的思路，使IDSTM 模型的可解釋性得到增強，使生成的依存句法三元組嵌入向量特征有效限制圖像描述生成過程中文本詞的選擇.提出新的評價指標B1-DS，B4-DS，M-DS 有效驗證了IDSTM 模型生成DSTS 的有效性.大量實驗表明提出的IDSTM 模型具備可解釋性.

未來計劃找出圖像描述生成模型的可解釋性和準確性之間的平衡.在損失函數的設計上引入基于多任務的強化學習來提高依存句法三元組序列生成和圖像描述生成的準確性.

作者貢獻聲明：劉茂福提出研究思路和模型，負責論文寫作；畢健旗負責實驗和論文寫作；周冰穎協助實驗和完善論文；胡慧君參與問題討論和審閱論文.