全局自匹配機制的短文本摘要生成方法*

2019-10-24 05:49:50吳仁守王紅玲王中卿周國棟

軟件學報 2019年9期

吳仁守,王紅玲,王中卿,周國棟

(蘇州大學計算機科學與技術學院,江蘇蘇州 215006)

通訊作者:王紅玲,E-mail:hlwang@suda.edu.cn

自動文摘是自然語言處理領域的一個重要研究方向,其目的是通過對原文本進行壓縮、提煉,為用戶提供能夠覆蓋原文核心內容且簡明扼要的文字描述.自動文摘應用最廣范的是在新聞領域,這是由于新聞信息的過載,人們迫切地希望有一種工具可以幫助他們在盡可能短的時間內了解更多有價值的新聞.此外,隨著互聯網上發布的數據日益增多,搜索引擎也成為其應用之一,例如,基于查詢(query-based)的自動文摘可以幫助用戶盡快找到感興趣的內容.

自動文摘從所采用的實現方法上考慮,可以分為抽取式文摘(extractive summarization)和生成式文摘(abstractive summarization).抽取式文摘從原始文檔中直接抽取重要性最高的若干個結構單元(句子、段落等)組成摘要,通常該方法比較簡單易行,目前已經發展較為成熟.不過,抽取式文摘也存在一些固有的缺陷,例如不能確保摘要的連貫性和銜接性.相對而言,生成式文摘通常利用自然語言理解技術對原文檔進行語法語義的分析,獲取原文檔的主要內容,然后通過語言模型、信息融合、信息壓縮等自然語言生成技術生成摘要.該方法的優點是文摘結果跳出了原文檔句子的局限,其摘要句不局限于原文檔中的句子,能夠較好地處理冗余,強調主題連貫性;缺點是生成的句子可讀性差,只能在一定程度上確保上下文的連貫性和銜接性.

近年來,深度學習被廣泛應用于自然語言處理任務并取得了一些成果.特別地,基于編碼器-解碼器(encoderdecoder)架構的序列到序列學習模型(sequence-to-sequence learning,簡稱seq2seq)能夠比較有效地將文本從一種形式轉換為另一種形式,例如機器翻譯[1]和語音識別[2].由于深度學習具有較強的泛化能力,可以學習到文本的隱含特征,避免繁瑣的人工特征提取,實現了傳統自動文摘系統中關鍵的重要性評估、內容選擇等模塊端到端一體化,相關方法在文摘任務上的應用研究受到了廣泛關注.不過,這些方法往往需要規模遠大于傳統方法的訓練語料,加上當前主流的神經網絡框架尚不能夠有效對長文檔進行語義編碼,因此目前的相關研究大多集中于短文本的摘要生成[3].該任務通常僅以文檔首句作為輸入,以一個短句作為輸出(見表1).本文也將針對短文本進行摘要生成研究.

由于缺少原始文檔和摘要之間的短語對齊,自動文摘任務比語言之間的翻譯困難得多.自動文摘任務要求系統全面準確地理解文檔所表達的意思,然后用可讀性強的人類語言將其簡練地總結出來.因此,完整的全局信息對于自動文摘系統全面準確地獲取文檔的主要內容至關重要.雖然在解碼階段的每個時間步中,已有的模型大多已采用注意力機制對編碼器的輸入序列進行加權求和,以獲得原始文檔的全局信息,但是在編碼階段,傳統的編碼器在計算每一個詞的向量表示或者隱層狀態時僅考慮該詞之前(或之后)的一些詞,而不是完整的全局信息.另外,采用雙向循環神經網絡(RNN)[4]得到的前后向信息僅進行簡單拼接,無法有效融合相關信息,導致了次優化,生成的摘要往往會缺失或偏離原文檔核心信息.例如,在表1 中,基于雙向循環神經網絡編碼器的seq2seq模型生成的摘要就忽略了“二氧化硫”的來源問題.

Table 1 An sample of the short text summary表1 短文本摘要示例

針對上述問題,本文提出了一種全局自匹配機制,通過自匹配來自編碼器的信息流,將上下文中的全局信息整合到原始文本每個詞的表示中.首先,用編碼器對輸入文本進行編碼;然后,利用配備有自匹配機制的自匹配層動態地對編碼后的輸入文本進行自匹配.具體而言,對于原始文本中的每個單詞,全局自匹配機制根據整個輸入文本中每個單詞語義和文本整體語義的匹配程度,動態地從整個輸入文本中收集與該單詞相關的信息,并將單詞表示和相關信息融合到最終隱層表示中.同時,考慮到為每一個詞收集與該單詞相關的全局信息可能會造成信息的冗余,本文引入了全局門控單元對自匹配層獲得的包含上下文信息的隱層表示進一步篩選,去除冗余信息,以便挖掘出原文本的核心內容并用于解碼器生成摘要.

綜上所述,本文提出了一個基于編碼器-解碼器架構的生成式自動文摘模型,該模型由編碼器、全局自匹配層、全局門控單元和基于注意力機制的解碼器組成,并在LCSTS[5]數據集上對該模型進行了系統深入的實驗,實驗結果表明,具有全局自匹配機制和全局門控單元的模型能夠生成具有較高準確性的摘要,并且在連貫性和銜接性方面始終優于不使用自匹配機制和全局門控單元的模型.

1 相關工作

傳統的自動文摘主要為抽取式文摘,因抽取式文摘文獻眾多,在此不再贅述,僅給出一些經典的方法,具體包括:(1)基于統計模型的方法,如Chali[6]提出的一種基于SVM 的多文本自動文摘方法,使用一組SVM 分類器,充分利用SVM 的泛化特性,抽取出最能代表文檔核心內容的句子;(2)基于聚類的方法,主要利用多文檔集合的信息,將多文檔集合作為一個整理進行研究,測量所有句子對之間的相似性,在此基礎上,用各種聚類方法(K-Means,K-Medoids,AP 等)識別公共信息的主題,并從每個類別中抽取中心句子作為文檔摘要,如Siddharthan等人[7]的工作;(3)基于圖模型的方法,如Mihalcea 和Tarau 提出的TextRank[8]算法,將句子間的相似關系看成了一種推薦或投票關系,并構建了TextRank 網絡圖,通過迭代計算至收斂來得到句子的權值.

近幾年來,深度神經網絡模型因其強大的表征能力,在分布式語義[9]、語言模型[10]、機器翻譯[1]等領域不斷推進機器智能的極限.類似地,目前生成式自動文摘也主要依靠基于編碼器-解碼器架構的序列到序列學習模型,其中,編碼器、解碼器均由數層循環神經網絡構成,編碼器負責把原文編碼為語義向量C;解碼器負責從這個語義向量C中提取信息,獲取語義,生成文本摘要.但是由于長距離依賴問題的存在,RNN 到最后一個時間步輸入單詞的時候,已經丟失了相當一部分信息.這時候,編碼生成的語義向量C同樣也丟失了大量信息,導致生成的摘要不夠準確.為了解決這一問題,Rush 等人[11]首次將應用于機器翻譯任務中的注意力機制(attention mechanism)[12]引入自動文摘任務中,并在相關數據集上取得了良好的效果.注意力機制是一種注意力(資源)分配機制,在某個特定時刻,它總是重點關注與該時刻相關的內容,其他內容則進行選擇性忽視.例如在翻譯“Knowledge”時只會關注“知識”,這樣的對齊能讓文本翻譯或者摘要生成更具針對性.

作為Rush 等人[11]工作的擴展,Chopra 等人[13]使用類似的卷積模型作為編碼器,同時把解碼器換成了RNN,在同樣的數據集上產生了性能更好的結果.Li 等人[14]在基于注意力機制的序列到序列模型的基礎上增加了潛在結構向量,來學習目標摘要中隱含的潛在結構信息,以提高摘要質量.另外,Zeng 等人[15]提出了一種重讀機制,在編碼器計算每一個詞的表示之前先閱讀一遍輸入序列,然后利用第1 次讀取得到的隱層狀態幫助第2 次讀取文本時的表示生成.該想法的基本動機是:考慮到人們在閱讀一篇文章時,通常需要讀完一遍才能去確認文中哪些詞是重點.為了解決未登錄詞問題(out of vocabulary,簡稱OOV),Gu 等人[16]提出了一種復制機制來復制輸入序列的適當片段并將其放入輸出序列.See 等人[17]提出了一種混合指針生成器網絡,在保留生成器產生新詞的能力的同時,可以從原文本復制單詞,大幅度提高了信息再現的準確性;同時,新增了一個覆蓋機制以防止重復.同樣的,針對解碼時可能會不斷重復已有的單詞,Lin 等人[18]提出了全局編碼框架來嘗試解決這個問題.該框架由卷積門控單元組成,用于執行全局編碼,以改善源端信息的表示.Ma 等人[19]引入了基于語義相關性的神經模型,來鼓勵文本和摘要之間的高語義相似性.

在利用輸入文檔全局信息進行摘要生成方面,目前主要有Zeng 等人[15]和Lin 等人[18]的工作,兩者分別從不同角度,利用輸入文檔的全局信息來指導摘要生成.本文方法同樣使用了全局信息,但是使用方法有所不同,與他們的主要區別如下所示.

(1)Zeng 等人[15]首先使用編碼器通讀一次輸入文本,將得到的第1 以及最后一個時間步的隱層狀態作為整篇文檔的特征向量,來計算每個單詞的重要性權重向量用于第2 次閱讀.不同于Zeng 等人[15]對于文中的每一個詞都使用了相同的全局特征向量,考慮到文中不同詞關注的全局信息應該是有所不同的,本文提出的方法動態地從整個輸入文本中為文本中每一個詞收集與該詞相關的信息作為其對應的全局特征向量;

(2)Lin 等人[18]提出了一種全局編碼框架,根據源端上下文的全局信息控制從編碼器到解碼器的信息流,其由卷積門控單元組成,用于執行全局編碼以改進源端信息的表示.雖然其利用了全局信息,但是它僅僅利用門控單元對源端的輸入信息進行篩選,而沒有將源端信息和全局信息進行有效的融合.本文在獲取全局信息后,將源端每個詞的表示與其對應的全局信息進行了融合,用于解碼器生成摘要.

2 基于全局自匹配機制的短文本摘要生成方法

給定輸入文檔D,將其表示為單詞序列,其中,每個單詞wi來自固定的詞匯表V.自動文摘旨在將D作為輸入,并生成簡短的摘要,其中,T表示序列長度,輸入文檔序列長度Td大于生成摘要序列長度Ty.

本文提出的基于全局自匹配機制的短文本摘要生成方法的系統框架如圖1 所示,主要包括基于雙向長短期記憶單元(long short-term memory,簡稱LSTM)[20]的編碼器、全局自匹配層、全局門控單元和配備注意力機制的長短期記憶單元解碼器.其中,編碼器讀取輸入文檔,并構建其表示;全局自匹配層對編碼后的輸入文本進行自匹配,將全局信息融入輸入文本表示中;全局門控單元對這些表示進行進一步篩選,并將其提供給解碼器;解碼器負責摘要生成.下面,將分別介紹編碼器、全局自匹配層、全局門控單元和解碼器的細節及其訓練方法.

Fig.1 Model architecture overview圖1 系統框架圖

2.1 雙向LSTM編碼器

在獲得文檔連續表示之后,利用雙向循環網絡對輸入序列進行編碼[21].雙向循環網絡由前向和后向循環網絡組成:前向循環網絡正向讀取輸入序列(從x1到),并計算前向隱藏層狀態;而后向循環網絡從反向讀取輸入序列(從到x1),并計算反向隱藏狀態.對于每個單詞xt,將它對應的前向隱藏狀態向量和后向隱藏狀態向量拼接起來表示xt對應的隱藏層狀態表示ht.

具體計算方法見公式(2)～公式(4):

其中,ht∈?n是t時刻的隱藏層狀態.f(·)是一些非線性函數,在經過對模型性能和訓練復雜性之間進行權衡之后,我們選擇了長短期記憶單元.

2.2 全局自匹配層

與其他自然語言生成任務相比,例如機器翻譯,自動文摘更注重獲取原文檔的主要內容來生成摘要.傳統的基于單向循環神經網絡的編碼器在計算輸入文檔中每一個詞對應的隱藏層狀態時,僅僅考慮了在該詞之前的一些詞,并不是完整的上下文信息.雖然上述基于雙向LSTM 的編碼器在計算輸入文檔中每一個詞對應的隱藏層狀態時分別考慮到了該詞之前和之后的一些詞,但是得到的前、后向信息還是局部的(包含之前部分或之后部分),僅僅做了拼接,沒有進行有效地融合,無法得到針對每一個詞特定的全局文檔信息.因此,在利用編碼器獲得輸入文檔的隱藏層狀態之后,我們希望將全局文檔信息納入文檔中每個詞對應的隱藏層狀態中來增強原有的隱藏層狀態,彌補上述的不足.

在過去關于句子對表示的研究中,Rockt?schel 等人[22]提出通過對句子對中的單詞進行軟對齊來生成句子對表示.在機器閱讀理解任務中,Wang 和Jiang[23]介紹了一種Match-LSTM 單元,它在傳統LSTM 單元的基礎上,將文章表示作為循環網絡每一次輸入的附加輸入來指導編碼,從而使輸出的每個隱藏層狀態包含全局的文章信息.為確定文章中各個部分的重要性并獲取與問題相關的部分,Wang 等人[24]在match-LSTM 的基礎上又添加了一個選擇門來控制循環網絡的輸入,該門有效地模擬了在閱讀理解任務中只有部分文本與問題相關的現象.

受上述參考工作的啟發,本文首次將匹配機制引入自動文摘任務,并針對自動文摘任務的特性進行改進.在傳統的閱讀理解任務中,匹配機制主要用于計算文章中每個單詞語義和問題整體語義的匹配程度,以凸顯出哪些單詞是問題答案的可能性.根據自動文摘任務更注重獲取原文檔主要內容的特性,我們提出了一種全局自匹配機制來對輸入文檔進行自身到自身的匹配.與Wang 等人[24]提出的自匹配注意力(self-matching attention)不同,其針對閱讀理解任務的特性,在自匹配過程中通過一個選擇門對文章中與問題相關的部分進行篩選,確定答案可能存在的位置.本文提出的全局自匹配機制根據文檔中每個單詞語義和原文檔整體語義的匹配程度,動態地從整個原文檔中為文中每一個詞收集與該詞相關的信息后,進一步將該詞及其匹配的信息進行融合,將其對應的全局信息編碼到該詞最終的隱層表示中,以獲得包含全局信息的隱層表示.形象地,可以將輸入文檔成對表示,文檔對中的兩篇文檔都為輸入文檔,將其中一篇文檔視為機器閱讀理解任務中的問題.自匹配機制根據問題動態確定文檔各部分的重要性,為問題中的每個詞獲取其相關的部分來擴展該詞對應的表示,從而獲得對應的原始文檔全局信息.本文提出的全局自匹配機制的具體結構如圖2 所示,下面將進行詳細描述.

Fig.2 Structure of global self-matching layer圖2 全局自匹配層結構圖

首先,使用點積計算成對匹配矩陣M,它表示問題中的每一個單詞s和輸入文檔中的每一個單詞的成對匹配程度,兩者越相關,匹配程度越大.根據得到的成對匹配矩陣M,可以為文檔中的每一個單詞xt計算其對應的上下文信息ct,并通過將單詞xt對應的隱藏層狀態ht和上下文信息ct進行融合,得到中間表示rt.然后,全局信息是ot隱藏層狀態ht和rt的線性插值.門gt自適應地控制當前單詞xt對應的全局信息ot是應該從ht直接復制還是應該通過更復雜的路徑rt.極端情況下,當gt=0 時,ot=ht,此時全局信息ot直接為xt對應全局信息rt,不再考慮其對應的隱藏層狀態ht.最后,利用match-LSTM 將全局信息ot作為循環網絡的附加輸入獲得最終包含全局信息的隱藏層狀態.

其中,f(·)為LSTM 單元.ct是單詞xt對應的整篇文檔基于注意力機制的向量表示,其可以被計算為輸入文檔中每個詞對應的隱藏層狀態向量表示的加權和,即:

其中,M(t,i)是計算輸入文檔中單詞xt對應的上下文信息ct時,單詞xi對應隱藏層狀態向量的權重,表示文檔中的單詞xt和另一單詞xi的相關程度,具體計算過程如下:

2.3 全局門控單元

在獲取全局信息之后,我們使用全局門控單元對這些表示進行進一步篩選,以便去除冗余信息,挖掘出原文檔的核心內容.全局門控單元gglobal根據編碼器每個時間步的信息與全局信息的關系篩選輸入解碼端的信息流,其在每個維度上的輸出值介于0 和1 之間的向量.在此,我們使用Vaswani 等人提出的縮放點積注意力(scaled dot-product attention)[25]來計算每一個時間步的信息與全局信息的關系.縮放點積注意力可以被描述為將一個查詢(query)和一組鍵(key)-值(value)對映射到一個輸出,其中,查詢、鍵、值和輸出都是向量.本文中,查詢為編碼器每個時間步的輸出,鍵和值同為自匹配后獲得的全局信息.首先,將query 和每個key 進行相似度計算得到權重;第2 步,使用softmax函數對這些權重進行歸一化;最后,將權重和相應的鍵值value 進行加權求和,得到最后的attention:

其中,WQ,WK,WV為可訓練矩陣參數,σ(·)為sigmoid函數.

2.4 基于注意力機制的單向LSTM解碼器

我們利用基于注意力機制的單向LSTM 解碼器來讀取輸入單詞,并逐字生成摘要.在每個時間步驟,解碼器通過從詞匯表的分布中采樣來生成摘要中的詞,直到采樣到表示句子結尾的標記時結束.具體計算方法如下:

其中,f(·)為LSTM 單元;g(·)是非線性、潛在的多層函數,輸出y的概率;st為t時刻RNN 的隱藏狀態;a(·)是前饋神經網絡.

為了解決罕見和未知的單詞,Gulcehre 等人[26]提出使用指向機制從原句復制罕見的單詞.我們在系統中應用這種指向方法.當解碼單詞yi時,復制開關將當前解碼器狀態si和上下文向量ci作為輸入,并產生從源端輸入文檔復制單詞的概率p:

其中,σ為sigmoid函數,W,U和b為可訓練參數.

2.5 訓練與推理

給定輸入文檔D,我們的模型可以使用隨機梯度下降進行端到端訓練,通過最小化生成摘要的負對數似然來訓練模型參數,其訓練過程本質上是逐步最大化生成摘要中每個詞的概率,具體形式如下所示:

其中,Y

由于模型使用導師驅動過程(teacher forcing)進行訓練,在生成t時刻的單詞時,不是由t-1 時刻生成的單詞作為輸入,而是輸入實際摘要中的預期單詞.然而在測試過程中,生成t時刻單詞時,輸入的是t-1 時刻生成的單詞,這導致了訓練和測試之間的脫節.為了克服這種問題,在訓練期間,我們隨機地輸入生成的單詞,而不總是預期的單詞[27].具體的,在生成t時刻的單詞時,我們以0.1 的概率選擇t-1 時刻生成的單詞作為輸入,0.9 的概率輸入實際摘要中的預期單詞.在測試期間,我們使用集束搜索(beam-search)[28]解碼器,其每次生成一個輸入字,根據模型計算得到的yt的分布概率擴展B個最高概率序列.

3 實驗與評價

3.1 實驗設置

· 實驗數據

LCSTS 是取自于新浪微博的大規模中文短文本摘要數據集[5],數據集中包含了超過200 萬真實的中文短文本數據和每個文本作者給出的摘要.同時,還手動標記了10 666 個簡短摘要與相應短文的相關性.數據集由3 部分組成(見表2).

Table 2 statistics information of LCSTS dataset表2 LCSTS 數據集統計信息

第I 部分是LCSTS 的主要內容,包含2 400 591(短文本,摘要)對.這些對可用于訓練有監督學習模型以進行摘要生成;第II 部分包含10 666 個人工標注的(短文本,摘要)對,評分范圍從1～5,表示短文本和相應摘要之間的相關性:“1”表示“最不相關”,“5”表示“最相關”;第III 部分包含1 106 對.對于這一部分,由3 個標注者標記相同的2 000 文本,最后保留具有共同分數的文本.該部分獨立于第I 部分和第II 部分.

在本文實驗中,我們使用第I 部分作為訓練集,第II 部分作為開發集,第III 部分中得分為3、4 和5 的子集作為測試集.

· 評價方法

ROUGE[29]是Lin 在2004 年提出的一種自動摘要評價方法,被廣泛應用于NIST 組織的自動摘要評測任務中.ROUGE 基于摘要中n元詞(n-gram)的共現信息來評價摘要,是一種面向n元詞召回率的評價方法.基本思想為:由多個專家分別生成人工摘要,構成標準摘要集,將系統生成的自動摘要與人工生成的標準摘要相對比,通過統計二者之間重疊的基本單元(n元語法、詞序列和詞對)的數目,來評價摘要的質量.通過與標準人工摘要的對比,提高評價系統的穩定性和健壯性.該方法現已成為自動評價技術的通用標準之一.本文采用ROUGE 中ROUGE-1,ROUGE-2 和ROUGE-L 來對生成的摘要進行評價.

· 對比系統

為了評估我們提出的模型(global self-matching mechanism,簡稱為GSM)在自動摘要任務中的表現,需將GSM 與下列自動摘要方法進行比較,比較時直接使用以下方法在原始論文中給出的在LCSTS 數據集上的實驗結果(其中,RNN 與RNN-context 為LCSTS 數據集論文中提供的基線模型).

(1)RNN[5]:使用RNN 作為編碼器,它的最后隱藏狀態作為解碼器的輸入,在解碼期間不使用本地上下文;

(2)RNN-context[5]:使用RNN 作為編碼器,在解碼過程中使用上下文,編碼器的所有隱藏狀態的組合作為解碼器的輸入;

(3)CopyNet[16]:基于注意力機制的序列到序列模型,添加了拷貝機制.編碼端為雙向RNN 結構,解碼端為包含生成模式和拷貝模式的混合模型,生成模式從預設詞表中選詞,拷貝模式從輸入序列中選詞;

(4)SRB[19]:引入了基于語義相關性的神經模型來鼓勵文本和摘要之間的高語義相似性.該模型由3 部分組成——編碼器、解碼器和相似性函數:編碼器將原文本壓縮成語義向量;解碼器生成摘要并產生所生成的摘要的語義向量;最后,相似度函數評估原文本的語義向量與生成的摘要之間的相關性,表示之間的相似性得分在訓練期間使其最大化;

(5)DRGD[14]:在基于注意力機制的序列到序列模型的基礎上,增加了潛在結構向量來學習目標摘要中隱含的潛在結構信息,以提高摘要質量;

(6)R-NET[24]:基于門控自匹配網絡的閱讀理解模型.由于原論文中的模型主要針對閱讀理解任務,我們將其輸出端改為基于注意力機制的LSTM 解碼器,以適應自動文摘任務;

(7)CGU[16]:引入了一種全局編碼框架,它根據源端輸入文檔的全局信息控制從編碼器到解碼器的信息流,其由卷積門控單元組成,用于執行全局編碼以改進源端信息的表示.

· 超參設置

我們使用PyTorch(https://pytorch.org/)深度學習框架編寫代碼,并在NVIDIA 1080Ti GPU 上進行實驗.由于按詞分割文本導致詞表過大,在生成摘要時出現了大量未登錄詞,因此,本文使用按字分割文本,使用unk 來表示所有字表的未登錄字.我們使用默認設定參數的Adam 優化器[30]:lr=0.001,betas=(0.9,0.999),eps=1×10-8.其他具體參數設置見表3.其中,學習速率在第8 輪迭代時開始減半.所有超參數都使用開發集進行調整,實驗結果在測試集上報告.

Table 3 Hyperparameters setting表3 實驗參數設置表

3.2 實驗結果及分析

本節首先將GSM 系統和一些基準系統進行比較,然后分析不同層次的全局信息對生成式自動文摘模型的影響.最后,分析了本文模型中不同組件對模型的貢獻情況.

(1)與對比系統比較

為了評估提出的模型在自動摘要任務中的表現,我們將GSM 與當前主流的自動摘要方法進行比較.實驗結果見表4,其中,GSM 為在seq2seq 模型基礎上添加了全局自匹配層和全局門控單元的模型.

Table 4 Automatic evaluation result in LCSTS表4 LCSTS 數據集上的實驗結果

首先,對比表4 的實驗結果可以看出:本文提出的GSM 模型超過了所有對比的基準系統,達到了最好的效果,說明本文提出的基于全局自匹配機制與全局門控單元的GSM 模型是有效的.據文獻報道,在LCSTS 語料上達到目前已知的最好效果的模型為CGU,其根據源端上下文的全局信息控制從編碼器到解碼器的信息流,利用門控單元對源端的輸入信息進行篩選.不過,CGU 模型僅根據全局信息對源端的輸入信息進行篩選,沒有將源端信息和全局信息進行有效地融合.相似的,R-NET 模型也通過一個門控單元對文章內容進行篩選.而本文提出的GSM 模型在獲取全局信息后,將源端每個詞的隱層表示和其對應的全局信息進行了有效地融合,用于解碼器生成摘要.根據表4 實驗結果,與R-NET 和CGU 模型相比,GSM 模型的性能有顯著提高.特別地,與CGU 模型相比,GSM 模型在Rouge-1,Rouge-2 和Rouge-L 上分別提高了1.7,1.6 和1.9 個百分點,說明將源端信息和全局信息進行有效融合對于文摘任務是必要的.

(2)不同層次全局信息的差異分析

為了分析不同層次的全局信息對自動文摘模型的影響,我們對使用不同層次全局信息的模型進行比較.實驗結果見表5,其中,Uni-seq2seq和seq2seq 為我們復現的基于注意力機制的序列到序列模型,其具體實現方法為本文第2 節描述的基于編碼器-解碼器架構的序列到序列學習模型(無全局自匹配層和全局門控單元).兩者的不同之處在于,Uni-seq2seq 模型使用單向LSTM 編碼器,seq2seq 模型使用雙向LSTM 編碼器.

read-again 模型為我們根據Zeng 等人[15]論文復現的模型(LSTM 版),該模型將第1 次編碼時第一以及最后一個時間步對應隱層狀態作為固定不變的全局信息,并將其作為第2 次編碼過程中每一次輸入的附加輸入來指導第2 次編碼.

Table 5 Performances of various models with different levels of global information表5 具有不同層次全局信息的各種模型的性能

從表5 中的實驗結果可以看出:

1)具有完整上下文信息的模型優于僅包含部分上下文信息的模型.例如,使用雙向LSTM 編碼器的seq2seq 模型將編碼器在每個時間步上獲得的前后向信息進行拼接,以獲得完整的上下文信息,在ROUGE-1,ROUGE-2 和ROUGE-L 評價指標上均優于使用單向LSTM 編碼器的Uni-seq2seq 模型,其編碼器每個時間步對應的隱層狀態僅包含單向的、不完整的上下文信息;

2)全局信息能夠指導編碼器進行更好的編碼.不同于seq2seq 模型僅僅將編碼器在每個時間步上獲得的前后向信息進行拼接以獲得完整的上下文信息,seq2seq+Context 模型在第2 次編碼時,將第1 次編碼獲得的全局信息作為第2 次編碼過程中每一次輸入的附加輸入,對第2 次編碼進行指導;同時,將全局信息編碼入每一個時間步的隱層表示中.而根據表5 中給出的實驗結果可以發現,seq2seq+Context 模型在Rouge-1,Rouge-2 和Rouge-L 評價指標上均優于seq2seq 模型,說明全局信息能夠有效指導編碼器進行更好地編碼;

3)動態的全局信息優于固定的全局信息.由于每個詞關注的全局信息往往有所不同,因此為每一個詞提供相同的全局信息存在一定的局限性.相比于seq2seq+Context 模型,其使用第1 次編碼時最后一個時間步對應隱層狀態作為全局信息,對于每一個詞都是固定的,seq2seq+Match 模型使用本文提出的全局自匹配機制動態地從整個輸入文本中收集與該單詞相關的信息,并將單詞表示和相關信息融合到最終隱層表示中.實驗結果表明,seq2seq+Match 模型優于seq2seq+Context 模型,在Rouge-1,Rouge-2和Rouge-L 上分別提高了3.8,3.9 和3.3 個百分點.

(3)不同組件的貢獻分析

為了分析模型中不同組件對模型的貢獻程度,我們在基礎的seq2seq 模型上分別加入全局自匹配機制和全局門控單元,并進行比較.實驗結果見表6,其中,seq2seq 模型與表5 中相同,seq2seq+Gate 為在seq2seq 模型基礎上添加了本文提出的全局門控單元的模型.由于沒有自匹配層,無法獲得包含全局信息的隱層表示,其全局門控單元中的Q,K和V同為原始隱層表示h.seq2seq+Match 為在seq2seq 模型基礎上添加了本文提出的自匹配層的模型,無全局門控單元.

Table 6 Performance of various models with different components表6 具有不同組件的各種模型的性能

對比表6 中的實驗結果可以看出,模型中不同組件的貢獻有所不同.

· 首先,在基礎的基于注意力機制的序列到序列模型(seq2seq)上分別加入本文提出的全局門控單元(gate)和全局自匹配機制(match)后,在ROUGE 評價指標上都有顯著的提升,其中,seq2seq+Gate 模型在Rouge-1,Rouge-2 和Rouge-L 上分別提高了3.2,3.0 和2.7 個百分點,seq2seq+Match 模型在Rouge-1,Rouge-2 和Rouge-L 上分別提高了4.6,4.2 和4.1 個百分點,略優于CGU 模型,說明本文提出的全局門控單元和全局自匹配機制是有效的;

· 其次,相比于seq2seq+Gate 模型,seq2seq+Match 模型在Rouge-1,Rouge-2 和Rouge-L 上分別提高了1.4,1.2 和1.4 個百分點,說明全局自匹配機制的作用大于全局門控單元,體現了有效地融合源端全局信息對摘要任務的重要性.雖然全局門控單元能根據全局信息對源端的信息進行篩選,過濾冗余信息,但是無法彌補沒有有效融合源端信息造成的信息缺失;而全局自匹配機制雖然能將源端的全局信息有效地融合到源端每個詞的隱層表示中,但是容易造成信息冗余;

· 最后,本文提出的GSM 模型(即seq2seq+Match+Gate)性能相比于單獨的全局門控單元和全局自匹配機制都有顯著提高,達到了最好的效果,說明其能較好地結合全局門控單元和全局自匹配機制兩者的優點,并且有效地彌補它們各自存在的缺點,既可以獲得完整的全局信息,同時又避免了信息冗余.

3.3 實驗結果分析

表7 中列出了3 個示例,其包含了分別由seq2seq,CGU,seq2seq+Match,seq2seq+Gate 和GSM 這5 個模型生成的摘要.

Table 7 Some examples of the summary表7 部分生成摘要示例

通過對比分析可以觀察到:在3 個例子中,加入本文提出的全局自匹配機制的seq2seq+Match 模型和GSM模型都較為全面地抓住了文章的主旨,而seq2seq,CGU 和seq2seq+Gate 模型往往只能抓住文摘主旨的一部分.相比于seq2seq+Gate 模型,雖然seq2seq+Match 能較為全面地抓住文章的主旨,但是往往存在冗余信息.在第1個例子中,GSM 模型生成的摘要與參考摘要完全一致,seq2seq+Match 模型也涵蓋了文章主旨;而Seq2Seq 模型雖然提及了“阿里15%股權”,但是沒有說明“剝離”這個動作;CGU 模型雖然提及了“阿里巴巴集團股權”,但是把“雅虎剝離”錯誤理解為“阿里集團收購”,導致生成錯誤摘要;類似的,seq2seq+Gate 模型把“雅虎剝離”錯誤理解為“雅虎宣布400 億美元收購”.在第2 個例子中,seq2seq 和CGU 模型都只考慮到了“吸煙鏡頭”,忽視了“煙草廣告”,seq2seq+Gate 模型只考慮到了“煙草廣告”,忽視了“吸煙鏡頭”,都存在信息的缺失;而seq2seq+Match 和GSM模型生成的摘要則同時涵蓋了“煙草廣告”與“吸煙鏡頭”,與參考摘要也十分相似.在第3 個例子中,seq2seq 模型沒有抓住文摘主旨;Seq2Seq+Gate 模型關注點發生了偏移;CGU 模型基本包含文章主旨,卻缺失了“地下”這個關鍵詞;而Seq2Seq+Match 和GSM 模型仍然很好地抓住了文章主旨,也注意到了“地下民生工程”這個關鍵詞.不足的是,GSM 模型生成的摘要缺失了賓語“投入”,造成語法錯誤.另外,在3 個例子中,GSM 模型生成的摘要相對于Seq2Seq+Match 模型生成的摘要更簡潔一些,去除了一些冗余信息,更接近于參考摘要.

4 結論與未來的工作

自動文摘是自然語言處理領域的重要研究方向之一,近60 年持續性的研究,已經在部分自動文摘任務上取得了明顯進展.本文對當前主流的基于編碼器-解碼器架構的序列以及序列學習模型進行了改進:在利用傳統的編碼器對輸入文本進行編碼之后,增加了全局自匹配層對編碼后的輸入文本進行自匹配的過程,能夠動態地從整個輸入文本中為文本中每一個詞收集與該詞相關的信息,并將該詞及其匹配的全局信息編碼到最終的表示中.同時,增加了全局門控單元對自匹配層獲得的表示進行的步驟篩選,去除冗余信息,以便挖掘出原文檔的核心內容.在LCSTS 語料上的實驗表明,與當前主流的生成式摘要方法相比,該方法在ROUGE 評價指標上有顯著提高.

因短文本摘要的原文字數少,且只有一個段落,因此本文使用的全局信息為整個全文(篇章)的信息,可以理解為利用了篇章的物理結構信息.由于長文本摘要的原文有多個段落,未來工作中,我們將從語言學角度出發,在考慮利用篇章的物理結構信息的基礎上,還將考慮篇章的語義結構(如篇章修辭結構、話題結構等)信息來生成長文本摘要.由于當前主流的神經網絡框架尚不能夠有效地對長文檔進行語義編碼,針對這一問題,未來的工作將嘗試通過分析篇章的銜接性和連貫性,從整體上分析出篇章結構及其構成單元之間的語義關系,并利用上下文理解篇章,來輔助篇章級長文本的摘要生成,彌補傳統神經網絡框架對長文檔語義編碼的不足.