張 敏,曾碧卿,韓旭麗,徐如陽
1.華南師范大學 計算機學院,廣州510631
2.華南師范大學 軟件學院,廣東 佛山528225
自動文本摘要技術對給定源文本內容進行壓縮、提煉與總結,并產生簡潔、流暢且保留關鍵信息的文本來概括用戶所關注的主要內容[1]。今天,人們普遍面臨著信息過載的問題,自動文本摘要技術可以對文本信息進行壓縮,同時,提取出其中的重要信息,這無疑能有效地降低用戶的信息負載,幫助用戶更好地從互聯網中獲取想要的情報信息。
自動文本摘要方法根據生成摘要覆蓋的文檔范圍,可以分為單文檔摘要和多文檔摘要。根據摘要內容的來源可以分為抽取式摘要(Extractive Summarization)和生成式摘要(Abstractive Summarization)[2]兩類。其中,抽取式摘要生成的摘要內容是按一定規則從原文本中抽取出來的詞、短語或句子組成的。生成式摘要產生的摘要文本則是通過理解文本內容,用簡練的文字將原文本的內容表達出來。由于此過程與人類做摘要的過程相似,所以生成式摘要方法在文本摘要模型中得到了廣泛使用[3-7]。
近年來,隨著計算機軟硬件不斷升級,深度學習和神經網絡技術得到快速發展,并廣泛應用于自然語言處理(Natural Language Processing,NLP)任務,比如,機器翻譯[8-9]、情感分析[10]、自動問答[11]、文本摘要[12]等,同時,取得顯著的研究成果。其中,以序列到序列(Sequenceto-Sequence,Seq2Seq)神經網絡模型(有時又被稱為編碼器-解碼器,encoder-decoder模型)為代表,其結合卷積神經網絡(Convolutional Neural Network,CNN)或循環神經網絡(Recurrent Neural Network,RNN)和注意力機制,能更好地提取文本中蘊含的隱藏特征信息,相比傳統自然語言處理方法有更明顯的優勢。
然而,現有基于神經網絡的文本摘要方法生成的摘要普遍存在以下問題:其一,這些方法由于忽略了之前解碼步生成的文本信息,從而導致生成摘要存在語義無關、語句不通順、詞句重復問題;其二,受詞表大小的限制以及生成式摘要模型可能產生不在文本中的詞等原因影響,生成的摘要存在未登錄詞(Out-Of-Vocabulary,OOV)問題,使得生成摘要的可讀性受到影響;第三,在模型的訓練及驗證的解碼階段,會把真實的摘要輸入decoder,但在測試階段,decoder部分當前時刻的輸入摘要內容是上一解碼步的輸出,這樣由于訓練和測試階段的不同輸入,會導致一個偏差,這個偏差隨著序列長度的增加會越來越大,這就會產生exposure bias問題。
為了解決以上問題,本文提出一個結合雙注意力(dual attention)和指針覆蓋機制(pointer-generator network and coverage mechanism)的生成式摘要新方法DAPC 模型。模型使用詞嵌入(word embedding)、局部注意力及CNN 作為隱藏特征提取器,使用雙向長短期記憶(Long Short-Term Memory,LSTM)作為encoder,單向LSTM作為decoder,最后,加入pointer-generator網絡和coverage機制。基于CNN/Daily Mail數據集(https://cs.nyu.edu/~kcho/DMQA/)的實驗結果表明,該模型既可以提取文本高層次的n-gram 語言特征,避免生成重復文本,同時,也能解決受詞表大小影響而產生的OOV問題,進而提升摘要質量。
本文的主要貢獻體現在以下三個方面:
(1)針對文本摘要存在的語義無關、語句不通順問題,提出一種隱藏特征提取器,該特征器由詞嵌入、局部注意力以及CNN 三個部分組成,實驗表明該機制對摘要質量有較好的表現。
(2)在摘要解碼階段,加入OOV 擴展詞表,將指針機制與注意力機制結合集成到decoder中,提升摘要質量。
(3)采用coverage機制解決文本摘要任務中產生的句內重復的問題,實驗表明模型DAPC 在ROUGE-2 指標上相比最好的模型高0.87個百分點。
2014 年,Sutskever 等[13]采用Seq2Seq 模型實現基于神經網絡的英-法互譯的機器翻譯。同年,Bahdanau等[14]提出encoder-decoder與注意力機制結合的模型,應用在機器翻譯任務中,取得當時最好的效果,為Seq2Seq 任務提供了一種全新的深度學習模型架構。2015 年,Rush等人[15]對Bahdanau等[14]提出的模型進行改進,并將其應用到文本摘要任務中,取得突破性的進展。Chopra等[16]在ABS 模型[15]基礎上進行改進,他們保留原模型中encoder 部分的神經網絡為CNN,并將decoder 部分的前饋神經網絡語言模型修改為RNN,實驗結果表明該模 型 在DUC 數 據 集(http://duc.nist.gov/data.html)上ROUGE-1得分有相對提高。更進一步地,Nallapati等[17]將encoder 和decoder 部分的神經網絡模型都改成為RNN,即模型是完全由RNN 組成的Seq2Seq 模型。除此之外,他們還在編碼器中引入詞匯和統計特征(如詞性、命名實體等特征)來提高模型的表現,其在ROUGE-2、ROUGE-L兩個評價標準下的表現相對Chopra等[16]提出的模型效果又有提升。Hu等[18]利用新浪微博數據構建了一個大規模、高質量中文短文本摘要數據集LCSTS(Large Scale Chinese Short Text Summarization)(http://icrc.hitsz.edu.cn/Article/show/139.html),數據集彌補了在文本摘要領域沒有中文摘要數據集的空缺,并且在數據集的基礎上采用簡單Seq2Seq 模型給出了一個baseline,為以后的學者提供相關研究基礎。2017 年,Vaswani 等[8]提出一個不用RNN 也不用CNN,而完全依賴注意力實現的翻譯模型,引入自注意力(self-attention),有時也被稱為內注意力(inner-attention),在序列內部做注意力尋找序列內部的聯系,不僅降低模型計算復雜度,同時在機器翻譯任務中取得不錯的成績。
給定一個長文本并生成其摘要是文本摘要領域一項比較困難的任務,已有的深度神經網絡模型在處理這項任務時,會出現生成摘要語句不通順、詞句重復等問題。Nema等[6]采用正交化上下文向量的方法,應用于基于查詢的生成式摘要任務中,有效減少了生成摘要句內重復問題的發生。另外,Paulus 等[19]首次將強化學習引入文本摘要任務中,并提出一個新的模型,該模型引入內嵌注意力機制(intra-attention mechanism)和新的訓練方法,有效地提升了自動文本摘要的生成質量。同時,引入強化學習的訓練方法對摘要結果進行優化,減輕exposure bias問題,更進一步地提升摘要表現。但基于強化學習的訓練方法的參數調整過程相對其他方法更難,且其訓練時間更長,因此本文沒有實現強化學習訓練方法。
近年來,CNN 在許多自然語言處理任務中取得了巨大成功,例如文本分類[20]、情感分析[21]和神經語言模型[22]等。CNN 進行窗口式遍歷,方便并行計算,通過層疊方法增大感受野,能從輸入文本中提取更多的語境特征,獲取抽象特征信息[8,23]。RNN 神經網絡結構相對CNN 來說更簡單,常見的RNN 包括LSTM 和門控循環單元(Gated Recurrent Unit,GRU)。由于RNN 某一時刻的隱藏狀態與它前一時刻的隱藏狀態相關,導致其無法進行并行計算,因此訓練速度相對CNN來說更慢;但也正是因為這個原因,RNN 可以保留長序列的隱藏信息,擴展到更長的序列,很適合序列建模,適用于許多NLP任務,比如:語言建模、機器翻譯、語音識別等[24]。
文本摘要由于受詞表大小的影響,會出現OOV 問題。為了解決這個問題,Gu 等[25]提出了COPYNET 模型,模型在基于注意力的Seq2Seq 模型基礎上,準確地組合選擇使用COPY 模式和generate 模式,生成語義連貫的摘要,且摘要在ROUGE評估上的表現相對Hu等[18]提出的RNN、RNN content 模型有較大的提升。此外,See 等[26]提出Pointer-Generator 網絡模型。該模型在標準的Seq2Seq 加注意力機制模型的基礎上,通過指向(pointing)和生成(generating)兩種模式把抽取式摘要和生成式摘要結合起來,并加入coverage 機制,在文本摘要領域取得較好的表現。Wang 等[4]提出Reinforced-Topic-ConvS2S 模型,該模型在基于卷積神經網絡的Seq2Seq 框架(ConvS2S)[9]基礎上引入主題模型注意力機制,并通過使用強化學習方法進行優化,使得通過模型產生的摘要具有更好的連貫性和多樣性。
基于上述研究,本文結合CNN 與RNN 的優勢,提出一種結合雙注意力和指針覆蓋機制的生成式摘要序列到序列模型。
本文提出雙注意力與指針覆蓋結合的生成式摘要模型,其主要框架如圖1所示。模型主要包含四個部分:隱藏特征提取器、編碼器、解碼器以及Pointer-Generator網絡。

圖1 雙注意力和指針覆蓋結合的生成式摘要模型
模型的隱藏特征提取器由詞嵌入層、局部注意力層以及CNN 三個部分組成,抽取輸入文本更高層次隱藏特征后輸入編碼器進行編碼,然后將編碼器最后一個RNN 單元的隱藏狀態作為解碼器的輸入,進行解碼工作,解碼器最后一個解碼步的輸出作為模型的輸出。各層主要說明如下:
(1)輸入層:該層的輸入是原文本序列,詞與詞之間通過空格分隔開來。
(2)詞嵌入層:將輸入層輸入的文本轉換為相應的詞向量表示。
(3)局部注意力層:采用局部注意力機制,獲取一定窗口范圍內給定文本序列中相應詞語的重要性,并根據其重要性賦予不同的權重值。在計算權重的過程中,為保證不丟失輸入文本首尾兩端的上下文信息,需要對首尾兩端進行全0補齊(padding)操作。然后,輸出輸入序列通過局部注意力加權后的詞向量表示。
(4)卷積層:卷積層將局部注意力層的輸出詞向量作為輸入,與局部注意力層類似,卷積層也需要對詞向量進行padding 來避免首尾兩端文本的上下文信息丟失。同時,卷積層通過多個不同大小的卷積核,獲取輸入文本更深層次的n-gram 特征。最后,將各個特征映射串接起來,作為輸入文本最終的詞向量表示。
(5)編碼器:編碼器由雙向LSTM神經網絡組成,在t 時刻LSTM單元輸出的隱藏狀態為ht。
(6)具有注意力機制的解碼器:解碼器由單向LSTM組成,每個解碼單元有兩個輸入:上一解碼步的隱藏狀態以及當前時間步文本序列的輸入。解碼器最初的隱藏狀態通過編碼器最后一個編碼單元的隱藏狀態hn進行初始化?!癊OS”表示原文本終止符,同時也代表解碼開始符。st表示第t 個解碼步LSTM單元的隱藏狀態,表示預測文本,yt-1則表示輸入文本,在訓練階段,該文本是參考摘要的第t 個詞,而在測試階段由于沒有參考摘要作為輸入,則用前一解碼步的預測輸入代替,即在測試階段
(7)Pointer-Generator網絡:該網絡是解碼器中的一部分,attention weighted matrix 表示注意力加權矩陣,context vector 表示帶注意力的上下文向量。 P( )w 表示當前時刻預測詞為w 的概率,pgen是一個生成概率,表示該目標詞是給定詞表中詞w 的概率,表示目標詞是OOV詞表中詞w 的概率。
下面,將對模型各組成部分進行詳細介紹。
3.1.1 詞嵌入
對于輸入文本s={w1,w2,…,wi,…,wn-1,wn},wi表示文本中第i 個詞,n 表示文本長度。經過詞嵌入層處理后,可以得到該文本的詞嵌入表示矩陣X={x1,x2,…,xi,…,xn-1,xn},其中,xi∈?d,d 表示詞嵌入的維度。
3.1.2 局部注意力
模型中的局部注意力模塊可以學習給定詞序列窗口中所有詞提供的信息量的特征[27],使用局部注意力后,可以獲得給定窗口范圍內相對更重要的詞的信息,并且保持輸入序列中重要詞語的相對位置不變。記表示長度為n 的文本的詞嵌入。通過滑動內核將注意力應用到這個序列,用xi表示中心詞,w 表示內核寬度,即局部注意力的窗口大小。最后,計算每個詞的加權分數,Wl-att∈?w×d表示注意力權重,bl-att表示偏置,其均為學習參數。


其中,xni表示長度為n 的序列中第i 個詞xi的加權詞嵌入。
3.1.3 卷積神經網絡
CNN 具有從輸入文本中提取更多語境特征,獲取文本局部信息的優點。為減輕生成摘要語句不通順、語義不相關的問題,模型加入了CNN,并通過設置不同的卷積核大小來獲取文本更多的n-gram特征。卷積神經網絡一般有兩個核心層,即卷積層和池化層。考慮到CNN 的池化層會丟失文本的位置信息,所以本模型中的CNN只采用卷積層,而沒有使用池化層。圖2展示了卷積神經網絡對文本的處理過程。

圖2 卷積神經網絡對文本的處理
卷積層的輸入是上一個局部注意力層的輸出。輸入文本經過局部注意力處理后,得到注意力加權嵌入矩陣Xn∈?n×d。假設用xi:i+j表示向量xi,xi+1,…,xj的串接,卷積過濾器用k ∈?h×d表示,h 為一個卷積窗口中詞的個數,那么使用詞xi:i+h-1生成的特征ci可由如下公式表示:

其中,b ∈? 是一個偏置項,f 是一個非線性激活函數tanh。將過濾器應用到整個嵌入矩陣,得到文本在該過濾器下的特征映射C。

在局部注意力層和卷積層,為了確保嵌入尺寸大小不變,所以在每層矩陣的邊界上進行了全0 填充(zeropadding)的操作,以保證各層向前傳播結果的矩陣大小與當前層的矩陣大小一致。
為了獲得文本更多層次的n-gram 特征,模型采用了多個不同大小的卷積核,最后串接各個特征映射并將其作為輸入文本的特征表示。假設共有j 個不同大小的卷積核,則最終的特征矩陣F 可記作:

模型的encoder-decoder部分以Nallapati等[17]提出模型作為baseline,其中,encoder 部分使用雙向LSTM,decoder部分使用單向LSTM。
LSTM 在簡單RNN 模型的基礎上添加了一個遺忘門(forget gate),使其更易于學習長期依賴[28]。它由輸入門(input gate)、遺忘門和輸出門(output gate)三個部分組成,并通過下面等式組合這三個門來計算t 時刻隱藏狀態:

ft代表遺忘門,it代表輸入門,ot代表輸出門,ct表示上下文,ht表示LSTM 當前時刻的輸出。Wf、Wi、Wo、Wc分別是遺忘門、輸入門、輸出門、上下文權重,bf、bi、bo、bc分別是遺忘門、輸入門、輸出門、上下文偏置,σ 是sigmoid非線性函數。
在編碼階段,模型使用雙向的LSTM計算輸入序列的隱藏狀態h ,記輸入序列的第t 個詞的隱藏狀態為ht,其前向和反向隱藏狀態分別用, 表示向量連接運算符,則t 時刻隱藏狀態為因此,每個解碼器的隱藏狀態ht是對文本中第t 個詞和其上下文信息編碼后的結果[29]。
在解碼器中,模型加入注意力機制并使用單向的LSTM。在每個解碼時間步t ,編碼器隱藏狀態hj與第t 個目標詞相關性權重etj由解碼器前一時刻的隱藏狀態st-1,當前時刻的輸入文本yt-1(在模型的訓練階段,yt-1是參考摘要中相應的詞;在測試階段,則是解碼器t-1 時刻的輸出,見圖1 中解碼器部分)和hj共同計算得出:

其中f 是一個非線性函數。然后,使用softmax 回歸處理etj,得到第j 個詞的注意力權重:

由atj可以計算得到第t 個目標詞的帶注意力的上下文向量ct:

通過LSTM 單元計算出當前時刻解碼器的隱藏狀態st:

生成目標詞的概率計算如下:

生成式摘要模型對輸入文本進行編碼,將文本中的詞轉換為向量形式提取語言特征,然后再進行解碼將詞嵌入轉換為文本。在這個過程中,模型可能會生成新詞,這些詞既不在詞表中,也沒有在原文本中出現過,或者在原文本中出現過,但由于受詞表大小的限制,不在模型使用的詞匯表中,這就導致OOV 問題的形成。為了解決受詞表大小影響而產生的OOV 問題,模型采用了pointer-generator 網絡,該網絡可以通過pointing 機制從原文本中復制詞,同時,也可以從給定的詞表中生成詞。對于解碼時間步t 來說,它的生成概率是由當前時刻解碼器輸入xt、隱藏狀態st以及上下文向量ct計算得出:

其中,Wc、Ws、Wx分別是上下文權重、隱藏狀態權重、輸入權重,bgen為偏置項,σ 是sigmoid 非線性函數。pgen可以看成是生成一個詞表中的詞,或通過注意力分布at從輸入文本中復制一個詞的軟開關。對于每一個輸入文本都有一個OOV 擴展詞表,該詞表用于存儲該文本所有不在給定詞表中的未登錄詞。引入OOV詞表后,解碼時間步t 生成目標詞w 的概率計算公式如下:

在生成目標詞概率計算中,假如當前時刻的生成詞是一個未登錄詞,則Pvocab( )w =0;類似的,假如生成詞沒有在原文本中出現過,且不在詞表中則P這時,生成詞用“[UNK]”表示。
句內重復是Seq2Seq模型中常見的問題,特別是在生成多句子的長文本任務中尤為常見[26],為解決這個問題,模型引入coverage機制。
首先,記第t 個解碼步之前所有解碼步的注意力分布之和為覆蓋向量covt:

covt表示到第t 個解碼步為止,已經被注意力機制覆蓋到的源文本的向量表示。由于在解碼步t=0 時還沒有文本被讀取覆蓋,所以,在這個解碼步的覆蓋向量cov0是一個0向量。
隨后,將covt作為注意力機制的一個附加的輸入內容,因此,公式(13)被更新為:

最后,為了避免在同一個摘要句子中生成重復的詞,模型采用如下的方式來更新計算t 時刻的總損失losst:

其中,cov_losst表示覆蓋損失,用來懲罰同一位置反復出現的情況,wt表示第t 個時間步的目標詞,表示在當前時刻的目標損失值,λ 參數的默認值為1.0。
本文使用近年來廣泛應用于自動文本摘要任務的CNN/Daily Mail 數據集作為評測數據集。該數據集最初應用在機器閱讀理解任務中[30],后由Nallapati 等[17]整理并應用于文本摘要任務。它包含286 817 對訓練集,13 368 對驗證集,以及11 487 對測試集,每個原文本對應多個摘要句子。訓練集中的源文檔平均每個文檔包含766個詞,29.74個句子;相對應的摘要平均包含53個詞和3.72 個句子。文獻[26]提供了該數據集的處理腳本(https://github.com/abisee/cnn-dailymail),為了與之具有可比性,所以本文也采用了該腳本進行CNN/Daily Mail數據集預處理,并獲得數據的未標記版本。
與Nallapati等人[17]在論文中采用的評價標準相同,本文的文本摘要質量采用ROUGE[31]評估中ROUGE-1、ROUGE-2 和ROUGE-L 的F1 值進行評估,分值由ROUGE 摘要評估包的Python 包裝器pyrouge(https://pypi.org/project/pyrouge/)計算得到,該包裝器為官方的ROUGE評估提供了一個簡單可用的接口。
文獻[32]指出,模型使用詞表大小為150 000 相對詞表大小為50 000 來說,時間成本增加了一倍,但其測試表現分數卻略有下降。另外,由于模型使用了兩個編碼器,所以最終模型使用詞表大小為40 000,模型表現相對baseline 仍有提升。綜上,考慮到本文模型使用了局部注意力和卷積神經網絡,本模型的詞表大小也設置為40 000。
此外,在模型的實驗過程中,其他參數設置如下:詞向量的維度為128,編碼器隱藏層維度為200,解碼器隱藏層維度大小為400。模型使用AdagradOptimizer優化器,學習率的初始值設置為0.03,增量器初始值(initial_accumulator_value)設為0.1。局部注意力窗口大小為5,卷積神經網絡相關參數如表1。

表1 卷積神經網絡相關參數設置
在訓練階段batch 大小設置為32;為減少驗證過程所需的內存空間,并使訓練和驗證在同一個GPU 中運行,在驗證階段,將批次大小設置為8,但對于每個驗證步,都迭代驗證數據100次,這類似于在批次大小為800的數據基礎上尋找驗證誤差。集束搜索(beam search)大小設置為4。對于所有隨機初始化的參數變量,都滿足標準差為1E-4的正態分布。
CNN/Daily Mail 數據集中的每一對數據由一篇文章和一個多句子的摘要組成。在實驗過程中,只取文章的前400 個詞,并將摘要限制到100 個詞。在測試模式下,采用beam search算法生成至少40個詞。
本文以基于注意力的Seq2Seq模型為baseline,結合局部注意力、卷積神經網絡、pointer-generator網絡,以及coverage 機制來解決現有文本摘要模型存在的句內重復、OOV 問題。為驗證模型的效果,在實驗中,與多個目前表現較好的模型效果進行了驗證比較。
4.4.1 對比模型
Seq2Seq+Attn:融合注意力與encoder-decoder 的基線模型。
abstractive model[17]:模型在基線模型的基礎上加入時空注意力(Temporal Attention),防止解碼器重復關注已生成文本內容,解決在長文本的多句子摘要中生成重復句子的問題。
pointer-generator[26]:模型將基線模型與指針網絡結合,允許通過指向從原文本中復制詞,也可以從一個定長詞匯表中生成詞。
pointer-generator+coverage[26]:該模型在pointer-generator基礎上加入coverage機制,對解碼器重復關注同一位置信息的情況進行懲罰,生成重復的文本。
WordNet+Dual-attn+PGN+Cov[32]:模型基于WordNet句子排名算法抽取重要句子,融合抽取式摘要與生成式摘要方法,并引入pointer-generator 網絡和coverage 機制,在CNN/Daily Mail數據集上進行實驗,取得良好的效果。
ML+RL+Intra-attn[19]:模型在最初的encoder-decoder模型基礎上引入內注意力(intra-attention)機制,并首次將強化學習應用到長文本摘要任務中,結合監督學習方法對目標函數進行混合訓練。
RL+Intra-attn[19]:在序列到序列模型中使用內部注意力機制,采用強化學習方法訓練目標函數。
4.4.2 本文提出的模型
DAPC-1:模型以pointer-generator 模型為基礎,在詞嵌入層后,encoder之前加入一個局部注意力層,提取文本的局部重要性特征信息。
DAPC-2:模型以pointer-generator 模型為基礎,在詞嵌入層后,encoder之前加入一個卷積層,以獲取輸入文本更深層次的隱藏n-gram語言特征。
DAPC-3:在DAPC-1模型基礎上,局部注意力層之后,encoder層之前加入卷積層,綜合考慮文本信息的重要性和深層隱藏特征,對輸入文本進行建模。
DAPC-4:在DAPC-3 模型基礎上,加入coverage 機制,在每個解碼步防止重復關注相同信息。
實驗結果如表2 所示。表中部分模型帶有下標“a”,表示該模型的數據集采用的是具有命名實體和數字標注處理的CNN/Daily Mail 數據集;其他則是在未標注處理的數據集進行實驗的結果。黑色加粗數字表明模型的最好效果。
表2 的實驗結果表明,在本文提出的四個模型中,DAPC-4 模型在ROUGE-1、ROUGE-2、ROUGE-L 三項指標中都取得最好的效果。
本文提出的四個模型表現效果,相對Seq2Seq+Attn及abstractive model 均有大幅提升;DAPC-1、DAPC-2、DAPC-3、DAPC-4四個模型在pointer-generator模型基礎上進行改進,從ROUGE評分來看,相對pointer-generator模型來說,DAPC-2 模型的ROUGE-1 指標得分提高了0.35 個百分點,ROUGE-2 評分提高了0.18 個百分點,DAPC-1、DAPC-3、DAPC-4三個模型在三個指標上的得分均有不同程度提升。

表2 實驗結果對比
與文獻[19]中提出的引入強化學習訓練方法的模型結果相比,盡管本文提出模型在ROUGE-1、ROUGE-L標準下沒有其表現效果好,但在ROUGE-2評價指標上,本文提出的模型表現效果均比其表現效果好,特別是DAPC-4 模型在ROUGE-2 評價指標下相比其最好得分提升了2.33 個百分點。分析原因,可能與RL 模型使用的是帶有標注處理的CNN/Daily Mail數據集有關。
與文獻[32]中的模型相比,DAPC-4模型在ROUGE-1、ROUGE-2、ROUGE-L三個指標上分別提升0.29%、1%、0.83%。數據表明,使用局部注意力與卷積相結合相對先對文本做抽取式摘要再編碼的方法而言,其能更有效地提取原文本的重點信息和深層語言特征,減輕非重點信息對重要信息的稀釋作用,從而提升文本摘要質量。值得注意的是,與文獻[17,19,26,32]模型相比,本文提出的DAPC-4 模型具有最好的ROUGE-2 表現,相比之前最好的模型提升了0.87個百分點。
圖3展示了模型生成的一個摘要樣例。從圖3可以看出,模型生成的摘要文本語義連貫,沒有句內重復及OOV 詞,且生成了新詞“beat”,對原文內容方面有較好的覆蓋,與參考摘要相似,總體表現良好。

圖3 生成摘要案例
針對目前基于深度學習的生成式文本摘要方法存在語句不通順、句內重復以及未登錄詞問題,研究提出了基于雙層注意力的Seq2Seq 文本摘要模型。該模型集成了注意力機制、CNN 以及RNN 在處理文本方面的優勢,與pointer-generator 網絡和coverage 機制相結合,在不帶標簽的CNN/Daily Mail數據集上進行文本摘要任務,取得了良好的效果。下一步,將進一步對模型進行改進,引入強化學習機制,解決exposure bias問題;此外,還考慮將該模型在中文數據集中進行實驗驗證,提升對多語言的通用性。