自動文本摘要研究綜述

2021-01-15 09:09:08李金鵬陳小軍廖鵬程

計算機研究與發展 2021年1期

李金鵬張闖陳小軍胡玥廖鵬程

1(中國科學院信息工程研究所北京 100093)

2(中國科學院大學網絡空間安全學院北京 100040)(lijinpeng@iie.ac.cn)

21世紀互聯網快速發展，文本數據呈指數級增長，用戶如何快速有效地從海量信息中提煉出所需的有用資料，已經成為一個亟待解決的問題.自動文本摘要(automatic summarization)技術，又被稱為自動文摘，它的出現恰逢其時，為用戶提供簡潔而不丟失原意的信息，可以有效地降低用戶的信息負擔、提高用戶的信息獲取速度，將用戶從繁瑣、冗余的信息中解脫出來，節省了大量的人力物力，在信息檢索、輿情分析、內容審查等領域具有較高的研究價值.

早期的文本摘要普遍是通過人工來完成的，文本數據量的激增使得這項工作日漸繁重且效率低下，逐漸不能滿足用戶的需求.近年來，隨著對非結構化文本數據研究的進展，自動文摘任務得到了廣泛的關注和研究，其已成為自然語言處理領域的研究熱點之一.學術界涌現出大量圍繞算法技術、數據集、評價指標和系統的相關工作，這些工作在一定程度上取得了較好的效果，快速應用到金融、新聞、醫學、媒體等各個領域，如社交媒體摘要[1]、新聞摘要[2]、專利摘要[3]、觀點摘要[4]以及學術文獻摘要[5].盡管如此，目前計算機自動產生的摘要還遠不能達到人工摘要的質量，在該任務上還有很大的提升空間，仍需要相關研究者進一步探索有效的自動文摘技術.

目前已有一些文獻對自動文摘任務進行了調研和評估.在早期的工作中，萬小軍等人[6]首次將自動文摘的研究工作從內容表示、權重計算、內容選擇、內容組織4個角度進行了深度剖析，并對發展趨勢進行了展望，為之后的研究工作打下了良好的基礎.王俊麗等人[7]則主要針對抽取式自動文摘的圖排序算法進行了介紹.曹洋等人[8]重點分析了3種主要的機器學習算法在自動文摘中的應用.此外，還有一些相關的研究工作，但他們基本僅針對自動文摘中的單個技術方向進行詳細綜述，經過調研發現目前尚缺乏對自動文摘任務進行全面的研究綜述.

基于此，為了便于研究者在現有研究工作的基礎上取得更好的進展，非常有必要對目前自動文摘的研究成果進行全面的分析和總結.因此，我們查閱整理了近年來學術界相關的研究工作，包括自然語言處理、人工智能等相關領域的國際會議和學術期刊，對這些研究成果按照摘要產生的技術算法進行了詳細的分類以及優缺點的對比與總結.除此之外，本文對自動文本摘要研究常用的數據集、評價方法進行歸納總結，最后對自動文摘任務未來的研究趨勢進行展望與總結.

1 自動文本摘要問題定義

大量的文本數據涌現導致用戶很難快速獲取文本中的主題信息，所以需要通過技術手段將文本提煉成不丟失原意的摘要.摘要，維基百科對其的定義是指簡潔準確記述重要內容，正確無誤地摘錄出來，不作主觀解釋和評論，使讀者于最短的時間內以掌握內容，得知原著的大意；劍橋英文詞典解釋摘要是“A short,clear description that gives the main facts or ideas about something”.自動文摘是利用計算機通過算法自動地將文本或文本集合轉換成簡短摘要，幫助用戶通過摘要全面準確了解原始文獻的中心內容.

美國IBM公司的Luhn[9]于1958年首次設計了一個自動文摘系統，拉開了該課題研究的序幕.自動文摘形式化定義為：設D={w1,w2,…,wn}為包含n個單詞的原始文檔，自動文摘的目標是得到一個由單詞yi組成的包含原文中心內容的摘要Y={y1,y2,…,ym}，需滿足n?m.自動文摘根據不同的標準有不同的分類劃分，按照是否提供上下文環境，可以分為面向查詢的自動文摘和普通自動文摘；按照不同的用途，可以分為指示性文摘和報道性文摘等；按照文檔數量，可以分為單文檔自動文摘和多文檔自動文摘；按照產生方法可以分為抽取式自動文摘和生成式自動文摘.單文檔自動文摘和多文檔自動文摘主要區別在于處理的文檔數量，多文檔存在的冗余信息較多[10].但這2種任務都需要對原文內容進行權重計算、排序組織、整理等，因此多文檔自動文摘技術可看作單文檔自動文摘技術的擴展.本文主要依據自動文摘產生方法(抽取式和生成式)的算法技術、數據集、評價指標對相關的研究工作進行綜述.

2 自動文本摘要技術和方法

20世紀90年代以來，隨著互聯網的快速發展，自動文摘的應用價值越來越廣，引起了越來越多的學者關注，深度學習的熱潮更是為自動文摘的研究帶來了新的機遇.目前，自動文摘實現方法主要分為抽取式方法和生成式方法.前者是從原始文檔中提取關鍵文本單元來組成摘要，文本單元包括但不限于單詞、短語、句子等.這種方法產生的摘要通常會保留源文章的顯著信息，有著正確的語法，但不可避免的是容易產生大量的冗余信息，且對于短文本摘要不太友好.后者是根據對輸入原始文本的理解來形成摘要，模型試圖去理解文本的內容，可以生成原文中沒有的單詞，更加接近摘要的本質，具有生成高質量摘要的潛力.自動文摘的研究工作的技術框架為：

內容表示→權重計算→內容選擇→內容組織[6].

內容表示是將原始文本劃分為文本單元的過程，主要是分字、詞、句等預處理工作.另有一些研究工作使用主題模型、圖、語義表示的方法對原文進行深層次的表示，針對深度學習方法而言，需要將文本單元映射成由實數構成的向量，即詞嵌入(word embedding)工作.權重計算則是要對文本單元計算相應的權重評分，權重的計算方式多樣，如基于特征評分、序列標注、分類模型等提取內容特征計算權重.內容選擇是對經過計算權重后的文本單元選擇相應的文本單元子集組成摘要候選集，可根據要求的摘要長度、線性規劃、次模函數、啟發式算法等選擇文本單元.內容組織是指對候選集的內容進行整理形成最終摘要，可根據字數要求按順序輸出，也有研究者提出使用基于語義信息、模板和深度學習的方法來產生符合要求的摘要.

目前主流的自動文摘技術方法的對比見表1.該技術方法也可根據是否有監督分為無監督學習方法(特征評分、圖排序、主題模型等)和監督學習方法(分類算法、序列標注、深度學習等).前者不需要訓練數據和人工參與，速度較快、效率較高，在缺乏高質量數據集的情況下取得了不錯的效果，但無法避免的是應用場景簡單，不能滿足用戶對高質量摘要的需求；而后者在自動文摘任務上得到了較快的發展并取得了突破性的進展.廣義來看，抽取式方法將自動文摘簡單地看作是二元分類問題，判斷文檔中的文本單元是否屬于摘要內容，該類方法產生的摘要往往不夠簡潔，存在冗余文本，連貫性上也無法得到很好的保證；生成式方法則是對訓練數據的文本-摘要數據對的學習，包括語言結構、詞法、語法等，根據不同的算法生成摘要.不足之處是需要利用大量訓練數據訓練模型，訓練數據的質量決定了模型性能的峰值，并且訓練過程普遍耗時較長,部分重要的模型參數需要人工設置、優化.相關研究者在生成式方法上做出了大量的創新工作，取得了顯著成績.下面我們將具體介紹這些自動文摘算法的技術以及研究成果.

Tabel 1 The Classification of Automatic Text Summarization Technology

2.1 抽取式方法

抽取式方法主要考慮摘要的相關性和句子的冗余度2個指標[11-12].相關性衡量摘要所用的句子是否能夠代表原文的意思，冗余度是用來評估候選句子包含冗余信息的多少.大多數現有的抽取式摘要系統使用句子作為提取的基本單位，因為它們是可以表達為語句的最小語法單位[13].該方法通常面臨2個難題：一方面是如何對劃分的文本單元進行排序；另一方面是如何選擇排序后的文本單元[14].

2.1.1 基于主題模型的方法

自然語言處理最需要解決的任務之一是如何使計算機可以真正地理解文本.因此涌現出一些基于主題模型的方法，如潛在語義分析(latent semantic analysis, LSA)[15]、隱狄利克雷分布模型(latent Dirichlet allocation, LDA)[16]等來挖掘詞句隱藏信息，該類方法的效果依賴訓練數據質量和領域等情況.

LSA是一種數據模型，核心思想是將詞和文章映射到矢量語義空間，通過降維去除部分噪聲，在低維空間中提取文檔中詞的概念.不足之處是它雖然可以解決一義多詞(synonymy)問題，但對于一詞多義(polysemy)問題還不能很好地處理.LSA的處理流程為：

1) 分析文檔集并建立詞匯-文本矩陣；

2) 對詞匯-文本矩陣進行奇異值分解(singular value decomposition, SVD)；

3) 對SVD分解后的矩陣進行降維；

4) 使用降維后的矩陣構建潛在語義空間.

Gong等人[17]第1次提出使用LSA用于自動文摘任務，文檔D由m個詞和n個句子組成，構建句子矩陣A=(A1,A2,…,An)，每個列向量Ai代表文檔中句子i加權的詞頻(term-frequency)向量，那么該文檔可以表示為m×n的矩陣A，然后利用SVD分解該矩陣：

A=UΣVT，

其中，U是矩陣A的特征向量組成的m×n矩陣，U中的每個特征向量被稱為A的左奇異向量；Σ是n×n的對角矩陣，對角元素是降序的非負奇異值；V是n×n的正交矩陣，V中的每個特征向量被稱為A的右奇異向量.然后從每個右奇異向量矩陣中選擇排名最高的句子組成摘要.Steinberger等人[18]利用指代消解提升基于LSA的自動文摘系統的性能，他們使用指代消解系統GUITAR[19]解析表達式，發現當添加詞典信息作為SVD的輸入時會取得較好的效果.

LDA主題模型的主要思想是通過對文字建模發現隱含的主題，其是由Blei等人[16]在pLSA[20]的基礎上進行了擴展，pLSA參數過多時會導致過擬合問題，在此基礎上LDA加入了超參數，并使用Dirichlet分布作為文檔-主題和詞-主題的先驗分布.LDA實現過程如圖1所示，首先從Dirichlet分布α中采樣生成文檔-主題分布θm，在主題分布中生成第m篇文檔的第n個詞的主題Zm,n，在Dirichlet詞-主題分布β中采樣生成主題Zm,n對應的詞分布φk，然后從詞分布中得到詞Wm,n.Kar等人[21]提出了一種在任何用戶定義的時間段內利用LDA模型發現隱含主題結構變化的方法，在動態文本集合中生成摘要，在當時取得了優于基線的效果.

Fig. 1 LDA topic model

2.1.2 基于圖的方法

基于圖的方法是通過全局信息確定文本單元(單詞、句子)，將文本單元構成圖的頂點，2個相似的點用邊連接起來，將文本構建成拓撲結構圖，利用圖排序算法TextRank或LexRank等對包含文本自身的結構信息的詞句進行排序.該方法只依賴于句子相似度，由于存在任意句子相似性計算和迭代計算，所以會導致運行速度相對比較慢，也無法避免選出的句子之間具有極高的相似度.

TextRank算法基于PageRank.Mihalcea等人[22]介紹了通過TextRank抽取文本中重要度較高的句子形成文本摘要，主要步驟有5個：

1) 將輸入的文本分割成句子并建立有向加權圖G=(V,E)，由點集合V和邊集合E組成，其中E∈V×V.

2) 圖G中節點Vi，Vj之間邊的權重為ωji，權重的計算基于2個句子Si，Sj之間的相似度：

wk表示句子中的單詞，如果Si，Sj之間的相似度大于給定的閾值，則認為2個句子語義相關，并將其連接起來，邊的權重為

ωji=sim(Si,Sj).

3) 對頂點Vi計算得分，In(Vi)為指向該點的點集合，Out(Vi)為點Vi指向的點集合，d為阻尼系數，取值范圍為0～1，代表從圖中某一特定點指向其他任意點的概率，一般取值為0.85[23]，對圖中的節點指定任意的初值，并遞歸計算直到收斂：

4) 根據Vi的得分進行排序，抽取重要度最高的T個句子形成候選集合.

5) 根據字數或句子數量要求，從候選集合中抽取句子組成文摘.

TextRank不需要訓練數據，只利用單篇文章本身的信息即可實現自動文摘，節省大量計算資源.它屬于無監督算法，因其簡潔有效、速度快等優點而得到廣泛應用.2004年，密西根大學的Erkan等人[24]提出了一種與TextRank類似的圖排序算法LexRank用于多文檔摘要，他們認為文檔集中與很多句子相似的句子被認為是該文檔集的主題中心.與TextRank不同的是，LexRank是一個無向無權圖.首先對文檔集分句后的結果利用余弦相似度計算相似度，當2個句子之間的相似度超過給定的閾值，代表這2個句子語義相關，將它們代表的節點連接起來.每個節點的度是指與其相連的邊的數量，度越大代表該句子包含的信息越重要.為了避免將每條邊同等對待，需要考慮節點的權威性，如果一個節點的度較大，那么認為與其相連的句子相應地也比較重要.然后根據句子間的連接矩陣迭代計算句子所包含的信息量，進行排序并根據需求選擇句子組成文摘.

Leiva[25]利用TextRank算法應用在網頁的響應式文本摘要上，網頁設計人員可以在各種設備上為廣泛的用戶創建自定義閱讀解決方案.Fang等人[26]提出了CoRank的單詞-句子共同排序模型，它將單詞-句子關系與基于圖的無監督排序模型相結合.從矩陣運算的角度來看，CoRank理論上可以保證其收斂性.Parveen等人[27]針對學術論文的摘要任務提出由句子和實體節點組成的二分圖來表示輸入文檔，基于HITS圖排序算法對句子進行排名，在DUC-2002數據上取得了當時最先進的結果.

2.1.3 基于特征評分的方法

在研究的早期，大部分研究工作通過分析原文的特征來提取摘要，特征包括詞頻、首句與標題相似度，以及句子長度、句子中心性等因素，常見的評分特征見表2，通過對特征評分來判斷文本單元是否屬于摘要.這種方法簡單、速度快，但效果容易受到異常數據影響生成與主題無關的摘要，且存在內容不全面、語句冗余、不連貫等問題.Luhn[9]的工作就是使用詞頻特征來解決自動文摘任務，他認為文章的信息都應包含在句子中，該任務的目標是找出那些包含信息最多的句子來組成摘要.

Ferreira等人[28]分析了15種句子評分算法(針對詞：詞頻、TF-IDF、大寫字母、專有名次、詞共現、詞匯相似性；針對句子：提示語、包含數字的句子、句子長度、句子位置、句子中心性、句子與標題相似性；圖排序：TextRank、Bushy路徑、集合相似性)對抽取文本摘要進行定量和定性的評估.Wang等人[29]提出了9種啟發式方法(冗余句子刪除法、基于完整摘要的句子評分、基于具有不同單詞的完整摘要的句子評分、基于摘要句子的句子評分、基于具有不同單詞的摘要句子的句子評分、基于具有不同單詞的反向摘要句子的句子評分等)為抽取式摘要來構造近似理想的抽取和上界，用6種評分方法(詞頻、標題詞、句子長度、句子位置、Bushy路徑和TextRank)和5種不同的語料庫來證明所提出方法的有效性.Oliveira等人[30]分析了18種評分方法(集合相似性、Bushy路徑、提示語、詞匯相似性、命名實體、動名詞短語、數字數據、公開關系、專有名詞、句子中心性、句子長度、句子位置、句子與標題的相似性、詞頻-逆句子頻率指數、TextRank、大寫、詞共現、詞頻)和4種組合策略(平均組合、加權平均組合、基于投票的組合、Condorcet排名)對單文檔和多文檔自動摘要性能的影響，發現語料庫的特征會影響所研究的技術和組合的性能，給出了技術和方法組合等進行自動文摘句子選擇的建議.

Table 2 The Features Related of Score

2.1.4 基于序列標注的方法

對抽取式自動文摘而言，以前大多數的監督學習都將任務視為二分類問題，每個句子相互獨立，沒有利用句子之間的聯系.無監督學習使用一些啟發式的規則來提取有信息量的句子.因此結合上面2種方法的優勢，可以將自動文摘看成一個序列標注問題，如統計概率圖方法利用樸素貝葉斯(naive Bayesian, NB)、隱馬爾可夫模型(hidden Markov model, HMM)或者條件隨機場(conditional random field, CRF)來抽取文本組成摘要.該方法將自動文摘問題看作序列標注問題，原文是句子的序列，序列標注問題就是將原文序列打上0，1的標簽.標簽為1代表為文本的摘要，反之為0，該方法需要質量較高的數據，執行速度較慢.

貝葉斯網絡是使用有向圖表示變量之間的依賴關系，樸素貝葉斯是特殊的貝葉斯網絡，其假設特征之間相互獨立，這與在自動文摘任務中假設摘要的句子之間相互獨立的特點相符合[31-32].馬爾可夫模型是一種簡單的動態貝葉斯網絡，在馬爾可夫模型中狀態不可見，并且當前狀態只依賴于前一時刻的狀態，并且滿足觀測獨立性假設.HMM是對NB的改進，因為在NB中的獨立性假設不符合實際情況.在文摘摘要任務中將是否為摘要的標注視為HMM中的狀態是不可見的，觀察變量為文本的一些特征，如文本的句子、句子的位置等[33].HMM在一定程度上解決了特征獨立性的問題，但是在特征空間很大甚至特征之間有重疊的情況下，HMM的觀察獨立性條件就不再滿足；且用一個聯合隨機變量模型來解決給定觀測序列的判別問題也是不太合適的.因此提出條件隨機場來解決以上的問題.條件隨機場這里專指CRF線性鏈，在CRF中特征可隨意組合，不需要特征獨立性假設，解決了文本上下文相關的問題.CRF還是判別式模型，更適合序列標注問題.在CRF中可以使用一些簡單的特征，如單詞或者句子的位置、長度信息、和附近句子的相似程度，或一些更加復雜的特征如隱藏主題特征、句子的打分信息等[34].將CRF應用在自動文摘的任務上在各種特征和訓練數據下的實驗結果都優于上述2種結果.

2.1.5 基于分類的方法

分類方法利用SVM、貝葉斯等分類模型判斷句子是否屬于摘要，該方法的效果同樣依賴訓練數據質量和領域等情況.Louis[35]在貝葉斯驚奇(Bayesian surprise)模型的基礎上結合背景知識來形成摘要，并基于此方法在通用摘要和更新摘要任務上進行了實驗.貝葉斯驚奇由Itti等人[36]提出，用于量化在輸入新的數據(新聞報道)前后，用戶背景知識不同假設的概率分布之間的差異.在Louis等人的模型中，H是編碼背景知識的所有假設的集合空間，每個假設h∈H采用多項分布的形式表示.P(h)是基于背景語料庫中的信息計算得出的每個假設的先驗概率，符合狄利克雷分布(Dirichlet distribution).背景語料庫的詞匯量大小為V，w1,w2,…,wv表示其中的單詞,P(h)=Dir(α1,α2,…,αv)，其中αi(1≤i≤v)是狄利克雷分布的濃度參數，I表示新輸入的文檔中的文本單元，I中單詞的頻數表示為c1,c2,…,cv，則h的后驗概率為

P(h|I)=Dir(α1+c1,α2+c2,…,αV+cV)，

I在假設空間H上創建的驚奇S(I,H)表示假設的先驗分布和后驗分布之間的差異，使用KL-散度進行計算：

該算法的主要步驟為：

1) 單詞評分.為輸入的文檔中的每一種單詞類型計算1個分數.設單詞wi在輸入I中出現了ci次，則P(h|wi)=Dir(α1,α2,…,αi+ci,…,αV).wi的分數由P(h|ωi)和P(h)之間的KL-散度計算得到.

2) 句子評分.根據單詞分數的平均值和總和的組合函數為句子打分.

3) 選擇句子.利用貪心算法選擇高分句子，為避免冗余，在選擇某個句子之后，將該句子中單詞的分數設置為0，重新計算剩余句子的得分，重復上述選擇過程，直到摘要達到長度約束.

Abdi等人[37]對4種特征(信息增益、增益比、對稱不確定性、Relief-F[38])選擇技術和7種著名的分類方法(決策樹、樸素貝葉斯、支持向量機、k-最近鄰、隨機森林、邏輯回歸、人工神經網絡)進行了性能研究.其中特征選擇是減少原始特征集并移除不相關特征的過程，對于分類過程至關重要，消除不相關、噪聲、冗余、無價值的特征可以提高分類準確度并改善分類的運行時間，減小特征空間的大小，提高分類方法的質量.實驗結果表明，將基于支持向量機的情感分類方法與信息增益作為特征選擇技術相結合，在總結評論中表達的觀點時性能最好.

2.1.6 基于啟發式算法

啟發式算法是相對于最優化算法提出的基于直觀或經驗構造的算法，通常在可接受的時間和空間花費下給出待解決組合優化問題每個實例的一個可行解，該可行解與最優解的偏離程度一般不能被預計.現階段，啟發式算法以仿自然體算法為主，在自動文摘領域，主要利用遺傳算法、蟻群算法等將文本摘要問題形式化表示為優化問題，提取最優句子形成摘要.該方法運算復雜，參數設置和迭代停止條件等相當重要，但是卻只能依賴經驗調整.

Sanchez-Gomez等人[39]針對多文檔摘要任務首次設計并實現了多目標人工蜂群優化算法.該算法主要有2個流程.

1) 初始化，隨機生成種群規模為n的雇傭蜂，每個雇傭蜂代表一個從原始文檔集中隨機抽取句子形成的摘要，即一種解決方案.

2) 在設定的最大循環次數K之間重復執行以下步驟：

① 發送雇傭蜂.利用突變機制(在摘要中添加或刪除句子)形成新的摘要，如果突變后的摘要能夠支配(在改進某些目標的同時不會使其他目標惡化)原摘要，則使用突變后的摘要，否則保留原摘要.

② 利用定義的排名(rank)和擁擠度(crowding)模塊確定最佳摘要.前者根據主導關系對不同帕累托前沿(Pareto fronts)的解決方案進行排序；后者根據解決方案的擁擠距離(crowding distance)評估密度指標，傾向于更多樣化的解決方案.基于這2種操作計算每個摘要可能被選擇的概率，更好的摘要將被分配更高的概率.

③ 發送跟隨蜂.跟隨蜂根據上一步計算得出的概率選擇1只雇傭蜂，即選擇1個摘要，選擇完成后，與發送雇傭蜂階段類似，利用突變機制在新舊摘要間選擇更優的摘要.

④ 發送偵察蜂.偵察蜂驗證耗盡(在預設次數的突變之后效果沒有改進)的解決方案，并以隨機方式生成新的摘要，取代與該解決方案相關聯的雇傭蜂或跟隨蜂.同時，偵察蜂應進行一定數量的突變，從而能夠有機會與現有的解決方案競爭.突變的規模與當前的循環次數成正比，即循環次數越多，現有的解決方案應該越好，因此需要更多的突變.

⑤ 將當前的種群規模縮小至原始規模n，再次利用排名和擁擠模塊選擇最佳摘要，如果生成的摘要不符合預先設定的長度約束，則對此摘要進行修復(刪除影響摘要質量的句子)，然后進行下一次循環.

Mosa等人[40]在短文本摘要(short text summari-zation, STS)領域里，對于社交平臺上的評論提取摘要，能夠使用戶在不閱讀整個評論列表的前提下獲取評論簡報.算法以混合蟻群優化(ant colony opti-mization, ACO)為基礎，采用局部搜索機制(local search, LS)，即ACO-LS-STS，以產生最優或接近最優的摘要.首先使用圖著色算法縮小解的范圍，然后將不同的評論組合在一起標記上相同的顏色，同時保留原評論列表中信息的比例，利用ACO-LS-STS算法，以并行形式從每種顏色中提取最具交互性的評論，最后從最佳顏色中選擇最佳摘要.Peyrard等人[41]將自動金字塔(automatic pyramid)作為遺傳算法的適應度函數，提出了自動生成訓練數據的方法，并在此基礎上提出了新的監督框架，該框架學習自動評估金字塔分數，并將其應用于基于優化的多文檔摘要的提取中.Litvak等人[42]基于多種單文檔摘要方法的變體開發了多語言提取和壓縮(MUSEEC)的摘要工具，其中MUSE方法是基于遺傳算法的監督摘要生成器，該方法對文檔中的句子進行排序并提取排名靠前的句子組成摘要.

2.1.7 基于線性規劃的方法

基于線性規劃的方法將自動文摘任務看作是基于0-1二值變量的求解全局最優解的問題[43-47].整數線性規劃(integer linear programming, ILP)在計算復雜性上一般為NP-難問題，求解過程在實際應用中會表現較慢，并不適合實時性較高的應用場景，需要采用一些技巧解決這個問題.

早先，研究人員使用較為簡單的去除冗余機制最大邊緣相關法(maximal marginal relevance, MMR)[11]選擇合適的內容組成摘要，后來McDonald[46]針對多文檔摘要提出用全局最優方法替代MMR，其中一種方法是將多文檔摘要問題表示為整數線性規劃問題，采用高效的分支界定算法解決NP-難問題：

3)aij-ai≤0；

4)aij-aj≤0；

5)ai+aj-aij≤1.

其中，ai，aj和aij稱為指示變量，當文本單元i或者文本單元對i和j在摘要中時值為1.ILP的目標是通過設置這些指示變量的值，在保證解是有效的前提下滿足約束條件并最大化回報，Rel(i)是它的相關性，Red(i,j)是句子i與句子j的冗余度.約束1)表明指示變量是二值的，約束2)是摘要中句子的長度之和必須小于我們預先設定的最大值，約束3)～5)保證解是有效的，約束3)4)簡單地表明若摘要中包含文本單元對i和j，則i和j也應被單獨包含在其中，約束5)剛好與之相反.McDonald從ROUGE值和可擴展性2方面對貪心算法、整數線性規劃、基于背包問題解決方案的動態算法進行了對比，整數線性規劃的方法取得了比較高的ROUGE分數，但基于背包問題的動態規劃算法比其有更好的擴展性.

為了提升ILP的擴展性，2009年Gillick等人[47]提出了基于ILP的可擴展全局模型，它在子句(sub-sentence)或者說概念級(concept-level)上操作，假設概念是獨立的，其可以是單詞、命名實體、語法子樹、語義關系.該工作可更有效地擴展到更大的問題是因為它不需要二次變量處理冗余項，公式為：

2)sjOccij≤ai；

4)ai∈{0,1}；

5)Sj∈{0,1}.

其中，ai和Occij為指示變量，ai指示概念i是否存在于摘要中，其權重為ωi.Occij則指示概念i是否存在句子j中.約束1)保證了摘要的長度，約束2)3)確保了求解的邏輯一致性，選擇某個句子就要選擇其包含的所有概念，約束2)同時也阻止選擇概念少的句子.除此之外，Boudin等人[48]通過使用近似算法來消除NP-難問題以及由于剪枝帶來的多個最優解問題，取得了理想的效果.

2.1.8 基于次模函數的方法

隨著自動文摘技術研究的發展，研究人員根據貪心選擇目標函數都具有次模性的特點使用次模函數來處理自動文摘任務.次模函數(submodular function)具有次模性，是邊際效益遞減(property of diminishing returns)現象的形式化描述.對于一個函數f(·)來說，若A?B?V，那么對于?e∈V-B都滿足：

f(A∪{e})-f(A)≥f(B∪{e})-f(B)，

若它還滿足f(A)≥f(B)則稱它是單調函數.

Lin和Bilmes[49]是最早將次模函數引入自動文摘的研究者之一，他們提出將自動文摘定義為預算約束(budget constraint)下次模函數最大化問題，即每個文本單元都有一個預算.在此基礎上，Lin等人[50]設計了一類適用于抽取式自動文摘任務的次模函數.這些函數由2部分組成：第1部分用于鼓勵摘要包含更多的信息；第2部分用于鼓勵內容的多樣性，降低冗余度.這些函數是單調不減的，這意味一個高效可伸縮的貪婪最優化方案具有常數因子最優性保證.Wu等人[51]使用次模函數的方法解決特定領域問題，從大量有關災害管理的新聞和報告中抽取簡明扼要的摘要報告，以幫助專家分析災難的趨勢，實驗表明他們的方法是具有競爭力的.雖然將次模函數應用于自動文摘任務取得了一定的效果，但是到目前為止如何設計最適合任務模型的次模函數仍然沒有一個統一的標準.

仍有一些工作雖產生了新句子，但次模函數的作用仍然是用來做句子抽取.Chali等人[52]定義了3個單調的次模函數，即重要性、覆蓋率和非冗余度，目標函數是次模函數的線性組合，將產生摘要的過程形式化表示為在長度約束下將目標函數最大化的問題，通過次模函數對壓縮后的句子進行抽取.該方法首先對多文檔中主語相同但動詞短語不同的句子進行合并，然后通過依存樹對句子進行壓縮，生成更加簡明且信息量更大的新的摘要候選句，從該句子集合中選擇最佳句子使目標函數最大化，最后使用貪心算法獲得近似最優的摘要.Bairi等人[53]基于預先給定的層次性DAG主題結構，從中選擇規模更小但信息量更大的主題子集用于生成原始文檔集合的摘要.通過引入一系列單調的次模函數(如主題的覆蓋范圍、相似性、特異性、清晰度、相關性和一致性)衡量主題的適用性，目標函數是上述次模函數的凸組合，在預測框架下優化目標函數中各個次模函數的權重系數，最后通過貪心算法對目標函數優化，得到一組能夠對原始文檔集合進行分類概括的主題子集.

2.1.9 基于深度學習的方法

深度學習方法利用受限玻爾茲曼機(restricted Boltzmann machine， RBM)、卷積神經網絡(con-volutional neural network， CNN)、循環神經網絡(recurrent neural network， RNN)等神經網絡模型對原文建模得到文本單元表示后進行文本單元的抽取形成摘要.

Liu等人[54]基于RBM提出了面向查詢的多文檔摘要的深度學習模型.該模型分為3個部分，分別是面向觀點的提取、重構驗證和摘要生成.第1部分使用貪心的分層提取算法；第2部分最小化重構信息損失獲得全局最優參數；第3部分根據第2部分獲得的參數使用動態規劃算法獲得最后滿足長度的摘要.Cao等人[55]提出不需要手動提取特征，利用CNN對文本進行分類的方法，然后通過文檔的表示和文檔的類別來生成不同類型的摘要.Yin等人[56]先利用CNN語言模型訓練出句子的表示，然后利用PageRank算法算出句子的重要程度，迭代地選出重要的句子. Singh等人[57]提出利用同文檔內容相關無關的特征來更好地表示文檔，從而提取出信息量更大的句子.模型分為3個部分：第1部分是CSTI利用CNN來獲得句子本身的特征，利用Bi-LSTM Tree Indexer來獲取和文檔無關的句子語義和組成的特征；第2部分是Extractor，利用一些簡單的文檔相關的簡單特征(如句子的位置、在文檔中出現的頻率)來表示句子；第3部分是Regression，將前2部分的句子的表示連接并且回歸得到句子的打分. Cheng等人[58]提出一種提取式的文本自動摘要模型，模型框架分為2個大的子結構：一部分是對文檔的讀取，相當于傳統的編碼器-解碼器框架中的編碼器部分，區別在于句子級別的編碼使用卷積神經網絡；另一部分是提取器，相當于編碼器-解碼器框架中的解碼器.同時由于文本自身就是分層架構的，所以網絡也設計為分層架構，讀取器先從單詞到句子進行編碼，然后對句子到文檔進行編碼，提取器先從文檔提取合適的句子，再從句子中提取合適的單詞.Nallapati等人[59]將抽取式摘要看作是序列分類問題，采用GRU作為基本序列分類器的基本模塊，取得了比較不錯的效果.另外這篇工作基于CNNDaily Mail數據集利用無監督學習構造抽取式摘要的數據集.Chen等人[60]通過觀察人類生成摘要時對文檔閱讀及理解多遍的事實，提出了基于交互式文本摘要技術的抽取式摘要生成模型.考慮到當前摘要生成技術局限于對待生成摘要文本只處理1遍，多數文本表達無法得到全局最優的結果.針對這種情況，采用通過不斷迭代來更新相應文本及優化相應的文本表征，使用所有迭代的輸出表示來為原文中句子集合打標，抽取相關句組成摘要，取得了不錯的效果.

2.2 生成式方法

生成式方法屬于自然語言處理的文本生成領域，它產生的摘要不是來自原文中的句子拼接，而是利用生成技術通過對原文語義的理解后生成的.目前自然語言的理解和生成是比較困難和復雜的，因此生成式摘要尚需要富有建設性的創新和大量的工作來提升性能.在生成式自動文摘方法中也存在一些同抽取式方法類似的工作，例如基于線性規劃、基于圖等的方法.他們的核心思路是相同的，區別在于在生成式任務中不再是簡單的為文本單元打分、排序，而是對其進行改進更適合自動文摘生成任務.本節將具體介紹生成式自動文摘的算法.

2.2.1 基于圖的方法

Mehdad等人[61]針對基于圖排序的生成式方法提出基于圖排序算法的最佳路徑排名策略，該方法在根據查詢短語對原文進行句子抽取的基礎上，利用詞匯相似性對選擇的句子進行聚類，在每類句子集合中構造以單詞為結點的有向圖，并用有向邊連接相鄰的單詞.在摘要生成階段，從構建的單詞圖中選擇所有至少包含一個動詞的路徑，根據流暢性、查詢短語的相關性和整體內容定義排序函數來選擇最佳路徑，作為每個原始句子集合中生成的摘要句，組成最終摘要.

2.2.2 基于線性規劃的方法

Banerjee等人[62]首先從多文檔集合中識別出最重要的文檔，該文檔中的每個句子都被初始化為一個單獨的聚類，然后將其他文檔中的句子分別聚合到與其相似性最高的聚類中.在摘要生成階段，針對每個聚類生成一個單詞圖(word graph)結構，并從圖的起始結點到結束結點之間構造路徑，然后采用整數線性規劃(ILP)模型，將信息量和語言質量結合在一個優化框架中組成目標函數，同時在ILP模型中加入約束條件：確保每個聚類只生成1個句子；避免使用來自不同聚類的具有相同或相似信息的冗余句子.將上述構造的路徑表示為二元變量，其值表示該路徑是否包含在生成的摘要中，從路徑集合中選擇最佳句子來最大化目標函數，使得生成的摘要包含的信息內容最多、可讀性最強.該優化問題的解所包含的路徑集合即為原始多文檔集合的摘要.Durrett等人[63]將句子中的詞組作為基本單位對文檔進行細粒度文本單元的提取，采用整數線性規劃方法，在長度約束下，根據在訓練數據上學習的模型參數選擇文本單元使目標函數最大化，由上述文本單元組成摘要.同時，基于句法和修辭理論結構(rhetorical structure theory， RST)對句子進行壓縮，保證摘要的語法性.針對摘要中代詞指代不明的問題加入回指約束，利用加入先行詞或用指代的短語替換代詞的方法進行指代消解，保證摘要的連貫性.

2.2.3 基于語義的方法

Fig. 3 Flow chat of the proposed method by Cao et al.[70]

Liu等人[64]提出了基于語義信息生成摘要模型，如圖2所示.首次利用抽象語義表示(abstract meaning representation， AMR)將源文本解析為一組AMR圖，將圖轉換為摘要圖，然后從摘要圖生成文本.隨后，Takase等人[65]將AMR信息納入標準編碼器-解碼器以改善結果，這些方法與提取式方法相比是有競爭力的，但它們在摘要生成中仍遠未達到人類水平的質量.這些方法的問題是無法保證它們處理語言細節的程度，例如具有否定全文含義的單詞或共同引用的單詞等.Dohare等人[66]在文獻[65]的基礎上開發了基于共指消解和元節點的方法生成故事AMR，取得了優于基線的效果.

Fig. 2 The pipeline proposed by Liu et al.[64]

Li[67]提出從文本中提取語義信息來生成多文檔摘要的方法，構建基本語義單元上的語義鏈接網絡以捕獲文本的語義信息.基本語義單元是描述事件或動作的語義，摘要由語義鏈接網絡生成的句子構成.

2.2.4 基于模板的方法

基于模板的方法將原文中的關鍵內容填充到提前定義好的模板，一般來說模板是個不完整的句子.Zhou等人[68]首次使用全局選擇的標題短語填充到預先指定的標題模板中生成標題.Oya等人[69]通過調整字圖算法從人工編寫的摘要中生成模板，進而通過會議記錄自動生成摘要，他們創建了包含2個組件的框架:一個離線模板生成模塊，從人工編寫的摘要中創建模板；另一個是在線生成摘要模塊，根據主題對會議記錄分段并從中提取重要短語，填充到適當的模板中生成摘要.

此前，序列到序列的自動文摘方法只依賴原文本來產生摘要.Cao等人[70]受到基于模板的自動文摘方法的啟發，將已有摘要作為軟模板(soft templates)來指導文本摘要的生成.如圖3所示，該方法由3個模塊組成：1)Retrieve.利用常用的信息檢索平臺Lucene從訓練語料庫中找出候選模板，然后應用遞歸神經網絡(RNN)編碼器將輸入語句和每個候選模板轉換為隱藏狀態.2)Rerank.根據隱藏狀態與輸入句子的相關性來衡量一個候選模板的信息量，具有最高預測信息量的候選模板被視為實際的軟模板.3)Rewrite.根據句子和模板的隱藏狀態生成摘要.軟模板方法具有很強的競爭力，高質量外部摘要的導入提高了生成摘要的穩定性和可讀性.

由于模板是人工編寫的，因此生成的摘要通常是流暢并包含信息的.但模板的構建非常耗時，并且需要大量的領域知識，生成的語言千篇一律，顯得呆板.而且不可能為各種領域的摘要開發所有模板.目前在金融領域上應用較多，例如股票市場的報價形式較統一，對實時性要求較高，因此基于模板生成摘要是一個不錯的選擇.

2.2.5 基于深度學習的方法

近年來隨著深度學習在圖像、文本處理等領域的發展，尤其是基于深度學習的機器翻譯模型在多種語言和評價指標上超過了傳統的算法模型，因此也涌現出越來越多基于深度學習的自動文摘生成式方法[71-95]，目前最為流行的是基于序列到序列 (sequence-to-sequence, Seq2Seq)框架的模型，如圖4所示，因其可以避免繁瑣的人工特征提取，也避開了權重計算、內容選擇等模塊，只需要足夠的輸入、輸出即可開始訓練模型.相關研究者提出了許多有趣的技術來改進Seq2Seq模型，提升模型的性能.在本文中，基于深度學習的生成式方法主要關注基于Seq2Seq展開的工作，圖5展示了該框架下生成式自動文摘研究工作的經典發展歷程.

Fig. 4 Two models

Fig. 5 Classical development of abstractive summarization based on deep learning Seq2Seq model

2.2.5.1 基于RNN結構

Rush等人[71]受到神經機器翻譯(neural machine translation， NMT)[72]研究的啟發，首次提出基于注意力(attention)機制的編碼器、神經網絡語言模型(neural network language model， NNLM)解碼器的模型用于生成式摘要任務，與傳統的方法相比，性能取得了顯著的提升.隨后，Chopra等人[73]對其進行了擴展，基于循環神經網絡構造解碼器，在Gigaword數據集上效果優于其他先進的模型.之后的很多工作都以此為基線模型，Nallapati等人[74]為了解決生成式摘要容易遇到3個關鍵問題，在RNN編碼器-解碼器的架構上引入一些新技術：

1) 在編碼器加入豐富的文本特征捕獲關鍵詞；

2) 加入生成器指針來解決詞典外詞匯(out-of-vocabulary, OOV)和低頻詞的問題；

3) 利用層級注意力機制來捕獲不同級別文檔結構信息.

盡管之前的研究已經取得了不錯的結果，但Seq2Seq模型仍存在曝光偏差(exposure bias)和訓練與評估不匹配的問題，前者是說在訓練時使用Teacher-Forcing[79]的方式，即解碼端上一時刻輸入的單詞是來自訓練集的正確目標單詞，但在測試時的輸入是模型生成的單詞，這會導致誤差的積累，使得隨著序列長度的增加而生成越來越差的摘要.后者指模型在訓練階段使用交叉熵損失優化模型，評價模型時常使用不可微分的ROUGE和BLEU等指標進行評價.Paulus等人[80]首先提出使用強化學習來應對自動文摘中的這個問題，他們應用自批評(self-critical)策略梯度算法[81]訓練模型，提出了一種混合目標函數，它將強化學習損失與傳統的交叉熵損失相結合.因此，他們的方法既可以利用不可微分的評價指標，又可以提高可讀性.

Cao等人[82]為避免模型生成的摘要中存在不符事實的信息，通過使用開放的信息抽取和依存分析技術從源文中提取實際的事實描述，還提出Dual-Attention序列到序列的框架使得模型必須以原文本和提取的事實描述為條件來生成摘要.實驗結果證明他們的方法可以減少80%的虛假事實出現.Hsu等人[83]提出了一種抽取式與生成式相結合的方式，先利用抽取模塊對句子的重要程度打分，在該基礎上使用生成模塊更新對原始文章中每個單詞的注意力權值，然后逐詞生成得到該文的摘要.Zhou等人[84]在編碼器加入Selective 門控網絡，將詞的隱層狀態與句子的隱層狀態拼接到一起，輸入到前饋網絡里生成新的語義向量.Li等人[85]借鑒應用在圖像領域的VAE(variational auto-encoder)[86]，將句子潛在的結構信息融入到生成摘要模型中，進而提高模型生成摘要的質量.Jiang等人[87]認為Seq2Seq模型應具有強大的編碼器，它可以從輸入的文本中提取和記憶重要信息，他們通過增加一個不需要注意力機制和指針網絡的Closed-book解碼器來提高指針生成器模型編碼器的記憶能力.這樣的解碼器迫使編碼器在其存儲狀態下編碼的信息更具選擇性，因為解碼器不能依賴注意力和復制模塊提供的額外信息，因此改進了整個模型.Gehrmann等人[88]發現現有模型在內容選擇上表現不佳，提出通過內容選擇器來過度確定源文檔中應成為摘要一部分的短語.他們使用此選擇器作為Bottom-up attention步驟，將模型約束為可能的短語.實驗表明，這種方法提高了壓縮文本的能力，同時仍能生成流暢的摘要.Lin等人[89]針對Seq2Seq模型生成的摘要經常會存在重復或者無語義的問題，提出了基于源文本上下文的全局信息的Global Encoding框架，負責控制編碼器到解碼器的信息流.

2.2.5.2 基于其他結構

此前主流的Seq2Seq模型的編碼器和解碼器主要使用的是循環神經網絡、長短期記憶網絡(LSTM)和門控循環單元(GRU).但基于RNN結構的解碼器和編碼器因為具有順序依賴性，不可避免的問題是不能并行計算，長序列需要大量的計算資源，導致在訓練過程中訓練時間和難度會隨著序列長度的增加而不斷提升.

針對這個問題， Vaswani等人[90]提出一種新型的Seq2Seq網絡結構Transformer，只依賴前饋網絡和注意力機制實現Seq2Seq架構.該模型可以并行計算，并且在提升機器翻譯性能的同時也可加快訓練速度.Zhang等人[91]將預訓練語言模型Bert與Transformer結構相結合提出2階段解碼模型，其在CNNDaily Mail數據集上取得了領先的效果.

Gehring等人[92]則提出完全使用卷積神經網絡來構成Seq2Seq模型(ConvS2S)用于機器翻譯任務，超越了谷歌創造的基于LSTM機器翻譯的效果.除此之外，ConvS2S在自動文摘任務上也取得了不錯的效果.基于卷積神經網絡的序列到序列模型結構可以準確地控制上下文的長度，有效地處理句子的結構信息，同時可以并行計算提高效率.Fan等人[93]將ConvS2S模型進一步應用于生成式文本摘要，可以關注用戶的個人風格來生成摘要，包括摘要長度、行文風格、用詞等，并在CNNDaily Mail數據集上取得了優于指針生成網絡的結果.Wang 等人[94]提出將ConvS2S模型結合主題信息并使用強化學習優化摘要任務中的ROUGE分數，取得了理想的效果.Transformer和ConvS2S的出現為自動文摘的發展提供了新的技術路線.

我們將不同的基于深度學習的模型在各個數據集上的ROUGE分數展示在了表3和表4中.

Table 3 ROUGE Scores of Different Models on the English Dataset

Table 4 ROUGE Scores of Different Models on the Chinese Dataset LCSTS

2.3 小結

自動文摘技術的更迭經歷了起步期—探索期——發展期3個階段.起步期主要基于利用計算機自動地收集統計數據，通過特征評分的方法簡單產生摘要.該方法不能適應復雜多變的非結構化數據.因此探索期涌現出大量主題模型、線性規劃、次模函數、啟發式算法等經典算法的研究工作，這期間產生的摘要可能在某些小領域取得不錯的效果，無法廣泛使用并落地.近年來由于神經網絡的發展取得了重大進展，自動文摘的研究重點也逐漸從傳統算法轉向了深度學習的方法，進入一個高速發展期.相關研究者利用深度學習技術在抽取式方法和生成式方法上都取得了顯著的進展.在抽取式方法中，深度學習的作用主要體現在分類模型上性能的提升，盡可能使輸出結果擬合標準數據的分布.對于生成式方法來說取得了突破性的進展，改變了生成式自動文摘的研究思路，基于深度學習的生成方式模擬人類寫作的習慣，其輸出的結果包含了不存在原始文本中的表達方式.深度學習端到端的訓練方式正式使自動文摘任務向人工智能邁出了重要一步.但不可避免的是，深度學習方法同樣存在一些缺陷，如需要大量高質量標注數據、調參缺乏理論指導等問題，未來還需要研究者設計出更高效的算法來滿足大數據下的自動文摘需求.

3 自動文本摘要數據集

3.1 中文數據集

3.1.1 LCSTS

LCSTS[95]是由哈爾濱工業大學智能計算中心發布的中文短文本摘要數據集，該數據集采集于新浪微博認證用戶發布的超過200萬個中文短文.作者將整個數據集分成了3個部分，2.4×106個文本對的訓練集、1×104個文本對的驗證集和1.1×103個文本對的測試集.其中驗證集和測試集增加了摘要和原文之間的相關程度打分，分數越高代表相關程度越高，方便了研究者根據不同任務特點調整數據集的使用.

3.1.2 NLPCC

NLPCC是由CCF中文信息技術專委會組織的中文計算會議.其中一項任務為面向中文微博的新聞摘要，在官網上提供了所需的實驗數據.NLPCC-2015包含從主要新聞門戶網站收集的140篇帶標題的新聞文章，每篇文章對應2篇人工生成的標準摘要，數據集中不同樣例的原文長度之間差異較大，但提供的標準摘要的長度均不超過140個漢字.NLPCC-2017提供了包含標準摘要和不包含標準摘要的2個訓練數據集，每個數據集都包含5 000篇新聞文檔，其中包含標準摘要的數據集中每篇文檔對應1個摘要，摘要長度均不超過60個漢字.

3.1.3 搜狐新聞數據集

搜狐新聞數據集來自2012年6—7月間搜狐新聞網上國際、體育、社會、娛樂等18個頻道的新聞數據.根據不同的預處理方法，該數據集可分別用于文本分類、事件檢測跟蹤、新詞發現、命名實體識別、自動文摘等任務.該數據集包含140萬條新聞正文和新聞標題.

3.2 英文數據集

3.2.2 Gigaword

Gigaword語料數量較大，約有950萬篇新聞文章，數據集用第1句話作為輸入，用標題作為文本的摘要，也屬于單句摘要的數據集.英文Gigaword數據集最早在2003年由Graff等人[96]提出，數據是由法新社(Agence France Press)、美聯社(Associated Press)、紐約時報(The New York Times)、新華社(The Xinhua News Agency)中的英文新聞文本組成.后來Rush等人[71]在帶注解的英文Gigaword數據集進行了整理，得到了3.8×106個文本對的訓練集、1.89×105個文本對的驗證集和1951個文本對的測試集.

DUC(Document Understanding Conference)是僅供測評用的小規模數據集，在2001—2007年DUC提供了自動文摘的比賽，2008年之后更改為TAC(Text Analysis Conference).目前常用的摘要數據集是DUC-2002，DUC-2003，DUC-2004.DUC-2002 包含567篇文檔，每篇文檔有2個人工生成的100詞的摘要；DUC-2003包含624個文章-摘要對；DUC-2004包含500篇文檔，每篇新聞都有對應的4篇不同的人工生成的截取75B的參考摘要.

3.2.4 New York Times

New York Times數據集[97]是經紐約時報的文章預處理后構成，它包含了1987—2007年間數百萬篇文章，約有超過65萬篇工作人員撰寫的摘要和150萬篇人工標注的文章，并有人、組織、位置和主題等內容的歸一化索引表，可用于自動文摘、文本分類、內容提取等任務.對自動文摘任務來說，由于摘要的風格偏向于抽取式策略的結果，因此其更適合作為抽取式自動文摘的數據集.

3.2.5 Newsroom

Newsroom數據集[98]是可用于訓練和評價自動文摘系統的大型數據集，它收錄了38個主要新聞出版社人工撰寫的130萬篇文章和摘要.這些數據是從1998—2017年間的搜索和社交媒體中獲取得到，并使用了多種抽取式和生成式結合的策略進行摘要預處理，這使得Newsroom可以作為2種摘要產生方法的數據集.

3.2.6 Bytecup

Bytecup數據集由2018 Byte Cup國際機器學習競賽公布，由130萬篇新聞文章組成，其中110萬篇作為訓練集.這些文章來自一站式內容消費平臺Topbuzz，每篇文章包含文章ID、文章內容和文章標題，由于標題較短，因此該數據集更適合作為生成式自動文摘的數據集.

3.2.7 其他數據集

多年來，部分研究工作也發布了一些自動文摘數據集，其中使用較多的數據集主要包括：會議摘要數據集AMI[99]、雅思摘要數據集LELTS[100]、學術論文數據集[101]等.這些數據集的涌現對自動文摘任務的發展起到了很好的促進作用.

3.3 小結

國內自動文摘起步較晚，公開數據集匱乏.中文數據集主要有源于微博的LCSTS和源于新聞的NLPCC、搜狐新聞數據集，它們屬于標題或單句摘要，即短文本數據集.該類型數據更適用生成式自動文摘任務的評價，不適用于抽取式方法，目前學術界缺乏大規模中文長文本摘要數據集.英文自動文摘數據集因不斷有研究者貢獻新的數據集，數量和種類遠多于中文.CNNDaily Mail屬于多句子摘要數據集，Newsroom使用多種抽取式和生成式結合的摘要策略進行預處理，因此都可用于抽取式和生成式任務的評價.Gigaword和DUC屬于短文本數據集，主要適用于生成式任務的訓練和評價；Bytecup雖然原文較長但其面向的任務是標題生成，因此摘要較短更適用于生成式任務.New York Times的摘要主要使用抽取式策略產生，因此比較適合抽取式任務.此外，尚有研究工作圍繞細分場景構造了數據集，如科技、法律、醫學等領域.高質量的自動文摘數據集可有效地促進自動文摘模型性能的提升.但隨著技術的發展，在信息數據爆炸的時代我們不能過分依賴高質量的數據集，這促使科研工作者在弱監督方法上嘗試新的突破.

4 自動文本摘要評價方法

自動文摘技術在各個領域得到了廣泛的應用，模型的評價手段對提升文本摘要的研究結果具有重要意義.目前的評價方法根據是否有人工參與分為自動評價方法和人工評價方法，自動評價方法中常用的指標主要有ROUGE和METEOR.

4.1 自動評價

4.1.1 ROUGE

ROUGE是Lin[102]提出的自動文摘評價方法，被廣泛用于自動文摘模型性能的評價.其基本思想是將模型產生的系統摘要和參考摘要進行對比，通過計算它們之間重疊的基本單元數目來評價系統摘要的質量.常用評價指標為ROUGE-1，ROUGE-2，ROUGE-L等，其中1，2，L分別代表基于1元詞、2元詞和最長子字串.該方法是摘要評價系統的通用標準之一，但該方法只能評價參考摘要和系統摘要的表面信息，不涉及到語義層面的評價.計算公式為

其中n-gram表示n元詞，{Ref}表示參考摘要，Countmatch(Nn-gram)表示系統摘要和參考摘要中同時出現n-gram的個數，Count(Nn-gram)表示參考摘要中出現n-gram的個數.ROUGE還有3項評價指標：準確率P(precision)、召回率R(recall)和F值.ROUGE的公式即是由召回率的計算公式演變而來.在評價階段，研究人員常使用工具包pyrouge計算模型的ROUGE分數.

4.1.2 METEOR

Denkowski等人[103]發現評價指標中召回率的意義后提出METEOR度量方法.該方法是對BLEU[104]的改進，同時考慮了對整個語料庫上的準確率和召回率，因此可信度更高.早期經常用作機器翻譯的評價方法，后也被研究人員用作自動文摘任務的評價.METEOR基于單精度的加權調和平均數以及單字召回率，P，R分別表示系統摘要和參考摘要計算的準確率和召回率，F值計算為

為了解釋單詞順序之間的差異，使用2個摘要文本匹配的單詞總數m和連續有序的塊ch的數量來計算懲罰系數PPen：

因此，METEOR的分數是基于塊的分解匹配和表征分解匹配質量的調和平均：

MScore=(1-PPen)Fmean.

α，γ，θ是通過人工調整的參數，使其最大化與人類判斷的相關性.

4.2 人工評價

因為現階段的自動評價方法只能刻畫句子之間的表層關系，不能通過語義區分摘要的質量，因此人工評價的出現在某種程度上彌補了自動評價方法的不足.但人工評價方式受母語、教育程度等因素影響較大，略顯主觀且效率太低.根據不同的問題，人工評價的側重點也不同.通常會根據句子的可讀性、與原文的相關性、流暢度、是否滿足語法限制等屬性人為地對摘要進行打分，具體細則有：

1) 可讀性.摘要的書寫應該是流利的，拼寫應該是正確的.

2) 相關性.摘要應和原文的主題信息密切相關，不應該偏離原意.

3) 信息性.摘要應該包含原文的大部分重要信息，如果從摘要中獲得的信息很少，那么這個摘要很可能是不合格的.

4) 連貫性.摘要的邏輯和語法應該是正確的.

5) 簡潔性.摘要的長度盡可能精簡，不能為提升其他指標而過多重復，冗余信息盡可能少.

4.3 小結

由于缺乏原始文檔或文檔集合的理想參考摘要，自動文摘的性能評價一直以來是項困難的任務.理想的摘要在一定程度上是很難定義的，人類根據不同主題和角度對同一原始文檔或文檔集合可以撰寫出不同的正確摘要，然而現有數據集普遍都是單一參考摘要，缺乏準確性和多樣性.而人工評價方法受教育背景等因素影響缺乏客觀性，在對比工作中可信度較低.因此，雖然自動評價ROUGE和METEOR等基于n-gram的方法具有無法評價語義、多樣性的問題，但是其具有很高的客觀性，所以被研究者廣泛地作為評價模型性能的指標.近年來出現一些圍繞自動文摘評價方法的研究工作，但進展緩慢.缺失標準而有效的評價方法導致自動文摘的評價面臨極大挑戰，這亟待相關從業者解決.

5 自動文本摘要面臨的挑戰及其發展趨勢

目前，自動文摘技術已應用在某些特定領域.但整體來看，近年大量的工作將研究重點放在了抽取或生成的算法上，數據集與評價指標的研究工作較少.除此之外，關于自動文摘的研究工作缺乏針對性的跨越式進步，還需要突破性的創新工作提升性能才能更廣泛地適應各個場景，所以自動文摘任務的質量和性能還面臨諸多挑戰：

1) 數據集.高質量的自動文摘數據集較少，甚至中文長文本數據集缺失，限制了中文文本摘要技術的研究.

2) 評價指標.自動評價方法過于死板，人工評價方法較主觀，缺乏被學術界廣泛認可并切實可行的評價方法，這減緩了該任務的發展.

3) 語義表達.文檔的摘要應有多種表達方式，但是目前來說同一語義的不同表達、重復表達同一語義的問題還需要相應的工作來解決.

自動文摘的研究已經有近60年的歷史，由于該任務的難度導致初期的效果并不理想，隨著深度學習的快速發展才使得人們看到自動文摘廣泛應用的希望.長期看來，自動文摘的發展有6個趨勢：

1) 數據集.中文、英文和其他語言的高質量自動文摘數據集將有可能推動自動文摘任務的發展，若僅依靠人工參與構建數據集將是項耗時耗力的工作，因此如果可以通過計算機自動地構建高質量數據集將是非常有意義的.

2) 評價指標.目前有工作提出通過計算文本之間語義相似度、改進的ROUGE等對自動文摘進行評價，但尚不能有效地擴展，因此更加完善的自動文摘評價指標必然是長期研究的重點問題.

3) 方法融合.新技術的探索是永遠的話題，對傳統算法與深度學習的結合,或抽取式方法與生成式方法進一步融合將是學術界乃至工業界必然的趨勢.

4) 借助外部知識.機器效仿人類生成摘要的過程時需要背景知識的輔助(如納入背景知識庫)，對于深度學習方法來說還可用預訓練的模型為自動文摘模型提供強有力的外部知識.

5) 弱監督或無監督發展.由于缺乏高質量的自動文摘數據集，一種有效可靠的方法是通過少量的訓練數據或無訓練數據使用高效的算法處理自動文摘任務.

6) 應用場景.研究人員的重心將會慢慢從普適性的工作轉移到特定細分場景上，針對不同的子任務場景提出更加具有針對性的算法，如新聞標題、自動對聯、評論摘要、會議摘要、金融快報等.

6 總結

自動文摘技術自20世紀50年代末提出，經歷了一段緩慢的發展歷程，如今深度學習所展現的優秀表現給自動文摘的研究帶來了新的機會，使其近年來快速發展，進入高速發展期.自動文摘屬于自然語言處理領域中文本生成的范疇，其社會價值促使自動文摘在自然語言處理領域占有重要的地位.目前該技術不僅在金融、新聞、媒體等領域表現出優秀的性能，還在信息檢索、輿情分析、內容審查等方面展現出重要的作用.本文通過對眾多研究工作的回顧和分析，對自動文摘技術算法進行了分類梳理，從抽取式方法和生成式方法2個角度介紹了常見的自動文摘算法，并對與之緊密相關的數據集和評價指標進行了詳細介紹.最后本文對自動文摘面臨的挑戰和未來的發展趨勢做出了預測和展望.可以預見，隨著新技術的發展、模型性能的提升，其應用將越來越廣泛，在不遠的將來可顯著地提高人們在海量數據中的信息獲取效率，為人類的生活帶來更多便利.