魏媛媛,倪建成,高 峰,吳俊清
(曲阜師范大學 軟件學院,山東 濟寧 272000)
在當今信息爆炸的時代,人們在享受數據共享便利的同時,也被越來越多的數據困擾,如何利用計算機技術幫助用戶在最短的時間內了解最多最有用的信息成為一個研究熱點,因此自動文本摘要技術應運而生。自動文本摘要是利用計算機按照某種規則自動地將文本或文本集轉換成簡短摘要的一種信息壓縮技術。按應用技術的不同,可分為抽取式和生成式。抽取式文本摘要是利用計算機技術從原文中抽取出一些關鍵的詞或句子,根據其重要程度組合成摘要;生成式摘要技術要求計算機對文本進行理解,將原文本的語義和內容進行壓縮轉述、總結為摘要,生成的詞匯可能不屬于源文本,其生成方式更接近于人類思維。近年來,深度神經網絡在機器翻譯、圖像處理等領域不斷發展且趨于成熟,自動文本摘要技術因此得到啟發,借助于深度神經網絡的生成式文本摘要技術上取得了突破性的進展。
綜合當前研究發現抽取式摘要實現簡單、主題不易偏離、適應性廣,但其靈活性差且在語義理解方面考慮較少,無法建立文本段落中完整的語義信息。生成式文本摘要擁有更強理解和生成文本的能力,但存在信息編碼不充分、摘要生成過程缺乏關鍵信息的控制和指導、摘要偏離主題等問題。針對這一系列的問題,該文將傳統的抽取式文本摘要方法與基于深度學習的生成式文本摘要方法相結合,采用結合主題信息的方式來更好地輔助摘要的生成。本模型在哈爾濱工業大學深圳研究生院智能計算研究中心提供的大型中文短文本摘要數據集(LCSTS)[1]上進行實驗,并在Rouge標準評價體系下對模型生成的摘要進行評估,實驗結果表明本模型能夠有效地提升摘要質量。
傳統的抽取式文本摘要技術從20世紀50年代開始興起,以統計學為支撐,依靠文章中的詞頻、位置等信息生成摘要。最為經典的摘要算法有基于統計的Lead-3算法、TextRank[2]算法和Padmakumar and Saran提出的以聚類的方式完成摘要。其中聚類生成摘要的方法是以句子為單位進行編碼得到句向量,使用K均值聚類[3]與Mean-Shift聚類進行關鍵句聚類,將距離各質心最近的N個句子作為摘要。
從2013年起,基于深度神經網絡的生成式文本摘要研究興起,機器翻譯等領域的序列到序列(seq2seq)模型[4]被應用到文本摘要的研究中。最初摘要模型中的編碼解碼器均采用遞歸神經網絡(RNN)[5],并起到了一定的作用??紤]到RNN不能處理長期依賴的問題,后期摘要模型改進大都采用RNN的變體,如基于長短時記憶網絡(LSTM)或門控制循環單元(GRU)網絡的編碼器解碼器模型。
基于seq2seq模型的生成式文本摘要基本模式是先將源句子編碼成一個固定維度的向量C,然后通過解碼器逐個字符解碼生成目標句子。其中,編碼到解碼的信息是由中間語義向量C傳遞,過長的文本會導致模型編碼過程中對文章信息的記憶損失,進而無法完全地表示整個序列的信息[6],因此Rush等人[7]將注意力機制引入到文本摘要模型,對句子的不同部分賦予不同的權重來生成目標序列。引入注意力機制的編碼解碼模型,使得生成新序列的準確度提高,解碼端在生成新的目標序列時,可參照編碼階段的隱藏向量。
而后,Zhou等人[8]發現單純引入注意力機制的seq2seq摘要模型中存在生成摘要與原文本的對應關系弱、摘要偏離主題等問題。
基于上述研究,該文構建了一種結合主題信息聚類編碼的文本摘要生成模型。模型使用雙向長短時記憶(Bi-LSTM)神經網絡作為編碼器,使用常規的長短時記憶(LSTM)網絡作為解碼器,在seq2seq模型的基礎上引入主題信息對注意力機制的權重進行修正,通過對非關鍵詞進行降權來生成包含段落/文檔主題信息的語義向量表示,使生成的摘要更貼合主題。
結合主題信息聚類編碼的文本摘要生成模型包含三大部分,編碼層、解碼層與修正注意力機制層。模型主要架構及圖形說明如圖1所示。

圖1 結合主題注意力機制的編碼解碼模型
對實驗數據進行預處理,將數據預處理階段得到的數據{wi|i=1,2,…,l}使用word2vec訓練,得到其向量表示e(wi),將其作為模型輸入。
模型使用雙向長短時記憶神經網絡(bidirectional long short-term memory networks,Bi-LSTM)作為編碼器,依次從源文本接收每個單詞的嵌入表示編碼得到各時間步的隱藏層向量hi,以計算注意力矩陣Wa和上下文信息Ct。


圖2 編碼層結構

(1)
(2)
(3)
(4)
st=LSTM(e(yt-1),st-1,Ct)
(5)
當解碼出時,停止解碼。解碼層結構如圖3所示。

圖3 解碼層結構
為使生成的語義編碼Ct包含確切的主題信息,該文將主題信息引入到模型中,計算輸入層隱藏狀態向量hi的主題相關性大小。模型中注意力矩陣Wa由Bahdanua注意力[9]權重矩陣Wa'與主題權重矩陣Wa''計算得到。
2.3.1 Bahdanua注意力機制
(6)
eit=a(st-1,hi)
(7)
其中,st-1為解碼器第t-1時刻的隱藏向量,Wa為引入主題信息修正后得到的權重矩陣。
2.3.2 主題信息聚類編碼
主題注意力機制的關鍵思想是通過加強關鍵詞對生成句子、文檔表示過程的影響,來降低生成摘要偏離主題的概率。計算模型輸入與主題信息kj,j=(1,N)的相關性得到主題權重矩陣Wa'',將主題信息聯合注意力機制納入到模型中,對非關鍵信息降權,定位于主題相關的輸入,生成上下文信息Ct。
高度凝練文本的主題,快速獲取文本的核心內容,首先需要對輸入數據進行關鍵信息提取。聚類是發現數據內在關聯結構的一種技術,該文利用詞向量聚類[10]的方式,根據詞向量之間的相似度進行主題信息聚類,將文本中的詞作為一個節點,模型對輸入數據編碼后得到隱藏向量hi,使用K均值聚類計算輸入文本的質心[11],質心對應的向量為該輸入文本的主題信息。具體步驟如下:
(1)預訓練期間,利用Stanford corenlp對數據分句分詞處理,通過word2Vec得到其向量表示si=(e(wi1),e(wi2),…,e(wim)),其中m為句子中的詞語數,i為句子數i=[1,n]。
(2)實驗將單個文本D作為聚類對象,進行詞向量聚類,根據文本中詞向量之間的相似度聚為若干簇,使用K均值聚類計算輸入文本的質心??紤]到實驗數據集給定的摘要對長度大小,實驗設置主題聚類的類別N=5。將得到的質心K={k1,k2,…,k5}對應的向量為該輸入文本的主題信息,代表句子的整體表達方向。
文本向量間的相關性可通過向量夾角的余弦值表示,模型將余弦相似度[12]作為主題相關性度量方式,將輸入文本與主題信息K在詞向量空間中的余弦相似度值作為該輸入的主題相關性權重。利用余弦相似度將輸入詞的隱層向量與主題信息kj,j=[1,5]進行相似度計算,取其平均值作為該輸入詞的臨時權重,即:
(8)

(9)
(10)
模型在LCSTS數據集上進行實驗,該數據集是從新浪微博中爬取過濾得到的,已被廣泛應用于文檔摘要。數據集為人工標記過的短文本-摘要對,得分范圍為1到5,得分高低代表短文本與相應摘要之間的相關性大小。數據集可分三部分,第一部分有2 400 591對短文本-摘要數據;第二部分有10 666對,是從第一部分中隨機抽取得到的;第三部分有1 106對,這部分數據不包含在第一部分和第二部分中。
本實驗遵循Hu[1]實驗中的數據集設置,選用第一部分的數據作為訓練集,第三部分的3分以上數據作為測試集,第二部分的3分以上數據作為驗證集。
在數據預處理階段,詞之間用空格隔開,將實驗數據轉化為模型可理解的形式,并加入四種字符,其中
實驗使用ROUGE工具包進行模型評估,該方法是當前使用最廣泛的摘要評價標準??紤]到本實驗的摘要類型,選用ROUGE-N和ROUGE-L進行摘要效果評價。ROUGE-N是一種面向n元詞召回率的評價方法,是由一系列的評價方法組成,根據該文的研究內容選取其中的ROUGE-1和ROUGE-2作為評價標準。Rouge-L則考慮參考摘要與模型生成摘要的最長公共子序列的匹配度。
實驗詳情如表1所示,其中:
RNN和RNN-context是Hu等提出的基于RNN的seq2seq模型,其中RNN為未引入注意機制,使用編碼器的最后一個隱藏向量作為解碼器的輸入的seq2seq模型。RNN-context為在RNN的基礎上引入注意機制將所有的隱藏狀態相結合作為解碼器的輸入,兩組模型均采用GRU網絡。
CopyNet[14]是基于注意力具有拷貝模式的seq2seq模型,將傳統的生成模式和拷貝模式混合起來構建了新的模型。
Seq2seq+CGU是Lin等[13]提出的帶卷積門控單元(CGU)的seq2seq模型。
TICTS為文中模型,引入主題信息對編碼階段的注意力機制進行權重修正,編碼端采用Bi-LSTM網絡,解碼端采用LSTM網絡。
表1中的結果為ROUGE-1、ROUGE-2與ROUGE-L的Average-F分數,從表中可看出該模型在ROUGE評價指標上的得分均優于其他對比模型,表明引入主題注意力機制可提高文檔摘要性能,生成的摘要與參考摘要的相似程度更高。結合主題注意力機制的seq2seq模型在生成中間語義向量時對輸入數據進行主題相關性加權求和,彌補了編碼時主題信息不足的問題,實驗說明增加主題信息含量能夠有效提高摘要效果,更貼近參考摘要。

表1 實驗結果
表2為模型摘要樣例,從表中可以看出,本模型生成的摘要對原文信息進行了較為完整的關鍵信息提取,主題信息表述完整,摘要質量更高,使得摘要內容更加豐富。

表2 模型摘要樣例
通過生成式文本摘要任務的學習與研究,針對當前文本摘要生成模型中存在的上下文語義信息利用不充分、主題相關度不高等問題,將生成式文本摘要和傳統的抽取式文本摘要方法的各自優勢相結合,提出一種結合主題信息聚類編碼的文本摘要生成模型,通過融合主題信息以提高模型生成摘要的主題相關性,實驗在一定程度上優于基線模型。但模型仍存在改進空間,如在今后的工作中可采用BERT[14]對詞向量進行預訓練,增強對文本信息的編碼[15-18]利用以生成更好的摘要;解碼部分可結合拷貝機制[19]以解決摘要生成過程存在的未登錄詞問題。