一種改進的TextRank多文檔文摘自動抽取模型

2023-05-29 10:19:36曾曼玲

軟件導刊 2023年5期

王楠，曾曼玲

（1.吉林財經大學管理科學與信息工程學院；2.吉林財經大學經濟信息管理研究所，吉林長春 130117）

0 引言

當用戶通過搜索引擎查詢某個主題信息時，會有數以千計的文章涌入，導致人們無法從不同媒體的同質文章中快速甄別與提煉有價值的信息。人的精力及對信息的處理能力有限，因此，如何迅速而準確地獲取領域知識信息變得尤為重要。多文檔自動文摘抽取是利用自然語言處理技術壓縮和提煉多篇同一個主題信息的方法，這種方法不僅可以幫助人們快速理解文本中心內容，還能使人們擺脫繁雜和無用的信息，有效降低用戶的信息負載，對提高信息資源利用率有著重要的現實意義。

目前，對自動文摘的研究以英文語料庫為主，較少涉及中文文本，因此本文針對中文文本特點，基于TextRank算法構建了一個多文檔文摘自動抽取模型。為解決傳統圖模型文本語義上的不足，在對語句間的相似性進行度量時，打破以往TextRank 基于句子間共現詞頻率的方法，引入基于平滑逆頻率（Smooth Inverse Frequency，SIF）的句向量表示，計算句向量間的余弦相似度，在提高TextRank 算法邊值精確性的同時，使模型性能得到進一步提升。

1 相關研究

1.1 自動文摘提取

目前，自動文摘技術可大致分為抽取式文摘和生成式文摘兩大類。抽取式文摘模型主要包括以下4 種方法：①基于統計特征的文摘提取方法［1-2］。該類方法根據文本的統計信息特征對句子進行抽取，簡單易于實現，但是對于詞句的研究大多停留在字面，缺乏對實際語義的深層考慮；②基于圖模型的文摘提取方法。這類方法將文本表示成一個圖，在全局上確定文本單元的重要度，對詞句進行排序。例如，Mihalcea 等［3］提出的TextRank 算法將文本中的語句視為圖中的頂點，用語句間的相似度來表示無向有權邊，不斷迭代節點值直到收斂，最后選擇分數最高的N 個節點作為文摘句；③基于主題模型的文摘提取方法。該方法通過潛在語義挖掘詞句隱藏信息，例如張明慧等［4］在傳統特征組合的框架下引入隱含狄利克雷分布（Latent Dirichlet Allocation，LDA）主題特征，對句子聯合打分，最后按照句子的分值抽取文摘句；④基于神經網絡的文摘提取方法。例如，Liu［5］提出了一個簡單的BERT（Bidirectional Encoder Representation from Transformers）變體——BERT-SUM 模型，通過修改BERT 模型的輸入序列和嵌入，微調摘要層實現文摘句提取。

抽取式文摘按照原文單元進行提取，在語法上有一定保障，但也面臨著不夠連貫、靈活性差等問題。生成式文摘可以在句子中產生新的詞匯，使句子更加靈活。近年來隨著深度學習的發展，Seq2Seq 模型在生成式文摘中得到廣泛應用。例如，Rush 等［6］提出一種將神經語言模型與編碼器相結合的生成式文摘模型，其編碼中加入了Attention機制，解碼時用集束搜索來尋找概率最大的句子；王瑋［7］對深度學習模型進行研究，提出一種復合文摘模型C-R，該模型將卷積神經網絡（Convolutional Neural Network，CNN）與循環神經網絡（Recurrent Neural Network，RNN）編碼器結合生成中間向量，RNN 解碼器提取向量重要信息，以實現生成式文摘的抽取。

抽取式和生成式自動文摘技術的交叉使用已成為一種新的研究趨勢。例如，張樂等［8］對中文專利文本提出了一種STNLTP 文摘模型，其借鑒集成策略，運用3 種抽取方法對專利說明書抽取關鍵句，然后將去重的最優關鍵句送入基于Transformer 的指針生成網絡得到生成文摘；郭繼峰等［9］通過LDA 主題模型融合生成對抗網絡和指針生成網絡，對生成式文摘模型進行改進，提升了句子的可讀性和準確性。

1.2 多文檔文摘提取

多文檔自動文摘與單文檔自動文摘具有相同的特點，均需對文本特征進行分析，但二者之間還存在一些差異。與從單篇文檔中提取關鍵信息不同，多文檔文摘需從同一主題的若干文件中提取信息，因此多文檔文摘的難點在于文本之間的冗余過濾和信息之間的組織排序。自動文摘在日常生活中有著廣泛應用，如單文檔文摘在問答、會議紀要、語音播報等方面有著重要表現，而多文檔文摘可以看作單文檔文摘技術的延伸，其不僅能面向新聞查詢，還可以跟蹤熱點專題，生成事件的線索報告。

從目前研究成果來看，多文檔自動文摘技術還不夠成熟，但仍有許多學者加入到這一研究領域。例如，張波飛［10］在TextRank 算法計算圖節點的權重時加入基于LDA主題模型的主題詞概率分布，與單一算法相比準確率明顯提高；龔永罡等［11］在傳統統計特征模型的基礎上加入兩個長短期記憶網絡（Long Short-Term Memory，LSTM）計算文本相似度，并采用去除停用詞的方法改進模型以提升效率；唐曉波等［12］針對復雜長文本與多文檔文摘信息的冗余和不全面特點，提出混合機器學習模型，使用聚類方法劃分句群減低冗余度，句子重組過程采用基于改進的PageRank 算法對句子重要性打分；曾昭霖等［13］在研究面向查詢的多文檔文摘過程中提出了一種基于層級BiGRU+Attention 的模型，通過融合基于神經網絡的句子打分模型和文本表面特征對句子的重要性進行計算，最后利用最大邊緣相關（Maximal Marginal Relevance，MMR）算法選擇文摘句。

在多文檔文摘中，句子相似度的計算是其關鍵技術之一，也是最重要和最基本的步驟［14］，其在文摘句抽取時具有重要作用。例如，仇麗青等［15］利用高頻詞的作用，計算測試集合所包含詞匯的頻率，根據詞頻對句子賦予權重。采用詞頻統計確定句子之間的相似度方法，較少考慮句子中語義信息，句子間的聯系較弱，缺乏對句子的真正理解，有一定的局限性。為克服文本特征表達上的不足，吳世鑫等［16］將句子的詞匯、相對位置、長度和基于SIF 句嵌入的句間相似度4個特征引入到自動文摘模型中，構建特征加權函數進行文摘句抽取，提高了抽取的質量；羅飛雄［17］圍繞經典的TextRank 算法進行自動文摘分析時，發現傳統算法只是簡單的利用文本間的共現詞次數來度量句子相似度，諸多語義方面的重要信息被忽略。為了改進傳統的圖算法，事先訓練詞向量，然后對每個句子的詞向量求和平均，以求出相應的句子向量，并計算句子向量的相似度，此方法提高了詞向量語義上的準確度，從而提高句子的表達。但使用詞向量直接累加求平均值的方法不能很好地表示句子，其缺陷是把所有詞在傳達句子含義中的重要性同等對待；黃波等［18］將Word2Vec 融入TextRank 算法，構建高維詞庫集合R，將文本信息映射到高維詞庫中，計算句子之間的相似度，此方法改善了傳統稀疏矩陣的維數災難和傳統圖模型共同詞頻率對句子權重的影響，但削弱了共現詞的加權作用。

可以看出，目前在與自動文摘相關的句子相似度研究中大多是對句子表層特征統計分析，并且傳統圖模型只側重詞語之間的關聯，忽視了語義方面的問題，缺少對文本特征的深入研究。基于SIF 的方法在提取文本數據特征、進行跨模態相似性度量中展現出優越性［19］，因此本文在多文檔文摘研究中引入SIF 句嵌入方法，提出一種改進的基于TextRank 算法的多文檔文摘抽取模型，模型可以獲得更加精準的文本特征和更高的句子間相似度，進而提取更高質量的多文檔文摘。

2 模型構建

本文構建的多文檔文摘模型主要涉及文本預處理、文本向量化和文摘句抽取3 個方面。模型首先對多篇相同主題的新聞文本合并進行文本預處理；然后運用Word2Vec 算法在中文維基百科語料庫中訓練詞向量，在此基礎上引入SIF 算法將句子向量化，將語句特征轉化成向量之間的聯系；接著利用余弦相似度算法衡量向量之間的相似程度，以表示TextRank 關聯圖的邊值；再次，通過TextRank 算法抽取候選文摘句；最后，為了確保句子的全面性和多樣化，采用MMR 算法作冗余處理，提高最終文摘的質量。模型流程如圖1所示。

2.1 文本預處理

文摘句是由文檔中選取多個能夠概括文本主題的句子而得到的，因此根據中文的文本特點，以分隔符列表［“。”，“！”，“；”，“？”］作為句子結尾的標記，依次識別文中的分隔符，對文章語句進行分句形成句群，并且對文檔進行分詞和去停用詞操作。

2.2 文本向量化

2.2.1 基于Word2Vec的詞向量訓練

Word2Vec 是由Mikolov 等［20］提出的一種通過語境學習語義信息的神經網絡模型，其通過對海量語料庫的訓練獲得低維向量映射詞匯之間的語義關系，結構如圖2 所示。該模型只包含輸入層、映射層和輸出層，依據輸入和輸出的不同，模型框架分為連續詞袋模型（Continuous Bagof-Words，CBOW）和Skip-gram 模型兩種。CBOW 根據詞wt的上下文wt-2、wt-1、wt+1、wt+2來預測當前詞wt；而Skip-gram則是在已知詞wt的情況下對詞wt的上下文wt-2、wt-1、wt+1、wt+2進行預測。本文利用Word2vec 在中文維基百科語料庫上進行訓練得到預訓練的詞向量，便于后續句向量的生成。

Fig.1 Automatic extraction model process of multi-document summarization圖1 多文檔文摘自動抽取模型流程

Fig.2 Word2Vec model structure圖2 Word2Vec模型結構

2.2.2 基于SIF的句向量表示方法

SIF 是由Arora 等［21］提出的一種完全無監督的句向量生成方法，該算法首先對句子的詞向量加權平均，然后找出第一奇異向量，減去由詞向量組合而成的句向量矩陣的第一主向量上的投影，即去除共有部分中的詞向量，保留每個詞向量所具有的特性。每個詞的權重表示為：

式中，a為超參數，p（w）表示詞w對應的詞頻。

句子表示方法如式（2）所示，其中∣s∣為句中詞的數量，vw為詞w的詞向量。對于文本中所有句子組成的矩陣X，采用主成分分析法求出第一主成分上平均向量的投影，并采用式（3）對句向量進行修正，其中u為第一奇異向量。

本文使用上述訓練的Word2Vec 模型獲得句子中對應的詞向量，然后根據SIF 句向量生成方法，應用單句詞嵌入將包含詞向量的句子列表轉換為一組句子向量。

2.3 文摘句抽取

2.3.1 TextRank算法

TextRank 算法是一種適用于文本的圖排序方法［22］，該算法受到知名PageRank 的啟迪，用于無監督地抽取關鍵詞與文摘句。TextRank 算法與PageRank 有相似之處，其以文本中的詞句作為圖的頂點，將詞句之間的邊值作為權值，從而評估詞句的重要程度。

TextRank 算法常用帶邊權的圖G=（V，E）描述，其中V為圖的頂點集合，E為邊的集合，E為V×V的一個子集，wij為圖中兩點Vi和Vj的邊權值，對于指定點Vi，In（Vi）表示指向該點的集合，Out（Vi）為點Vi指向的集合，點Vi的計算公式為：

式中，d為阻尼系數，表示圖中任意兩點的指向概率，其取值在0～1 之間，通常取0.85。在對圖模型的每個頂點求分數時，首先要給各點賦予任意初值，然后進行迭代直至收斂，即當圖中任何一個點的誤差率低于某個極限值時達到收斂，便可得到每個節點的最終得分，極限值通常取0.000 1。

傳統TextRank 只是簡單地利用文本之間的共現詞次數來表示句子相似度。為提升模型性能，在傳統邊的權值上進行改進，本文引入SIF 句嵌入方法對句子向量化，將句子作為圖的頂點，以各語句間的相似關系作為邊，構建TextRank 模型。采用余弦相似度對句子邊值進行計算，由式（5）所示。通過迭代式（4）計算句子在圖中的最終權值，最后按得分值大小進行排序。

2.3.2 候選句群的冗余處理

在不去除冗余的情況下，得分較高的幾個句子之間的相似度也較高。MMR 算法采用關聯度與新穎度的線性結合進行度量，本文將這一原理運用到文摘句的抽取中，使所選擇的文摘句之間的相似性最小化，從而達到文摘的相關性和多樣化。該計算方法表示為：

式中，i表示候選文摘句；score（i）表示候選文摘句得分；j表示選定的文摘句；sim（i，j）表示候選語句i和所選擇文摘句j之間的相似性；λ×score（i）表示候選語句與主題內容的關聯程度，在負號右側的因式是指候選語句和所有被選中的文摘句的相似度最大值，公式中的第一個負號表示兩個句子的相似度盡可能小。score（i）為TextRank 算法之后的句子得分，在第一輪中將得分最高的句子作為被選擇的文摘句，其余句子按照式（6）計算對應的值，i從2 開始，相似度sim（i，j）仍然使用余弦相似度進行計算。在抽取時，每一輪添加一個句子，直至完成所需文摘句數量。

3 實驗分析

3.1 數據集

目前，中文多文檔自動文摘缺乏大量實驗語料用于研究，而微博的信息量非常龐大，是用戶獲取信息資訊的重要媒介，因此本文從微博中爬取了相關新聞報道，構建了中文多文檔自動文摘的實驗語料。該語料共包含30 個國內外的熱點事件，主題涵蓋時事、軍事、社會、政治、衛生及突發新聞方面，每個事件下有5～10 篇來自各大主流媒體對同一新聞的不同報道。以數據集中“巴黎圣母院遭遇火災”事件為例，分別從修復工程、安全隱患、后期處理、事故原因方面列舉其中4 家媒體對該主題事件進行的不同角度的新聞報道，如表1所示。

3.2 模型參數設置

在詞向量訓練中，Word2vec 的相關參數如表2 所示，其中size 為輸出的詞向量維度；sg 為模型框架，0 即對應CBOW 算法；min_count 表示對字典作截斷，即一個單詞在文本中的頻率低于閾值，那么這個單詞就會被刪除；windows 表示訓練窗口。在去除文摘句冗余MMR 算法中，閾值λ設置為0.8。

3.3 評價指標與結果分析

ROUGE 是由Chin-Yew Lin［23］提出的一種評估自動文摘方法，是當前衡量自動文摘生成中最普遍的一種。其將計算機自動生成的文摘與人工編寫的參考文摘進行比對，并根據它們之間的重疊基本單元（n 元語法、詞序列和詞對）數量進行統計。ROUGE 的計算為：

式中，N表示元詞的長度；分子表示抽取的文摘與參考文摘共現的n-gram數量，分母表示標準參考文摘中共包含的n-gram數量。本文以ROUGE-1、ROUGE-2、ROUGE-L 作為評價多文檔文摘模型的指標，其中ROUGE-L 是基于最長公共子串的統計。

本文實驗結果按原文檔句子15%的比例對文摘句進行抽取。為確保評價的準確性，使用多個對照組對實驗數據進行文摘句提取，比較結果如表3 所示，各模型在示例主題中所獲取的最終文摘如圖3 所示。其中TextRank 模型采用textrank4zh 庫對目標文檔抽取；Word2vec+TextRank+MMR 模型采用實驗樣本語料訓練詞向量，通過對詞向量求平均值獲得句子的向量表示，然后利用余弦相似度計算句間的相似性，使用TextRank 算法對文摘句抽取，并融合MMR 算法去除冗余。

Table 1 Example data set表1 數據集示例

Table 2 Word2vec model parameter setting表2 Word2vec模型參數設置

Table 3 Comparison of experimental results表 3 實驗結果比較

由表3 可以看出，與傳統TextRank 模型和基于實驗樣本語料的TextRank 融合模型相比，本文模型在3 個評價指標上均有所提升，這是由于本文模型是在大規模語料庫上訓練詞向量，同時引入SIF 句向量方法更好地表示向量空間中的信息，可以進一步深入挖掘文本的語義特征。而單一的TextRank 算法與小規模實驗樣本語料的Word2Vec 詞向量對文本特征提取能力非常有限。此外，本文模型考慮到多文檔文摘在語義重復上的問題，加入了MMR 算法，在保證全面性的同時降低冗余度，提高了最終文摘句的質量。

由圖3 可以看出，使用傳統TextRank 模型雖然可以很好地提煉事件主旨內容，但是模型本身側重將得分高的句子作為文摘輸出，使得最終文摘句子間具有相似性，存在語義重復問題；基于實驗樣本語料的TextRank 融合模型有效降低了語句的冗余，然而由于語料庫的局限性對句中詞訓練造成一定的影響，最終文摘達不到好的效果；本文模型所得到的文摘既含有圖3（a）中鉛污染和火災損毀信息又包括圖3（b）中健康安全隱患和修復信息，文摘內容更加完整多樣。

Fig.3 Example of summarization results from different models圖3 不同模型所得示例文摘結果

4 結語

針對文本語義上的不足，本文通過結合SIF 句嵌入方法對句子語義特征進行向量化表示，提出一種基于TextRank 改進的多文檔文摘自動抽取模型，并將其用于中文多文檔文摘的自動生成。通過與對照組的比較，驗證了所提模型的有效性。然而，該模型在抽取過程中仍然存在一些缺陷，需要進一步完善：①Word2Vec 模型對特征的提取能力有限，無法解決多義詞的問題，未來會嘗試采用更多算法進行提取效果對比，如BERT；②由于抽取式自動文摘是從原文中提取文章主題的中心句，在追求準確率的同時忽略了文摘句之間的銜接、連貫性。后續工作將重點考慮文摘句排序部分，以及最終文摘語句的連貫性和可閱讀性；③本文研究的文摘以抽取式為基礎，今后可將其與生成式文摘相結合，從而提高文摘質量，拓展文摘模型。