基于宏觀篇章結(jié)構(gòu)的科技論文摘要模型

2021-11-05 01:29:18王紅玲王中卿

計(jì)算機(jī)應(yīng)用 2021年10期

付穎，王紅玲，王中卿

（蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇蘇州 215006）

0 引言

在信息爆炸、互聯(lián)網(wǎng)技術(shù)飛速發(fā)展的今天，人們可接觸到的科技信息也是五花八門(mén)，比如科技論文、學(xué)術(shù)報(bào)告和科技書(shū)籍等。科技論文作為承載科技信息主要方式之一，伴隨著科技發(fā)展，產(chǎn)出量也日益增多。與此同時(shí)，一大批年輕的科技論文作者涌現(xiàn)出來(lái)。一部分學(xué)者在科學(xué)實(shí)驗(yàn)階段的工作非常出色，學(xué)術(shù)水平達(dá)到了國(guó)內(nèi)外研究的先進(jìn)水平。然而，由于缺乏必要的寫(xiě)作知識(shí)和經(jīng)驗(yàn)，這些學(xué)者在撰寫(xiě)論文時(shí)往往力不從心，論文存在層次不清晰、表達(dá)不到位等問(wèn)題，尤其是對(duì)科技論文摘要部分（Abstract）的撰寫(xiě)缺乏規(guī)范化表達(dá)，從而影響了讀者對(duì)論文整體內(nèi)容的快速了解、論文的被檢索率和被引頻次。為此，科技論文自動(dòng)文摘應(yīng)運(yùn)而生，以期對(duì)科技論文作者和讀者有所幫助［1］。

科技論文摘要的本質(zhì)是單文檔自動(dòng)文摘，其任務(wù)是在科技論文正文（除Abstract 以外的內(nèi)容）的基礎(chǔ)上，產(chǎn)生一篇摘要（Summary），科技論文作者可在參考此摘要的基礎(chǔ)上，修改原來(lái)的人工摘要，力求提高其獨(dú)立性和自明性，從而提升該論文的學(xué)術(shù)水平。除此之外，論文讀者以此方式來(lái)獲取論文摘要，可全面了解論文全貌。

目前，由于大多數(shù)自動(dòng)文摘研究所采用的數(shù)據(jù)集為新聞文本，如CNN/Daily Mail［2］、NLPCC 2017 Shared Task3 提供的數(shù)據(jù)集TTNews［3］等。相較于新聞文本，科技論文具有嚴(yán)謹(jǐn)?shù)钠陆Y(jié)構(gòu)。為此，除傳統(tǒng)的文本信息外，本文擬引入宏觀篇章結(jié)構(gòu)信息用于生成摘要。宏觀篇章結(jié)構(gòu)理論由Van Dijk等［4-8］提出，該理論較為系統(tǒng)地描述了微觀結(jié)構(gòu)與宏觀結(jié)構(gòu)：微觀結(jié)構(gòu)是篇章中的一個(gè)句子內(nèi)部的結(jié)構(gòu)或兩個(gè)連續(xù)的句子之間的結(jié)構(gòu)，表現(xiàn)為篇章內(nèi)部連續(xù)語(yǔ)句之間的語(yǔ)義連貫；宏觀結(jié)構(gòu)表現(xiàn)為篇章的主要思想和推進(jìn)脈絡(luò)，從宏觀上約束了篇章內(nèi)各部分之間的關(guān)聯(lián)。2017年褚曉敏等［9］在此基礎(chǔ)上進(jìn)一步分析了宏觀篇章結(jié)構(gòu)，指出宏觀篇章結(jié)構(gòu)是指更高層次的結(jié)構(gòu)，表現(xiàn)為句群、段落及章節(jié)之間的結(jié)構(gòu)，該結(jié)構(gòu)通常與篇章體裁和篇章模式緊密相關(guān)，不同體裁的展開(kāi)形式是不同的，如新聞?lì)愇谋境Ｓ谩翱偡帧苯Y(jié)構(gòu)來(lái)展開(kāi)整篇文章。對(duì)科技論文而言，它一般具有固定的章節(jié)，如圖1 所示，有“引言”“實(shí)驗(yàn)方法”“實(shí)驗(yàn)結(jié)果”以及“結(jié)束語(yǔ)”等章節(jié)，并且這些章節(jié)之間具有緊密的關(guān)聯(lián)關(guān)系。如“引言”總攝全文中間若干章節(jié)，“實(shí)驗(yàn)方法”“實(shí)驗(yàn)結(jié)果”等相對(duì)而言為較為獨(dú)立的章節(jié)；“結(jié)束語(yǔ)”對(duì)整篇科技論文進(jìn)行總結(jié)。由此可看出，科技論文擁有明顯的“總分總”的宏觀篇章結(jié)構(gòu)。

圖1 科技論文宏觀篇章結(jié)構(gòu)的示例Fig.1 Example of macro discourse structure of scientific paper

基于此，本文提出了一種基于宏觀篇章結(jié)構(gòu)的科技論文摘要模型，擬結(jié)合宏觀篇章結(jié)構(gòu)等語(yǔ)言學(xué)知識(shí)改善傳統(tǒng)自動(dòng)文摘模型過(guò)于側(cè)重學(xué)習(xí)序列化信息，缺乏結(jié)構(gòu)化信息的不足。具體來(lái)講：1）本文在編碼端提出了一個(gè)基于宏觀篇章結(jié)構(gòu)的層次編碼器，將科技論文劃分為“單詞-章節(jié)-文檔”這樣的篇章層次結(jié)構(gòu)，然后在此基礎(chǔ)上，使用圖卷積網(wǎng)絡(luò)（Graph Convolution Network，GCN）［10］去編碼科技論文章節(jié)之間的宏觀篇章結(jié)構(gòu)信息。2）本文在解碼端構(gòu)建了一個(gè)信息融合模塊，將章節(jié)層級(jí)的宏觀篇章結(jié)構(gòu)信息與單詞層級(jí)的信息在注意力機(jī)制中得以融合，旨在用章節(jié)間的宏觀篇章結(jié)構(gòu)去指導(dǎo)解碼器更有效地生成科技論文文摘。3）配備了一個(gè)注意力機(jī)制優(yōu)化單元，用以更新優(yōu)化上下文向量，從而更好地捕獲上下文信息，提高生成文摘的質(zhì)量。

1 相關(guān)工作

隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，生成式自動(dòng)文摘成為近年來(lái)的研究熱點(diǎn)之一。目前，從序列到序列（Sequence to Sequence，Seq2Seq）［11］已成為生成式自動(dòng)文摘的主流架構(gòu)。一些取得突破性進(jìn)展的研究工作大多是在此架構(gòu)的基礎(chǔ)之上展開(kāi)。2015年Rush等［12］首次提出將配備注意力機(jī)制（Attention Mechanism）的Seq2Seq 模型運(yùn)用于自動(dòng)文摘任務(wù)中，實(shí)驗(yàn)結(jié)果表明，該架構(gòu)能顯著提升模型性能；2017 年Zhou等［13］提出一種選擇門(mén)機(jī)制，旨在篩選文本中的重要信息；同年，See 等［14］提出指針生成（Pointer-Generator，PG）網(wǎng)絡(luò)機(jī)制以及覆蓋（Coverage）機(jī)制，該模型運(yùn)用復(fù)制原文本中的單詞和生成新詞的方式來(lái)解決詞表以外的單詞（Out Of Vocabulary，OOV）問(wèn)題，并且能在一定程度上去除重復(fù)詞匯。然而，上述模型雖取得了不錯(cuò)的實(shí)驗(yàn)效果，但主要關(guān)注的是文本的序列化信息，而對(duì)文本的結(jié)構(gòu)化信息學(xué)習(xí)較差。

如今，篇章結(jié)構(gòu)分析等一系列語(yǔ)言學(xué)理論和技術(shù)也日漸成熟，考慮將語(yǔ)言學(xué)領(lǐng)域的知識(shí)應(yīng)用于自動(dòng)文摘的研究方向上，這一研究思路得到了許多學(xué)者的實(shí)驗(yàn)驗(yàn)證。2018 年Cohan 等［15］提出一種分層編碼器，將篇章層次結(jié)構(gòu)應(yīng)用于科技論文中，從而使得生成的文摘內(nèi)容更具層次性。雖然該文運(yùn)用了層次結(jié)構(gòu)信息，但是并沒(méi)有對(duì)章節(jié)間的篇章結(jié)構(gòu)進(jìn)行深入探究。2019 年吳仁守等［16］提出將篇章結(jié)構(gòu)中的層次結(jié)構(gòu)運(yùn)用于中文新聞?lì)愇谋荆瑢?shí)驗(yàn)證明模型效果有明顯的提高。同樣地，該模型也構(gòu)建了分層編碼器，但是由于新聞?lì)愇谋鹃L(zhǎng)度較短，編碼器只在“字-句子”層級(jí)結(jié)構(gòu)編碼，缺少對(duì)結(jié)構(gòu)性較強(qiáng)的長(zhǎng)文本語(yǔ)料的實(shí)驗(yàn)分析。2020 年張迎等［17］利用篇章結(jié)構(gòu)分析中的主次關(guān)系提高文本摘要的質(zhì)量，但依然是停留在微觀層面上句子間關(guān)系的分析。

綜上所述，本文提出了一種基于宏觀篇章結(jié)構(gòu)的科技論文摘要模型，擬在篇章層次結(jié)構(gòu)的基礎(chǔ)上，運(yùn)用圖卷積網(wǎng)絡(luò)對(duì)科技論文章節(jié)層級(jí)“總分總”的結(jié)構(gòu)信息進(jìn)行編碼，然后借由信息融合模塊將該信息融合到單詞層級(jí)中，從而使得模型生成邏輯關(guān)系清晰、層次結(jié)構(gòu)分明的科技論文摘要。

2 基于宏觀篇章結(jié)構(gòu)的科技論文摘要模型

基于宏觀篇章結(jié)構(gòu)信息的科技論文摘要模型如圖2 所示，主要包括兩個(gè)部分：1）基于宏觀篇章結(jié)構(gòu)的層級(jí)編碼器；2）配備信息融合模塊以及注意力機(jī)制優(yōu)化單元的解碼器。

圖2 基于宏觀篇章結(jié)構(gòu)的科技論文摘要模型的整體結(jié)構(gòu)Fig.2 Overall structure of scientific paper summarization model based on macro discourse structure

在編碼端，基于宏觀篇章結(jié)構(gòu)的層級(jí)編碼器主要任務(wù)是讀取科技論文的文本；單詞層級(jí)編碼器在單詞層級(jí)建立單詞層級(jí)語(yǔ)義表示；章節(jié)層級(jí)編碼器在章節(jié)層級(jí)運(yùn)用GCN 對(duì)章節(jié)間的宏觀篇章結(jié)構(gòu)信息進(jìn)行編碼，從而建立具有圖結(jié)構(gòu)信息的章節(jié)層級(jí)語(yǔ)義表示。在解碼端，在接收到科技論文的人工摘要、來(lái)自編碼端的單詞層級(jí)語(yǔ)義信息以及章節(jié)層級(jí)語(yǔ)義信息后，信息融合模塊負(fù)責(zé)在注意力機(jī)制中使得章節(jié)層級(jí)的結(jié)構(gòu)信息有效融合于單詞層級(jí)的語(yǔ)義信息中，以此方式來(lái)指導(dǎo)解碼端生成科技論文文摘，該模塊最終會(huì)輸出注意力分布和上下文向量。而注意力機(jī)制優(yōu)化單元旨在更新優(yōu)化上下文向量，使得解碼端能更全面地捕獲上下文信息。另外，為了增強(qiáng)模型性能，本文選取配備PG 網(wǎng)絡(luò)以及Coverage 機(jī)制的解碼器（以下簡(jiǎn)稱為PG+Coverage）作為本文的基礎(chǔ)框架并將從信息融合模塊獲取的注意力分布以及從注意力機(jī)制優(yōu)化單元獲取的上下文向量輸入其中，由此，該模型可以在一定程度上改善OOV單詞和單詞重復(fù)過(guò)多的問(wèn)題。

2.1 基于宏觀篇章結(jié)構(gòu)的層級(jí)編碼器

根據(jù)科技論文的表述特點(diǎn)，科技論文的章節(jié)是一個(gè)自身可以獨(dú)立表達(dá)完整意義的篇章單元，并且章節(jié)與章節(jié)之間具有嚴(yán)謹(jǐn)?shù)倪壿嬯P(guān)系，因此從宏觀層面上來(lái)說(shuō)，為了更有效地把握科技論文篇章單元與篇章主題的關(guān)聯(lián)情況，將科技論文的篇章層次結(jié)構(gòu)劃分為“單詞-章節(jié)-文檔”是比較簡(jiǎn)單直接的方式。如圖3 所示，基于宏觀篇章結(jié)構(gòu)的層級(jí)編碼器包含有單詞層級(jí)編碼器、章節(jié)層級(jí)編碼器，從而分別編碼出單詞層級(jí)語(yǔ)義表示以及章節(jié)層級(jí)語(yǔ)義表示。考慮到單詞之間的長(zhǎng)距離依賴以及長(zhǎng)短期記憶（Long Short-Term Memory，LSTM）［18］網(wǎng)絡(luò)具有的記憶功能對(duì)序列建模具備的優(yōu)勢(shì)，而雙向長(zhǎng)短期記憶網(wǎng)絡(luò)（Bidirectional LSTM，BiLSTM）［19］相較于單向LSTM，能更好地捕獲序列的上下文信息，所以，本文將采用BiLSTM 作為輸入序列的編碼網(wǎng)絡(luò)結(jié)構(gòu)。

圖3 基于宏觀篇章結(jié)構(gòu)的層級(jí)編碼器模型Fig.3 Hierarchical encoder model based on macro discourse structure

為了方便對(duì)本文提出的模型進(jìn)行描述，首先要明確模型的任務(wù)定義。對(duì)于給定的輸入文檔D，本文將其章節(jié)序列和單詞序列分別定義為Ds=(s1，s2，…，sTs) 和Dx=(x1，x2，…，xTx)，其中Ts是章節(jié)序列的長(zhǎng)度，Tx是單詞序列長(zhǎng)度。自動(dòng)文摘的任務(wù)是，輸入文檔D，經(jīng)過(guò)科技論文自動(dòng)文摘模型生成簡(jiǎn)短的文摘序列Y=(y1，y2，…，yTy)，其中Ty為文摘序列長(zhǎng)度并且Ty

2.1.1 單詞層級(jí)編碼器

為了詳細(xì)了解章節(jié)層級(jí)編碼器的工作流程，會(huì)以章節(jié)j的單詞序列編碼為例來(lái)詳細(xì)闡述其運(yùn)行機(jī)制。首先，章節(jié)j的單詞序列經(jīng)過(guò)詞嵌入向量矩陣We得到對(duì)應(yīng)的詞嵌入向量序列其中，Tj為章節(jié)j的單詞序列長(zhǎng)度。接著，將此詞嵌入向量序列輸入到BiLSTM 中，輸出序列對(duì)應(yīng)的隱藏層狀態(tài)表示。以此方式獲得所有章節(jié)的單詞序列對(duì)應(yīng)的隱藏層狀態(tài)，將其疊加起來(lái)作為單詞層級(jí)語(yǔ)義表示，記作hw。

2.1.2 章節(jié)層級(jí)編碼器

如圖4 所示，視科技論文的文本為圖，將文本中的各個(gè)章節(jié)作為節(jié)點(diǎn)，根據(jù)章節(jié)之間的宏觀篇章結(jié)構(gòu)，在節(jié)點(diǎn)之間構(gòu)建邊，最終得到一個(gè)Ts階的鄰接矩陣。Introduction（引言）與中間若干章節(jié)存在關(guān)聯(lián)關(guān)系，而這些章節(jié)又與Conclusion（結(jié)束語(yǔ)）互相關(guān)聯(lián)，關(guān)聯(lián)置1；否則置0。除此之外，每個(gè)章節(jié)自身也有關(guān)聯(lián)關(guān)系。

圖4 宏觀篇章結(jié)構(gòu)圖的構(gòu)建及其鄰接矩陣Fig.4 Construction of macro discourse structure chart and its adjacency matrix

同樣地，以章節(jié)j為例，在2.1.1 節(jié)單詞層級(jí)編碼器得到章節(jié)j隱藏層狀態(tài)的同時(shí)，也獲取到其輸出的最后1 個(gè)時(shí)間步的隱藏層狀態(tài)表示，將其作為章節(jié)j的中間語(yǔ)義表示。計(jì)算方法如式（1）所示：

其中：BiLSTM(·)為雙向循環(huán)神經(jīng)網(wǎng)絡(luò)函數(shù)，其輸出為最后一個(gè)時(shí)間步的隱藏層狀態(tài)向量。

2.2 配備信息融合模塊以及注意力機(jī)制優(yōu)化單元的解碼器

為了使得從編碼端獲取的章節(jié)語(yǔ)義信息有效融合于單詞層級(jí)信息中，本文在注意力機(jī)制中構(gòu)建信息融合模塊，并且為了增強(qiáng)模型效果，擴(kuò)充了一個(gè)注意機(jī)制優(yōu)化單元，用以更新優(yōu)化上下文向量。此外，由于目前主流的自動(dòng)文摘生成式模型是配備注意力機(jī)制的Seq2Seq 框架；然而，該框架在處理OOV單詞過(guò)程中存在困難，而PG網(wǎng)絡(luò)模型可以通過(guò)從文本中復(fù)制單詞和生成新詞的方式有效解決這一難題，另外，Coverage 機(jī)制可以降低模型生成單詞的重合度，故而，本文采用PG+Coverage模型作為解碼器的基礎(chǔ)模型架構(gòu)。

2.2.1 信息融合模塊

考慮到本文編碼器的單詞層級(jí)過(guò)于關(guān)注文本的序列化信息，為此，構(gòu)建信息融合模塊。信息融合模塊負(fù)責(zé)將GCN 從章節(jié)層級(jí)編碼的宏觀篇章結(jié)構(gòu)信息融合于單詞層級(jí)的信息中，使得章節(jié)之間的邏輯關(guān)系可有效指導(dǎo)解碼器的生成工作。

將文本的單詞xi一個(gè)接一個(gè)地輸入到基于宏觀篇章結(jié)構(gòu)的層級(jí)編碼器中，輸出單詞層級(jí)語(yǔ)義表示hw以及章節(jié)層級(jí)語(yǔ)義表示hs，而在訓(xùn)練的每一個(gè)時(shí)間步t，解碼器都能接受到前一個(gè)時(shí)間步的人工摘要單詞的詞嵌入向量，并且同時(shí)產(chǎn)生解碼器的狀態(tài)表達(dá)st。接著，如圖5 所示，分別使單詞層級(jí)語(yǔ)義表示hw、章節(jié)層級(jí)語(yǔ)義表示hs與st進(jìn)行對(duì)齊匹配，從而得到兩者與解碼器狀態(tài)的匹配向量ew、es。便可如式（2）～式（3）計(jì)算所得：

圖5 信息融合模塊結(jié)構(gòu)Fig.5 Structure of information fusion module

其中：Wwh、Wwd、Wsh、Wsd以及bw、bs均為可訓(xùn)練參數(shù)。

在對(duì)解碼器狀態(tài)與章節(jié)信息的匹配向量es進(jìn)行歸一化后，得到基于章節(jié)層級(jí)的注意力權(quán)重γt。然后，使其與基于單詞層級(jí)的匹配向量ew通過(guò)向量相乘進(jìn)行融合，最后計(jì)算出融合后的注意力分布向量at。計(jì)算式如式（4）～（5）所示：

繼而，通過(guò)信息融合后的注意力分布at與編碼器的單詞層級(jí)隱藏層狀態(tài)hi進(jìn)行加權(quán)求和，計(jì)算出上下文向量。計(jì)算方法如式（6）所示：

2.2.2 注意力機(jī)制優(yōu)化單元

為了更為全面地捕獲上下文信息，需要利用注意力機(jī)制優(yōu)化單元對(duì)信息融合模塊得到的上下文向量h*t進(jìn)行更新優(yōu)化操作。

當(dāng)時(shí)間步為t時(shí)，將前一時(shí)間步t-1 的解碼端的輸入ut-1與解碼器的狀態(tài)表達(dá)st拼接在一起，然后，把它喂入一個(gè)線性層，得出解碼器目標(biāo)端狀態(tài)表達(dá)ot。類似地，將上下文向量h*t喂入線性層，可獲取到源端狀態(tài)表達(dá)ct。接著，通過(guò)以上內(nèi)容，計(jì)算出一個(gè)門(mén)控單元rt，用以自適應(yīng)控制更新后的上下文向量中源端內(nèi)容ct的比重，而其余部分1-rt則來(lái)自目標(biāo)端內(nèi)容ot。詳細(xì)的計(jì)算過(guò)程如式（7）～式（10）所示：

其中：Vo、Vc、Wr、Ur、Vr、bo、bc及br均為可訓(xùn)練參數(shù)。

2.2.3 訓(xùn)練與推理

通過(guò)一系列的計(jì)算推理，利用PG網(wǎng)絡(luò)機(jī)制得到時(shí)間步為t的從固定詞匯表中生成單詞的概率pg以及從文本中生成單詞的概率(1-pg)，從而算得預(yù)測(cè)單詞w的概率分布P(w)。需要注意的是單詞w來(lái)自擴(kuò)展詞匯表，即由固定詞匯表與文本中的單詞聯(lián)合而成的詞匯表。具體計(jì)算過(guò)程如式（11）～式（13）所示：

除此之外，若遇到生成重復(fù)單詞過(guò)多的情況，可考慮引入Coverage 機(jī)制。具體來(lái)說(shuō)，需先設(shè)置一個(gè)覆蓋向量mt，初始化為零向量，然后將其作為一個(gè)額外的輸入向量去改變式（2），如此可避免傳統(tǒng)的注意力機(jī)制過(guò)于關(guān)注同一位置。計(jì)算公式如式（14）～（15）所示：

其中Wm為可訓(xùn)練參數(shù)向量，并且與v等長(zhǎng)。

在模型訓(xùn)練的過(guò)程中，對(duì)于時(shí)間步t，損失函數(shù)為目標(biāo)單詞yt的負(fù)對(duì)數(shù)。另外，若添加Coverage 機(jī)制，則還應(yīng)定義覆蓋損失函數(shù)。由此得出，最終的損失函數(shù)如式（16）所示：

故而，整個(gè)生成序列的損失函數(shù)如式（17）所示：

3 實(shí)驗(yàn)結(jié)果與分析

本章將從實(shí)驗(yàn)設(shè)置、評(píng)價(jià)方法、實(shí)驗(yàn)結(jié)果分析3 個(gè)部分詳細(xì)匯報(bào)基于宏觀篇章結(jié)構(gòu)的科技論文摘要模型的實(shí)驗(yàn)過(guò)程和實(shí)驗(yàn)結(jié)果評(píng)價(jià)。

3.1 實(shí)驗(yàn)設(shè)置

首先，本文將描述實(shí)驗(yàn)的具體細(xì)節(jié)，主要包括：數(shù)據(jù)集和實(shí)驗(yàn)的超參數(shù)設(shè)置。

3.1.1 數(shù)據(jù)集

本文選用2018年Cohan等［15］的arXiv作為實(shí)驗(yàn)的數(shù)據(jù)集。arXiv 數(shù)據(jù)集是由arXiv.org 爬取而來(lái)的大量英語(yǔ)科技論文組成的數(shù)據(jù)。該數(shù)據(jù)集一共有215 000 篇包含人工摘要的科技論文，文章平均長(zhǎng)度為4 938個(gè)單詞，人工摘要平均長(zhǎng)度為220個(gè)單詞，其中，訓(xùn)練集有202 120篇論文，驗(yàn)證集和測(cè)試集均有6 440 篇。對(duì)于arXiv 數(shù)據(jù)集，用正則表達(dá)式刪去數(shù)據(jù)和表格，只保留純文本信息，并且將文章中的公式和引用符號(hào)統(tǒng)一規(guī)范化處理，對(duì)于章節(jié)信息，保留一級(jí)標(biāo)題，并識(shí)別比較常見(jiàn)的章節(jié)名（比如Conclusion、Conclusionremark、Summary 等），并且僅保留“結(jié)論”之前的章節(jié)。

3.1.2 超參數(shù)設(shè)置

本文實(shí)驗(yàn)參數(shù)設(shè)置的詳細(xì)過(guò)程如下：經(jīng)過(guò)對(duì)數(shù)據(jù)集的大量統(tǒng)計(jì)工作，發(fā)現(xiàn)科技論文的章節(jié)數(shù)目大多集中在［4，6］內(nèi)，而輸入的單詞序列過(guò)長(zhǎng)則會(huì)導(dǎo)致計(jì)算量過(guò)大、實(shí)驗(yàn)時(shí)間過(guò)長(zhǎng)，又因?yàn)楸疚膶?shí)驗(yàn)需要與前人工作（如2018 年Cohan 等［15］提出配備了分層的注意力機(jī)制的模型方法）進(jìn)行對(duì)比，所以此實(shí)驗(yàn)的參數(shù)設(shè)置與之相同，如表1 所示，每個(gè)章節(jié)的單詞個(gè)數(shù)限制到500 個(gè)，多的截取、不夠填充，章節(jié)數(shù)目為4 個(gè)，輸入的文章總單詞個(gè)數(shù)為2 000 個(gè)，生成的單詞序列最大長(zhǎng)度為210 個(gè)。為了保留合理的章節(jié)信息，需對(duì)章節(jié)部分進(jìn)行進(jìn)一步地處理，具體來(lái)講，保留的4個(gè)章節(jié)中通常含有“引言”和“結(jié)論”，若沒(méi)有這兩個(gè)章節(jié)，則選取論文的第1個(gè)和最后1個(gè)章節(jié)。對(duì)于這兩個(gè)相對(duì)重要的章節(jié)，會(huì)同時(shí)抽取章節(jié)的最后兩個(gè)句子，以防止章節(jié)尾部信息丟失，這樣的設(shè)置也符合科技論文的寫(xiě)作習(xí)慣。而詞匯表設(shè)置為50 000，是因?yàn)樵趯?shí)驗(yàn)觀察中，增大詞匯表的大小并不能有效提高實(shí)驗(yàn)性能。除此之外，通過(guò)多次實(shí)驗(yàn)嘗試，本文將批處理大小設(shè)置為16，批處理大小過(guò)大（如32），則會(huì)占用大量的硬件資源以及模型容易陷入局部最小值；批處理大小過(guò)小（如8），則會(huì)花費(fèi)較多的實(shí)驗(yàn)時(shí)間以及模型容易出現(xiàn)梯度震蕩的情況。另外，此實(shí)驗(yàn)采用PyTorch深度學(xué)習(xí)框架，在NVIDIA 1080 Ti GPU 上訓(xùn)練，并使用Adagrad 優(yōu)化器，lr=0.15。

其余的超參數(shù)設(shè)置如表1所示。

表1 實(shí)驗(yàn)參數(shù)設(shè)置Tab.1 Experimental parameter setting

3.2 實(shí)驗(yàn)評(píng)價(jià)方法

目前在文本摘要任務(wù)中最常用的評(píng)價(jià)方法是ROUGE（Recall-Oriented Understudy for Gisting Evaluation）［20］，既然科技論文摘要也是文本摘要，那這個(gè)評(píng)價(jià)方法也是適用的。

本文采用ROUGE 評(píng)價(jià)方法中的ROUGE-1、ROUGE-2 以及ROUGE-L 作為模型生成的科技論文摘要與科技論文提供的人工摘要（Abstract）進(jìn)行對(duì)比的評(píng)測(cè)標(biāo)準(zhǔn)，其中，ROUGE-N（包括ROUGE-1、ROUGE-2等）主要是通過(guò)比對(duì)人工摘要與生成摘要之間相同的n元詞的數(shù)目評(píng)測(cè)生成摘要的質(zhì)量。ROUGE?N如式（18）所示：

除此之外，ROUGE-L 中的L 指最長(zhǎng)公共子序列（Longest Common Subsequence，LCS），ROUGE-L 計(jì)算的時(shí)候使用了生成摘要和人工摘要的最長(zhǎng)公共子序列，如式（19）所示：

其中：RLCS、PLCS分別為最長(zhǎng)公共子序列的召回率和精確率。

3.3 結(jié)果分析

本節(jié)首先評(píng)估本文提出的基于宏觀篇章結(jié)構(gòu)的科技論文生成式摘要模型與其他模型的實(shí)驗(yàn)對(duì)比結(jié)果；然后再將模型中不同部分對(duì)于整體的貢獻(xiàn)進(jìn)行詳細(xì)分析；此外，還將引入人工摘要和模型加入各個(gè)組件后的生成摘要，以此進(jìn)行實(shí)例對(duì)比。

3.3.1 對(duì)照實(shí)驗(yàn)

通過(guò)完成對(duì)照實(shí)驗(yàn)，可以和以往先進(jìn)的自動(dòng)文摘模型在arXiv數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果對(duì)比如表2所示。

表2中的對(duì)照系統(tǒng)如下：

表2 對(duì)照系統(tǒng)摘要結(jié)果的ROUGE得分對(duì)比單位：%Tab.2 Comparison of ROUGE scores of control system summarization results unit：%

SumBasic［21］一種抽取式摘要模型，以單詞為單位，句子的重要性得分由該句子中所包含單詞出現(xiàn)的概率求和所得。

LSA［22］一種抽取式摘要模型，分析文檔隱含的主題，然后分析句子和主題的相關(guān)性。

LexRank［23］一種抽取式摘要模型，根據(jù)圖論的方法，通過(guò)句子間的相似度，對(duì)句子的關(guān)鍵程度打分，選取分?jǐn)?shù)較高的句子。

Seq2Seq+Attn［24］一種生成式摘要主流框架結(jié)構(gòu)，配備注意力機(jī)制的從序列到序列模型。

PG 一種生成式摘要模型，在Seq2Seq+Attn 基礎(chǔ)上，增添復(fù)制單詞和生成新單詞機(jī)制，用以解決OOV單詞問(wèn)題。

HAM（Hierarchial Attention Model）［15］一種生成式摘要模型，配備了分層的注意力機(jī)制的模型方法，具體而言，該模型利用了篇章層次結(jié)構(gòu)信息去指導(dǎo)文摘的生成。

WLI+MDSI+AOU（Word-Level Information &Macro Discourse Structure Information&Attention Optimization Unit）本文提出的模型，其將單詞層級(jí)信息與章節(jié)間宏觀篇章結(jié)構(gòu)信息融合，并添加注意力機(jī)制優(yōu)化單元的模型，它的基礎(chǔ)架構(gòu)是PG+Coverage模型。

通過(guò)對(duì)表2 的實(shí)驗(yàn)結(jié)果對(duì)比可以得出，本文提出的基于宏觀篇章結(jié)構(gòu)的科技論文模型（WLI+MDSI+AOU）在ROUGE評(píng)價(jià)指標(biāo)上有明顯的提升。與其他模型相比，WLI+MDSI+AOU比以上性能最好的HAM在ROUGE-1、ROUGE-2 以及ROUGE-L 上分別高出3.13 個(gè)百分點(diǎn)，1.50 個(gè)百分點(diǎn)和2.47個(gè)百分點(diǎn)，因此，可以得出結(jié)論：本文模型有著更好的性能，并在生成文摘的質(zhì)量方面有更高的提升。

3.3.2 模型中不同組件的性能分析

為了評(píng)價(jià)本文提出的宏觀篇章結(jié)構(gòu)對(duì)自動(dòng)文摘的有效性，實(shí)驗(yàn)分析了模型中不同組件對(duì)模型整體的貢獻(xiàn)程度。在此把整個(gè)摘要生成模型劃分為3 個(gè)模型，它們的解碼器均配備了PG+Coverage機(jī)制，下文將不再贅述。

Baseline（Word-Level Information，WLI）僅包含單詞層級(jí)信息的BiLSTM編碼器和解碼器。

WLI+MDSI（Word-Level Information &Macro Discourse Structure Information）將單詞層級(jí)信息與章節(jié)間宏觀篇章結(jié)構(gòu)信息融合的模型。

WLI+MDSI+AOU（Word-Level Information &Macro Discourse Structure Information &Attention Optimization Unit）將單詞層級(jí)信息與章節(jié)間宏觀篇章結(jié)構(gòu)信息融合，并添加注意力優(yōu)化單元的模型。

配備不同組件的模型的實(shí)驗(yàn)結(jié)果如表3 所示，通過(guò)分析表3 的實(shí)驗(yàn)結(jié)果可明顯看出，WLI+MDSI 比WLI 分別在ROUGE-1，ROUGE-2 以及ROUGE-L 上高出1.93 個(gè)百分點(diǎn)、0.52個(gè)百分點(diǎn)和2.92個(gè)百分點(diǎn)，表明融合章節(jié)間結(jié)構(gòu)信息的模型有更好的實(shí)驗(yàn)效果，宏觀篇章結(jié)構(gòu)信息能有效指導(dǎo)模型生成質(zhì)量更高、層次更清晰的科技論文摘要。WLI+MDSI+AOU 比WLI+MDSI 分別在ROUGE-1、ROUGE-2 以及ROUGEL 上分別高出1.60 個(gè)百分點(diǎn)、0.63 個(gè)百分點(diǎn)和1.37 個(gè)百分點(diǎn)，這充分說(shuō)明擴(kuò)充注意力機(jī)制優(yōu)化單元比傳統(tǒng)的注意力機(jī)制能更好地捕獲上下文內(nèi)容，從而改善文摘的生成質(zhì)量。最終從整體上看，本文提出的WLI+MDSI+AOU 比WLI 分別在ROUGE-1、ROUGE-2 以及ROUGE-L 上高出3.53 個(gè)百分點(diǎn)、1.15 個(gè)百分點(diǎn)和4.29 個(gè)百分點(diǎn)，由此，可證明WLI+MDSI+AOU 在模型性能上有較為顯著的提升，也證明了本文所提供的模型方法是可行的。

表3 配備不同組件的模型摘要結(jié)果的ROUGE得分對(duì)比單位：%Tab.3 Comparison of ROUGE scores of model summarization results with different components unit：%

為了更進(jìn)一步對(duì)模型中的不同組件進(jìn)行分析，本文引入了配備不同組件的模型生成的摘要內(nèi)容，并使其與人工摘要進(jìn)行詳細(xì)對(duì)比。人工摘要及不同模型生成的摘要內(nèi)容如下：

Abstract：①cavity quantum electrodynamic schemes for quantum gates are amongst the earliest quantum computing proposals .despite continued progress and the recent demonstration of photon blockade，there are still issues with optimal coupling and gate operation involving high-quality cavities.| ②here we show that dynamic cavity control allows for scalable cavity-qed based quantum gates using the full cavity bandwidth.| ③this technique allows an order of magnitude increase in operating speed，and two orders reduction in cavity，over passive systems，| ④our method exploits stark shift based switching，| ⑤and is ideally suited to solid-state integrated optical approaches to quantum computing.

注釋：①介紹腔量子電動(dòng)力學(xué)量子門(mén)方案及存在的問(wèn)題②運(yùn)用...控制...帶寬...方法③該方法提高了...，減少了...④該方法用了...基于交換的位移...的技術(shù)⑤該方法非常適合...

WLI：that photon show that demonstrated of notable denote atoms in storage cavity here a the quantum of atom（qed is）with leakage，and and-elicit cavity network from mode over passive systems.cavity quantum schemes are the earliest.the approaches and scalable techniques have as missing modest in the gates-by photon .it suit the approaches for solid to compute quantum that spectrum to within of the target qubit with denote that cavity-assisted via of being explored atoms quantum electrodynamics that fig zero and the cavity-assisted via，the populated with photonic the cavity and minimal dissipation .the issues are quality cavities and coupling.

注釋加粗部分談及“腔量子方案是最早的”“存在...問(wèn)題”與①對(duì)應(yīng)，“適用于...”與⑤對(duì)應(yīng)，其他內(nèi)容大多涉及該技術(shù)的具體實(shí)現(xiàn)過(guò)程，有一處單詞重復(fù)（較為片面、層次性較差、單詞重復(fù)度較低）。

WLI+MDSI：that photon can be in cavity loss and constitute quantum stark existing confinement high coupling photon cavity.cavity quantum increase order in operating speed of magnitude .that spectrum is surprisingly to coherent of electrodynamics systems of the storage.quantum gates suit solid on computing.we denote that quantum gates allows for the control of cavity bandwidth quantum integrated diamond of these to binding experimental target topological storage frequency.cavity inducing integral target operator fidelity the magnitude implementation，and the approaches exploit shift on switching.

注釋加粗部分談及“該技術(shù)增加...”與③對(duì)應(yīng)，“適合于...計(jì)算”與⑤對(duì)應(yīng)，“表明可控制帶寬”與②對(duì)應(yīng)，“該技術(shù)利用...”與④對(duì)應(yīng)，幾乎沒(méi)有單詞重復(fù)（涉及的層面較多、層次性有所提高、單詞重復(fù)度較低）。

WLI+MDSI+AOU：that photon in simulate the formation of computing proposals at the zeros of a complex quantum stark field with a power spectrum，there are issues with optimal quality cavities and cavity quantum gate and the schemes of quantum are computing proposals.that quantum show that cavity gates control allows for bandwidth in the orders.this approach can be increasing of operating speed on computing in systems，we illustrate the electrodynamic schemes by considering the distributions of quantum gate-blockade observables .the method show that it suits solid on cavity quantum computing，and cavity quantum uses the way of shift on switching.

注釋加粗部分談及“存在...問(wèn)題”與①對(duì)應(yīng)，“控制帶寬”與②對(duì)應(yīng)，“該方法增加...”與③對(duì)應(yīng)，“該方法適用于...”與⑤對(duì)應(yīng)，“該技術(shù)利用...”與④對(duì)應(yīng)，幾乎沒(méi)有單詞重復(fù)（涉及的層面較全面、表達(dá)較連貫、層次性較強(qiáng)、單詞重復(fù)度較低）。

經(jīng)過(guò)多次的對(duì)比，發(fā)現(xiàn)WLI 生成的文摘內(nèi)容大多集中于介紹科技論文的研究背景以及研究目的等方面，幾乎沒(méi)有或者較少涉及該論文的研究方法和研究結(jié)論等方面，而WLI+MDSI生成的文摘內(nèi)容除了涉及研究背景外，也簡(jiǎn)單概括了該論文的研究方法，此外，WLI+MDSI+AOU 生成的文摘內(nèi)容則很好地兼顧到了科技論文的多個(gè)論述層面。最終，可以得到以下結(jié)論：由于WLI使用Coverage 機(jī)制，所以WLI單詞重復(fù)度較低，但是模型生成的內(nèi)容涉及層面較為單一，并且表達(dá)較不連貫。與WLI 對(duì)比，WLI+MDSI 生成文摘所涉及的層面有明顯的增加，這表明基于圖模型的宏觀篇章結(jié)構(gòu)信息能有效改善模型生成內(nèi)容的層次性。與WLI+MDSI 對(duì)比，WLI+MDSI+AOU 生成文摘內(nèi)容的層次性又有了進(jìn)一步的提高，表達(dá)能力略有提升，這表明注意力優(yōu)化單元能夠較為全面地捕獲上下文信息，從而提高模型生成內(nèi)容的質(zhì)量。

由上述分析可得出，本文提出的實(shí)驗(yàn)?zāi)Ｐ湍苊黠@提高生成文摘內(nèi)容的結(jié)構(gòu)層次性，降低單詞重復(fù)度以及提升內(nèi)容表達(dá)的連貫性。

4 結(jié)語(yǔ)

作為自動(dòng)文摘的一個(gè)重要研究領(lǐng)域，科技論文自動(dòng)文摘在近幾年得到了飛速的發(fā)展。本文提出了一種基于宏觀篇章結(jié)構(gòu)的科技論文自動(dòng)文摘模型，構(gòu)建了一個(gè)基于宏觀篇章結(jié)構(gòu)的層級(jí)編碼器，旨在以圖的方法增強(qiáng)章節(jié)的語(yǔ)義表達(dá)以及加強(qiáng)章節(jié)間的邏輯關(guān)聯(lián)性；在解碼端添加信息融合模塊，使得章節(jié)間的宏觀篇章結(jié)構(gòu)信息融合于單詞層級(jí)的線性信息中，使模型在獲取文本序列化信息的同時(shí)，也能關(guān)注到文本的結(jié)構(gòu)信息。除此之外，在解碼端擴(kuò)充注意力機(jī)制優(yōu)化單元，用以更全面地捕獲上下文信息。實(shí)驗(yàn)結(jié)果表明，該方法在ROUGE的評(píng)測(cè)指標(biāo)上有較為明顯的提升。在將來(lái)的工作方面，我們將著重考慮更加詳細(xì)的篇章結(jié)構(gòu)信息和外部文檔對(duì)科技論文的關(guān)聯(lián)結(jié)構(gòu)，以期改善科技論文摘要的生成質(zhì)量。