999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于指針網(wǎng)絡(luò)生成抽象式新聞?wù)?/h1>
2020-06-16 10:40:58黃繼風(fēng)宋俊典陳海光
關(guān)鍵詞:機(jī)制文本實(shí)驗(yàn)

郭 倩 黃繼風(fēng) 宋俊典 陳海光

1(上海軟中信息技術(shù)有限公司 上海 200030)

2(上海師范大學(xué)信息與機(jī)電工程學(xué)院 上海 200030)

0 引 言

自動(dòng)文本摘要技術(shù)是自然語(yǔ)言處理的一項(xiàng)重要分支和基礎(chǔ)性研究工作,隨著文本信息的爆發(fā)式增長(zhǎng),從大量文本信息中提取關(guān)鍵信息成為業(yè)界發(fā)展的迫切需求,自動(dòng)文本摘要技術(shù)的研究對(duì)于緩解這項(xiàng)需求有著重要意義。目前,自動(dòng)文本摘要技術(shù)分為兩大類(lèi),抽取式文本摘要和抽象式文本摘要。抽取式文本摘要是指根據(jù)詞頻排序算法,利用統(tǒng)計(jì)學(xué)算法從原文本中直接抽取排名靠前的句子,這種方法簡(jiǎn)單易實(shí)現(xiàn)且生成的摘要基本符合語(yǔ)法結(jié)構(gòu),是目前用的比較多的方法。抽取式文本摘要主要的研究工作有2017年翟飛飛等[2]提出的基于神經(jīng)網(wǎng)絡(luò)的抽取式網(wǎng)絡(luò)模型。

抽象式文本摘要的研究現(xiàn)狀并不是很成熟。隨著近幾年深度學(xué)習(xí)理論算法的應(yīng)用及開(kāi)發(fā)框架的不斷成熟,抽象式文本摘要的研究也取得了很大的進(jìn)步。2015年Rush等[4]首次采用神經(jīng)網(wǎng)絡(luò)模型生成抽象式文本摘要。2016年Nallapati等[5]又提出了新的編碼器解碼器結(jié)構(gòu),編碼器采用卷積神經(jīng)網(wǎng)絡(luò),解碼器采用循環(huán)神經(jīng)網(wǎng)絡(luò)(CNN-RNN)模型結(jié)構(gòu)。2017年P(guān)aulus等[6]首次提出基于RNN生成抽象式文本摘要。

本實(shí)驗(yàn)在加入注意力機(jī)制的編碼器解碼器模型的基礎(chǔ)上,引入了指針網(wǎng)絡(luò)來(lái)緩解生成的摘要不符合原文的現(xiàn)象。并且利用加入注意力機(jī)制的編碼器解碼器模型生成新詞,達(dá)到生成抽象新聞?wù)哪康摹@弥羔樉W(wǎng)絡(luò)從原文中取詞,使得生成的摘要更準(zhǔn)確,能夠更好地符合原文意思。采用指針網(wǎng)絡(luò)生成抽象式文本摘要的工作流程主要包括數(shù)據(jù)集的獲取及預(yù)處理、網(wǎng)絡(luò)模型的搭建、模型的優(yōu)化調(diào)參、實(shí)驗(yàn)結(jié)果的評(píng)測(cè)等。

1 實(shí)驗(yàn)前期準(zhǔn)備

實(shí)驗(yàn)開(kāi)始前需要對(duì)實(shí)驗(yàn)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理階段是整個(gè)實(shí)驗(yàn)的開(kāi)始,也是非常關(guān)鍵的一步,因?yàn)楦蓛舻臄?shù)據(jù)集對(duì)于實(shí)驗(yàn)結(jié)果的影響至關(guān)重要,本實(shí)驗(yàn)采用搜狐語(yǔ)料庫(kù)作為數(shù)據(jù)集,對(duì)網(wǎng)絡(luò)模型進(jìn)行驗(yàn)證。整個(gè)實(shí)驗(yàn)的流程如圖1所示。

圖1 生成新聞?wù)墓ぷ髁鞒?/p>

實(shí)驗(yàn)所用的開(kāi)發(fā)環(huán)境為L(zhǎng)inux操作系統(tǒng),開(kāi)發(fā)語(yǔ)言為Python 2.7,開(kāi)發(fā)框架為T(mén)ensorFlow 1.0,開(kāi)發(fā)工具為Pycharm 2017.1與Sublime組合,需要安裝Pyrouge評(píng)測(cè)工具及NumPy庫(kù),整個(gè)模型訓(xùn)練在HP Z440工作站上進(jìn)行。

1.1 新聞?wù)Z料庫(kù)的獲取

實(shí)驗(yàn)語(yǔ)料庫(kù)是從搜狐官網(wǎng)下載的完整版的zip格式的壓縮文件,大小為648 MB。其中包含2012年6月至7月期間國(guó)內(nèi)、國(guó)際、體育、社會(huì)、娛樂(lè)等18個(gè)頻道的新聞數(shù)據(jù),下載的數(shù)據(jù)包括URL、新聞標(biāo)題和正文信息。

1.2 數(shù)據(jù)清洗

具體數(shù)據(jù)清洗的步驟如下:

(1) 把搜狐語(yǔ)料庫(kù)采轉(zhuǎn)換成UTF-8編碼,再去標(biāo)簽提取所需要的正文及摘要部分,然后把語(yǔ)料轉(zhuǎn)換成文本文件。由于轉(zhuǎn)換后的一個(gè)文本文件比較大,不易于進(jìn)一步的處理,再把文本文件切分成若干個(gè)比較小的文本文件。

(2) 利用停用詞表對(duì)文本語(yǔ)料去除停用詞,再利用中文分詞系統(tǒng)ICTCLAS進(jìn)行中文分詞。對(duì)文本語(yǔ)料進(jìn)行標(biāo)準(zhǔn)化處理,去除空行空白字符。

(3) 為了使文本語(yǔ)料便于進(jìn)一步的處理,對(duì)文本語(yǔ)料進(jìn)行進(jìn)一步的切分,使得最終的語(yǔ)料庫(kù)轉(zhuǎn)換成一條新聞內(nèi)容對(duì)應(yīng)一條摘要的格式,最終,文本語(yǔ)料共包含近130萬(wàn)條文本語(yǔ)料對(duì),文本格式如表1所示。

表1 數(shù)據(jù)集清洗后最終文本格式

1.3 生成文本詞典

經(jīng)過(guò)數(shù)據(jù)清洗后的新聞?wù)獙?duì)一共有近130萬(wàn)條,把近130萬(wàn)條的新聞?wù)獙?duì)切分成單個(gè)文本文件,每個(gè)文本文件對(duì)應(yīng)一對(duì)新聞?wù)獙?duì),一共就生成近130萬(wàn)個(gè)文本文件。用這近130萬(wàn)個(gè)文本文件生成對(duì)應(yīng)的詞典,步驟如下:

(1) 生成130萬(wàn)個(gè)數(shù)字的列表,把列表分成對(duì)應(yīng)的訓(xùn)練集、驗(yàn)證集、測(cè)試集三張所對(duì)應(yīng)的數(shù)字列表,比例為32∶1∶1,這樣有助于模型的訓(xùn)練。

(2) 把文本文件對(duì)應(yīng)成訓(xùn)練集、驗(yàn)證集、測(cè)試集,然后轉(zhuǎn)換為bin文件。在文本數(shù)據(jù)訓(xùn)練集上生成詞典,為了讓詞典覆蓋到所有的文本數(shù)據(jù),規(guī)定詞典大小為50 000個(gè)單詞。詞典生成以后,訓(xùn)練集、驗(yàn)證集、測(cè)試集已經(jīng)對(duì)應(yīng)生成,下一步開(kāi)始訓(xùn)練模型。

2 指針網(wǎng)絡(luò)模型的構(gòu)建

2.1 加入注意力機(jī)制的編碼器解碼器模型

引入注意力機(jī)制的編碼器解碼器模型,使得解碼器預(yù)測(cè)序列的時(shí)候可以更多地關(guān)注輸入到隱藏層的信息,這樣解碼器生成的預(yù)測(cè)序列就會(huì)更準(zhǔn)確。

在編碼器解碼器模型中,編碼器會(huì)將完整句子的輸入整合到一個(gè)固定維度的向量中,再把這個(gè)向量輸入到解碼器中,解碼器就會(huì)根據(jù)這個(gè)向量預(yù)測(cè)輸出的句子。但是,當(dāng)輸入的句子比較長(zhǎng)時(shí),這個(gè)固定維度的中間向量難以存儲(chǔ)足夠的信息,這就成為基本的編碼器解碼器模型的瓶頸。針對(duì)這個(gè)問(wèn)題,Bahdanau等[7]2015年首次提出了注意力機(jī)制(Attention)模型。注意力機(jī)制允許解碼器隨時(shí)查看編碼器中輸入句子的單詞或片段,這樣就不再需要中間向量存儲(chǔ)所有的信息。

解碼器在解碼的每一步將隱藏狀態(tài)作為查詢(xún)的輸入,輸入到編碼器來(lái)查詢(xún)編碼器的隱藏狀態(tài),在每個(gè)輸入的位置計(jì)算一個(gè)與查詢(xún)相關(guān)程度的權(quán)重,再根據(jù)這個(gè)權(quán)重對(duì)每個(gè)輸入位置的隱藏狀態(tài)求加權(quán)平均,加權(quán)平均后得到的向量稱(chēng)為語(yǔ)境向量,表示它與當(dāng)前輸出的單詞最相關(guān)的原文信息。在解碼下一個(gè)單詞時(shí),將語(yǔ)境向量作為附加的信息輸入到解碼器的循環(huán)神經(jīng)網(wǎng)絡(luò)中,這樣解碼器就可以隨時(shí)讀取到與當(dāng)前輸出最相關(guān)的原文信息,而不必完全依賴(lài)于上一時(shí)刻的隱藏狀態(tài)。

注意力機(jī)制的數(shù)學(xué)定義來(lái)自文獻(xiàn)[7]中的計(jì)算公式:

(1)

(2)

at=softmax(et)

(3)

(4)

2.2 構(gòu)建指針混合網(wǎng)絡(luò)模型

基本的編碼器解碼器模型具有生成抽象詞語(yǔ)的能力,而指針網(wǎng)絡(luò)可以從原文中取詞[8],與基本的編碼器解碼器模型的區(qū)別是指針網(wǎng)絡(luò)不會(huì)把一個(gè)序列轉(zhuǎn)換成另一個(gè)序列,而是產(chǎn)生一系列指向輸入序列元素的指針。網(wǎng)絡(luò)結(jié)構(gòu)源于注意力機(jī)制,不考慮輸入元素,生成一個(gè)指向輸入元素的概率,實(shí)際上得到的是輸入信息。指針網(wǎng)絡(luò)混合模型建模過(guò)程中所用到的參數(shù)符號(hào)說(shuō)明見(jiàn)表2。

表2 符號(hào)說(shuō)明

(5)

(6)

圖2 指針網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖

通過(guò)引入指針網(wǎng)絡(luò)的編碼器解碼器模型生成抽象式新聞?wù)0盐谋据斎氲骄幋a器中訓(xùn)練成詞向量,再通過(guò)解碼器接收詞向量,解碼器t時(shí)刻的輸入包括t-1時(shí)刻解碼器的輸出摘要和編碼器輸出的詞向量。引入指針網(wǎng)絡(luò)從原文中取詞使生成的新聞?wù)鼫?zhǔn)確。解碼器的輸出采用集束搜索算法(beam search),beam的大小為4。

2.2.1實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)環(huán)境為L(zhǎng)inux開(kāi)發(fā)環(huán)境,硬件環(huán)境為HP Z440工作站,內(nèi)存為16 GB,顯卡為GTX1080Ti,顯存為11 GB。開(kāi)發(fā)語(yǔ)言為Python2.7,模型的搭建采用深度學(xué)習(xí)框架TensorFlow1.0。

訓(xùn)練語(yǔ)料庫(kù)采用中文搜狐新聞?wù)Z料庫(kù),總共有130萬(wàn)條新聞文本摘要對(duì),把數(shù)據(jù)集劃分為訓(xùn)練集,驗(yàn)證集和測(cè)試集,比例為32∶1∶1。這樣有助于模型的訓(xùn)練。其中在驗(yàn)證集上調(diào)整參數(shù),測(cè)試集上進(jìn)行測(cè)試評(píng)分。

2.2.2實(shí)驗(yàn)過(guò)程

(1) 實(shí)驗(yàn)準(zhǔn)備。把下載好的搜狐數(shù)據(jù)集轉(zhuǎn)換成文本文件,去除停用詞,再去除空行、空白字符等。停用詞表如表3所示。再用中文分詞系統(tǒng)ICTCLAS進(jìn)行分詞處理。把分好詞的文本切分成130萬(wàn)個(gè)單個(gè)的文本新聞?wù)獙?duì)。把新聞?wù)獙?duì)轉(zhuǎn)換成bin文件,包括訓(xùn)練集、驗(yàn)證集、測(cè)試集,生成詞典的大小為50 000個(gè)單詞。

表3 停用詞表

(2) 模型搭建。基本的網(wǎng)絡(luò)模型為加入注意力機(jī)制的編碼器解碼器模型,其中編碼器的網(wǎng)絡(luò)結(jié)構(gòu)為單層雙向的LSTM網(wǎng)絡(luò),解碼器的網(wǎng)絡(luò)結(jié)構(gòu)選擇單層單向的LSTM網(wǎng)絡(luò)模型。將每條文本的詞條wi逐個(gè)輸入到編碼器中,編碼器的隱藏層輸出序列記為hi。在訓(xùn)練階段,解碼器t時(shí)刻的輸入為t-1時(shí)刻參考摘要的詞向量。在測(cè)試階段,解碼器t時(shí)刻的輸入為t-1時(shí)刻解碼器輸出單詞的詞向量。并且隱藏層的輸出狀態(tài)為st。注意力機(jī)制[23]的計(jì)算公式為:

(7)

(8)

式中:v、Wh、Ws和battn是模型通過(guò)學(xué)習(xí)獲得的參數(shù)。注意力機(jī)制可以被看作是在原文本上的概率分布,并且能夠告知解碼器在預(yù)測(cè)下一個(gè)單詞的時(shí)候更關(guān)注輸入到編碼器中的哪個(gè)單詞。Softmax函數(shù)可以看作詞典上的概率分布,假設(shè)詞典的大小為k,{wi|i=1,2,…,k},則Softmax函數(shù)可表示為:

(9)

注意力機(jī)制分布的計(jì)算用于和編碼器隱藏狀態(tài)乘積求和,求得的權(quán)重之和稱(chēng)為語(yǔ)境向量,計(jì)算公式為:

(10)

語(yǔ)境向量可以被看作當(dāng)前步從編碼器讀取到的原文信息,與解碼器的隱藏狀態(tài)st一起經(jīng)過(guò)兩個(gè)全連接層生成詞典上的概率分布Pvocab,其計(jì)算公式為:

(11)

P(w)=Pvocab(w)

(12)

式中:V′、V、b和b′是通過(guò)學(xué)習(xí)獲得的參數(shù);Pvocab是在整個(gè)詞典上的概率分布。損失函數(shù)采用交叉熵函數(shù)。t時(shí)刻計(jì)算公式為:

(13)

整個(gè)序列上的損失函數(shù)計(jì)算公式為:

(14)

根據(jù)反向傳播算法,需要求出損失函數(shù)的梯度,具體步驟如下:

① 設(shè)t時(shí)刻解碼器的輸出為zi,損失函數(shù)為l。所求的目標(biāo)函數(shù)為:

② 求出:

當(dāng)i=j時(shí):

當(dāng)i≠j時(shí):

-P(wi)P(wj)

④ 綜合計(jì)算得到:

反向傳播的過(guò)程中網(wǎng)絡(luò)模型根據(jù)梯度函數(shù)的變化會(huì)不斷更新參數(shù)。

(3) 引入指針網(wǎng)絡(luò)。指針網(wǎng)絡(luò)[8]是在注意力機(jī)制模型上新的應(yīng)用。注意力機(jī)制作用在編碼器上,通過(guò)解碼器的隱藏狀態(tài)與編碼器的隱藏狀態(tài)構(gòu)建語(yǔ)境向量來(lái)向解碼器傳輸輸入到編碼器的信息。在指針網(wǎng)絡(luò)中,通過(guò)注意力機(jī)制直接生成概率指向編碼器的輸入信息來(lái)選擇輸入到編碼器的信息。計(jì)算公式為:

(15)

p(Ci|C1,C2,…,Ci-1,P)=softmax(ui)

(16)

式中:vT、W1、W2為模型訓(xùn)練獲得的參數(shù)。

在基本的編碼器解碼器模型中引入指針網(wǎng)絡(luò),既可以通過(guò)解碼器在詞典上生成新的單詞,又可以通過(guò)指針網(wǎng)絡(luò)從編碼器中直接獲取單詞,使生成的摘要更準(zhǔn)確。解碼器的輸出采用集束搜索算法(beam search),beam的大小為4。損失函數(shù)同樣采用交叉熵。

(4) 模型優(yōu)化。實(shí)驗(yàn)?zāi)P碗[藏單元的個(gè)數(shù)設(shè)為256,詞向量的大小為128,訓(xùn)練模型batch size為16,學(xué)習(xí)率從0.1增大到0.15。在HP Z440工作站上訓(xùn)練7天,損失函數(shù)從7.09下降到1.05。

集束搜索算法是基于寬度優(yōu)先的思想構(gòu)建搜索樹(shù)。模型測(cè)試階段,采用此算法選取最優(yōu)解生成摘要。beam的值選擇越大生成摘要時(shí)就有更多的最優(yōu)解,但常見(jiàn)的一級(jí)漢字有3 755個(gè),若beam的值選為5,一次的解碼搜索空間為3 7555個(gè),計(jì)算機(jī)資源很快就會(huì)耗盡。因此綜合考慮beam的大小為4。

(5) 解碼過(guò)程。在測(cè)試階段,t時(shí)刻的輸入為編碼器輸出的詞向量和t-1時(shí)刻解碼器預(yù)測(cè)單詞的詞向量,經(jīng)過(guò)Softmax層,在詞典上生成概率分布。采用集束搜索算法,具體的實(shí)現(xiàn)過(guò)程如下:

① 設(shè)詞典的大小為k,beam的大小為4,解碼器在生成第一個(gè)詞的時(shí)候,選擇概率最大的4個(gè)單詞,設(shè)為{w1,w2,w3,w4}。

② 在預(yù)測(cè)輸出第2個(gè)單詞時(shí),將{w1,w2,w3,w4}這4個(gè)詞語(yǔ)輸入到解碼器中分別與詞表中的單詞組合,再選出概率最大的前4個(gè)詞語(yǔ)序列輸出。

③ 不斷地循環(huán)②過(guò)程,直到遇到結(jié)束符EOS為止,選出概率最大的前4個(gè)序列作為最終的輸出。

3 實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析

本實(shí)驗(yàn)旨在對(duì)生成的自動(dòng)文本摘要進(jìn)行評(píng)測(cè),評(píng)測(cè)標(biāo)準(zhǔn)為ROUGE評(píng)分機(jī)制,采用n-gram機(jī)制。為了實(shí)現(xiàn)生成抽象摘要的目的,對(duì)新詞率的生成率也進(jìn)行了統(tǒng)計(jì)。

3.1 實(shí)驗(yàn)結(jié)果評(píng)測(cè)

ROUGE評(píng)分機(jī)制的原理主要是根據(jù)生成的摘要和參考摘要中共同出現(xiàn)n元詞的個(gè)數(shù)決定。生成的摘要中與參考摘要中共同出現(xiàn)的詞語(yǔ)越多,ROUGE得分就會(huì)越高。現(xiàn)階段學(xué)術(shù)界ROUGE評(píng)分機(jī)制用的主要有ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4。1、2、3、4分別代表1元詞、2元詞、3元詞以及4元詞。本文對(duì)生成的摘要分別用ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4進(jìn)行了測(cè)評(píng)。一般會(huì)根據(jù)需要選擇適合的ROUGE評(píng)分模型。ROUGE評(píng)分的計(jì)算公式如下:

(17)

式中:n-gram表示n元詞;S∈{Ref}表示參考摘要;Countmatch(n-gram)表示生成的摘要中與參考摘要相匹配的n-gram數(shù)量。再用∑對(duì)其進(jìn)行計(jì)數(shù),分母則表示參考摘要中n-gram的個(gè)數(shù)。ROUGE的計(jì)算公式是根據(jù)召回率的公式變換的,對(duì)生成摘要與參考摘要的匹配程度進(jìn)行數(shù)量上的衡量與比較,相對(duì)其他生成的摘要的衡量標(biāo)準(zhǔn)比較準(zhǔn)確。

實(shí)驗(yàn)的測(cè)試集有38 261條新聞測(cè)試文本,模型訓(xùn)練收斂耗時(shí)7天。測(cè)試文本輸入到模型中生成的文本摘要如表4所示。

表4 測(cè)試集生成的文本摘要

該實(shí)驗(yàn)分別在加入注意力機(jī)制的編碼器解碼器模型和引入指針網(wǎng)絡(luò)的模型上進(jìn)行測(cè)試,采用ROUGE評(píng)分機(jī)制評(píng)分結(jié)果如表5所示。

表5 基本模型和指針式網(wǎng)絡(luò)模型ROUGE評(píng)分對(duì)比

從表5可以看出,通常未經(jīng)處理的數(shù)據(jù)集比匿名數(shù)據(jù)集能夠得到更高的ROUGE評(píng)分,lead-3基本模型在純文本數(shù)據(jù)集上得分更高。一個(gè)可能的解釋就是多句子的命名實(shí)體能夠?qū)е赂叩闹睾下省5牵琑OUGE評(píng)分機(jī)制僅能與文獻(xiàn)[5]提出的模型進(jìn)行比較。lead-3的ROUGE評(píng)分與最好的指針網(wǎng)絡(luò)模型的ROUGE得分相比高出ROUGE-1評(píng)分2.9分,高出ROUGE-2評(píng)分1.04分,高出ROUGE-L評(píng)分2.15分。并且實(shí)驗(yàn)結(jié)果最好的指針網(wǎng)絡(luò)模型的ROUGE評(píng)分比文獻(xiàn)[5]高出ROUGE-1評(píng)分1.98分,高出ROUGE-2評(píng)分3.36分,高出ROUGE-L評(píng)分1.77分。可以估測(cè)出,本文最好的網(wǎng)絡(luò)模型超出基本的網(wǎng)絡(luò)模型平均2個(gè)ROUGE評(píng)分。

由表4還可以觀察出,基本的編碼器解碼器模型在ROUGE評(píng)分上表現(xiàn)很差,即使是在150 k的詞典上表現(xiàn)效果也不是很好。即使是用50 k詞典的基本編碼器解碼器模型最好的表現(xiàn)效果生成的文本摘要也存在幾個(gè)普遍的問(wèn)題,事實(shí)細(xì)節(jié)頻繁出錯(cuò),經(jīng)常用一個(gè)更常見(jiàn)的詞代替詞典中出現(xiàn)但不常用的詞。例如,表6中,基本的編碼器解碼器模型中本應(yīng)該出現(xiàn)“海峽”,但卻出現(xiàn)了“大陸”,導(dǎo)致語(yǔ)義錯(cuò)誤。更糟糕的是,有的時(shí)候模型會(huì)生成重復(fù)的無(wú)意義的句子,就像表6中基本的模型生成的摘要一樣。并且基本的編碼器解碼器模型也不能夠生成未登錄詞。

表6 不同模型生成的文本摘要舉例

3.2 實(shí)驗(yàn)?zāi)P蛯?duì)比

從表5可以看出抽取式模型比抽象式模型可以得到更高的ROUGE評(píng)分,并且lead-3基本編碼器解碼器模型具有更強(qiáng)的優(yōu)勢(shì),獲得最高的ROUGE評(píng)分,即使是最好的抽取式模型的ROUGE得分也低于lead-3基本編碼器解碼器模型。這里給出兩種可能的解釋。

首先,新聞文章趨向于把重要信息都放在文章的開(kāi)頭部分。這一點(diǎn)就解釋了為什么lead-3模型會(huì)有那么高的ROUGE評(píng)分。實(shí)際上,實(shí)驗(yàn)證明,僅僅使用文章的前400個(gè)詞條,大約20個(gè)句子,比使用前800個(gè)詞條能夠得到更高的ROUGE評(píng)分。

其次就是自然語(yǔ)言處理任務(wù)和ROUGE評(píng)分機(jī)制的屬性使得抽取式模型和lead-3基本模型的ROUGE評(píng)分很難被超越。參考摘要的選擇也非常主觀,有時(shí)會(huì)自形成一個(gè)完備的參考摘要。有時(shí)也會(huì)只從文章中選取一些比較感興趣的細(xì)節(jié)作為摘要。測(cè)試語(yǔ)料中平均每篇文章有19個(gè)句子,利用網(wǎng)絡(luò)模型平均每篇摘要會(huì)生成3~4句話(huà)。抽象模型引入了更多的參考標(biāo)準(zhǔn),比如選擇措辭、短語(yǔ),這樣就進(jìn)一步減少了與參考摘要的匹配程度。例如在表6中“衛(wèi)隊(duì)海軍副司令官湯西里聲稱(chēng)敵方侵犯領(lǐng)土”可以作為這段文本的摘要,但與參考摘要卻完全不匹配,ROUGE得分為0。只有一個(gè)參考摘要也會(huì)加劇ROUGE評(píng)分機(jī)制的不靈活性。文獻(xiàn)[17]指出與多個(gè)參考摘要相比,ROUGE評(píng)分機(jī)制的可靠性降低。

因?yàn)槲谋菊蝿?wù)具有主觀性和符合要求摘要的多樣性,ROUGE評(píng)分機(jī)制會(huì)選擇首次出現(xiàn)的內(nèi)容或者保留原始的措辭作為摘要的得分更高。盡管有時(shí)參考摘要會(huì)偏離這些技術(shù),表現(xiàn)得更主觀,但這些偏差是無(wú)法避免的,以至于ROUGE評(píng)分機(jī)制會(huì)選擇更安全的策略,所以更安全的策略能夠獲得更高的平均得分。這就能夠解釋為什么抽取式模型能夠比抽象式文本摘要獲得更高的ROUGE評(píng)分,lead-3基本模型的ROUGE評(píng)分高于抽取式模型的ROUGE評(píng)分。除了ROUGE評(píng)分機(jī)制,根據(jù)詞根、語(yǔ)義等可以探究更廣泛通用的評(píng)分機(jī)制,這是個(gè)值得進(jìn)一步探索的方向。

3.3 實(shí)驗(yàn)數(shù)據(jù)分析

實(shí)驗(yàn)分別對(duì)生成的中文摘要做了重復(fù)率檢測(cè),從38 261條生成的摘要與參考摘要進(jìn)行對(duì)比,重復(fù)率如圖3所示。

圖3 不同模型生成摘要的重復(fù)率對(duì)比

從圖3可以觀察到基本的編碼器解碼器模型生成的文本摘要出現(xiàn)的重復(fù)性詞語(yǔ)較多,并且采用1-grams、2-grams、3-grams、4-grams重復(fù)率依次降低,在整個(gè)句子上比較,重復(fù)率最低。加入指針模型后生成詞語(yǔ)的重復(fù)率明顯降低,但與參考摘要對(duì)比還有一定的差距。

由于模型生成的是抽象新聞?wù)瑢?duì)生成的新詞率要做統(tǒng)計(jì),本文生成的新詞是指在詞典中出現(xiàn)但未出現(xiàn)在原文本中的詞語(yǔ)。不同模型新詞的生成率對(duì)比如圖4所示。

圖4 不同模型生成新詞量的對(duì)比

實(shí)驗(yàn)證明,指針網(wǎng)絡(luò)使生成的抽象文本摘要更可靠,能夠更準(zhǔn)確地拷貝到原文中的細(xì)節(jié)信息,正確地拷貝原文中的信息并不影響生成摘要的抽象性。圖4表明,最終模型生成的文本摘要的n-grams的新詞生成率比參考摘要低,與參考摘要相比,抽象性更低,也低于基本模型。基本的編碼器解碼器模型生成了更多的新詞,但這些新詞包括所有不正確的詞語(yǔ),這些詞語(yǔ)一起構(gòu)建成完整的抽象實(shí)例。

圖4表明最終網(wǎng)絡(luò)模型拷貝了整篇文章的38%。通過(guò)與參考摘要對(duì)比,參考摘要僅拷貝到原文的0.2%,這是模型值得改進(jìn)的一個(gè)地方,因?yàn)椴幌MW(wǎng)絡(luò)模型僅僅是簡(jiǎn)單的句子抽取,但實(shí)驗(yàn)證明其他62%的句子是依靠抽象模型生成的。文章的句子被截?cái)嘁孕纬烧Z(yǔ)法正確的較短的文本,新生成的句子通過(guò)拼接句子片段組成。復(fù)制過(guò)來(lái)的段落有時(shí)會(huì)省略不必要的插入、從句和帶括號(hào)的短語(yǔ)。

4 結(jié) 語(yǔ)

本文利用指針式網(wǎng)絡(luò)模型生成抽象式新聞?wù)盟押侣務(wù)Z料庫(kù),先對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗、分詞,劃分?jǐn)?shù)據(jù)集。在基本的編碼器解碼器的基礎(chǔ)上引入了指針網(wǎng)絡(luò),使得生成的抽象新聞?wù)鼫?zhǔn)確,更符合原文本的意思,采用ROUGE評(píng)分機(jī)制對(duì)生成的抽象摘要文本進(jìn)行評(píng)測(cè),實(shí)驗(yàn)結(jié)果證明得到的ROUGE評(píng)分平均比基本的編碼器解碼器模型的ROUGE評(píng)分高2分。雖然目前采用深度學(xué)習(xí)的方法生成抽象型文本摘要的技術(shù)很多,但還成熟,生成摘要還存在很多問(wèn)題,譬如不準(zhǔn)確、捏造事實(shí)、重復(fù)詞語(yǔ)等。生成摘要的準(zhǔn)確性與重復(fù)率還需要進(jìn)一步優(yōu)化,在未來(lái)的研究工作中需要進(jìn)一步努力,以達(dá)到更好的模型效果。

猜你喜歡
機(jī)制文本實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
在808DA上文本顯示的改善
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
破除舊機(jī)制要分步推進(jìn)
注重機(jī)制的相互配合

主站蜘蛛池模板: 精品国产免费观看| 日本手机在线视频| 久久频这里精品99香蕉久网址| 欧美精品伊人久久| 女人天堂av免费| 国产精品jizz在线观看软件| 亚洲国产日韩在线观看| 高清不卡毛片| 91国内外精品自在线播放| 日韩人妻精品一区| 色香蕉网站| 国产91无毒不卡在线观看| 久久精品一品道久久精品| 久久伊伊香蕉综合精品| 久久久四虎成人永久免费网站| 91色国产在线| 日韩美毛片| 成人欧美日韩| 青青青国产免费线在| 亚洲综合经典在线一区二区| 怡春院欧美一区二区三区免费| 亚洲人成网站在线播放2019| 久久窝窝国产精品午夜看片| 国产精品嫩草影院av| 色婷婷在线影院| 美女无遮挡被啪啪到高潮免费| 亚洲人成成无码网WWW| 欧美精品成人| 亚洲va在线∨a天堂va欧美va| 国产AV无码专区亚洲A∨毛片| 自拍欧美亚洲| 亚洲毛片网站| 国产一区二区精品福利| 国产亚洲高清在线精品99| 久久精品aⅴ无码中文字幕| 国产精品99r8在线观看| 亚洲高清资源| 欧美日韩成人| 精品剧情v国产在线观看| 国产高清自拍视频| 欧美区国产区| 激情综合图区| 天天躁日日躁狠狠躁中文字幕| 国产精品永久免费嫩草研究院| 国产av无码日韩av无码网站| 欧美精品综合视频一区二区| 亚洲免费三区| 国产黄视频网站| 亚洲中文字幕日产无码2021| 香蕉久久国产超碰青草| 国产福利观看| 久久香蕉国产线看观看精品蕉| 久久毛片网| 国产91在线|日本| 国产精品污污在线观看网站| 亚洲高清中文字幕| 亚洲日韩精品无码专区| 亚洲精品不卡午夜精品| 成人国产一区二区三区| 国产激情国语对白普通话| 日韩视频福利| 野花国产精品入口| 91破解版在线亚洲| 欧美综合一区二区三区| 成人日韩欧美| 国产乱子伦精品视频| 人妻21p大胆| 中文精品久久久久国产网址| 日本一区中文字幕最新在线| 欧美精品另类| 日韩精品毛片| 国产精品视频导航| 无码AV高清毛片中国一级毛片| 婷婷成人综合| 毛片手机在线看| 欧美亚洲一二三区| 经典三级久久| 亚洲aaa视频| a色毛片免费视频| 国产jizzjizz视频| 国产国模一区二区三区四区| 天堂网亚洲综合在线|