999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NN-Attention的中文短文本摘要①

2020-07-25 01:47:00何正方
關(guān)鍵詞:重置文本模型

何正方,梁 宇

(云南大學(xué)軟件學(xué)院,昆明 650500)

隨著Internet的飛速發(fā)展,人們?cè)絹?lái)越多地依賴于萬(wàn)維網(wǎng)來(lái)獲取所需要的信息.如何更加有效地瀏覽和查閱萬(wàn)維網(wǎng)上的海量信息成了當(dāng)前的研究熱點(diǎn)[1].自動(dòng)文本摘要技術(shù)對(duì)給定源文本內(nèi)容進(jìn)行壓縮、提煉與總結(jié),并產(chǎn)生簡(jiǎn)潔、流暢且保留關(guān)鍵信息的文本來(lái)概括用戶所關(guān)注的主要內(nèi)容.根據(jù)摘要內(nèi)容的來(lái)源可以分為抽取式摘要和生成式摘要兩類.其中,抽取式摘要生成的摘要內(nèi)容是按一定規(guī)則從原文本中抽取出來(lái)的詞、短語(yǔ)或句子組成的.生成式摘要產(chǎn)生的摘要文本則是通過(guò)理解文本內(nèi)容,用簡(jiǎn)練的文字將原文本的內(nèi)容表達(dá)出來(lái)[2].由于生成式摘要與人類做摘要的過(guò)程相似,所以生成式摘要方法在文本摘要模型中得到了廣泛使用.

隨著人工智能技術(shù)快速發(fā)展,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)已廣泛應(yīng)用于自然語(yǔ)言處理任務(wù),比如機(jī)器翻譯、情感分析、語(yǔ)音識(shí)別、文本摘要等.其中,以序列到序列(Sequence2Sequence)[3]神經(jīng)網(wǎng)絡(luò)模型為代表,其結(jié)合了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4]和注意力機(jī)制(attention)[5],該模型能夠決定需要關(guān)注輸入的是哪部分,分配有限的信息處理資源給重要的部分,比傳統(tǒng)的自然語(yǔ)言處理方法效果好很多.但是以往設(shè)計(jì)的注意力機(jī)制(BahdanauAttention[5],LuongAttention[6]),不足以將長(zhǎng)句的高維特征提取,會(huì)造成導(dǎo)致生成摘要存在句子不通順、詞語(yǔ)重復(fù)、可讀性差等問(wèn)題.這個(gè)問(wèn)題限制了模型的性能,尤其是當(dāng)輸入序列比較長(zhǎng)時(shí),模型的性能會(huì)變得很差,這個(gè)問(wèn)題在長(zhǎng)句的翻譯中較為明顯.

針對(duì)上述問(wèn)題,本文重新設(shè)計(jì)了注意力機(jī)制,以提取長(zhǎng)句的特征.提出了NN-Attention,其中的NN是全連接神經(jīng)網(wǎng)絡(luò)(Fully-connected Neural Network,FNN)[7].通過(guò)實(shí)驗(yàn),該模型生成的摘要在正確性和可讀性上都較以往的注意力模型有所改善.

1 GRU

RNN是神經(jīng)網(wǎng)絡(luò)的一種,它的輸入不僅包括當(dāng)前時(shí)刻的輸入還包含了前一時(shí)刻的輸出.基本的RNN通過(guò)反向傳播進(jìn)行矩陣冪運(yùn)算,很容梯度消失或者梯度爆炸.LSTM[8]的提出有效地解決了這個(gè)問(wèn)題,LSTM通過(guò)引入3個(gè)門控單元,通過(guò)“門”結(jié)構(gòu)來(lái)保留重要的內(nèi)容和去除次要的內(nèi)容.但是由于本文引入了CNN,參數(shù)成幾何級(jí)增長(zhǎng).若使用LSTM,整個(gè)模型的參數(shù)量將非常龐大,訓(xùn)練會(huì)變得十分困難.為了解決LSTM參數(shù)過(guò)多,訓(xùn)練時(shí)間過(guò)長(zhǎng),本文采用GRU[9]神經(jīng)元.GRU是LSTM的一種變種,它將遺忘門和輸入門合并為一個(gè)更新門,其作用在于每個(gè)隱藏層減少了兩個(gè)矩陣乘法運(yùn)算,模型的參數(shù)得到減少,從而減少了訓(xùn)練時(shí)間,并且容易實(shí)現(xiàn),其示意圖如圖1所示.

圖1 GRU 示意圖

更新門z決定隱藏狀態(tài)的更新是否基于一個(gè)新的隱藏狀態(tài),重置門r狀態(tài)決定之前的隱藏狀態(tài)是否被忽略.

讓我們來(lái)描述j-th 隱藏單元的激活是如何計(jì)算的,首先,按照式(1)計(jì)算重置門rj.

式(1)中,σ是Sigmoid激活函數(shù),[·]j是j-th的向量表示.x和ht-1分別表示輸入和前一個(gè)隱藏狀態(tài),Wr和Ur是已經(jīng)學(xué)習(xí)到的權(quán)重矩陣.

類似的,按照式(2)計(jì)算更新門zj.

激活隱藏單元hj的實(shí)際計(jì)算公式如式(3)所示.

其中,

在式(3)中,當(dāng)重置門接近0時(shí),隱藏狀態(tài)僅重置當(dāng)前的輸入并強(qiáng)制移除之前的狀態(tài),這能有效地阻止無(wú)關(guān)的信息.另一方面,更新門控制多少之前的隱藏狀態(tài)信息繼續(xù)留存到當(dāng)前的隱藏狀態(tài),這和LSTM網(wǎng)絡(luò)中的記憶細(xì)胞很像,并幫助RNN 記憶長(zhǎng)期的信息[10].每一個(gè)隱藏單元都有獨(dú)立的重置門和更新門,并學(xué)習(xí)到長(zhǎng)時(shí)記憶和短時(shí)記憶.隱藏單元因重置門被頻繁的激活而學(xué)習(xí)到短時(shí)記憶,因更新門被頻繁激活而學(xué)習(xí)到長(zhǎng)時(shí)記憶,所以GRU 很適合作為文本摘要模型的神經(jīng)元.

2 Attention 機(jī)制

Sequence2Sequence模型對(duì)輸入序列X缺乏區(qū)分度,因此引入了Attention Mechanism來(lái)解決這個(gè)問(wèn)題,總體模型結(jié)構(gòu)如圖2所示.

在以往的Attention模型中,只采用了Bidirectional-RNN[11],BRNN 對(duì)上下文信息是有效的,但是無(wú)法提取文本的高維特征,所以本文引入了CNN[12],CNN的詳細(xì)設(shè)計(jì)見(jiàn)本文的第3節(jié),將CNN的輸出按照式(4)的方式拼接起來(lái).

在該模型中,按照式(5)定義了一個(gè)條件概率.

其中,si是Decoder 中RNN在i時(shí)刻的隱狀態(tài),如圖2所示,其計(jì)算公式如式(6)所示.

圖2 Attention Mechanism模型

這里的語(yǔ)義向量ci的計(jì)算方式,與傳統(tǒng)的Sequence2-Sequence模型直接累加的計(jì)算方式不一樣,這里的ci是一個(gè)權(quán)重化(weighted)之后的值,其表達(dá)式如式(7)所示.

其中,i表示Encoder端的第i個(gè)詞,hj表示Encoder端的第j個(gè)詞的隱向量,αij表示Encoder端的第j個(gè)詞與Decoder端的第i個(gè)詞之間的權(quán)值,表示源端第j個(gè)詞對(duì)目標(biāo)端第i個(gè)詞的影響程度,αij的計(jì)算公式如式(8)所示.

其中,

在式(8)中,αij是一個(gè)Softmax模型輸出,概率值的和為1.eij表示一個(gè)對(duì)齊模型,用于衡量Encoder端的位置j的詞,對(duì)于Decoder端的位置i的詞的對(duì)齊程度(影響程度),換句話說(shuō):Decoder端生成位置i的詞時(shí),有多少程度受Encoder端的位置j的詞影響.以往的對(duì)齊模型eij的計(jì)算方式如式(9)所示[6].為了方便討論,對(duì)齊模型的表示如圖2中的Match 框所示.

但是本文在隱藏層增加了CNN的輸出,以往的對(duì)齊模型已不完全適用,所以本文應(yīng)用神經(jīng)網(wǎng)絡(luò)重新設(shè)計(jì)了對(duì)齊模型.

3 CNN

本文將卷積神經(jīng)網(wǎng)絡(luò)CNN應(yīng)用到中文文本摘要任務(wù),圖2中的CNN的詳細(xì)設(shè)計(jì)如圖3所示.

圖3 CNN模型

CNN 利用3個(gè)不同Size的Kernel 來(lái)提取句子中的關(guān)鍵信息(類似于多窗口大小的N-Gram)[13],從而能夠更好地捕捉局部相關(guān)性.

TextCNN模型最大的缺陷是全局的Max Pooling無(wú)法提取文本的結(jié)構(gòu)信息,所以文本中的轉(zhuǎn)折、遞進(jìn)等復(fù)雜的語(yǔ)義關(guān)系無(wú)法被TextCNN 發(fā)現(xiàn).TextCNN 只能知道文本的關(guān)鍵詞是否出現(xiàn)了,而無(wú)法獲知關(guān)鍵詞出現(xiàn)的順序和出現(xiàn)的次數(shù).針對(duì)這個(gè)問(wèn)題,本文采用k-Max Pooling[14]做一些優(yōu)化,k-Max Pooling 針對(duì)每個(gè)卷積核都不只保留最大的值,而是保留前k個(gè)最大值,并且保留這些值出現(xiàn)的順序,也即按照文本中的位置順序來(lái)排列這k個(gè)最大值,其在比較復(fù)雜的文本上相對(duì)于Max Pooling 會(huì)有所提升.k的取值見(jiàn)表1.

表1 不同參數(shù)的TextCNN

同時(shí)為了更多的提取文本的高維特征,本文增加了Filter的數(shù)量,具體參數(shù)見(jiàn)表1.本文為了找到最佳的Filter-Size參數(shù),按照表1設(shè)計(jì)了兩種Size的Kernel來(lái)訓(xùn)練模型.此外,為了減少CNN的參數(shù),本文對(duì)1到T時(shí)刻的CNN 采用參數(shù)共享的方法來(lái)訓(xùn)練模型.

為了驗(yàn)證上述的改進(jìn)對(duì)模型精度的影響,本文按照表1,分別使用CNN-1和CNN-2的參數(shù)訓(xùn)練模型,并分析生成摘要的質(zhì)量.

4 NN-Attention

將圖2中的Match 框抽象提取出來(lái),如圖4所示.其中h為Encoder的隱藏狀態(tài),s為Decoder的隱藏狀態(tài),α為輸出的數(shù)值.

圖4 Match 示意圖

因?yàn)楸疚牡囊肓薈NN,所以傳統(tǒng)的對(duì)齊模型已不再適用.為了提取長(zhǎng)句的高維特征,本文采用神經(jīng)網(wǎng)絡(luò)對(duì)Match進(jìn)行了重新設(shè)計(jì),具體是全連接神經(jīng)網(wǎng)絡(luò),如圖5所示.

圖5 全連接神經(jīng)網(wǎng)絡(luò)示意圖

該結(jié)構(gòu)對(duì)xn?1層和xn層而言,xn?1層的每一個(gè)節(jié)點(diǎn)都和第xn層所有節(jié)點(diǎn)有連接.即第xn層的每個(gè)節(jié)點(diǎn)在進(jìn)行計(jì)算的時(shí)候,激活函數(shù)的輸入是xn?1層所有節(jié)點(diǎn)的加權(quán).由于引入了CNN,所以神經(jīng)網(wǎng)絡(luò)要按照式(10)輸入.

其中,

為了保證α為一個(gè)數(shù)值,本文的NN-Attention 最后一層的激活函數(shù)使用Sigmoid函數(shù)[15].為了找到最佳的對(duì)齊網(wǎng)絡(luò),本文設(shè)計(jì)了兩層模型,并用不同的參數(shù)訓(xùn)練模型,具體參數(shù)如表2所示.

表2 不同NN-Attention的參數(shù)

5 實(shí)驗(yàn)

5.1 數(shù)據(jù)集

本文數(shù)據(jù)集采用的是CSTSD數(shù)據(jù)集[16],數(shù)據(jù)來(lái)源于新浪微博主流媒體(頭條新聞、環(huán)球網(wǎng)、人民網(wǎng)等)發(fā)布的微博約68萬(wàn)數(shù)據(jù),本文按照8:1:1的比例切分訓(xùn)練集、驗(yàn)證集、測(cè)試集.

5.2 數(shù)據(jù)預(yù)處理

(1)去掉無(wú)效字符,如表情、日期、鏈接、數(shù)字等.

(2)長(zhǎng)度限制,正文的長(zhǎng)度規(guī)定為25到250字,摘要長(zhǎng)度規(guī)定為8到35字.

(3)相似度過(guò)濾,當(dāng)正文和摘要有6個(gè)相同的字時(shí),本文認(rèn)為該數(shù)據(jù)符合條件.

5.3 訓(xùn)練

本文引入詞嵌入解決矩陣稀疏性問(wèn)題,將輸入文本映射為300維的向量.首先根據(jù)詞頻統(tǒng)計(jì)選取出現(xiàn)頻率最高的詞匯為ENCODER和DECODER 各定義一個(gè)詞匯表,在本文中設(shè)置為60 000,沒(méi)在詞匯表中的詞都轉(zhuǎn)換成一個(gè)“Unknown”字符,然后在訓(xùn)練期間學(xué)習(xí)詞嵌入的權(quán)重.

將新聞和摘要同時(shí)輸入到Sequence2Sequence模型中,其中新聞對(duì)應(yīng)Encoder,摘要對(duì)應(yīng)Decoder.整個(gè)輸入編碼和解碼的過(guò)程中,按照式(13)使用梯度優(yōu)化算法以及最大似然條件概率為損失函數(shù)去進(jìn)行模型的訓(xùn)練和優(yōu)化.

其中,θ為模型的參數(shù),N為訓(xùn)練集的樣本個(gè)數(shù),(yn,xn)是相應(yīng)的輸出和輸入的序列[3].

本文使用TensorFlow[17]構(gòu)建模型,模型的主要參數(shù)見(jiàn)表3.

表3 模型的主要參數(shù)

5.4 推理——如何生成摘要

當(dāng)模型訓(xùn)練完成后,可以得到之前模型沒(méi)見(jiàn)過(guò)的源文章的摘要,這個(gè)過(guò)程稱為推理.在推理時(shí),我們只能訪問(wèn)源句子,執(zhí)行解碼有很多種方法.本文采用Beam Search (束搜索)[18]解碼,Beam Search在做摘要時(shí)總是將一小部分頂級(jí)候選詞留在周圍,從而在搜索空間更好地探索所有可能的詞匯.Beam的大小稱為寬度,在本文中設(shè)置為12.同時(shí)本文對(duì)生成的摘要的質(zhì)量采用ROUGE[19]評(píng)估中的ROUGE-1,ROUGE-2和ROUGE-L的F1值進(jìn)行評(píng)估.

5.5 采用不同的TextCNN參數(shù)和不同的FNN參數(shù)來(lái)訓(xùn)練模型

采用如表1所示的改進(jìn)前后兩種不同的TextCNN參數(shù)來(lái)訓(xùn)練網(wǎng)絡(luò),模型訓(xùn)練的Loss 如圖6所示.

從圖6可以看出,CNN-2的Loss剛開(kāi)始下降沒(méi)有CNN-1快,但是最終的Loss比CNN-1要小.訓(xùn)練之后用應(yīng)用Beam Search對(duì)測(cè)試集的文本進(jìn)行推理,并計(jì)算ROUGE 得分,本文以Sequence2Sequence與Attention的模型作為基線模型,計(jì)算后的得分如表4所示.

圖6 改進(jìn)前后的TextCNN的Loss 曲線

表4 CNN不同Size的參數(shù)的ROUGE F1 得分

從表4可以看出,對(duì)文本摘要的問(wèn)題,在模型引入CNN 后,模型的性能有了提升.模型雖然有了提升,但是引入CNN 后,模型的參數(shù)增加很多,傳統(tǒng)的基于矩陣變換的注意力機(jī)制已經(jīng)不能很好地表征這個(gè)模型,所以本文引入了NN-Attention,按照表2的參數(shù)來(lái)訓(xùn)練模型,并使用CNN-2的模型來(lái)訓(xùn)練,訓(xùn)練的Loss 如圖7所示.

圖7 多種NN-Attention參數(shù)的Loss 曲線

訓(xùn)練之后運(yùn)用Beam Search 對(duì)測(cè)試集的文本進(jìn)行推理,并計(jì)算ROUGE 得分,這里以CNN-2的模型作為基線模型,計(jì)算后的得分如表5所示.

表5 不同NN-Attention的參數(shù)的ROUGE F1 得分

從表5可以看出,對(duì)文本摘要的問(wèn)題,在模型引入NN-Attention 后,模型的性能有了較大的提升.雖然NN-Attention-3模型的損失最小,但是NN-Attention-2模型取得了最好的成績(jī).說(shuō)明NN-Attention-2模型最適合作為本文提出的NN-Attention模型的網(wǎng)絡(luò),NNAttention-3模型存在過(guò)擬合問(wèn)題.

5.6 案例分析

從測(cè)試集前10條中隨機(jī)取4條,給出測(cè)試結(jié)果如表6.

表6 測(cè)試結(jié)果示例

6 結(jié)論

本文首先對(duì)現(xiàn)有Attention 機(jī)制對(duì)文本摘要問(wèn)題研究的缺點(diǎn)做了分析,在以往的Attention模型中,只采用了Bidirectional-RNN,BRNN 對(duì)上下文信息是有效的,但是無(wú)法提取文本的高維特征,所以本文引入了CNN.因?yàn)楸疚牡囊肓薈NN,所以傳統(tǒng)的對(duì)齊模型已不再適用,本文將Attention模型改進(jìn),提出了NN-Attention以解決這個(gè)問(wèn)題.之后詳細(xì)描述了GRU、Attention 機(jī)制、CNN、NN-Attention,為了尋找最佳的參數(shù),本文使用多種參數(shù)對(duì)模型進(jìn)行訓(xùn)練,通過(guò)計(jì)算ROUGE 得分,給出了最佳模型.最后給出了測(cè)試結(jié)果,從測(cè)試結(jié)果可以看出,生成的摘要比之前的模型有所進(jìn)步,但是就準(zhǔn)確性與可讀性而言,生成的摘要還有待提高,生成式摘要的算法是一個(gè)持續(xù)性的研究課題.

猜你喜歡
重置文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
系統(tǒng)重置中途出錯(cuò)的解決辦法
在808DA上文本顯示的改善
重置人生 ①
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
2018年山西省對(duì)口升學(xué)考試考生重置密碼申請(qǐng)表
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 九九九国产| 香蕉久人久人青草青草| 亚洲免费三区| 91久久大香线蕉| 国产成人亚洲精品色欲AV| 欧美日韩一区二区三区在线视频| 婷婷丁香在线观看| 麻豆国产在线观看一区二区| 婷婷综合色| 好紧好深好大乳无码中文字幕| 手机在线看片不卡中文字幕| 亚洲成A人V欧美综合| 思思热精品在线8| 亚洲成人黄色在线| 欧美精品不卡| 一区二区在线视频免费观看| 在线欧美a| 日韩毛片在线视频| 台湾AV国片精品女同性| 国产91小视频在线观看| 久久综合干| 99视频在线免费看| 456亚洲人成高清在线| 美女一区二区在线观看| 日本一区二区三区精品国产| 日韩av电影一区二区三区四区| 国产在线麻豆波多野结衣| 中文字幕av无码不卡免费| 国产一区亚洲一区| 亚洲无码精品在线播放| 国产一线在线| 四虎国产精品永久一区| 亚洲天堂网视频| 亚洲成人免费在线| 视频二区中文无码| 国产在线观看精品| 免费人成又黄又爽的视频网站| 久久中文字幕av不卡一区二区| 嫩草国产在线| 国产午夜一级淫片| 亚洲69视频| 无码网站免费观看| 尤物成AV人片在线观看| 久久久久久高潮白浆| 欧美午夜理伦三级在线观看| 99精品伊人久久久大香线蕉| 91精品国产综合久久香蕉922 | 五月婷婷亚洲综合| 91久久国产成人免费观看| 色综合五月| 亚洲天堂视频在线观看免费| 国产午夜不卡| 日韩不卡高清视频| 伊人久久婷婷| 国产91成人| 亚洲大学生视频在线播放| 91精品国产自产91精品资源| 亚洲欧美另类久久久精品播放的| 一级毛片免费高清视频| av在线人妻熟妇| 亚洲女同一区二区| 国产在线麻豆波多野结衣| 精品国产福利在线| 亚洲欧美成人在线视频| 国产精品不卡片视频免费观看| 成人在线观看一区| 日韩在线成年视频人网站观看| 久久精品人人做人人爽| 国产原创自拍不卡第一页| 国产成人永久免费视频| 国产丝袜无码精品| 国产微拍一区| 国产麻豆精品在线观看| 亚洲无码视频喷水| 91麻豆国产在线| 色综合天天操| 亚瑟天堂久久一区二区影院| 国产女同自拍视频| 色综合天天操| 亚洲狠狠婷婷综合久久久久| 91福利免费| 亚洲高清无码精品|