999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙編碼器的中文文本摘要技術的研究與實現

2021-09-16 01:54:22李大舟
計算機工程與設計 2021年9期
關鍵詞:語義機制文本

高 巍,馬 輝,李大舟,于 沛

(沈陽化工大學 計算機科學與技術學院,遼寧 沈陽 110142)

0 引 言

人工生成摘要可以提取文本的有效信息,但是其面臨人工資源不足與低效率的難題。自動文摘[1]是自然語言處理領域的重要分支,它是通過計算機對文本信息進行壓縮和提取,生成簡短的能有效概括文本內容的短文或句子。自動摘要問題可以看成一個輸入序列到一個輸出序列的映射過程,因此可以采用序列到序列模型來實現生成式文本摘要。隨著深度學習技術的不斷成熟,研究人員將深度學習與Seq2Seq模型相結合進行生成式摘要的研究。目前,該模型通常采用循環神經網絡(recurrent neural network,RNN)來構造編碼器和解碼器。

1 相關研究

隨著深度學習的迅速發展為生成式文本摘要提供了另一種可行性框架,序列到序列模型,基本思想是根據輸入序列的全局信息得到與之對應的輸出序列,序列到序列模型由編碼器和解碼器兩部分構成。Rush等[2]最先將該模型應用于生成式摘要,將卷積模型應用于對原文檔進行編碼,然后利用上下文之間的注意力前饋神經網絡生成摘要,與之前的生成式方法相比,該模型是在“理解”源文信息的基礎上生成摘要。See等[3]采用BiLSTM和LSTM分別構建編解碼器,并采用指針機制來緩解未登錄詞問題,在確保生成摘要語義通順和精確的基礎上又具有新生單詞的能力。謝鳴元等[4]考慮文本分類對生成式摘要的影響,利用卷積神經網絡對文檔進行分類,在Seq2Seq基礎上結合文本類別特征生成摘要。侯麗微等[5]用注意力機制計算出關鍵詞語義向量,將其和編碼器語義向量、解碼器語義向量結合后共同推導下一個詞項。Bai等[6]提出時間卷積網絡,并在多個數據集中,TCN都得到了比RNN更為準確的結果,TCN是一種新型的可以用來解決時間序列預測的模型。韓建勝等[7]將TCN網絡應用于中文文本情感分類,TCN網絡對文本特征提取更充分,具有較強的分析文本能力。

本文提出一種模型TCAtten-GRU來改善傳統編解碼器存在的語義信息不充分、生成的摘要不連貫和重復詞匯問題。①在編碼器端采用雙編碼結構,分別用時間卷積網絡和卷積神經網絡來構造兩個編碼器。時間卷積網絡對源文進行編碼得到全文信息,卷積神經網絡網絡提取文本的高層特征[8],兩個結果相融合可以更完整表述源文信息,利用融合后的隱層狀態值構建注意力機制。②解碼器采用門控循環單元[9](gated recurrent unit,GRU)來構建,同時結合指針機制[10]和集束搜索[11]方法。

2 基于雙編碼器生成式模型的構建

通過對近年來生成式摘要方法進行研究后,本文提出一種基于encoder-decoder架構的雙編碼器模型。編碼器encoder1采用TCN網絡(temporal convolutional network,TCN)來獲取全文的語義信息,編碼器encoder2采用CNN(convolutional neural networks,CNN)網絡來更好地提取文本的高層次特征;將CNN提取的特征信息與TCN每一個隱層狀態融合后構建注意力機制;解碼器decoder采用單向GRU網絡進行解碼信息,加入指針機制和集束搜索解決未登錄詞問題。TCAtten-GRU模型的框架如圖1所示。

圖1 TCAtten-GRU模型總框架

2.1 構建輸入層

在使用雙編碼器對文本進行編碼時,首先構建輸入層,雙編碼器采用共同的輸入。先用pkuseg[12]分詞工具將源文本切分成詞,再用Glove預訓練模型對詞進行分布式向量表示。設文本D切分成詞后可用x={x1,x2,…,xn} 來表示詞向量,詞向量的維度為m(本文等于256),n為輸入序列的長度,將輸入序列映射為輸入矩陣Mn×m,輸入層結構如圖2所示,圖中n=105。

圖2 輸入層結構

2.2 時間卷積編碼器

采用TCN網絡構建編碼器encoder1。傳統的編碼器大多都采用循環神經網絡或其變體,但是會存在梯度彌散和梯度爆炸的問題。TCN網絡可以大規模進行并行處理,因此在訓練和驗證時網絡的速度都會更快;TCN網絡具有靈活的感受野,在處理歷史信息長短上更加靈活;TCN網絡訓練時占用的內存更少,尤其是對于長序列。該網絡中,將一維因果卷積[13]和擴張卷積[14]相結合作為標準卷積層,2個標準卷積層與恒等映射封裝成一個殘差模塊[15],殘差模塊堆疊成深度網絡,并用全卷積層代替最后幾層的全連接層。dropout層防止網絡過擬合,TCN網絡框架如圖3所示。

圖3 TCN網絡框架

因果卷積目的在于嚴格按照時序性對序列進行處理,表現于下一時刻的輸出只依賴于上一時刻及其之前的值。輸入序列x={x1,x2,…,xn} 在t時刻的輸出為yt,則yt可由式(1)表示

yt=f(x1,x2,…,xt)

(1)

因果卷積構建長期的記憶需要擴大感受野,擴大感受野需要非常多的層級數或很大的卷積核來實現。但是卷積層數的增加會帶來訓練復雜、梯度消失以及擬合效果不好等問題。擴張卷積可以在保持參數和輸出大小不變的前提下,解決這些問題。擴張卷積不僅可以擴大感受野、降低運算量,還可以獲取更多的上下文信息。卷積核F={f1,f2,…,fK},在擴張系數為d處xt的擴張卷積F(xt)為式(2)

(2)

式中:K為卷積核大小,擴張系數d代表兩個卷積核之間插入的零值個數。xt-(K-k)·d表示為F(xt)采用上一層的元素單元。為了確保卷積核在很長的歷史信息中覆蓋更多的輸入序列,令擴張系數隨著網絡深度的變化以2的指數增大,圖4為擴張卷積網絡結構。

圖4 擴張卷積網絡結構

每一次擴張卷積運算后都用ReLu函數進行非線性變換,式(3)~式(5)為擴張卷積的運算方式

ht=Conv(Mt×Fj+bt)

(3)

{h1,h2,…,hn}=LayerNorm({h1,h2,…,hn})

(4)

{h1,h2,…,hn}=ReLu({h1,h2,…,hn})

(5)

其中,ht是t時刻TCN網絡得到的狀態值,Conv表示卷積操作,Mt是t時刻網絡計算的詞的矩陣,Fj是第j層的卷積核,bt是偏置。LayerNorm表示每次擴大因果卷積結束后,對參數進行層級歸一化,采用ReLu激活函數進行非線性計算,{h1,h2,…,hn} 是經過一次完整的卷積計算而得到的狀態值。

引入殘差模塊解決因網絡深度而帶來的梯度消失問題。網絡越深提取的特征越豐富,得到的語義信息也會更具體。如果簡單的加深網絡層數會出現梯度消失或梯度爆炸,通常采用冗余層恒等映射來解決網絡退化的問題。設網絡的輸入為x,期望輸出為H(x),恒等映射函數可表示為H(x)=x,但是網絡層學習恒等映射非常困難。因此將恒等映射轉換為殘差函數采用F(x)=H(x)-x,當F(x)=0就構成了恒等映射。為了保持輸入和輸出維度一致,采用全卷機網絡代替全連接層,實現端對端的序列預測效果。每一個隱藏層維度保持與輸入層維度相同,并通過填充操作保持和輸出層維度相同。

2.3 卷積網絡編碼器

采用CNN網絡構建編碼器encoder2。卷積神經網絡在圖像處理領域表現的十分出色,近年來,有相關研究將其應用在自然語言處理領域。如2017年,Facebook[16]公司提出基于CNN網絡的Seq2Seq模型,該模型在機器翻譯和文本摘要任務中均表現出色,引起學者的廣泛關注。卷積網絡一方面可以并行運算,提高運行速度;另一方面它的層次結構可以更好地提取文本特征。卷積網絡的基本框架如圖5所示。

圖5 卷積神經網絡

oi=ReLu(c?xi∶i+h-1+b)

(6)

O=o1⊕o2⊕…⊕on

(7)

激活函數ReLu表示對卷積結果進行非線性映射,b是偏移量,o=[o1,o2,…,on]。oi是當前卷積核在輸入矩陣中移動一次產生的結果,o是當前卷積核對輸入矩陣做一次完全卷積后的輸出結果。將每個卷積結果聯合得到最終卷積結果O。本文采用3種尺寸的卷積核,每種尺寸的卷積核數量都是多個,通過不同的卷積核來提取文本特征。最后,將這些特征值聯合作為文本的特征表達,并通過填充保證卷積網絡的輸入和輸出的矩陣形狀大小是相同的。

2.4 注意力機制

本文將雙編碼器獲得的全文信息和詞匯特征融入到注意力機制,改善語義信息不充分等問題,增強對全文的理解。首先對雙編碼的輸出結果進行融合,如式(8)所示

(8)

(9)

(10)

(11)

2.5 解碼器

解碼器端采用單向GRU網絡。解碼器的輸入由上一時刻t-1解碼器的輸出yt-1、上一時刻t-1解碼器的隱藏狀態St-1、當前時刻t的上下文語義Ct,這3部分共同構成。將雙編碼器的最終隱藏狀態作為解碼器的第一個輸入,GRU網絡結構公式為式(12)~式(15)

zt=σ(WzSt-1+WzCt+Wzyt-1])

(12)

rt=σ(Wr+St-1+WrCt+Wryt-1])

(13)

(14)

(15)

P(yt|y1,y2,…,yn,Ct)=softmax(St)

(16)

St=GRU(St-1,Ct,yt-1)

(17)

2.6 指針機制與集束搜索

本文采用指針機制解決未登錄詞問題(out of vocabulary,OOV),采用集束搜索降低計算復雜度并提高準確率。

模型的詞表由文本的高頻詞匯構成,不在詞匯表中的詞用UNK表示。指針機制是指在解碼器端設置一個指針開關,判斷目標詞匯yt是復制文本詞匯生成還是由GRU網絡直接生成。當解碼器生成OOV的詞,指針開關為復制模式P,指針指向源文本復制相應詞匯作為目標詞;若不是OOV的詞,指針開關模式為生成模式G,由解碼器直接從詞表中生成目標詞匯

P=sigmoid(WsSt+Wyyt-1+WcCt+b)

(18)

式中:P可以看成指針控制開關,概率值很小時復制詞語,反之基于詞匯表生成新詞匯。Ws、Wy、Wc這3個為權重矩陣。

傳統的解碼器采用的是貪心搜索,即在概率矩陣中選擇最大的概率去生成目標詞。集束搜索是一種啟發式圖搜索算法,集束搜索選取前q個最大概率,考慮更多的候選空間,這樣可以獲得更好的生成結果。本文設置集束搜索的寬度q為10。

3 實驗與分析

3.1 數據集

本文采用由B.Hu等[18]構建的中文短文本摘要數據集LCSTS,該數據集抓取通過認證組織的微博。該數據集收集新浪微博上的50個流行官方組織用戶作為種子(粉絲超過100萬且具有藍V標志,如人民日報、中國日報、環球時報等),微博文本涉及政治、經濟、軍事、娛樂等領域。數據集由短文本-摘要構成數據對,主要分為3部分,見表1。

表1 LCSTS數據集介紹

第一部分:這部分是數據集的主要部分,包含2 400 591個短文本-摘要對,用來訓練模型。

第二部分:這部分數據是從第一部分數據中隨機采樣得到的,包含10 666個人工標注的短文本-摘要對,將其作為高質量的訓練樣本數據。用1-5分對樣本進行打分,‘1’表示最不相關,‘5’表示最相關。

第三部分:獨立于第一部分和第二部分,包含1106個短文本-摘要對,使用‘3’以上作為測試集。

本文采用第一部分作為訓練集,第三部分作為測試集。

3.2 評價指標

本文采用自動文本摘要任務中通用的ROUGE分數作為評價指標,ROUGE是面向召回率的摘要評估輔助工具。該指標思想是將模型生成的摘要與參考摘要中的n元詞匯重疊量作為評價依據,生成摘要與參考摘要匹配的n(n取值為1,2,3等自然數)元詞語數量越多,ROUGE的評分越高,摘要質量越好。評價指標包含ROUGE-N(N取值為1,2,3等自然數),ROUGE-L等一系列指標。ROUGE-N指標計算生成摘要與參考摘要的n-gram召回率。ROUGE-L指標計算生成摘要與參考摘要兩個文本單元之間的最長公共子序列(lcs)。本文采用ROUGE-1、ROUGE-2和ROUGE-L評價文本摘要質量,如式(19)~式(23)所示

(19)

(20)

(21)

(22)

(23)

其中,X表示生成摘要,Y表示參考摘要。Cmatch(1-gram)表示生成摘要和參考摘要1-gram的共現次數,Cmatch(2-gram)表示生成摘要和參考摘要2-gram的共現次數。LCS(X,Y)表示生成摘要與參考摘要的最長公共子序列長度,m表示參考摘要的長度,n表示生成摘要的長度。

3.3 實驗環境與參數設置

本文實驗環境見表2。

表2 實驗環境

實驗中,選取50 000個高頻詞匯構建詞匯表。大量的實驗研究表明,詞向量的維度對模型的表現有著很大的影響。本文通過PIP損失函數找到詞向量矩陣偏差與方差的最佳平衡點,選取本文的最優詞向量為256維,如圖6所示。模型訓練的批次大小設置為64,Adam的學習率設置為0.001。

圖6 詞嵌入維度最優選擇

TCN網絡參數選優過程如圖7所示,擴張系數設置為2i。圖7(a)代表TCN網絡Loss值隨卷積層數變化曲線,當卷積層數為4時,Loss值最小,所以擴張卷積層數設置為4。圖7(b)代表TCN網絡Loss值隨卷積核大小變化曲線,當卷積核大小為7時,Loss值最小,所以卷積核大小設置為7。圖7(c)表示TCN網絡Loss值隨dropout變化曲線,當dropout值為0.25時,Loss值最小,所以dropout設置為0.25。

圖7 TCN網絡參數擇優曲線

CNN網絡參數選優過程如圖8所示,CNN網絡卷積層設置為3,卷積核個數設置為256個,卷積滑動步長設置為1。圖8(a)代表CCN網絡Loss值隨卷積層數變化曲線,當卷積層數為3時,Loss值最小,所以擴張卷積層數設置為3。圖8(b)代表CNN網絡Loss值隨卷積核大小變化曲線,當卷積核大小為1、3、5時,Loss值相較最小,所以卷積核大小設置為1、3、5。圖8(c)表示CNN網絡Loss值隨dropout變化曲線,當dropout值為0.4時,Loss值最小,所以dropout設置為0.4。

圖8 CNN網絡參數擇優曲線

3.4 實驗過程與結果分析

第一步:數據處理、分詞。本文采用pkuseg分詞[12]工具對文本進行分詞,pkuseg是由北京大學語言計算與機器學習研究組研制推出的一套全新的中文分詞工具包。該分詞工具支持多領域分詞,分詞準確率較高。第二步:構建詞匯表。將數據集中的第一部分作為訓練集,對其進行分詞后,從中選取50 000個高頻詞匯作為詞匯表。構建詞向量。采用Glove預訓練模型將分詞表示成分布式向量。第三步:編碼器編碼。雙編碼器共同構建上下文向量,TCN網絡對全文信息進行編碼,CNN網絡提取文本詞匯特征。將雙編碼器進行特征融合得到編碼器端的最終隱層狀態。第四步:注意力機制。加入注意力機制將固定的上下文語義向量轉換為不同時刻結合解碼器的上下文語義向量。第五步:解碼器解碼。解碼器的輸入為上下文語義向量、上一時刻的解碼器隱藏狀態和上一時刻解碼器的輸出。第六步:生成摘要。第七步:評價模型。

本文采用上述數據集進行實驗,訓練集迭代次數和測試集迭代次數與損失值變化如圖9所示。

圖9 TCAtten-GRU模型訓練集和測試集與損失值變化關系

將該模型與4種代表模型進行對比與分析,分別是Hu等在LCSTS數據集中提出的兩種模型RNN[18](編解碼器都是RNN,沒有注意力機制,編碼器的最后一個隱藏狀態作為中間語義向量)和RNN content[18](編解碼器與上一個模型一致,加入注意力機制)、MC-LSTM+atten[9](編碼器采用CNN網絡,解碼器為LSTM,加入注意力機制)以及BiGRU-GRU+atten[3](編碼器采用雙向GRU網絡,解碼器采用GRU,加入注意力機制)。實驗詳情見表3,每個模型的評分隨迭代次數而改變,模型與3個評價指標對比如圖10所示。

表3 不同模型的ROUGE評分對比

圖10 不同模型的ROUGE評分對比

從表3中可以看出,TCAtten-GRU(本文)模型的3個評分均高于其余4種模型。采用TCN和CNN作為雙編碼器可以更好的對源文進行編碼,得到更為充分的上下文語義向量;加入指針機制更好地解決了未登錄詞問題;集束搜索可以生成更好的摘要。表4為測試結果的例子。

表4 不同模型的生成摘要結果

4 結束語

本文通過對生成式摘要任務進行研究,在傳統Seq2Seq模型的基礎上提出了一種模型TCAtten-GRU。該模型采用雙編碼器結構并融入注意力機制,解碼器端加入集束搜索和指針機制。TCN網絡編碼器對文本進行全文編碼,CNN網絡編碼器可以更好提取文本特征,將雙編碼的結果相融合共同構建注意力機制以得到更豐富和準確的語義信息。加入集束搜索和指針機制的解碼器可以解決未登錄詞問題并得到更準確的摘要,提高了生成摘要的質量。在LCSTS數據上進行實驗后,從ROUGE指標可以看出,本模型與其它4個模型相比有較好的性能。自動摘要根據文本數量和大小來分,可以分為短文本和長文本、單文檔和多文檔,該模型在處理長文本和多文檔時性能還有待提升,所以下一步本模型將進一步改進來解決以上問題。

猜你喜歡
語義機制文本
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
認知范疇模糊與語義模糊
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
主站蜘蛛池模板: 色哟哟国产精品一区二区| 欧美精品啪啪| 国产精品视频导航| 亚洲精品国产日韩无码AV永久免费网| 国产高清在线观看91精品| 18禁不卡免费网站| 18禁高潮出水呻吟娇喘蜜芽| 日韩无码视频播放| 日韩 欧美 小说 综合网 另类| 国产尤物在线播放| 伊人久久大香线蕉成人综合网| 蜜桃臀无码内射一区二区三区 | 国内熟女少妇一线天| 亚洲第一区在线| 呦视频在线一区二区三区| 亚洲精品第五页| 久久婷婷六月| 三级视频中文字幕| 在线精品自拍| 视频二区欧美| 国产91视频观看| 日韩毛片基地| 国产精品自拍露脸视频| 国产精品不卡永久免费| 国产97色在线| 亚洲视频色图| 一区二区理伦视频| 国产手机在线小视频免费观看| 国产亚洲精品97在线观看| 萌白酱国产一区二区| 久无码久无码av无码| 国产一级裸网站| 免费观看成人久久网免费观看| 亚洲三级网站| 亚洲一区二区约美女探花| 免费人欧美成又黄又爽的视频| 欧美国产日韩在线| 日本久久网站| 在线观看免费黄色网址| 亚洲αv毛片| 欧美精品H在线播放| 免费无遮挡AV| 无码内射在线| 国产一区二区三区在线观看免费| 国产成人精品无码一区二| 成人在线综合| 亚洲第一色网站| 狠狠色狠狠色综合久久第一次| 成人午夜视频网站| 国内毛片视频| 国产无码精品在线| 中国黄色一级视频| 国产日韩AV高潮在线| 精品国产一区91在线| 中文字幕调教一区二区视频| 91久久天天躁狠狠躁夜夜| 久久久久无码国产精品不卡| 中国精品自拍| 77777亚洲午夜久久多人| 国产激情无码一区二区三区免费| 久久精品丝袜| 国产成人精品一区二区三区| 亚洲日本中文字幕天堂网| 91丝袜在线观看| 欧美午夜理伦三级在线观看| 亚洲av无码成人专区| 色综合激情网| 国产又色又刺激高潮免费看| 国产一区二区三区视频| 91麻豆精品视频| 中文成人在线| 国产成熟女人性满足视频| 欧美劲爆第一页| 波多野结衣一区二区三区AV| 成人在线观看一区| 波多野结衣一区二区三区AV| 九色国产在线| 成人在线不卡视频| 伊人久久大香线蕉影院| 国产不卡网| 91成人精品视频| 在线免费看片a|