999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的生成式自動摘要技術

2021-01-22 13:40:46陳天池洪沛楊國鋒
數(shù)字技術與應用 2020年12期
關鍵詞:語義文本實驗

陳天池 洪沛 楊國鋒

(中國電信安徽分公司,安徽合肥 230001)

0 引言

互聯(lián)網(wǎng)技術的高速發(fā)展帶來信息快速增長的問題,人們在處理和閱讀文本信息中花費大量時間和精力,精簡濃縮文本信息的技術顯得尤為迫切。自動摘要技術是一種能夠從文檔中獲取重要信息的方法,它能緩解信息爆炸時代給人們帶來的時間精力問題。

自動摘要技術按照組成摘要的句子進行區(qū)分,可以分為抽取式自動摘要和生成式自動摘要。抽取式摘要通過考慮原文中句子的位置、詞頻、關鍵詞[1]等評估句子重要度,從原文中提取重要度高的句子組成摘要。此外,陸續(xù)有研究將外部知識引入自動摘要任務中,如TF-IDF、Text Rank[2]等,這些算法可以挖掘語料中隱含的知識將其融入句子重要度評估函數(shù)中,提高自動摘要效果。抽取式方法雖然能輸出語義完整的句子,但由于語言的復雜性和靈活性缺乏對語義的分析,其核心問題在于如何選取更合適的句子來表達文章的中心思想。深度學習技術的出現(xiàn)推動了生成式自動摘要技術的發(fā)展,生成式方法使用了一系列自然語言處理技術對原文內(nèi)容進行總結(jié),生成更加符合人類摘要思維的句子。當前主流的生成式摘要技術是基于Seq2Seq框架進行的[3-4],通過對輸入的原文檔加以理解將輸入序列表示成向量形式,然后經(jīng)解碼器解碼得到生成的目標文本,即摘要。與抽取式摘要相比,生成式的方法能夠從語義層面對文本進行分析,生成更加簡潔、靈活、多樣的摘要。

根據(jù)任務需求,本文將從語義分析角度出發(fā),基于Seq2Seq框架進行文本語義信息解析,聯(lián)合注意力機制將文本中的關鍵信息與語義信息結(jié)合起來實現(xiàn)對摘要的引導生成。

1 生成式摘要算法模型

1.1 Seq2Seq框架

Seq2Seq框架[5]是Google在2014年一篇機器翻譯的文章上提出來的,將深度學習模型用于語言生成,推動了自然語言生成領域的發(fā)展。Seq2Seq是一個Encoder-Decoder結(jié)構(gòu)的網(wǎng)絡,其輸入是一個序列,輸出也是一個序列。其中Encoder的任務是將輸入序列編碼表示成一個帶有語義信息的中間向量,Decoder則將Encoder產(chǎn)生的中間語義向量作為輸入解碼為目標輸出序列。

圖1 Seq2Seq框架

其內(nèi)部工作流程如圖1所示,X代表給定的原始文本輸入,Y代表生成的摘要,分別由各自的單詞序列組成:X=,Y=,m

1.2 注意力機制(Attention)

Seq2Seq的Encoder-Decoder結(jié)構(gòu)雖然非常經(jīng)典,但具有一定的局限性。其最大的局限性就在于編碼器要將整個序列的信息壓縮進一個固定長度的向量C中去。當輸入序列過長時,一個向量C可能會丟失早期攜帶的信息,無法完全表示整個序列的信息。這就使得在解碼的時候無法獲得輸入序列足夠的信息,那么解碼的準確率就會下降。

圖2 Attention機制

Attention機制[6]就是為了解決上述問題而提出的。相較于Encoder-Decoder框架,Attention最大的區(qū)別就在于它不要求編碼器將所有輸入信息都壓縮到一個固定的向量序列C,而是根據(jù)當前要輸出的y進行動態(tài)調(diào)整,給不同部分賦予不同的權(quán)重,從而有針對性的對輸入的全部信息進行有效利用,如圖2所示。

1.3 算法流程

基于上節(jié)介紹的相關技術,本文采用的Seq2Seq+Attention生成式自動摘要算法的結(jié)構(gòu)如圖3具體操作流程如下:

1.3.1 詞典構(gòu)建

考慮到分詞工具容易對文本分詞產(chǎn)生錯分(尤其是未登錄詞),本文選擇直接采用字作為基本輸入進行摘要抽取。對語料中所有字進行頻率統(tǒng)計,過濾掉頻率過低的字,結(jié)果作為詞典保存。

1.3.2 Embedding

以字為基本單位,對輸入信息進行padding后做Embedding處理,將每個字轉(zhuǎn)換為固定長度m的向量,輸入文本即可表示為m×n的矩陣。此處encoder和decoder共享Embedding層的參數(shù),降低模型參數(shù)量。

1.3.3 Encoder

把Embedding后的向量輸入encoder將其編碼為中間語義向量,其中Encoder采用雙層雙向LSTM,它可以更好的捕捉雙向的語義依賴。

1.3.4 Attention + Decoder

由于decoder在執(zhí)行每一步時無法提前使用后面步的輸入,因此Decoder采用雙層單向LSTM結(jié)構(gòu)。Attention機制應用在encoder的hidden states上得到context,context一方面作為輸入與目標字串聯(lián)作為Decoder端LSTM的輸入,循環(huán)得到hidden states;另一方面可以和Decoder的hidden states連接進行softmax計算輸出概率。

圖3 Seq2Seq + Attention

表1 實驗結(jié)果

表2 摘要示例

2 實驗結(jié)果及分析

2.1 數(shù)據(jù)集

自動文本摘要發(fā)展緩慢的原因之一是業(yè)界缺乏大規(guī)模且高質(zhì)量的數(shù)據(jù)集,數(shù)據(jù)集的好壞直接決定了最后摘要生成的質(zhì)量的好壞,本文使用的數(shù)據(jù)集為清華大學開源的THUCNews[7],該數(shù)據(jù)集包含74萬篇新聞文檔,共14個類,每條包含新聞標題和對應的新聞內(nèi)容,本文將新聞標題作為摘要輸入模型進行訓練。

2.2 實驗結(jié)果與討論

摘要結(jié)果評價采用了Rouge評價體系[8],它是目前公認的摘要評價標準。Rouge評價的思路是分析比較候選摘要集與專家摘要集的相似程度來評價摘要質(zhì)量。本文采用Rouge-1,Rouge-2和Rouge-L三種方式分別從字相似度、詞相似度和句子流暢度三個方面對模型生成的摘要質(zhì)量進行測試評價。

本文進行了兩組實驗,實驗1采用抽取式方法Text Teaser,實驗2采用生成式方法Seq2Seq+Attention,實驗結(jié)果如表1所示。

表2給出了測試結(jié)果的示例,每個例子包含原文本、與之對應的專家摘要、Text Teaser抽取的摘要和Seq2Seq+Attention生成的摘要。通過實驗結(jié)果對比可以看出,Text Teaser抽取出的摘要偏長,且沒有突出文章主題“《我是唱作人》”,而本文設計的生成摘要模型能夠準確識別出主題關鍵詞“《我是唱作人》”,同時引申聯(lián)想到了原文中沒有的“云集”一詞對文中列舉的明星進行概括表達。對比實驗結(jié)果可知,抽取式摘要雖然能夠獲得一個完整通順的句子,但往往難以全面概括文章主題,生成式摘要則能夠?qū)⑽闹性溥M行縮寫、轉(zhuǎn)述等,生成更凝練的摘要,更加符合人的理解。

3 結(jié)語

從上述實驗分析結(jié)果來看,本文采用的Seq2Seq+Attention方法能夠在一定程度具有表征、理解、生成文本摘要的能力,滿足提取關鍵信息的要求。但從實驗結(jié)果來看該方法也存在許多不足,模型在對人/地名等命名實體、未登錄詞、重復詞進行處理時,無法準確識別這些信息,最終導致摘要生成結(jié)果表述不準確。因此,在后續(xù)的研究中我們將針對這一問題作進一步研究,為準確提供用戶AI話術提供更有力的支撐。

猜你喜歡
語義文本實驗
記一次有趣的實驗
語言與語義
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: av手机版在线播放| 久久久受www免费人成| 亚洲娇小与黑人巨大交| 免费不卡在线观看av| 四虎AV麻豆| 亚洲欧洲日韩综合色天使| 日韩精品少妇无码受不了| 免费在线国产一区二区三区精品| 久久熟女AV| 无码区日韩专区免费系列| 91九色视频网| 亚洲第一天堂无码专区| 日本一区二区三区精品视频| 欧美日韩在线亚洲国产人| 亚洲色精品国产一区二区三区| 五月综合色婷婷| 五月天综合婷婷| 国产办公室秘书无码精品| 中文字幕日韩丝袜一区| 国产正在播放| 国产欧美日韩免费| 99er这里只有精品| 成人精品区| 欧美视频二区| 一本一道波多野结衣一区二区 | 色悠久久综合| 欧美中文字幕一区| 亚洲,国产,日韩,综合一区 | 亚洲国产成熟视频在线多多| 国产成人h在线观看网站站| 毛片一区二区在线看| 国产综合亚洲欧洲区精品无码| 亚洲人成人伊人成综合网无码| 91麻豆精品视频| 在线观看免费人成视频色快速| 亚洲美女操| 国产成人综合亚洲欧美在| 精品久久久久久久久久久| 久久永久视频| 99精品在线看| 草逼视频国产| 狠狠色香婷婷久久亚洲精品| 国产精品女人呻吟在线观看| 白丝美女办公室高潮喷水视频| 伊人久久精品亚洲午夜| 久久青草免费91观看| 亚洲精品视频免费看| аv天堂最新中文在线| 欧洲精品视频在线观看| 中国国产A一级毛片| a毛片在线免费观看| 国产97区一区二区三区无码| 久久人人爽人人爽人人片aV东京热| 欧美福利在线| 久久国产精品电影| 亚洲日韩久久综合中文字幕| 精品无码视频在线观看| 久久综合五月| 国产办公室秘书无码精品| 亚洲成网站| 国产毛片基地| 亚洲国产成人精品无码区性色| 高清国产在线| 日本精品视频一区二区| 中文成人无码国产亚洲| 亚洲黄网视频| 亚洲V日韩V无码一区二区| 国产凹凸一区在线观看视频| 国产精品亚洲а∨天堂免下载| 天天色天天综合| 国产免费久久精品99re丫丫一| 中文字幕66页| 国产精品夜夜嗨视频免费视频| 波多野结衣久久精品| 久久久久久高潮白浆| 天天躁狠狠躁| 91亚洲国产视频| 日韩午夜片| 欧美亚洲一区二区三区导航 | 秋霞国产在线| 97在线视频免费观看| 久久这里只有精品23|