999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向人民日報語料的新聞自動摘要生成

2022-10-09 00:42:10梁媛王東波黃水清
知識管理論壇 2022年4期
關鍵詞:文本實驗模型

梁媛 王東波 黃水清

1.南京農(nóng)業(yè)大學信息管理學院 南京 210095

2.南京農(nóng)業(yè)大學人文與社會計算研究中心 南京 210095

1 引言

網(wǎng)絡信息的爆炸式增長在使人們獲取信息更加便利的同時,也帶來了信息利用效率低、閱讀成本過高等問題,而自動摘要技術通過對信息的壓縮和精煉,為提高知識獲取效率提供了輔助手段[1],該技術的產(chǎn)生和發(fā)展使解決上述問題成為可能。目前,自動摘要的主要方式有抽取式和生成式兩種,抽取式自動摘要起步較早,經(jīng)過許多學者多年研究,該技術已較為成熟,而隨著機器學習引入到自動摘要領域,生成式自動摘要再一次迎來了發(fā)展的可能。

新聞是記錄社會問題、傳播時代信息、獲取時事熱點的重要途徑,而《人民日報》是中國共產(chǎn)黨中央委員會機關報,是國家與人民溝通的主要媒介,也是國內(nèi)外文化交流的橋梁,因此,人民日報語料的研究具有重要意義。本文實驗語料來自新時代人民日報語料庫(New Era People’s Daily Segmented Corpus,簡稱NEPD)[2],NEPD中收錄的《人民日報》文章經(jīng)過人工分詞和校對,是具有良好可用性的精語料[3]。通過NEPD中的語料可快速便捷地計算詞語及其頻次,進而進行后續(xù)的數(shù)據(jù)預處理,完成相應的文本處理任務。

筆者結合人們新聞瀏覽趨勢的變化,針對大量新聞文本需要精煉的特征,面向人民日報語料,實現(xiàn)抽取式新聞自動摘要算法和生成式自動摘要模型的構建,并對摘要結果進行評價,進而提高新聞信息使用效率,節(jié)省用戶閱讀成本,為文本自動摘要技術及其評價方法提供思路。

2 相關研究

早期,莫燕[4]和王永成[5]介紹了自動文獻摘要和自動提取知識的思想和算法。之后,王永成和許慧敏[6]、王知津[7]分別提出并設計了OA中文文獻自動摘要系統(tǒng)和基于句子選擇的自動文本摘要系統(tǒng),并對中文文獻自動摘要的歷史、發(fā)展和意義進行了概述。史磊和王永成[8]則對英文文獻自動摘要系統(tǒng)進行了研究。

在前人研究的基礎上,文本自動摘要研究得以快速發(fā)展,各類算法推陳出新。熊嬌等[9]、張筱丹和胡學鋼[10]、劉星含和霍華[11]、紀文倩等[12]、曾哲軍[13]、劉靜和肖璐[14]分別采用圖模型、向量空間模型、互信息、連續(xù)LexRank算法、依存句法分析圖模型對文本進行自動摘要處理。王帥等[15]采用基于圖模型和循環(huán)神經(jīng)網(wǎng)絡模型兩階段的長文本自動摘要方法,在大規(guī)模金融長文本數(shù)據(jù)上進行了摘要生成實驗;吳云等[16]提高與標題相似的特征詞的詞頻,進而計算詞頻矩陣和句子相似度,得到了詞句協(xié)同的自動摘要提取算法;陳晨等[17]應用詞句協(xié)同排序提出了基于圖模型的自動摘要算法;丁建立等[18]采用多維度詞嵌入模式,基于雙編碼器融入雙通道語義對短文本進行自動摘要任務;馮讀娟等[19]同樣基于雙編碼器網(wǎng)絡結構構建了CGAtten-GRU模型,并在大規(guī)模中文短文本摘要中取得良好的效果;廖濤等[20]參考圖結構表示提出了事件網(wǎng)絡表示文本中的事件關系,進而進行文本自動摘要;徐馨韜等[21]改進了TextRank算法,將Doc2Vec模型和K-means算法融入其中,優(yōu)化了主題句提取生成摘要的效果;陳海華等[22]將引文上下文內(nèi)容特征與支持向量機(support vector machine, SVM)模型融合,對學術文本進行自動摘要;黃水清等[23]根據(jù)計算機類文獻設計了該領域自動文本摘要系統(tǒng);張晗和趙玉虹[24]則針對醫(yī)學文本,對文本及語義關系進行規(guī)范化抽取和語義圖的構建,以實現(xiàn)句子主題歸類,進而生成摘要;陳志敏等[25]、李芳和何婷婷[26]則從信息檢索方面入手,基于用戶查詢擴展及查詢文檔集合輔助生成摘要。

在這些算法中,采用主題劃分、多特征融合算法的自動摘要研究尤為突出。張哲銘等[27]提出了結合主題感知與通信代理的高質量長文本摘要模型,能夠生成主題突出的摘要結果;陳燕敏等[28]提出了一種融合主題與內(nèi)容的自動摘要方法,并通過指代消解獲得具有良好的連貫性和流暢性的自動摘要結果;羅芳等[29]改進了圖模型方法,基于隱含狄利克雷分布(latent Dirichlet allocation,LDA)主題模型挖掘出的主題語義信息,將主題特征、統(tǒng)計特征和句間相似度等多維度對文本進行度量和抽取,最終達到深層主題語義挖掘利用的目的,實現(xiàn)自動摘要;杜秀英[30]針對大規(guī)模多文本摘要,構建了基于聚類與語義相似分析的MapReduce自動摘要架構,在時間性能、壓縮效果和摘要質量上都有一定的提升。但以上方法和模型主要集中于抽取式自動摘要的研究,而對于生成式自動摘要仍有較大的研究空間。

隨著大數(shù)據(jù)和人工智能技術的迅猛發(fā)展,傳統(tǒng)自動文摘研究正朝著從抽取式摘要到生成式摘要的方向演化,從而達到生成更高質量的自然流暢的文摘的目的。近年來,深度學習技術逐漸被應用于生成式摘要研究中。吳世鑫等[31]基于帶注意力、Pointer機制和Coverage機制的Sequence-to-Sequence模型引入語義對齊的神經(jīng)網(wǎng)絡,實現(xiàn)生成式自動摘要模型的構建;方旭等[32]提出了一種結合核心詞修正的長短期記憶網(wǎng)絡(long short-term memory,LSTM)算法自動生成中文短文本摘要;唐曉波和翟夏普[33]改進了PageRank算法,并采用句子向量化、分類器分類、句群劃分和句子重組混合機器學習模型進行多文檔自動摘要研究;譚金源等[34]和張克君等[35]融合多個深度學習模型分別提出了Bi-MulRnn+和BERT-指針生成網(wǎng)絡BERT-PGN生成式自動摘要模型,有效改善了生成式摘要的準確性和流暢度;李維勇等[36]、肖元君和吳國文[37]也都進行了基于深度學習的中文生成式自動摘要模型的研究與實現(xiàn)。

逐漸加快的生活節(jié)奏不斷改變著人們的閱讀習慣,人們從紙質書籍、報刊轉向電子化閱讀,閱讀的新聞也逐漸轉為短文本,因此,新聞媒體以及讀者對于新聞摘要自動化的需求也隨之增大。官禮和[38]分析了中文網(wǎng)絡新聞自動摘要的思路和流程,并通過實驗進行了分析佐證;韓永峰等[39]探討了自動摘要中信息冗余的問題,并提出了基于事件抽取的網(wǎng)絡新聞多文檔自動摘要的改進方法;沈洲等[40]建立了新聞文獻主題提取規(guī)則庫,構建了面向新聞文獻基于規(guī)則的自動摘要系統(tǒng);李孟爽等[41]提出的自動摘要算法是基于互信息對文本詞句語義特征的計算結果,并據(jù)此進行主題劃分,抽取出關鍵句生成最終的文本摘要;王凱祥和任明[42]為滿足用戶查詢的信息需求,設計了基于查詢的新聞自動摘要算法,還與TFIDF、TextRank、LDA等6種方法進行了對比實驗;黃小江等[43]基于協(xié)同圖排序模型自動生成了新聞話題的對比摘要,具有很強的新穎性;柯修和王惠臨[44]則融合多種算法,包括指代消解、文本外部特征和圖排序方法,實現(xiàn)了漢語、英語、孟加拉語3個語種的多文檔新聞自動摘要;葉雷等[45]同樣采用圖排序方法,提出了多特征融合的漢越雙語新聞摘要方法,能夠自動獲取同一事件的漢越雙語新聞摘要。除新聞外,如微博、論壇等用戶自主生成內(nèi)容中的信息也擁有巨大的研究價值,而自動摘要是獲取這類重要信息的一種手段,但這些短文本高冗余、高噪聲等特征對于自動摘要造成較大的影響[46],學者們[47-50]也在為解決這一問題作出不懈努力。

通過對上述文獻的梳理可以發(fā)現(xiàn),從基于規(guī)則、基于統(tǒng)計到后來的深度學習,從普通文本到動態(tài)視頻,自動摘要技術的研究正隨著技術的進步和用戶的需求不斷更迭發(fā)展著。而新聞自動摘要一直具有重要意義,其能夠在很大程度上滿足人們快節(jié)奏生活中的新聞獲取。但目前新聞自動摘要的應用型研究主要集中在新聞的抽取式自動摘要上,而對于生成式自動摘要尚未有領域性、準確性較強的模型和系統(tǒng)。因此,筆者面向人民日報語料展開自動摘要的研究,通過傳統(tǒng)算法和深度學習算法完成自動摘要任務,旨在根據(jù)當前主流新聞媒體的文本特征構建自動摘要模型,解決用戶閱讀長文本新聞耗時長、信息利用率低的問題,同時也為新聞媒體的知識聚合服務提供幫助,為新聞傳播、文化傳承提供新思路。

3 算法模型介紹

自然語言處理(natural language processing,NLP)作為一個傳統(tǒng)研究領域,自其產(chǎn)生始終熱度不減,其中緣由不只是新技術的誕生和引入,也因NLP有“最困難的人工智能子領域”之名。其中的自動摘要任務也是研究者們不斷研究、突破的主要難點之一,特別是在快速閱讀成為人們生活中非常重要的閱讀方式的前提下。目前,自動摘要方法按生成方式主要分為抽取式自動摘要和生成式自動摘要,抽取式自動摘要主要應用關鍵詞句排序的思想,而生成式自動摘要更多是基于深度學習模型來完成。在本文的實驗中,抽取式自動摘要主要運用了關鍵詞確定句子權重和TextRank等傳統(tǒng)算法的思想,生成式自動摘要則參考了基于指針生成網(wǎng)絡構建的面向中文的Text-Summarizer-Pytorh-Chinese模型[50]及其思路。

3.1 抽取式自動摘要

本研究中的抽取式自動摘要主要采用的是按詞頻和簇確定關鍵詞,再通過關鍵詞對所在句打分,分數(shù)排序確定最終生成摘要的句子。這種方法源自IBM公司H. P. Luhn的一篇文章The Automatic Creation of Literature Abstracts[51],他提出用簇(cluster)表示關鍵詞的聚類結果,這里的簇即包含多個關鍵詞的句子片段,如圖1所示:

圖1 關鍵詞簇聚類示意圖

簇權重的計算公式[52]如下:

其中,簇長指句子片段中所包含詞語的數(shù)量,以本研究中的部分人民日報語料為例:

“經(jīng)過全國各族人民共同努力,‘十二五’規(guī)劃圓滿收官,廣大人民群眾有了更多獲得感”,

分詞后語料實例為:

“經(jīng)過/全國/各族/人民/共同/努力/,/‘/十二五/’/規(guī)劃/圓滿/收官/,/廣大/人民/群眾/有/了/更/多/獲得感”,

設“‘十二五’規(guī)劃圓滿收官”為一簇,簇長為6,“十二五”“規(guī)劃”“收官”為關鍵詞,“廣大人民群眾有了更多獲得感”為另一簇,簇長為8,關鍵詞為“人民”“群眾”“獲得感”,則兩簇權重分別為32/6=1.5和32/8=1.125。按權重對文本包含的句子進行排序,確定抽取閾值(本文設定的閾值為10,即抽出重要性最高的前10個句子),將這10個句子整合,即為該文本的自動摘要。類似TextRank算法,該算法源于PageRank算法,相當于將網(wǎng)頁替換為句子,通過句子相似度矩陣以及設定的閾值來獲得得分較高的句子作為自動摘要結果,這是一種無監(jiān)督的抽取式自動摘要。

3.2 生成式自動摘要

指針生成網(wǎng)絡(pointer-generator network)的自動摘要任務原理見圖2。該模型能夠通過自注意力機制集中于文本中的重要詞匯,并由此生成新詞匯。同時,它不是通過復制原詞來生成摘要,而是權衡詞表中詞匯的概率、詞匯分布以及注意力分布來確定候選詞的權重并獲得最終分布情況。

圖2 指針生成網(wǎng)絡自動摘要原理圖示[53]

目前,面向中文的基于指針生成網(wǎng)絡自動摘要的模型較少,因此,筆者參考Text-Summarizer-Pytorch-Chinese的 構 建 思 路,將預訓練語料調整為NEPD語料,詞表也針對NEPD語料進行了更新,之后再進行預訓練和模型構建。

4 面向人民日報語料的新聞自動摘要生成實驗

“《人民日報》是一張權威、嚴肅的綜合性日報,憑借其采編力量對新聞事件做出反應,報道國內(nèi)外重大事件”[54]。作為耳目與喉舌、橋梁和紐帶的主流媒體,其文本信息價值不言而喻,人民日報語料一直以來也是研究者們的重要數(shù)據(jù)來源,其中,北京大學計算語言學研究所構建的人民日報語料庫[55]是我國第一個大型的現(xiàn)代漢語標注語料庫,之后,南京農(nóng)業(yè)大學人文與社會計算研究中心在2019年對2015年至2018年《人民日報》發(fā)表的文章進行加工處理,構建了新時代人民日報語料庫(NEPD)[56]。本研究以NEPD中2015年1月、2015年6月和2016年1月3個月的語料為實驗對象展開研究,原始語料如圖3所示:

圖3 NEPD原始語料截圖示例

4.1 數(shù)據(jù)預處理

根據(jù)本研究需要,筆者將每篇新聞從源語料中分割出來,處理后的文本見圖4,為之后的摘要抽取和生成做準備。經(jīng)過數(shù)據(jù)清洗(同時清洗了未生成標準摘要的數(shù)據(jù)),獲得2015年1月新聞2 628條、2015年6月新聞916條、2016年1月新聞2 748條,共計6 292條數(shù)據(jù),本研究將以上述數(shù)據(jù)作為研究對象進行自動摘要研究。

圖4 單篇新聞截圖示例

4.2 實驗環(huán)境與參數(shù)設置

本實驗中生成式自動摘要模型訓練及測試時采用的操作系統(tǒng)為ubuntu 16.04,內(nèi)存為16GB DDR4,顯 存 為4GB GDDR5,CPU為Intel(R) Core(TM) i5-4590 CPU @ 3.30GHz,GPU型號為NVIDIA Quadro K1200。生成式自動摘要模型參數(shù)設置如表1所示。

表1 生成式自動摘要模型參數(shù)設置

4.3 實驗流程

本研究主要分為兩個部分:面向人民日報語料的新聞抽取式自動摘要算法(以下簡稱“抽取式自動摘要算法”)研究,以及面向人民日報語料的新聞生成式自動摘要模型(以下簡稱“生成式自動摘要模型”)構建。

在抽取式自動摘要算法實驗中,主要包括以下8個步驟:①人民日報分詞語料獲取; ②待摘要文本預處理:包括去除特殊字符和空格空行等;③去停用詞和詞頻統(tǒng)計:由于本研究選用的NEPD語料為精校過的分詞語料,因此,不需要進行分詞處理,在去停用詞后直接進行詞頻統(tǒng)計即可;④計算句子權重:參考特征包括標題關鍵詞信息、句子長度等特征; ⑤根據(jù)權重對句子進行排序;⑥選定合適的閾值提取摘要句;⑦生成摘要;⑧根據(jù)標準摘要對自動摘要進行評價(評價指標包括Rouge-1、Rouge-2和Rouge-L)。

生成式自動摘要模型構建過程主要包括以下7個步驟:①人民日報分詞語料獲取;②待摘要文本預處理:去除特殊字符和空格空行等,并根據(jù)模型要求調整訓練語料格式;③預訓練模型構建:將步驟②中的語料進行預訓練,得到具有《人民日報》特色的預訓練模型;④加入特征:根據(jù)NEPD分詞語料統(tǒng)計關鍵詞,并作為自定義詞表引入到模型訓練中,同時加入標題特征;⑤生成式自動摘要模型訓練:根據(jù)訓練過程及結果調整參數(shù)并進行迭代訓練;⑥根據(jù)最終模型生成摘要;⑦根據(jù)標準摘要對自動摘要進行評價(評價指標包括Rouge-1、Rouge-2和Rouge-L)。

5 實驗結果評價與分析

由于目前尚無針對人民日報語料的摘要標準語料庫,因此,筆者在對自動摘要實驗結果進行評價時,分別以關鍵詞詞頻抽取式自動摘要結果和百度智能云的新聞摘要接口的分析結果作為標準摘要集合。百度智能云的新聞摘要是基于深度語義分析模型自動抽取文本,能夠根據(jù)文本中的關鍵信息進一步生成指定長度的新聞摘要[57]。

以本文選取的人民日報語料為例:

標準摘要(關鍵詞詞頻抽取式自動摘要):

“恐怖主義是國際社會公敵,中國歷來反對一切形式的恐怖主義,積極參與國際反恐合作。軍隊和武警部隊出境執(zhí)行反恐任務,要遵守《聯(lián)合國憲章》的宗旨和原則,遵循國際關系準則,并充分尊重當事國的主權。至于今后軍隊和武警部隊是否赴境外反恐,將根據(jù)國家統(tǒng)一部署作出安排。”

自動摘要(面向人民日報語料的抽取式自動摘要):

“中國軍隊和武警部隊赴境外反恐將根據(jù)國家統(tǒng)一部署作出安排,軍隊和武警部隊出境執(zhí)行反恐任務,要遵守《聯(lián)合國憲章》的宗旨和原則,遵循國際關系準則,并充分尊重當事國的主權。至于今后軍隊和武警部隊是否赴境外反恐,將根據(jù)國家統(tǒng)一部署作出安排。”

標準摘要(百度智能云新聞摘要):

“據(jù)報道,在河南省南陽市鎮(zhèn)平縣城郊鄉(xiāng)的大劉營村,因當?shù)匚廴緡乐兀瑧言械拇迕裰荒茈x村待產(chǎn)。媒體曝光之后,當?shù)匾呀?jīng)責令涉事企業(yè)停產(chǎn)整治,并且問責環(huán)保部門領導。村民以這種方式遠離環(huán)境污染,映射出對美好生態(tài)環(huán)境的要求底線,更映射出惡意排污的現(xiàn)實和環(huán)保執(zhí)法的缺位。讓我們的后代成長在美好的環(huán)境中,這是我們對子孫后代的責任。”

自動摘要(面向人民日報語料的生成式自動摘要):

“重慶的不會愿意折騰到外村村民村民以這種方式遠離環(huán)境污染映射出對美好的生態(tài)環(huán)境。”

5.1 評價指標

Rouge(recall-oriented understudy for gisting evaluation)是評估自動摘要、機器翻譯等自然語言處理任務的常用指標,它是將標準摘要和自動生成摘要進行相似度計算,得到的數(shù)值即為評價結果,計算公式如下[58]:

其中,分母為n-gram個數(shù),分子為標準摘要和自動摘要共有的n-gram個數(shù)。例如,Rouge-1中的分子是自動摘要和標準摘要中均出現(xiàn)的1-gram的個數(shù),分子是標準摘要的1-gram個數(shù)。筆者選取的評價指標為Rouge-1、Rouge-2和Rouge-L,Rouge-L是 指 運 用LCS(longest common subsequence,最長公共子序列)計算的Rouge評測指標,計算公式分別為:

其中,LCS(X,Y)是X和Y的最長公共子序列的長度,m和n分別表示標準摘要和自動摘要的長度(通常為詞語個數(shù)),Rlcs和Plcs分別表示召回率和準確率。B的數(shù)值通常較大,導致Rouge-L幾乎只考慮召回率Rlcs,這與Rouge-N相同。

此外,上述3種Rouge評測指標內(nèi)部運用的P、R、F為準確率(Precision)、召回率(Recall)、F值(F-Measure)。具體計算公式分貝如下:

5.2 實驗結果

在抽取式自動摘要實驗中,本研究分別通過詞頻和簇聚類抽取關鍵詞的方式對句子進行打分,并按分數(shù)對句子進行排序,進而抽取出相應的摘要結果。將詞頻抽取式自動摘要結果作為標準摘要,將簇聚類抽取式自動摘要作為自動摘要結果并與標準摘要進行Rouge評測,部分摘要結果截圖如圖5所示:

圖5 自動摘要實驗結果示例

全部自動摘要的綜合評測結果見表2。通過表2可以看出,整體上抽取式自動摘要實驗結果抽取效果良好(均值:Rouge-1=0.8447,Rouge-2=0.8257,Rouge-L=0.8446),能夠對原始語料進行大致概括。由于在抽取式自動摘要實驗中,標準摘要同樣為自動生成,且在Rouge指標計算相似度的過程中,一旦抽取出的語句與標準摘要不同,則兩個對應的完整長句相似度將會極低,這可能會導致Rouge指標明顯偏低的問題出現(xiàn)。因此,筆者將會在未來的研究中一方面調整標準摘要的準確度,另一方面完善自動摘要的評價方法。

表2 抽取式自動摘要實驗評測結果

在生成式自動摘要實驗中,本研究將全部新聞語料進行預處理,接入百度智能云新聞摘要接口,獲取相應的自動摘要結果,由于該平臺輸入文本長度有限,因此,筆者經(jīng)過代碼篩選,共獲得7 967條符合文本長度限制的新聞文本。另外,由于本文擬構建的指針生成網(wǎng)絡模型需要大規(guī)模訓練語料,遂將2015年1月、2015年6月和2016年1月3個月的原始語料合并后再繼續(xù)進行實驗。

對語料進行預處理后,將原始文本和標準摘要(百度智能云生成摘要)匹配并輸入指針生成網(wǎng)絡模型中進行訓練和測試。筆者在模型訓練過程中引入了自定義詞表,該詞表由NEPD分詞語料生成,能夠提高自動摘要模型的訓練效果,以及生成摘要的流暢度和貼合度。在結果評價階段,筆者在生成式自動摘要實驗中采用的同樣是Rouge指標進行評價,評測結果如表3所示:

表3 生成式自動摘要實驗評測結果

以本研究生成結果的其中一組數(shù)據(jù)為例(見表4),不同算法或模型生成的摘要內(nèi)容有一定的差別,但總體上流暢度問題較小,可讀性有一定的差別。抽取式自動摘要由于單句抽取自人民日報原文,因此句子內(nèi)部可讀性高于生成式摘要,句間連貫性低于生成式摘要。從摘要內(nèi)容整體上看,抽取式摘要包含的內(nèi)容更豐富,但概括能力較差,內(nèi)容冗余,句子間關聯(lián)度較低;而生成式自動摘要有一定的語義理解能力,生成的摘要內(nèi)容更簡練,相對比較符合新聞摘要的特征,對原始語料的總結更靈活,但會出現(xiàn)個別詞匯重復、摘要內(nèi)容不全面等問題。

表4 面向《人民日報》的新聞自動摘要生成結果樣例

本研究選用的評測指標為Rouge指標,這種評價方式雖然直觀簡潔并且能夠在一定程度上反映詞序和摘要效果,但該指標區(qū)分度不高,特別是Rouge-N中N>3時,指標數(shù)值通常較小[58],對結果評價有較大影響。除此之外,Rouge指標主要是根據(jù)文本相似度對標準摘要和自動摘要進行對比,同時,它具有一定的獎勵機制,會給予原始表達(詞匯)更高的分數(shù)[53],這就導致在同一篇新聞中,通常抽取式自動摘要的分數(shù)會高于生成式自動摘要。因此,這種計算方式有一定的局限性,特別是對于生成式自動摘要而言更是如此。筆者將在后續(xù)研究中嘗試多種評價方式對實驗結果進行綜合測評,主要包括人工生成摘要數(shù)據(jù),將其作為標準摘要數(shù)據(jù)集,或通過對生成的自動摘要人工打分的方式進行評價,以求得到更準確的評價結果。

6 結語

自動摘要是將長文本提煉為簡潔精煉的短文本的過程,能夠幫助人們快速瀏覽文本資源并知曉文章大意,節(jié)省閱讀成本的同時,也提高了知識利用效率,特別是在信息資源日益龐大的當下,自動摘要技術的需求更是與日俱增。筆 者 以NEPD中2015年1月、2015年6月 和2016年1月3個月的人民日報分詞語料作為實驗語料,根據(jù)新聞文本特征,面向人民日報語料設計了基于關鍵詞詞頻排序和關鍵詞簇排序的抽取式自動摘要算法,并構建了基于指針生成網(wǎng)絡的生成式自動摘要模型,均在Rouge測評中取得了良好的實驗結果,生成的摘要結果具有較好的完整性。筆者將在接下來的研究中完善算法,改進模型,增強模型的復用性,并對評價方法做出改進,加入文本內(nèi)外部多個特征,增加人工生成標準摘要數(shù)據(jù)集和人工打分的環(huán)節(jié),以提高自動摘要的流暢性和可讀性。

猜你喜歡
文本實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产丰满大乳无码免费播放| 国产欧美视频综合二区| 国产精品视频猛进猛出| 久久中文字幕av不卡一区二区| 99久久成人国产精品免费| 在线观看视频99| 久久午夜夜伦鲁鲁片无码免费| 性喷潮久久久久久久久| 蜜臀av性久久久久蜜臀aⅴ麻豆| 玖玖免费视频在线观看| 国产一级在线播放| 日韩人妻无码制服丝袜视频| 亚洲国产综合精品一区| 人妻中文久热无码丝袜| 精品乱码久久久久久久| 人妻一区二区三区无码精品一区| 真人高潮娇喘嗯啊在线观看| 日韩无码黄色| 国产成人一区免费观看| 黄色福利在线| 国模视频一区二区| 亚洲丝袜第一页| 中文字幕亚洲乱码熟女1区2区| 亚洲婷婷丁香| 国产一级毛片高清完整视频版| 欧美不卡视频一区发布| 免费一看一级毛片| 国产区在线看| 国产自产视频一区二区三区| 国产在线观看人成激情视频| 亚洲女同欧美在线| 久久国产精品影院| 欧美 国产 人人视频| 国产欧美在线观看视频| 久久永久视频| 国产91麻豆免费观看| 久久久久人妻一区精品| 青青草国产精品久久久久| 极品av一区二区| 国产69囗曝护士吞精在线视频| 黄色网页在线观看| 成人一级黄色毛片| 久久99国产综合精品1| 久久毛片网| 青青草原偷拍视频| 亚洲精品第一页不卡| 国产成人禁片在线观看| 免费观看精品视频999| 日本成人精品视频| 波多野结衣的av一区二区三区| 国产精品第页| 国产三级视频网站| 亚洲精品麻豆| 欧美曰批视频免费播放免费| 亚洲国产日韩一区| 欧美啪啪视频免码| 国内黄色精品| 青青草国产一区二区三区| 色综合天天综合中文网| 成人噜噜噜视频在线观看| 日本久久久久久免费网络| 全午夜免费一级毛片| 亚洲a级在线观看| 亚洲成人77777| 农村乱人伦一区二区| 国产精品开放后亚洲| 午夜啪啪福利| 国产精品久久久精品三级| 91精品国产情侣高潮露脸| 久久精品国产精品一区二区| 91蜜芽尤物福利在线观看| 麻豆精品在线视频| 91丝袜美腿高跟国产极品老师| 久久国产高清视频| 久久情精品国产品免费| 99久久精彩视频| 国产主播在线一区| 欧美日韩在线第一页| 蜜桃臀无码内射一区二区三区| 老司机精品99在线播放| 青青网在线国产| 亚洲综合色区在线播放2019|