999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學(xué)習(xí)的文本摘要抽取方法研究*

2022-08-26 09:39:48祝超群彭艷兵
關(guān)鍵詞:排序文本效果

祝超群 彭艷兵

(1.武漢郵電科學(xué)研究院 武漢 430070)(2.南京烽火天地通信科技有限公司 南京 210019)

1 引言

目前,互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展,大量文本信息迅速產(chǎn)生,“信息過(guò)載”問(wèn)題逐漸出現(xiàn)在人們的日常生活中,而互聯(lián)網(wǎng)的普及也使得人們有了更便捷的方式去獲取信息、處理信息。如何在互聯(lián)網(wǎng)中快速有效地捕捉到關(guān)鍵信息成為目前急需解決的一個(gè)問(wèn)題,自動(dòng)文本摘要[1~3]被認(rèn)為是解決該問(wèn)題的一項(xiàng)關(guān)鍵技術(shù),它能夠做到有效地概括出文本中的重要信息。

自動(dòng)文本摘要研究的意義在于其具有廣泛的應(yīng)用場(chǎng)景,如各搜索引擎關(guān)鍵信息檢索、相同主題文本的智能推薦以及輿情監(jiān)督系統(tǒng)的熱點(diǎn)挖掘和專題追蹤等。因此,本文希望可以引入文本摘要抽取、集成學(xué)習(xí)等算法模型實(shí)現(xiàn)文本信息自動(dòng)化的有效抽取,為各應(yīng)用場(chǎng)景提供一些幫助。

集成學(xué)習(xí)[4](Ensemble Learning)是一種優(yōu)化算法,通過(guò)將多個(gè)單一學(xué)習(xí)器進(jìn)行結(jié)合,常可獲得比單一學(xué)習(xí)器更加顯著的泛化能力。其潛在思想是即使一個(gè)弱分類(lèi)器得到了一個(gè)錯(cuò)誤的結(jié)果,其他弱分類(lèi)器也有一定概率可將此錯(cuò)誤糾正。總體來(lái)說(shuō),集成學(xué)習(xí)在一些特定場(chǎng)景學(xué)習(xí)效果可能不如最優(yōu)的單一學(xué)習(xí)器,但是在大部分情況下,集成學(xué)習(xí)的學(xué)習(xí)效果更貼近或者超過(guò)單一最優(yōu)學(xué)習(xí)器,且集成學(xué)習(xí)的泛化能力要優(yōu)于單個(gè)學(xué)習(xí)器。

目前國(guó)內(nèi)外關(guān)于集成學(xué)習(xí)算法的應(yīng)用研究已有很多。高歡[5]等將集成學(xué)習(xí)思想用于挖掘消費(fèi)者在線評(píng)論的情感傾向,對(duì)商家提供服務(wù)建議具有重要意義;張玉華[6]等將集成學(xué)習(xí)思想應(yīng)用于計(jì)算機(jī)視覺(jué)研究領(lǐng)域進(jìn)行人體行為識(shí)別;劉擎超[7]等基于集成學(xué)習(xí)對(duì)多狀態(tài)交通情況進(jìn)行預(yù)報(bào)。

本文針對(duì)單一摘要抽取算法泛化能力弱的問(wèn)題,提出了利用多種文本摘要抽取算法進(jìn)行集成學(xué)習(xí)的文本摘要抽取模型,根據(jù)每種算法抽取出的關(guān)鍵句進(jìn)行非平均投票,最終加權(quán)得出分?jǐn)?shù)最高的句子作為摘要句,并且在NLPCC 2017 的中文單文檔摘要評(píng)測(cè)數(shù)據(jù)集[16]上的實(shí)驗(yàn)驗(yàn)證了此方法的有效性。

2 抽取式文本摘要研究綜述

國(guó)內(nèi)外對(duì)于自動(dòng)文摘相關(guān)的研究是近些年才逐漸發(fā)展起來(lái)的,但這一概念在20 世紀(jì)中期就已被IBM 公司的Luhn[8]提出,Luhn 于1958 年發(fā)表了一篇有關(guān)自動(dòng)文摘的論文,開(kāi)啟了一個(gè)領(lǐng)域的研究進(jìn)程,諸多學(xué)者加入研究行列,使得該領(lǐng)域的研究越發(fā)成熟。目前根據(jù)摘要生成方式的不同,將自動(dòng)文本摘要主要分為抽取式摘要(Extractive Summary)和生成式摘要(Abstractive Summary)[10]兩種方式。抽取式摘要,顧名思義,僅從文本中抽取信息,結(jié)果均是文本中的原生內(nèi)容,主要通過(guò)計(jì)算原文中各句子的重要性排名,再根據(jù)排名和句子順序抽取句子。生成式摘要?jiǎng)t旨在分析文本結(jié)構(gòu)并且加以文本語(yǔ)義理解,最后用合理的表達(dá)來(lái)重新完成摘要內(nèi)容,更類(lèi)似于人類(lèi)閱讀文章后總結(jié)概括。

目前無(wú)監(jiān)督抽取式文本摘要主要包括三大類(lèi),分別是基于統(tǒng)計(jì)、圖模型[9]以及基于潛在語(yǔ)義的方法。

基于統(tǒng)計(jì)類(lèi)文本摘要算法更著重于文本結(jié)構(gòu)以及淺層信息,比如詞匯出現(xiàn)的頻率、句子所在位置以及句子長(zhǎng)度等信息。基于統(tǒng)計(jì)類(lèi)算法進(jìn)行摘要抽取,簡(jiǎn)單、便捷且易于實(shí)現(xiàn),但是僅以文章的表層信息難以挖掘句子的整體語(yǔ)義,而且沒(méi)有考慮句子的上下文信息,難以全局性地選出符合要求的句子。

基于圖模型的方法將文本中的句子表示為圖中的節(jié)點(diǎn),通過(guò)節(jié)點(diǎn)之間的迭代計(jì)算得出每個(gè)句子的重要程度。Text Rank[11]算法是一種經(jīng)典的基于圖模型的排序算法,算法由Mihalcea,Rada 等提出TextRank,其算法理論基礎(chǔ)基于Brin S 和Page L 于1998 年提出的PageRank[12]算法,兩者都是排序算法,不過(guò)應(yīng)用場(chǎng)景不同,TextRank 用于文本關(guān)鍵詞或者句子的重要性排序任務(wù),PageRank 用于超文本鏈接的重要性排序問(wèn)題。但是基于圖模型的抽取式摘要也存在著忽視文本主題信息、抽取信息冗余、有效信息覆蓋率低等問(wèn)題,且上述問(wèn)題并沒(méi)有得到很好的解決。

基于潛在語(yǔ)義的方法則是使用主題模型挖掘文本隱含主題,通過(guò)文本主題分布判斷句子的重要性,常見(jiàn)的主題挖掘算法有LDA[13]和BTM[14]。基于潛在語(yǔ)義的方法進(jìn)行摘要自動(dòng)提取在一定程度上考慮了句子隱含的語(yǔ)義信息,抽取的句子更加貼合文本的主題分布,但LDA 在確定主題時(shí)候也僅是從詞形的角度考慮,無(wú)法避免同義詞的影響和描述復(fù)雜的語(yǔ)義。

上述各算法因側(cè)重點(diǎn)不同,所以各自存在一些不足,因此本文基于集成學(xué)習(xí),在摘要抽取算法中選擇目前較為流行且效果較佳的MMR 算法[15]、TextRank 算法以及LDA 模型,考慮到新聞文本摘要句子的位置信息對(duì)全文的影響程度,加入Lead_N 算法(顧名思義,即取文本的前N 句)增加文本首句對(duì)摘要的影響力。根據(jù)上述四種算法給句子進(jìn)行加權(quán)投票,篩選得分排名靠前的句子作為摘要句,即遵循多個(gè)算法都認(rèn)為重要的才是重要的準(zhǔn)則。

3 研究方法

3.1 抽取式文本摘要框架

抽取式自動(dòng)文本摘要任務(wù)主要是結(jié)合不同的特征對(duì)句子進(jìn)行打分和排序。為了提取出質(zhì)量更高、更能代表文本信息的摘要,本文提出一種基于集成學(xué)習(xí)的無(wú)監(jiān)督文本摘要抽取模型,其步驟如圖1所示。

圖1 抽取式文本摘要框架流程圖

首先是數(shù)據(jù)的預(yù)處理階段,本文選取的數(shù)據(jù)是由自然語(yǔ)言處理相關(guān)會(huì)議發(fā)布任務(wù)提供的競(jìng)賽數(shù)據(jù),數(shù)據(jù)沒(méi)有經(jīng)過(guò)預(yù)先處理,因此需要除去無(wú)用的標(biāo)點(diǎn)符號(hào)、特殊字符,然后全角半角字符轉(zhuǎn)換以及中文的簡(jiǎn)繁體轉(zhuǎn)換,處理結(jié)束后將原文與人工標(biāo)注的摘要分開(kāi)保存。

第二步是將預(yù)處理好的文本通過(guò)選擇的各種單一抽取算法去提取出對(duì)應(yīng)條數(shù)的摘要句。

第三步是對(duì)句子進(jìn)行投票加權(quán),根據(jù)每種算法應(yīng)對(duì)單句以及多句摘要的表現(xiàn)結(jié)果,賦予每種算法抽取句子不同的權(quán)值分?jǐn)?shù)。然后通過(guò)多個(gè)算法打分后進(jìn)行投票加權(quán)得到每一個(gè)句子的加權(quán)得分。最終基于總得分對(duì)文本中所有的句子進(jìn)行降序排序,選出排名前N 的句子作為最終抽取的摘要集合。

3.2 摘要句選擇

本文選擇了目前較為流行且效果較佳的MMR、TextRank、LDA 以及Lead_N 算法進(jìn)行摘要句子單獨(dú)抽取。MMR(Maximal Marginal Relevance)中文名字為最大邊界相關(guān)法,此算法在設(shè)計(jì)之初是用來(lái)計(jì)算待查詢文本與被搜索文檔之間的相似度,然后對(duì)文檔進(jìn)行排序的算法,如式(1)所示。

其中A表示被搜索文檔與查詢文本相似度,B表示當(dāng)前被搜索文檔與之前被搜索文檔的相似度,λ為調(diào)節(jié)參數(shù)。為了能夠更好地適用于文本摘要抽取任務(wù),將式(1)稍作修改,如式(4)所示。

其中Score計(jì)算的是當(dāng)前被選擇句子的重要性分值,Di表示當(dāng)前所選擇句子,Ds表示前面已選擇的摘要句集合,負(fù)號(hào)說(shuō)明抽取摘要集合的句子間的相似度越小越好。此處體現(xiàn)了MMR 的算法原理,即同時(shí)考慮到文本摘要的重要性和多樣性。這種摘要提取方式與TextRank不同,TextRank只取文本中計(jì)算分值高的句子進(jìn)行排序形成摘要,忽略了所抽取信息的全面性,冗余較高。

從上述描述可知,MMR 算法當(dāng)抽取多句作為摘要時(shí)能更好地考慮到全文信息,冗余較小。因?yàn)門(mén)extRank、LDA 應(yīng)用已經(jīng)非常成熟,這里便不再贅述。關(guān)于Lead_N 算法的融入是考慮了新聞文本的特殊性,首句有較大概率與新聞標(biāo)題相似度高,更能表達(dá)新聞含義,故將Lead_N 算法加入,使得本模型更適用于新聞文本摘要抽取任務(wù)。

根據(jù)抽取摘要的句子數(shù)量以及各算法在摘要抽取方面的表現(xiàn),本模型對(duì)各算法抽取的摘要句進(jìn)行不同權(quán)值賦值。抽取單句時(shí)無(wú)需考慮冗余問(wèn)題,且考慮到文本結(jié)構(gòu),故賦予TextRank 算法以及Lead_N 算法較高權(quán)重。隨著抽取句子數(shù)量增加,信息冗余情況出現(xiàn),故提升MMR算法的權(quán)重賦值,并降低Lead_N 算法對(duì)摘要結(jié)果的影響。權(quán)重賦值如表1所示。

表1 各算法權(quán)重賦值

根據(jù)上表賦予各算法的權(quán)重,對(duì)各算法抽取的句子進(jìn)行加權(quán)投票計(jì)算,選擇出得分最高即最能代表文本信息的句子作為摘要。

3.3 摘要生成

因?yàn)楦鶕?jù)權(quán)重排名得到的句子對(duì)于整篇文本來(lái)說(shuō)是無(wú)序的,為了貼合人們的閱讀習(xí)慣,將3.2小節(jié)抽取出的摘要句子集合根據(jù)其所在文本中的位置進(jìn)行正序排序,然后將其組合在一起作為最終的摘要。

4 實(shí)驗(yàn)驗(yàn)證

4.1 實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境

本文使用的驗(yàn)證集為NLPCC 2017的中文單文檔摘要評(píng)測(cè)數(shù)據(jù)集[16]。該數(shù)據(jù)集測(cè)試數(shù)據(jù)包括兩部分,一部分包含人工標(biāo)注摘要,另一部分只有新聞文本,沒(méi)有摘要,本文從含有摘要的50000 對(duì)新聞以及對(duì)應(yīng)摘要信息中多次隨機(jī)抽取1000 對(duì)進(jìn)行測(cè)試,所抽取新聞文本包含時(shí)政、娛樂(lè)、體育等各領(lǐng)域新聞。本文算法實(shí)現(xiàn)采用的是編程語(yǔ)言Python ,版本為3.6,在Windows 系統(tǒng)下運(yùn)行,計(jì)算機(jī)CPU 為Intel Core(TM)i7-9750H @2.6GHz,內(nèi)存大小為16G。

4.2 評(píng)測(cè)指標(biāo)

Rouge[17]系列評(píng)測(cè)指標(biāo)是評(píng)估文本摘要以及機(jī)器翻譯相關(guān)任務(wù)的一組指標(biāo)。通過(guò)比較根據(jù)模型得到的候選摘要(以下稱為Candidate Summary)與人工標(biāo)注的參考摘要(以下稱為Reference Summary),計(jì)算得出相應(yīng)的分值,來(lái)表示通過(guò)算法得到的摘要與人工標(biāo)注的摘要的相似度。本文選取Rouge-1、Rouge-2、Rouge-L 作為本文研究的評(píng)測(cè)指標(biāo)。

直觀看,Rouge-1 可以代表自動(dòng)摘要的信息量,Rouge-2 則側(cè)重于評(píng)估摘要的流暢程度,但本文進(jìn)行的是文本摘要抽取任務(wù),并非生成,暫不考慮流暢程度。而Rouge-L 可看成是摘要對(duì)原文信息的涵蓋程度的某種度量。其中Rouge-N 的計(jì)算方法如式(5)所示。

其中,RS表示參考摘要,Ng表示N 元詞,Countmax(Ng)表示Candidate Summary 和Reference Summary 同現(xiàn)的相同N-gram 的最大數(shù)量,Count(Ng)表示標(biāo)準(zhǔn)摘要中出現(xiàn)的N-gram個(gè)數(shù)。

Rouge-L 中的L 是LCS(最長(zhǎng)公共子序列)的首字母,Rouge-L 考慮的是Candidate Summary和Reference Summary 中最長(zhǎng)的公共部分的長(zhǎng)度,如式(6)所示。

其中,分子是Candidate Summary 和Reference Summary 中最長(zhǎng)的公共部分的單詞數(shù)量,分母是Reference Summary中的單詞數(shù)量。

4.3 實(shí)驗(yàn)結(jié)果分析

在實(shí)驗(yàn)中,我們將對(duì)比本文提出的模型與四種基線方法進(jìn)行評(píng)測(cè)對(duì)比,評(píng)測(cè)任務(wù)分為單句以及多句摘要。對(duì)比單句摘要是為了找出文本中最能代表文本含義的句子,對(duì)比多句摘要?jiǎng)t是因?yàn)檫x擇的數(shù)據(jù)為長(zhǎng)文本,往往摘要包括多句內(nèi)容,而不是一句話標(biāo)題,一條句子難以覆蓋整篇文本的關(guān)鍵信息。本文多句摘要分別選擇抽取2句和3句。

4.3.1 單句摘要實(shí)驗(yàn)結(jié)果

單句摘要的實(shí)驗(yàn)結(jié)果如表2 所示,分別為四種基線方法MMR、TextRank、LDA、Lead_N 與本文提出的基于集成學(xué)習(xí)的文本摘要抽取模型的結(jié)果。對(duì)比表2 中的結(jié)果,Rouge-1 評(píng)分中Lead_N 方法效果最差,出現(xiàn)這樣的情況的原因可能是由于首句長(zhǎng)度不夠,包含的詞數(shù)量較少、信息量不足,但是Lead_N 的Rouge-2 與Rouge-L 評(píng)分要高于其他幾種算法,與預(yù)期結(jié)果相符合,表明新聞文本首句有效信息較多,文本結(jié)構(gòu)對(duì)新聞文本影響較大。本文提出的基于集成學(xué)習(xí)的文本摘要在Rouge-1 評(píng)分中達(dá)到最優(yōu),比其他幾種基準(zhǔn)模型高了0.3個(gè)至4.1個(gè)百分點(diǎn)不等。Rouge-2、Rouge-L 評(píng)分略低于Lead_N 算法抽取效果,但是比其他三種抽取方法效果更好,整體抽取效果最優(yōu)。

表2 單句摘要抽取效果

4.3.2 多句摘要實(shí)驗(yàn)結(jié)果

多句摘要(2 句、3 句)的實(shí)驗(yàn)結(jié)果分別如表3、表4所示。

表3 多句摘要抽取效果_2

表4 多句摘要抽取效果_3

對(duì)比表3 中抽取兩條句子作為候選摘要的Rouge 值,本文提出模型的Rouge-1、Rouge-2 比四種算法中表現(xiàn)最好的TextRank 算法分別高出約0.6 個(gè)、0.4 個(gè)百分點(diǎn),Rouge-L 比TextRank 算法高出約0.7個(gè)百分點(diǎn),效果最好。

對(duì)比表4 中抽取3 條句子作為候選摘要的Rouge 值,本文提出模型的Rouge-1、Rouge-2 比基線方法中效果最好的MMR 算法分別高出約1.7個(gè)、1.3 個(gè)百分點(diǎn),Rouge-L 比MMR 算法高出約1.5個(gè)百分點(diǎn)。

通過(guò)對(duì)單句以及多句摘要結(jié)果對(duì)比,可以發(fā)現(xiàn),在提取多句摘要時(shí),MMR 效果在逐步提升,而本文提出的基于集成學(xué)習(xí)的文本摘要抽取模型在多句摘要抽取任務(wù)中,各評(píng)分都要優(yōu)于所選基準(zhǔn)模型中最優(yōu)的算法,整體抽取效果達(dá)到最優(yōu)。

5 結(jié)語(yǔ)

本文提出了一種基于集成學(xué)習(xí)的無(wú)監(jiān)督中文文本摘要自動(dòng)抽取模型。以NLPCC 2017的中文單文檔摘要評(píng)測(cè)數(shù)據(jù)集作為驗(yàn)證集,運(yùn)用集成學(xué)習(xí)將多種無(wú)監(jiān)督文本摘要抽取算法應(yīng)用到中文文本摘要抽取任務(wù)中,根據(jù)新聞文本的特性以及各算法的優(yōu)缺點(diǎn),為每種算法選取合適的權(quán)重,然后根據(jù)抽取句子的權(quán)重投票計(jì)算,得到最終摘要結(jié)果。根據(jù)Rouge 系列評(píng)測(cè)標(biāo)準(zhǔn)對(duì)比人工標(biāo)注的參考摘要與模型得出的候選摘要,發(fā)現(xiàn)本文提出的模型在中文文本摘要抽取任務(wù)中可以達(dá)到較優(yōu)的效果,與其他幾種基準(zhǔn)模型對(duì)比,整體抽取效果最優(yōu)。

實(shí)際上,在候選摘要與參考摘要進(jìn)行評(píng)測(cè)時(shí),因?yàn)槿斯ど傻膮⒖颊幸恍┤斯た偨Y(jié)性詞匯,在原文中可能并未出現(xiàn),這也就導(dǎo)致了Rouge 評(píng)分較低,后期可以考慮根據(jù)抽取式摘要與生成式摘要不同的特點(diǎn),設(shè)計(jì)一套更加合理的評(píng)測(cè)指標(biāo),更好地指導(dǎo)摘要的抽取任務(wù)。

猜你喜歡
排序文本效果
排序不等式
按摩效果確有理論依據(jù)
恐怖排序
在808DA上文本顯示的改善
迅速制造慢門(mén)虛化效果
節(jié)日排序
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
抓住“瞬間性”效果
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
主站蜘蛛池模板: 日韩精品成人网页视频在线| 国产成人久久综合一区| 91久久偷偷做嫩草影院精品| 亚洲免费三区| 99色亚洲国产精品11p| 国产日本视频91| 综合色区亚洲熟妇在线| 亚洲无码37.| 91精品国产无线乱码在线| 亚洲人成成无码网WWW| 亚洲视频一区在线| 国产欧美亚洲精品第3页在线| 日韩精品少妇无码受不了| 精品无码视频在线观看| 在线一级毛片| 亚洲人成在线精品| 色综合综合网| 亚洲精品制服丝袜二区| 欧美日韩一区二区在线免费观看 | 国产精品成人一区二区不卡| 蝌蚪国产精品视频第一页| 丰满的少妇人妻无码区| 欧美成人日韩| 日韩a级片视频| 精品自窥自偷在线看| 国产福利在线免费| 国产成人精品免费视频大全五级| 青青青伊人色综合久久| 成AV人片一区二区三区久久| 亚洲欧洲免费视频| 无码专区国产精品第一页| 日韩视频免费| 亚洲国产欧洲精品路线久久| 免费看a毛片| 亚洲乱码在线播放| 人妻中文久热无码丝袜| 亚洲国产综合精品一区| 动漫精品啪啪一区二区三区| 亚洲大尺码专区影院| 国产精品无码影视久久久久久久| 久久成人18免费| 国产91视频免费观看| 日韩免费毛片视频| 国产99在线| 欧洲高清无码在线| 成人午夜亚洲影视在线观看| 免费一看一级毛片| a级高清毛片| 任我操在线视频| 99在线视频免费| 国产极品嫩模在线观看91| 亚洲色大成网站www国产| 91精品国产无线乱码在线| 国产成人区在线观看视频| 久久久久亚洲精品成人网| 亚洲狠狠婷婷综合久久久久| 亚洲国产精品无码久久一线| 国产精品白浆无码流出在线看| 亚洲国产日韩一区| 91精品久久久无码中文字幕vr| 国产h视频免费观看| 午夜日本永久乱码免费播放片| 亚洲无限乱码| 波多野结衣一区二区三视频 | WWW丫丫国产成人精品| 丁香婷婷在线视频| 国产亚洲视频免费播放| 亚洲嫩模喷白浆| 欧美激情视频在线观看一区| 国产激情在线视频| 五月婷婷综合在线视频| 国产成人亚洲无码淙合青草| 538国产视频| 亚洲国产91人成在线| 国产成在线观看免费视频| 黄色网在线| 青草91视频免费观看| 国产自在线拍| 亚洲精品麻豆| 九九热免费在线视频| 亚洲天堂伊人| 亚洲经典在线中文字幕|