999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的自動(dòng)文本摘要生成

2021-10-30 01:55:21謝涵朱逸青
科學(xué)與生活 2021年19期
關(guān)鍵詞:深度學(xué)習(xí)

謝涵 朱逸青

摘要:以往人們都是手動(dòng)寫摘要,手動(dòng)寫摘要既不能省時(shí)省力,摘要的水平有時(shí)候會(huì)也受到寫摘要的人寫作水平的影響。隨著自然語(yǔ)言處理在國(guó)內(nèi)的興起,相關(guān)的文本摘要數(shù)據(jù)集也可以被整理和獲取。本文通過基于深度學(xué)習(xí)的技術(shù)自動(dòng)生成文本摘要,使用海量樣本訓(xùn)練生成相應(yīng)領(lǐng)域的自動(dòng)文本摘要器。在生活和生產(chǎn)中使用能夠提取有用信息的自動(dòng)文本摘要器,可以篩選出不必要且無關(guān)緊要的數(shù)據(jù),實(shí)現(xiàn)摘要可以增強(qiáng)文檔的可讀性,減少研究信息所花費(fèi)的時(shí)間。在本文中,我們構(gòu)建seq2seq的框架并結(jié)合attention機(jī)制,比較基于RNN、LSTM和GRU的神經(jīng)單元對(duì)社交媒體數(shù)據(jù)的中文文本摘要的處理情況。實(shí)驗(yàn)表明,引入分層注意力機(jī)制的Seq2Seq+ Hierarchical Attention+basedGRU模型可以從原文中生成較高質(zhì)量的摘要。

關(guān)鍵詞:自動(dòng)摘要;深度學(xué)習(xí);Seq2Seq;注意力機(jī)制

0 引言

隨著網(wǎng)絡(luò)媒體的飛速發(fā)展,微信、論壇、博客、微博等新媒體平臺(tái)深深地影響著人們的閱讀方式,相對(duì)于報(bào)紙、雜志,越來越多的人們選擇從各新媒體平臺(tái)上獲取更方便、簡(jiǎn)潔的新聞資訊及其他信息。然而,人們?cè)谙硎苄畔@取的便利性的同時(shí)面臨著信息爆炸所帶來的困擾。在各大媒體平臺(tái)中,文本信息呈現(xiàn)出指數(shù)級(jí)別的增長(zhǎng),使得人們無法迅速?gòu)暮A康男畔⒅蝎@取所需的資訊。文本摘要作為文本內(nèi)容的縮影,概括了文章的主要內(nèi)容和核心觀點(diǎn)。因此,為了快速獲得文章的主要信息,節(jié)省訪問時(shí)間,提高閱讀效率,自動(dòng)摘要技術(shù)應(yīng)運(yùn)而生。

1958年,美國(guó)IBM公司(International Business Machines Corporation,國(guó)際商業(yè)機(jī)器公司)的Luhn提出了自動(dòng)文摘的概念,并對(duì)此進(jìn)行了研究,他提出利用文本中詞頻信息來統(tǒng)計(jì)文本中的高頻詞,然后以高頻詞作為特征進(jìn)行加權(quán),從而 提取出文章中的關(guān)鍵句作為摘要。盡管這種方法在當(dāng)時(shí)已經(jīng)非常超前,但也存在一定的缺陷,一些低頻但重要的詞信息經(jīng)常會(huì)被忽略,從而使得摘要質(zhì)量差強(qiáng)人意。

1969年,Edmundson利用標(biāo)題詞、線索詞、句子位置以及關(guān)鍵詞頻等計(jì)算每個(gè)句子的權(quán)重[1],取得分最高的幾個(gè)句子作為文章的摘要。

1995年,Kupiec提出了使用樸素貝葉斯分類模型來判定句子是否應(yīng)該抽取為摘要[2],計(jì)算每個(gè)句子成為摘要的概率,取得分最高的幾個(gè)句子作為文章的摘要。

1999年,Lin等人假設(shè)文章中用于摘要抽取的各種特征是相互關(guān)聯(lián)的,并使用決策樹對(duì)句子進(jìn)行打分[3],取得分最高的幾個(gè)句子作為文章的摘要。

2001年,Conroy與O'leary使用隱馬爾可夫模型進(jìn)行摘要抽取[4]。該方法也使用句子位置、句內(nèi)詞數(shù)以及句內(nèi)詞語(yǔ)與文章詞語(yǔ)的相似度等一些文章的特征來確定句子的得分。

2004年,Mihalcea等人使用pageRan算法抽取關(guān)鍵句子生成文檔摘要[5]。先把文章分解成若干個(gè)句子,每個(gè)句子對(duì)應(yīng)一個(gè)圖的頂點(diǎn),句子間的關(guān)系作為邊,最后通過pageRan算法得出各頂點(diǎn)的得分并生成文本摘要。

2014年,Kageback M等人首次引入深度學(xué)習(xí)方法完成摘要任務(wù)[6],利用語(yǔ)義表示的相似度,并采用次優(yōu)化選擇適合的句子作為摘要。

2016年,Cheng和Lapata等人提出了一種基于序列到序列(Seq2Seq)的通用自動(dòng)摘要框架[7],采用層次文檔編譯器和注意力機(jī)制抽取文摘句。

2017年,Abigail See等在序列到序列(Seq2Seq)的通用自動(dòng)摘要框架上結(jié)合copy機(jī)制建立指針網(wǎng)絡(luò)結(jié)構(gòu)[8],將生成式文本與抽取式文本有機(jī)結(jié)合起來。同年,Google的團(tuán)隊(duì)提出了Transformer模型,該模型僅僅采用了Attention(注意力)機(jī)制[9],并不像傳統(tǒng)的Seq2Seq那樣需要結(jié)合RNN (Recurrent Neural Network,反饋神經(jīng)網(wǎng)絡(luò))或者CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))才能使用,這個(gè)模型對(duì)谷歌翻

譯的發(fā)展起到了巨大的推動(dòng)作用,而且文本摘要生成與機(jī)器翻譯有一些相似之處,在2018年Arman Cohan等基于Attention機(jī)制更進(jìn)一步,提出根據(jù)文章語(yǔ)篇結(jié)構(gòu)和句子結(jié)構(gòu),建立句子注意力機(jī)制,使得自動(dòng)文本摘要取得當(dāng)時(shí)最好的效果[10],這個(gè)注意力機(jī)制有可以被本研究借鑒的地方。

文本摘要技術(shù)可分為抽取式和生成式兩種,通過提取或生成一段短文本,總結(jié)和表達(dá)原文的主要信息。抽取式文本摘要是從文檔中抽取已有句子形成摘要,而生成式文本摘要?jiǎng)t是在理解原文意思的基礎(chǔ)上,通過轉(zhuǎn)述、同義替換、句子縮寫等技術(shù),生成更簡(jiǎn)潔、更流暢的摘要。與抽取式摘要相比,生成式摘要更接近人工摘要的效果。隨著深度神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展以及基于注意力機(jī)制的端到端模型的提出,基于神經(jīng)網(wǎng)絡(luò)的生成式文本摘要的應(yīng)用迅速發(fā)展,它在一些上百萬的數(shù)據(jù)集中的表現(xiàn)已經(jīng)超越了抽取式文本摘要,可以取得不錯(cuò)的效果。

相對(duì)于機(jī)器翻譯、情感分析、知識(shí)圖譜等領(lǐng)域,自動(dòng)文本摘要在國(guó)內(nèi)起步較晚。然而基于Attention的Seq2Seq模型的提出以及Hu等人提出了一個(gè)新的中文文本摘要數(shù)據(jù)集LCSTS[11],使得中文文本摘要得到了一定的發(fā)展。此外,中文相比于英文,在數(shù)據(jù)處理方面更加復(fù)雜。第一,中文不存在天然的分隔符,正確的根據(jù)語(yǔ)義對(duì)句子進(jìn)行分詞具有一定的挑戰(zhàn)性。第二,中文具有一詞多義的特點(diǎn),很多詞匯在不同的語(yǔ)境下具有不同的解釋。第三,中文語(yǔ)法較英語(yǔ)而言更加靈活,時(shí)常導(dǎo)致歧義的出現(xiàn)。

Matthew等人于2018年提出了一種新型深度語(yǔ)境化詞表征的EMLO (Embeddings from Language Models,語(yǔ)言模型嵌入)預(yù)訓(xùn)練模型[12],用于對(duì)多義詞進(jìn)行建模。接著,Open AI 團(tuán)隊(duì)提出了GPT模型[13],一種基于Transformer的可遷移到多種NLP(Natural Language Processing,自然語(yǔ)言處理)任務(wù)的神經(jīng)語(yǔ)言模型;此外,Google團(tuán)隊(duì)提出的BERT(Bidirectional Encoder Representation from Transformers)模型[14],刷新了NLP11個(gè)方向的記錄,于是2019年Yang Liu等專門基于BERT模型構(gòu)建自動(dòng)文本摘要模型,在數(shù)據(jù)集上實(shí)現(xiàn)當(dāng)時(shí)最優(yōu)效果[15]。

2020年,Jingqing Zhang等人提出了一種新的自監(jiān)督預(yù)訓(xùn)練目標(biāo):GSG (Gap Sentences Generation),以適配Transformer-based的encoder-decoder模型在海量文本語(yǔ)料上預(yù)訓(xùn)練,用PEGASUS 模型進(jìn)行全面測(cè)試,結(jié)果PEGASUS 刷新12個(gè)數(shù)據(jù)集的ROUGE得分記錄,結(jié)果表明PEGASUS模型在多個(gè)數(shù)據(jù)集上達(dá)到與人工摘要相媲美的性能[16]。

目前國(guó)內(nèi)研究文本摘要技術(shù)的中堅(jiān)力量在高校,主要包括哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室、清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室、北京大學(xué)計(jì)算科學(xué)技術(shù)研究所等。有國(guó)內(nèi)學(xué)者通過融合TextRank算法,利用其實(shí)現(xiàn)簡(jiǎn)單、無監(jiān)督學(xué)習(xí)、語(yǔ)言弱相關(guān)、既適用單文本也適用于多文本的特點(diǎn),但發(fā)現(xiàn)它易受詞頻影響,在提取摘要的準(zhǔn)確度上不盡人意;綜合考慮文章的結(jié)構(gòu)、標(biāo)題、句子位置、句子長(zhǎng)度等多種統(tǒng)計(jì)特征,提出了一種改進(jìn)的iTextRank算法,通過改進(jìn)中文文檔中句子相似度的計(jì)算方法,得到的文本摘要比TextRank的質(zhì)量更好。

盡管這種方法通過權(quán)重控制了識(shí)別文本的精確度,但沒有考慮社交媒體的特征與語(yǔ)義的信息,僅依照詞匯的共現(xiàn)特征規(guī)則無法將互動(dòng)關(guān)聯(lián)的文本當(dāng)成一個(gè)整體,無法解釋相關(guān)的文本是否表示共同的主題。直接將整個(gè)語(yǔ)料集的句子獨(dú)立地進(jìn)行排序,可能導(dǎo)致生成的摘要意思太模糊,無法衡量其覆蓋了哪些話題或社交實(shí)體。因此,本研究在進(jìn)行模型生成摘要前采用了多種分類方法將文本進(jìn)行分類。

1數(shù)據(jù)預(yù)處理與數(shù)據(jù)標(biāo)定

1.1數(shù)據(jù)來源

哈爾濱工業(yè)大學(xué)深圳研究院的教授,通過爬取新浪微博的短文本數(shù)據(jù)構(gòu)建了LCSTS數(shù)據(jù)集。LCSTS是一個(gè)超過200萬數(shù)據(jù)的中文短文本摘要數(shù)據(jù)集,由短文本及其對(duì)應(yīng)的摘要組成。數(shù)據(jù)收集方法:首先收集來自多個(gè)領(lǐng)域的50個(gè)流行的官方組織用戶作為種子,再?gòu)姆N子用戶中抓取他們關(guān)注的用戶,然后選取新浪微博粉絲大于100萬的大V用戶,最后抓取候選用戶的微博內(nèi)容進(jìn)行清洗過濾,得到純文本數(shù)據(jù)。

1.2數(shù)據(jù)預(yù)處理

首先,隨機(jī)選取LSCTS數(shù)據(jù)集中的一個(gè)子集作為訓(xùn)練集,用于訓(xùn)練模型。

第二,數(shù)據(jù)標(biāo)定。選取5名志愿者對(duì)數(shù)據(jù)集中的文本數(shù)據(jù)和對(duì)應(yīng)摘要進(jìn)行打分,分?jǐn)?shù)為1、2、3、4、5,用來表示文本與相應(yīng)摘要之間的相關(guān)性,其中“1”表示“最不相關(guān)”,“5”表示“最相關(guān)”。用于打分的數(shù)據(jù)是從訓(xùn)練集中隨機(jī)抽取的,以此來描述訓(xùn)練集的分布。圖1說明了不同分?jǐn)?shù)的例子。從例子中我們可以看出,評(píng)分為3、4或5的文本與相應(yīng)摘要非常相關(guān),這些摘要內(nèi)容準(zhǔn)確且簡(jiǎn)潔;而評(píng)分為1或2的摘要高度抽象,相對(duì)較難從文本中總結(jié)出來,它們更有可能是標(biāo)題或評(píng)論,而不是摘要。

第三,統(tǒng)計(jì)數(shù)據(jù)顯示,1分和2分的百分比小于總數(shù)據(jù)的20%,可以通過使用經(jīng)過訓(xùn)練的分類器進(jìn)行篩除。最后將得到的分?jǐn)?shù)為3、4、5且具有共同分?jǐn)?shù)的文本作為測(cè)試集。

2 模型構(gòu)建

2.1數(shù)據(jù)的清洗和整合

文本是非結(jié)構(gòu)化數(shù)據(jù),將其輸入神經(jīng)網(wǎng)路首先要給文本建立一個(gè)語(yǔ)料庫(kù),根據(jù)詞頻排序,使得每個(gè)詞語(yǔ)或短語(yǔ)都可以用一個(gè)One-Hot(獨(dú)熱)向量表示。

為了提取到每個(gè)詞語(yǔ)或短語(yǔ)的特征,也為了加速網(wǎng)絡(luò)的收斂,引入了詞嵌入向量。首先,對(duì)下載的數(shù)據(jù)集進(jìn)行清洗和分詞,通過Word2vec得到Word embedding(詞嵌入)向量。

Word2vec解決了以往One-Hot Encoder中由于字詞數(shù)量過大而造成維度災(zāi)難的問題,能夠?qū)ne-Hot Encoder轉(zhuǎn)化成低緯度的連續(xù)值,而且向量中意思相近的詞也會(huì)被映射到向量空間中的相近位置。

Word2vec由兩種訓(xùn)練方式,分別是CBOW(Continuous Bag of Words,連續(xù)詞袋)模型和Skip-Gram模型。CBOW模型又被稱為連續(xù)詞袋模型,其結(jié)構(gòu)是一個(gè)單層神經(jīng)網(wǎng)絡(luò)。特點(diǎn)是輸入已知的上下文,輸入對(duì)當(dāng)前單詞的預(yù)測(cè)。Skip-Gram模型則與之相反,只是對(duì)CBOW模型的因果關(guān)系進(jìn)行了逆轉(zhuǎn),即用當(dāng)前的詞語(yǔ)來預(yù)測(cè)上下文。

兩種模型具體如下圖:

2.2構(gòu)建Seq2seq模型

Seq2seq模型有一個(gè)Encoder(編碼器)和一個(gè)Decoder(解碼器),將一個(gè)輸入的句子編碼成一個(gè)固定大小的state,然后作為Decoder的初始狀態(tài)(當(dāng)然也可以作為每一時(shí)刻的輸入),但這個(gè)狀態(tài)對(duì)于Decoder中的所有時(shí)刻都是一樣的。

2.3構(gòu)建加入Attention機(jī)制的Seq2seq模型

Attention即為注意力,人腦在對(duì)于不同部分的注意力是不同的。需要Attention的原因是非常直觀的,如當(dāng)我們看一張照片時(shí),照片上有一個(gè)人,我們的注意力會(huì)集中在這個(gè)人身上,而它身邊的花草藍(lán)天,可能就不會(huì)得到太多的注意力。也就是說,普通的模型可以看成所有部分的Attention都是一樣的,而這里的Attention-Based Model(基于注意力的模型)對(duì)于不同的部分,重要的程度則不同,Decoder中每一個(gè)時(shí)刻的狀態(tài)是不同的。

而沒有Attention機(jī)制的Encoder-Decoder結(jié)構(gòu)通常把Encoder的最后一個(gè)狀態(tài)作為Decoder的輸入(可能作為初始化,也可能作為每一時(shí)刻的輸入),但是Encoder的state(狀態(tài))畢竟是有限的,存儲(chǔ)不了太多的信息,對(duì)于Decoder過程,每一個(gè)步驟都和之前的輸入都沒有關(guān)系了,只與這個(gè)傳入的state有關(guān)。Attention機(jī)制的引入之后,Decoder根據(jù)時(shí)刻的不同,讓每一時(shí)刻的輸入都有所不同。簡(jiǎn)而言之,使用Attention機(jī)制的Seq2Seq模型可以更好的把握文本的整體意向[8]。具有注意機(jī)制的Seq2seq模型如圖4所示。

其中ci的計(jì)算公式如方程(1)。

在預(yù)測(cè)時(shí)刻輸出時(shí),Attention結(jié)構(gòu)會(huì)將每個(gè)輸入與當(dāng)前時(shí)刻的輸出匹配,然后自動(dòng)計(jì)算每個(gè)注意概率的分布值。αij的計(jì)算公式如方程(2),sj表示輸入部分中隱藏神經(jīng)元的激活值。

2.3.1 RNN-based

RNN是比較早期的循環(huán)神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)相對(duì)簡(jiǎn)單,其結(jié)構(gòu)如下圖所示:

Encoder-Decoder結(jié)構(gòu)中以RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))神經(jīng)單元作為基本單元。

2.3.2 LSTM-based

傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 容易出現(xiàn)梯度消失與梯度爆炸的問題,因此目前比較常用的一般是 LSTM 及其變種。Encoder-Decoder結(jié)構(gòu)中以LSTM(Long Short-Term Memory,長(zhǎng)短期記憶網(wǎng)絡(luò))神經(jīng)單元作為基本單元[18]。在使用基于LSTM的Seq2Seq文本摘要生成模型生成文本摘要時(shí),具體過程如下:

(1)首先對(duì)文本進(jìn)行矢量化,并將其輸入到模型中;

(2)使用LSTM獲得文章的分布式表示;

(3)使用注意機(jī)制獲得更準(zhǔn)確的表達(dá)式;

(4)將文章的分布式表達(dá)式輸入LSTM單元以預(yù)測(cè)摘要的分布式表達(dá)式;

(5)將摘要的分布式表示轉(zhuǎn)換為文本形式以獲得摘要。

2.3.3 GRU-based

Encoder-Decoder結(jié)構(gòu)中以GRU(Gate Recurrent Unit,門控循環(huán)單元)作為基本單元,GRU是LSTM的一種變種,結(jié)構(gòu)比LSTM簡(jiǎn)單一點(diǎn)。GRU 只有兩個(gè)門 (更新門update,重置門reset)。

2.4構(gòu)建分層Attention機(jī)制的Seq2seq模型

字詞作為文章的基本組成單元,通過普通的注意力機(jī)制能夠較好的體現(xiàn)出文章中不同的字詞對(duì)于文章的重要性,但是句子同樣作為文章的組成部分,仍然值得關(guān)注。為了生成質(zhì)量更高的摘要,在計(jì)算字詞注意力基礎(chǔ)上,引入句子級(jí)Attention機(jī)制,計(jì)算每個(gè)句子對(duì)于文章的重要性。其結(jié)構(gòu)如圖8。

具體來說,表示源文檔的上下文向量的計(jì)算公式為:

其中,N表示句子個(gè)數(shù),M表示句子中的字詞數(shù),表示編碼部分第j句話中第k個(gè)字詞的隱藏狀態(tài),表示第j句話中第k個(gè)字詞的注意力權(quán)重。計(jì)算公式為:

2.5經(jīng)典模型

(一)TF-IDF詞頻統(tǒng)計(jì)[19]

①關(guān)鍵詞提取:

對(duì)每一篇短文進(jìn)行分詞,除去文章的停用詞,例如“的”、“是”和“在”等毫無幫助卻最常見的詞和一些標(biāo)點(diǎn)符號(hào),進(jìn)而構(gòu)建一個(gè)詞庫(kù)。如果某個(gè)詞很重要,那么它應(yīng)該多次出現(xiàn)在這篇文章,因而要統(tǒng)計(jì)詞頻TF:

即為第i個(gè)單詞出現(xiàn)在第j篇文章的次數(shù)。

然而,有的單詞在所有的文檔中出現(xiàn)的次數(shù)都多,這就不一定是必須的關(guān)鍵詞;有的單詞在所有文檔中出現(xiàn)的次數(shù)少,但在這篇文章出現(xiàn)的次數(shù)較多,可能恰好反應(yīng)了這篇文章的主題,正是這篇文章所需要的關(guān)鍵詞。對(duì)此,引入了逆文檔頻率IDF:

其中分子為語(yǔ)料庫(kù)的文檔總數(shù),分母為包含第i個(gè)單詞的文檔數(shù)加上偏置項(xiàng)1。

綜合考慮詞頻和逆文檔頻率,TF-IDF統(tǒng)計(jì)量可定義為兩者相乘,即:

TF-IDF=TF×IDF

②基于TF-IDF的文本摘要提取

首先將短文進(jìn)行分詞,然后去掉停用詞,計(jì)算出每個(gè)詞語(yǔ)的TF-IDF值并找出關(guān)鍵詞,將短文中距離相近(一般為4或5)的關(guān)鍵詞分為一類,找出包含分支最高的類的句子,然后將他們合在一起,即構(gòu)成文本的摘要。

(二)Textrank算法[20]

Textrank算法的模型可以簡(jiǎn)單表示為一個(gè)有向權(quán)圖G=(V,E),由點(diǎn)集合V個(gè)邊集合E組成,Textrank算法的計(jì)算公式為:

①Textrank關(guān)鍵詞提取

(1)把短文按照完整文本進(jìn)行分割

(2)對(duì)于分割的句子進(jìn)行分詞和詞性標(biāo)注處理,并過濾掉停用詞,只保留指定詞性的單詞,如名詞、動(dòng)詞、形容詞等。

(3)構(gòu)建候選關(guān)鍵詞圖G=(V,E),其中V為節(jié)點(diǎn)集,由生成的候選關(guān)鍵詞組成,然后采用共線關(guān)系構(gòu)造任意兩點(diǎn)之間的邊,兩個(gè)節(jié)點(diǎn)之間存在邊僅當(dāng)它們對(duì)應(yīng)的詞匯在長(zhǎng)度為K的窗口中共現(xiàn),K表示窗口大小,即最多共現(xiàn)K個(gè)單詞。

(4)根據(jù)得分公式,迭代傳播各個(gè)節(jié)點(diǎn)的權(quán)重,直至收斂。

(5)對(duì)節(jié)點(diǎn)權(quán)重進(jìn)行倒序排序,從而得到最重要的T個(gè)單詞,作為候選關(guān)鍵詞。

(6)由上述得到最重要的T個(gè)單詞,在原短文中進(jìn)行標(biāo)記,若形成相鄰詞組,則組合成多次關(guān)鍵詞。

②基于Textrank的自動(dòng)文摘

基于Textrank的自動(dòng)文摘屬于自動(dòng)文摘,通過選取短文中重要度較高的句子形成文摘。

(1)預(yù)處理:將短文內(nèi)容分割成句子得

構(gòu)建圖G=(V,E),其中V為句子集,對(duì)句子進(jìn)行分詞、去除停用詞得:

其中,是保留后得候選關(guān)鍵詞。

(2)句子相似度計(jì)算:構(gòu)建圖G中得邊集E,基于句子間得內(nèi)容覆蓋率,給定兩個(gè)句子

利用如下公式計(jì)算:

若兩個(gè)句子之間的相似度大于給定的閾值,就認(rèn)為這兩個(gè)句子語(yǔ)義相關(guān)并將他們連接起來,即邊的權(quán)值

(3)句子權(quán)重計(jì)算:根據(jù)公式,迭代傳播權(quán)重計(jì)算各句子的得分;

(4)抽取文摘句:將(3)得到的句子得分進(jìn)行倒序排序,抽取重要度最高的T個(gè)句子作為候選文摘句。

(5)形成文摘:根據(jù)字?jǐn)?shù)或句子數(shù)要求,從候選文摘句中抽取句子組成文本摘要。

3 實(shí)驗(yàn)

首先,文本收集。獲取LCSTS數(shù)據(jù)集用于模型訓(xùn)練。利用Python抓取環(huán)球網(wǎng)、南方都市報(bào)、中國(guó)新聞網(wǎng)等網(wǎng)站新聞的標(biāo)題與內(nèi)容數(shù)據(jù)作為測(cè)試數(shù)據(jù)。

第二步,文本處理。對(duì)爬取的數(shù)據(jù)進(jìn)行預(yù)處理,文本清洗與分割,結(jié)構(gòu)劃分、分詞、去除停用詞、標(biāo)點(diǎn)符號(hào),獲取詞向量并作詞頻統(tǒng)計(jì)等。

第三步,文本分類。使用用主題相似或主題相同的預(yù)料進(jìn)行訓(xùn)練,可以更好、更快地訓(xùn)練出適用的文摘網(wǎng)絡(luò),因而,本研究在訓(xùn)練網(wǎng)絡(luò)前先對(duì)文本進(jìn)行主題分類。嘗試多種文本的分類算法,如傳統(tǒng)的文本分類算法樸素貝葉斯,K最近鄰,支持向量機(jī),如機(jī)器學(xué)習(xí)TextCNN、FastText、RCNN等文本的分類算法,對(duì)它們的分類結(jié)果做比較,選取最適合的文本分類算法進(jìn)行分類,分類完的原始數(shù)據(jù)用于下一步的研究。

第四步,摘要生成。用訓(xùn)練好的模型對(duì)文本數(shù)據(jù)做摘要生成處理。首先用基于深度學(xué)習(xí)的方法,在Seq2Seq框架下,加入句子級(jí)Attention機(jī)制,分別用RNN,LSTM,GRU神經(jīng)網(wǎng)絡(luò)模型對(duì)文本提取摘要;然后用傳統(tǒng)的TF-IDF詞頻統(tǒng)計(jì)、Textrank算法對(duì)文本提取摘要。具體實(shí)驗(yàn)設(shè)置:首先使用兩個(gè)雙向RNN(LSTM,GRU),cell大小為256,embedding嵌入尺寸為128,embedding是從頭開始訓(xùn)練的,不使用與訓(xùn)練的,embedding。我們使用批處理填充和動(dòng)態(tài)展開在LSTM中處理可變的序列長(zhǎng)度,每一個(gè)batch的大小為16。訓(xùn)練時(shí)使用Adagrad優(yōu)化器,學(xué)習(xí)率設(shè)置為0.15。

第五步,模型比較。以下是隨機(jī)選取的一則新聞利用訓(xùn)練好的模型進(jìn)行摘要生成的結(jié)果,新聞內(nèi)容如下:

山東省有關(guān)部門在6月11日和12日就媒體報(bào)道部分果農(nóng)使用違禁藥袋問題回應(yīng)稱已派出調(diào)查組調(diào)查棲霞、招遠(yuǎn)有果農(nóng)使用藥袋套蘋果一事。早在2018年9月底,山東省農(nóng)業(yè)廳就得知有果園使用藥袋套果實(shí)并進(jìn)行過抽檢。

結(jié)果如下:

第六步,效果評(píng)價(jià)與模型優(yōu)化。構(gòu)建效果評(píng)價(jià)指標(biāo),對(duì)于評(píng)估,我們使用了(Lin和Hovy,2003)提出的Rouge評(píng)價(jià)指標(biāo)[21]。與包含各種n-gram匹配的BLEU不同,有幾種不同匹配長(zhǎng)度的ROUGE度量方法:ROUGE-1、ROUGE-2和ROUGE-L。

在測(cè)試集中隨機(jī)選取200個(gè)樣本進(jìn)行測(cè)試,并將三種基于深度學(xué)習(xí)模型的預(yù)測(cè)摘要與參考摘要進(jìn)行對(duì)比。根據(jù)Rouge-L計(jì)算公式,得到評(píng)價(jià)值,得到的結(jié)果如下表所示:

根據(jù)評(píng)測(cè)結(jié)果對(duì)模型進(jìn)行微調(diào)改進(jìn)。把調(diào)試好的模型運(yùn)用于新抓取文檔自動(dòng)摘要生成。對(duì)文本生成效果做出預(yù)判,并與傳統(tǒng)的提取方法做比較。對(duì)算法做優(yōu)化,對(duì)產(chǎn)生的摘要進(jìn)行一定的數(shù)據(jù)平滑和修正,構(gòu)建最優(yōu)生成模型最后以一定的用戶界面形式將提取的內(nèi)容顯示出來。

將Seq2Seq+Hierarchical Attention+basedGRU模型,設(shè)置了100次迭代,得到訓(xùn)練集與測(cè)試集的模型損失函數(shù)如圖9所示,從圖中看來這一個(gè)模型收斂效果較好。

4 結(jié)語(yǔ)

本文通過對(duì)生成式文本摘要的研究,針對(duì)中文中長(zhǎng)文本的摘要生成問題,使用LSCTS數(shù)據(jù)集,并在該數(shù)據(jù)集上采用基于神經(jīng)網(wǎng)絡(luò)的方法,用Python抓取環(huán)球網(wǎng)、南方都市報(bào)、中國(guó)新聞網(wǎng)等網(wǎng)站新聞的標(biāo)題與內(nèi)容數(shù)據(jù)作為測(cè)試數(shù)據(jù)取得了良好的效果。在編碼器和解碼器中分別使用了RNN、LSTM、GRU,以充分利用上下文信息來理解語(yǔ)義特征,并且在LSCTS數(shù)據(jù)集上進(jìn)行訓(xùn)練。并與傳統(tǒng)的TF-IDF、Texrank模型進(jìn)行比較和分析。我們最終得出結(jié)論:在中長(zhǎng)文本摘要生成中,加入分層注意力機(jī)制的GRU+Seq2Seq模型具有更高的ROUGE指數(shù)值,表明這個(gè)方法可以保留核心信息,過濾輔助信息與真實(shí)摘要的相似度更高,預(yù)測(cè)摘要更準(zhǔn)確、更真實(shí)。但這只是一個(gè)深入模型的開始,還有很大的改進(jìn)空間。

參考文獻(xiàn)

[1]Edmundson,H P.New Methods in Automatic Extracting[ j] . Journal of the ACM,1969,16(2):264

[2]Kupiec,J,Pedersen,J,Chen,F(xiàn). A Trainable Document Summarizer[C]. ACM SIGIR New York USA,1995

[3]Lin CY. Training a Selection Function for Extraction[C].the Eighth ACM Conference on Information and Knowledge Management,Kansas City,Missouri,USA,1999

[4]Conroy J M,O'leary D P. Text Summarization Via Hidden Markov Models[C].ACM SIGIR New Orleans,Louisiana,USA,2001

[5]Rada Mihalcea.Graph-based Ranking Algorithms for Sentence extraction,Applied to Text summarization [C].the ACL 2004 on Interactive Poster and Demonstration Sessions.Barcelona,Spain,2004

[6]Lin,Junyang,et al. “Global Encoding for Abstractive Summariza- tion.” ACL 2018:56th Annual Meeting of the Association for Computational Linguistics,vol. 2,2018,pp. 163-169.

[7]Sutskever,Ilya,et al. “Sequence to Sequence Learning with Neural Networks.” Advances in Neural Information Processing Systems 27,2014,pp. 3104–3112.

[8]Abigail See,Christopher Manning,and Peter Liu. Get to the point:Summarization with pointer generator networks. In Association for Computational Linguistics. 2017. https://arxiv.org/abs/ 1704.04368.

[9]Bahdanau,Dzmitry,et al. “Neural Machine Translation by Jointly Learning to Align and Translate.” ICLR 2015:International Conference on Learning Representations 2015,2015.

[10]Arman Cohan Franck Dernoncourt,et al. A Discourse-Aware Attention Model for Abstractive Summarization of Long Documents. 2017. https://arXiv:1804.05685v2

[11]Hu,Baotian,et al. “LCSTS:A Large Scale Chinese Short Text Summarization Dataset.” Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015,pp. 1967–1972.

[12]Peters,Matthew E.,et al. “DEEP CONTEXTUALIZED WORD REPRESENTATIONS.” NAACL HLT 2018:16th Annual Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,vol. 1,2018,pp. 2227–2237.

[13]Radford,A. & Salimans,T. Improving Language Understanding by Generative Pre-Training. (2018)

[14]Yang Liu,Mirella Lapata.Text Summarization with Pretrained Encoders. 2019. https://arXiv:1908.08345v2

[15]Jingqing Zhang,Yao Zhao,et al. PEGASUS:Pre-training with Extracted Gap-sentences for Abstractive Summarization. LCML 2020.

[16]Radford,A. & Salimans,T. Improving Language Understanding by Generative Pre-Training. (2018)

[17]Vaswni,Ashish,et al. “Attention Is All You Need.” Proceedings of the 31st International Conference on Neural Information Processing Systems,2017,pp. 5998–6008.

[18]Hochreiter,Sepp,and Jürgen Schmidhuber. “Long Short-Term Memory.” Neural Computation,vol. 9,no. 8,1997,pp. 1735–1780.

[19]Jia,LV. “Improvement and Application of TFIDF Method Based on Text Classification.” Computer Engineering,2006.

[20]Mihalcea,Rada,and Paul Tarau. “TextRank:Bringing Order into Texts.” Proc. 2004 Conference on Empirical Methods in Natural Language Processing,Barcelona,Spain,July,2004,pp. 404–411.

[21]Chin-Yew Lin and Eduard H. Hovy. 2003. Automatic evaluation of summaries using n-gram cooccurrence statistics. In Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,HLTNAACL 2003,Edmonton,Canada,May 27 - June 1,2003 評(píng)價(jià)指標(biāo)

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類器的圖書館亂架圖書檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 精品人妻一区无码视频| 999国产精品| 国产69精品久久久久孕妇大杂乱 | 亚洲国产日韩欧美在线| 国产喷水视频| 国产精品私拍在线爆乳| 高清不卡毛片| 色男人的天堂久久综合| 扒开粉嫩的小缝隙喷白浆视频| 久久久久亚洲AV成人人电影软件 | 国产成人午夜福利免费无码r| 波多野结衣AV无码久久一区| 亚洲青涩在线| 国产免费久久精品99re不卡| 国产精品自拍合集| 亚洲无码91视频| 亚洲天堂精品视频| 狼友视频一区二区三区| 精品视频一区二区三区在线播| 99热这里只有免费国产精品 | 国产色婷婷| 91成人在线观看| 91亚洲视频下载| 国产毛片基地| 97久久精品人人做人人爽| 99精品久久精品| 亚洲视频色图| 亚洲天堂网视频| 国产精品视频导航| 亚洲国产一成久久精品国产成人综合| 国产在线欧美| 亚洲AⅤ综合在线欧美一区| 精品福利国产| 欧美日韩免费在线视频| 国产素人在线| 欧美成人精品在线| 茄子视频毛片免费观看| 人妻无码AⅤ中文字| 九九热视频精品在线| 天堂成人在线| 亚洲国产日韩一区| 国产成人1024精品| 国产精品尤物在线| 精品欧美视频| 国产女人在线观看| V一区无码内射国产| 午夜免费小视频| 亚洲成a人片| 综合色婷婷| 日本欧美午夜| 无码专区国产精品一区| 麻豆国产原创视频在线播放| 日韩在线视频网| 国产视频自拍一区| 日本精品视频一区二区| 亚洲精品天堂在线观看| 国产欧美视频在线观看| 国产伦片中文免费观看| 久久6免费视频| 亚洲国产91人成在线| 亚洲天堂区| 欧美翘臀一区二区三区| 成人一级黄色毛片| 国产在线98福利播放视频免费 | 丰满人妻中出白浆| 伊人久久久久久久| 国产精品污污在线观看网站| 黑人巨大精品欧美一区二区区| 精品超清无码视频在线观看| 亚洲国产av无码综合原创国产| 国产视频a| 欧美黄网站免费观看| 国产精品亚洲一区二区三区在线观看| 亚洲精品手机在线| 国产精品福利社| 91精品国产91久久久久久三级| 国产精品视频3p| 亚洲欧洲日产国码无码av喷潮| 精品国产中文一级毛片在线看| 日韩第一页在线| 成人一级免费视频| 2024av在线无码中文最新|