999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Gensim的摘要自動生成算法研究與實(shí)現(xiàn)

2019-12-12 07:06:42肖元君吳國文
關(guān)鍵詞:關(guān)鍵文本模型

肖元君 吳國文

(東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 201600)

0 引 言

自動文摘技術(shù)指的是利用計(jì)算機(jī)對文本進(jìn)行處理,挖掘出最符合文意的句子,是自然語言處理領(lǐng)域中一個很重要的分支。

在當(dāng)今學(xué)術(shù)領(lǐng)域中,生成文本摘要的方式主要有兩種,1) 抽取式,顧名思義,就是選出文章中最關(guān)鍵的句子作為文章摘要。如李娜娜等[1]提出的基于TextRank的自動摘要優(yōu)化算法,該算法運(yùn)用詞頻統(tǒng)計(jì),找到文章的關(guān)鍵句子,根據(jù)句子在段落中的位置調(diào)整權(quán)重,從而組成文章摘要。抽取式方法的確能夠找到符合文章中心意思的句子,但在摘要通順程度上有一定的局限性。2) 生成式,旨在使計(jì)算機(jī)能夠與人類一樣,用自己的文字概括全文意思。如Google Brain團(tuán)隊(duì)[2]在2014年提出的seq2seq序列模型,并隨后在Github上開源了此項(xiàng)目。該模型被廣泛應(yīng)用于自動翻譯、對話機(jī)器人項(xiàng)目當(dāng)中,對于短篇文章也能夠利用該模型生成文章摘要。但序列模型的局限性在于,若是將長篇幅文章作為訓(xùn)練預(yù)料,訓(xùn)練過程將消耗大量時間,而且摘要生成結(jié)果也不盡如人意,句子結(jié)構(gòu)復(fù)雜,無法讀通順。

由上述分析可知,生成高質(zhì)量摘要技術(shù)的關(guān)鍵在于:1) 包含文章關(guān)鍵信息;2) 句意通順。對于長篇幅文章,為了保證句意通順程度,需要使用抽取式方法生成文章摘要。

本文從上述兩個方面出發(fā),提出了一種基于Gensim的摘要自動生成算法,該算法分為兩個階段。關(guān)鍵句生成階段,由于使用word2vec模型可以挖掘出關(guān)聯(lián)性強(qiáng)的句子,為了提升摘要通順程度,運(yùn)用Gensim框架中的Word2vec詞向量模型,將語料轉(zhuǎn)化為詞向量,修改Gensim框架中的TextRank算法,使其能夠接受詞向量輸入,根據(jù)關(guān)聯(lián)性與重要程度,生成句子無向圖。摘要生成框架構(gòu)建階段,框架旨在賦予第一階段所生成關(guān)鍵句不同的權(quán)值,權(quán)值由文章結(jié)構(gòu)與所含關(guān)鍵詞個數(shù)決定。由于文章段首常常被用來作為摘要的首句話,段尾句子的重要性比較低,所以段首的句子應(yīng)具有更高的權(quán)值。使用Gensim框架中的LDA主題模型提取文章關(guān)鍵詞,若句子包含的關(guān)鍵詞越多,則權(quán)值越高。最后根據(jù)權(quán)值計(jì)算句子分?jǐn)?shù),選擇分?jǐn)?shù)最高的幾句話,生成文章摘要。同時,本文使用Rouge摘要評測工具,對算法生成摘要的質(zhì)量進(jìn)行評分,與其他算法生成摘要的質(zhì)量分?jǐn)?shù)進(jìn)行對比,展現(xiàn)在實(shí)驗(yàn)結(jié)果中。

1 Gensim框架的應(yīng)用

Gensim框架由Ivan Menshikh[3]所在團(tuán)隊(duì)開發(fā),并于2015年作為Python第三方擴(kuò)展包開源。它提供了自然語言處理常用模型的API調(diào)用接口。

本文提出的自動文摘算法主要應(yīng)用Gensim框架中包含的三種算法,分別為Word2vec詞向量模型、TextRank算法和LDA主題模型。并且為了使算法能夠更好地應(yīng)用于實(shí)際項(xiàng)目,本文修改了部分算法源碼。

1.1 文本向量化

為了提升摘要通順程度,需要發(fā)現(xiàn)句子間的關(guān)聯(lián)程度,即計(jì)算其相似度,前期工作是將文本向量化。Word2vec是詞向量模型,它包含兩種神經(jīng)網(wǎng)絡(luò),分別是CBOW與Skip-Gram。

CBOW根據(jù)上下文預(yù)測當(dāng)前詞語的概率,公式如下所示:

式中:(w,c)為從語料中抽取的n元短語,P(w|c)即詞w在文本中c中出現(xiàn)的概率,V為訓(xùn)練語料,e′為更新權(quán)重,x為輸入矩陣。

Skip-Gram根據(jù)當(dāng)前詞語預(yù)測上下文概率,其中D為詞集合,計(jì)算公式如下所示:

1.2 挖掘關(guān)鍵句

Gensim自帶的TextRank挖掘關(guān)鍵句算法是基于共現(xiàn)單詞數(shù)量決定的,缺點(diǎn)是忽略了同義異形詞,而本文提出基于詞向量找到關(guān)鍵句的方法可以有效解決這一問題。即將該句子中所含單詞轉(zhuǎn)化為詞向量,再求出詞向量的總和,將該值作為圖的一個頂點(diǎn)計(jì)算。

類比PageRank網(wǎng)頁重要程度公式,文本圖G的權(quán)重計(jì)算公式為:

式中:W為初始權(quán)值;Vi為入鏈集合;Vj為出鏈集合;S表示TextRank的值;wji表示第j行,第i列的權(quán)值;k表示i列之前的列數(shù);為避免權(quán)值計(jì)算出現(xiàn)0的情況,添加了阻尼系數(shù)d,表示跳轉(zhuǎn)到其他節(jié)點(diǎn)的概率。

1.3 驗(yàn)證句子關(guān)鍵程度

若句子包含關(guān)鍵詞個數(shù)多,則關(guān)鍵程度高,應(yīng)賦予較高的權(quán)重。在訓(xùn)練語料充足的情況下,相比于其他關(guān)鍵詞提取算法,LDA主題模型提取關(guān)鍵詞的準(zhǔn)確度較高,所以本文運(yùn)用該模型提取關(guān)鍵詞。建模過程總結(jié)為如下兩個步驟:

1) 根據(jù)多項(xiàng)式分布,描述主題下的詞分布;

2) 根據(jù)極大似然估計(jì)與共軛先驗(yàn)分布估算參數(shù)值。

設(shè)z為文章主題,θ為主題向量,w為該主題下的詞匯,則LDA聯(lián)合分布概率為:

2 關(guān)鍵句提取算法

本文關(guān)鍵句提取算法主要分為兩個步驟:1) 訓(xùn)練詞向量;2) 修改Gensim框架中TextRank算法使其能夠接受詞向量輸入。算法流程圖如圖1所示。

圖1 關(guān)鍵句提取算法流程

2.1 詞向量模型訓(xùn)練

訓(xùn)練語料庫由30萬篇中文文章構(gòu)成,其中包含維基百科基本語料,爬蟲程序爬取的經(jīng)濟(jì)時政新聞。訓(xùn)練之前需要對語料庫進(jìn)行預(yù)處理,該過程主要分為三個步驟:1) 繁簡轉(zhuǎn)化,由于原始語料庫包含繁體字,會出現(xiàn)同義異詞的情況,這不是模型所期望的輸入;2) 去除停用詞,非常用詞與標(biāo)點(diǎn)符號會影響模型效果,所以訓(xùn)練前需進(jìn)行該過程,本文運(yùn)用哈工大停用詞表對語料庫進(jìn)行去停處理;3) 分詞,Word2vec模型需接受分詞后的結(jié)果,本文使用Jieba分詞對語料進(jìn)行處理。

訓(xùn)練前需要對Word2vec模型參數(shù)進(jìn)行修改,以達(dá)到良好效果,本文主要對以下參數(shù)做了修改:1) sentences,設(shè)置為Text8Corpus,因?yàn)樗軌蚝芎玫靥幚泶笪谋緮?shù)據(jù);2) size,該參數(shù)表示向量維度大小,設(shè)置為120;3) batch_word,該參數(shù)表示每一批傳遞給現(xiàn)成的單詞數(shù)量,本文設(shè)置為1。

本文訓(xùn)練環(huán)境為macOS操作系統(tǒng),2.3 Hz Intel Core i5處理器,8 GB內(nèi)存,訓(xùn)練過程大致為3小時左右。

2.2 基于詞向量的TextRank

該部分算法具體實(shí)現(xiàn)如下:

1) 將文章分詞,并按照中文分句符號分句,將每句話作為文本單元;

2) 加載訓(xùn)練好的詞向量模型,將詞匯轉(zhuǎn)化為詞向量;

3) 構(gòu)建無向圖G=(V,E),頂點(diǎn)V是文本單元所包含詞向量累加的結(jié)果,采用共現(xiàn)關(guān)系生成兩點(diǎn)間的邊;

4) 將文本單元所包含詞向量累加,根據(jù)無向圖G生成如下所示稀疏矩陣,t表示文本單元,每篇文章有n個文本單元;

5) 根據(jù)如下余弦相似度公式,計(jì)算每個頂點(diǎn)之間的相似度,將結(jié)果替換4)中的文本單元:

6) 結(jié)合TextRank計(jì)算公式,賦予阻尼系數(shù)d,通常將這個值設(shè)置為0.85,計(jì)算迭代至收斂,算出最終分?jǐn)?shù)。

至此,由于詞向量相關(guān)性,分值高的文本單元由句子關(guān)鍵程度與關(guān)鍵句連貫性決定。

3 構(gòu)建摘要生成框架

摘要生成框架的目的是為了對上一節(jié)提取出來的關(guān)鍵句結(jié)構(gòu)進(jìn)行優(yōu)化以及驗(yàn)證。通過關(guān)鍵句所在文章結(jié)構(gòu)以及所含關(guān)鍵詞賦予其不同權(quán)值,計(jì)算后得到最終分?jǐn)?shù),選擇分?jǐn)?shù)最高的幾句話生成文章摘要。摘要生成框架處理流程圖如圖2所示。

圖2 摘要生成框架處理流程

3.1 文章結(jié)構(gòu)權(quán)值分配

對于新聞時政文章,段首往往包含著作者的中心意思。如東方財(cái)富網(wǎng)新聞?wù)仁褂贸槿∈椒椒ㄉ傻奈恼抡?,段首句子被用做摘要核心句的比例很高。從而?yīng)賦予段首句子更高的權(quán)值。

設(shè)w1、w2、w3分別為段首、段中與段尾的權(quán)值,s表示句子所在位置,L表示文章句子總數(shù),其中wa>wb>wc。根據(jù)本文運(yùn)用測試數(shù)據(jù)集文章結(jié)構(gòu),將段首、段尾句子個數(shù)定義為α,權(quán)值w表達(dá)式如下:

3.2 關(guān)鍵詞個數(shù)權(quán)值分配

相對于其他關(guān)鍵詞提取算法,LDA主題模型能很好地提取出文章隱式信息,如與經(jīng)濟(jì)相關(guān)的文章,文章通篇介紹了股票債券等信息,卻沒有出現(xiàn)經(jīng)濟(jì)二字,運(yùn)用LDA主題模型就可以將隱含關(guān)鍵詞(經(jīng)濟(jì))提取出來。主題模型的映射關(guān)系如圖3所示。

圖3 主題模型映射關(guān)系

主題模型認(rèn)為詞與文檔之間沒有直接的聯(lián)系,每個文檔都有一個或多個主題,每個主題都對應(yīng)著詞分布。運(yùn)用Gensim框架中的LDA主題模型訓(xùn)練語料,得到數(shù)據(jù)集的主題-詞分布模型,通過將傳遞的語料字典化,根據(jù)模型計(jì)算出詞分布概率p(wi|di),其中w為詞匯,d為對應(yīng)的文章,從而將概率值高的詞匯認(rèn)定為文章的關(guān)鍵詞。

提取出文章關(guān)鍵詞后,便可根據(jù)關(guān)鍵句所含關(guān)鍵詞個數(shù)定義其權(quán)值,設(shè)w為關(guān)鍵詞分?jǐn)?shù)權(quán)值,n為所含關(guān)鍵詞個數(shù),wd、we分別為不同關(guān)鍵詞閾值β下的權(quán)重。權(quán)值w表達(dá)式如下:

在實(shí)現(xiàn)權(quán)值分配的過程中需構(gòu)建句子與其所含關(guān)鍵詞個數(shù)的字典,從而根據(jù)關(guān)鍵詞個數(shù)分配每個句子不同的權(quán)重。

最后將文章結(jié)構(gòu)權(quán)重分配結(jié)果與關(guān)鍵詞個數(shù)權(quán)值分配結(jié)果相加后乘以第一階段產(chǎn)生的關(guān)鍵句分值,得到最終分?jǐn)?shù),并將句子按照分值大小,從高到低降序排列。

4 實(shí) 驗(yàn)

本文選擇100篇經(jīng)濟(jì)時政文章與對應(yīng)的標(biāo)準(zhǔn)摘要作為測試數(shù)據(jù)集,數(shù)據(jù)來源于東方財(cái)富網(wǎng)等各大新聞網(wǎng)站。

Rouge摘要評測方法是由Lin等[16]提出的摘要內(nèi)部評價(jià)方法,現(xiàn)被廣泛應(yīng)用與自動文摘項(xiàng)目當(dāng)中,作為評判摘要質(zhì)量好壞的標(biāo)準(zhǔn)。Rouge方法主要有以下四個評判指標(biāo):1) 信息量;2) 連貫性;3) 可讀性;4) 冗余度。四項(xiàng)指標(biāo)的總分可通過Rouge-N、Rouge-L與Rouge-S等評分標(biāo)準(zhǔn)計(jì)算得到。評分標(biāo)準(zhǔn)的選擇取決于文摘的類型。本文選擇Rouge-N與Rouge-L作為評分標(biāo)準(zhǔn)。

Rouge-N的定義如下:

式中:n代表n-gram的長度,本文將n值設(shè)置為1和2,分別計(jì)算其得分。

Rouge-L的定義如下:

式中:LCS(X,Y)是X與Y的公共子序列長度,R和P分別表示召回率和準(zhǔn)確率,F(xiàn)即為通過Rouge-L計(jì)算出的得分。

4.1 不同權(quán)值對結(jié)果的影響

本文通過如下方法確定權(quán)值w的分配,以段落權(quán)值分配為例:

1) 將wa、wb、wc初始化為1,計(jì)算出該狀態(tài)下摘要的Rouge得分P;

2) 設(shè)步長為0.1,每次將單個權(quán)值減去步長,保證其他兩個權(quán)值不變并且wa>wb>wc;

3) 計(jì)算權(quán)值變換后的Rouge得分,若該得分大于P,則更新P值為目前的得分,并且記錄該狀態(tài)下的權(quán)值;

4) 重復(fù)步驟2)-3),直到權(quán)值為0。

由于數(shù)據(jù)量過大,本文截取部分結(jié)果展現(xiàn)在表1和表2當(dāng)中。

表1 結(jié)構(gòu)權(quán)值對Rouge分?jǐn)?shù)的影響

續(xù)表1

表2 關(guān)鍵詞權(quán)值對結(jié)果的影響

從表中可看出,當(dāng)文章段首、段中段尾權(quán)值分別為0.8、0.5與0.2,或關(guān)鍵詞個數(shù)權(quán)值分別為0.3與0.2時,Rouge分?jǐn)?shù)最高有最優(yōu)解,即可以確定摘要生成框架的權(quán)值。

4.2 Rouge摘要評測結(jié)果

本文選取了四種自動摘要算法與本文提出算法相比較,分別是傳統(tǒng)的TextRank方法、基于BM25自動摘要算法[10]、基于Voting抽取式方法[12]與基于LDA與TextRank的摘要提取方法[15],Rouge-N、Rouge-L實(shí)驗(yàn)結(jié)果分別如表3、表4所示。

表3 Rouge-N摘要評測結(jié)果

表4 Rouge-L摘要評測結(jié)果

表中數(shù)據(jù)為100篇文章的平均得分,可以看出本文提出算法在Rouge-1、Rouge-2與Rouge-L中均有提升,特別是在Rouge-2中提升顯著,評測結(jié)果展現(xiàn)了本文提出的算法在單文檔摘要方面的優(yōu)勢性。

圖4展現(xiàn)了本文算法生成短篇至長篇文章摘要的Rouge平均分?jǐn)?shù),每個標(biāo)簽下的三個柱狀圖分別表示Rouge-1、Rouge-2與Rouge-3評分,可以看出,隨著文章篇幅的長度的增加,Rouge分?jǐn)?shù)在中長篇之前逐漸增加,之后減少,說明本文算法生成中長篇幅文章摘要的質(zhì)量比較高。

圖4 文章篇幅對Rouge摘要評分的影響

4.3 對比人工摘要結(jié)果示例

表5展現(xiàn)了本文算法生成摘要的結(jié)果,并與人工摘要進(jìn)行了對比??梢钥闯?,自動摘要的通順程度雖不及人工摘要,但并不妨礙讀者進(jìn)行閱讀。自動摘要基本涵蓋了文章核心意思,可以使讀者了解文章的主旨。

表5 自動摘要與人工摘要對比示例

實(shí)驗(yàn)結(jié)果表明本文提出的自動摘要算法相對其他算法有一定的提升,適用于生成中長篇幅文章的摘要,可以結(jié)合實(shí)際項(xiàng)目,應(yīng)用于新聞資訊的網(wǎng)站中。

5 結(jié) 語

本文通過總結(jié)近年學(xué)術(shù)領(lǐng)域中自動摘要生成算法的優(yōu)缺點(diǎn),運(yùn)用Gensim自然語言處理框架,提出了一種中文自動摘要算法。

算法從兩個方面入手提升了自動摘要的可靠程度。1) 通順度方面: 運(yùn)用Word2vec使得關(guān)鍵句在包含文意的同時有一定的連貫性;構(gòu)建了摘要生成框架,通過句子的位置賦予其不同的權(quán)值,在使得算法能夠從上至下尋找關(guān)鍵句,從而提升了通順程度。2) 關(guān)鍵性方面:運(yùn)用并改進(jìn)了TextRank提取關(guān)鍵句算法,并在摘要生成框架中通過LDA主題模型提取關(guān)鍵詞加以驗(yàn)證。

實(shí)驗(yàn)結(jié)果表明了本文提出方法的有效性,下一階段的任務(wù)是針對短篇幅文章,提升其自動摘要的質(zhì)量。

猜你喜歡
關(guān)鍵文本模型
一半模型
高考考好是關(guān)鍵
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 女人18毛片水真多国产| 免费无码又爽又黄又刺激网站| 青青网在线国产| 欲色天天综合网| 狼友av永久网站免费观看| 色婷婷天天综合在线| 99视频精品全国免费品| 久久国产乱子| 精品少妇人妻av无码久久| 久久国产高潮流白浆免费观看| 欧美成人精品高清在线下载| 欧美精品xx| 久久这里只有精品66| 四虎国产永久在线观看| 少妇精品在线| 欧美国产菊爆免费观看| 99免费在线观看视频| 日韩性网站| 亚洲精品制服丝袜二区| 456亚洲人成高清在线| 国产区人妖精品人妖精品视频| 中文字幕永久视频| 91丨九色丨首页在线播放 | 国产精品私拍99pans大尺度| 国产美女叼嘿视频免费看| 精品成人免费自拍视频| 亚洲天堂.com| 精品国产香蕉在线播出| 日韩区欧美区| 色久综合在线| 国产丝袜无码精品| 亚洲国产精品美女| 婷婷综合缴情亚洲五月伊| 欧美影院久久| 三上悠亚精品二区在线观看| 久久综合国产乱子免费| 2020精品极品国产色在线观看| 精品福利视频网| 国产视频一区二区在线观看| 人妻一区二区三区无码精品一区| 欧美成在线视频| 欧美va亚洲va香蕉在线| 美女扒开下面流白浆在线试听 | 国产男人的天堂| 99久久国产综合精品2023| 国产精品久久久精品三级| 四虎永久免费网站| 小13箩利洗澡无码视频免费网站| 少妇极品熟妇人妻专区视频| 97久久精品人人做人人爽| 澳门av无码| 精品亚洲麻豆1区2区3区| 2048国产精品原创综合在线| 亚洲av无码片一区二区三区| 国产亚洲欧美在线中文bt天堂 | av在线5g无码天天| 午夜精品国产自在| 久久99热66这里只有精品一 | 久久一日本道色综合久久| 中文字幕亚洲综久久2021| 欧美一级特黄aaaaaa在线看片| 欧美精品一区二区三区中文字幕| 无码粉嫩虎白一线天在线观看| 一级黄色网站在线免费看| 91破解版在线亚洲| 大学生久久香蕉国产线观看| 亚洲精品手机在线| 91亚洲精选| 5388国产亚洲欧美在线观看| 国产女人在线| 无码精品国产VA在线观看DVD| 亚洲精品视频免费| 视频国产精品丝袜第一页| 欧美一区精品| 免费毛片a| 欧美劲爆第一页| 国产午夜精品鲁丝片| 日本高清有码人妻| 久久综合九九亚洲一区| 四虎影视无码永久免费观看| a毛片在线| 国产成人亚洲精品色欲AV|