999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本相似度的新聞自動摘要算法研究

2022-03-10 03:17:58李棟凱張永昌
科學與信息化 2022年4期
關鍵詞:文本實驗模型

李棟凱 張永昌

1. 河北工程大學信息與電氣工程學院 河北 邯鄲 056038;2. 河北工程大學土木工程學院 河北 邯鄲 056038

引言

互聯(lián)網(wǎng)的快速發(fā)展孕育了自媒體并帶動自媒體飛速發(fā)展,但很多自媒體新聞的正文與其所寫的標題并不完全相符,甚至有些自媒體為“博眼球”把新聞標題和標題完全無關的內(nèi)容生硬的進行捆綁,這消耗了讀者的有效閱讀時間。新聞自動摘要技術可以快速形成新聞匯總,聚焦新聞熱點,提高讀者的閱讀效率,改善閱讀體驗。

本文將textrank[1]、word2vec[2-3]和MMR[4-5]三種語言模型用于新聞自動摘要算法的研究。通過仿真實驗結果的對比發(fā)現(xiàn):①textrank算法得到的摘要語句可讀性差,理解困難;②在textrank算法基礎上增加word2vec模型后對整篇新聞的概括度較高,但將并不能很好的解決信息冗余和效率低的問題;③MMR可以有效去除信息冗余,體現(xiàn)語義的多樣性。

1 算法簡介

1.1 textrank算法

textrank被用來做文本摘要[1]的步驟如圖1所示。首先逐條提取目標文本中的句子,并把提取到的句子表示成向量形式,用非稀疏矩陣來表示文本中所有句子之間的相似性;然后,將句子作為節(jié)點,句子之間的相似度作為邊的權重,將矩陣轉(zhuǎn)換成一個圖的表示形式;最后,對所有句子節(jié)點按照其邊的權重重新排序,提取出排名靠前的句子作為摘要。

圖1 textrank摘要步驟

Textrank中計算兩兩句子間的相似度通過式(1)來計算,等式的右邊表示目標文本中第i個句子和第j個句子的相似度,等式右側的分子代表第i個句子和第j個句子所有單詞的數(shù)量。

1.2 word2vec模型

實現(xiàn)textrank算法中有一步需要把文本中的句子轉(zhuǎn)化為向量的表示形式。這一步驟可以通過TF-idf,word2vec以及characterbased等方法來實現(xiàn)。其中,TF-idf是依據(jù)詞語在文本匯總出現(xiàn)的頻率計算;word2vec生成的向量可以進一步表示出詞與詞之間的聯(lián)系;character-based僅是把一個詞語轉(zhuǎn)換為一個字符來表示。本文采用word2vec模型用于改進textrank算法的新聞摘要生成質(zhì)量[2-3]。

word2vec模型本質(zhì)上是去掉了隱藏層的人工神經(jīng)網(wǎng)絡模型。該模型認為上下文中詞義相近的詞,它們對應的向量之間距離相近。它主要是對比某個詞和與它相鄰的詞之間的關系。比如“她給小明做午飯”。如果“小明”作為中心詞,那么和它相鄰的詞有“她”、“給”、“做”、“午飯”。在“她給小李做午飯”。中選取“小李”為中心詞,與這個詞緊鄰的同樣有“她”、“給”、“做”、“午飯”。因此與這兩個中心詞的相鄰的詞是完全相同的,經(jīng)過向量計算我們希望得到“小明”等于“小李”。

1.3 MMR算法

MMR算法又被稱為最大邊界相關算法,是在研究查詢結果的多樣化時提出[4-5]。最初MMR被用來計算Query文本與被搜索的文檔兩者的相似度,后來也被用于rank排序。MMR的數(shù)學計算公式如式(2)所示:

采用MMR最后生成摘要的句子有兩個特性,一是該句子的重要性更高,二是這個句子和其他句子之間的相似度更低。因此,通過MMR算法得到的最終摘要,句句都很重要,但句句都不一樣。抽取的句子既能表達整個文檔的含義,又可以兼具語義的多樣性。

2 仿真實驗

本文選取2008版的搜狗實驗室的全網(wǎng)新聞數(shù)據(jù)(SogouCA)作為實驗數(shù)據(jù)集,該數(shù)據(jù)集來自若干新聞站點包含國內(nèi),國際,體育等18個頻道。全網(wǎng)新聞數(shù)據(jù)(SogouCA)中的數(shù)據(jù)格式為圖2所示,它提供了URL、標題以及新聞正文的內(nèi)容。該數(shù)據(jù)集中有的新聞正文長句較多,有的正文則很短甚至沒有正文,且不是所有的新聞都有標題。

圖2 數(shù)據(jù)集中的數(shù)據(jù)格式

新聞文本里的正文內(nèi)容含有特殊的符號比如:表情符號、空格、英文字母等,且全角半角使用較混亂。實驗前需要通過數(shù)據(jù)預處理對給新聞文本進行整理,以去除特殊符號,將全角轉(zhuǎn)換為半角,從而便于隨后實驗步驟的進行。

本文采取Anaconda(python3.8)與Pycharm搭配使用作為仿真實驗工具。使用jieba分詞工具的精確模式去停用詞。使用anaconda中的opencc庫來進行繁體簡體之間的轉(zhuǎn)換。具體仿真平臺參數(shù)如表1所示。

表1 仿真工具平臺

以搜狗實驗室的全網(wǎng)新聞數(shù)據(jù)(SogouCA)中一條體育新聞為例,原文如圖2所示,展示了三種文本摘要算法生成的摘要結果分別如圖3-5所示。

圖2 新聞原文

圖3 textrank摘要結果

圖4 增加word2vec后的textrank摘要結果

圖5 MMR算法摘要結果

對比摘要生成情況可以發(fā)現(xiàn),textrank提取了新聞的最后一句話,使用了詞向量生成模型的textrank提取到了新聞的第一句話。在實驗中發(fā)現(xiàn)采用textrank算法傾向于提取文本最后一句話作為摘要句,而采用word2vec模型的textrank算法同時提取了文本第一句話。因此,增加了word2vec模型的textrank算法對整篇新聞的概括度較高。

MMR摘要方法抽取出來的句子之間的關聯(lián)性不大,比較跳躍性,可讀性差。但MMR相比于textrank提取的句子多樣性較好,冗余較小,可以較完整概況新聞整體內(nèi)容。

3 結束語

考慮到新聞文本結構的特殊性,新聞中句子位置的特征以及不同種類新聞對摘要的不同要求,當前自動摘要評測技術只能對句子間“皮相”進行評估,不能通過語義辨別摘要質(zhì)量的好壞。從而一定程度上需要人的主觀評測。因此本文未對摘要結果進行評測,僅分析了基于三種算法生成的摘要之間的差異。

新聞文本中的第一條語句通常是對整篇信息的高度概括,闡述了新聞的核心觀點;而最后一條語句通常是對本文的簡單總結或新聞報道方的信息羅列。本文選取的三個算法都是基于抽取式的摘要生成技術,只要目標新聞的內(nèi)容質(zhì)量具備一定層次性和邏輯性,基本都能不偏離新聞報道的主題,但均不具備對新聞較高的概括能力。

猜你喜歡
文本實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 久久久久久高潮白浆| 精品国产一区二区三区在线观看| 在线观看国产网址你懂的| 国产综合精品日本亚洲777| 国产欧美精品专区一区二区| 素人激情视频福利| 成人国产一区二区三区| 婷婷六月天激情| 亚洲丝袜第一页| 午夜少妇精品视频小电影| 2021国产精品自产拍在线观看| 国产一级精品毛片基地| 欧美色综合网站| 亚洲高清在线播放| 色爽网免费视频| 成人一级免费视频| 婷婷综合在线观看丁香| 五月天丁香婷婷综合久久| av性天堂网| 国产门事件在线| 91啦中文字幕| 精品国产一区91在线| 久久国产免费观看| 丰满人妻一区二区三区视频| 国产福利2021最新在线观看| 亚洲第一黄片大全| 亚亚洲乱码一二三四区| 精品第一国产综合精品Aⅴ| 免费视频在线2021入口| 久久福利片| 亚洲高清中文字幕| 精品乱码久久久久久久| 91久久夜色精品| 老司机精品久久| 日本人妻丰满熟妇区| 情侣午夜国产在线一区无码| 成人av手机在线观看| 国产亚洲男人的天堂在线观看| 亚洲中文字幕在线一区播放| 国外欧美一区另类中文字幕| 亚洲视频在线观看免费视频| 最新亚洲人成无码网站欣赏网 | 国产不卡在线看| 欧美第二区| 亚州AV秘 一区二区三区| 97超级碰碰碰碰精品| 国产女人18水真多毛片18精品| 国产一区二区免费播放| 国产欧美日韩综合一区在线播放| 亚洲色欲色欲www在线观看| 91啦中文字幕| 国产精品一区二区无码免费看片| 日韩无码黄色网站| 国产成人无码AV在线播放动漫| 国产在线欧美| 黄色网页在线观看| 国产午夜一级淫片| 最新国产精品鲁鲁免费视频| 国产视频入口| 国产精品hd在线播放| 在线毛片免费| 亚洲成人手机在线| 亚洲国产亚洲综合在线尤物| 黄色网页在线播放| 国产玖玖视频| 欧美a√在线| 成人日韩欧美| 国产主播一区二区三区| 久久青青草原亚洲av无码| 精品国产自在在线在线观看| 国产午夜精品一区二区三| 日本在线视频免费| 精品人妻一区无码视频| 综合色婷婷| 91黄视频在线观看| 日韩AV无码一区| 91精品免费高清在线| 91尤物国产尤物福利在线| 在线免费不卡视频| 亚洲三级片在线看| 丁香五月婷婷激情基地| 日韩欧美国产综合|