999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本相似度的新聞自動摘要算法研究

2022-03-10 03:17:58李棟凱張永昌
科學與信息化 2022年4期
關鍵詞:文本實驗模型

李棟凱 張永昌

1. 河北工程大學信息與電氣工程學院 河北 邯鄲 056038;2. 河北工程大學土木工程學院 河北 邯鄲 056038

引言

互聯(lián)網(wǎng)的快速發(fā)展孕育了自媒體并帶動自媒體飛速發(fā)展,但很多自媒體新聞的正文與其所寫的標題并不完全相符,甚至有些自媒體為“博眼球”把新聞標題和標題完全無關的內(nèi)容生硬的進行捆綁,這消耗了讀者的有效閱讀時間。新聞自動摘要技術可以快速形成新聞匯總,聚焦新聞熱點,提高讀者的閱讀效率,改善閱讀體驗。

本文將textrank[1]、word2vec[2-3]和MMR[4-5]三種語言模型用于新聞自動摘要算法的研究。通過仿真實驗結果的對比發(fā)現(xiàn):①textrank算法得到的摘要語句可讀性差,理解困難;②在textrank算法基礎上增加word2vec模型后對整篇新聞的概括度較高,但將并不能很好的解決信息冗余和效率低的問題;③MMR可以有效去除信息冗余,體現(xiàn)語義的多樣性。

1 算法簡介

1.1 textrank算法

textrank被用來做文本摘要[1]的步驟如圖1所示。首先逐條提取目標文本中的句子,并把提取到的句子表示成向量形式,用非稀疏矩陣來表示文本中所有句子之間的相似性;然后,將句子作為節(jié)點,句子之間的相似度作為邊的權重,將矩陣轉(zhuǎn)換成一個圖的表示形式;最后,對所有句子節(jié)點按照其邊的權重重新排序,提取出排名靠前的句子作為摘要。

圖1 textrank摘要步驟

Textrank中計算兩兩句子間的相似度通過式(1)來計算,等式的右邊表示目標文本中第i個句子和第j個句子的相似度,等式右側的分子代表第i個句子和第j個句子所有單詞的數(shù)量。

1.2 word2vec模型

實現(xiàn)textrank算法中有一步需要把文本中的句子轉(zhuǎn)化為向量的表示形式。這一步驟可以通過TF-idf,word2vec以及characterbased等方法來實現(xiàn)。其中,TF-idf是依據(jù)詞語在文本匯總出現(xiàn)的頻率計算;word2vec生成的向量可以進一步表示出詞與詞之間的聯(lián)系;character-based僅是把一個詞語轉(zhuǎn)換為一個字符來表示。本文采用word2vec模型用于改進textrank算法的新聞摘要生成質(zhì)量[2-3]。

word2vec模型本質(zhì)上是去掉了隱藏層的人工神經(jīng)網(wǎng)絡模型。該模型認為上下文中詞義相近的詞,它們對應的向量之間距離相近。它主要是對比某個詞和與它相鄰的詞之間的關系。比如“她給小明做午飯”。如果“小明”作為中心詞,那么和它相鄰的詞有“她”、“給”、“做”、“午飯”。在“她給小李做午飯”。中選取“小李”為中心詞,與這個詞緊鄰的同樣有“她”、“給”、“做”、“午飯”。因此與這兩個中心詞的相鄰的詞是完全相同的,經(jīng)過向量計算我們希望得到“小明”等于“小李”。

1.3 MMR算法

MMR算法又被稱為最大邊界相關算法,是在研究查詢結果的多樣化時提出[4-5]。最初MMR被用來計算Query文本與被搜索的文檔兩者的相似度,后來也被用于rank排序。MMR的數(shù)學計算公式如式(2)所示:

采用MMR最后生成摘要的句子有兩個特性,一是該句子的重要性更高,二是這個句子和其他句子之間的相似度更低。因此,通過MMR算法得到的最終摘要,句句都很重要,但句句都不一樣。抽取的句子既能表達整個文檔的含義,又可以兼具語義的多樣性。

2 仿真實驗

本文選取2008版的搜狗實驗室的全網(wǎng)新聞數(shù)據(jù)(SogouCA)作為實驗數(shù)據(jù)集,該數(shù)據(jù)集來自若干新聞站點包含國內(nèi),國際,體育等18個頻道。全網(wǎng)新聞數(shù)據(jù)(SogouCA)中的數(shù)據(jù)格式為圖2所示,它提供了URL、標題以及新聞正文的內(nèi)容。該數(shù)據(jù)集中有的新聞正文長句較多,有的正文則很短甚至沒有正文,且不是所有的新聞都有標題。

圖2 數(shù)據(jù)集中的數(shù)據(jù)格式

新聞文本里的正文內(nèi)容含有特殊的符號比如:表情符號、空格、英文字母等,且全角半角使用較混亂。實驗前需要通過數(shù)據(jù)預處理對給新聞文本進行整理,以去除特殊符號,將全角轉(zhuǎn)換為半角,從而便于隨后實驗步驟的進行。

本文采取Anaconda(python3.8)與Pycharm搭配使用作為仿真實驗工具。使用jieba分詞工具的精確模式去停用詞。使用anaconda中的opencc庫來進行繁體簡體之間的轉(zhuǎn)換。具體仿真平臺參數(shù)如表1所示。

表1 仿真工具平臺

以搜狗實驗室的全網(wǎng)新聞數(shù)據(jù)(SogouCA)中一條體育新聞為例,原文如圖2所示,展示了三種文本摘要算法生成的摘要結果分別如圖3-5所示。

圖2 新聞原文

圖3 textrank摘要結果

圖4 增加word2vec后的textrank摘要結果

圖5 MMR算法摘要結果

對比摘要生成情況可以發(fā)現(xiàn),textrank提取了新聞的最后一句話,使用了詞向量生成模型的textrank提取到了新聞的第一句話。在實驗中發(fā)現(xiàn)采用textrank算法傾向于提取文本最后一句話作為摘要句,而采用word2vec模型的textrank算法同時提取了文本第一句話。因此,增加了word2vec模型的textrank算法對整篇新聞的概括度較高。

MMR摘要方法抽取出來的句子之間的關聯(lián)性不大,比較跳躍性,可讀性差。但MMR相比于textrank提取的句子多樣性較好,冗余較小,可以較完整概況新聞整體內(nèi)容。

3 結束語

考慮到新聞文本結構的特殊性,新聞中句子位置的特征以及不同種類新聞對摘要的不同要求,當前自動摘要評測技術只能對句子間“皮相”進行評估,不能通過語義辨別摘要質(zhì)量的好壞。從而一定程度上需要人的主觀評測。因此本文未對摘要結果進行評測,僅分析了基于三種算法生成的摘要之間的差異。

新聞文本中的第一條語句通常是對整篇信息的高度概括,闡述了新聞的核心觀點;而最后一條語句通常是對本文的簡單總結或新聞報道方的信息羅列。本文選取的三個算法都是基于抽取式的摘要生成技術,只要目標新聞的內(nèi)容質(zhì)量具備一定層次性和邏輯性,基本都能不偏離新聞報道的主題,但均不具備對新聞較高的概括能力。

猜你喜歡
文本實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 黄色网在线免费观看| 亚洲欧美不卡视频| 欧美激情首页| 啊嗯不日本网站| 精品三级网站| 成人综合网址| 午夜精品久久久久久久无码软件| 久久久久青草大香线综合精品| 日本国产精品一区久久久| 丰满人妻一区二区三区视频| 国产丝袜第一页| 欧美亚洲国产视频| 国产精品专区第1页| 国产成人综合久久| 无码高潮喷水专区久久| 婷婷六月色| 成人在线欧美| 中文字幕人妻无码系列第三区| 国产AV毛片| 欧美成人a∨视频免费观看| 亚洲经典在线中文字幕| 国产精品久久久久鬼色| 亚洲第一成网站| 免费观看国产小粉嫩喷水| 亚洲制服丝袜第一页| YW尤物AV无码国产在线观看| 在线精品欧美日韩| 国产精品第一区| 亚洲色精品国产一区二区三区| 久久久久亚洲AV成人网站软件| 中美日韩在线网免费毛片视频| 亚洲人成在线免费观看| 亚洲国产精品一区二区第一页免| 国产欧美专区在线观看| 国产精品自在拍首页视频8| 亚洲天堂成人在线观看| 亚洲国产午夜精华无码福利| 日本中文字幕久久网站| 国产菊爆视频在线观看| 日韩不卡免费视频| 又大又硬又爽免费视频| 国产一级毛片网站| 国产亚洲精品97在线观看| 97在线碰| 一级毛片在线免费看| 白丝美女办公室高潮喷水视频| 国产爽歪歪免费视频在线观看| 亚洲三级网站| 国产精品视频观看裸模 | 特级做a爰片毛片免费69| 91麻豆国产精品91久久久| 日本一本在线视频| 亚洲国产成人久久精品软件| 免费国产高清视频| 免费观看三级毛片| 国产全黄a一级毛片| 国产一级一级毛片永久| 99re经典视频在线| 亚国产欧美在线人成| 尤物特级无码毛片免费| 亚洲熟女偷拍| 国产91特黄特色A级毛片| 亚洲三级影院| 亚洲精品自拍区在线观看| 国产成人综合网在线观看| 激情乱人伦| 亚洲91精品视频| 国产免费自拍视频| 亚洲美女操| 一级做a爰片久久毛片毛片| 国产浮力第一页永久地址| 在线国产你懂的| 欧美激情视频在线观看一区| 亚洲男人的天堂在线| 国产激情第一页| 人人澡人人爽欧美一区| 伊人久久精品无码麻豆精品 | 国内精品视频区在线2021| 欧美日韩精品综合在线一区| 国产第一页亚洲| 国产福利2021最新在线观看| 欧美特黄一级大黄录像|