999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MapReduce并行計(jì)算提取文檔特征Textrank算法研究

2018-12-31 00:00:00孫龍李彥
現(xiàn)代信息科技 2018年10期

摘 要:Textrank相比詞袋模型有獨(dú)特的優(yōu)勢(shì),但需要進(jìn)行多輪迭代和遞歸運(yùn)算,常規(guī)串行化算法無(wú)法滿足大數(shù)據(jù)環(huán)境下文檔處理的需求。必須借助大數(shù)據(jù)的分布式處理、并行化計(jì)算技術(shù)來(lái)應(yīng)對(duì)這一挑戰(zhàn)。本文學(xué)習(xí)研究了大數(shù)據(jù)平臺(tái)Hadoop的分布式處理方式,并在MapReduce框架下實(shí)現(xiàn)并行了Textrank并行提取文檔特征的算法。同時(shí),本文就Textrank中關(guān)鍵的投票算法提出了MapReduce迭代實(shí)現(xiàn)。經(jīng)在Hadoop集群上驗(yàn)證,在計(jì)算節(jié)點(diǎn)增加的情況下,該模式可有效提升Textrank算法效率。

關(guān)鍵詞:MapReduce;Textrank;文檔特征提取

中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2018)10-0080-04

Abstract:Compared with the word bag model,Textrank has unique advantages,but it needs several rounds of iteration and recursive operation. The conventional serialization algorithm can not meet the requirement of document processing in large data environment. It is necessary to deal with this challenge with the help of distributed processing and parallel computing technology of large data. This paper studies the distributed processing method of large data platform Hadoop,and implements parallel Textrank parallel extraction of document features in the framework of MapReduce. Finally,this paper puts forward the idea of MapReduce iterative Realization on the key voting algorithm in Textrank. It is verified by Hadoop cluster that the model can effectively improve the efficiency of Textrank algorithm when the computing node is increased.

Keywords:MapReduce;Textrank;document feature extract

0 引 言

2004年谷歌公布了MapReduce體系結(jié)構(gòu)論文,提出了并行處理模型,查詢被切分和發(fā)布到并行節(jié)點(diǎn)上并行處理(Map階段),然后再聚集得到結(jié)果(Reduce階段)[1]。后來(lái)Apache的開(kāi)源項(xiàng)目Hadoop實(shí)現(xiàn)了MapReduce框架[2]。這種類(lèi)型的框架讓前端應(yīng)用程序服務(wù)器和最終用戶對(duì)數(shù)據(jù)處理完全透明[3]。為解決大數(shù)據(jù)環(huán)境下的文檔分類(lèi)及特征抽取,圍繞Mapreduce計(jì)算框架,很多研究提出了解決方案,文獻(xiàn)[4]就Mapreduce框架實(shí)現(xiàn)多層神經(jīng)網(wǎng)絡(luò)算法提出了方案,文獻(xiàn)[5]提出了大數(shù)據(jù)下用Mapreduce實(shí)現(xiàn)K-means聚類(lèi)的算法設(shè)計(jì)。文獻(xiàn)[6]通過(guò)Mapreduce抽取無(wú)結(jié)構(gòu)文本中的情感信息等。這些研究分別就Mapreduce并行計(jì)算框架在某些特定領(lǐng)域的具體算法進(jìn)行了嘗試,但這些方法基本上是基于詞袋模行進(jìn)行的特征抽取,較少考慮到文本的語(yǔ)義結(jié)構(gòu)信息。

為了有效進(jìn)行文檔分類(lèi),我們需要對(duì)文檔的語(yǔ)義關(guān)鍵詞進(jìn)行提取,進(jìn)而來(lái)實(shí)現(xiàn)通過(guò)語(yǔ)義關(guān)鍵詞進(jìn)行分類(lèi)的目的。首先要找到……

登錄APP查看全文

主站蜘蛛池模板: 久久人体视频| 成人福利在线免费观看| 国产精品永久不卡免费视频| 亚洲综合精品香蕉久久网| 亚洲欧美另类日本| a亚洲天堂| 国产一级视频久久| 91人妻日韩人妻无码专区精品| 免费国产黄线在线观看| 一区二区自拍| 成人福利在线视频| 欧美在线国产| 国产成人麻豆精品| 在线播放国产一区| 国产成人一区二区| 日本三级欧美三级| 亚洲一区二区日韩欧美gif| 欧美日韩激情在线| 中文国产成人精品久久一| 久久黄色影院| 亚洲国内精品自在自线官| 日韩午夜片| 国产一区二区三区在线精品专区| 欧美精品成人一区二区视频一| 在线观看无码av免费不卡网站 | 色吊丝av中文字幕| 欧美天天干| 亚洲综合婷婷激情| 中文无码毛片又爽又刺激| 久久精品国产91久久综合麻豆自制| 99在线免费播放| 亚洲精品视频在线观看视频| 国产欧美性爱网| 亚洲视频a| 成人一级黄色毛片| 国产精品亚洲а∨天堂免下载| 久草视频精品| 欧美亚洲另类在线观看| 99九九成人免费视频精品| 久久久精品无码一二三区| 欧美伊人色综合久久天天| 国产精品视频系列专区| 黄色免费在线网址| 亚洲天堂精品在线| 波多野结衣国产精品| 色悠久久综合| 深爱婷婷激情网| 国产精品亚洲va在线观看| 国产日韩欧美成人| 久草热视频在线| 理论片一区| 被公侵犯人妻少妇一区二区三区 | 永久在线精品免费视频观看| 广东一级毛片| 2022国产91精品久久久久久| 在线观看欧美国产| 亚洲AV无码久久天堂| 在线中文字幕网| 先锋资源久久| 在线观看av永久| 久久精品人妻中文系列| 亚洲天堂网2014| 54pao国产成人免费视频| 亚洲人成网址| 国产一区二区人大臿蕉香蕉| 2021最新国产精品网站| 青草视频网站在线观看| 又爽又大又黄a级毛片在线视频| 日韩精品免费一线在线观看| 九九久久99精品| 国产尤物在线播放| 亚洲无码高清一区| 日韩毛片视频| 亚洲成av人无码综合在线观看| 日韩av高清无码一区二区三区| 国产免费高清无需播放器| 国产精品护士| 毛片网站观看| 亚洲福利网址| 国产精品黄色片| 国产精品吹潮在线观看中文| 亚洲第一区在线|