基于MapReduce并行計(jì)算提取文檔特征Textrank算法研究

2018-12-31 00:00:00孫龍李彥

現(xiàn)代信息科技 2018年10期

摘要：Textrank相比詞袋模型有獨(dú)特的優(yōu)勢(shì)，但需要進(jìn)行多輪迭代和遞歸運(yùn)算，常規(guī)串行化算法無(wú)法滿足大數(shù)據(jù)環(huán)境下文檔處理的需求。必須借助大數(shù)據(jù)的分布式處理、并行化計(jì)算技術(shù)來(lái)應(yīng)對(duì)這一挑戰(zhàn)。本文學(xué)習(xí)研究了大數(shù)據(jù)平臺(tái)Hadoop的分布式處理方式，并在MapReduce框架下實(shí)現(xiàn)并行了Textrank并行提取文檔特征的算法。同時(shí)，本文就Textrank中關(guān)鍵的投票算法提出了MapReduce迭代實(shí)現(xiàn)。經(jīng)在Hadoop集群上驗(yàn)證，在計(jì)算節(jié)點(diǎn)增加的情況下，該模式可有效提升Textrank算法效率。

關(guān)鍵詞：MapReduce；Textrank；文檔特征提取

中圖分類(lèi)號(hào)：TP391.1 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2096-4706（2018）10-0080-04

Abstract：Compared with the word bag model，Textrank has unique advantages，but it needs several rounds of iteration and recursive operation. The conventional serialization algorithm can not meet the requirement of document processing in large data environment. It is necessary to deal with this challenge with the help of distributed processing and parallel computing technology of large data. This paper studies the distributed processing method of large data platform Hadoop，and implements parallel Textrank parallel extraction of document features in the framework of MapReduce. Finally，this paper puts forward the idea of MapReduce iterative Realization on the key voting algorithm in Textrank. It is verified by Hadoop cluster that the model can effectively improve the efficiency of Textrank algorithm when the computing node is increased.

Keywords：MapReduce；Textrank；document feature extract

0 引言

2004年谷歌公布了MapReduce體系結(jié)構(gòu)論文，提出了并行處理模型，查詢被切分和發(fā)布到并行節(jié)點(diǎn)上并行處理（Map階段），然后再聚集得到結(jié)果（Reduce階段）[1]。后來(lái)Apache的開(kāi)源項(xiàng)目Hadoop實(shí)現(xiàn)了MapReduce框架[2]。這種類(lèi)型的框架讓前端應(yīng)用程序服務(wù)器和最終用戶對(duì)數(shù)據(jù)處理完全透明[3]。為解決大數(shù)據(jù)環(huán)境下的文檔分類(lèi)及特征抽取，圍繞Mapreduce計(jì)算框架，很多研究提出了解決方案，文獻(xiàn)[4]就Mapreduce框架實(shí)現(xiàn)多層神經(jīng)網(wǎng)絡(luò)算法提出了方案，文獻(xiàn)[5]提出了大數(shù)據(jù)下用Mapreduce實(shí)現(xiàn)K-means聚類(lèi)的算法設(shè)計(jì)。文獻(xiàn)[6]通過(guò)Mapreduce抽取無(wú)結(jié)構(gòu)文本中的情感信息等。這些研究分別就Mapreduce并行計(jì)算框架在某些特定領(lǐng)域的具體算法進(jìn)行了嘗試，但這些方法基本上是基于詞袋模行進(jìn)行的特征抽取，較少考慮到文本的語(yǔ)義結(jié)構(gòu)信息。

為了有效進(jìn)行文檔分類(lèi)，我們需要對(duì)文檔的語(yǔ)義關(guān)鍵詞進(jìn)行提取，進(jìn)而來(lái)實(shí)現(xiàn)通過(guò)語(yǔ)義關(guān)鍵詞進(jìn)行分類(lèi)的目的。首先要找到……

登錄APP查看全文

現(xiàn)代信息科技 2018年10期

現(xiàn)代信息科技的其它文章: 物聯(lián)網(wǎng)與互聯(lián)網(wǎng)的聯(lián)系及應(yīng)用前景; 淺談物聯(lián)網(wǎng)技術(shù)支持下的高校智慧實(shí)驗(yàn)室構(gòu)建; 基于nRF24L01的智能物聯(lián)系統(tǒng)組網(wǎng)技術(shù)研究; 基于無(wú)線傳感器網(wǎng)絡(luò)的貨運(yùn)列車(chē)軸溫檢測(cè)系統(tǒng)設(shè)計(jì); 基于物聯(lián)網(wǎng)下的智能電器管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn); 3D打印技術(shù)研究現(xiàn)狀及在建筑領(lǐng)域的應(yīng)用