999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx

基于Hadoop的分布式搜索引擎的研究

2018-03-26 07:14:49鄭睿穎王芷婷
求知導(dǎo)刊 2017年32期

鄭睿穎 王芷婷

摘 要:分布式搜索引擎是一種結(jié)合了分布式計(jì)算技術(shù)和全文搜索技術(shù)的新型信息搜索系統(tǒng)。它改變了人們獲取信息的途徑,使得人們能夠更快捷、更有效地獲取信息。現(xiàn)在它已經(jīng)深入到網(wǎng)絡(luò)生活的每一方面,被譽(yù)為“上網(wǎng)第一站”。文章在分析當(dāng)前幾種分布式搜索引擎系統(tǒng)的基礎(chǔ)上,總結(jié)了現(xiàn)在系統(tǒng)的優(yōu)缺點(diǎn),針對(duì)現(xiàn)有系統(tǒng)的不足,提出了給予Hadoop的分布式搜索引擎。

關(guān)鍵詞:Hadoop;分布式搜索引擎;HDFS文件系統(tǒng)

中圖分類號(hào):TP391.3

文獻(xiàn)標(biāo)識(shí)碼:A

一、引言

近年來,隨著信息技術(shù)科技的進(jìn)步,人們的生活方式發(fā)生了巨大的改變,強(qiáng)大的數(shù)據(jù)信息化的世界正在逐漸包裹著每一個(gè)生活在當(dāng)下的人們。在人們的日常生活和工作中,信息的獲取途徑逐漸被網(wǎng)絡(luò)所取代,而使用者想要快速地對(duì)海量信息進(jìn)行搜索就需要應(yīng)用一定的媒介,即搜索引擎。與傳統(tǒng)的集成式搜索相比,分布式搜索引擎具有更加突出的優(yōu)勢,在這種情況下,積極加強(qiáng)基于Hadoop的分布式搜索引擎研究具有重要意義。

二、基于Hadoop分布式搜索技術(shù)

Hadoop是一個(gè)由Apache基金會(huì)開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),它的產(chǎn)生是建立在針對(duì)Doug Cutting和Yahoo的研究之上。Hadoop對(duì)于用戶的要求并不高,只要有一定的程序開發(fā)基礎(chǔ),即便不了解分布式底層細(xì)節(jié),用戶依然可以開發(fā)分布式程序。

Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上。而且它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。HDFS放寬了POSIX的要求,可以以流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。

Hadoop的框架最核心的設(shè)計(jì)就是HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),而MapReduce為海量的數(shù)據(jù)提供了計(jì)算。

1.HDFS文件系統(tǒng)

開源版本在Google GFS中的體現(xiàn)就是HDFS,該分布式文件系統(tǒng)有高容錯(cuò)性,數(shù)據(jù)訪問中可以實(shí)現(xiàn)高吞吐量,能夠?qū)Ω哂?4MB的大文件進(jìn)行海量儲(chǔ)存。

對(duì)于一個(gè)HDFS系統(tǒng)來說,硬件故障是常有的事。一個(gè)HDFS系統(tǒng)由成百上千個(gè)存儲(chǔ)數(shù)據(jù)片段的服務(wù)器構(gòu)成,可想而知,如此龐大的組成部分是很有可能出現(xiàn)故障的,而故障所導(dǎo)致的后果就是部件失效。因此,故障的檢測和自動(dòng)快速的恢復(fù)是HDFS一個(gè)很核心的設(shè)計(jì)目標(biāo)。

在HDFS上運(yùn)行的程序是有其特定的要求的,那就是必須以流的形式訪問數(shù)據(jù)集。HDFS不能進(jìn)行用戶交互,其處理文件的方式是批量處理。它的特點(diǎn)體現(xiàn)在數(shù)據(jù)吞吐量上,但對(duì)于數(shù)據(jù)訪問的反應(yīng)時(shí)間并沒有做過多要求。

HDFS文件系統(tǒng)還有一個(gè)顯著的特點(diǎn),即大數(shù)據(jù)集。在HDFS上運(yùn)行的應(yīng)用程序都是擁有著大量數(shù)據(jù)的。通常情況下,HDFS文件大小為GB級(jí)到TB級(jí)。HDFS提供的空間是相當(dāng)大的,一個(gè)集群中不僅能支持?jǐn)?shù)百個(gè)節(jié)點(diǎn),還可以支持千萬級(jí)別的文件。

2.MapReduce模型

MapReduce是一種編程模型,在2004年由Google Allo實(shí)驗(yàn)室提出。它的功能是作用在集群上,對(duì)海量的數(shù)據(jù)進(jìn)行并行處理。在Google內(nèi)部,MapReduce的應(yīng)用非常廣泛,其中包括分布grep、分布排序web訪問日志分析、反向索引構(gòu)建、文檔聚類、機(jī)器學(xué)習(xí)和基于統(tǒng)計(jì)的機(jī)器翻譯等。甚至,在MapReduce得到實(shí)現(xiàn)之后,它被用來重新生成了Google的整個(gè)索引。由此可見,MapReduce具有非常高的性能。

最簡單的MapReduce應(yīng)用程序,至少要包括三個(gè)部分:一個(gè)Map函數(shù),一個(gè)Reduce函數(shù),一個(gè)main函數(shù)。其中,Main函數(shù)的功能是將作業(yè)控制和輸入/輸出結(jié)合起來。Hadoop為其提供了大量接口,從而為Hadoop應(yīng)用程序程序員提供了許多工具,使得操作更方便。另外兩個(gè)函數(shù)就是這個(gè)模型的核心操作。Map和Reduce函數(shù)實(shí)際上處理的都是大量像這樣的簡單數(shù)據(jù)類型。在模型中首先對(duì)輸入的數(shù)據(jù)進(jìn)行分割,將分割后的數(shù)據(jù)分配給Map函數(shù),然后Map把分配到的數(shù)據(jù)映射為另外一種的中間數(shù)據(jù),它的映射規(guī)則由一個(gè)函數(shù)指定。Reduce則是對(duì)Map輸出的中間數(shù)據(jù)進(jìn)行歸約并輸出結(jié)果,而歸約的規(guī)則也是由另一個(gè)函數(shù)指定。這兩項(xiàng)操作規(guī)則均可由程序設(shè)計(jì)人員指定,也正是因?yàn)檫@一點(diǎn)的存在給了MapReduce模型巨大的靈活性。其執(zhí)行流程圖如下所示。

三、分布式引擎的設(shè)計(jì)與實(shí)現(xiàn)

分布式搜索有三個(gè)子系統(tǒng),分別是爬行子系統(tǒng)、索引子系統(tǒng)、查詢子系統(tǒng)。系統(tǒng)中利用了MapReduce模型的優(yōu)點(diǎn),將上述的三個(gè)子系統(tǒng)設(shè)計(jì)成分布式系統(tǒng)。下面對(duì)這三個(gè)子系統(tǒng)進(jìn)行分析。

(1)分布式爬行子系統(tǒng)。其主要功能是對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行抓取,并進(jìn)行分析提取鏈接,生成的鏈接列表為下一次爬行做準(zhǔn)備。爬行子系統(tǒng)設(shè)計(jì)的核心就是任務(wù)調(diào)度,其所有的爬行器統(tǒng)一由JobTracker負(fù)責(zé)調(diào)度。

(2)分布式索引子系統(tǒng)。其主要負(fù)責(zé)的就是計(jì)算網(wǎng)頁的PageRank值,倒排文檔的構(gòu)建,以及索引文件的分布式存儲(chǔ)。此系統(tǒng)為整個(gè)搜索引擎的核心。

(3)分布式查詢子系統(tǒng)。主要負(fù)責(zé)的是響應(yīng)用戶查詢請(qǐng)求并向用戶返回查詢結(jié)果。查詢子系統(tǒng)采用的也是MapReduce模型設(shè)計(jì),將Tomcat作為Web服務(wù)器,使用Jsp/Servlet技術(shù)于用戶進(jìn)行交互。

四、結(jié)語

在這個(gè)數(shù)字信息化大時(shí)代,在社會(huì)運(yùn)行過程中都會(huì)產(chǎn)生大量數(shù)據(jù)。如何對(duì)這些海量數(shù)據(jù)進(jìn)行處理、操作,對(duì)用戶的要求提出響應(yīng),是我們要一直探索和不斷研究的。那么,基于Hadoop的分布式搜索引擎的研究就具有重大的意義了。

參考文獻(xiàn):

[1]范晨熙.基于Hadoop的搜索引擎的研究與應(yīng)用[D].杭州:浙江理工大學(xué),2013.

[2]王振宇,郭 力.基于Hadoop的搜索引擎用戶行為分析[J].計(jì)算機(jī)工程與科學(xué),2011,33(4):115-120.

[3]萬 軼.基于Hadoop的搜索引擎關(guān)鍵技術(shù)研究[D].武漢:武漢理工大學(xué),2015.

[4]陳 寧,柴向陽,孫 勇.基于Hadoop的海運(yùn)業(yè)分布式搜索引擎的應(yīng)用研究[J].西安工程大學(xué)學(xué)報(bào),2015(1):73-77.

[5]余 紅.基于Hadoop的分布式搜索引擎研究[D].北京:北京師范大學(xué),2012.

[6]王俊生,施運(yùn)梅,張仰森.基于Hadoop的分布式搜索引擎關(guān)鍵技術(shù)[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,26(4):53-56.

500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
主站蜘蛛池模板: 亚洲天堂久久新| 欧美一区二区精品久久久| 国产乱人伦AV在线A| 亚洲国产中文欧美在线人成大黄瓜| 美女潮喷出白浆在线观看视频| 99热免费在线| 国产屁屁影院| 欧美一道本| 人妻中文久热无码丝袜| 波多野结衣一区二区三视频| 久久综合丝袜长腿丝袜| 在线观看欧美国产| 国产欧美专区在线观看| 天天综合天天综合| 免费观看国产小粉嫩喷水 | 国产h视频在线观看视频| 国产理论一区| a欧美在线| 91亚洲影院| 亚洲美女一区| 国产久草视频| 午夜国产大片免费观看| 欧美日韩亚洲国产| 国产人成在线视频| 久无码久无码av无码| 真实国产乱子伦高清| 国内精品视频| 一区二区自拍| 一级毛片在线免费看| 亚亚洲乱码一二三四区| 无码专区第一页| 久久国产精品波多野结衣| 国产人人乐人人爱| 国产丝袜啪啪| 日本高清成本人视频一区| 免费国产高清视频| 亚洲欧美一级一级a| 东京热av无码电影一区二区| 成人一区专区在线观看| 色婷婷丁香| 国产一级小视频| 99re经典视频在线| 丁香婷婷激情网| 日本三级精品| 国产精品美女在线| 日韩欧美色综合| 国产91在线|中文| 久久综合五月| 91娇喘视频| 99ri国产在线| 欧美国产三级| 四虎永久免费网站| 婷婷午夜影院| 国产亚洲欧美在线中文bt天堂| 国产精品污视频| 伊人查蕉在线观看国产精品| 久久精品中文无码资源站| 国产丝袜91| 中文字幕在线免费看| 国产精品成人一区二区| 丰满少妇αⅴ无码区| 日韩欧美中文字幕在线精品| 日本一区高清| 青青草原国产| 在线观看无码av五月花| 91视频免费观看网站| 青青操视频在线| 四虎AV麻豆| 自偷自拍三级全三级视频| 人妻无码中文字幕一区二区三区| 99国产精品国产| 四虎影视永久在线精品| a毛片免费在线观看| 国产十八禁在线观看免费| 欧美一区中文字幕| 成年人国产网站| 国产精品成人一区二区不卡| 一区二区三区高清视频国产女人| 新SSS无码手机在线观看| www.亚洲色图.com| 激情無極限的亚洲一区免费| 国产在线第二页|