999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲

2016-07-01 01:39:54南京航空航天大學(xué)
電子世界 2016年10期

南京航空航天大學(xué) 周 萍

?

基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲

南京航空航天大學(xué) 周 萍

【摘要】通常來說,用戶從搜索引擎獲取的網(wǎng)頁中,大部分都是不符合特定需求的,只有一小部分才是想要的結(jié)果。網(wǎng)絡(luò)爬蟲在搜索引擎中扮演著重要的角色,起著關(guān)鍵性的作用。本文主要講述了基于關(guān)鍵詞的網(wǎng)絡(luò)爬蟲,通過使用相關(guān)性決策機(jī)制和本體的知識(shí)來設(shè)計(jì)出最合適的爬蟲抓取路徑。和傳統(tǒng)的網(wǎng)絡(luò)爬蟲相比較,本文設(shè)計(jì)的爬蟲具有最優(yōu)性,并通過高準(zhǔn)確性來提高搜索效率。

【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲;基于特定主題的網(wǎng)絡(luò)爬蟲;本體;關(guān)鍵詞;知識(shí)路徑

0 引言

網(wǎng)絡(luò)爬蟲主要下載主題相關(guān)的網(wǎng)頁或者滿足用戶需求的特定網(wǎng)頁,而不是像傳統(tǒng)的搜索引擎那樣下載整個(gè)Web網(wǎng)頁庫。因此,主題爬蟲的基本要求是選擇那些滿足用戶需求的網(wǎng)頁。鏈接分析算法和網(wǎng)頁排序算法一樣,通常根據(jù)URLs的相關(guān)性和搜索策略對(duì)URLs進(jìn)行排序,然后優(yōu)先下載那些特定網(wǎng)頁。

本文提出了基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲算法,該算法是根據(jù)優(yōu)先級(jí)和領(lǐng)域本體找出網(wǎng)頁的URLs 。此外,知識(shí)路徑在尋找主題相關(guān)網(wǎng)頁中也發(fā)揮著重要的作用。

網(wǎng)絡(luò)爬蟲是搜索引擎的重要模塊。在傳統(tǒng)的網(wǎng)絡(luò)爬蟲中,將種子URL作為爬蟲工作的初始URL。在分析了種子URL的網(wǎng)頁內(nèi)容之后,爬蟲開始下載網(wǎng)頁,然后抽取出所有的超鏈接,并把這些鏈接存儲(chǔ)到URL隊(duì)列中,遞歸執(zhí)行上述過程,直到獲得了相關(guān)結(jié)果。

網(wǎng)絡(luò)爬蟲的關(guān)鍵問題就是從web中只下載重要的網(wǎng)頁,然后分析這些網(wǎng)頁中URL的優(yōu)先級(jí),并根據(jù)優(yōu)先級(jí)放到URL隊(duì)列中的合適位置。網(wǎng)路爬蟲的兩大問題如下所示:(1)計(jì)算爬蟲抓取的網(wǎng)頁的優(yōu)先級(jí);(2)設(shè)計(jì)爬蟲抓取網(wǎng)頁的爬行策略。

1 基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲算法

1.1背景

如今網(wǎng)絡(luò)的規(guī)模越來越大,信息的更新率變快。網(wǎng)絡(luò)擁有大量的數(shù)據(jù)信息,所以爬蟲需要根據(jù)URL的優(yōu)先級(jí)來下載滿足需求的網(wǎng)頁。

爬蟲根據(jù)領(lǐng)域知識(shí)下載一小部分網(wǎng)頁,這些網(wǎng)頁的大部分內(nèi)容是主題相關(guān)的,因此沒有必要從網(wǎng)上下載所有的網(wǎng)頁。網(wǎng)頁內(nèi)容的主題重要度主要取決于鏈接和被訪問量。因此,很有必要提出一個(gè)可靠的爬蟲算法。

1.2爬蟲算法的研究設(shè)計(jì)及具體步驟

爬蟲算法的基本步驟是將URLs種子隊(duì)列作為輸入,然后重復(fù)執(zhí)行分布式的步驟。從地址列表中取出某個(gè)地址,確認(rèn)該地址的主機(jī)名,然后將網(wǎng)頁翻譯成對(duì)應(yīng)的文檔信息,接著抽取出其中的超鏈接。對(duì)于每一個(gè)被抽取的鏈接,檢查它們的絕對(duì)地址,并把它們添加到URLs的列表中,前提是它們之前沒有被訪問過。該算法規(guī)則需要一個(gè)組件來存儲(chǔ)下載的URLs隊(duì)列。

此外,還需要將主機(jī)地址解析成以下三部分:(1)一部分用來下載文檔;(2)一部分用來從超文本標(biāo)記語言中抽取超鏈接;(3)一部分用來判斷該地址之前是否被訪問過。

本文設(shè)計(jì)的爬蟲算法主要分六步,具體步驟如下所示:(1)選擇一個(gè)URL種子作為算法的輸入;(2)構(gòu)造本體知識(shí)樹,并找出知識(shí)路徑;(3)下載初始輸入U(xiǎn)RL對(duì)應(yīng)的網(wǎng)頁;(4)從下載的網(wǎng)頁中抽取出超鏈接內(nèi)容,并把它們插入到URL隊(duì)列中;(5)挖掘更多的主題相關(guān)的URL,下載該URL對(duì)應(yīng)的網(wǎng)頁,并從中抽取出超鏈接,最后把這些超鏈接插入到URL隊(duì)列中;(6)重復(fù)上述步驟,獲得更多的主題相關(guān)的結(jié)果。

2 實(shí)驗(yàn)結(jié)果以及討論

2.1實(shí)驗(yàn)結(jié)果

基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲和傳統(tǒng)的網(wǎng)絡(luò)爬蟲分別作了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中,軟件系統(tǒng)和硬件環(huán)境是不變的。分別比較網(wǎng)絡(luò)爬蟲的關(guān)鍵詞有本體和沒有本體這兩種情況。

實(shí)驗(yàn)中用到的參數(shù)是:Depth for looking out=2;Number of thread=5;Initial seed=1;Seed universal resource locator is=http:// www.google.com;Concept in ontology=Java。

基于相同的軟件系統(tǒng)和硬件環(huán)境,實(shí)驗(yàn)獲得的結(jié)果如表2.1所示:

表2.1 兩種爬蟲系統(tǒng)的比較

2.2本體和知識(shí)路徑

本體是結(jié)構(gòu)信息的其中一項(xiàng)技術(shù),它也叫樹或者圖。本體將信息系統(tǒng)進(jìn)行分層設(shè)置,分層的結(jié)構(gòu)是一個(gè)有向無環(huán)圖(directed acyclic graph ,DAG)。參考本體根據(jù)不同的關(guān)聯(lián)關(guān)系設(shè)置了“is a”,“has a”,“part of”。本體被用來構(gòu)造信息和過濾信息。

假設(shè)本體結(jié)構(gòu)如圖2.1所示,其中包括不同的結(jié)點(diǎn)以及相互之間的聯(lián)系,這些聯(lián)系代表了結(jié)點(diǎn)之間的關(guān)系。

本體結(jié)構(gòu)類似于Google網(wǎng)頁目錄的分層目錄結(jié)構(gòu)。假如尋找“java”,知識(shí)路徑是:Branch->computer->programming-> java。爬蟲根據(jù)這條URL開始抓取網(wǎng)頁,初始的URL種子是:http://www. google.com。在下載網(wǎng)頁之后,從頁面內(nèi)容中尋找可用的鏈接(比如U1,U2……Un),然后把這些鏈接加入到URL隊(duì)列中。這些鏈接U1,U2……Un需要被檢查是否和關(guān)鍵詞相匹配,爬蟲的知識(shí)路徑就是由這些關(guān)鍵詞組成的。第二條URL是:http://www.google. com/references/computer.html,其中包含關(guān)鍵詞“computer”,和圖的第一層級(jí)的結(jié)點(diǎn)相匹配。第三條URL是:http://www.google.com/ references/computer/programming.html第四條URL是:http://www. google.com/references/computer/programming/java.html

上述算法不能通過“art”或者其他分支來找到目標(biāo)節(jié)點(diǎn)“java”,因?yàn)楦改附Y(jié)點(diǎn)“Computer”和“java”相關(guān)。

3 結(jié)論

相較于其他網(wǎng)絡(luò)爬蟲來說,使用基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲的優(yōu)點(diǎn)是智能性、高效性、不需要關(guān)聯(lián)性反饋。本文提出的爬蟲算法減少了爬蟲抓取網(wǎng)頁的數(shù)量,因此爬蟲抓取的時(shí)間變少,這是因?yàn)榕老x只下載主題相關(guān)的網(wǎng)頁。 主題網(wǎng)絡(luò)爬蟲的目的就是獲取主題相關(guān)的網(wǎng)頁,舍棄主題無關(guān)的網(wǎng)頁。本文設(shè)計(jì)了基于最佳知識(shí)路徑的爬蟲的本體,本體通過關(guān)聯(lián)決策機(jī)制來獲取網(wǎng)頁。和傳統(tǒng)的爬蟲相比較,本文提出的爬蟲具有如下優(yōu)勢(shì):(1)從下載的網(wǎng)頁中獲取URLs的數(shù)目變少;(2)爬蟲的抓取時(shí)間變少。

圖2.1 本體的結(jié)構(gòu)

主站蜘蛛池模板: 久久国产拍爱| 欧美黄网站免费观看| 91福利免费视频| 国产成人h在线观看网站站| 国产午夜在线观看视频| 97国产在线视频| 国产91成人| 国产精品综合色区在线观看| 东京热高清无码精品| 99国产在线视频| 国产成人a毛片在线| 狠狠色噜噜狠狠狠狠色综合久| 丰满的少妇人妻无码区| 天天躁日日躁狠狠躁中文字幕| 波多野结衣一区二区三区AV| 亚洲最新在线| 亚洲h视频在线| 免费观看成人久久网免费观看| a毛片免费看| 99视频在线观看免费| 国产va免费精品观看| 亚洲人在线| 91福利在线看| 亚洲人在线| 国产在线小视频| 亚洲欧美日韩精品专区| 亚洲日韩精品无码专区| 免费A级毛片无码免费视频| 久久黄色免费电影| 亚洲精品无码人妻无码| 日韩精品中文字幕一区三区| 伊人久综合| 免费在线不卡视频| 97视频免费看| 欧美日韩国产在线人成app| 国产精品蜜芽在线观看| 中文字幕久久亚洲一区| 有专无码视频| 一级一毛片a级毛片| 夜夜拍夜夜爽| 在线观看国产小视频| 国产成人综合欧美精品久久| 婷婷六月综合网| 国产在线观看99| 国产精品私拍在线爆乳| 亚洲天堂成人| 日韩精品免费一线在线观看| 毛片免费在线| 亚洲国产91人成在线| 欧美国产中文| 3344在线观看无码| 国产精品毛片一区| 亚洲国产成人精品青青草原| 国产福利不卡视频| 四虎影视8848永久精品| 日韩免费成人| 国产精品伦视频观看免费| 91欧美亚洲国产五月天| 亚洲首页在线观看| 亚洲欧美成人网| 国产欧美日韩18| 日韩在线2020专区| 91国内在线观看| 欧美伦理一区| 国产情侣一区| 美女免费精品高清毛片在线视| 欧美日韩高清在线| 国产精品观看视频免费完整版| 最近最新中文字幕在线第一页 | 亚洲天堂啪啪| 亚洲中文制服丝袜欧美精品| 亚洲天堂啪啪| 精品国产Ⅴ无码大片在线观看81| 91香蕉国产亚洲一二三区| 久久国产热| 国产精品视频猛进猛出| 中文字幕色在线| 狠狠五月天中文字幕| 人妻中文字幕无码久久一区| 精品小视频在线观看| 欧美特黄一级大黄录像| 欧美国产在线看|