999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種網絡爬蟲系統中URL去重方法的研究

2014-08-27 03:03:24李小正趙全軍
中國新技術新產品 2014年12期
關鍵詞:搜索引擎信息

成 功 李小正 趙全軍

(北京網博視界科技有限公司,北京 100000)

近些年來,伴隨著科學技術的不斷進步,互聯網技術也不斷發展,通過互聯網這個平臺傳遞的信息越來越多,但是想要在這浩渺煙海的信息中找到對自己有用到的信息,只有借助于搜索引擎這一網絡利器,通過搜索引擎可以很容易的搜索出需要的信息,但是現今的搜索引擎還存在著一些缺陷, 們需要對采取一些方式來使網絡爬蟲優先選取那些符合搜索要求的網頁,在這種情況下,如何對網絡爬蟲系統中進行設置來提高URL去重的能力將會對網絡爬蟲的運行效率產生不小的影響.下文將就如何簡單的對URL去重進行闡述.

1 網絡爬蟲系統簡介

網絡爬蟲是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。 網絡爬蟲是捜索引擎抓取系統的重要組成部分。爬蟲的主要目的是將互聯網上的網頁下載到本地形成一個或聯網內容的鏡像備份。

1.1 網絡爬蟲的基本原理。網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成,傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,知道滿足系統的一定的初始條件.

1.2 網絡爬蟲的基本工作流程。網絡爬蟲的基本工作流程如下:(1)首先選取一部分精心挑選的種子URL,(2)將這些URL放入待抓取URL隊列,(3)從待抓取URL隊列中提取出待抓取在URL,解析DNS,并且得到主機的ip,并將URL對應的網頁下載下來,存儲進已下載網頁庫中,此外,將這些URL放進已抓取URL隊列。(4)分析已抓取URL隊列中的URL,分析其中的其他的URL,并且將URL放入待抓取URL隊列,從而進入下一個循環。

1.3 網絡爬蟲面臨的缺陷。網絡信息中數量龐大,種類繁多,各種各樣的鏈接數不勝數,當使用網絡爬蟲進行搜索時,相同的 URL的鏈接很有可能會被加入到隊列中,從而會使網絡爬蟲進行了大量的重復無用的工作,使網絡爬蟲的工作效率大打折扣。將重復相同的URL剔除出隊列,提升網絡爬蟲的的效率,這種方式就是URL 去重。網絡爬蟲的URL去重是一項復雜的工作,因為即使是最小的URL庫所包含的數據也是一個天文數字。如果沒有URL去重或者是去重的速度無法達到要求,這將會對下載造成極大的影響。

2 網絡爬蟲URL去重的方案

在爬蟲啟動工作的過程中,我們不希望同一個網頁被多次下載,如果無法忽略已經爬過的網頁。多次爬取同一個網頁浪費cpu資源,還極有可能陷入死循環中。而想要控制這種重復性下載問題,就要考慮下載所依據的超鏈接,只要能夠控制待下載的URL不重復,基本可以解決同一個網頁重復下載的問題。非常容易想到,在搜索引擎系統中建立一個全局的專門用來檢測,是否某一個URL對應的網頁文件曾經被下載過的URL存儲庫,這就是方案。而后為了能夠使網絡爬蟲更好的進行工作,更加高效的工作,根據上文的敘述,建立一個URL存儲庫,將下載后的URL通過內存要比從磁盤上進行檢測要高效很多。在搜索引擎中建立url檢測機制,如果一個url被爬取過就記錄下來,在爬取新的url之前先和url庫中的資源進行對比,如果沒有該記錄,則正常解析爬取資源,如果有則忽略該url。接下來考慮的就是如何讓這個去重的過程更高效的問題。下面將就URL去重的方案進行介紹:

2.1 建立數據庫對下載的URL進行對比

這里,就是指把每個已經下載過的URL進行順序存儲。你可以把全部已經下載完成的URL存放到磁盤記事本文件中。每次有一個爬蟲線程得到一個任務URL開始下載之前,通過到磁盤上的該文件中檢索,如果沒有出現過,則將這個新的URL寫入記事本的最后一行,否則就放棄該URL的下載。這種方式幾乎沒有人考慮使用了,但是這種檢查的思想是非常直觀的。試想,如果已經下載了100億網頁,那么對應著100億個鏈接,也就是這個檢查URL是否重復的記事本文件就要存儲這100億URL,況且,很多URL字符串的長度也不小,占用存儲空間不說,查找效率超級低下,因此這個方案行不通。

2.2 對url進行hash運算映射到某個地址,將該url和hash值當做鍵值對存放到hash表中,只需要對需要檢測的URL的hash的映射進行比對,從而就可以對URL是否存在進行判斷。因此,原來的URL庫就可以簡化為hash庫,這要比URL簡便很多,但是需要考慮hash碰撞的問題,在設計中需要對hash函數進行考慮,避免因考慮不周造成hash碰撞。

2.3URL采用MD5加密,md5也是采用了基于hash算法,MD5算法能夠將任何字符串壓縮為128位整數,并映射為物理地址,MD5也是經過時間驗證的,MD5進行Hash映射碰撞概率很低。

2.4 采用布隆過濾器,它是一種space efficient的概率型數據結構,用于判斷一個元素是否在集合中。在垃圾郵件過濾的黑白名單方法、爬蟲(Crawler)的網址判重模塊中等等經常被用到。哈希表也能用于判斷元素是否在集合中,但是布隆過濾器只需要哈希表的1/8或1/4的空間復雜度就能完成同樣的問題。布隆過濾器可以插入元素,但不可以刪除已有元素。其中的元素越多,false positive rate(誤報率)越大,但是false negative(漏報)是不可能的。

結語

本文介紹了網絡爬蟲URL去重的意義,并就網絡爬蟲中URL的去重方案進行了介紹。

[1]周立柱 ,林 玲. 聚焦爬蟲技術研究綜述 [J ]. 計算機應用,2005,23 (9).

猜你喜歡
搜索引擎信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
搜索,也要“深搜熟濾”
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 无码AV日韩一二三区| 亚洲a级在线观看| 国产精品蜜芽在线观看| 熟女成人国产精品视频| 国产浮力第一页永久地址| 欧美一区二区啪啪| 亚洲中文字幕无码爆乳| 国产自在线播放| 精品久久久久久中文字幕女| 亚洲欧美精品一中文字幕| 亚洲二区视频| 天天操天天噜| 毛片一级在线| 亚洲天堂免费观看| 亚洲av片在线免费观看| 国产一区二区人大臿蕉香蕉| 亚洲第一成人在线| 青草视频在线观看国产| 色综合婷婷| 亚洲a免费| 深爱婷婷激情网| 欧美人人干| 亚洲无码91视频| 她的性爱视频| 女人av社区男人的天堂| 精品偷拍一区二区| 天天色综网| 国产SUV精品一区二区6| 欧美精品成人一区二区视频一| h网址在线观看| 666精品国产精品亚洲| 91在线视频福利| 在线精品自拍| 中文天堂在线视频| 亚洲九九视频| 精品久久高清| 欧美精品黑人粗大| 久久永久精品免费视频| 99re这里只有国产中文精品国产精品 | 中文成人在线视频| 国产成人综合亚洲欧美在| 色综合热无码热国产| Aⅴ无码专区在线观看| 夜精品a一区二区三区| 亚洲热线99精品视频| 日本午夜三级| 国产亚洲欧美在线中文bt天堂 | 91无码人妻精品一区| 114级毛片免费观看| 国产精品久久久久久影院| 亚洲VA中文字幕| 美女无遮挡免费视频网站| 国产区在线观看视频| 99热这里只有精品免费国产| 日韩高清一区 | 影音先锋丝袜制服| 91精品国产91久无码网站| P尤物久久99国产综合精品| 亚洲高清中文字幕| 精品偷拍一区二区| 高清不卡一区二区三区香蕉| 成人国产一区二区三区| a网站在线观看| 婷婷六月在线| 在线a网站| 日韩av资源在线| 国产高清在线观看| 99视频国产精品| 狠狠v日韩v欧美v| 欧美午夜在线视频| a级毛片网| 欧美精品1区| 国产剧情国内精品原创| 中文成人在线视频| 久久久久青草大香线综合精品| 欧美精品在线观看视频| 99精品欧美一区| 成人免费一级片| 影音先锋亚洲无码| 四虎永久在线精品影院| 亚洲国产一区在线观看| 久久久久免费精品国产|