〔摘要〕網(wǎng)絡(luò)爬蟲對網(wǎng)頁的抓取與優(yōu)化策略直接影響到網(wǎng)頁采集的廣度、深度,以及網(wǎng)頁預(yù)處理的數(shù)量和搜索引擎的質(zhì)量。搜索引擎的設(shè)計應(yīng)在充分考慮網(wǎng)頁遍歷策略的同時,還應(yīng)加強對網(wǎng)絡(luò)爬蟲優(yōu)化策略的研究。本文從主題、優(yōu)先采集、不重復(fù)采集、網(wǎng)頁重訪、分布式抓取等方面提出了網(wǎng)絡(luò)爬蟲的五大優(yōu)化策略,對網(wǎng)絡(luò)爬蟲的設(shè)計有一定的指導(dǎo)和啟迪作用。
〔關(guān)鍵詞〕網(wǎng)絡(luò)爬蟲;優(yōu)化策略;搜索引擎
收稿日期:2011-08-15
作者簡介:李志義(1968-),男,副教授,碩士,研究方向:搜索引擎、電子商務(wù)網(wǎng)站開發(fā)等,發(fā)表論文20余篇,出版專著1部。
DOI:10.3969/j.issn.1008-0821.2011.10.007
〔中圖分類號〕TP391 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2011)10-0031-05
Discussion on the Optimization Strategy of Web Crawlers
Li Zhiyi(School of Economic and Management,South China Normal University,Guangzhou 510631,China)
〔Abstract〕Web crawlers for collecting web pages and its optimization strategies affected directly on the breadth,depth of Web crawling,and also on web-page preprocessing and the search engine quality.Search engine should be designed taking full account of web traversal strategy and the web crawler optimization strategy.In this paper,the theme collection strategy,priority acquisition strategy,not to repeat the acquisition strategy,website re-visit strategies,distributed capture strategy for the five major optimization strategies are proposed.These studies should be the guidance and inspiration to design of network crawlers.
〔Key words〕web crawler;optimization strategy;search engine
網(wǎng)絡(luò)爬蟲的實質(zhì)是一種用于從互聯(lián)網(wǎng)上下載Web信息的計算機程序,它以Web頁之間的相互鏈接為路徑,依照一定的遍歷策略試圖爬行互聯(lián)網(wǎng)中的每個鏈接,從中抓取必要的信息,并將其轉(zhuǎn)存到本地存儲設(shè)備上,以便進(jìn)行信息的預(yù)處理。
網(wǎng)絡(luò)爬蟲的特點非常突出,主要表現(xiàn)為:(1)程序的強壯性非常高,且具備超強的執(zhí)行力;(2)自動性和智能性強,體現(xiàn)在分析Web頁和利用鏈接進(jìn)行爬行等方面;(3)能夠自動將Web信息實施簡單的存儲操作等等[1]。與此同時,一個高性能的網(wǎng)絡(luò)爬蟲還需要從可伸縮性、分布式、“禮貌”爬行以及可定制性等方面進(jìn)行完善和改進(jìn)。本文著重探討網(wǎng)絡(luò)爬蟲的優(yōu)化策略。
1 網(wǎng)絡(luò)爬蟲的遍歷策略
Google、百度等通用搜索引擎抓取Web頁的數(shù)量通常以億為單位來測算,如此眾多的網(wǎng)頁文件自然涉及到網(wǎng)絡(luò)爬蟲遍歷策略的問題。也就是說,通過何種方式或策略才能使網(wǎng)絡(luò)爬蟲盡可能地遍歷所有Web頁,從而盡可能地擴大Web信息的抓取覆蓋面,這一直是搜索引擎研究的重點。從目前來看,通用網(wǎng)絡(luò)爬蟲主要采納了3種基本策略——廣度優(yōu)先策略和深度優(yōu)先策略和最佳優(yōu)先搜索策略[2],這些遍歷算法雖然人們早已熟知,卻非常適合于網(wǎng)絡(luò)爬蟲對網(wǎng)頁的自動采集和獲取。
1.1 廣度優(yōu)先遍歷策略
廣度優(yōu)先遍歷策略[3],可理解為一種基于網(wǎng)絡(luò)層次分析的遍歷策略,是將網(wǎng)絡(luò)劃分成若干層次,其中,種子站點是處于結(jié)構(gòu)的最頂層。在遍歷時,需要處理Web頁之間的抓取優(yōu)先級的問題,一般規(guī)定層次結(jié)構(gòu)中層次越高,優(yōu)先級也就越高;同一層次中,從左到右優(yōu)先級依次降低。因此,如果只用一個網(wǎng)絡(luò)爬蟲進(jìn)行遍歷操作,那么就按不同層次之間先高后低的次序,以及同層次之間先左后右的次序進(jìn)行。當(dāng)然,也可以將多個網(wǎng)絡(luò)爬蟲設(shè)計成分布式的結(jié)構(gòu),它們分別負(fù)責(zé)其中一層或幾層Web站點的遍歷,這樣不但技術(shù)實現(xiàn)的難度不高,而且可以較好地避免重復(fù)遍歷Web頁的現(xiàn)象。
1.2 深度優(yōu)先策略
深度優(yōu)先遍歷類似于樹的前序遍歷。它將遍歷的側(cè)重點放在網(wǎng)絡(luò)爬蟲爬行的深度上,往往為了抓取更多的Web網(wǎng)頁,允許網(wǎng)絡(luò)爬蟲訪問站點中某一超鏈接相關(guān)的所有鏈接。從互聯(lián)網(wǎng)的結(jié)構(gòu)看,Web頁之間通過數(shù)量不等的超鏈接相互連接,形成一個彼此關(guān)聯(lián)、龐大復(fù)雜的有向圖。所以,按照深度優(yōu)先的原則,網(wǎng)絡(luò)爬蟲通常需要多次爬行一些Web頁,即出現(xiàn)重復(fù)爬行現(xiàn)象。如何規(guī)避此類問題也就成為修正深度優(yōu)先策略的重中之重,在實踐中,一般會建立一個爬行路徑優(yōu)選算法來簡化網(wǎng)絡(luò)爬蟲的行走路線,同時需要依照具體情況確保一個合適的遍歷深度。
對比以上兩種遍歷策略,廣度優(yōu)先策略更適合大規(guī)模Web信息的搜集,可充分發(fā)揮網(wǎng)絡(luò)爬蟲程序算法的功效,適合水平型搜索引擎的信息抓取;而寬度優(yōu)先策略一般適用于垂直搜索引擎的信息搜集。但在實際應(yīng)用中,二者可相互嵌套。
1.3 最佳優(yōu)先搜索策略
它是按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標(biāo)網(wǎng)頁的相似度,或與主題的相關(guān)性,并選取評價最好的一個或幾個URL進(jìn)行抓取。它只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測為有用的網(wǎng)頁。因此,這種算法可能導(dǎo)致在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁被忽略,因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法。它需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進(jìn)行改進(jìn),以跳出局部最優(yōu)點[4]。閉環(huán)調(diào)整可以將無關(guān)網(wǎng)頁數(shù)量降低30%~90%。
2 網(wǎng)絡(luò)爬蟲的優(yōu)化策略
在網(wǎng)絡(luò)爬蟲抓取Web信息的過程中,無論是寬度優(yōu)先策略還是廣度優(yōu)先策略,都可能產(chǎn)生重復(fù)抓取的現(xiàn)象,也難以處理好Web頁的優(yōu)先級順序和對相同Web站點的不定期抓取等問題,因此,網(wǎng)絡(luò)爬蟲的設(shè)計還要進(jìn)行適當(dāng)、合理的改進(jìn),提升并優(yōu)化網(wǎng)絡(luò)爬蟲的抓取策略。本文就此對現(xiàn)有網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行了總結(jié)并提出以下5種主要的優(yōu)化策略。
2.1 不重復(fù)采集策略
不重復(fù)采集策略的實質(zhì)是通過Hash函數(shù)存儲網(wǎng)絡(luò)爬蟲的遍歷軌跡,并規(guī)定某一Web頁被遍歷過,則在哈希表中的相應(yīng)槽位填充1,否則填充0。也就是說,此類方式用1或0的值表示W(wǎng)eb頁是否被爬蟲抓取過。在具體實現(xiàn)過程中,哈希函數(shù)起到至關(guān)重要的作用,目前一般使用MD5()函數(shù),將網(wǎng)頁文件的地址即URL字符串轉(zhuǎn)換為128位散列值。
2.1.1 MD5算法
對MD5算法可簡要敘述為:MD5以512位分組來處理輸入的信息,且每一分組又被劃分為16個32位子分組,經(jīng)過了一系列的處理后,算法的輸出由4個32位分組組成,將這4個32位分組級聯(lián)后將生成1個128位散列值。
在該算法中,首先需要對信息進(jìn)行填充,使其字節(jié)長度對512求余的結(jié)果等于448。即信息的字節(jié)長度MOD 512
448
因此,信息的字節(jié)長度將被擴展至N*512+448,N為1個正整數(shù)。填充的方法是:在信息的后面填充1個1和足夠多的0,直到滿足上面的條件時才停止用0對信息的字節(jié)長度進(jìn)行填充。然后,在此基礎(chǔ)上附加1個以64位二進(jìn)制表示的填充前信息長度,即將原始信息的字節(jié)長填充為64位長度并添加進(jìn)來。經(jīng)過這兩步的處理,長度恰好是512的整數(shù)倍。即信息字節(jié)長度
N*512+448+64
(N+1)*512
接著設(shè)置MD5中的4個32位被稱作鏈接變量的整數(shù)參數(shù),分別為:A
0x01234567,B
0x89abcdef,C
0xfedcba98,D
0x76543210。
當(dāng)設(shè)置好這4個鏈接變量后,就可進(jìn)行算法的四輪循環(huán)運算。循環(huán)的次數(shù)是信息中512位信息分組的數(shù)目。
2.1.2 哈希表MD5就是將任意長度的消息轉(zhuǎn)換成128位固定長度的消息摘要的函數(shù),顯然,MD5()函數(shù)產(chǎn)生的值很大,為2128個不同的數(shù),需要的內(nèi)存空間巨大。因此,在實際處理中還要將MD5()函數(shù)的值進(jìn)行模運算映射到哈希表中。其公式可設(shè)為:MD5(URL)MOD N其中,URL為抓取的地址,N為存儲哈希表的位長。
通過該式的轉(zhuǎn)換,可使輸入的URL地址被映射到大小為N的哈希表的某個位上,以便確定其地址是否被抓取過。
2.1.3 重復(fù)抓取的解決策略
為了解決重復(fù)搜集網(wǎng)頁的問題,可以定義兩個數(shù)據(jù)庫:“未爬行的URL庫”和“已爬行的URL庫”。“未爬行的URL庫”存儲待訪問隊列的URL,“已爬行的URL庫”存儲已遍歷過的URL。對于已訪問過的、未訪問過的URL利用MD5(URL)函數(shù)分別作MD5摘要,以獲取其惟一標(biāo)識,并建立兩個集合。新解析出的URL,首先根據(jù)已經(jīng)訪問過的URL的MD5集合判斷是否已抓取過,如沒有被抓取,則放入“未爬行的URL數(shù)據(jù)庫”中,否則放入“已爬行的URL庫”中。其詳細(xì)流程圖如圖1所示。
采用上述方法可保證搜集的網(wǎng)頁中所有的URL都不同,但由于域名和IP的對應(yīng)存在著多種復(fù)雜的關(guān)系,如一對一、一對多、多對一、多對多等,可能導(dǎo)致即便URL不同,也可能指向相同的物理網(wǎng)頁的情形,從而重復(fù)采集。這是當(dāng)網(wǎng)頁采集累積到一定規(guī)模和數(shù)量時所出現(xiàn)的現(xiàn)象。要解決此類重復(fù)采集網(wǎng)頁的問題,就要找出指向同一物理網(wǎng)頁的URL的多個域名和IP地址,并將其分組列出,以便在以后的采集時只在具有相同的URL中選擇其中一個URL進(jìn)行抓取。
2.2 優(yōu)先采集策略
對搜索引擎而言,要搜索互聯(lián)網(wǎng)上所有的網(wǎng)頁幾乎不可能,即使全球知名的搜索引擎Google也只能搜索整個Internet網(wǎng)頁的30%左右。其中的原因主要有兩方面,一是抓取技術(shù)的瓶頸,網(wǎng)絡(luò)爬蟲無法遍歷所有的網(wǎng)頁;二是存儲技術(shù)和處理技術(shù)的問題。因此,網(wǎng)絡(luò)爬蟲在抓取網(wǎng)頁時,盡量先采集重要的網(wǎng)頁,即采用網(wǎng)頁優(yōu)先抓取策略。
優(yōu)先采集策略的基本思想是給予重要程度、等級較高的Web頁以較高的抓取優(yōu)先級,即Web頁越重要,則越應(yīng)優(yōu)先抓取。其實質(zhì)上是一種使網(wǎng)絡(luò)爬蟲在一定條件下較快地鎖定互聯(lián)網(wǎng)中被用戶普遍關(guān)注的重要信息資源的方法。而實現(xiàn)該策略的前提是正確評測Web頁的重要程度[5],目前評測的主要指標(biāo)有:PageRank值、平均鏈接深度等。
2.2.1 PageRank值PageRank[6],即網(wǎng)頁級別,它是2001年9月Google創(chuàng)始人之一拉里·佩奇(Larry Page)申請的專利技術(shù),是Google排名運算法則的一部分,也是Google用于用來標(biāo)識網(wǎng)頁等級或重要性的一種方法。
2.2.2 平均鏈接深度
平均鏈接深度,通俗地說就是網(wǎng)頁的層次,表示在一個種子站點集合中,每個種子站點如果存在一條鏈路到達(dá)該網(wǎng)頁,那么其目錄的深度或?qū)哟尉褪窃摼W(wǎng)頁的鏈接深度。實際上在廣度優(yōu)先遍歷策略中已采用了這種思想。它也是衡量網(wǎng)頁重要性的一個指標(biāo),因為距離種子站點越近,說明被訪問的機會越多,離種子站點越遠(yuǎn),重要性越低。
2.2.3 綜合指標(biāo)
目前評價網(wǎng)頁重要度的指標(biāo)很多,從人工搜集的經(jīng)驗看,以下幾個指標(biāo)綜合起來??梢宰鳛楹饬烤W(wǎng)頁重要性的重要參考依據(jù)。
(1)網(wǎng)頁或父網(wǎng)頁的入度即網(wǎng)頁被鏈接的次數(shù),入度越大被訪問、被其他網(wǎng)頁引用次數(shù)可能越多;
(2)網(wǎng)頁的鏡像度,鏡像度越高越熱門,也顯得重要;
(3)網(wǎng)頁的目錄深度,目錄淺易于被訪問。
以上指標(biāo)綜合起來可表示網(wǎng)頁的權(quán)重,下面不妨用函數(shù)式子近似地表示網(wǎng)頁的權(quán)重:
W(P)
F(Indegree(P),Indegree(FatherP),Nirror(P),DirectoryDepth(P))
其中,W(P)表示網(wǎng)頁P的權(quán)重,Indegree(P)、Indegree(FatherP)分別為網(wǎng)頁P、網(wǎng)頁P的父網(wǎng)頁的入度函數(shù),Nirror(P)為網(wǎng)頁P的鏡像度函數(shù),DirectoryDepth(P)為網(wǎng)頁P的目錄深度函數(shù)。
2.3 網(wǎng)頁重訪策略
由于網(wǎng)站信息在動態(tài)變化、更新和修改,且不同的站點在更新的時間上也不同,如新聞類的網(wǎng)站幾乎時時都在更新。因此,需要一種策略來解決信息的及時抓取問題,這種策略就是網(wǎng)頁重訪策略。
網(wǎng)絡(luò)爬蟲對Web頁的重訪策略的重點在于如何設(shè)置網(wǎng)絡(luò)爬蟲的重訪頻率。一般來說,可采用如下幾種方法:
(1)依據(jù)Web站點的更新頻率確定重訪頻率
此法符合實際情況,能夠更有效地管理和利用網(wǎng)絡(luò)爬蟲。例如,門戶網(wǎng)站通常每天要不斷地更新信息和添加新的信息,重訪的頻率則以天或小時為周期進(jìn)行網(wǎng)頁的重訪。
(2)不關(guān)心Web站點的更新頻率問題,而是間隔一段時間重訪已被抓取的網(wǎng)頁。其弊端是重復(fù)抓取的概率大,容易造成不必要的資源浪費。
(3)根據(jù)搜索引擎開發(fā)商對網(wǎng)頁的主觀評價,提供個性化的服務(wù)
網(wǎng)頁的重訪需要搜索引擎開發(fā)商對主要的站點進(jìn)行網(wǎng)頁更新頻率的主觀評價,可以根據(jù)需求提供個性化的服務(wù)。
2.4 主題搜集策略
從近年搜索引擎的研究趨向看,面向主題性信息資源的垂直搜索引擎或者主題搜索引擎已成為搜索引擎研究的熱點,搜索的指向性越來越強,并贏得了相關(guān)領(lǐng)域的專家和學(xué)者的普遍關(guān)注。而構(gòu)筑主題搜索引擎的關(guān)鍵在于制作一種與之相適應(yīng)的特殊網(wǎng)絡(luò)爬蟲即聚焦爬蟲(Focused Crawler),使同一領(lǐng)域內(nèi)的Web信息資源得以有效聚集。
通常聚焦爬蟲在遍歷Web時多采用最佳優(yōu)先策略,即“按照事先給出的主題,分析超鏈接和已經(jīng)下載的網(wǎng)頁內(nèi)容,預(yù)測下一個待抓取的URL以及當(dāng)前網(wǎng)頁的主題相關(guān)度,保證盡可能多地爬行、下載與主題相關(guān)的網(wǎng)頁,盡可能少地下載無關(guān)網(wǎng)頁。[8]”該策略能夠有效解決通用網(wǎng)絡(luò)爬蟲隨爬行深度的不斷加大而帶來的相關(guān)性逐漸降低問題,而且搜索針對性也高得多。
主題搜集策略的核心思想是:Web上與同一主題相關(guān)的網(wǎng)頁趨向于互相鏈接,主題爬蟲可從待爬行URL隊列中選擇最有希望的鏈接進(jìn)行爬行,其目標(biāo)是保持在主題相關(guān)的網(wǎng)頁的周圍,而不偏離主題[9]。主題爬行技術(shù)的關(guān)鍵點在于主題相關(guān)性的算法,目前可采用的算法歸于兩類:
2.4.1 基于URL鏈接的算法
比較著名的算法有PageRank和HITS兩種。HITS[10],即Hyperlink-Induced topic Search,由Kleinberg于1999年首次提出,并認(rèn)為Web頁的重要性與所要檢索的主題緊密相關(guān),從而在很大程度上避免了經(jīng)典PageRank算法由于不考慮主題相關(guān)性而出現(xiàn)的主題飄移現(xiàn)象。
該算法的基本思路為:對于權(quán)威Web頁而言,其重要程度的高低決定于與其鏈接的中心Web頁的數(shù)量,而且需要是質(zhì)量較好的中心Web頁;對于中心Web頁,其重要程度的高低決定于被其鏈接的權(quán)威Web頁的數(shù)量,而且需要是質(zhì)量較好的權(quán)威Web頁。這樣兩種Web頁之間存在某種程度的“共生依賴”關(guān)系,因此,HITS算法又“為每個Web頁定義兩個度量值:權(quán)威權(quán)重(authority weight)和中心權(quán)重(hub weight),并通過這兩個權(quán)重來判定該Web頁對特定主題的重要性。[11]”而且某一Web頁的權(quán)威權(quán)重等于所有指向它的Web頁的中心權(quán)重;某一Web頁的中心權(quán)重等于所有被它指向的Web頁的權(quán)威權(quán)重。HITS吸收了PageRank的優(yōu)點,并將權(quán)威Web頁和中心Web頁的概念納入運算過程中,因此能夠更關(guān)注于主題相關(guān)性,也更利于主題Web頁的搜集。
2.4.2 基于Web頁內(nèi)容的算法
在計算主題相關(guān)性時,可借鑒空間向量模型計算文本相似度的思想和理論[12],即將向量引入主題相關(guān)性評價的過程之中,并且利用相關(guān)度數(shù)值的大小體現(xiàn)Web頁的主題與給定主題的相關(guān)性大小,以下是該方法的具體算法流程:
(1)主題提?。簩λ鸭降木W(wǎng)頁進(jìn)行分析處理操作,從中提取可以表示網(wǎng)頁主題的關(guān)鍵詞,同時計算其在Web頁中出現(xiàn)的頻率。
(2)主題描述:將所提取的關(guān)鍵詞信息做加權(quán)處理,并將其表示的主題轉(zhuǎn)化為向量的形式,即為該網(wǎng)頁主題的特征向量;當(dāng)然也需要把給定的主題轉(zhuǎn)換成特征向量的形式。
(3)主題調(diào)整:依據(jù)給定主題的向量形式對Web頁的關(guān)鍵詞做進(jìn)一步的調(diào)整和優(yōu)化,以期更準(zhǔn)確地表達(dá)其主題的內(nèi)涵。
(4)主題相關(guān)性計算:將兩個向量代入文本相似度計算公式,如夾角余弦值公式。
得出Web頁與給定主題的相關(guān)度。
主題相關(guān)性分析:比較相關(guān)度的值與事先設(shè)定的相關(guān)度閥值之間的大小,如果前者與后者的差值是大于或等于零的數(shù),則說明Web頁與給定主題相關(guān),并將該Web頁轉(zhuǎn)存到頁面數(shù)據(jù)庫中,否則放棄該Web頁。這里,在大于等于零的情況下,差值越大表明Web頁與給定主題的相關(guān)性越強。
此外,還有一系列分析和評價網(wǎng)頁主題相關(guān)性的方法,如基于領(lǐng)域概念定制的方法、基于本體的方法[13]、基于遺傳算法的方法、基于網(wǎng)絡(luò)日志分析的方法、基于敘詞表的方法等。
2.5 分布式抓取策略
實施分布式抓取策略[14]的核心是在增加協(xié)同工作的爬蟲數(shù)量的同時,科學(xué)合理地分配每個爬蟲的任務(wù),盡量避免不同的爬蟲做相同的Web信息抓取。一般通過兩種方法來分配抓取任務(wù),一是按照Web站點所對應(yīng)的IP地址劃分任務(wù),一個爬蟲只需遍歷某一組IP地址所包含Web頁即可;另一種方法是依據(jù)Web站點的域名動態(tài)分配爬行任務(wù),每個爬蟲完成某個或某些域名段內(nèi)Web信息的搜集。
3 結(jié)束語
網(wǎng)絡(luò)爬蟲的網(wǎng)頁采集與優(yōu)化策略直接影響到網(wǎng)頁抓取的廣度、深度,以及網(wǎng)頁預(yù)處理的工作量和搜索引擎的質(zhì)量。因此,搜索引擎的設(shè)計應(yīng)在充分考慮網(wǎng)頁遍歷策略的同時,還應(yīng)加強對網(wǎng)絡(luò)爬蟲優(yōu)化策略的研究。本文從優(yōu)先采集、不重復(fù)采集、主題、網(wǎng)頁重訪、分布式抓取等方面提出了網(wǎng)絡(luò)爬蟲的五大優(yōu)化策略,對網(wǎng)絡(luò)爬蟲的設(shè)計應(yīng)有所幫助和啟迪。但網(wǎng)絡(luò)爬蟲優(yōu)化策略的研究任重道遠(yuǎn),比如網(wǎng)絡(luò)爬蟲還面臨互聯(lián)網(wǎng)中動態(tài)網(wǎng)頁的抓取即Deep Web爬蟲的策略問題。Deep Web爬蟲搜集內(nèi)容的基本策略[15]是透過Web站點對外展示的查詢接口,向相關(guān)后臺數(shù)據(jù)庫提交查詢表單,待數(shù)據(jù)庫響應(yīng)并返回相應(yīng)的內(nèi)容后即可通過一定的方法將網(wǎng)頁內(nèi)容下載在本地。查詢接口與表單的識別及處理是Deep Web爬蟲設(shè)計的重心所在。
同時,由于網(wǎng)絡(luò)爬蟲爬行的重復(fù)性,如何將web的動態(tài)規(guī)律與先前搜索的統(tǒng)計結(jié)果相結(jié)合,以提高全價值計算的準(zhǔn)確性[16],是一個值得研究的問題。降低網(wǎng)絡(luò)爬蟲在搜索過程中的計算復(fù)雜性,也有待進(jìn)一步研究。目前有關(guān)網(wǎng)絡(luò)爬蟲優(yōu)化策略方面的研究論文還少,應(yīng)加大力度開始這方面的研究,促進(jìn)搜索引擎產(chǎn)品的改善和優(yōu)化。隨著各種搜索引擎算法的改進(jìn),網(wǎng)絡(luò)爬蟲的優(yōu)化也必須順應(yīng)其變化,不斷提出新的優(yōu)化策略和優(yōu)化方法。
參考文獻(xiàn)
[1]周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲:研究綜述[J].計算機科學(xué),2009,(8):26-29.
[2]孫立偉,等.網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電腦知識與技術(shù),2010,(15):4112-4113.
[3]周立柱,林玲.聚焦爬蟲技術(shù)研究綜述[J].計算機應(yīng)用,2005,25(9):1965-1969.
[4]QIN JL,ZHOU YL,CHAU M.Building domain specific web collections for scientific digital libraries:a meta search enhanced focused crawling method[A].Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries[C].2004.6.
[5]KRISHNA B,GEORGEAM.When experts agree:using nonaffiliated experts to rank popular topics:proc.of the 10th International World Wide Web Conference[C].[s.l.]:[s.n.],2001.
[6]HAVELIWALA T H.Topic—sensitive PageRank:proc.of the 11th International World Wide Web Conference[C].[s.l.]:[s.n.],2002.
[7]王冬,等.基于PageRank的頁面排序改進(jìn)算法[J].計算機工程與設(shè)計,2008,(11):5921-5923.
[8]劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機應(yīng)用研究,2007,24(10):26-29,47.
[9]陳竹敏.面向垂直搜索引擎的主題爬蟲技術(shù)研究[D]:[博士論文].山東大學(xué),2008:10.
[10]Kleinberg J.Authoritative sources in a hyperlinked environment[J].Journal of the ACM,1999,46(5):604-632.
[11]郭鴻.一種基于文本內(nèi)容的HITS改進(jìn)算法[J].計算機系統(tǒng)應(yīng)用,2009,(9):38-40,131.
[12]M.R.Henzinge.Hyperlink analysis for the Web[J].IEEE Internet Computing,Jan/Feb,2001,5(1):45-50.
[13]楊貞,等.基于本體的主題爬蟲的設(shè)計與實現(xiàn)[J].科技情報開發(fā)與經(jīng)濟,2008,(2):73-75.
[14]姚樹宇,趙少東.一種使用分布式技術(shù)的搜索引擎[J].計算機應(yīng)用與軟件,2005,22(10):127-129.
[15]Yang Shengyuan.A focused crawler with ontology-supported website models for information agents[C].Advances in Grid and Pervasive Computing,2010:522-532.
[16]UDDIN M Z,LEE J J,KIM T S.Independent shape component-based human activity recognition via Hidden Markov Model[J].Applied Intelligence,2010,33(2):193-206.