999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hidden Web信息獲取

2007-01-01 00:00:00陳小英
計算機時代 2007年5期

摘要:如今Web上越來越多的信息可以通過查詢接口獲得,但為了獲取某Hidden Web站點的頁面,用戶不得不鍵入一系列的關鍵詞。由于沒有直接指向Hidden Web頁面的靜態鏈接,當前大多搜索引擎不能發現和索引這些頁面。然而,研究表明,由Hidden Web站點提供的高質量的信息對許多用戶來說非常有價值。文章通過研究針對特定類型的表單,建立一個有效的Hidden Web爬蟲,以便獲取Hidden Web后臺數據庫信息。

關鍵詞:Hidden Web;Hidden Web爬蟲;靜態鏈接;搜索引擎;采樣策略

0 引言

網絡上大部分內容是不能通過靜態鏈接獲取的,特別是大部分隱藏在搜索表單之后的頁面只有通過用戶鍵入一系列關鍵詞才可以獲得。這些頁面被稱為Hidden Web。由于當前的搜索引擎不能索引到或不能在它們的返回結果中顯示這些頁面,因此對用戶來說這部分頁面是隱藏的。Hidden Web最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎難以發現其信息內容的Web頁面。2001年,Christ Sherman、GaryPrice對Hidden Web定義為:雖然通過互聯網可以獲取,但普通搜索引擎由于受技術限制而不能或不作索引的那些文本頁、文件或其它通常是高質量、權威的信息。根據最近對HiddenWeb的調查文獻得到了如下有意義的發現:

(1)Hidden Web大約有307,000個站點,450,000個后臺數據庫和1,258,000個查詢接口。它仍在迅速增長,從2000年到2004年,它增長了3~7倍。

(2)Hidden Web內容分布于多種不同的主題領域,電子商務是主要的驅動力量,但非商業領域相對占更大比重。

(3)當今的爬蟲并非完全爬行不到Hidden Web后臺數據庫內,一些主要的搜索引擎已經覆蓋Hidden Web大約三分之一的內容。然而,在覆蓋率上當前搜索引擎存在技術上的本質缺陷。

(4)Hidden Web中的后臺數據庫大多是結構化的,其中結構化的是非結構化的3.4倍之多。

(5)雖然一些Hidden Web目錄服務已經開始索引Web數據庫,但是它們的覆蓋率比較小,僅為0.2%~15.6%。

(6)Web數據庫往往位于站點淺層,多達94%的Web數據庫可以在站點前3層發現。

可以看出Hidden Web中信息量要比Surface Web信息量多得多,同時由于Hidden Web頁面信息是由后臺數據庫動態產生的,數據庫大多是結構化的關系數據庫,因此信息的質量比非結構化的頁面要高。

本文以不含或含有少量的文本元素,其它類型元素都具有值的表單作為研究對象,提出了Hidden Web爬蟲沒設計的—種框架。

1 Hidden Web爬蟲

為實現自動獲取Hidden Web頁面的任務,此爬蟲必須能自動尋找表單,填寫表單,然后獲取和識別結果頁面。HiddenWeb爬蟲系統結構如圖1所示。

圖1 Hidden Web爬蟲系統框架

1.1尋找Hidden Web入口頁面

Web上存在多種多樣的表單,同時表單上含有各種各樣的元素,如單選按鈕、下拉列表框、文本框等,有些還是用戶自定義的,因此處理所有的表單是比較困難的。為此,需要先解析HTML頁面,獲取要研究的表單類型,同時從中抽取有用信息。本文要研究的是不含或含有少量的文本框元素,其它類型元素都具有默認值的表單。這很容易通過解析HTML表單來完成,如可以使用標記序列樹或DOM(文檔對象模型)來過濾出要研究的表單。

1.2自動提交表單

當搜索表單提供了每一表單元素所有可能的值時,直接的方法是對具有少量的文本框元素使用空串作為默認值,窮盡表單其他元素所有可能值的組合來填寫表單,獲取后臺數據庫全部的數據。此方法存在兩個問題:①處理過程非常耗時;②在窮盡所有可能值組合之前,也許已經獲取了所有或大部分的后臺數據庫數據,從而出現了重復提交;③多個字段組合可能存在語義上的沖突。Hidden Web爬蟲設計的目標是使用最少的資源(如提交時間或次數等)獲取特定Hidden Web站點內最大量的數據,然而不能保證對所有表單使用有限次的提交可以獲取后臺數據庫的全部數據,因此有必要再次發送查詢來確定是否已獲取了全部數據。本文提出一種兩階段采樣爬行策略以充分獲取Hidden Web數據,它分為如下兩個步驟:

(1)首先使用表單提供的默認值來提交;

(2)然后對表單元素值組合進行采樣以確定默認值提交是否返回了后臺數據庫的所有數據,若返回了后臺數據庫所有或大部分數據則可以結束提交過程。否則,在爬蟲所具有資源限制范圍內窮盡所有可能值的組合。

1.2.1采樣查詢后臺數據庫

下面介紹采樣階段以確定默認值提交是否返回了后臺數據庫的全部數據。一種方法是從表單元素所有可能值的組合中隨機采樣來提交表單。然而隨機采樣提交不能覆蓋表單元素每種取值,造成所有可能值的不均勻使用,如表1所示。這里形式化定義表單的第i個元素為因子Li。集合L1,L2,…,Ln是對應于表單上具有有限值的所有元素,| Li|表示第i個因子可能取值的個數,則表單元素所有可能值組合的個數為:

這里考慮了表單具有多個元素而勢很小的情況。其中「log2N」的選擇參見文獻。

對表單元素所有可能值組合采樣C次后若沒有新的數據記錄返回則表明已經獲取了所有數據。舉例來說,假設一個含有兩個元素的表單,它們都具有有限的值域,每個元素可能取值個數為7和4,則上述N=28,C=6。

表1 隨機采樣

從表1中可以看到,對于元素A的可能值a6和a7,元素B的可能值b3在采樣提交中一次都沒有使用,同時元素B的可能值b1在6次采樣提交中就使用了3次。這說明使用隨機采樣來提交表單可能造成表單元素某些值可能過分使用,而漏用其它一些值的情況。解決這個問題的一種方法是記錄采樣因子已經使用的值的次數,擴大采樣值的范圍,即“分層采樣”的方法。使用此方法采樣提交模式如表2所示。

表2 使用規則模式的“分層采樣”

表2使用了一個規則的模式“分層采樣”來覆蓋每個因子的所有可能值。根據上述規則下次將使用(a7,b4)來填寫表單元素。可以看到此方法覆蓋了元素B的所有可能值,這種規則的模式必然會對某些元素有所偏重。為了覆蓋所有元素的可能值,表3使用了一個隨機的“分層采樣”方法。

對上述處理含有兩個因子的表單的方法加以擴展,可用于含有兩個以上元素的表單。

在C次采樣提交的過程中,系統處理返回的頁面來確定是否已返回了后臺數據庫的所有記錄。若返回了所有記錄則結束提交過程,否則進入窮盡階段。用來確定一個查詢提交是否返回了新的數據記錄的方法很多。一種方法是使用Web信息抽取工具抽取返回頁面中的記錄,把記錄存儲到數據庫中,然后通過數據庫記錄比較來確定是否有新的記錄加入。這里使用改進后的復本檢測系統來判斷記錄是否重復。它主要是計算每個候選記錄的哈希值,視具有相同哈希值的為重復記錄。

表3 使用隨機模式的“分層采樣”

1.2.2窮盡后臺數據庫信息

如果C次采樣提交每次都產生了新的記錄,則窮盡表單元素其它可能值組合來提交表單,直到滿足特定的結束條件。然而在繼續提交表單前,先要估計完成這樣的操作所需的最大剩余時間和用于存儲所有結果記錄所需的最大空間。可以指定如下幾個參數來完成此階段的任務:最大查詢提交次數、最大存儲空間和最大剩余時間等。

可以通過疊加每次查詢所返回的數據量來估計所需最大存儲空間S。類似地可以估計最大剩余時間T。

在窮盡階段,可以使用幾個參數閥值來提前結束提交過程。包括:

(1)獲取Web數據庫數據的百分比:通過估計Web數據庫百分比以確定獲取了多少數據以后可以結束提交過程。

(2)查詢提交次數:通過確定查詢提交次數來減輕站點的負擔。

(3)獲取數據的數量:即獲取了多少惟一性的Web數據庫信息。

(4)提交時間:爬行某特定站點需要多長時間。

上述每一個閥值或其組合都可以在窮盡階段提前結束爬蟲爬行。

1.3識別和存取查詢結果

對表單提交操作產生的響應主要有如下幾種情況:響應頁含有后臺數據庫部分或所有數據;響應頁不僅包含有數據還包含鏈接;響應頁含有數據和原始表單結構;響應頁可能是另一張需要進一步填寫的表單;錯誤頁面通知;無記錄通知或需要缺失字段。這一步主要是針對這些可能出現的情況進行處理。然后從含有豐富數據的頁面中使用信息抽取工具抽取結構化的數據構建數據,以進一步提供信息檢索服務。

2 結束語

本文提出一種針對特定類型表單獲取Hidden Web頁面的爬蟲設計原型系統,它首先使用默認值來提交表單,以兩階段采樣策略確定是否充分獲取了后臺數據庫數據,然后從響應頁中抽取出用戶感興趣的信息。此爬蟲可以獲取一部分Hidden Web頁面,它彌補了當前爬蟲只能索引靜態頁面的不足。下一步需要做的工作是,在真實Hidden Web站點進行大量實驗及解決自動發現搜索接口等問題以完善此系統。畢竟存在很多需要填寫文本元素的表單,這就需要擴展此系統使其能自動填寫文本域元素。如使用HiWE系統中的屬性標簽值對表或使用領域本體知識庫來自動學習填寫表單以處理更多類型的表單,從而從Hidden Web中獲取更多的用戶感興趣的高質量信息。

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 国产91精品最新在线播放| 亚洲色图另类| 日韩第一页在线| 日韩精品亚洲一区中文字幕| 免费国产小视频在线观看 | 无码人中文字幕| 久热精品免费| 无码人中文字幕| 99久久精品国产综合婷婷| 国产精品视频猛进猛出| 中文字幕久久精品波多野结| 国产国产人免费视频成18| av无码久久精品| 秋霞午夜国产精品成人片| 国产精品区网红主播在线观看| 亚洲成人黄色在线| 亚洲无码一区在线观看| 又粗又硬又大又爽免费视频播放| 免费毛片全部不收费的| 国产96在线 | 91福利在线观看视频| 欧美va亚洲va香蕉在线| 精品1区2区3区| 亚洲欧美日韩另类在线一| AV不卡国产在线观看| 国产又粗又猛又爽| 国产剧情国内精品原创| 亚洲欧美日韩中文字幕在线一区| 亚洲成a人片| 亚洲成人动漫在线观看| 国产理论精品| jizz国产在线| 日韩精品成人网页视频在线| 欧美精品影院| 精品成人免费自拍视频| 精品一区二区三区无码视频无码| 亚洲欧美精品一中文字幕| 日本午夜影院| 拍国产真实乱人偷精品| 久久精品国产电影| 色久综合在线| 国产区精品高清在线观看| 亚洲色图欧美一区| 国产精品青青| 亚洲人在线| 无码高潮喷水专区久久| 欧美精品xx| 成人国产一区二区三区| 四虎成人精品| 国产大片喷水在线在线视频| 久久精品国产亚洲麻豆| 国产精品香蕉在线| 亚洲日韩国产精品无码专区| 国产精品国产三级国产专业不| 在线a网站| 99视频免费观看| 99尹人香蕉国产免费天天拍| 亚洲人成在线免费观看| 国产成人精品亚洲77美色| 亚洲视频免| 国产激情无码一区二区免费| 午夜三级在线| 国产在线一区视频| 国产91麻豆视频| 2048国产精品原创综合在线| 91午夜福利在线观看| 日韩成人在线一区二区| 亚洲色图欧美在线| 国产一区免费在线观看| 欧美在线视频不卡| 亚洲婷婷六月| 97视频在线观看免费视频| 日本a级免费| 国产综合欧美| 久久精品人人做人人爽电影蜜月 | 91无码视频在线观看| 精品无码日韩国产不卡av| 麻豆国产在线不卡一区二区| 国产精品尤物在线| 国产精品亚洲一区二区在线观看| 国产免费福利网站| 久久大香伊蕉在人线观看热2|