999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hidden Web信息獲取

2007-01-01 00:00:00陳小英
計算機時代 2007年5期

摘要:如今Web上越來越多的信息可以通過查詢接口獲得,但為了獲取某Hidden Web站點的頁面,用戶不得不鍵入一系列的關鍵詞。由于沒有直接指向Hidden Web頁面的靜態鏈接,當前大多搜索引擎不能發現和索引這些頁面。然而,研究表明,由Hidden Web站點提供的高質量的信息對許多用戶來說非常有價值。文章通過研究針對特定類型的表單,建立一個有效的Hidden Web爬蟲,以便獲取Hidden Web后臺數據庫信息。

關鍵詞:Hidden Web;Hidden Web爬蟲;靜態鏈接;搜索引擎;采樣策略

0 引言

網絡上大部分內容是不能通過靜態鏈接獲取的,特別是大部分隱藏在搜索表單之后的頁面只有通過用戶鍵入一系列關鍵詞才可以獲得。這些頁面被稱為Hidden Web。由于當前的搜索引擎不能索引到或不能在它們的返回結果中顯示這些頁面,因此對用戶來說這部分頁面是隱藏的。Hidden Web最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎難以發現其信息內容的Web頁面。2001年,Christ Sherman、GaryPrice對Hidden Web定義為:雖然通過互聯網可以獲取,但普通搜索引擎由于受技術限制而不能或不作索引的那些文本頁、文件或其它通常是高質量、權威的信息。根據最近對HiddenWeb的調查文獻得到了如下有意義的發現:

(1)Hidden Web大約有307,000個站點,450,000個后臺數據庫和1,258,000個查詢接口。它仍在迅速增長,從2000年到2004年,它增長了3~7倍。

(2)Hidden Web內容分布于多種不同的主題領域,電子商務是主要的驅動力量,但非商業領域相對占更大比重。

(3)當今的爬蟲并非完全爬行不到Hidden Web后臺數據庫內,一些主要的搜索引擎已經覆蓋Hidden Web大約三分之一的內容。然而,在覆蓋率上當前搜索引擎存在技術上的本質缺陷。

(4)Hidden Web中的后臺數據庫大多是結構化的,其中結構化的是非結構化的3.4倍之多。

(5)雖然一些Hidden Web目錄服務已經開始索引Web數據庫,但是它們的覆蓋率比較小,僅為0.2%~15.6%。

(6)Web數據庫往往位于站點淺層,多達94%的Web數據庫可以在站點前3層發現。

可以看出Hidden Web中信息量要比Surface Web信息量多得多,同時由于Hidden Web頁面信息是由后臺數據庫動態產生的,數據庫大多是結構化的關系數據庫,因此信息的質量比非結構化的頁面要高。

本文以不含或含有少量的文本元素,其它類型元素都具有值的表單作為研究對象,提出了Hidden Web爬蟲沒設計的—種框架。

1 Hidden Web爬蟲

為實現自動獲取Hidden Web頁面的任務,此爬蟲必須能自動尋找表單,填寫表單,然后獲取和識別結果頁面。HiddenWeb爬蟲系統結構如圖1所示。

圖1 Hidden Web爬蟲系統框架

1.1尋找Hidden Web入口頁面

Web上存在多種多樣的表單,同時表單上含有各種各樣的元素,如單選按鈕、下拉列表框、文本框等,有些還是用戶自定義的,因此處理所有的表單是比較困難的。為此,需要先解析HTML頁面,獲取要研究的表單類型,同時從中抽取有用信息。本文要研究的是不含或含有少量的文本框元素,其它類型元素都具有默認值的表單。這很容易通過解析HTML表單來完成,如可以使用標記序列樹或DOM(文檔對象模型)來過濾出要研究的表單。

1.2自動提交表單

當搜索表單提供了每一表單元素所有可能的值時,直接的方法是對具有少量的文本框元素使用空串作為默認值,窮盡表單其他元素所有可能值的組合來填寫表單,獲取后臺數據庫全部的數據。此方法存在兩個問題:①處理過程非常耗時;②在窮盡所有可能值組合之前,也許已經獲取了所有或大部分的后臺數據庫數據,從而出現了重復提交;③多個字段組合可能存在語義上的沖突。Hidden Web爬蟲設計的目標是使用最少的資源(如提交時間或次數等)獲取特定Hidden Web站點內最大量的數據,然而不能保證對所有表單使用有限次的提交可以獲取后臺數據庫的全部數據,因此有必要再次發送查詢來確定是否已獲取了全部數據。本文提出一種兩階段采樣爬行策略以充分獲取Hidden Web數據,它分為如下兩個步驟:

(1)首先使用表單提供的默認值來提交;

(2)然后對表單元素值組合進行采樣以確定默認值提交是否返回了后臺數據庫的所有數據,若返回了后臺數據庫所有或大部分數據則可以結束提交過程。否則,在爬蟲所具有資源限制范圍內窮盡所有可能值的組合。

1.2.1采樣查詢后臺數據庫

下面介紹采樣階段以確定默認值提交是否返回了后臺數據庫的全部數據。一種方法是從表單元素所有可能值的組合中隨機采樣來提交表單。然而隨機采樣提交不能覆蓋表單元素每種取值,造成所有可能值的不均勻使用,如表1所示。這里形式化定義表單的第i個元素為因子Li。集合L1,L2,…,Ln是對應于表單上具有有限值的所有元素,| Li|表示第i個因子可能取值的個數,則表單元素所有可能值組合的個數為:

這里考慮了表單具有多個元素而勢很小的情況。其中「log2N」的選擇參見文獻。

對表單元素所有可能值組合采樣C次后若沒有新的數據記錄返回則表明已經獲取了所有數據。舉例來說,假設一個含有兩個元素的表單,它們都具有有限的值域,每個元素可能取值個數為7和4,則上述N=28,C=6。

表1 隨機采樣

從表1中可以看到,對于元素A的可能值a6和a7,元素B的可能值b3在采樣提交中一次都沒有使用,同時元素B的可能值b1在6次采樣提交中就使用了3次。這說明使用隨機采樣來提交表單可能造成表單元素某些值可能過分使用,而漏用其它一些值的情況。解決這個問題的一種方法是記錄采樣因子已經使用的值的次數,擴大采樣值的范圍,即“分層采樣”的方法。使用此方法采樣提交模式如表2所示。

表2 使用規則模式的“分層采樣”

表2使用了一個規則的模式“分層采樣”來覆蓋每個因子的所有可能值。根據上述規則下次將使用(a7,b4)來填寫表單元素。可以看到此方法覆蓋了元素B的所有可能值,這種規則的模式必然會對某些元素有所偏重。為了覆蓋所有元素的可能值,表3使用了一個隨機的“分層采樣”方法。

對上述處理含有兩個因子的表單的方法加以擴展,可用于含有兩個以上元素的表單。

在C次采樣提交的過程中,系統處理返回的頁面來確定是否已返回了后臺數據庫的所有記錄。若返回了所有記錄則結束提交過程,否則進入窮盡階段。用來確定一個查詢提交是否返回了新的數據記錄的方法很多。一種方法是使用Web信息抽取工具抽取返回頁面中的記錄,把記錄存儲到數據庫中,然后通過數據庫記錄比較來確定是否有新的記錄加入。這里使用改進后的復本檢測系統來判斷記錄是否重復。它主要是計算每個候選記錄的哈希值,視具有相同哈希值的為重復記錄。

表3 使用隨機模式的“分層采樣”

1.2.2窮盡后臺數據庫信息

如果C次采樣提交每次都產生了新的記錄,則窮盡表單元素其它可能值組合來提交表單,直到滿足特定的結束條件。然而在繼續提交表單前,先要估計完成這樣的操作所需的最大剩余時間和用于存儲所有結果記錄所需的最大空間。可以指定如下幾個參數來完成此階段的任務:最大查詢提交次數、最大存儲空間和最大剩余時間等。

可以通過疊加每次查詢所返回的數據量來估計所需最大存儲空間S。類似地可以估計最大剩余時間T。

在窮盡階段,可以使用幾個參數閥值來提前結束提交過程。包括:

(1)獲取Web數據庫數據的百分比:通過估計Web數據庫百分比以確定獲取了多少數據以后可以結束提交過程。

(2)查詢提交次數:通過確定查詢提交次數來減輕站點的負擔。

(3)獲取數據的數量:即獲取了多少惟一性的Web數據庫信息。

(4)提交時間:爬行某特定站點需要多長時間。

上述每一個閥值或其組合都可以在窮盡階段提前結束爬蟲爬行。

1.3識別和存取查詢結果

對表單提交操作產生的響應主要有如下幾種情況:響應頁含有后臺數據庫部分或所有數據;響應頁不僅包含有數據還包含鏈接;響應頁含有數據和原始表單結構;響應頁可能是另一張需要進一步填寫的表單;錯誤頁面通知;無記錄通知或需要缺失字段。這一步主要是針對這些可能出現的情況進行處理。然后從含有豐富數據的頁面中使用信息抽取工具抽取結構化的數據構建數據,以進一步提供信息檢索服務。

2 結束語

本文提出一種針對特定類型表單獲取Hidden Web頁面的爬蟲設計原型系統,它首先使用默認值來提交表單,以兩階段采樣策略確定是否充分獲取了后臺數據庫數據,然后從響應頁中抽取出用戶感興趣的信息。此爬蟲可以獲取一部分Hidden Web頁面,它彌補了當前爬蟲只能索引靜態頁面的不足。下一步需要做的工作是,在真實Hidden Web站點進行大量實驗及解決自動發現搜索接口等問題以完善此系統。畢竟存在很多需要填寫文本元素的表單,這就需要擴展此系統使其能自動填寫文本域元素。如使用HiWE系統中的屬性標簽值對表或使用領域本體知識庫來自動學習填寫表單以處理更多類型的表單,從而從Hidden Web中獲取更多的用戶感興趣的高質量信息。

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: a亚洲视频| 热久久综合这里只有精品电影| 欧美色视频在线| 欧美不卡二区| 亚洲经典在线中文字幕| 五月天香蕉视频国产亚| 99成人在线观看| 国产网站免费| 人妻精品全国免费视频| 国产成人精品视频一区二区电影 | 午夜福利视频一区| 国产原创第一页在线观看| 青青国产成人免费精品视频| 亚洲制服丝袜第一页| 真实国产乱子伦视频| 欧美日韩亚洲国产主播第一区| 亚洲欧美日韩天堂| 久久综合干| 久久香蕉欧美精品| 国产99热| 四虎影视库国产精品一区| 九色视频线上播放| 久久久久无码精品| 日韩精品一区二区三区swag| 亚洲无码高清视频在线观看| 高清免费毛片| 日本高清免费一本在线观看| 精品视频在线观看你懂的一区| 亚洲欧美成人在线视频| 亚洲精品国产日韩无码AV永久免费网 | 在线毛片免费| 玖玖精品在线| 亚洲狠狠婷婷综合久久久久| 黄色网址免费在线| 成年看免费观看视频拍拍| 制服丝袜无码每日更新| 老司机午夜精品网站在线观看| 特级毛片免费视频| 丁香五月亚洲综合在线| 日韩欧美综合在线制服| 激情无码字幕综合| 黄色福利在线| 白浆视频在线观看| 中文字幕va| 伊人天堂网| 国产91小视频| 亚洲人成日本在线观看| 四虎永久在线视频| 久久久国产精品免费视频| 亚洲欧美在线精品一区二区| 青青青国产视频| 亚洲最大福利视频网| 看国产毛片| 老色鬼久久亚洲AV综合| 亚洲第一国产综合| 久久成人国产精品免费软件 | 99精品热视频这里只有精品7| 久久久久免费精品国产| 91欧美在线| 538国产视频| 成人夜夜嗨| 国产激情第一页| 亚洲第一成人在线| 中文字幕在线免费看| 欧美精品啪啪一区二区三区| 日韩视频免费| 亚洲天堂高清| 久久无码高潮喷水| 国产女同自拍视频| 国产天天射| 亚瑟天堂久久一区二区影院| 人妻无码AⅤ中文字| 色婷婷视频在线| 中文字幕日韩欧美| 波多野结衣爽到高潮漏水大喷| 国产麻豆精品久久一二三| 91九色最新地址| 欧美性天天| 国产成人h在线观看网站站| 亚洲日产2021三区在线| 2020最新国产精品视频| 亚洲香蕉在线|