摘要:針對搜索結果數量過多、各信息源——網頁的屬性值不一致的特點,提出一種具有屬性融合/集成能力的搜索策略,擬建立自動搜索生成系統取代人工分揀。通過對檢索出來的網頁作信息抽取、對比、統計,進行集成/融合,最終提交給用戶統一的信息視圖,保證了信息完備性與權威性。用該方法建立的微機性能/報價檢索示范系統的試運行與測試數據表明,該系統基本能夠從繁重的人工檢索中解脫出來,提高了自動化程度。
關鍵詞:檢索;搜索引擎;Web信息抽取;數據集成/融合
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2008)01-0087-03
搜索引擎是Web信息檢索的重要方法和手段。目前,以Google、Baidu為代表的基于關鍵字查詢的搜索引擎,搜索出來的結果存在以下特點:a)相關網頁數量龐大,容易導致信息過載[1,2]。一方面逐一查看和比對所有搜索結果的工作量過大,超出了人工分揀的能力;另一方面倘若隨機任意選取部分結果查看,則獲得的信息存在片面性,不能完全包含用戶所需信息。b)一致性問題。雖然網頁信息內容能夠重組,但不同的信息源提供的信息存在沖突,主要體現在不同網頁中相同屬性項的值不一致。面對這些信息,用戶會茫然而無從選擇。基于上述局限性,使得用戶不易有效地利用海量檢索結果。為此,研究一種能夠自動生成完備信息視圖的方法,將用戶從繁重的人工檢索中解脫出來,成為目前檢索的關鍵。
本文針對檢索結果的特點,為了有效地提高人工分揀的查準率[3~5]和信息的綜合利用率,構建了具有屬性融合/集成能力的搜索策略模型。該模型能夠自動對搜索出的網頁進行屬性提取和融合——加權計算,最終提交給用戶的是檢索得到的信息整體情況和集成/融合后屬性項的信息,提供了權威的信息參考。該模型取代了大量的人工查看和比對,提高了自動化程度。
1搜索模型
該模型借助于搜索引擎技術,對搜索的中間結果進行信息抽取,抽取成特定的數據集,并將這些數據集進行集成/融合;最后將集成/融合后的結果提交給用戶,以適應用戶的需要。設計的模型如圖1所示。
Web信息抽取是該模型的基礎,搜索得到的頁面經過信息抽取,得到特定的數據集合和文本集合;同時可以將相關的信息定義在相應的數據集合中。
數據集成/融合是該模型的實現核心。數據集成/融合的好壞直接關系到用戶得到集成/融合后視圖的好壞。數據集合中的數據經過對比/統計,融合兩個步驟,最后將融合后的數據提交給用戶。
歷史記錄是該模型的一個優勢補充。用戶使用關鍵字進行商品搜索,在首次搜索時,需要進行信息抽取和數據集成/融合。如果在數據庫還未更新前,用戶搜索的內容以前搜索過(歷史記錄集中有記錄),可以直接從歷史記錄集中檢索出相應的項,提交給用戶。
2集成/融合策略
2.2Web信息抽取策略
得到搜索的中間結果網頁時,需要對網頁進行信息抽取。信息抽取的結構如圖2所示。
Web信息抽取技術分多種分類方式[7],如根據自動化程度就可以分為人工方式的信息抽取、半自動方式的信息抽取和全自動方式的信息抽取三大類。根據各種工具所采用的原理將現有的工具分為五類[8,9]:包裝器歸納方式的信息抽取、基于HTML結構的信息抽取、基于自然語言處理方式的信息抽取、基于ontology方式的信息抽取和基于Web查詢的信息抽取。考慮到抽取商品購物網頁的特點是基本上趨于結構化的。例如,搜索筆記本電腦價格,一般是這樣的結構:筆記本品牌、型號、CPU、內存、硬盤、顯示屏等。考慮到上述特點及HTML文檔的特征(HTML文檔由標題head和主體body兩部分組成,并且都有相對應的結束符/head和/body)。因此,采用基于HTML結構的信息抽取方法。
信息抽取過程如下:
a)構建模式庫。模式庫包含待抽取信息的表述、特征項等。比如商品的屬性、價格等。
通過信息抽取,過濾了檢索結果中不滿足條件的信息源——網頁,最后得到所需要的兩個集合F、S。
2.3屬性集成/融合策略
屬性集成/融合是將抽取得到的數據集合進行集成/融合處理,提交給用戶的是完備的信息視圖。屬性集成/融合的結構如圖3所示。
屬性集成/融合主要分為以下兩部分:
a)對比/統計,是屬性集成/融合的基礎。在進行數據集成/融合之前,需要對數據集合中的數據進行對比,同時對相同數據的數目進行統計。
b)集成/融合,是屬性集成/融合的核心。數據集合經過對比/統計后,根據數據的可信度對集合中的數據進行融合,得到融合后的數據。同時又將數據值最小的(最低的價格)和出現次數最多的數據(可信度最高的價格)提取出來。最后提交給用戶的是經過融合后的數據視圖。
集成/融合算法如下:
3實驗結果及分析
本次實驗中,以搜索筆記本電腦價格為例。筆記本電腦的屬性值為處理器、內存、硬盤、光驅、顯卡等。輸入關鍵字“IBM ThinkPad T60 2007BT1的價格”,取前20個有效的信息源——頁面。實驗結果如圖4所示。
由界面顯示可以看出,選取的信息源中,屬性價格有一致的,也有沖突的。屬性價格還與時間有關系,不同的時間段有不同的價格。經過模型的集成/融合,最后得到權威的參考:模型的融合價格21 780元,出現最多的價格為18 700元,最低價格為17 800元。
4結束語
本文針對搜索結果中信息量過大、各信息源——網頁的屬性值(價格)不一致的特點,利用信息融合技術集成一個統一格式的信息完備的視圖,采用集成/融合方法,提供權威參考。用戶利用該方法可以清楚地知道檢索內容的總體情況及系統集成/融合后的情況。該方法取代了大量的人工查看與比對,在一定程度上提高了自動化程度。
參考文獻:
[1]王繼成,楊曉江,潘金貴,等.基于元數據與Z39.50的分布協作式Web信息檢索[J].軟件學報,2001,12(4):621-622.
[2]王繼成,楊曉江,潘金貴,等.Web信息檢索研究進展[J].計算機研究與發展,2001,38(2):188 189.
[3]胡建強,鄒鵬,王懷民,等.Web服務描述語言QWSDL和服務匹配模型研究[J].計算機學報,2005,28(4):507-509.
[4]陳治平,林亞平,童調生.基于N層向量空間模型的信息檢索法[J].計算機研究與發展,2002,39(4):1235 1237.
[5]徐如志,錢樂秋,程建平,等.基于XML的軟件構建查詢匹配算法研究[J].軟件學報,2003,14(7):1196 1197.
[6]張兵,盧煥章.多傳感器自動目標識別中的沖突證據組合方法[J].系統工程與電子技術,2006,28(6):858-859.
[7]LAENDER A H F,RIBEIRO NETO B A.A brief survey of Web data extraction tools[J].SIGMOD Record,2002,31(2):84-93.
[8]KOLUKYSAOLU H.Data extraction from repositories on the Web[J].Semi Automatic Approach,2003,7(4):13-23.
[9]LAM M I,GONG Zhi guo.Web information extraction[C]//Proc of IEEE International Conference on Information Acquisition.New York:ACM Press,2005:596-598.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”