一種具有屬性集成／融合能力的搜索策略

2008-01-01 00:00:00吳早亮孟莉徐凌宇李嚴黃文濤

計算機應用研究 2008年1期

摘要：針對搜索結果數量過多、各信息源——網頁的屬性值不一致的特點，提出一種具有屬性融合/集成能力的搜索策略，擬建立自動搜索生成系統取代人工分揀。通過對檢索出來的網頁作信息抽取、對比、統計，進行集成/融合，最終提交給用戶統一的信息視圖，保證了信息完備性與權威性。用該方法建立的微機性能/報價檢索示范系統的試運行與測試數據表明，該系統基本能夠從繁重的人工檢索中解脫出來，提高了自動化程度。

關鍵詞：檢索；搜索引擎；Web信息抽取；數據集成/融合

中圖分類號：TP391文獻標志碼：A

文章編號：1001－3695(2008)01－0087－03

搜索引擎是Web信息檢索的重要方法和手段。目前，以Google、Baidu為代表的基于關鍵字查詢的搜索引擎，搜索出來的結果存在以下特點：a)相關網頁數量龐大，容易導致信息過載[1，2]。一方面逐一查看和比對所有搜索結果的工作量過大，超出了人工分揀的能力；另一方面倘若隨機任意選取部分結果查看，則獲得的信息存在片面性，不能完全包含用戶所需信息。b)一致性問題。雖然網頁信息內容能夠重組，但不同的信息源提供的信息存在沖突，主要體現在不同網頁中相同屬性項的值不一致。面對這些信息，用戶會茫然而無從選擇。基于上述局限性，使得用戶不易有效地利用海量檢索結果。為此，研究一種能夠自動生成完備信息視圖的方法，將用戶從繁重的人工檢索中解脫出來，成為目前檢索的關鍵。

本文針對檢索結果的特點，為了有效地提高人工分揀的查準率[3~5]和信息的綜合利用率，構建了具有屬性融合/集成能力的搜索策略模型。該模型能夠自動對搜索出的網頁進行屬性提取和融合——加權計算，最終提交給用戶的是檢索得到的信息整體情況和集成/融合后屬性項的信息，提供了權威的信息參考。該模型取代了大量的人工查看和比對，提高了自動化程度。

1搜索模型

該模型借助于搜索引擎技術，對搜索的中間結果進行信息抽取，抽取成特定的數據集，并將這些數據集進行集成/融合；最后將集成/融合后的結果提交給用戶，以適應用戶的需要。設計的模型如圖1所示。

Web信息抽取是該模型的基礎，搜索得到的頁面經過信息抽取，得到特定的數據集合和文本集合；同時可以將相關的信息定義在相應的數據集合中。

數據集成/融合是該模型的實現核心。數據集成/融合的好壞直接關系到用戶得到集成/融合后視圖的好壞。數據集合中的數據經過對比/統計，融合兩個步驟，最后將融合后的數據提交給用戶。

歷史記錄是該模型的一個優勢補充。用戶使用關鍵字進行商品搜索，在首次搜索時，需要進行信息抽取和數據集成/融合。如果在數據庫還未更新前，用戶搜索的內容以前搜索過（歷史記錄集中有記錄），可以直接從歷史記錄集中檢索出相應的項，提交給用戶。

2集成/融合策略

2．2Web信息抽取策略

得到搜索的中間結果網頁時，需要對網頁進行信息抽取。信息抽取的結構如圖2所示。

Web信息抽取技術分多種分類方式[7]，如根據自動化程度就可以分為人工方式的信息抽取、半自動方式的信息抽取和全自動方式的信息抽取三大類。根據各種工具所采用的原理將現有的工具分為五類[8，9]：包裝器歸納方式的信息抽取、基于HTML結構的信息抽取、基于自然語言處理方式的信息抽取、基于ontology方式的信息抽取和基于Web查詢的信息抽取。考慮到抽取商品購物網頁的特點是基本上趨于結構化的。例如，搜索筆記本電腦價格，一般是這樣的結構：筆記本品牌、型號、CPU、內存、硬盤、顯示屏等。考慮到上述特點及HTML文檔的特征（HTML文檔由標題head和主體body兩部分組成，并且都有相對應的結束符/head和/body)。因此，采用基于HTML結構的信息抽取方法。

信息抽取過程如下：

a)構建模式庫。模式庫包含待抽取信息的表述、特征項等。比如商品的屬性、價格等。

通過信息抽取，過濾了檢索結果中不滿足條件的信息源——網頁，最后得到所需要的兩個集合F、S。

2．3屬性集成/融合策略

屬性集成/融合是將抽取得到的數據集合進行集成/融合處理，提交給用戶的是完備的信息視圖。屬性集成/融合的結構如圖3所示。

屬性集成/融合主要分為以下兩部分：

a）對比/統計，是屬性集成/融合的基礎。在進行數據集成/融合之前，需要對數據集合中的數據進行對比，同時對相同數據的數目進行統計。

b）集成/融合，是屬性集成/融合的核心。數據集合經過對比/統計后，根據數據的可信度對集合中的數據進行融合，得到融合后的數據。同時又將數據值最小的（最低的價格）和出現次數最多的數據（可信度最高的價格）提取出來。最后提交給用戶的是經過融合后的數據視圖。

集成/融合算法如下：

3實驗結果及分析

本次實驗中，以搜索筆記本電腦價格為例。筆記本電腦的屬性值為處理器、內存、硬盤、光驅、顯卡等。輸入關鍵字“IBM ThinkPad T60 2007BT1的價格”，取前20個有效的信息源——頁面。實驗結果如圖４所示。

由界面顯示可以看出，選取的信息源中，屬性價格有一致的，也有沖突的。屬性價格還與時間有關系，不同的時間段有不同的價格。經過模型的集成/融合，最后得到權威的參考：模型的融合價格21 780元，出現最多的價格為18 700元，最低價格為17 800元。

4結束語

本文針對搜索結果中信息量過大、各信息源——網頁的屬性值（價格）不一致的特點，利用信息融合技術集成一個統一格式的信息完備的視圖，采用集成/融合方法，提供權威參考。用戶利用該方法可以清楚地知道檢索內容的總體情況及系統集成/融合后的情況。該方法取代了大量的人工查看與比對，在一定程度上提高了自動化程度。

參考文獻：

［1］王繼成，楊曉江，潘金貴，等.基于元數據與Z39.50的分布協作式Web信息檢索[J].軟件學報，2001，12(4):621－622.

[2]王繼成，楊曉江，潘金貴，等.Web信息檢索研究進展[J].計算機研究與發展，2001，38(2):188 189.

[3]胡建強，鄒鵬，王懷民，等.Web服務描述語言QWSDL和服務匹配模型研究[J].計算機學報，2005，28(4):507－509.

[4]陳治平，林亞平，童調生.基于N層向量空間模型的信息檢索法[J].計算機研究與發展，2002，39(4):1235 1237.

[5]徐如志，錢樂秋，程建平，等.基于XML的軟件構建查詢匹配算法研究[J].軟件學報，2003，14(7):1196 1197.

[6]張兵，盧煥章.多傳感器自動目標識別中的沖突證據組合方法[J].系統工程與電子技術，2006，28(6):858－859.

[7]LAENDER A H F，RIBEIRO NETO B A.A brief survey of Web data extraction tools[J].SIGMOD Record，2002，31(2)：84－93.

[8]KOLUKYSAOLU H.Data extraction from repositories on the Web[J].Semi Automatic Approach，2003，7(4):13－23.

[9]LAM M I，GONG Zhi guo.Web information extraction[C]//Proc of IEEE International Conference on Information Acquisition.New York:ACM Press，2005:596－598.

“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

計算機應用研究2008年1期

計算機應用研究的其它文章: 基于相位一致性圖像的模塊化ＰＣＡ人臉識別方法; 圖像協同融合方法的初步研究; 一種基于主色外觀圖的彩色圖像分割算法; 一種整合單通道各向異性擴散信息的水平集圖像分割方法; 一種新的電能質量自適應濾波方法; 一種基于鏈碼技術的圖像目標物體面積統計新方法