〔摘 要〕首先對網絡環境下信息檢索的現狀進行分析,主要介紹網絡信息檢索的代表工具—搜索引擎的工作原理、缺陷及發展方向,引出數據挖掘技術,并進一步對WEB數據挖掘技術作了概要的介紹,闡明WEB數據挖掘技術是網絡信息檢索智能化的重要發展方向之一。最后,提出一個結合數據挖掘技術的新的搜索引擎結構模型。
〔關鍵詞〕信息檢索;搜索引擎;WEB數據挖掘
〔中圖分類號〕G250.73 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)05-0144-03
Information Retrieval and Data Mining in the Network EnvironmentChen Wei Ruan Haihong
(Library,Zhejiang University of Media and Communications,Hangzhou 310018,China)
〔Abstract〕Based on the analysis of information retrieval in the network environment,this paper introduced the working principle,defects and development of search engine which was a kind of typical tools of information retrieval.Then,data mining and its applications in the web were introduced.It was illuminated that web data mining technology was an important development of intelligentized information retrieval.A new search engine structure model which was combined with data mining was presented in the end.
〔Keywords〕information retrieval;search engine;WEB data mining
隨著網絡應用的普及,網上信息量以驚人的速度增長。網絡信息資源具有數量巨大,增長迅速,形式多樣,分布廣泛,結構復雜等特點。人們面對的問題不再是缺乏有用信息,而是如何高效地找到自己所需要的信息。但目前的現狀是“數據豐富,但信息貧乏”,人們迫切需要能夠從網絡上快速、有效地發現資源和知識的工具。
網絡搜索引擎的出現部分地解決了資源發現問題,但是它檢索效率低,往往會返回給用戶成千上萬個檢索到的網頁,存在大量的隱性信息,其中很大一部分與用戶的檢索要求無關,用戶不能快速、準確地得到所需的有價值的信息,無法滿足用戶個性化的需求。此外,搜索引擎的目的在于發現網絡上的資源,就網絡上的知識發現而言,即使檢索精度再高,搜索引擎也不能夠勝任。因此,人們需要比信息檢索層次更高的、能包含網絡數據庫在內的新的數據挖掘技術,以更有效的手段對各種大量數據進行挖掘并發揮其潛能[1]。
數據挖掘正是在這樣的應用需求環境下產生并迅速發展起來的。但是,數據庫領域采用的數據挖掘技術所涉及的多是結構化數據,為了處理WEB上的異質、非結構化或半結構化數據,WEB數據挖掘成為數據挖掘研究的一個重要分支。盡管WEB數據挖掘是比網絡信息檢索更高層次的技術,但它并不是用來取代網絡信息檢索技術的,二者是相輔相成的[2]。
1 網絡信息檢索
信息檢索(information retrieval)作為一門學科,其歷史可追溯到20世紀中期。在此之前,信息存儲和傳播主要以紙質介質為載體,信息檢索活動也圍繞著文獻的獲取和控制展開。20世紀50年代,計算機技術開始得到實際應用,“情報檢索”也開始與IT技術緊密結合,從而產生了現代意義的“信息檢索”[3]。
信息檢索主要是研究如何獲取WWW上的信息資源,又稱為Web信息檢索[4],它有以下幾個特點[5]:大數據量、分布式、多用戶、非專業。網絡信息資源檢索的上述特點,造成了網上信息獲取的障礙。從20世紀60年代以來,信息檢索領域在索引模型、文檔內容表示、匹配策略等方面取得了許多研究成果。這些成果被成功地應用在WEB上,產生了搜索引擎,著名的有Google,Yahoo!,Altavista等。
1.1 搜索引擎的工作原理
常見的Web信息檢索系統的具體實例是搜索引擎。搜索引擎(Search Engine)[6]指對www站點資源和其他網絡資源進行標引和檢索的一類檢索系統機制。其基本功能通常包含三部分:(1)下載Web文檔和有關的信息資源到本地進行預處理;(2)對文檔內容建立索引;(3)搜索引擎按照用戶提出的檢索請求,通過建立的索引檢索出匹配的文檔及其相關的鏈接返回給用戶。
搜索引擎通常有6個相對獨立的基本組成部分:Robot、臨時文檔數據庫、索引器、索引數據庫、檢索器和用戶接口。Robot(又叫做Crawler、Spider、Worm等)是一個能利用HTTP協議獲取Web頁面并沿著HTML文檔中的超鏈在Internet上自動漫游的程序,對Internet進行系統、全面的遍歷,將分布在不同Web服務器上的信息資源收集下載到本地存儲在臨時文檔數據庫中;索引器對下載的文檔進行預處理,依據所使用的檢索模型對文檔進行形式化表示,建立索引后存儲在索引數據庫中以提高系統的檢索效率;用戶接口依據所使用的Web信息檢索模型對用戶提交的查詢進行分析,并由檢索器在索引庫中查找匹配文檔,計算各個文檔與查詢的相關度;最后,將相關的文檔按照相關度遞減的順序排列作為檢索結果返回給用戶。其結構如圖1所示[7]。

1.2 搜索引擎的缺陷
1.2.1 邏輯運算符
現有的搜索引擎提供的提問函數是相當有限的,大多數的搜索引擎只提供關鍵詞間最基本的布爾連接。例如Yahoo只提供AND和OR運算,并且一旦選用了一個邏輯運算符,它必須應用于所有的關鍵詞。OpenTextIndex允許用戶用不同的布爾運算符,但僅運行4個運算符且必須按出現次序運算。像SQL語言那樣復雜的查詢語言在現有的搜索引擎中還不能應用。
1.2.2 僅使用關鍵詞提問
現有的搜索引擎僅允許用一組關鍵詞及邏輯運算符組成提問。但關鍵詞檢索不能完全滿足用戶的要求,而且它是一種盲目的匹配。而自然語言理解又是非常困難的任務,現在仍在研究之中。
1.2.3 簡單的結果表示方法
大多數的搜索引擎都只返回一張長長的檢索結果表,一般有好幾頁。該表中可能包含成千上萬個指向Web站點的鏈接指針。用戶可能只選擇一小部分,而放棄其余部分。因為用戶不可能有這么好的耐心。結果是他們可能丟失了很多有用的信息。
1.2.4 單個引擎的限制
由于現在Web上的信息量變得越來越大,單個搜索引擎不可能包括整個網絡的軌跡。索引機器人的能力,索引數據庫的大小,系統維護開銷等,都限制了一個搜索引擎的能力,因此,用戶必須嘗試用所有搜索引擎去找出他所要的信息。最壞的是每個引擎互相覆蓋,用戶會重復發現一條信息。現在已出現了一些解決方法,如元搜索引擎和分布式搜索引擎。
1.2.5 不能利用檢索歷史信息
用戶的每次檢索都是從頭開始的檢索,不能從原有的查詢結果中作進一步的提煉。
1.3 網絡信息檢索的發展方向
通過上面的分析可以看出,當前搜索引擎所使用的技術都難以解決“找信息難”的問題。造成這種困難的實質在于搜索引擎缺乏知識處理能力和理解能力,對要檢索的信息僅僅采用機械的關鍵詞匹配來實現,對所檢索到的結果只經過簡單的處理就直接送給用戶,由用戶自己逐個瀏覽取舍。
如何使WEB信息檢索的智能化程度更高,更能滿足用戶的需求,一個很有發展潛力的方法就是:將WEB數據挖掘技術引入到WEB信息檢索領域中來。下面,將概括介紹一下WEB數據挖掘技術,以及WEB數據挖掘和WEB信息檢索的關系。
2 WEB數據挖掘
數據挖掘(Data Mining)是指從大量的數據中挖掘那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識,它是一門涉及面很廣的交叉學科。WEB挖掘[8]從數據挖掘發展而來,但是,WEB挖掘與傳統的數據挖掘相比有許多獨特之處。WEB挖掘是指從大量、異質、分布的WEB文檔的集合中抽取感興趣的、有用的模式和隱含信息。
一般地,WEB挖掘可分為三類[9]:WEB內容挖掘(WEB Content Mining)、WEB結構挖掘(WEB Structure Mining)和WEB使用記錄的挖掘(WEB Usage Mining)。
2.1 WEB內容挖掘
WEB內容挖掘是從文檔內容或其描述中抽取知識的過程。由于WEB文檔絕大部分內容是以文本形式存在,所以WEB內容挖掘主要針對的是WEB文檔的文本部分。文本挖掘主要包括直接對WEB頁面文檔內容以及搜索引擎的查詢結果進行文本的總結、分類、聚類、關聯分析等。除了文本數據挖掘以外,還有針對多媒體數據等的挖掘。
2.2 WEB結構挖掘
WEB結構挖掘是從WWW的組織結構和鏈接關系中推導知識。由于文檔之間的互連,WWW能夠提供除文檔內容之外的有用信息。利用這些信息,可以對頁面進行排序,發現重要的頁面。
2.3 WEB使用記錄的挖掘
WEB使用記錄挖掘的主要目標則是從WEB的訪問記錄中抽取感興趣的模式。WWW中的每個服務器都保留了訪問日志(WEB Access Log),記錄了關于用戶訪問和交互的信息。分析這些數據可以幫助理解用戶的行為,從而改進站點的結構,或為用戶提供個性化的服務。
WEB數據挖掘和WEB信息檢索是2種不同的技術,WEB數據挖掘是數據挖掘領域的一個分支,屬于知識發現的范圍,而WEB信息檢索是以檢索信息為目的的,屬于信息查詢的范圍,從這個角度上來看,WEB數據挖掘技術的層次要比WEB信息檢索高。但是因為WEB內容和結構特有的復雜性,使得WEB數據挖掘和WEB信息檢索之間的界限并不像數據庫領域中的數據挖掘和數據查詢之間的界限那樣直觀分明。我們可以通過對數據挖掘若干技術的研究,來解決WEB信息檢索中搜索引擎的模型,WEB上文本信息的預處理(即:文本分類),WEB上的知識發現及對WEB上已經獲得知識的維護等問題,所以說WEB數據挖掘技術是WEB信息檢索智能化的重要發展方向。
3 一個新的搜索引擎結構模型
按照搜索引擎的結構模型不同,目前搜索引擎系統可以分為兩大類:兩層結構(客戶/服務器)、三層結構(客戶/中間層/服務器),如圖2、3所示。但是,由于這些模型的缺陷,它們所構造的搜索引擎并不能滿足用戶需求。

這里我們建立一個新的模型,如圖4所示,其結構是三層,但是它的工作方式界于兩層和三層之間,所以這里稱該模型為混合模型。它的工作方式是首先在客戶端根據用戶在用戶界面輸入的查詢信息,由Agent判斷個性化知識庫中是否含有相關知識,如有則構成查詢語句后提交給服務器端,如果無則與中間層的Agent相聯系,由Agent通過通用知識庫來獲得相關知識并加入個性化知識庫,然后構成查詢語句后提交給服務器端,由服務器查詢并將結果返回給客戶端的Agent,由它處理后給用戶界面,并根據用戶的使用來更新個性化知識庫,這個過程隨著用戶查詢不斷進行,逐漸完善用戶的個性化知識庫。

實現此模型關鍵是依靠WEB挖掘中的一些技術。
3.1 數據分類技術
將WWW上的資源進行分類,一方面利于資源管理,同時在查詢時可以縮小范圍,進行快速查詢;另一方面有利于構建知識庫,避免了多義詞問題。例如:“美洲豹”在動物類中,我們知道它一定是一個動物的種類;如果在汽車類中,可以知道它是一個汽車品牌;在足球比賽中,可以知道,它一定是一個球隊名字。因此在一個詞在類中,好比它有了上下文,因此在很大程度上解決了多義詞的問題。針對WWW上的數據特點,可以采用適應非在線和在線不同情況的分類算法。
3.2 關聯規則
關聯規則是發現大量數據中項目集合之間的關聯或相關關系。它應用到WWW上,可以有助于發現用戶的行為,從而有利于方便建立用戶的知識庫。
模型中對發現關聯規則加上時間這個因素,可以發現周期性關聯規則。同時由于數據挖掘目的是從大量的數據中找到數據之間的關系,但矛盾的是在數據挖掘的結果中卻會產生許多規律,從而產生另一個新的知識管理問題。為了處理該問題,可以對已發現的規則進行修剪和分組,以更好地對已發現的規律進行的理解,同時可以保證知識庫數據中正確和少冗余。
3.3 知識庫維護
對于知識庫中的數據維護技術已經有很多,這里可以采用序列模式的維護。利用樣品抽樣的方法來評估序列模式改變的程度,并根據改變的程度決定何時對整個數據庫進行操作來更新序列模式,從而較好地解決了序列模式維護的問題。
這里同時必須注意到,要想使搜索引擎更好的工作,必須得利用數據挖掘的一些技術挖掘得知識,而要想充分發揮數據挖掘得作用,還需要更多更好得有關數據,這一定依賴于WWW網站的應用服務器的設計。它能更好的收集數據提供給數據挖掘用,同時數據挖掘不僅提供知識給我們建立知識庫,同時也可以幫助組織網站的內容以更好發
揮網站的功能。
4 結束語
隨著網絡的不斷發展,以及WEB信息的激增,如何快速、高效、準確地檢索網絡信息變得越來越重要,WEB信息檢索的發展越來越需要借助各種技術來進一步推動。作為數據挖掘一個重要研究分支的WEB數據挖掘,由于它具有比WEB信息檢索更高的技術層次,同時又與WEB信息檢索的關系非常密切,對WEB信息檢索有很大借鑒作用,所以可以通過應用WEB數據挖掘技術的研究成果到WEB信息檢索領域中,提高WEB信息檢索的智能處理能力,使得WEB信息檢索發展到一個新的水平。
參考文獻
[1]劉俊熙,吳英.信息檢索和網絡數據挖掘技術的比較分析[J].圖書館學刊,2005,(6):111-113.
[2]苑兆忠,姜華.Web挖掘技術在信息檢索中的應用研究[J].聊城大學學報:自然科學版,2006,19(1):74-77.
[3]章俊玲.基于多Agent的智能信息檢索技術研究[J].浙江工商職業技術學院學報,2007,6(1):39-41.
[4]Pokorny,J.Web searching and information retrieval[J].Computing in Science Engineer-Ing,2004,6(4):43-48.
[5]封鋒.網絡信息檢索現狀研究綜述[J].科技文獻信息管理,2007,(1):16-18.
[6]張輝,趙需要.因特網信息檢索模式及其優化設想[J].情報科學,2007,25(1):77-81.
[7]徐敏.基于數據挖掘的Web信息檢索研究[D].南京:南京航空航天大學,2006.
[8]韓家煒,孟小峰.Web挖掘研究[J].計算機研究與發展,2001,38(4):405-414.
[9]劉振巖,王萬森,陳立.WEB信息檢索與WEB數據挖掘[J].微機發展,2003,13(7):66-68.