〔摘 要〕首先對網絡環境下信息檢索的現狀進行分析,主要介紹網絡信息檢索的代表工具—搜索引擎的工作原理、缺陷及發展方向,引出數據挖掘技術,并進一步對WEB數據挖掘技術作了概要的介紹,闡明WEB數據挖掘技術是網絡信息檢索智能化的重要發展方向之一。最后,提出一個結合數據挖掘技術的新的搜索引擎結構模型。
〔關鍵詞〕信息檢索;搜索引擎;WEB數據挖掘
〔中圖分類號〕G250.73 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)05-0144-03
Information Retrieval and Data Mining in the Network EnvironmentChen Wei Ruan Haihong
(Library,Zhejiang University of Media and Communications,Hangzhou 310018,China)
〔Abstract〕Based on the analysis of information retrieval in the network environment,this paper introduced the working principle,defects and development of search engine which was a kind of typical tools of information retrieval.Then,data mining and its applications in the web were introduced.It was illuminated that web data mining technology was an important development of intelligentized information retrieval.A new search engine structure model which was combined with data mining was presented in the end.
〔Keywords〕information retrieval;search engine;WEB data mining
隨著網絡應用的普及,網上信息量以驚人的速度增長。網絡信息資源具有數量巨大,增長迅速,形式多樣,分布廣泛,結構復雜等特點。人們面對的問題不再是缺乏有用信息,而是如何高效地找到自己所需要的信息。但目前的現狀是“數據豐富,但信息貧乏”,人們迫切需要能夠從網絡上快速、有效地發現資源和知識的工具。
網絡搜索引擎的出現部分地解決了資源發現問題,但是它檢索效率低,往往會返回給用戶成千上萬個檢索到的網頁,存在大量的隱性信息,其中很大一部分與用戶的檢索要求無關,用戶不能快速、準確地得到所需的有價值的信息,無法滿足用戶個性化的需求。此外,搜索引擎的目的在于發現網絡上的資源,就網絡上的知識發現而言,即使檢索精度再高,搜索引擎也不能夠勝任。因此,人們需要比信息檢索層次更高的、能包含網絡數據庫在內的新的數據挖掘技術,以更有效的手段對各種大量數據進行挖掘并發揮其潛能[1]。……