〔摘 要〕首先對網(wǎng)絡(luò)環(huán)境下信息檢索的現(xiàn)狀進(jìn)行分析,主要介紹網(wǎng)絡(luò)信息檢索的代表工具—搜索引擎的工作原理、缺陷及發(fā)展方向,引出數(shù)據(jù)挖掘技術(shù),并進(jìn)一步對WEB數(shù)據(jù)挖掘技術(shù)作了概要的介紹,闡明WEB數(shù)據(jù)挖掘技術(shù)是網(wǎng)絡(luò)信息檢索智能化的重要發(fā)展方向之一。最后,提出一個結(jié)合數(shù)據(jù)挖掘技術(shù)的新的搜索引擎結(jié)構(gòu)模型。
〔關(guān)鍵詞〕信息檢索;搜索引擎;WEB數(shù)據(jù)挖掘
〔中圖分類號〕G250.73 〔文獻(xiàn)標(biāo)識碼〕B 〔文章編號〕1008-0821(2009)05-0144-03
Information Retrieval and Data Mining in the Network EnvironmentChen Wei Ruan Haihong
(Library,Zhejiang University of Media and Communications,Hangzhou 310018,China)
〔Abstract〕Based on the analysis of information retrieval in the network environment,this paper introduced the working principle,defects and development of search engine which was a kind of typical tools of information retrieval.Then,data mining and its applications in the web were introduced.It was illuminated that web data mining technology was an important development of intelligentized information retrieval.A new search engine structure model which was combined with data mining was presented in the end.
〔Keywords〕information retrieval;search engine;WEB data mining
隨著網(wǎng)絡(luò)應(yīng)用的普及,網(wǎng)上信息量以驚人的速度增長。網(wǎng)絡(luò)信息資源具有數(shù)量巨大,增長迅速,形式多樣,分布廣泛,結(jié)構(gòu)復(fù)雜等特點。人們面對的問題不再是缺乏有用信息,而是如何高效地找到自己所需要的信息。但目前的現(xiàn)狀是“數(shù)據(jù)豐富,但信息貧乏”,人們迫切需要能夠從網(wǎng)絡(luò)上快速、有效地發(fā)現(xiàn)資源和知識的工具。
網(wǎng)絡(luò)搜索引擎的出現(xiàn)部分地解決了資源發(fā)現(xiàn)問題,但是它檢索效率低,往往會返回給用戶成千上萬個檢索到的網(wǎng)頁,存在大量的隱性信息,其中很大一部分與用戶的檢索要求無關(guān),用戶不能快速、準(zhǔn)確地得到所需的有價值的信息,無法滿足用戶個性化的需求。此外,搜索引擎的目的在于發(fā)現(xiàn)網(wǎng)絡(luò)上的資源,就網(wǎng)絡(luò)上的知識發(fā)現(xiàn)而言,即使檢索精度再高,搜索引擎也不能夠勝任。因此,人們需要比信息檢索層次更高的、能包含網(wǎng)絡(luò)數(shù)據(jù)庫在內(nèi)的新的數(shù)據(jù)挖掘技術(shù),以更有效的手段對各種大量數(shù)據(jù)進(jìn)行挖掘并發(fā)揮其潛能[1]。……