網(wǎng)頁智能搜索數(shù)據(jù)挖掘的主要任務(wù)

2007-08-25 01:30:42方鋮王琦

智能計算機與應(yīng)用 2007年4期

方　鋮　王　琦

摘要：介紹了用于網(wǎng)頁智能搜索的數(shù)據(jù)挖掘技術(shù)以及如何創(chuàng)建多維的網(wǎng)頁語義數(shù)據(jù)庫。

關(guān)鍵詞：智能搜索語義結(jié)構(gòu)數(shù)據(jù)挖掘

網(wǎng)頁搜索引擎的基礎(chǔ)是基于關(guān)鍵字的索引，而將數(shù)據(jù)挖掘用于網(wǎng)頁分類則是對基于關(guān)鍵字索引的一個有力的補充。數(shù)據(jù)挖掘可以幫助網(wǎng)頁搜索引擎發(fā)現(xiàn)更高質(zhì)量的網(wǎng)頁，并且提高網(wǎng)頁點擊流的分析質(zhì)量。然而，為了使網(wǎng)頁發(fā)揮它的最大潛能，我們必須改進它的服務(wù)，使它更加方便理解，并且增加它的可用性。

1設(shè)計難點

如何設(shè)計智能化的網(wǎng)頁是主要難題之一，需要解決兩個基本問題：在抽象層上，用來訪問網(wǎng)頁上的海量數(shù)據(jù)的傳統(tǒng)模式面向的是基于文本、基于關(guān)鍵字的網(wǎng)頁視圖，而我們認為面向數(shù)據(jù)的網(wǎng)頁視圖將更加有效；第二：在服務(wù)層次上，我們必須用能夠遍歷整個網(wǎng)絡(luò)的更加全面的訪問模式來取代現(xiàn)有的原始的訪問模式。

2網(wǎng)頁數(shù)據(jù)挖掘工作任務(wù)

如果我們想要有效地利用數(shù)據(jù)挖掘技術(shù)來開發(fā)網(wǎng)頁搜索智能，就必須完成如下幾個工作任務(wù)。

(1)對網(wǎng)頁搜索引擎數(shù)據(jù)進行數(shù)據(jù)挖掘

基于索引的網(wǎng)頁搜索引擎在網(wǎng)絡(luò)上運行，對網(wǎng)頁創(chuàng)建索引，創(chuàng)建并且存儲大量的基于關(guān)鍵字的索引，以幫助定位包含某些特定關(guān)鍵字的網(wǎng)頁。

基于關(guān)鍵字的搜索引擎存在如下二個缺陷：第一，一個范圍稍微大一些的主題會包含數(shù)十萬個結(jié)果文檔。這樣搜索引擎會返回大量的文檔，其中很多與主題關(guān)系不大，包含的有用信息很少；第二，很多高度相關(guān)的文檔可能并不顯式地包含關(guān)鍵字，這種現(xiàn)象可能是一詞多義引起的。

基于以上這些因素，可以把數(shù)據(jù)挖掘和網(wǎng)頁搜索引擎結(jié)合起來，這樣能提高網(wǎng)頁搜索質(zhì)量。網(wǎng)頁鏈接和網(wǎng)頁動態(tài)分析為如何發(fā)現(xiàn)高質(zhì)量的文檔提供了基礎(chǔ)。

(2)分析網(wǎng)頁鏈接結(jié)構(gòu)

權(quán)威頁面的秘密隱藏在網(wǎng)頁鏈接中。這些超鏈接包含了大量的最新的人們對網(wǎng)頁所做的標記，它們能夠幫助網(wǎng)頁搜索自動地找到權(quán)威的頁面，當(dāng)一個網(wǎng)頁的作者創(chuàng)建了一個指向另一個頁面的超鏈接的時候，這一行為可以認為是對另一個頁面的認可。如果不同的作者都認可同一個頁面，這就表示這個頁面很重要，這樣自然就產(chǎn)生了權(quán)威的頁面。所以說網(wǎng)頁的超鏈接數(shù)據(jù)提供了一個非常豐富的用于網(wǎng)頁搜索數(shù)據(jù)挖掘的數(shù)據(jù)源。然而不是每個超鏈接都表示對該頁面的認可，頁面作者有時候會出于其它的目的創(chuàng)建超鏈接，例如做廣告，但是，從整體上來說，如果大多數(shù)的超鏈接都代表一種認可的話，那么集體的意見還是能占主流。另外屬于商業(yè)性質(zhì)或者帶有競爭目的的網(wǎng)頁很少會有指向其競爭對手的超鏈接。權(quán)威的頁面也很少會有說明式描述。

網(wǎng)絡(luò)鏈接結(jié)構(gòu)的這些特點，研究者們開始考慮另一種重要的網(wǎng)頁類型：Hub頁面。Hub頁面指的是一組網(wǎng)頁，它們包含了指向一組權(quán)威網(wǎng)頁的超鏈接。也許這些Hub頁面并不是很重要，也只有很少幾個超鏈接引用到它們，然而它們卻提供了指向有關(guān)于某個主題的一組關(guān)鍵網(wǎng)站的鏈接。

通常，一個好的Hub網(wǎng)頁指向很多好的權(quán)威的網(wǎng)頁，反過來，一個網(wǎng)頁被多個Hub網(wǎng)頁引用，則可以認為它是一個好的權(quán)威網(wǎng)頁。Hub頁面和權(quán)威頁面之間這種相互確認的關(guān)系可以幫助用戶對權(quán)威網(wǎng)頁進行數(shù)據(jù)挖掘，從而自動地發(fā)現(xiàn)高質(zhì)量的網(wǎng)頁結(jié)構(gòu)和資源。

研究者們依據(jù)這種辨別權(quán)威網(wǎng)頁和Hub網(wǎng)頁的方法開發(fā)了PageRankPl和HITSl31算法。一些商業(yè)網(wǎng)頁搜索引擎，例如Coogle，就是用這些方法構(gòu)建的。通過分析網(wǎng)頁鏈接和上下文信息，這些系統(tǒng)能夠產(chǎn)生更高質(zhì)量的搜索結(jié)果。

(3)自動給網(wǎng)頁文檔分類

類，我們還是希望能夠自動進行分類。典型的分類方法利用正面和反面的例子作為訓(xùn)練集，然后給每個文檔分配一個類別標簽，這些標簽來自于基于預(yù)先分類的文檔示例的一組預(yù)定義的主題分類。

與其他的分類模式不同，自動分類模式通常不能定義反面的示例。如，我們只知道某個預(yù)分類好的文檔屬于哪個類別，但不知道某個類別不包含哪些文檔。因此，網(wǎng)頁分類模式通常不需要顯式地標注反面的示例。

(4)網(wǎng)頁語義結(jié)構(gòu)和頁面內(nèi)容數(shù)據(jù)挖掘

目前，對自然語言進行自動解析還存在種種限制，全自動地抽取網(wǎng)頁結(jié)構(gòu)和語義內(nèi)容還是很困難的，然而，半自動的方法已經(jīng)能夠識別大部分的網(wǎng)頁語義結(jié)構(gòu)。專家可能還需要定義一種特定的頁面類型包含哪些類型的結(jié)構(gòu)和語義內(nèi)容。接著，頁面結(jié)構(gòu)抽取系統(tǒng)就可以分析網(wǎng)頁看看它的一個片斷的內(nèi)容是否能夠套用某個語義結(jié)構(gòu)。開發(fā)者還可以測試用戶反饋來提高訓(xùn)練和測試的過程并且改進所抽取的網(wǎng)頁結(jié)構(gòu)和語義內(nèi)容的質(zhì)量。

(5)網(wǎng)頁動態(tài)性數(shù)據(jù)挖掘

網(wǎng)頁數(shù)據(jù)挖掘也能夠發(fā)現(xiàn)網(wǎng)頁的動態(tài)性一網(wǎng)頁的內(nèi)容、結(jié)構(gòu)和訪問方式如何發(fā)生變化。存儲與網(wǎng)頁搜索數(shù)據(jù)挖掘參數(shù)相關(guān)的歷史信息能夠幫助發(fā)現(xiàn)網(wǎng)頁內(nèi)容和鏈接的變化。我們可以比較不同時間的鏡像來發(fā)現(xiàn)網(wǎng)頁有哪些更新。與關(guān)系數(shù)據(jù)庫系統(tǒng)不同，網(wǎng)頁涉及面很廣，存儲了海量的信息，基本不可能系統(tǒng)地存儲歷史鏡像或者是更新日志。這些限制使得發(fā)現(xiàn)網(wǎng)頁的動態(tài)變化幾乎不可行。而另一方面，對網(wǎng)頁訪問活動進行數(shù)據(jù)挖掘則是可行的，而且在很多應(yīng)用中，它也是有用的。

有了這項技術(shù)，用戶可以對網(wǎng)頁的日志記錄進行數(shù)據(jù)挖掘，從而發(fā)現(xiàn)網(wǎng)頁訪問模式。分析網(wǎng)頁日志記錄中的規(guī)律性可以提高互聯(lián)網(wǎng)信息服務(wù)質(zhì)量，并幫助把這些信息傳遞到終端用戶，改善網(wǎng)頁服務(wù)器系統(tǒng)的性能，并且識別出電子商務(wù)潛在的客戶。

研究者們已經(jīng)利用這些網(wǎng)頁日志文件來分析系統(tǒng)性能，通過網(wǎng)頁高速緩沖、網(wǎng)頁預(yù)取和交換來改進系統(tǒng)設(shè)計，確定網(wǎng)頁吞吐量，評估用戶對網(wǎng)站設(shè)計的認可度。

網(wǎng)頁日志分析還可以幫助為每個用戶構(gòu)建可定制的網(wǎng)頁服務(wù)。由于網(wǎng)頁日志數(shù)據(jù)提供了關(guān)于某些特定網(wǎng)頁的流行程度和訪問方法的信息，這些信息可以和網(wǎng)頁內(nèi)容和鏈接結(jié)構(gòu)信息結(jié)合起來，對它們進行數(shù)據(jù)挖掘，能夠幫助給網(wǎng)頁定級、給網(wǎng)頁文檔分類，并構(gòu)建一個多層次的網(wǎng)頁信息庫。

(6)創(chuàng)建多層次、多維的網(wǎng)頁

通過如下三個主要步驟來創(chuàng)建并且使用多維網(wǎng)頁：

第一步，系統(tǒng)分析一組網(wǎng)頁，包括對網(wǎng)頁內(nèi)容、結(jié)構(gòu)、鏈接和使用模式的分析，進行分析的目的是：將一組高度相關(guān)的本地頁面組成一個集群，稱為語義網(wǎng)頁；如果一個單獨的網(wǎng)頁組成一個獨立的集群，則把這一個網(wǎng)頁作為語義網(wǎng)頁。分析完成后，會為每個語義網(wǎng)頁產(chǎn)生一個描述符，包含了創(chuàng)建網(wǎng)頁目錄時需要用到的一組關(guān)鍵的特性。

第二步，基于專家提供的本體和網(wǎng)頁語義描述符數(shù)據(jù)庫，構(gòu)造一個基于語義的、自適應(yīng)的、多層次的多維的網(wǎng)頁信息目錄。可以利用這個目錄系統(tǒng)來提供查詢和信息服務(wù)、信息分析和數(shù)據(jù)挖掘，構(gòu)建一個多層次的網(wǎng)頁信息庫來方便互聯(lián)網(wǎng)上的資源發(fā)現(xiàn)，多維分析和數(shù)據(jù)挖掘。

3結(jié)束語

網(wǎng)頁智能搜索的數(shù)據(jù)挖掘?qū)⒊蔀榫W(wǎng)頁技術(shù)的一個重要研究方向，全面的利用網(wǎng)絡(luò)上的海量信息，才能把網(wǎng)頁變成我們很容易共享的更豐富、更友好也更智能的數(shù)據(jù)源。