方 鋮 王 琦
摘要:介紹了用于網(wǎng)頁智能搜索的數(shù)據(jù)挖掘技術(shù)以及如何創(chuàng)建多維的網(wǎng)頁語義數(shù)據(jù)庫。
關(guān)鍵詞:智能搜索語義結(jié)構(gòu)數(shù)據(jù)挖掘
網(wǎng)頁搜索引擎的基礎(chǔ)是基于關(guān)鍵字的索引,而將數(shù)據(jù)挖掘用于網(wǎng)頁分類則是對基于關(guān)鍵字索引的一個有力的補充。數(shù)據(jù)挖掘可以幫助網(wǎng)頁搜索引擎發(fā)現(xiàn)更高質(zhì)量的網(wǎng)頁,并且提高網(wǎng)頁點擊流的分析質(zhì)量。然而,為了使網(wǎng)頁發(fā)揮它的最大潛能,我們必須改進它的服務(wù),使它更加方便理解,并且增加它的可用性。
1設(shè)計難點
如何設(shè)計智能化的網(wǎng)頁是主要難題之一,需要解決兩個基本問題:在抽象層上,用來訪問網(wǎng)頁上的海量數(shù)據(jù)的傳統(tǒng)模式面向的是基于文本、基于關(guān)鍵字的網(wǎng)頁視圖,而我們認為面向數(shù)據(jù)的網(wǎng)頁視圖將更加有效;第二:在服務(wù)層次上,我們必須用能夠遍歷整個網(wǎng)絡(luò)的更加全面的訪問模式來取代現(xiàn)有的原始的訪問模式。
2網(wǎng)頁數(shù)據(jù)挖掘工作任務(wù)
如果我們想要有效地利用數(shù)據(jù)挖掘技術(shù)來開發(fā)網(wǎng)頁搜索智能,就必須完成如下幾個工作任務(wù)。
(1)對網(wǎng)頁搜索引擎數(shù)據(jù)進行數(shù)據(jù)挖掘
基于索引的網(wǎng)頁搜索引擎在網(wǎng)絡(luò)上運行,對網(wǎng)頁創(chuàng)建索引,創(chuàng)建并且存儲大量的基于關(guān)鍵字的索引,以幫助定位包含某些特定關(guān)鍵字的網(wǎng)頁。
基于關(guān)鍵字的搜索引擎存在如下二個缺陷:第一,一個范圍稍微大一些的主題會包含數(shù)十萬個結(jié)果文檔。這樣搜索引擎會返回大量的文檔,其中很多與主題關(guān)系不大,包含的有用信息很少;第二,很多高度相關(guān)的文檔可能并不顯式地包含關(guān)鍵字,這種現(xiàn)象可能是一詞多義引起的。
基于以上這些因素,可以把數(shù)據(jù)挖掘和網(wǎng)頁搜索引擎結(jié)合起來,這樣能提高網(wǎng)頁搜索質(zhì)量。網(wǎng)頁鏈接和網(wǎng)頁動態(tài)分析為如何發(fā)現(xiàn)高質(zhì)量的文檔提供了基礎(chǔ)。
(2)分析網(wǎng)頁鏈接結(jié)構(gòu)
權(quán)威頁面的秘密隱藏在網(wǎng)頁鏈接中。這些超鏈接包含了大量的最新的人們對網(wǎng)頁所做的標記,它們能夠幫助網(wǎng)頁搜索自動地找到權(quán)威的頁面,當(dāng)一個網(wǎng)頁的作者創(chuàng)建了一個指向另一個頁面的超鏈接的時候,這一行為可以認為是對另一個頁面的認可。如果不同的作者都認可同一個頁面,這就表示這個頁面很重要,這樣自然就產(chǎn)生了權(quán)威的頁面。所以說網(wǎng)頁的超鏈接數(shù)據(jù)提供了一個非常豐富的用于網(wǎng)頁搜索數(shù)據(jù)挖掘的數(shù)據(jù)源。然而不是每個超鏈接都表示對該頁面的認可,頁面作者有時候會出于其它的目的創(chuàng)建超鏈接,例如做廣告,但是,從整體上來說,如果大多數(shù)的超鏈接都代表一種認可的話,那么集體的意見還是能占主流。另外屬于商業(yè)性質(zhì)或者帶有競爭目的的網(wǎng)頁很少會有指向其競爭對手的超鏈接。權(quán)威的頁面也很少會有說明式描述。
網(wǎng)絡(luò)鏈接結(jié)構(gòu)的這些特點,研究者們開始考慮另一種重要的網(wǎng)頁類型:Hub頁面。Hub頁面指的是一組網(wǎng)頁,它們包含了指向一組權(quán)威網(wǎng)頁的超鏈接。也許這些Hub頁面并不是很重要,也只有很少幾個超鏈接引用到它們,然而它們卻提供了指向有關(guān)于某個主題的一組關(guān)鍵網(wǎng)站的鏈接。
通常,一個好的Hub網(wǎng)頁指向很多好的權(quán)威的網(wǎng)頁,反過來,一個網(wǎng)頁被多個Hub網(wǎng)頁引用,則可以認為它是一個好的權(quán)威網(wǎng)頁。Hub頁面和權(quán)威頁面之間這種相互確認的關(guān)系可以幫助用戶對權(quán)威網(wǎng)頁進行數(shù)據(jù)挖掘,從而自動地發(fā)現(xiàn)高質(zhì)量的網(wǎng)頁結(jié)構(gòu)和資源。
研究者們依據(jù)這種辨別權(quán)威網(wǎng)頁和Hub網(wǎng)頁的方法開發(fā)了PageRankPl和HITSl31算法。一些商業(yè)網(wǎng)頁搜索引擎,例如Coogle,就是用這些方法構(gòu)建的。通過分析網(wǎng)頁鏈接和上下文信息,這些系統(tǒng)能夠產(chǎn)生更高質(zhì)量的搜索結(jié)果。
(3)自動給網(wǎng)頁文檔分類
類,我們還是希望能夠自動進行分類。典型的分類方法利用正面和反面的例子作為訓(xùn)練集,然后給每個文檔分配一個類別標簽,這些標簽來自于基于預(yù)先分類的文檔示例的一組預(yù)定義的主題分類。
與其他的分類模式不同,自動分類模式通常不能定義反面的示例。如,我們只知道某個預(yù)分類好的文檔屬于哪個類別,但不知道某個類別不包含哪些文檔。因此,網(wǎng)頁分類模式通常不需要顯式地標注反面的示例。
(4)網(wǎng)頁語義結(jié)構(gòu)和頁面內(nèi)容數(shù)據(jù)挖掘
目前,對自然語言進行自動解析還存在種種限制,全自動地抽取網(wǎng)頁結(jié)構(gòu)和語義內(nèi)容還是很困難的,然而,半自動的方法已經(jīng)能夠識別大部分的網(wǎng)頁語義結(jié)構(gòu)。專家可能還需要定義一種特定的頁面類型包含哪些類型的結(jié)構(gòu)和語義內(nèi)容。接著,頁面結(jié)構(gòu)抽取系統(tǒng)就可以分析網(wǎng)頁看看它的一個片斷的內(nèi)容是否能夠套用某個語義結(jié)構(gòu)。開發(fā)者還可以測試用戶反饋來提高訓(xùn)練和測試的過程并且改進所抽取的網(wǎng)頁結(jié)構(gòu)和語義內(nèi)容的質(zhì)量。
(5)網(wǎng)頁動態(tài)性數(shù)據(jù)挖掘
網(wǎng)頁數(shù)據(jù)挖掘也能夠發(fā)現(xiàn)網(wǎng)頁的動態(tài)性一網(wǎng)頁的內(nèi)容、結(jié)構(gòu)和訪問方式如何發(fā)生變化。存儲與網(wǎng)頁搜索數(shù)據(jù)挖掘參數(shù)相關(guān)的歷史信息能夠幫助發(fā)現(xiàn)網(wǎng)頁內(nèi)容和鏈接的變化。我們可以比較不同時間的鏡像來發(fā)現(xiàn)網(wǎng)頁有哪些更新。與關(guān)系數(shù)據(jù)庫系統(tǒng)不同,網(wǎng)頁涉及面很廣,存儲了海量的信息,基本不可能系統(tǒng)地存儲歷史鏡像或者是更新日志。這些限制使得發(fā)現(xiàn)網(wǎng)頁的動態(tài)變化幾乎不可行。而另一方面,對網(wǎng)頁訪問活動進行數(shù)據(jù)挖掘則是可行的,而且在很多應(yīng)用中,它也是有用的。
有了這項技術(shù),用戶可以對網(wǎng)頁的日志記錄進行數(shù)據(jù)挖掘,從而發(fā)現(xiàn)網(wǎng)頁訪問模式。分析網(wǎng)頁日志記錄中的規(guī)律性可以提高互聯(lián)網(wǎng)信息服務(wù)質(zhì)量,并幫助把這些信息傳遞到終端用戶,改善網(wǎng)頁服務(wù)器系統(tǒng)的性能,并且識別出電子商務(wù)潛在的客戶。
研究者們已經(jīng)利用這些網(wǎng)頁日志文件來分析系統(tǒng)性能,通過網(wǎng)頁高速緩沖、網(wǎng)頁預(yù)取和交換來改進系統(tǒng)設(shè)計,確定網(wǎng)頁吞吐量,評估用戶對網(wǎng)站設(shè)計的認可度。
網(wǎng)頁日志分析還可以幫助為每個用戶構(gòu)建可定制的網(wǎng)頁服務(wù)。由于網(wǎng)頁日志數(shù)據(jù)提供了關(guān)于某些特定網(wǎng)頁的流行程度和訪問方法的信息,這些信息可以和網(wǎng)頁內(nèi)容和鏈接結(jié)構(gòu)信息結(jié)合起來,對它們進行數(shù)據(jù)挖掘,能夠幫助給網(wǎng)頁定級、給網(wǎng)頁文檔分類,并構(gòu)建一個多層次的網(wǎng)頁信息庫。
(6)創(chuàng)建多層次、多維的網(wǎng)頁
通過如下三個主要步驟來創(chuàng)建并且使用多維網(wǎng)頁:
第一步,系統(tǒng)分析一組網(wǎng)頁,包括對網(wǎng)頁內(nèi)容、結(jié)構(gòu)、鏈接和使用模式的分析,進行分析的目的是:將一組高度相關(guān)的本地頁面組成一個集群,稱為語義網(wǎng)頁;如果一個單獨的網(wǎng)頁組成一個獨立的集群,則把這一個網(wǎng)頁作為語義網(wǎng)頁。分析完成后,會為每個語義網(wǎng)頁產(chǎn)生一個描述符,包含了創(chuàng)建網(wǎng)頁目錄時需要用到的一組關(guān)鍵的特性。
第二步,基于專家提供的本體和網(wǎng)頁語義描述符數(shù)據(jù)庫,構(gòu)造一個基于語義的、自適應(yīng)的、多層次的多維的網(wǎng)頁信息目錄。可以利用這個目錄系統(tǒng)來提供查詢和信息服務(wù)、信息分析和數(shù)據(jù)挖掘,構(gòu)建一個多層次的網(wǎng)頁信息庫來方便互聯(lián)網(wǎng)上的資源發(fā)現(xiàn),多維分析和數(shù)據(jù)挖掘。
3結(jié)束語
網(wǎng)頁智能搜索的數(shù)據(jù)挖掘?qū)⒊蔀榫W(wǎng)頁技術(shù)的一個重要研究方向,全面的利用網(wǎng)絡(luò)上的海量信息,才能把網(wǎng)頁變成我們很容易共享的更豐富、更友好也更智能的數(shù)據(jù)源。