999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網(wǎng)頁日志的頻繁模式挖掘

2010-04-12 00:00:00明,鄧玉芬,
現(xiàn)代電子技術(shù) 2010年9期

摘 要:頻繁模式挖掘應(yīng)用廣泛,是數(shù)據(jù)挖掘中的一個重點研究領(lǐng)域,頻繁模式挖掘應(yīng)用的其中一個領(lǐng)域就是基于網(wǎng)頁日志的數(shù)據(jù)挖掘。在網(wǎng)頁日志中發(fā)現(xiàn)頻繁模式的目的是獲得用戶的網(wǎng)絡(luò)瀏覽行為模式,這些信息可以為廣告設(shè)計以及創(chuàng)建動態(tài)用戶日志提供參考。從網(wǎng)頁數(shù)據(jù)挖掘的角度研究了三種頻繁模式挖掘方式,這三種方式分別是:網(wǎng)頁設(shè)置、網(wǎng)頁序列以及網(wǎng)頁圖片挖掘。

關(guān)鍵詞:模式挖掘; 序列挖掘; 圖形挖掘; 網(wǎng)頁日志挖掘

中圖分類號:TP29 文獻標識碼:A

文章編號:1004-373X(2010)09-0180-04

Frequent Pattern Mining in Web Log Data

SHEN Ming, DENG Yu-fen, ZHANG Bo

(Navy Oceanic Mapping and Survey Institute, Tianjing 300061, China)

Abstract: Frequent pattern mining is an important research field in data mining with wide application, one of the fields is the data mining based on Web log data. The aim of discovering frequent patterns in Web log data is to obtain information about the navigational behavior of the users, the information can provide references for advertising purpose and creating dynamic user profiles. Three pattern mining approaches are investigated from the Web data mining, the different patterns in Web log mining are page set, page sequence and page graphs mining.

Keywords: pattern mining; sequence mining; graph mining; Web log mining

0 引 言

萬維網(wǎng)提供了大量對用戶有用的數(shù)據(jù),不同類型的數(shù)據(jù)應(yīng)該組織成能夠被不同用戶有效使用的形式,因此,基于網(wǎng)頁的數(shù)據(jù)挖掘技術(shù)吸引了越來越多的研究人員。已有幾種數(shù)據(jù)挖掘方法應(yīng)用于挖掘隱藏在網(wǎng)頁中的信息,當(dāng)然算法需要進一步調(diào)整以適應(yīng)網(wǎng)頁數(shù)據(jù)的屬性。而且,不只是數(shù)據(jù)挖掘算法,還有人工智能,信息獲取,以及自然語言處理技術(shù)都可以在數(shù)據(jù)挖掘中得到有效應(yīng)用。因此,網(wǎng)頁挖掘技術(shù)已經(jīng)伸展到自動研究領(lǐng)域。

本文主要介紹基于網(wǎng)頁日志的幾種不同類型的數(shù)據(jù)挖掘技術(shù),這些挖掘技術(shù)用于挖掘隱藏在網(wǎng)頁中的不同的頻繁模式。包括:頻繁模式、序列態(tài)以及樹態(tài)。對于每個問題,都有相應(yīng)的算法,用于高效挖掘相應(yīng)的模態(tài)。頻繁模式(高頻網(wǎng)頁)挖掘采用文獻[1]中介紹的頻繁模式算法。頻繁模式算法的主要優(yōu)勢在于可以快速挖掘低頻繁模式頁,對于更高頻繁模式的挖掘效果也得到了增強。序列挖掘算法采用文獻[2]中介紹的SM-樹算法,其中可以有效發(fā)現(xiàn)樹型模式的算法稱之為PD樹算法。兩種算法都可以充分利用自動化理論發(fā)現(xiàn)其中的頻繁模式。SM樹算法采用狀態(tài)機發(fā)現(xiàn)序列模式,PD樹算法采用疊加自動機確定在樹形數(shù)據(jù)庫中三種模式。

1 網(wǎng)頁挖掘任務(wù)

網(wǎng)頁挖掘包括:從網(wǎng)頁數(shù)據(jù)中發(fā)現(xiàn)和提取信息;提供有效的機制以使數(shù)據(jù)訪問更加有效和匹配;從用戶行為中發(fā)現(xiàn)信息,用戶行為信息一般存儲在網(wǎng)頁日志中,比如網(wǎng)頁緩存[3]。因此網(wǎng)頁挖掘可以根據(jù)需要挖掘的信息分為三類[4-6],分別是:網(wǎng)頁內(nèi)容挖掘,網(wǎng)頁結(jié)構(gòu)挖掘和網(wǎng)頁使用方式挖掘。網(wǎng)頁挖掘的相關(guān)詳細研究請參考文獻[4-5,7-8]。

網(wǎng)頁內(nèi)容挖掘的任務(wù)是在線發(fā)現(xiàn)有用信息。對用戶有用的信息包括:多媒體數(shù)據(jù),結(jié)構(gòu)化(XML)和半結(jié)構(gòu)化數(shù)據(jù)(HTML),以及非結(jié)構(gòu)化數(shù)據(jù)(如文本)。網(wǎng)頁內(nèi)容挖掘的目的是建立一個幫助用戶發(fā)現(xiàn)他們需要的信息的機制。網(wǎng)頁內(nèi)容挖掘包括:組織和聚類文檔,提供相應(yīng)的引擎以便用戶通過相關(guān)的關(guān)鍵詞信息、分類信息以及內(nèi)容信息等獲取不同的文檔。

網(wǎng)頁結(jié)構(gòu)挖掘[9-12]的目的是發(fā)現(xiàn)內(nèi)嵌于網(wǎng)頁中超鏈接。實際上,網(wǎng)頁內(nèi)容挖掘關(guān)注文檔內(nèi)部信息,網(wǎng)頁結(jié)構(gòu)挖掘則關(guān)注文檔之間的鏈接結(jié)構(gòu)信息,其目的是為了標識相關(guān)主題的權(quán)威或者中心網(wǎng)頁。權(quán)威網(wǎng)頁包含了有用的信息,通過幾個鏈接指向它,這意味著這些網(wǎng)頁被引用頻度很高。一個擁有很多鏈接的網(wǎng)頁可以認為其內(nèi)容是有用的、更好的和可靠的。中心網(wǎng)頁是指包含許多到權(quán)威網(wǎng)頁的鏈接的頁面,因此中心網(wǎng)頁有助于集中權(quán)威網(wǎng)頁。網(wǎng)頁結(jié)構(gòu)挖掘可以通過門戶網(wǎng)頁或者整個網(wǎng)頁獲得。網(wǎng)頁結(jié)構(gòu)挖掘也支持網(wǎng)頁內(nèi)容挖掘,通過獲得網(wǎng)頁結(jié)構(gòu)信息,可以更加有效地獲取文檔,發(fā)現(xiàn)文檔的可靠性和相關(guān)性也可以更好。網(wǎng)頁的圖形結(jié)構(gòu)可以通過網(wǎng)頁結(jié)構(gòu)挖掘?qū)崿F(xiàn),網(wǎng)頁的圖形結(jié)構(gòu)挖掘可以提高信息獲取的能力,并提高文檔的分類效果。

網(wǎng)頁使用模式挖掘是指發(fā)現(xiàn)用戶瀏覽和轉(zhuǎn)換網(wǎng)頁的行為特征,其目的是通過理解用戶轉(zhuǎn)換網(wǎng)頁的喜好增強電子商務(wù)的服務(wù)質(zhì)量,個性化門戶網(wǎng)站,或者提高網(wǎng)頁結(jié)構(gòu)和網(wǎng)絡(luò)服務(wù)器的性能[13-14]。這種情況下,挖掘的數(shù)據(jù)對象是可以選擇作為網(wǎng)頁上的間接數(shù)據(jù)的網(wǎng)頁日志,其中通過網(wǎng)頁訪問的文檔可以理解為初始數(shù)據(jù)。

有三種類型的網(wǎng)頁日志可以用作數(shù)據(jù)挖掘的對象:存放在服務(wù)器端的日志數(shù)據(jù),客戶端的日志數(shù)據(jù),以及存放在代理服務(wù)器上的數(shù)據(jù)。由于不止一個地方存儲著用戶瀏覽網(wǎng)頁的信息,因此使數(shù)據(jù)挖掘過程變得困難。真實可靠的數(shù)據(jù)挖掘結(jié)果是建立在以上三種數(shù)據(jù)俱全的基礎(chǔ)上的。這是由于服務(wù)器端的數(shù)據(jù)并不包含存儲在代理服務(wù)器或者客戶端的數(shù)據(jù),除了服務(wù)器端的數(shù)據(jù),代理服務(wù)器還存儲了其他的信息。然而,存放在客戶端的網(wǎng)頁請求方面的數(shù)據(jù)是缺失的。但是,客戶端的所有信息是難以收集完整的。因此,大多數(shù)算法是基于服務(wù)器端數(shù)據(jù)的。一些應(yīng)用在網(wǎng)頁使用模式挖掘的常用的數(shù)據(jù)挖掘算法包含:規(guī)則挖掘,序列挖掘,以及聚類挖掘[15]。

2 網(wǎng)頁使用模式挖掘

網(wǎng)頁使用模式挖掘,從數(shù)據(jù)挖掘的角度來看,就是將數(shù)據(jù)挖掘技術(shù)應(yīng)用到網(wǎng)頁數(shù)據(jù)中,從而發(fā)現(xiàn)使用模式,為更好理解用戶瀏覽網(wǎng)頁的需要服務(wù)[16]。類似于其他的數(shù)據(jù)挖掘過程,網(wǎng)頁數(shù)據(jù)挖掘過程包括三步:數(shù)據(jù)預(yù)處理;模式發(fā)現(xiàn);模式分析。

本文所說的模式發(fā)現(xiàn)是指將前面介紹過的模式發(fā)現(xiàn)方法應(yīng)用到網(wǎng)頁日志上。為此,首先需要將數(shù)據(jù)進行預(yù)處理以使處理后的數(shù)據(jù)能夠符合算法輸入的格式。模式分析是指解釋數(shù)據(jù)挖掘結(jié)果,并作出相應(yīng)的結(jié)論。

圖1顯示了網(wǎng)頁使用模式挖掘的實現(xiàn)過程,這個過程的輸入數(shù)據(jù)為日志數(shù)據(jù)。這些數(shù)據(jù)需要進行預(yù)處理,以使其符合算法所需的輸入數(shù)據(jù)格式。不同的算法需要的輸入數(shù)據(jù)格式也不同,圖中所示的預(yù)處理過程可以提供三種類型的輸入數(shù)據(jù)。

圖1 網(wǎng)頁使用模式挖掘流程

頻繁模式發(fā)現(xiàn)過程僅需要用戶提供的網(wǎng)頁數(shù)據(jù)。這種情況下,網(wǎng)頁序列是不相關(guān)的。相同網(wǎng)頁的重復(fù)瀏覽也可以忽略,網(wǎng)頁調(diào)用是預(yù)先定義的。

在序列挖掘中,網(wǎng)頁瀏覽序列是重要信息,同一網(wǎng)頁如果在規(guī)定時間內(nèi)被用戶瀏覽多次,則每次都是相關(guān)網(wǎng)頁。因此整個系統(tǒng)的預(yù)處理模塊提供了用戶瀏覽網(wǎng)頁的序列信息。

對于用戶模式樹挖掘,則不僅需要網(wǎng)頁瀏覽序列信息,還需要被訪網(wǎng)頁的結(jié)構(gòu)信息。這種情況下,后退瀏覽可以忽略,只有前向瀏覽是相關(guān)的,這樣,針對每個用戶就形成了一顆樹。發(fā)現(xiàn)過程完成后,下面的事情就是模式分析。通過圖1的反饋回路看出整個挖掘過程是一個迭代的任務(wù)過程。根據(jù)分析結(jié)果,可以調(diào)整預(yù)處理參數(shù)(比如重新選擇時間間隔),或者調(diào)整數(shù)據(jù)挖掘算法的相關(guān)參數(shù)(這意味著需要設(shè)定數(shù)據(jù)挖掘的最小門檻值)。

本文中的網(wǎng)頁使用模式挖掘的目的是發(fā)現(xiàn)在同一時間內(nèi)訪問頻率最高的網(wǎng)頁,發(fā)現(xiàn)用戶瀏覽網(wǎng)頁的次序。其結(jié)果用于幫助確定門戶網(wǎng)頁的結(jié)構(gòu),從而更好地滿足廣告要求,提供更加個性化的網(wǎng)頁門戶。

3 相關(guān)工作

網(wǎng)頁使用模式挖掘過程中,有幾種數(shù)據(jù)挖掘算法可以利用。關(guān)聯(lián)規(guī)則挖掘用于發(fā)現(xiàn)即使沒有直接聯(lián)系也被用戶一同訪問的網(wǎng)頁,這可以發(fā)現(xiàn)組用戶之間相關(guān)的特殊興趣[13]。比如這些信息可以用于重組網(wǎng)站結(jié)構(gòu),如增加關(guān)聯(lián)網(wǎng)頁之間的鏈接。關(guān)聯(lián)規(guī)則挖掘可以參見文獻[17-20]。網(wǎng)頁序列挖掘可以用于發(fā)現(xiàn)用戶瀏覽相關(guān)網(wǎng)頁后緊接著瀏覽的網(wǎng)頁。利用這些知識就可以預(yù)測用戶瀏覽網(wǎng)頁的下一個行為,并預(yù)測下一個將被訪問的網(wǎng)頁。網(wǎng)頁序列挖掘在文獻[14]中有詳細介紹,稱之為WAP樹挖掘,樹形拓撲模式和頻率路徑轉(zhuǎn)換關(guān)系可以參見文獻[17]。

網(wǎng)頁使用模式挖掘在許多方面都是復(fù)雜的,這個過程中不僅使用數(shù)據(jù)挖掘技術(shù),還使用了其他的技術(shù)。比如,文獻[6]中采用了稱之為Ngram模型的概率語法技術(shù),通過該模型可以發(fā)現(xiàn)用戶網(wǎng)頁瀏覽行為模式。Ngram模型假設(shè)前面N次瀏覽的網(wǎng)頁影響第N+1次瀏覽的網(wǎng)頁。網(wǎng)頁預(yù)測可以采用網(wǎng)頁日志挖掘技術(shù)或者馬爾可夫預(yù)測器。

4 挖掘算法總結(jié)

在研究網(wǎng)頁使用模式挖掘過程之前,以及在解釋重要的挖掘步驟之前,首先需要簡要介紹頻繁模式挖掘算法。理解挖掘機制對于理解挖掘結(jié)果是必要的。另外一個重要的方面是,確定算法輸入?yún)?shù),有助于數(shù)據(jù)預(yù)處理過程中明確合適的數(shù)據(jù)輸入格式。

就如前面所述,頻繁模式網(wǎng)頁是通過ItemSetCode算法完成的。這是基于先驗假設(shè)基礎(chǔ)上的一個備選挖掘算法。算法的目的是為了增強先驗假設(shè)在更低水平上的使用效果。這意味著,可以增強低頻繁模式網(wǎng)頁的發(fā)現(xiàn)。通過這種方法,也可以更快發(fā)現(xiàn)高頻繁模式的網(wǎng)頁。ItemSetCode的思想是將3階或者4階頻繁模式問題的規(guī)模降低到2階。ItemSetCode可以通過索引矩陣快速發(fā)現(xiàn)2階或者1階頻繁模式網(wǎng)頁。2階問題可以編碼解決,3階或者4階問題可以通過成對使用2階問題編碼解決。3階或者4階問題可以按照存儲結(jié)構(gòu)要求進行存儲,這種方式可以保證高效的使用數(shù)組,而且,該結(jié)構(gòu)對內(nèi)存要求也很低,算法只是部分利用了先驗假設(shè)的好處,原因是必須使用壓縮存儲結(jié)構(gòu)。ItemSetCode算法由于可以快速發(fā)現(xiàn)低頻繁模式頁,因此可以有效地發(fā)現(xiàn)高頻繁模式網(wǎng)頁,其獨立于問題層次的特點可以保證內(nèi)存需求與事務(wù)多少無關(guān)。ItemSetCode算法輸入數(shù)據(jù)格式也可以適用于其他頻繁模式挖掘算法。它以行序讀取事務(wù),每行包括了多個數(shù)據(jù)項。

網(wǎng)頁瀏覽次序挖掘可以使用SM樹算法[2]。SM樹算法的主要思想是在輸入項目的次序只處理一次的情況下測試子序列,算法的應(yīng)用基礎(chǔ)是狀態(tài)有限機。通過聯(lián)合幾個自動機,一種稱之為SM樹的結(jié)構(gòu)可以建立起來,該結(jié)構(gòu)可以比采用不同的狀態(tài)機分別處理每個候選數(shù)據(jù)更快地處理候選數(shù)據(jù)。基于這個特點,SM樹結(jié)構(gòu)可以得到有效的處理。這個可以通過利用兩種類型的狀態(tài)的優(yōu)勢,如固定狀態(tài)和臨時狀態(tài)獲得。算法更大的優(yōu)勢在于其內(nèi)存需求獨立于事務(wù)的個數(shù)。SM樹算法的輸入格式包含行事務(wù),其中每行包含了數(shù)據(jù)項的序列信息。

5 數(shù)據(jù)處理

存儲在服務(wù)器端的記錄用戶行為的網(wǎng)頁日志數(shù)據(jù)不能夠以其存儲的格式直接應(yīng)用到數(shù)據(jù)挖掘中。因為這一點,數(shù)據(jù)預(yù)處理過程必須在模式發(fā)現(xiàn)過程之前進行。

數(shù)據(jù)預(yù)處理過程分為三步:首先,收集的數(shù)據(jù)必須進行凈化,即刪除圖形和多媒體數(shù)據(jù)。其次,需要將不同的數(shù)據(jù)分屬到不同的用戶。當(dāng)用戶在指定網(wǎng)點瀏覽網(wǎng)頁時,一次會話理解為該用戶的一組行為。從原始數(shù)據(jù)中標識會話是一個復(fù)雜的過程,因為服務(wù)器端并不總是存儲了所有必需信息。有些服務(wù)器端的網(wǎng)頁日志沒有存儲足夠的信息重建用戶會話過程,在這種情況下,可以使用面向時間的啟發(fā)式方法。會話經(jīng)過標識后,數(shù)據(jù)預(yù)處理過程的第一步,網(wǎng)頁瀏覽次序也就決定了。最后,需要將數(shù)據(jù)轉(zhuǎn)化到挖掘算法需要的格式。如果會話和次序標識完畢,第三步的完成將簡便許多。

在本文的實驗中,使用了兩種網(wǎng)頁服務(wù)器日志,第一種來自msnbc.com 的異步數(shù)據(jù),第二種從ECML/PKDD 2005 Discovery Challenge下載的鼠標單擊流數(shù)據(jù)。兩種數(shù)據(jù)的格式都不一樣,因此數(shù)據(jù)預(yù)處理過程也不一樣。

Msnbc日志數(shù)據(jù)記錄了用戶于1999.9.28訪問Msnbc網(wǎng)站的網(wǎng)頁信息。訪問按照時間先后序列以URL的形式記錄。這意味著預(yù)處理數(shù)據(jù)過程的第一步可以忽略。數(shù)據(jù)來自msnbc.com中的IIS日志。每一行對應(yīng)用戶在24 h內(nèi)訪問的網(wǎng)頁。網(wǎng)頁編碼格式如表1所示。客戶端緩存數(shù)據(jù)沒有記錄,因此這些數(shù)據(jù)主要包含服務(wù)器端日志數(shù)據(jù)。

這種情況下,只需要將msnbc的行數(shù)據(jù)轉(zhuǎn)換為相應(yīng)的數(shù)據(jù)項網(wǎng)頁瀏覽次序和樹形結(jié)構(gòu),則另外一個數(shù)據(jù)預(yù)處理的步驟已經(jīng)執(zhí)行。轉(zhuǎn)換過程中忽略重復(fù)的網(wǎng)頁,因此直接按照編碼序列進行排列。這樣,ItemSetCode算法可以在數(shù)據(jù)表中執(zhí)行。

表1 msnbc.com網(wǎng)頁分類編碼

類別編碼類別編碼類別編碼

主頁1音樂7匯總13

新聞2天氣8BBS14

技術(shù)3健康9旅行15

當(dāng)?shù)?生活10MSN新聞16

觀點5商務(wù)11MSN運動17

在線6運動12

為了獲得網(wǎng)頁序列模式,行數(shù)據(jù)轉(zhuǎn)換結(jié)果必須體現(xiàn)網(wǎng)頁瀏覽次序。一行實際上代表其中一個數(shù)據(jù)項的次序。因此,轉(zhuǎn)換為SM樹算法需要的序列格式意味著在每個代碼之間插入一個值-1。

為了能夠挖掘樹形模式,數(shù)據(jù)必須轉(zhuǎn)換為樹形事務(wù)格式。基于這個原因,每行按照以下的方式進行處理:根為行數(shù)據(jù)的第一個數(shù)據(jù)項。從根數(shù)據(jù)項可以生成分支,直到相應(yīng)的數(shù)據(jù)項已經(jīng)插入樹中。這種情況下,算法共插入的-1值的個數(shù)等于新數(shù)據(jù)項前面出現(xiàn)的相同數(shù)據(jù)項之間數(shù)據(jù)項個數(shù)。更多的數(shù)據(jù)項形成新的分支。比如對給定行:“1 2 3 4 2 5”,則對應(yīng)行的樹形表示為“1 2 3 4 -1 -1 5”。

鼠標單擊流數(shù)據(jù)中,數(shù)據(jù)預(yù)處理過程需要更多的工作。包含546個文件,其中每個文件包含了1 h之內(nèi)的所有用戶行為信息。每一行包含以下部分:

店名,時間,IP地址,惟一的會話標識符,訪問網(wǎng)頁,參考。

6 數(shù)據(jù)挖掘和模式分析

就如圖1所示的,網(wǎng)頁使用模式挖掘需要完成所有三種頻繁模式挖掘任務(wù)。對于挖掘過程,除了輸入數(shù)據(jù),還需要設(shè)置最小的門檻值,這是關(guān)鍵之一。用戶交互和迭代過程需要持續(xù)下去,直到發(fā)現(xiàn)合適的數(shù)值為止。由于這個原因,在挖掘過程中需要用戶交互,建議在整個數(shù)據(jù)庫中迭代執(zhí)行頻繁模式挖掘算法。選擇大小合適的數(shù)據(jù)樣本,如果數(shù)據(jù)樣本準確反映數(shù)據(jù)庫,程序響應(yīng)時間很短。

頻繁模式數(shù)據(jù)項發(fā)現(xiàn)和關(guān)聯(lián)規(guī)則挖掘可以使用ItemsetCode算法完成,ItemsetCode同樣需要設(shè)置最小的支持門檻值和最小的可信度值。圖2顯示了根據(jù)msnbc.com網(wǎng)站的數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則,其最小支持門檻值為0.1%,可行度門檻值為85%。通過分析其挖掘結(jié)果,用戶可以更好地確定廣告方式,以及門戶網(wǎng)頁結(jié)構(gòu)。

圖2顯示了將SM樹算法應(yīng)用到msnbc.com數(shù)據(jù)的挖掘結(jié)果,圖2(b)中的百分比值即為支持門檻值。

圖2 基于msnbc.com網(wǎng)站的數(shù)據(jù)挖掘

7 結(jié) 語

主要討論了如何從服務(wù)器端的網(wǎng)頁日志數(shù)據(jù)挖掘潛在有用信息的問題。文中主要介紹了網(wǎng)頁日志數(shù)據(jù)挖掘的過程,以及如何通過將頻繁模式模式挖掘算法應(yīng)用到網(wǎng)頁日志數(shù)據(jù)挖掘中,獲得關(guān)于用戶瀏覽網(wǎng)頁的有用信息。

參考文獻

[1]IVNCSY R, VAJK I. Time-and memory-efficient frequent itemset discovering algorithm for association rule mining[J]. International Journal of Computer Application in Techology, 2005, 3(10): 213-217.

[2]IVNCSY R, VAJK I. Efficient sequential pattern mining algorithms[J]. WSEAS Trans. on Computers, 2005, 4(2): 96-101.

[3]YANG Q, ZHANG H H. Web-log mining for predictive web caching[J]. IEEE Trans. on Knowl. Data Eng., 2003, 15(4): 1050-1053.

[4]BLOCKEEL Kosala. Web mining research[J]. ACM, 2000, 1(2):15-20.

[5]MADRIA S K, BHOWMICK S S. Research issues in web data mining[J]. Data Warehousing and Knowledge Disco-very,1999: 303-312.

[6]BPRGES J, LEVENE M. Data mining of user navigation patterns[J]. WEBKDD, 1999: 92-111.

[7]GAROFALAKIS M N, RASTOGI R, SESHADRI S, et al. Data mining and the web: past, present and future[C]// ACM CIKM′99 2nd Workshop on Web Information and Data Management, USA: [S.n.], 1999: 43-47.

[8]CHAKRABARTI S. Data mining for hypertext[J]. ACM, 2000,1(2): 1-11.

[9]CHAKRABARTI S, DOM B, INDYK P. Enhanced hypertext categorization using hyperlinks[C]// SIGMOD ′98: Proceedings of the 1998 ACM SIGMOD international conference on Management of Data, New York: ACM Press, 1998: 307-318.

[10]KLEINBERG J M, KUMAR R, RAGHAVAN P, et al. The Web as a graph: measurements, models and methods[J]. Lecture Notes in Computer Science,1999,1627: 1-18.

[11]HOU J, ZHANG Y. Effectively finding relevant web pages from linkage information[J]. IEEE Trans. on Knowl. Data Eng.,2003,15(4): 940-951.

[12]HAN H, ELMASRI R. Learning rules for conceptual structure on the web[J]. Intell. Inf. Syst., 2004, 22(3): 237-256.

[13]EIRINAKI M, VAZIRGIANNIS M. Web mining for web personalization[J]. ACM Trans.on Inter. Tech., 2003, 3(1): 1-27.

[14]PEI J, HAN J, MORTAZAVI-Asl B, et al. Mining access patterns efficiently from web logs[C]// PADKK ′00: Proceedings of the 4th Pacific-Asia Conference on Know-ledge Discovery and Data Mining, Current Issues and New Applications, London: Springer-Verlag, 2000: 396-407.

[15]COOLEY R, MOBASHER B, SIRIVASTAVA J. Data preparation for mining world wide web browsing patterns[J]. Knowledge and Information Systems, 1999,1(1): 5-32.

[16]SRIVASTAVA J, COOLEY R, DESHPANDE M, et al. Web usage mining: discovery and applications of usage patterns from web data[J]. SIGKDD Explorations, 2000, 1(2): 12-23.

[17]CHEN M S, PARK J S, YU P S. Data mining for path traversal patterns in a web environment[C]. Sixteenth International Conference on Distributed Computing Systems, 1996: 385-392.

[18]PUNIN J, KRISHNAMOORTHY M, ZAKI M. Web usage mining: languages and algorithms in Studies in Classification, data analysis, and knowledge organization[M]. [S.l.]: Springer-Verlag, 2001.

[19]ZAIANE O R, XIN M, HAN J. Discovering web access patterns and trends by applying olap and data mining technology on web logs[C]// ADL '98: Proceedings of the Advances in Digital Libraries Conference, USA: IEEE Computer Society, 1998: 1-19.

[20]SHEN Li, CHENG Ling, STEINBERG T. Steinberg. Mining the most interesting web access associations[C]. WebNet 2000-World Conference on the WWW and Internet, 2000.

[21]IVNCSY R, VAJK I. PD-tree: a new approach to subtree discovery[J]. WSEAS Trans. on Information Science and Applications, 2005, 2(11): 1772-1779.

[22]BALABANOVIC M, SHOHAM Y. Shoham. Learning information retrieval agents:Experiments with automated web browsing[J]. Proceedings of the AAAI Spring Symposium on Information Gathering from Heterogenous,Distributed Resources, 1995: 13-18.

主站蜘蛛池模板: 精品偷拍一区二区| 国外欧美一区另类中文字幕| 国产福利影院在线观看| 亚洲成人动漫在线观看| 国产成人无码播放| 亚洲视频无码| 国产一级二级在线观看| 国产高清在线观看91精品| 爱色欧美亚洲综合图区| 久一在线视频| 欧美精品综合视频一区二区| 日韩欧美在线观看| 色综合热无码热国产| …亚洲 欧洲 另类 春色| 免费激情网址| 99久久精品国产自免费| 伊人久久久久久久久久| 一区二区三区成人| 欧美一区二区三区不卡免费| 在线精品欧美日韩| 日韩在线2020专区| 成年人午夜免费视频| 亚洲最大福利视频网| a欧美在线| 99re热精品视频中文字幕不卡| 亚洲欧美日韩综合二区三区| 青青草一区| 欧洲一区二区三区无码| 99视频在线观看免费| 亚洲人精品亚洲人成在线| 久久久久免费精品国产| 亚洲码在线中文在线观看| 在线亚洲小视频| 国产午夜人做人免费视频| a毛片基地免费大全| 欧美不卡在线视频| 久久免费成人| 国产成人综合网| 亚洲AV色香蕉一区二区| 亚洲精品无码高潮喷水A| 亚洲香蕉在线| 国产精品任我爽爆在线播放6080| 国产AV无码专区亚洲A∨毛片| 啦啦啦网站在线观看a毛片| www.精品国产| 亚洲成a人片| 99中文字幕亚洲一区二区| 欧美一级色视频| 国产精品3p视频| 国产清纯在线一区二区WWW| 精品自窥自偷在线看| 国产91av在线| 欧美福利在线播放| 无码在线激情片| 一本大道无码日韩精品影视| 亚洲第一成人在线| 青草视频网站在线观看| 国产成人福利在线| 91精品最新国内在线播放| 在线观看91精品国产剧情免费| 中文无码日韩精品| 亚洲,国产,日韩,综合一区| 亚洲欧美日韩精品专区| 精品乱码久久久久久久| 日本人妻丰满熟妇区| 欧美一道本| 手机在线国产精品| 久久精品国产亚洲麻豆| 久久国产精品无码hdav| 在线免费观看AV| 亚洲男人的天堂久久香蕉网| 91成人在线免费视频| 亚洲国产精品久久久久秋霞影院 | 欧美一区日韩一区中文字幕页| 国产97视频在线观看| 亚洲欧洲日本在线| 澳门av无码| 九色免费视频| 亚洲V日韩V无码一区二区| 伊人精品视频免费在线| 久久久久亚洲AV成人人电影软件| 亚洲精品久综合蜜|