摘要:首先給出Web使用挖掘的定義和完整模型框架;然后對(duì)Web使用挖掘中主要步驟的最新研究進(jìn)展?fàn)顩r作了詳細(xì)的闡述和分析,其中包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和模式分析;最后對(duì)未來的研究重點(diǎn)進(jìn)行了展望。
關(guān)鍵詞:Web挖掘; Web使用挖掘;數(shù)據(jù)預(yù)處理; 模式發(fā)現(xiàn); 模式分析
中圖分類號(hào):TP393文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2008)01-0029-04
Web上的數(shù)據(jù)正以每天新增一百萬個(gè)頁(yè)面的速度增長(zhǎng),頁(yè)面數(shù)目已超過10億[1]。如何從這些位于分布式環(huán)境中的海量數(shù)據(jù)挖掘和抽取潛在的、用戶感興趣的有用模式和隱藏的知識(shí)成為一個(gè)重要而非常有意義的課題。Web挖掘技術(shù)正是以此為目標(biāo)應(yīng)運(yùn)而生的。Web挖掘技術(shù)將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web技術(shù)結(jié)合起來[2~4],并綜合運(yùn)用了統(tǒng)計(jì)學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)、可視化等眾多領(lǐng)域的技術(shù)。
定義1Web挖掘是指從大量Web文檔結(jié)構(gòu)和使用的集合C 中發(fā)現(xiàn)隱含的模式p。如果將C看做輸入,p看做輸出,那么Web挖掘的過程就是從輸入到輸出的一個(gè)映射: ξ: C → p。
一般地,Web挖掘分為三類[5]:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘。目前國(guó)際上對(duì)Web使用挖掘的研究比較多。WUM[6~8]是指能夠從服務(wù)器、瀏覽器端的日志記錄和用戶的個(gè)人信息中自動(dòng)發(fā)現(xiàn)和預(yù)測(cè)隱藏在數(shù)據(jù)中的模式信息——用戶群體的共同行為、興趣以及個(gè)人用戶的檢索偏好、習(xí)慣等。
1Web使用挖掘的基本框架
圖1給出了一個(gè)WUM比較完善的系統(tǒng)框架模型圖。從圖中可以看出它包含了數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和模式分析四個(gè)主要的階段。
1.1數(shù)據(jù)采集
在WUM中,由于HTTP的無狀態(tài)連接特性而很難得到準(zhǔn)確的用戶瀏覽信息。Jaideep Srivastava等人[9]和Cyrus Shahabi等人[10]提出從Web的結(jié)構(gòu)出發(fā),多層次地進(jìn)行Web 站點(diǎn)信息采集。
在WUM中,使用數(shù)據(jù)的采集主要可以分為以下幾種形式:
a)服務(wù)器端的數(shù)據(jù)采集。主要包括從Web 服務(wù)器日志中收集和從網(wǎng)絡(luò)監(jiān)視器中收集。Web服務(wù)器日志文件是執(zhí)行WUM的重要數(shù)據(jù)來源。該日志文件記錄了用戶訪問站點(diǎn)的數(shù)據(jù)。每當(dāng)站點(diǎn)上的網(wǎng)頁(yè)被訪問一次,Web服務(wù)器就在日志文件中增加一條相應(yīng)的記錄。如圖2 所示的就是一條典型的 ECLF[11](extended common log file,擴(kuò)展日志格式)的記錄和提取出的相關(guān)信息。當(dāng)然,Web服務(wù)器日志文件還可以以其他的格式存儲(chǔ),如CLF(common log file,通用日志格式) 或其他日志格式有NCSA、CERN、APACHE[12]。這些記錄數(shù)據(jù)反映了多個(gè)用戶(可能同時(shí))對(duì)Web站點(diǎn)(單站點(diǎn))的(存取)訪問行為。由于Web環(huán)境中存在多級(jí)別的緩存(如用戶的本地緩存和代理服務(wù)器緩存)和防火墻, 用戶瀏覽緩存的頁(yè)面不在服務(wù)器端日志上記錄, 防火墻使得不同的用戶請(qǐng)求在Web服務(wù)器的日志中記錄的均是防火墻的IP地址, 所以日志中的網(wǎng)站使用數(shù)據(jù)并不完全可靠(未采集到所有訪問頁(yè)面、采集時(shí)間不夠準(zhǔn)確、瀏覽用戶的確定不夠準(zhǔn)確)。用服務(wù)器端日志數(shù)據(jù)進(jìn)行WUM是不完全可靠的,還必須依靠其他使用數(shù)據(jù)收集方法。
221.202.41.83\"[25/Dec/2003:05:00:00 +0800]\"
\"GET http://news.tom.com/piclib/419_11.html\"20015763\"http://news.tom.com/pic/\" \"Mozilla/4.0(compatible,MSIE 5.0; Windows 98; DigExt)\"
IP地址221.202.41.83
訪問時(shí)間25/Dec/2003:05:00:00
訪問頁(yè)面http://news.tom.com/piclib/419_11.html
Web服務(wù)器對(duì)于該請(qǐng)求返回的狀態(tài)信息200
返回給客戶端的內(nèi)容大小15 763 Byte
該請(qǐng)求的引用地址http://news.tom.com/pic/
用戶客戶端類型Mozilla/4.0(compatible;MSIE 5.0;Windows 98;DigExt)
圖2Web服務(wù)器ECLF記錄格式及提取的信息
b)應(yīng)用服務(wù)器端的數(shù)據(jù)采集。這種數(shù)據(jù)采集方法可以利用應(yīng)用服務(wù)器上的應(yīng)用程序(如CGI程序)來記錄用戶的個(gè)人信息;同時(shí)也可以通過自定義的格式動(dòng)態(tài)記錄用戶的瀏覽信息。每次用戶進(jìn)行訪問時(shí)先進(jìn)行身份驗(yàn)證,然后由CGI程序記錄用戶全部的瀏覽過程。這種應(yīng)用服務(wù)器級(jí)的采集方法與Web服務(wù)器級(jí)的數(shù)據(jù)采集方法相比,在用戶確定方面的準(zhǔn)確性高,但是大量的應(yīng)用程序會(huì)使系統(tǒng)的效率很低。
c)客戶端的數(shù)據(jù)采集。客戶端的瀏覽路徑采集比服務(wù)器端的采集更具優(yōu)越性。因?yàn)樗墙⒃谟脩舻男袨樵瓷系模梢詼?zhǔn)確地捕捉用戶的行為。用戶的瀏覽路徑和瀏覽時(shí)間的測(cè)量可以很精確,但是它需要用戶的許可,有可能會(huì)侵犯用戶的隱私。客戶端的用戶瀏覽路徑采集包括Java Applet和Java Script以及Plug in、網(wǎng)頁(yè)跟蹤幀和修改瀏覽器等技術(shù)。
d)代理服務(wù)器端的數(shù)據(jù)采集。代理服務(wù)器相當(dāng)于一個(gè)在客戶端瀏覽器和Web服務(wù)器之間提供了緩存功能的中介服務(wù)器,主要用于減少用戶下載網(wǎng)頁(yè)的時(shí)間以及服務(wù)器與客戶機(jī)之間的網(wǎng)絡(luò)流量[13]。從代理服務(wù)器可以得到從多個(gè)用戶到Web服務(wù)器的訪問記錄(無須用戶許可)。若代理訪問站點(diǎn)網(wǎng)頁(yè)是通過Web應(yīng)用程序動(dòng)態(tài)生成的, 對(duì)于用戶的每次請(qǐng)求, 代理需從Web服務(wù)器取得數(shù)據(jù)。該收集方法不能準(zhǔn)確地確定瀏覽用戶, 對(duì)訪問頁(yè)面的采集不夠全面, 采集時(shí)間不準(zhǔn)確。
Web使用挖掘數(shù)據(jù)采集技術(shù)匯總?cè)绫?所示。
1.2數(shù)據(jù)預(yù)處理
WUM中對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。其目標(biāo)是將包含在多種數(shù)據(jù)源中的信息轉(zhuǎn)換為適合數(shù)據(jù)挖掘和模式發(fā)現(xiàn)所必需的數(shù)據(jù)抽象概念, 然后在事務(wù)數(shù)據(jù)庫(kù)上實(shí)施挖掘算法, 以期最終獲得有價(jià)值的規(guī)律。因?yàn)轭A(yù)處理的結(jié)果直接影響到挖掘算法產(chǎn)生的規(guī)則和模式,可以說預(yù)處理過程是WUM質(zhì)量保證的關(guān)鍵。
通常WUM的預(yù)處理過程[13~15]包括數(shù)據(jù)清理、用戶識(shí)別、會(huì)話識(shí)別、路徑完善等幾個(gè)步驟,如圖3所示。
1)數(shù)據(jù)清理(data cleaning)
數(shù)據(jù)清理解決了臟數(shù)據(jù)(dirty data)的問題,消解數(shù)據(jù)中的不一致性,并將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一成一個(gè)數(shù)據(jù)存儲(chǔ)。比如,將不同服務(wù)器上格式和描述都不同的原始數(shù)據(jù)規(guī)范化,去除日志文件中包含gif、jpeg、gif、map的文件名的項(xiàng)目。可以預(yù)先定義一個(gè)缺省的規(guī)則庫(kù)(如算法1)來幫助刪除記錄。另外,還可以預(yù)先將網(wǎng)站分為一般網(wǎng)站、圖片網(wǎng)站和音頻網(wǎng)站等,分別建立對(duì)應(yīng)的規(guī)則庫(kù);然后按照該類網(wǎng)站的規(guī)則庫(kù)進(jìn)行數(shù)據(jù)清理。
算法1
a)選擇記錄屬性。在Web日志中,選用屬性:A={IP,r.date,r.time,request,size,referer,agent}。
b)刪除無用記錄。建立一個(gè)刪除列表:DT={.GIF .JPEG .JPG .gif .jpeg .jpg .map .cgi}。凡是對(duì)后綴名在刪除列表中的文件的申請(qǐng)記錄均應(yīng)刪除。
具體過程如下:
輸入: T1.log中的所有記錄集L;
輸出: 數(shù)據(jù)清理后的關(guān)系表T2.log; //T2.log表包含A中的字段
for all li∈L //依次處理L中的每條記錄
{ifT1請(qǐng)求的文件后綴名不在DT中
then選取T1中所有屬于A的字段值并存入T2.log中;}
2)用戶識(shí)別(user identification)
用戶識(shí)別是從日志中識(shí)別出每個(gè)訪問網(wǎng)站的用戶。最常被WUM工具使用的技術(shù)就是基于日志/站點(diǎn)的方法,并輔助一些啟發(fā)式規(guī)則幫助識(shí)別用戶。
啟發(fā)式規(guī)則的核心思想在于:a)不同的IP地址代表著不同的用戶;b)用戶的IP地址相同,但相應(yīng)的代理日志表明用戶的瀏覽器類型或操作系統(tǒng)發(fā)生了改變,則認(rèn)為代表著不同的用戶;c)用戶的IP地址相同,用戶使用的操作系統(tǒng)和瀏覽器也相同的情況下,則根據(jù)網(wǎng)站的頁(yè)面鏈接結(jié)構(gòu)對(duì)用戶進(jìn)行識(shí)別(如果用戶請(qǐng)求的某個(gè)頁(yè)面不能從已訪問的任何頁(yè)面到達(dá),則認(rèn)為這是一個(gè)新的用戶)。
要說明的一點(diǎn)是,這些僅是幫助識(shí)別用戶的啟發(fā)規(guī)則,并非使用了這些規(guī)則就能準(zhǔn)確地識(shí)別出用戶。在用戶識(shí)別的過程中,還會(huì)產(chǎn)生一些問題。典型的有:
a)單IP地址/多服務(wù)器會(huì)話。Internet業(yè)務(wù)供應(yīng)商(ISP)為用戶提供了許多用于上網(wǎng)的代理服務(wù)器,因此在同一時(shí)間段內(nèi)可能有許多不同用戶通過同一代理服務(wù)器(單IP地址)存取同一網(wǎng)站。
b)多IP 地址/單服務(wù)器會(huì)話。一些ISP和私用工具會(huì)為來自不同用戶的每次請(qǐng)求隨機(jī)分配IP地址池中的某一個(gè)。在這種情況下, 一次單獨(dú)的服務(wù)器會(huì)話可能會(huì)有多個(gè)IP地址。
c)多IP 地址/單用戶。一個(gè)用戶從不同機(jī)器上網(wǎng)會(huì)在不同會(huì)話中使用不同地址, 這就使得追蹤同一用戶的重復(fù)訪問變得很困難。
d)多代理/單用戶。某用戶在同一機(jī)器上打開多個(gè)瀏覽器窗口,訪問Web站點(diǎn)的不同部分或打開不同的瀏覽器進(jìn)行訪問,將產(chǎn)生單個(gè)用戶的多個(gè)服務(wù)器會(huì)話。
3)會(huì)話識(shí)別(session identification)在跨越時(shí)間區(qū)段較大的Web服務(wù)器日志中,用戶有可能多次訪問了該站點(diǎn)。會(huì)話識(shí)別的目的就是將用戶的訪問記錄分為單個(gè)會(huì)話。用戶會(huì)話S可以定義為
S=〈UserId,{(Pid1,time1),…,(Pidk,timek)}〉 (1)
令 RS={(Pid1,time1),…,(Pidk,timek)}
S=〈UserId, RS〉
其中:UserId是用戶標(biāo)志;RS是用戶在一段時(shí)間內(nèi)請(qǐng)求的Web頁(yè)面的集合,它包含用戶請(qǐng)求頁(yè)面的標(biāo)志符Pid和請(qǐng)求時(shí)間time。
通常可以采用超時(shí)方法識(shí)別用戶會(huì)話,對(duì)于超時(shí)閾值的設(shè)定有兩種方法:a)設(shè)定整個(gè)用戶會(huì)話的超時(shí)時(shí)間,則式(1)中的用戶會(huì)話必定滿足下面的條件(其中T為預(yù)先設(shè)定的超時(shí)閾值):timek-time1≤T。b)設(shè)定相鄰請(qǐng)求之間的超時(shí)時(shí)間。如果兩頁(yè)間請(qǐng)求時(shí)間的差值超過一定的界限就認(rèn)為用戶開始了一個(gè)新的會(huì)話,則式(1)中的用戶會(huì)話必定滿足下面的條件(其中T為預(yù)先設(shè)定的超時(shí)閾值): timei-timei-1≤T。其中1
超時(shí)閾值的設(shè)定直接影響Web日志數(shù)據(jù)預(yù)處理的結(jié)果輸出。設(shè)定不同的超時(shí)閾值就會(huì)產(chǎn)生不同的用戶會(huì)話文件,從而最終影響Web日志的挖掘結(jié)果。
4)事務(wù)識(shí)別(transaction identification)
事務(wù)識(shí)別是指將頁(yè)面訪問序列劃分為代表Web事務(wù)或用戶會(huì)話的邏輯單元。與用戶session識(shí)別不同的是,它以事務(wù)為單位,只包含與事務(wù)相關(guān)的頁(yè)面。事務(wù)識(shí)別方法中最簡(jiǎn)單的莫過于時(shí)間窗口法,即定義一個(gè)時(shí)間長(zhǎng)度。該時(shí)間片內(nèi)用戶瀏覽的所有頁(yè)面均歸為一個(gè)事務(wù)。比較常用的則是最大向前參考法[16]。具體做法是,從用戶訪問的首頁(yè)開始,到第一個(gè)回退動(dòng)作為止定義為一個(gè)事務(wù);接下來的第一個(gè)向前動(dòng)作引發(fā)下一事務(wù),直到下個(gè)回退動(dòng)作產(chǎn)生。周而復(fù)始,將用戶訪問頁(yè)面序列劃分為一個(gè)個(gè)事務(wù)。比如,一個(gè)用戶在一次瀏覽過程中請(qǐng)求了ABCBCDE 頁(yè)面,根據(jù)最大前向參考法,用戶訪問過的訪問服務(wù)器會(huì)話期間應(yīng)該是ABC和BCDE。
5)路徑補(bǔ)充(path completion)
由于本地緩存和代理服務(wù)器緩存的存在或是通過post技術(shù)信息傳遞,使得服務(wù)器的日志會(huì)遺漏一些重要的頁(yè)面請(qǐng)求,這樣就會(huì)影響到模式發(fā)現(xiàn)的效率和精度。解決的方法類似于用戶識(shí)別中的方法,可以借助應(yīng)用日志或站點(diǎn)拓?fù)浣Y(jié)構(gòu)推斷當(dāng)前請(qǐng)求的頁(yè)面的鏈接來源,從而將遺漏的頁(yè)面請(qǐng)求添加到用戶的會(huì)話文件中。
1.3模式挖掘
在數(shù)據(jù)預(yù)處理完成后,Web使用數(shù)據(jù)的模式發(fā)現(xiàn)采用的算法如下:
a)統(tǒng)計(jì)分析。統(tǒng)計(jì)方法是從Web中提取有用信息最常用的一種技術(shù)。通過對(duì)session 文件的分析,可以對(duì)感興趣的信息進(jìn)行統(tǒng)計(jì)。一般包括各種統(tǒng)計(jì)數(shù)據(jù),如最頻繁訪問的N個(gè)頁(yè)面、每頁(yè)平均瀏覽時(shí)間和網(wǎng)址路徑平均訪問長(zhǎng)度等,也可能涉及一些關(guān)于限制的錯(cuò)誤分析,如統(tǒng)計(jì)非法IP、無效URL和未授權(quán)訪問等。
b)關(guān)聯(lián)規(guī)則。在Web使用挖掘中, 關(guān)聯(lián)規(guī)則主要用于發(fā)現(xiàn)用戶之間、頁(yè)面之間以及用戶瀏覽頁(yè)面和網(wǎng)上行為之間存在的潛在關(guān)系。最著名的關(guān)聯(lián)規(guī)則挖掘方法是R.Agrawal提出的Apriori算法。最近也有獨(dú)立Agrawal的頻集方法的工作[17],以避免需要大量空間存儲(chǔ)中間結(jié)果和需要反復(fù)掃描數(shù)據(jù)庫(kù)而帶來的算法上的缺陷。無論哪種算法,關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)都遵循兩個(gè)步驟:(a)迭代識(shí)別所有的頻繁項(xiàng)目集,要求頻繁項(xiàng)目集的支持率不低于用戶設(shè)定的最小支持度(具體見定義2);(b)從頻繁項(xiàng)目集中構(gòu)造可信度不低于用戶設(shè)定的最小置信度(具體見定義3)。
定義2支持度(support)是指交易集T中包含X和Y的交易數(shù)與交易數(shù)據(jù)庫(kù)D中所有的交易數(shù)之比:
c)序列模式。序列模式與關(guān)聯(lián)模式相仿,差別在于序列模式把數(shù)據(jù)間的關(guān)聯(lián)性與時(shí)間先后順序聯(lián)系起來,即不僅需要知道事件是否發(fā)生,而且需要確定事件發(fā)生的時(shí)間先后。可以把它看成是一種增加了時(shí)間屬性的特定關(guān)聯(lián)模型。
下列規(guī)則中,(a)是序列模式,(b)是關(guān)聯(lián)規(guī)則。比較(a)和(b)便不難發(fā)現(xiàn),(a)考慮了訪問的先后順序,而(b)則沒有考慮時(shí)間因素。
(a)訪問頁(yè)面Pl和P3后有35%的用戶又訪問了頁(yè)面P5。
(b)訪問頁(yè)面P1和P3的用戶中有35%的用戶也訪問了頁(yè)面P5。
d)聚類。聚類是將數(shù)據(jù)點(diǎn)集合分成若干類或簇(cluster),使得每個(gè)簇中的數(shù)據(jù)點(diǎn)之間最大程度地相似,而不同簇中的數(shù)據(jù)點(diǎn)最大程度地不同,從而發(fā)現(xiàn)數(shù)據(jù)集中有效的、新穎的、可以理解的數(shù)據(jù)模式分布。在WUM中,聚類技術(shù)是對(duì)符合某一訪問規(guī)律特征的用戶(頁(yè)面)進(jìn)行用戶(頁(yè)面)特征挖掘。通常可以將用戶瀏覽頁(yè)面的總和視為數(shù)據(jù)空間,構(gòu)造一個(gè)URL_UserID關(guān)聯(lián)矩陣Mm×n,如式(2)所示。
其中:hi, j是j客戶在一段時(shí)間內(nèi)訪問第i個(gè)URL 的次數(shù); 每一行向量M[1,j]表示所有客戶對(duì)URL“1”的訪問情況; 每一列向量M[i,1]表示客戶“1”對(duì)該商務(wù)站點(diǎn)中所有URL的訪問情況。因此可以這樣認(rèn)為: 行向量既代表了站點(diǎn)的結(jié)構(gòu), 又蘊(yùn)涵有客戶共同的訪問模式; 而列向量既反映了客戶類型, 也勾勒出了客戶的個(gè)性化訪問子圖。再使用一些度量方法(如Hamming距離)分別度量行向量和列向量的相似性, 就可以得到兩種類型的聚類,即使用聚類(用戶聚類) 和網(wǎng)頁(yè)聚類。用戶聚類主要是把具有相似特性(或?yàn)g覽模式) 的用戶聚集在一組,這類知識(shí)對(duì)電子商務(wù)和為用戶提供個(gè)性化的服務(wù)特別有用;網(wǎng)頁(yè)聚類可以找出具有相關(guān)內(nèi)容的網(wǎng)頁(yè)組,這對(duì)網(wǎng)上搜索引擎及提供上網(wǎng)幫助的應(yīng)用特別有用。
e)分類。在WUM中,分類技術(shù)可以預(yù)先把頁(yè)面分到不同的類中。這樣在分析以往的訪問記錄得知某用戶以前經(jīng)常訪問某一類的網(wǎng)頁(yè)之后,便可以將該類網(wǎng)頁(yè)中還沒有被該用戶訪問過的頁(yè)面推薦給用戶。這樣節(jié)省了用戶搜尋所需信息的時(shí)間,同時(shí)增強(qiáng)了網(wǎng)站的個(gè)性化服務(wù)意識(shí)。最為典型的決策樹學(xué)習(xí)系統(tǒng)是ID3,它采用自頂向下不回溯策略,能保證找到一個(gè)簡(jiǎn)單的樹。算法C4.5和C5.0都是ID3的擴(kuò)展,它們將分類領(lǐng)域從類別屬性擴(kuò)展到數(shù)值型屬性。
f)路徑分析。使用路徑分析技術(shù)進(jìn)行WUM時(shí),從Web站點(diǎn)拓?fù)浣Y(jié)構(gòu)圖抽象而來的有向圖中挖掘出最頻繁的路徑訪問模式或大參引訪問序列。Chen 等人從原始日志數(shù)據(jù)中導(dǎo)出最大向前引用序列MFR的過程, 實(shí)際上就是在構(gòu)造用戶的訪問子圖。路徑分析可以用來確定網(wǎng)站上最頻繁的訪問路徑, 從而調(diào)整站點(diǎn)的結(jié)構(gòu)。例如可以得到類似如下的信息:
(a)訪問網(wǎng)站的用戶中有25%是從頁(yè)面B開始的;
(b)有15%的用戶訪問路徑為C→M→D→E。
針對(duì)(a),可以在頁(yè)面B上直接添加一些想給用戶直接傳達(dá)的信息,或者通過鏈接指向相應(yīng)的頁(yè)面,從而提高該信息的點(diǎn)擊率;針對(duì)(b),可知路徑C→M→D→E為頻繁訪問路徑,可以在這幾個(gè)頁(yè)面上添加其他超鏈接或者促銷信息,從而增加其他信息的訪問頻度。
1.4模式分析技術(shù)
挖掘出來的用戶行為模式(集合),需要合適的工具和技術(shù)對(duì)其進(jìn)行分析、解釋和可視化,從中篩選出有趣(有用)的模式,使之成為人們可以理解的知識(shí);否則挖掘出來的模式將得不到很好的應(yīng)用。具體包括:
a)可視化技術(shù)。與其他數(shù)據(jù)挖掘應(yīng)用領(lǐng)域一樣,Web使用挖掘技術(shù)與可視化技術(shù)的結(jié)合還剛起步。Web使用挖掘領(lǐng)域內(nèi)的可視化技術(shù)主要分為基于點(diǎn)和基于序列兩類。基于點(diǎn)的可視化技術(shù)適合顯示數(shù)據(jù)對(duì)象的各種統(tǒng)計(jì)值,如產(chǎn)品或頁(yè)面的訪問次數(shù)、頁(yè)面間轉(zhuǎn)移的頻率或者次數(shù)等;基于序列的可視化方法著重表現(xiàn)用戶行為的序列特征,用各種方法描繪用戶的訪問序列。
b)知識(shí)查詢技術(shù)。自動(dòng)搜索相關(guān)的規(guī)則、模式以及其他知識(shí),可以幫助分析用戶的目標(biāo),用智能的方式回答查詢。建立一個(gè) MLDB(multiple layered database,多層數(shù)據(jù)庫(kù)),用數(shù)據(jù)庫(kù)技術(shù)來管理Web的元數(shù)據(jù)(meta Web)是其中的一種方法[18]。目前研究人員已經(jīng)在SQL語(yǔ)言的基礎(chǔ)上提出幾種適合在數(shù)據(jù)挖掘過程中使用的查詢語(yǔ)言,如DMQL;也有專門為Web挖掘而定義的WebSSQL、WebLQM 和Squeal等。
2Web使用挖掘的應(yīng)用系統(tǒng)
1)通用系統(tǒng)
通用系統(tǒng)提供多種通用的數(shù)據(jù)挖掘功能,一般并不直接支持某種特定應(yīng)用。WebMiner[14]支持多種數(shù)據(jù)挖掘功能,并提供挖掘語(yǔ)言。WebSIFT的主要特點(diǎn)是支持基于support logic的模式興趣度、自動(dòng)識(shí)別和過濾出令人感興趣的模式。最有影響力的是WUM系統(tǒng)。它把清理后的日志數(shù)據(jù)合成聚合樹(aggregate tree),挖掘和分析工作的主要內(nèi)容是使用MINT語(yǔ)言查詢聚合樹。
2)商業(yè)智能
在以用戶為中心導(dǎo)向的電子商務(wù)中,用戶盈利能力分析、用戶群體分類分析、用戶滿意度分析、用戶的獲得與保持和交叉營(yíng)銷是商業(yè)領(lǐng)域內(nèi)很重要的工作。在Web站點(diǎn)可收集大量的客戶行為數(shù)據(jù),但由于數(shù)據(jù)量很大,手工分析幾乎變成了不可能的任務(wù)。適合處理大數(shù)據(jù)量的Web使用數(shù)據(jù)挖掘技術(shù)便在此處體現(xiàn)出了它的商業(yè)價(jià)值。有一些商用軟件如Accure、Microstrategy和IBM的SurfAid 等均是針對(duì)這個(gè)方面的應(yīng)用。
3)個(gè)性化服務(wù)
Web個(gè)性化服務(wù)是指Web站點(diǎn)能夠根據(jù)用戶的喜好和需求自動(dòng)調(diào)整Web站點(diǎn)的信息組織和表示。一方面用戶能夠在它的幫助下迅速找到需要的信息,使得Web站點(diǎn)更具吸引力。該應(yīng)用的關(guān)鍵問題是用戶建模和行為預(yù)測(cè)。ThorstenJoachzms等人建立了一個(gè)稱為Web watcher的瀏覽導(dǎo)航系統(tǒng)。它根據(jù)用戶事先聲明的瀏覽目的或興趣(以關(guān)鍵字的形式表示)預(yù)測(cè)當(dāng)前頁(yè)中用戶可能點(diǎn)擊的鏈接,并以圖形化的方式標(biāo)注出此鏈接。文獻(xiàn)[15]實(shí)現(xiàn)了一個(gè)基于聚集模型的Web推薦系統(tǒng)。
4)Web性能改進(jìn)和設(shè)計(jì)優(yōu)化
其主要目的是利用Web使用挖掘技術(shù)向網(wǎng)站建立者提供各種關(guān)于網(wǎng)站架構(gòu)的信息,也提供了用戶在使用網(wǎng)站時(shí)的習(xí)慣。網(wǎng)絡(luò)管理員可以在Web 緩存、網(wǎng)絡(luò)結(jié)構(gòu)安排、負(fù)載平衡和數(shù)據(jù)分布上進(jìn)行統(tǒng)籌規(guī)劃。具體的研究有利用 Web日志數(shù)據(jù)設(shè)計(jì)一個(gè)數(shù)據(jù)集市、為頻繁模式挖掘提供數(shù)據(jù)源、應(yīng)用于智能Web緩沖。
3未來研究重點(diǎn)及展望
WUM技術(shù)作為一個(gè)新興研究領(lǐng)域,采用了來自多個(gè)領(lǐng)域的技術(shù)和先驗(yàn)知識(shí)。雖然它取得很多突破性的進(jìn)展,但是在未來的研究當(dāng)中,還有一些熱點(diǎn)和難點(diǎn)的方向值得指出。
1)數(shù)據(jù)收集與預(yù)處理
在WUM過程中,如何既不侵犯用戶的個(gè)人隱私,又能盡量收集到完整的網(wǎng)站訪問日志;同時(shí)能保證服務(wù)器的工作效率和服務(wù)質(zhì)量。有關(guān)數(shù)據(jù)收集的專門工具和技術(shù)正在研究中。另外,目前WUM的數(shù)據(jù)源主要集中在server端的log日志,在未來的研究中如何能將server log、proxy server log及client端的cookies log中的使用數(shù)據(jù)、用戶信息綜合集成并預(yù)處理,是一個(gè)研究的熱點(diǎn)和難點(diǎn)。
2)模式挖掘
目前WUM的工具不多,而且功能上均有較大的局限性,所采用的算法質(zhì)量也不高。如何能開發(fā)出更加智能化和高效率的模式發(fā)現(xiàn)工具將是一個(gè)長(zhǎng)期的研究課題。另外,如何盡可能全面(不可能全部)地集成Web上動(dòng)態(tài)、分布的數(shù)據(jù)并實(shí)施挖掘,以挖掘出更多有用信息,也是未來該領(lǐng)域面臨的一個(gè)挑戰(zhàn)。
3)模式分析
開發(fā)一個(gè)智能化模式分析工具,將不同數(shù)據(jù)源挖掘出來的模式進(jìn)行集成,并提供集統(tǒng)計(jì)分析、可視化分析技術(shù)、過濾和解釋功能等為一體的模式分析功能,真正輔助人們理解挖掘出來的知識(shí)是一個(gè)值得不斷深入研究和探索的熱點(diǎn)。
參考文獻(xiàn):
[1]BRIN S,MOTWANI R.What can you do with a Web in your pocket[J].Data Engineering Bulletin,1998,21(2):37-47.
[2]FELDMAN R, DAGAN I. Knowledge discovery in textual databases (KDT)[C]//Proc of the 1st Int’l Conf on Knowledge Discovery and Data Mining.Montreal:[s.n.],1995:112-117.
[3]CHAKRABARTI S. Data mining for hypertext: a tutorial survey [J].SIGKDD Exploration, 2000,1(2):1-11.
[4]COOLEY R, MOBASHER B, SRIVASTAVA J. Web mining:information and pattern discovery on the World Wide Web[C]//Proc of the 9th Int’l Conf on Tools with Artificial Intelligence.Washington DC:IEEE Computer Society Press,1997:558-567.
[5]MADRIA S K, BHOWMICK S. Research issue in Web data mining[C]//Proc of the 1st Int’l on Data Warehousing and Knowledge Discovery. Canada:AAAI Press,1999:303-312.
[6]PITKOW J.In search of reliable usage data on the WWW[C]//Proc of the 6th Int’l World Wide Web Conference. Santa Clara:Elsevier Science,1997:133-142.
[7]GRAHAM CUMMING J. Hits and misses:a year watching the Web [C]//Proc of the 6th Int’l World Wide Web Conference.Santa Cla ra:Elsevier Science,1997:118-123.
[8]PERKOWITZ M, ETZIONI O.Adaptive Web sites:conceptual cluster mining[C]//Proc of the 16th International Joint Conference on Artificial Intelligence. Stockholm:[s.n.], 1999:344-349.
[9]SRIVASTAVA J, COOLEY R, DESHPANDE M. Web usage mining: discovery and applications of usage patterns from Web data [J].SIGKDD Explorations, 2000,1(2):12-23.
[10]SHAHABI C, ZARKESH A, ADIBI J, et al. Knowledge discovery from users Web page navigation[C]//Proc of IEEE RIDE Workshop.Los Alamitos:IEEE Computer Society Press,1997:204-210.
[11]LUOTONEN A. The common log file format [EB/OL].(1995-09-27).http://www.w3.org/pub/www/.
[12]FastStats log analyzer[EB/OL].(1999 06 12).http://www. mach5.com/fast/.
[13]ZAIANE O, XIN M, HAN J. Discovering Web access patterns and trends by applying OLAP and data mining technology on Web logs[C]//Proc of Advances in Digital Libraries Conference (ADL). Sante Barbara:[s.n.],1998:19-29.
[14]BUCHNER A,MULVENNA M D. Discovering Internet marketing intelligence through online analytical Web usage mining[J].SIGMOD Record, 1998, 27(4):54-61.
[15]MDBASHER B, COOLEY R, SRIVASTAVA J. Automatic personalization based on Web usage mining[J].Communications of the ACM,2000,43(8):142-151.
[16]MOBASHER B. Grouping Web page references into transactions for mining World Wide Web browsing patterns[C]//Proc of IEEE Knowledge and Data Engineering Exchange Workshop. New York:IEEE Press, 1997:108-132.
[17]COHEN E, DATAR M, FUJIWARA S. Finding interesting associations without support pruning[J].Communications of ACM, 2002,49(8):122-131.
[18]ZAIANE O R, HAN J. Resource and knowledge discovery in global information systems:a preliminary design and experiment[C]//Proc of the 1st Int’l on Knowledge Discovery and Data Minning. Montreal:[s.n.],1995:331-336.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”