摘要: 本文以某高校校園網(wǎng)日志數(shù)據(jù)為應(yīng)用實例進行日志挖掘,并根據(jù)挖掘結(jié)果對校園網(wǎng)網(wǎng)站的結(jié)構(gòu)改進提出了建議。
關(guān)鍵詞: 數(shù)據(jù)挖掘 Web日志挖掘 Agent技術(shù)
1.引言
Web是一個開放性的全球分布式網(wǎng)絡(luò),資源分布在全球不同的地方,并且網(wǎng)上的資源沒有統(tǒng)一的管理和結(jié)構(gòu),導(dǎo)致了信息搜尋的困難。本文設(shè)計了一個利用Agent技術(shù)實現(xiàn)Web日志挖掘的系統(tǒng)模型,把Web挖掘任務(wù)分配給多個Agent來共同完成,包括預(yù)處理Agent、數(shù)據(jù)挖掘Agent、測試Agent、評價Agent等,每個Agent都有自己的目標(biāo),有獨立完成任務(wù)的能力,也可以和用戶等外部環(huán)境進行交互。模型能適用于Web信息處理的各種應(yīng)用,在信息的個性化推薦、電子商務(wù)的個性化服務(wù)、智能教學(xué)系統(tǒng)的建立、網(wǎng)站結(jié)構(gòu)的改進等方面有應(yīng)用前景。
本文以某高校校園網(wǎng)日志數(shù)據(jù)為應(yīng)用實例進行日志挖掘,并根據(jù)挖掘結(jié)果對校園網(wǎng)網(wǎng)站的結(jié)構(gòu)改進提出了建議。
2.具體應(yīng)用
2.1選取數(shù)據(jù)源
實驗的數(shù)據(jù)源為某高校校園網(wǎng)服務(wù)器上的日志文件,選取2007年9月份的Web訪問日志作為挖掘?qū)ο螅撔@網(wǎng)主頁共鏈接有18個分類頁面,如“學(xué)院概況”、“機構(gòu)設(shè)置”、“師資隊伍”、“招生就業(yè)”、“校園風(fēng)光”、“圖書館”等,稱為一級子頁面。一級子頁面鏈接的下一級頁面稱之為二級子頁面,二級子頁面共有96個。二級子頁面鏈接的下一級頁面定義為三級子頁面,以此類推。由于信息量巨大,為了簡化實驗過程,只選取了8萬余條日志進行分析。
2.2數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)凈化
數(shù)據(jù)凈化是數(shù)據(jù)預(yù)處理的第一項任務(wù),指的是將服務(wù)器日志中無意義的、無關(guān)緊要的數(shù)據(jù)去除,僅保留對挖掘有意義的數(shù)據(jù)。濰坊學(xué)院校園網(wǎng)服務(wù)器上的日志記錄包括用戶ID、用戶IP地址、用戶請求訪問的URL頁面、請求方法、訪問時間、傳輸協(xié)議、傳輸?shù)淖止?jié)數(shù)、錯誤代碼等屬性,而與數(shù)據(jù)挖掘相關(guān)的只有用戶IP地址、用戶ID、用戶請求訪問的URL頁面及訪問時間,其他屬性都可以去掉。另外,URL頁面中除了用戶關(guān)心的正文外,往往還有圖像、聲音、視頻等輔助信息,挖掘Web日志的目的是找出用戶的共同訪問模式,關(guān)于輔助信息的記錄是無用的,可以刪除。通過檢查URL的后綴,將后綴名為GIF、JPEG、JPG、gif、 jpeg、jpg、swf、css、js和map的請求項刪除。
(2)用戶識別
系統(tǒng)使用的技術(shù)是基于日志/站點的方法,并輔助一些啟發(fā)式規(guī)則幫助識別用戶:不同的IP地址代表不同的用戶;用戶的IP地址相同,但相應(yīng)的代理日志如果顯示用戶的操作系統(tǒng)或者瀏覽器類型改變了,就代表不同的用戶;如果用戶的IP地址相同,操作系統(tǒng)和瀏覽器的類型也相同,則根據(jù)網(wǎng)站的頁面鏈接結(jié)構(gòu)對用戶進行識別;如果當(dāng)前瀏覽的頁面同用戶已瀏覽的頁面沒有超鏈接關(guān)系,那么就認(rèn)為存在另外有相同IP地址的用戶。
(3)會話識別
系統(tǒng)使用的會話識別方法是使用時間戳timeout,將時間戳設(shè)置為30分鐘。如果用戶在連續(xù)瀏覽一些頁面后,30分鐘后再訪問了其它的頁面,也只把前面所連續(xù)訪問的頁面作為一個頁面集;如果30分鐘之內(nèi)接著訪問了其它頁面,則計入同一個會話中。
(4)路徑補全
檢查當(dāng)前引用日志確定引用請求來自哪一頁,如果在用戶的歷史記錄中有多個頁面都包含于當(dāng)前請求頁的鏈接,則將請求時間最接近當(dāng)前請求頁的頁面作為當(dāng)前請求的來源。若引用日志不完整,可以使用站點的頁面鏈接結(jié)構(gòu)代替。通過這種方法將遺漏的頁面請求添加到用戶的會話文件中。
(5)事務(wù)識別
系統(tǒng)采用的事務(wù)識別算法是時間窗方法,具體算法如下:
輸入:日志L
輸出:用戶訪問事務(wù)集T
T=NULL;
UserAccessSet=Partition(L);//根據(jù)每一個IP和代理對劃分日志。
FOR each ua ∈UserAccessSet BEGIN
ua=sort(ua);//對每一個訪問者的訪問記錄根據(jù)時間升序排列
t=NULL;
FOR each l[j]∈ua BEGIN
IF (l[j].time-l[j-1].time) Add(t,l[j]);//把l[j]增加到t的尾部 ELSE BEGIN T=T∪{t}; T=NULL; END END END 時間窗的大小界定是一個經(jīng)驗值,在該實驗中選取30分鐘,找到相應(yīng)的事務(wù)集就可以對這個事務(wù)集進行挖掘工作。 2.3數(shù)據(jù)挖掘 經(jīng)過數(shù)據(jù)預(yù)處理Agent的處理,得到近6000多個訪問記錄,其中涉及的不同頁面有426個。實驗選取最小支持度=10%,最小可信度=40%,利用關(guān)聯(lián)規(guī)則方法進行挖掘。可信度最高的8條強關(guān)聯(lián)規(guī)則如下: xsh→lt,90%xsh→lt,gsh,85.7% index→xw,80.2% index,xw,1627→1330,75% fd,dy→hlp,66.5% rshch→zhch,60% tshg→chx,51.6%tw→sht,46.6% 3.結(jié)果分析及建議 Web日志挖掘?qū)嶒灲Y(jié)果表明,訪問了xsh.asp的訪問事務(wù)幾乎一定訪問頁面lt.html;而訪問了xsh.asp,lt.html頁面的訪問事務(wù)也有85.7%的轉(zhuǎn)而訪問gsh.asp頁面;訪問了主頁index.asp的訪問事務(wù)中有80.2%轉(zhuǎn)向訪問xw.asp頁面;訪問index.asp,xw.asp,1627.html頁面的訪問事務(wù)中有75%的同時又訪問了1330.html頁面,依次類推。 結(jié)合挖掘出的關(guān)聯(lián)規(guī)則,通過對網(wǎng)站用戶頻繁訪問的路徑的分析,可以對用戶行為在一定程度上進行推測,這種推測對改進網(wǎng)站結(jié)構(gòu)有借鑒作用。通過分析發(fā)現(xiàn)網(wǎng)站鏈接的使用情況受以下幾個因素影響:某些頁面上的鏈接數(shù)太多,造成用戶搜尋所需信息的壁壘高;鏈接在頁面上所處的位置不合理,比如某些鏈接用戶不用滾動條看不到;鏈接標(biāo)題與鏈接指向內(nèi)容有一定的出入,所以用戶很少逗留從而進一步訪問下一級頁面等。本著因勢利導(dǎo),兼顧效率的原則,可以在以下幾個方面對網(wǎng)站鏈接結(jié)構(gòu)進行調(diào)整: (1)建議把導(dǎo)航性頁面層次擴大。上面的分析中發(fā)現(xiàn),用戶經(jīng)常通過緩存來訪問某些頁面,因此建議把導(dǎo)航性頁面層次擴大,在同級的頁面之間建立超級鏈接。 (2)對于同一導(dǎo)航頁面上用戶頻繁一起訪問的頁面之間,可以建立鏈接關(guān)系,加強這些頁面之間的連通性。 (3)調(diào)整鏈接的位置。根據(jù)鏈接在頁面上的位置和與其它頁面之間的關(guān)系調(diào)整其先后順序。 (4)用戶訪問中一起訪問的較深層次的相關(guān)內(nèi)容頁面之間應(yīng)該建立超級鏈接。 參考文獻(xiàn): [1]陸莉娜,楊儀玲,管旭東,魏恒義.Web日志挖掘中的數(shù)據(jù)預(yù)處理的研究[J].計算機工程,2007,26(4):178-179. [2]張藝雪.Web上的數(shù)據(jù)挖掘及應(yīng)用[J].信息科技,2007,20(15):76-79.