999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web日志挖掘在校園網(wǎng)建設(shè)中的應(yīng)用

2008-12-31 00:00:00朱慧爽
考試周刊 2008年28期

摘要: 本文以某高校校園網(wǎng)日志數(shù)據(jù)為應(yīng)用實例進行日志挖掘,并根據(jù)挖掘結(jié)果對校園網(wǎng)網(wǎng)站的結(jié)構(gòu)改進提出了建議。

關(guān)鍵詞: 數(shù)據(jù)挖掘 Web日志挖掘 Agent技術(shù)

1.引言

Web是一個開放性的全球分布式網(wǎng)絡(luò),資源分布在全球不同的地方,并且網(wǎng)上的資源沒有統(tǒng)一的管理和結(jié)構(gòu),導(dǎo)致了信息搜尋的困難。本文設(shè)計了一個利用Agent技術(shù)實現(xiàn)Web日志挖掘的系統(tǒng)模型,把Web挖掘任務(wù)分配給多個Agent來共同完成,包括預(yù)處理Agent、數(shù)據(jù)挖掘Agent、測試Agent、評價Agent等,每個Agent都有自己的目標(biāo),有獨立完成任務(wù)的能力,也可以和用戶等外部環(huán)境進行交互。模型能適用于Web信息處理的各種應(yīng)用,在信息的個性化推薦、電子商務(wù)的個性化服務(wù)、智能教學(xué)系統(tǒng)的建立、網(wǎng)站結(jié)構(gòu)的改進等方面有應(yīng)用前景。

本文以某高校校園網(wǎng)日志數(shù)據(jù)為應(yīng)用實例進行日志挖掘,并根據(jù)挖掘結(jié)果對校園網(wǎng)網(wǎng)站的結(jié)構(gòu)改進提出了建議。

2.具體應(yīng)用

2.1選取數(shù)據(jù)源

實驗的數(shù)據(jù)源為某高校校園網(wǎng)服務(wù)器上的日志文件,選取2007年9月份的Web訪問日志作為挖掘?qū)ο螅撔@網(wǎng)主頁共鏈接有18個分類頁面,如“學(xué)院概況”、“機構(gòu)設(shè)置”、“師資隊伍”、“招生就業(yè)”、“校園風(fēng)光”、“圖書館”等,稱為一級子頁面。一級子頁面鏈接的下一級頁面稱之為二級子頁面,二級子頁面共有96個。二級子頁面鏈接的下一級頁面定義為三級子頁面,以此類推。由于信息量巨大,為了簡化實驗過程,只選取了8萬余條日志進行分析。

2.2數(shù)據(jù)預(yù)處理

(1)數(shù)據(jù)凈化

數(shù)據(jù)凈化是數(shù)據(jù)預(yù)處理的第一項任務(wù),指的是將服務(wù)器日志中無意義的、無關(guān)緊要的數(shù)據(jù)去除,僅保留對挖掘有意義的數(shù)據(jù)。濰坊學(xué)院校園網(wǎng)服務(wù)器上的日志記錄包括用戶ID、用戶IP地址、用戶請求訪問的URL頁面、請求方法、訪問時間、傳輸協(xié)議、傳輸?shù)淖止?jié)數(shù)、錯誤代碼等屬性,而與數(shù)據(jù)挖掘相關(guān)的只有用戶IP地址、用戶ID、用戶請求訪問的URL頁面及訪問時間,其他屬性都可以去掉。另外,URL頁面中除了用戶關(guān)心的正文外,往往還有圖像、聲音、視頻等輔助信息,挖掘Web日志的目的是找出用戶的共同訪問模式,關(guān)于輔助信息的記錄是無用的,可以刪除。通過檢查URL的后綴,將后綴名為GIF、JPEG、JPG、gif、 jpeg、jpg、swf、css、js和map的請求項刪除。

(2)用戶識別

系統(tǒng)使用的技術(shù)是基于日志/站點的方法,并輔助一些啟發(fā)式規(guī)則幫助識別用戶:不同的IP地址代表不同的用戶;用戶的IP地址相同,但相應(yīng)的代理日志如果顯示用戶的操作系統(tǒng)或者瀏覽器類型改變了,就代表不同的用戶;如果用戶的IP地址相同,操作系統(tǒng)和瀏覽器的類型也相同,則根據(jù)網(wǎng)站的頁面鏈接結(jié)構(gòu)對用戶進行識別;如果當(dāng)前瀏覽的頁面同用戶已瀏覽的頁面沒有超鏈接關(guān)系,那么就認(rèn)為存在另外有相同IP地址的用戶。

(3)會話識別

系統(tǒng)使用的會話識別方法是使用時間戳timeout,將時間戳設(shè)置為30分鐘。如果用戶在連續(xù)瀏覽一些頁面后,30分鐘后再訪問了其它的頁面,也只把前面所連續(xù)訪問的頁面作為一個頁面集;如果30分鐘之內(nèi)接著訪問了其它頁面,則計入同一個會話中。

(4)路徑補全

檢查當(dāng)前引用日志確定引用請求來自哪一頁,如果在用戶的歷史記錄中有多個頁面都包含于當(dāng)前請求頁的鏈接,則將請求時間最接近當(dāng)前請求頁的頁面作為當(dāng)前請求的來源。若引用日志不完整,可以使用站點的頁面鏈接結(jié)構(gòu)代替。通過這種方法將遺漏的頁面請求添加到用戶的會話文件中。

(5)事務(wù)識別

系統(tǒng)采用的事務(wù)識別算法是時間窗方法,具體算法如下:

輸入:日志L

輸出:用戶訪問事務(wù)集T

T=NULL;

UserAccessSet=Partition(L);//根據(jù)每一個IP和代理對劃分日志。

FOR each ua ∈UserAccessSet BEGIN

ua=sort(ua);//對每一個訪問者的訪問記錄根據(jù)時間升序排列

t=NULL;

FOR each l[j]∈ua BEGIN

IF (l[j].time-l[j-1].time)

Add(t,l[j]);//把l[j]增加到t的尾部

ELSE BEGIN

T=T∪{t};

T=NULL;

END

END

END

時間窗的大小界定是一個經(jīng)驗值,在該實驗中選取30分鐘,找到相應(yīng)的事務(wù)集就可以對這個事務(wù)集進行挖掘工作。

2.3數(shù)據(jù)挖掘

經(jīng)過數(shù)據(jù)預(yù)處理Agent的處理,得到近6000多個訪問記錄,其中涉及的不同頁面有426個。實驗選取最小支持度=10%,最小可信度=40%,利用關(guān)聯(lián)規(guī)則方法進行挖掘。可信度最高的8條強關(guān)聯(lián)規(guī)則如下:

xsh→lt,90%xsh→lt,gsh,85.7%

index→xw,80.2% index,xw,1627→1330,75%

fd,dy→hlp,66.5% rshch→zhch,60%

tshg→chx,51.6%tw→sht,46.6%

3.結(jié)果分析及建議

Web日志挖掘?qū)嶒灲Y(jié)果表明,訪問了xsh.asp的訪問事務(wù)幾乎一定訪問頁面lt.html;而訪問了xsh.asp,lt.html頁面的訪問事務(wù)也有85.7%的轉(zhuǎn)而訪問gsh.asp頁面;訪問了主頁index.asp的訪問事務(wù)中有80.2%轉(zhuǎn)向訪問xw.asp頁面;訪問index.asp,xw.asp,1627.html頁面的訪問事務(wù)中有75%的同時又訪問了1330.html頁面,依次類推。

結(jié)合挖掘出的關(guān)聯(lián)規(guī)則,通過對網(wǎng)站用戶頻繁訪問的路徑的分析,可以對用戶行為在一定程度上進行推測,這種推測對改進網(wǎng)站結(jié)構(gòu)有借鑒作用。通過分析發(fā)現(xiàn)網(wǎng)站鏈接的使用情況受以下幾個因素影響:某些頁面上的鏈接數(shù)太多,造成用戶搜尋所需信息的壁壘高;鏈接在頁面上所處的位置不合理,比如某些鏈接用戶不用滾動條看不到;鏈接標(biāo)題與鏈接指向內(nèi)容有一定的出入,所以用戶很少逗留從而進一步訪問下一級頁面等。本著因勢利導(dǎo),兼顧效率的原則,可以在以下幾個方面對網(wǎng)站鏈接結(jié)構(gòu)進行調(diào)整:

(1)建議把導(dǎo)航性頁面層次擴大。上面的分析中發(fā)現(xiàn),用戶經(jīng)常通過緩存來訪問某些頁面,因此建議把導(dǎo)航性頁面層次擴大,在同級的頁面之間建立超級鏈接。

(2)對于同一導(dǎo)航頁面上用戶頻繁一起訪問的頁面之間,可以建立鏈接關(guān)系,加強這些頁面之間的連通性。

(3)調(diào)整鏈接的位置。根據(jù)鏈接在頁面上的位置和與其它頁面之間的關(guān)系調(diào)整其先后順序。

(4)用戶訪問中一起訪問的較深層次的相關(guān)內(nèi)容頁面之間應(yīng)該建立超級鏈接。

參考文獻(xiàn):

[1]陸莉娜,楊儀玲,管旭東,魏恒義.Web日志挖掘中的數(shù)據(jù)預(yù)處理的研究[J].計算機工程,2007,26(4):178-179.

[2]張藝雪.Web上的數(shù)據(jù)挖掘及應(yīng)用[J].信息科技,2007,20(15):76-79.

主站蜘蛛池模板: 欧美综合中文字幕久久| 91福利免费| 午夜无码一区二区三区| 国产成人一区在线播放| 国产免费久久精品99re不卡| h网站在线播放| 欧美影院久久| 2022国产无码在线| 国产幂在线无码精品| 伊人无码视屏| 91精品伊人久久大香线蕉| 日韩AV手机在线观看蜜芽| 国产乱肥老妇精品视频| 免费看美女自慰的网站| 91免费国产高清观看| 亚洲高清在线播放| 久久综合色88| 免费无码AV片在线观看国产| 色综合久久88| 国产成本人片免费a∨短片| 2020国产精品视频| 国产精品亚洲专区一区| 亚洲无码精品在线播放| 在线观看国产精品第一区免费| 四虎永久在线精品国产免费 | 在线高清亚洲精品二区| 国产精品亚欧美一区二区| 国产伦精品一区二区三区视频优播| 这里只有精品在线| 精品小视频在线观看| 亚洲丝袜中文字幕| 亚洲视频四区| 国产 在线视频无码| 日本91在线| 亚洲一区二区精品无码久久久| 东京热一区二区三区无码视频| 国产精品夜夜嗨视频免费视频| 亚洲成A人V欧美综合| 日本黄色不卡视频| 99re视频在线| 在线综合亚洲欧美网站| 国产在线八区| 国产亚洲精品97AA片在线播放| 亚洲精品国产自在现线最新| 国产SUV精品一区二区6| 欧美激情伊人| 国产无码在线调教| 五月天福利视频 | 欧美一区国产| 日本三级精品| 欧美日韩午夜| 欧美h在线观看| 99久久性生片| 亚洲AV无码久久天堂| 国产欧美视频一区二区三区| 黑色丝袜高跟国产在线91| 国产亚洲精品精品精品| 国产91高跟丝袜| 亚洲精品成人福利在线电影| 亚洲第一国产综合| 日韩欧美国产另类| 色哟哟色院91精品网站| 小13箩利洗澡无码视频免费网站| 色视频久久| 99在线视频网站| 国产男女免费完整版视频| 无码中文字幕精品推荐| 国产亚洲精品97在线观看| 亚洲综合欧美在线一区在线播放| 亚洲视频四区| 亚洲日韩精品欧美中文字幕| 99偷拍视频精品一区二区| 97人妻精品专区久久久久| 白丝美女办公室高潮喷水视频| 日韩精品资源| 亚洲中文字幕国产av| 老司机精品99在线播放| 青青网在线国产| 久久福利片| 国产成人精品免费av| 国产成人综合亚洲网址| 99视频只有精品|