999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種Web使用模式挖掘模型的設(shè)計(jì)

2007-01-01 00:00:00陳俊杰

摘 要:Web使用模式挖掘是對(duì)用戶(hù)瀏覽Web后在服務(wù)器日志上所留信息的數(shù)據(jù)挖掘。介紹了挖掘中常用技術(shù)及流程,并提出一種Web使用模式挖掘體系結(jié)構(gòu),介紹了系統(tǒng)的工作原理,對(duì)系統(tǒng)設(shè)計(jì)中的數(shù)據(jù)清洗和會(huì)話(huà)識(shí)別等關(guān)鍵技術(shù)作了詳細(xì)討論。

關(guān)鍵詞:數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;Web使用模式挖掘;Web日志

中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001—3695(2007)03—0184—03

目前,Internet上的搜索引擎大致可分為三種類(lèi)型:基于人工的搜索引擎,如Yahoo;基于軟件Robot的搜索引擎,如AltaVista、Lycos、Excite等,以及元搜索引擎,如Bytesearch、MetaCrawler、Ixquick等。盡管目前的搜索引擎給人們搜尋信息資源帶來(lái)了很大的便利,但其效果還遠(yuǎn)不能令人滿(mǎn)意。數(shù)據(jù)挖掘技術(shù)經(jīng)過(guò)多年的發(fā)展已趨于成熟,它可利用計(jì)算機(jī)從龐大的數(shù)據(jù)中智能地、主動(dòng)地抽取有價(jià)值的數(shù)據(jù)模式,滿(mǎn)足人們不同的需要。所以,把數(shù)據(jù)挖掘引入Web信息檢索中,就成了當(dāng)前一項(xiàng)十分重要的任務(wù)。

1 Web使用模式挖掘

Web使用模式挖掘是在用戶(hù)訪問(wèn)Web后,對(duì)服務(wù)器上留下的訪問(wèn)路徑進(jìn)行挖掘,即對(duì)用戶(hù)訪問(wèn)Web站點(diǎn)的存取方式進(jìn)行挖掘。挖掘的目的是在海量的Web日志數(shù)據(jù)中自動(dòng)、快速地發(fā)現(xiàn)用戶(hù)的訪問(wèn)模式,如頻繁訪問(wèn)路徑、頻繁訪問(wèn)頁(yè)組、用戶(hù)聚類(lèi)等。

1.1 Web使用模式挖掘常用技術(shù)

Web使用模式挖掘中常用以下一些技術(shù):

(1)關(guān)聯(lián)規(guī)則挖掘技術(shù)(Associate Mining Technology)。在Web數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則挖掘就是要挖掘出用戶(hù)在一個(gè)訪問(wèn)期間(Session)從服務(wù)器上訪問(wèn)的頁(yè)面或文件之間的聯(lián)系。最為著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法是R.Agrawal提出的Apriori算法,從事務(wù)數(shù)據(jù)庫(kù)中挖掘出最大頻繁訪問(wèn)項(xiàng)集,這個(gè)項(xiàng)集就是關(guān)聯(lián)規(guī)則挖掘出來(lái)的用戶(hù)訪問(wèn)模式。

(2)序列模式挖掘技術(shù)(Sequence Mining Technology)。序列模式挖掘就是要挖掘出交易集之間的有時(shí)間序列的模式。在網(wǎng)站服務(wù)器日志里,用戶(hù)的訪問(wèn)是以時(shí)間段為單位記錄的,經(jīng)過(guò)數(shù)據(jù)清洗和事務(wù)識(shí)別以后是一個(gè)間斷的時(shí)間序列。這些序列所反映的用戶(hù)行為有助于網(wǎng)站確認(rèn)用戶(hù)訪問(wèn)網(wǎng)站的興趣所在。

(3)分類(lèi)與聚類(lèi)技術(shù)(Classification Clustering) 。分類(lèi)規(guī)則可以挖掘Web日志中某些共同的特性,利用該特性對(duì)新添到數(shù)據(jù)庫(kù)里的數(shù)據(jù)項(xiàng)進(jìn)行分類(lèi),根據(jù)訪問(wèn)模式得出訪問(wèn)某一服務(wù)器文件的用戶(hù)特征。聚類(lèi)分析用于將有相似特性的用戶(hù)、數(shù)據(jù)項(xiàng)集合到一起。聚類(lèi)的目標(biāo)是將大量的數(shù)據(jù)項(xiàng)聚集成類(lèi),使得類(lèi)與類(lèi)之間的相似度盡量小,而類(lèi)內(nèi)的相似度盡量大。分類(lèi)問(wèn)題和聚類(lèi)問(wèn)題其根本分歧點(diǎn)在于:分類(lèi)問(wèn)題中的數(shù)據(jù)庫(kù)數(shù)據(jù)項(xiàng)的分類(lèi)屬性值是已知的,而在聚類(lèi)問(wèn)題中,就需要通過(guò)使用一些算法來(lái)找出這個(gè)分類(lèi)屬性值。

(4)路徑分析技術(shù)(Route Analysis Technology)。在Web使用模式挖掘過(guò)程中,通過(guò)路徑分析技術(shù)可以確定網(wǎng)站的頻繁訪問(wèn)路徑,可以對(duì)頻繁訪問(wèn)的路徑進(jìn)行優(yōu)化,并可以在頻繁訪問(wèn)的路徑上放置重要的信息,如導(dǎo)航信息等,以方便用戶(hù)使用。通過(guò)路徑分析技術(shù)得出的網(wǎng)站結(jié)構(gòu)圖在模式挖掘中非常有用。

1.2 Web使用模式挖掘流程

Web使用模式挖掘主要是存在于服務(wù)器日志中的用戶(hù)訪問(wèn)信息,它將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web中,形成了自己的挖掘方式。一般對(duì)Web使用模式挖掘流程的劃分可分為三步和四步兩種不同的看法。三步法認(rèn)為應(yīng)分為數(shù)據(jù)準(zhǔn)備階段、模式發(fā)現(xiàn)階段和模式分析階段。四步法是將流程分為源數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式挖掘和模式分析四個(gè)階段。因?yàn)樵磾?shù)據(jù)收集和數(shù)據(jù)預(yù)處理可以歸并為數(shù)據(jù)準(zhǔn)備,所以本文采用三步劃分法。其流程如圖1所示。

2 WUMS體系結(jié)構(gòu)

2.1 WUMS體系結(jié)構(gòu)功能

WUMS(Web Usage Mining System)是本文提出的一種Web使用模式挖掘系統(tǒng)工具。本系統(tǒng)根據(jù)功能的不同可劃分為三個(gè)模塊,即數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)挖掘模塊和可視化界面模塊。其系統(tǒng)結(jié)構(gòu)如圖2所示。

2.2 系統(tǒng)功能實(shí)現(xiàn)

本系統(tǒng)在設(shè)計(jì)上分為三大模塊,各模塊主要功能如下:

(1)數(shù)據(jù)預(yù)處理模塊。它對(duì)應(yīng)Web使用模式挖掘的數(shù)據(jù)預(yù)處理部分。這部分模塊包含的內(nèi)容比較多,先利用一個(gè)數(shù)據(jù)采集器將日志中的數(shù)據(jù)收集回來(lái),再經(jīng)過(guò)一系列的清洗、入庫(kù)、識(shí)別、集成等步驟得到可滿(mǎn)足不同用戶(hù)進(jìn)行數(shù)據(jù)挖掘需要的集成數(shù)據(jù)。

這個(gè)階段是進(jìn)行Web使用模式挖掘的第一個(gè)步驟。Web數(shù)據(jù)是海量的、異構(gòu)的、半結(jié)構(gòu)或無(wú)結(jié)構(gòu)的,而Web使用模式挖掘中主要用到三種數(shù)據(jù)類(lèi)型,即結(jié)構(gòu)數(shù)據(jù)、使用數(shù)據(jù)和用戶(hù)數(shù)據(jù)。所以,從服務(wù)器讀取的日志中因?yàn)楹性S多與數(shù)據(jù)挖掘無(wú)關(guān)的數(shù)據(jù)項(xiàng),它們必須經(jīng)過(guò)數(shù)據(jù)清洗后變?yōu)閮魯?shù)據(jù)才能使用。清洗后的凈數(shù)據(jù)經(jīng)事務(wù)識(shí)別過(guò)程被分為若干邏輯單元,對(duì)不同的用戶(hù)表達(dá)相應(yīng)的用戶(hù)事務(wù)。這一步結(jié)束后,再將數(shù)據(jù)集成,并且將數(shù)據(jù)格式化,轉(zhuǎn)換成模式發(fā)現(xiàn)階段各挖掘算法對(duì)應(yīng)的數(shù)據(jù)格式,以適應(yīng)不同的數(shù)據(jù)挖掘任務(wù)。這個(gè)階段比較重要,目前對(duì)這一階段進(jìn)行研究的人員很多,并且取得了一定的成效。但是國(guó)內(nèi)對(duì)此項(xiàng)的研究大多還停留在實(shí)驗(yàn)室階段,離實(shí)際應(yīng)用還有一段距離。

(2)數(shù)據(jù)挖掘模塊。它將模式發(fā)現(xiàn)與模式分析合并到一起。預(yù)處理模塊送出的數(shù)據(jù)經(jīng)程序調(diào)用挖掘內(nèi)核中的知識(shí)庫(kù),知識(shí)庫(kù)再根據(jù)具體模式調(diào)用算法庫(kù)來(lái)處理,得到的結(jié)果經(jīng)模式評(píng)估返回可視化界面。其中挖掘內(nèi)核是系統(tǒng)的核心。挖掘內(nèi)核中的知識(shí)庫(kù)是一個(gè)規(guī)則的集合,能夠根據(jù)不同的挖掘要求來(lái)選擇最有效的挖掘算法或幾種算法的序列組合,并且隨著應(yīng)用的深入,該知識(shí)庫(kù)不斷融入新的規(guī)則,以增加專(zhuān)家系統(tǒng)的智能性。這一部分非常關(guān)鍵,也是整個(gè)Web使用模式挖掘工具中最難實(shí)現(xiàn)的部分,它的完善程度直接關(guān)系到挖掘的質(zhì)量。

這個(gè)階段的主要工作是根據(jù)不同的數(shù)據(jù)挖掘任務(wù),采取相應(yīng)的挖掘算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘。各種挖掘算法包括關(guān)聯(lián)規(guī)則、聚類(lèi)分類(lèi)、序列模式等。這些算法在前面1.1節(jié)中已簡(jiǎn)要介紹過(guò),在此不再贅述。因?yàn)槿罩纠锎娣诺氖呛A繑?shù)據(jù),在采用挖掘算法時(shí)要考慮到時(shí)效性,并要考慮到Web日志數(shù)據(jù)本身的特點(diǎn)。

(3)可視化界面模塊。數(shù)據(jù)挖掘的可視化技術(shù)是指使用圖形用戶(hù)界面來(lái)幫助用戶(hù)挖掘和理解大量的復(fù)雜數(shù)據(jù)。可視化技術(shù)對(duì)于用戶(hù)管理和理解大量的模式提供了極大的便利。

這個(gè)模塊實(shí)現(xiàn)用戶(hù)與系統(tǒng)之間的交互,采用界面友好的可視化形式呈現(xiàn)。在這個(gè)界面上用戶(hù)可以提出挖掘請(qǐng)求,設(shè)置挖掘參數(shù),并可對(duì)返回的結(jié)果進(jìn)行評(píng)估,對(duì)不滿(mǎn)意的結(jié)果進(jìn)行再次挖掘,知識(shí)庫(kù)會(huì)重新設(shè)計(jì)規(guī)則,直到得到滿(mǎn)意的結(jié)果為止。其結(jié)果可根據(jù)用戶(hù)的喜好以圖表、目錄樹(shù)等不同的樣式呈現(xiàn)給用戶(hù),以實(shí)現(xiàn)用戶(hù)的個(gè)性化挖掘。

3 關(guān)鍵技術(shù)

3.1 數(shù)據(jù)清洗和會(huì)話(huà)識(shí)別技術(shù)

數(shù)據(jù)清洗是指刪除采集來(lái)的Web日志中與挖掘算法無(wú)關(guān)的內(nèi)容,包括圖片、框架等非用戶(hù)請(qǐng)求單位、Robot瀏覽日志記錄以及一些噪聲、錯(cuò)誤數(shù)據(jù)等。會(huì)話(huà)識(shí)別是事務(wù)識(shí)別中的重要內(nèi)容,它是指在一些時(shí)間跨度較大的服務(wù)器日志中,用戶(hù)可能若干次地訪問(wèn)該站點(diǎn),這就需要將用戶(hù)的訪問(wèn)記錄分為單個(gè)會(huì)話(huà)。常用的會(huì)話(huà)識(shí)別模型是時(shí)間窗口模型,即假定用戶(hù)訪問(wèn)一次某站點(diǎn)有最大時(shí)間限制,超過(guò)此時(shí)間就要?jiǎng)澐值较麓卧L問(wèn)中,一般該時(shí)間采用30 min。設(shè)t0是一個(gè)當(dāng)前構(gòu)建會(huì)話(huà)的起始請(qǐng)求時(shí)間,對(duì)URL的下一個(gè)請(qǐng)求來(lái)說(shuō),當(dāng)且僅當(dāng)t-t0≤w時(shí),該請(qǐng)求才被加入當(dāng)前會(huì)話(huà),否則就作為下一個(gè)會(huì)話(huà)的起始請(qǐng)求。這里的用戶(hù)通過(guò)Cookie來(lái)區(qū)分。

3.1.1 Conversation_Manager算法

其中,Users指用戶(hù)活動(dòng)記錄,SiteGraph指網(wǎng)站結(jié)構(gòu)圖,ConverSet指會(huì)話(huà)集合。用戶(hù)活動(dòng)記錄中的字段Agent指用戶(hù)代理;Status指狀態(tài)字;Page指被請(qǐng)求頁(yè)URL;Cookie指Cookie號(hào);Datetime指請(qǐng)求時(shí)間;Refer指參考頁(yè)URL。3.1.2 算法步驟

( 1)通過(guò)程序調(diào)用,輸入用戶(hù)活動(dòng)記錄、網(wǎng)站結(jié)構(gòu)和會(huì)話(huà)集合等參數(shù)。

(2)檢查用戶(hù)活動(dòng)記錄,根據(jù)代理判斷是否為Spider記錄,根據(jù)狀態(tài)字判斷是否出錯(cuò),再根據(jù)被請(qǐng)求頁(yè)URL,同時(shí)參照網(wǎng)站結(jié)構(gòu)圖判斷是否為頁(yè)面內(nèi)嵌對(duì)象。

(3)搜索會(huì)話(huà)記錄集,看是否存在此會(huì)話(huà),若不存在就建立一個(gè)新的會(huì)話(huà)。

(4)若當(dāng)前會(huì)話(huà)結(jié)束或超過(guò)預(yù)設(shè)時(shí)間閾(w=30 min),則結(jié)束當(dāng)前會(huì)話(huà),并新建下一個(gè)會(huì)話(huà)。

(5)將此活動(dòng)記錄插入相應(yīng)的會(huì)話(huà)中。

(6)判斷被請(qǐng)求頁(yè)的參考頁(yè)是否為動(dòng)態(tài)生成頁(yè)面,若是則添加入動(dòng)態(tài)頁(yè)面集中。這是因?yàn)榫W(wǎng)站的頁(yè)面分為動(dòng)態(tài)頁(yè)面和靜態(tài)頁(yè)面兩種,兩種頁(yè)面生成不同,結(jié)構(gòu)也不同,分別存儲(chǔ),其中動(dòng)態(tài)頁(yè)面技術(shù)較復(fù)雜,信息更有用,所以這里將動(dòng)態(tài)頁(yè)面數(shù)據(jù)提取出來(lái),以備將來(lái)分析使用。

3.2 挖掘內(nèi)核技術(shù)

WUMS系統(tǒng)中的挖掘內(nèi)核包括知識(shí)庫(kù)和算法庫(kù),這兩者相結(jié)合構(gòu)成數(shù)據(jù)挖掘模塊的核心。其中知識(shí)庫(kù)是一個(gè)方法選擇專(zhuān)家系統(tǒng),它通過(guò)自組織學(xué)習(xí)不斷完善已有規(guī)則并生成新的規(guī)則,根據(jù)不同的用戶(hù)要求來(lái)調(diào)用算法庫(kù)中不同的算法,得出結(jié)果,并可在用戶(hù)評(píng)估后將不滿(mǎn)意的結(jié)果重新修正,以期最終能得出符合用戶(hù)要求的結(jié)果。

4 結(jié)束語(yǔ)

Web使用模式挖掘是一個(gè)對(duì)服務(wù)器日志的挖掘,它旨在得出日志中有用的用戶(hù)訪問(wèn)信息,以使網(wǎng)站有針對(duì)性地完善自身,能更好地服務(wù)用戶(hù)并取得較好的經(jīng)濟(jì)效益。本文對(duì)Web數(shù)據(jù)挖掘作了比較詳細(xì)的介紹,并對(duì)Web使用模式的挖掘作了較深入的探討,最后提出了一種Web使用模式挖掘系統(tǒng)模型,對(duì)設(shè)計(jì)中的一些關(guān)鍵問(wèn)題進(jìn)行了闡述。今后將進(jìn)一步完善該系統(tǒng),使其能夠?qū)嶋H投入使用。

本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。

主站蜘蛛池模板: 伊人AV天堂| 高清久久精品亚洲日韩Av| 强奷白丝美女在线观看| 日韩二区三区无| 中文国产成人精品久久| 无码'专区第一页| 国产在线第二页| 国产精品不卡永久免费| 欧美精品伊人久久| 国产啪在线91| 在线观看av永久| 国产成人你懂的在线观看| 伊人精品视频免费在线| 国禁国产you女视频网站| 黄色三级网站免费| 拍国产真实乱人偷精品| 日本不卡在线视频| 午夜激情婷婷| 亚洲第一黄片大全| 亚洲综合色吧| 国产91在线|日本| 国产精品久久久久久久伊一| 亚洲第一黄色网址| 国产精选小视频在线观看| 伊人欧美在线| 日韩在线观看网站| 亚洲一级毛片在线播放| 色亚洲激情综合精品无码视频| 97青草最新免费精品视频| 老司机精品久久| 国内精品久久久久久久久久影视| 毛片视频网| 亚洲熟女偷拍| 在线精品自拍| 国产精品亚洲一区二区三区在线观看| 亚洲国产欧美目韩成人综合| 一本大道香蕉中文日本不卡高清二区| 99热国产这里只有精品无卡顿"| 在线国产91| 日本在线欧美在线| 精品国产亚洲人成在线| 老熟妇喷水一区二区三区| 在线观看av永久| 999福利激情视频| 欧美成a人片在线观看| 国产激情第一页| 亚洲午夜国产精品无卡| a免费毛片在线播放| 扒开粉嫩的小缝隙喷白浆视频| 久久精品中文字幕少妇| 日韩视频免费| 久久黄色视频影| 久996视频精品免费观看| 婷婷亚洲天堂| 97se亚洲综合| 黄色一级视频欧美| 亚洲青涩在线| 国产欧美日韩另类精彩视频| 欧美α片免费观看| 精品午夜国产福利观看| 久久99热这里只有精品免费看| 无码区日韩专区免费系列| 日韩欧美91| 99热最新在线| 91美女视频在线| 亚洲高清在线天堂精品| 国产精品一区二区久久精品无码| 午夜毛片免费看| 一本大道AV人久久综合| 欧日韩在线不卡视频| 日韩二区三区无| 亚洲综合色在线| 国内精自线i品一区202| 中文无码精品a∨在线观看| aa级毛片毛片免费观看久| 在线欧美一区| 日韩大片免费观看视频播放| 国产欧美日韩一区二区视频在线| 亚洲色欲色欲www在线观看| 午夜精品久久久久久久2023| 国产三级成人| 国产99视频精品免费视频7 |