999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web日志挖掘的頁面興趣度方法的改進(jìn)

2007-01-01 00:00:00
計(jì)算機(jī)時(shí)代 2007年3期

摘要:根據(jù)Web日志中的瀏覽時(shí)間、服務(wù)器發(fā)送字節(jié)數(shù)信息和統(tǒng)計(jì)所得的頁面瀏覽頻度計(jì)算頁面興趣度,并結(jié)合模糊理論,生成模糊關(guān)聯(lián)規(guī)則,提出了一個(gè)預(yù)測用戶瀏覽興趣的方法。實(shí)驗(yàn)表明,該方法是可行的并且具有較好的效果。

關(guān)鍵詞:Web日志挖掘;模糊集;關(guān)聯(lián)規(guī)則;頁面興趣度

0引言

自20世紀(jì)90年代互聯(lián)網(wǎng)開始迅速發(fā)展以來,Web已成為人們獲取信息的一個(gè)重要途徑,搜索引擎在人們的日常生活和學(xué)習(xí)中發(fā)揮了重要作用。隨著Web挖掘技術(shù)的發(fā)展以及需求的推動,出現(xiàn)了個(gè)性化服務(wù):通過收集和統(tǒng)計(jì)用戶的歷史數(shù)據(jù),挖掘用戶感興趣的頁面,獲取用戶興趣模型,以便在用戶以后的訪問過程中根據(jù)挖掘出來的用戶興趣模型自動向用戶推薦內(nèi)容,提高搜索效率。

Web挖掘可分為三類:Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘,Web使用挖掘。Web使用挖掘即Web日志挖掘。Web服務(wù)器的日志文件記錄了用戶訪問網(wǎng)站時(shí)的大量有用信息,日志挖掘是將數(shù)據(jù)挖掘技術(shù)應(yīng)用在日志文件上,發(fā)現(xiàn)用戶感興趣的瀏覽模式,分析網(wǎng)站的使用情況。

目前許多Web個(gè)性化推薦系統(tǒng)都涉及到頁面興趣度的計(jì)算,根據(jù)計(jì)算得到的頁面興趣度應(yīng)用數(shù)據(jù)挖掘技術(shù)獲得用戶的興趣模型,但這些計(jì)算方法都存在不足。本文結(jié)合Web日志挖掘和模糊集理論,利用Web日志中記錄的用戶訪問網(wǎng)站時(shí)的信息計(jì)算頁面興趣度,應(yīng)用Apriori算法生成模糊關(guān)聯(lián)規(guī)則,挖掘用戶的興趣模型。

1基礎(chǔ)知識

1.1 Web日志挖掘

Web服務(wù)器日志記錄了用戶訪問網(wǎng)站時(shí)的請求信息,一般包含日期、時(shí)間、用戶IP地址、用戶名、方法、URI資源(URL)、Win32狀態(tài)(簡稱狀態(tài))、發(fā)送字節(jié)數(shù)、接受字節(jié)數(shù)、所花時(shí)間、協(xié)議版本、用戶代理、Cookie、參照等信息字段。

由于Web記錄和HTTP協(xié)議自身的原因,原始Web日志是雜亂的,還原的信息包含錯誤信息,為了把Web日志轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的可靠的準(zhǔn)確的數(shù)據(jù),要對原始Web日志進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗、用戶識別、會話識別幾個(gè)步驟。

數(shù)據(jù)清洗 指刪除Web日志文件中與挖掘算法無關(guān)的記錄,處理錯誤記錄。用戶瀏覽網(wǎng)頁時(shí),與這個(gè)網(wǎng)頁有關(guān)的圖片、音頻及視頻等輔助信息會同網(wǎng)頁一起自動下載,這些信息并不是用戶請求的,與挖掘用戶的興趣模型無關(guān),根據(jù)URL地址上的文件后綴判斷文件類別,要將這類記錄刪除。具體到實(shí)際的系統(tǒng)應(yīng)保留哪些信息或刪除哪些信息要根據(jù)網(wǎng)站的類型決定。例如:主要包含音頻的網(wǎng)站,日志文件中的音頻文件可能就是用戶的顯示請求,此時(shí)就不能把音頻信息刪除。

用戶識別緩存、代理服務(wù)器和防火墻的使用,使得識別用戶的方法變得很復(fù)雜。常用的用戶識別方法是基于日志,站點(diǎn)的啟發(fā)式方法:

(1)當(dāng)IP地址相同時(shí),不同的瀏覽器或操作系統(tǒng)表示不同的用戶。

(2)當(dāng)IP地址、用戶使用的瀏覽器和操作系統(tǒng)均相同時(shí),將訪問日志和站點(diǎn)的拓?fù)浣Y(jié)構(gòu)結(jié)合,如果當(dāng)前請求的頁面同用戶已瀏覽的頁面之間沒有超鏈接關(guān)系,就認(rèn)為存在另外具有相同IP地址的用戶。

當(dāng)然,應(yīng)用這些規(guī)則并不能非常準(zhǔn)確地識別出每一個(gè)用戶。例如:校園網(wǎng)內(nèi)的學(xué)生機(jī)房,相同的IP地址,相同的瀏覽器和操作系統(tǒng),但用戶不是固定的。

會話識別 將一個(gè)用戶在一段時(shí)間內(nèi)所有請求的頁面分解成會話。會話的意義是用戶對服務(wù)器的一次有效訪問。

日志文件中不同用戶訪問的頁面屬于不同的會話。同一用戶訪問的頁面,若頁面請求的時(shí)間跨度比較大,認(rèn)為可能該用戶多次訪問同一網(wǎng)站。用戶訪問的頁面可以分為多個(gè)會話,常用的方法就是設(shè)置一個(gè)時(shí)間閾值,如果用戶訪問頁面的時(shí)間差超過這個(gè)閾值,則認(rèn)為用戶開始了一個(gè)新的會話。這個(gè)閾值一般設(shè)置為30分鐘。

1.2模糊集理論

對于一個(gè)集合,一個(gè)對象屬于這個(gè)集合,或者不屬于這個(gè)集合,兩者必居其一,且僅居其一。集合論的這個(gè)概念大大限制了古典數(shù)學(xué)的應(yīng)用范圍,使其無法處理日常生活中大量的不明確的模糊現(xiàn)象與概念。Zadeh于1965年提出的模糊集的概念是對普通集合的一種推廣,并奠定了模糊數(shù)學(xué)的理論基礎(chǔ)。

假設(shè)u是一個(gè)論域,u上的一個(gè)模糊集合A由u上的一個(gè)實(shí)值函數(shù)表示。對于稱為u對于A的隸屬度,而稱為A的隸屬函數(shù)。通常用A(u)表示。

的值表示u屬于A的程度。的值越接近1,u屬于A的程度就越高;相反,(u)的值越接近O,u屬于A的程度就越低。

2已有的頁面興趣度計(jì)算方法

頁面興趣度的計(jì)算不是—個(gè)新的課題。文獻(xiàn)[5]選取用戶瀏覽頁面的次數(shù)和訪問時(shí)間作為描述用戶興趣的屬性。但是用戶訪問頁面所用的時(shí)間是與頁面自身的長度相關(guān)的,單純考慮訪問時(shí)間不能反映用戶的瀏覽興趣。文獻(xiàn)[6]綜合考慮了瀏覽頻度、時(shí)間和頁面長度作為描述用戶興趣的屬性。但是頁面長度信息在Web日志文件中沒有相應(yīng)的字段記錄,頁面長度信息無從獲取。文獻(xiàn)[7]將會話中兩個(gè)連續(xù)訪問頁面之間的時(shí)間差定義為“持續(xù)時(shí)間”,作為描述用戶興趣的屬性。其不足之處有二:一是持續(xù)時(shí)間與網(wǎng)絡(luò)的傳輸速度有直接的關(guān)系,不能準(zhǔn)確地表示用戶的興趣,產(chǎn)生的誤差可能很大;二是會話中最后一個(gè)頁面的持續(xù)時(shí)間無法得到。

3改進(jìn)的頁面興趣度計(jì)算方法

日志文件中記錄著豐富的用戶信息,經(jīng)過統(tǒng)計(jì)所得到的信息和日志文件本身記錄的信息均為可利用信息。結(jié)合上述文獻(xiàn)中用到的頁面興趣度的計(jì)算方法,本文選擇兩個(gè)在日志文件中記錄的字段信息和統(tǒng)計(jì)得到的信息計(jì)算頁面興趣度。兩個(gè)字段信息分別為所花時(shí)間和發(fā)送字節(jié)數(shù),需要統(tǒng)計(jì)的信息是頁面的瀏覽頻度。所花時(shí)間表示完成瀏覽所花費(fèi)的時(shí)間,發(fā)送字節(jié)數(shù)表示服務(wù)器發(fā)送的字節(jié)數(shù)。

數(shù)據(jù)預(yù)處理完成后的數(shù)據(jù)形式為用戶會話,由多個(gè)頁面組成。會話中每個(gè)頁面的興趣度表示用戶對這個(gè)頁面的感興趣程度。每個(gè)頁面都用兩個(gè)字段記錄了所花時(shí)間和發(fā)送字節(jié)數(shù)。將頁面被用戶瀏覽的次數(shù)作為這個(gè)頁面的瀏覽頻度。設(shè)si為一會話,其中,cn表示第n個(gè)頁面,tn是第n個(gè)頁面所花時(shí)間信息,sbn是第n個(gè)頁面的發(fā)送字節(jié)數(shù)信息,fn是第n個(gè)頁面的瀏覽頻度。頁面j的興趣度pj可按以下公式計(jì)算得到。式中:m表示會話數(shù),n表示頁面數(shù)。

4實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

將本文計(jì)算頁面興趣度的方法與文獻(xiàn)[7]中的方法進(jìn)行比較。

4.1實(shí)驗(yàn)設(shè)計(jì)

原始資料來自河北大學(xué)網(wǎng)絡(luò)中心提供的河北大學(xué)網(wǎng)站的日志文件,經(jīng)過數(shù)據(jù)預(yù)處理、模糊化,計(jì)算模糊支持度、模糊置信度生成模糊關(guān)聯(lián)規(guī)則,并在測試集上進(jìn)行規(guī)則匹配。實(shí)驗(yàn)數(shù)據(jù)為2006年3月12日和13日兩天的日志文件,取20903條日志記錄作為訓(xùn)練集,30489條日志記錄作為測試集。數(shù)據(jù)預(yù)處理后每條記錄包含的信息字段為日期、時(shí)間、方法、URI資源(URL)、用戶IP地址、協(xié)議版本、用戶代理、參照、狀態(tài)、發(fā)送字節(jié)數(shù)、接收字節(jié)數(shù)、所花時(shí)間。利用記錄中的發(fā)送字節(jié)數(shù)和所花時(shí)間信息和統(tǒng)計(jì)得到的頁面瀏覽頻度按照上述公式計(jì)算頁面的興趣度,根據(jù)圖l所示的隸屬函數(shù)將頁面興趣度模糊化為四種狀態(tài):不感興趣(uI)、一般(GE)、感興趣(IN)、非常感興趣(vI)。根據(jù)模糊化后的結(jié)果,將uI值為l的頁面刪除(即興趣度小于等于0.1的頁面),此類頁面為用戶極不感興趣的頁面,對發(fā)現(xiàn)模糊關(guān)聯(lián)規(guī)則沒有意義。

假設(shè)一用戶會話,包含三個(gè)頁面,模糊化后的結(jié)果如表1所示。

根據(jù)文獻(xiàn)[7]中用到的發(fā)現(xiàn)模糊關(guān)聯(lián)規(guī)則的基本方法,計(jì)算模糊支持度和模糊置信度。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則首先要找到頻繁項(xiàng)集(滿足最小支持度閾值的項(xiàng)集為頻繁項(xiàng)集),然后從頻繁項(xiàng)集中生成強(qiáng)壯的關(guān)聯(lián)規(guī)則,這些規(guī)則既要滿足最小支持度閾值又要滿足最小置信度閾值。關(guān)聯(lián)規(guī)則為IF…THEN…形式。例如:規(guī)則為IF A is c THEN B is D,其中,A和B均為頁面,c和D為集合{ut,GE,IN,VIl中的值。

模糊支持度表示對項(xiàng)集的支持程度。計(jì)算方法是所有頁面對應(yīng)的隸屬度之和除以頁面出現(xiàn)的次數(shù)。例如,X=AUB,Y--CUD,x是頁面的集合,Y是狀態(tài)的集合。頁面A、B分別為狀態(tài)c、D的隸屬度情況如表2所示。

則模糊支持度為:

模糊置信度用來估計(jì)生成的模糊關(guān)聯(lián)規(guī)則的感興趣程度。計(jì)算方法是利用公式,規(guī)則IF A is c THEN B is D的置信度為:

根據(jù)計(jì)算所得的置信度,大于置信度閾值的為模糊關(guān)聯(lián)規(guī)則。

4.2結(jié)果分析

對于每一條規(guī)則,模糊支持度閾值設(shè)為0.3,模糊置信度閾值設(shè)為0.4。得到的實(shí)驗(yàn)結(jié)果與文獻(xiàn)[7]中實(shí)驗(yàn)的基本方法比較。文獻(xiàn)[7]中的實(shí)驗(yàn):將原始日志數(shù)據(jù)預(yù)處理后進(jìn)行會話識別,選擇會話中用戶連續(xù)訪問頁面之間的時(shí)間差作為模糊化屬性,模糊化后生成模糊關(guān)聯(lián)規(guī)則。實(shí)驗(yàn)在同樣的訓(xùn)練集和測試集上進(jìn)行,結(jié)果如表3所示。

實(shí)驗(yàn)1應(yīng)用本文所提出的方法進(jìn)行的實(shí)驗(yàn),實(shí)驗(yàn)2應(yīng)用文獻(xiàn)[7]中所用方法進(jìn)行的實(shí)驗(yàn)。表3中規(guī)則在測試集中匹配成功的次數(shù)一欄是指生成的每條規(guī)則在測試集上進(jìn)行匹配,匹配成功的次數(shù)相加求和。從實(shí)驗(yàn)結(jié)果可以看出實(shí)驗(yàn)2生成的規(guī)則數(shù)是實(shí)驗(yàn)1的1.2倍。但是實(shí)驗(yàn)1生成的規(guī)則在測試集中匹配成功的次數(shù)是實(shí)驗(yàn)2的2.5倍。生成的規(guī)則少,在測試集中找到的個(gè)數(shù)多,表明實(shí)驗(yàn)l挖掘出來的規(guī)則是用戶頻繁訪問的,能夠代表用戶的興趣。

5結(jié)束語

隨著互聯(lián)網(wǎng)的發(fā)展,Web服務(wù)的個(gè)性化趨勢已成必然。本文提出了一個(gè)得到用戶瀏覽興趣的方法,此方法利用日志記錄中的兩個(gè)字段信息和統(tǒng)計(jì)所得的瀏覽頻度信息,計(jì)算得到用戶的興趣度。本方法采用實(shí)際日志數(shù)據(jù)。雖然日志數(shù)據(jù)能體現(xiàn)用戶的真實(shí)信息,但所包含的信息有限。在以后的研究中應(yīng)考慮利用用戶的背景信息,這類信息必須是用戶愿意提供而且不能被屏蔽的,這樣挖掘出來的用戶興趣模型會更準(zhǔn)確。

(注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。)

主站蜘蛛池模板: 激情综合五月网| 成人毛片免费在线观看| 国内精品九九久久久精品| 亚洲欧洲日韩综合| 国产成人欧美| 99久久婷婷国产综合精| 午夜a级毛片| 波多野结衣亚洲一区| 国产正在播放| 国产乱人伦精品一区二区| 国产jizzjizz视频| 国产在线自揄拍揄视频网站| 国产麻豆精品在线观看| 欧美精品亚洲二区| 精品久久国产综合精麻豆| 91免费观看视频| 欧美在线国产| 一本大道在线一本久道| 亚洲天堂首页| 国产第一页免费浮力影院| 伊人婷婷色香五月综合缴缴情| 内射人妻无套中出无码| 国产精品手机在线播放| www.youjizz.com久久| 影音先锋丝袜制服| 无码福利日韩神码福利片| 日韩无码视频专区| 亚洲永久免费网站| 国产在线小视频| 国产精品人成在线播放| 97青草最新免费精品视频| 亚洲欧美在线综合图区| 亚洲无码高清免费视频亚洲| 九色91在线视频| 72种姿势欧美久久久大黄蕉| 综合亚洲色图| 日韩毛片免费| 国产99视频在线| 国产网站免费观看| 美女无遮挡免费网站| а∨天堂一区中文字幕| 国产精品区视频中文字幕| 99久久婷婷国产综合精| a毛片免费观看| 在线日本国产成人免费的| 视频国产精品丝袜第一页| 日韩麻豆小视频| 国产自在线播放| 国产午夜福利在线小视频| 无码中文字幕精品推荐| 99热国产在线精品99| 免费一级毛片在线播放傲雪网| 无码一区18禁| 国产高清免费午夜在线视频| 久久大香香蕉国产免费网站| 欧美a在线| 欧美精品v欧洲精品| 日韩精品资源| 91久久精品国产| 国产在线视频导航| 日本人又色又爽的视频| 婷婷综合缴情亚洲五月伊| 国产精品男人的天堂| 日韩在线欧美在线| 成人午夜久久| 欧美亚洲激情| 思思热精品在线8| 精品91自产拍在线| 国产杨幂丝袜av在线播放| 欧美激情视频一区| 亚洲第一中文字幕| 5388国产亚洲欧美在线观看| 国产美女91视频| 欧美日韩va| 天天综合网色| 日韩经典精品无码一区二区| 波多野结衣视频一区二区| 日韩av在线直播| 青青草久久伊人| 国产女人在线观看| 国产麻豆永久视频| 欧美成人手机在线观看网址|