999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web日志挖掘數據預處理的研究

2009-10-26 09:35:10馬世軍
新媒體研究 2009年13期
關鍵詞:頁面數據挖掘用戶

姚 建 馬世軍 喬 文

[摘要]Web日志挖掘技術是Web數據挖掘中最重要的應用。通過對挖掘服務器日志文件的分析和研究,可以對網站的組織結構及其性能進行改進,增加個性化服務,發現潛在的讀者群體。數據預處理關系到Web日志挖掘的質量。數據預處理包括數據清理、用戶識別、會話識別、路徑補充、格式化數據。

[關鍵詞]數據挖掘Web日志挖掘數據預處理

中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0710035-01

一、引言

目前,基于Web日志的數據挖掘研究大致分為3類:以分析系統性能為目標,以改進系統設計為目標,以理解用戶意圖為目標。Web日志挖掘主要分為3個步驟:

1.數據預處理。根據挖掘的目的,對原始Web日志文件中的數據進行提取,分解,合并,最后轉換為適合進行數據挖掘的數據格式,并保存到關系型數據庫表或數據倉庫中,等待進一步處理。

2.模式識別。運用各種算法對處理后的數據進行挖掘,生成模式。

3.模式分析。進行用戶訪問模式的分析,從而將有價值的模式提取出來。數據預處理這個環節是整個過程的基礎和實施有效挖掘算法的前提,在Web日志挖掘中起著非常重要的作用。他是從大量的數據屬性中提取出對目標有重要影響的屬性來降低原始數據的維數,或者是處理一些不好的數據,從而改善實例數據的質量和提高數據挖掘的速度。

二、Web日志文件

Web日志文件是Web服務器上用以記錄用戶訪問頁面情況的文件。日志記錄最主要的記錄了什么人在什么時候瀏覽了哪些內容、網站的流量和訪問者信息等。不同Web服務器產品的日志記錄格式不同,但通常日志文件都包括訪問者IP或者域名、瀏覽器類型、操作系統訪問時間、訪問方式(GET/POST)、訪問頁面協議、錯誤代碼以及傳輸的字節數等信息。

表2.1訪問日志、引用日志、代理日志的例子

訪問日志一般包括:IP地址、請求時間、方法(如GET,POST)、被請求文件的URL、HTTP版本號、返回碼、傳輸字節數。表2.1的訪問日志表示從IP地址為202.117.1.2來的用戶請求傳輸文件resource.html,使用的傳輸協議是HTTP1.1。用戶也許并沒有登錄在IP地址為202.117.1.2的機器上,可能只是把這臺機器當作代理服務器或網關。本次請求成功傳輸782字節,200為返回碼。

引用日志記錄了用戶發出當前請求時所在頁面的URL,表2.1的引用日志表示用戶當前請求頁面“resource.html”,用戶發出這個請求是通過點擊http://cjc.lytu.edu.cn/flink/left.htm頁面上的某個超鏈接或者瀏覽器自動下載這個頁面所包含的附屬文件。

代理日志記錄用戶使用的操作系統以及瀏覽器類型引用日志。表2.1的代理日志表示客戶端的操作系統為WindowsNT,瀏覽器為微軟的IE5.01。

三、Web日志數據預處理過程

由于日志記錄和HTTP協議的自身原因,日志數據是雜亂的,Web日志預處理是在Web日志挖掘前,對Web日志所記錄的數據進行清理、過濾以及重新組合的過程。Web日志預處理的目的是剔除日志中對挖掘過程無用的屬性及數據,并將Web日志數據轉換為挖掘算法可識別的保存形式。

1.數據清理。數據預處理的首要任務就是數據清理。數據清理就是去掉Web日志中一些不能反映用戶行為的記錄,Web日志挖掘的目的是獲得用戶的行為模式,并不關心那些用戶沒有直接請求的文件。只有當服務器日志表示的數據能夠準確的反映用戶訪問Web站點的情況時,經過挖掘得到的模式規則才是真正有用的。

2.用戶識別。接下來,唯一的用戶必須被標識出來,也就是說要識別出來具體的用戶。這一任務因為本地緩存、公司防火墻和代理服務器的存在變得復雜。依賴用戶的合作是最好的解決方法,但是由于涉及到隱私,這種解決辦法往往難以進行。一般最常被Web日志挖掘工具使用的技術就是基于日志/站點的方法,并輔助一些啟發式規則幫助識別用戶。

3.會話識別。對于上一步標識出的用戶所有的訪問序列,它們可能超越了很長的時間段,因此可能用戶在這個時間段內不止一次訪問了該網站。會話識別的目的就是將用戶的所有訪問序列分成多個單獨的用戶一次訪問序列。為了獲得這個劃分,一個最簡單的方法就是定義一個時間段,如果用戶請求的相鄰的任意兩個頁面之間的訪問時間間隔超過了這個時間段,則認為用戶又開始了一個新的會話,許多商業數據挖掘軟件將缺省超時值確定為30分鐘,超時的界限可以根據站點的使用統計反饋的結果進行調節,直到可以更準確地識別會話。

4.路徑補充。檢查引用日志確定當前請求來自哪一頁,如果在用戶的歷史記錄上有多個頁面都包含與當前請求頁的鏈接,則將請求時間最接近當前請求頁的頁面作為當前請求的來源。若引用日志不完整,可以使用站點的拓撲結構代替。通過這種方法將遺漏的頁面請求添加到用戶的會話文件中。

5.事務識別。事務識別是對用戶會話進行語義分組分割后事務的具體意義是:用戶為獲得一項有意義的信息所點擊的頁面序列。

6.格式化數據。一旦得到一組事務集后,我們需要處理結果表示城市和挖掘需要的形式。例如,時間屬性對于關聯規則挖掘是沒有什么作用的,我們可以忽略元組中的時間屬性,而把它格式化成適合于關聯規則發現的形式。上面已經詳細介紹了Web日志數據預處理的過程及采用的技術,在實際的應用中,可以根據挖掘任務的需要,對數據預處理過程進行簡化或者細化。

四、結束語

數據的預處理工作是至關重要的一步。他既要保證信息無失真的轉換,又要保證過濾刪除掉某些對以后挖掘無影響的數據。針對一般的Web日志挖掘,提出了一種通用的Web日志挖掘的數據預處理模型,他可以針對不同類型的Web日志挖掘,實現數據的預處理工作。

參考文獻:

[1]Mark Sweiger,Mark R Madsen.Clickst ream Data Warehousing[M].北京:電子工業出版社,2004:36-39.

[2]段曉峰、熊忠陽,網站日志的數據挖掘[D].重慶:重慶大學,2003.

猜你喜歡
頁面數據挖掘用戶
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 免费又黄又爽又猛大片午夜| 国产不卡一级毛片视频| 国产又色又刺激高潮免费看| 亚洲中文精品久久久久久不卡| 亚洲伊人天堂| 日本国产精品| 国产熟睡乱子伦视频网站| 亚洲丝袜第一页| 国产精欧美一区二区三区| 亚洲欧洲国产成人综合不卡| 日韩中文无码av超清| av在线人妻熟妇| 国产男女XX00免费观看| 国产日韩丝袜一二三区| 毛片在线区| 波多野结衣一区二区三区AV| 亚洲妓女综合网995久久| 无码'专区第一页| 国产亚洲成AⅤ人片在线观看| 爆操波多野结衣| 亚洲最猛黑人xxxx黑人猛交| 国产在线观看99| 蝴蝶伊人久久中文娱乐网| 日本国产一区在线观看| 久久精品国产精品国产一区| 在线亚洲小视频| 高清精品美女在线播放| 欧美视频二区| 亚洲综合经典在线一区二区| 在线观看免费国产| 黄色网在线| 欧美精品亚洲精品日韩专区| 国产高清在线精品一区二区三区 | 久综合日韩| 国产精品极品美女自在线看免费一区二区 | 国产综合日韩另类一区二区| 国产毛片高清一级国语| 国产精品刺激对白在线| 五月天综合网亚洲综合天堂网| 亚洲高清在线天堂精品| 亚洲婷婷丁香| 美女无遮挡免费网站| 91成人在线免费视频| 亚洲男人的天堂网| 青青青国产在线播放| 亚洲一区精品视频在线| 亚洲人成网址| 国产成人精品一区二区不卡| 欧美日韩亚洲国产| 国产福利小视频高清在线观看| 视频二区中文无码| 九一九色国产| 亚洲一区色| 美女被躁出白浆视频播放| 久久香蕉国产线看观看精品蕉| 久久精品丝袜| 亚洲福利网址| 久久久无码人妻精品无码| 久久精品无码一区二区日韩免费| 欧美中文字幕第一页线路一| 国产成人1024精品下载| 国产成人调教在线视频| a国产精品| 欧美日本视频在线观看| 99免费在线观看视频| 理论片一区| 国产h视频在线观看视频| 中国成人在线视频| 无码专区国产精品一区| 亚洲人成日本在线观看| 欧美一区二区啪啪| 国产aⅴ无码专区亚洲av综合网| 久久久久国产一级毛片高清板| 超碰色了色| 成人国内精品久久久久影院| 国产精品永久不卡免费视频| 色综合网址| 69综合网| 久久精品一卡日本电影| 女人爽到高潮免费视频大全| 91精品专区国产盗摄| 欧美成人国产|