999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web日志挖掘數據預處理的研究

2009-10-26 09:35:10馬世軍
新媒體研究 2009年13期
關鍵詞:頁面數據挖掘用戶

姚 建 馬世軍 喬 文

[摘要]Web日志挖掘技術是Web數據挖掘中最重要的應用。通過對挖掘服務器日志文件的分析和研究,可以對網站的組織結構及其性能進行改進,增加個性化服務,發現潛在的讀者群體。數據預處理關系到Web日志挖掘的質量。數據預處理包括數據清理、用戶識別、會話識別、路徑補充、格式化數據。

[關鍵詞]數據挖掘Web日志挖掘數據預處理

中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0710035-01

一、引言

目前,基于Web日志的數據挖掘研究大致分為3類:以分析系統性能為目標,以改進系統設計為目標,以理解用戶意圖為目標。Web日志挖掘主要分為3個步驟:

1.數據預處理。根據挖掘的目的,對原始Web日志文件中的數據進行提取,分解,合并,最后轉換為適合進行數據挖掘的數據格式,并保存到關系型數據庫表或數據倉庫中,等待進一步處理。

2.模式識別。運用各種算法對處理后的數據進行挖掘,生成模式。

3.模式分析。進行用戶訪問模式的分析,從而將有價值的模式提取出來。數據預處理這個環節是整個過程的基礎和實施有效挖掘算法的前提,在Web日志挖掘中起著非常重要的作用。他是從大量的數據屬性中提取出對目標有重要影響的屬性來降低原始數據的維數,或者是處理一些不好的數據,從而改善實例數據的質量和提高數據挖掘的速度。

二、Web日志文件

Web日志文件是Web服務器上用以記錄用戶訪問頁面情況的文件。日志記錄最主要的記錄了什么人在什么時候瀏覽了哪些內容、網站的流量和訪問者信息等。不同Web服務器產品的日志記錄格式不同,但通常日志文件都包括訪問者IP或者域名、瀏覽器類型、操作系統訪問時間、訪問方式(GET/POST)、訪問頁面協議、錯誤代碼以及傳輸的字節數等信息。

表2.1訪問日志、引用日志、代理日志的例子

訪問日志一般包括:IP地址、請求時間、方法(如GET,POST)、被請求文件的URL、HTTP版本號、返回碼、傳輸字節數。表2.1的訪問日志表示從IP地址為202.117.1.2來的用戶請求傳輸文件resource.html,使用的傳輸協議是HTTP1.1。用戶也許并沒有登錄在IP地址為202.117.1.2的機器上,可能只是把這臺機器當作代理服務器或網關。本次請求成功傳輸782字節,200為返回碼。

引用日志記錄了用戶發出當前請求時所在頁面的URL,表2.1的引用日志表示用戶當前請求頁面“resource.html”,用戶發出這個請求是通過點擊http://cjc.lytu.edu.cn/flink/left.htm頁面上的某個超鏈接或者瀏覽器自動下載這個頁面所包含的附屬文件。

代理日志記錄用戶使用的操作系統以及瀏覽器類型引用日志。表2.1的代理日志表示客戶端的操作系統為WindowsNT,瀏覽器為微軟的IE5.01。

三、Web日志數據預處理過程

由于日志記錄和HTTP協議的自身原因,日志數據是雜亂的,Web日志預處理是在Web日志挖掘前,對Web日志所記錄的數據進行清理、過濾以及重新組合的過程。Web日志預處理的目的是剔除日志中對挖掘過程無用的屬性及數據,并將Web日志數據轉換為挖掘算法可識別的保存形式。

1.數據清理。數據預處理的首要任務就是數據清理。數據清理就是去掉Web日志中一些不能反映用戶行為的記錄,Web日志挖掘的目的是獲得用戶的行為模式,并不關心那些用戶沒有直接請求的文件。只有當服務器日志表示的數據能夠準確的反映用戶訪問Web站點的情況時,經過挖掘得到的模式規則才是真正有用的。

2.用戶識別。接下來,唯一的用戶必須被標識出來,也就是說要識別出來具體的用戶。這一任務因為本地緩存、公司防火墻和代理服務器的存在變得復雜。依賴用戶的合作是最好的解決方法,但是由于涉及到隱私,這種解決辦法往往難以進行。一般最常被Web日志挖掘工具使用的技術就是基于日志/站點的方法,并輔助一些啟發式規則幫助識別用戶。

3.會話識別。對于上一步標識出的用戶所有的訪問序列,它們可能超越了很長的時間段,因此可能用戶在這個時間段內不止一次訪問了該網站。會話識別的目的就是將用戶的所有訪問序列分成多個單獨的用戶一次訪問序列。為了獲得這個劃分,一個最簡單的方法就是定義一個時間段,如果用戶請求的相鄰的任意兩個頁面之間的訪問時間間隔超過了這個時間段,則認為用戶又開始了一個新的會話,許多商業數據挖掘軟件將缺省超時值確定為30分鐘,超時的界限可以根據站點的使用統計反饋的結果進行調節,直到可以更準確地識別會話。

4.路徑補充。檢查引用日志確定當前請求來自哪一頁,如果在用戶的歷史記錄上有多個頁面都包含與當前請求頁的鏈接,則將請求時間最接近當前請求頁的頁面作為當前請求的來源。若引用日志不完整,可以使用站點的拓撲結構代替。通過這種方法將遺漏的頁面請求添加到用戶的會話文件中。

5.事務識別。事務識別是對用戶會話進行語義分組分割后事務的具體意義是:用戶為獲得一項有意義的信息所點擊的頁面序列。

6.格式化數據。一旦得到一組事務集后,我們需要處理結果表示城市和挖掘需要的形式。例如,時間屬性對于關聯規則挖掘是沒有什么作用的,我們可以忽略元組中的時間屬性,而把它格式化成適合于關聯規則發現的形式。上面已經詳細介紹了Web日志數據預處理的過程及采用的技術,在實際的應用中,可以根據挖掘任務的需要,對數據預處理過程進行簡化或者細化。

四、結束語

數據的預處理工作是至關重要的一步。他既要保證信息無失真的轉換,又要保證過濾刪除掉某些對以后挖掘無影響的數據。針對一般的Web日志挖掘,提出了一種通用的Web日志挖掘的數據預處理模型,他可以針對不同類型的Web日志挖掘,實現數據的預處理工作。

參考文獻:

[1]Mark Sweiger,Mark R Madsen.Clickst ream Data Warehousing[M].北京:電子工業出版社,2004:36-39.

[2]段曉峰、熊忠陽,網站日志的數據挖掘[D].重慶:重慶大學,2003.

猜你喜歡
頁面數據挖掘用戶
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 婷婷丁香色| 亚洲综合经典在线一区二区| 国产免费久久精品99re丫丫一| 日本高清免费不卡视频| 国产69精品久久久久妇女| 日韩中文精品亚洲第三区| 夜夜高潮夜夜爽国产伦精品| 亚洲精品无码高潮喷水A| 国产成人h在线观看网站站| 高清不卡一区二区三区香蕉| 在线观看精品国产入口| 亚洲高清资源| 免费无码一区二区| 日韩毛片免费| 日韩免费毛片视频| 91午夜福利在线观看| 夜色爽爽影院18禁妓女影院| 美女黄网十八禁免费看| 黄色网页在线观看| 91在线国内在线播放老师| 亚洲精品日产AⅤ| 中文字幕久久精品波多野结| 亚洲AV电影不卡在线观看| 国产精品视频公开费视频| 国产美女一级毛片| 亚洲Aⅴ无码专区在线观看q| 国产亚洲高清在线精品99| 日韩一区二区三免费高清| 国产成人h在线观看网站站| 婷婷六月综合| 欧美成在线视频| 国产午夜在线观看视频| 国产人碰人摸人爱免费视频| 女人18毛片一级毛片在线 | 香蕉视频在线精品| av尤物免费在线观看| 色婷婷成人网| 波多野结衣中文字幕一区| 国产乱码精品一区二区三区中文 | 国产精彩视频在线观看| 中文毛片无遮挡播放免费| 在线不卡免费视频| 丁香五月亚洲综合在线| 尤物国产在线| 制服丝袜一区| 久久semm亚洲国产| 999国内精品久久免费视频| 日本免费一级视频| 最新国产你懂的在线网址| 国产精品一区二区国产主播| 成人免费一区二区三区| 久久精品人妻中文系列| 亚洲一区二区在线无码| 综合亚洲网| 欧美日韩国产在线观看一区二区三区| 国产欧美视频在线观看| 欧美翘臀一区二区三区| 欧美成人午夜在线全部免费| 国产精品偷伦在线观看| 一本色道久久88亚洲综合| 国产女人18毛片水真多1| 亚洲va视频| 亚洲高清无码精品| www.youjizz.com久久| 国产嫖妓91东北老熟女久久一| 亚洲国产高清精品线久久| 久久国产精品电影| 国产真实二区一区在线亚洲| 99视频在线精品免费观看6| A级毛片高清免费视频就| jijzzizz老师出水喷水喷出| 欧美精品导航| 欧美日韩午夜| 国产凹凸视频在线观看| av一区二区三区高清久久| 综1合AV在线播放| 国产精品国产三级国产专业不| 三级视频中文字幕| 色噜噜狠狠狠综合曰曰曰| 99re这里只有国产中文精品国产精品 | 最近最新中文字幕在线第一页 | 中国一级特黄视频|