999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web日志的數據挖掘技術在Web機器人識別中的研究

2015-07-10 22:04:22王利源
卷宗 2015年1期
關鍵詞:數據挖掘

摘 要:數據挖掘是從大量數據中發現人們未知的、感興趣的、隱藏的知識。數據挖掘Web服務器日志記錄具有良好的結構,非常有利于數據挖掘。由于Web服務器日志記錄具有良好的結構,因此,作為Web使用挖掘的一個分支,Web日志數據數據挖掘,具有獨特的理論和實踐意義。本文利用決策樹分類法,對Web服務器上保存的Web日志進行數據挖掘,通過對日志中所保存的信息進行分析,總結出正常用戶和Web機器人訪問網頁的模式特點。

關鍵詞:數據挖掘;Web日志挖掘;決策樹

0.引言

Web服務器通常保存了對Web頁面的一次訪問的日志項(Web日志)。它包括了所請求的URL,發出請求的IP地址和時間戳。對于Web服務器,其上保存了大量的Web訪問日志記錄。對熱點的Web站點每天可以記錄下數以百兆的記錄,這些為數據挖掘提供了有關Web動態的豐富的信息,因此研究復雜的Web日志挖掘技術是十分重要的。Web數據挖掘技術,從Web日志中提取有用的模式,這些模式能夠揭示站點訪問者的某些特性[1]。

1.決策樹的建立

Web機器人(Web爬行者)是一個軟件程序,它可以跟蹤嵌入網頁中的超鏈接,定位和獲取Internet上的信息。這些程序安裝在搜索引擎的入口,收集索引網頁必須的文檔。在應用Web挖掘技術分析人類的瀏覽習慣之前,必須過濾掉Web機器人的訪問。

決策樹是一種構建分類模型的非參數方法,它不要求任何先驗建設,不假定類和其它屬性服從一定的概率分布[2]。它具有分類精度高,生成模式簡單,對噪聲數據有很好的健壯性。是目前應用最廣泛的歸納推理算法之一,非常適合對Web日志的數據挖掘。

圖1.Web會話

輸入數據取自Web 服務器日志。它的一個樣本如圖1所示,每行對應于Web客戶(正常訪客或Web機器人)的一個頁面訪問請求。

Web日志記錄的字段包括客戶端IP地址、請求時間、訪問的資源、傳輸字節數等[3]。Web會話是客戶在一次網址訪問期間發出的請求序列,每個Web會話都可以用一個有向圖來建模,其中結點對應于網頁,有向邊對用與鏈接網頁的超鏈接[4],如圖1。

圖2.Web機器人檢測決策樹模型

表2. Web機器人檢測的會話屬性

屬性名 描述

TotalPages 一次 Web會話提取的頁面總數

ImagePages 一次Web會話提取的圖像頁總數

TotalTime 網站訪問者所用時間

RepeatedAccess 一次Web會話多次請求同一頁面

ErrorRequest 請求網頁錯誤

GET 使用GET方式提出請求的百分比

POST 使用POST方式提出的請求百分比

HEAD 使用HEAD方式提出的請求百分比

Breadth Web遍歷的寬度

Depth Web遍歷的深度

MultiIP 使用多個IP地址的會話

MultiAgent 使用多個代理的會話

為了對Web會話進行分類,需要構造描述每次會話特性的特征。表2列出了Web機器人檢測任務使用的一些特征。顯著的特征有遍歷的深度和寬度。深度確定請求頁面的最大距離,其中距離用自網站入口點的超銜數量度量,寬度屬性度量Web圖的寬度。如圖2,假設主頁http://www.syxmt.com.cn的深度為0,則http://www.syxmt.com.cn/server/product.php的深度為2,第一次會話的深度等于2;Web會話的寬度等于2。

用于分類的數據集包含3916個記錄,Web機器人(class 0)和人類用戶(class 1)會話的個數相等,10%的數據用于訓練,而90%的數據用于檢驗。生成的決策樹模型顯示,如圖2所示。該決策樹在訓練集上的差錯率為3.8%,在檢驗集上的差錯率為5.3%。

3 結果分析

該模型表明可以從以下4個方面區分出Web機器人和人類用戶:

Web機器人的訪問傾向于寬而淺,而人類用戶訪問比較集中(窄而深)。

與人類用戶不同,Web機器人很少訪問與Web文檔相關的圖片頁。

Web機器人的會話的長度趨于較長,包含了大量請求頁面。

Web機器人更可能對相同的文檔發出重復的請求,因為人類用戶訪問的網頁常常會被瀏覽器保存。

參考文獻

[1] 張娥,鄭斐峰,馮耕中. Web日志數據挖掘的數據預處理方法研究[J]. 計算機應用研究. 2004(02)

[2] Pang-Ning Tan Michael Steinbach Vipin Kumar. introducetion to Data Mining[M].人民郵電出版社.2006

[3] 宋擒豹,沈鈞毅. Web日志的高效多能挖掘算法[J]. 計算機研究與發展. 2001(03)

[4] 陸麗娜,魏恒義,楊怡玲,管旭東. Web日志挖掘中的序列模式識別[J]. 小型微型計算機系統. 2000(05)

作者簡介

王利源,男,遼寧省營口市,現就讀于:沈陽理工大學。

指導教師:沈陽理工大學,杜炎(教授)

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 超碰aⅴ人人做人人爽欧美 | www.亚洲国产| 亚洲无码视频一区二区三区 | 午夜国产大片免费观看| 成人国产精品网站在线看| 欧美翘臀一区二区三区| 久久精品这里只有精99品| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产精品美人久久久久久AV| 99久久精品免费看国产免费软件 | 亚洲激情99| 国产国产人成免费视频77777| 日韩欧美国产中文| 香蕉综合在线视频91| 欧美无遮挡国产欧美另类| 日韩在线2020专区| 亚洲动漫h| 色综合久久综合网| 国产成人精品亚洲日本对白优播| 日韩av电影一区二区三区四区| 国语少妇高潮| 日韩第一页在线| 91视频日本| 国产99免费视频| 丁香综合在线| 综合人妻久久一区二区精品 | 免费可以看的无遮挡av无码| 免费一级毛片在线播放傲雪网| 国产精品亚欧美一区二区| 亚洲午夜久久久精品电影院| 亚洲国产成人无码AV在线影院L| 国产成人精品一区二区不卡| 无码日韩视频| 久久香蕉国产线看精品| a毛片基地免费大全| 亚洲国产精品美女| 亚洲人成网站在线播放2019| 国产国产人免费视频成18| 97se亚洲综合不卡 | 亚洲国产综合精品中文第一| 97久久精品人人| 免费中文字幕在在线不卡 | 香蕉蕉亚亚洲aav综合| 欧美va亚洲va香蕉在线| 国产精品无码制服丝袜| 日韩精品亚洲人旧成在线| 中文字幕人成人乱码亚洲电影| 99久久国产综合精品2023| 国产日韩欧美中文| 日韩在线播放欧美字幕| 亚洲美女高潮久久久久久久| 欧美一级夜夜爽www| 日韩中文字幕亚洲无线码| 国产理论精品| 免费99精品国产自在现线| 久久国产高清视频| 在线国产你懂的| 国产a网站| 日本亚洲国产一区二区三区| 美女被狂躁www在线观看| 欧美日韩一区二区三区在线视频| 自拍偷拍欧美| 欧美第一页在线| 免费观看成人久久网免费观看| 中文字幕色站| 自拍偷拍一区| 无码日韩视频| v天堂中文在线| 亚瑟天堂久久一区二区影院| 午夜成人在线视频| 国产成人精品在线| 欧美在线中文字幕| 无码电影在线观看| 亚洲午夜国产片在线观看| 第一页亚洲| 久久综合久久鬼| 亚洲经典在线中文字幕| 第一页亚洲| 91精品国产自产在线观看| 欧美精品v| 88av在线| 伊人久综合|