999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web日志挖掘的研究

2019-02-13 15:37:01黃良劍
數字通信世界 2019年3期
關鍵詞:頁面數據挖掘用戶

袁 偉,黃良劍

(江蘇省建筑工程質量檢測中心有限公司,南京 210028)

1 引言

隨著信息時代的來臨,網絡迅速發展,互聯網漸漸成為人們獲取信息的重要渠道,Web站點遍及人生活中的各個領域,如:科技、教育、電子商務等等。Web站點給人們帶來了大量有價值的信息和非常大的便利,同時也留下很多訪問數據;與此同時,隨著Internet的廣泛被使用,人們對于Web站點的要求也是越來越高,如何從眾多的Web訪問數據中知曉用戶的瀏覽目的,以提升網站的性能,更好地為用戶提供個性化服務,成為了計算機網絡領域的一個重要課題。Web數據挖掘[1]就是為解決以上需求而生的數據處理技術。

Web數據挖掘是數據挖掘在Web上的應用。Web挖掘主要分為三類:Web內容挖掘、Web結構挖掘和Web日志挖掘。作為Web數據挖掘一個重要分支的Web日志挖掘[2]也是備受關注。Web日志挖掘從用戶大量的Web訪問記錄中,挖掘到用戶訪問頁面的情況、網站的頻繁使用情況等很多有益的信息,這不僅能幫助網站管理者從中獲取Web站點的用戶訪問情況和Web站點的使用情況,還能為Web站點的結構優化提供數據支持,以便更好地為用戶提供服務等。

2 數據預處理

對數據預處理是保證挖掘結果準確性的重要前提。預處理的目的就是要清除不一致的“臟”數據,留下正確、完整、干凈的數據。據統計,數據預處理[3]在挖掘過程中,所耗費的時間和成本達到60%至80%左右。數據預處理過程包括數據清理、用戶識別、會話識別等。

2.1 數據清理

數據清理是指基于當前挖掘任務,清除Web日志文件中與挖掘任務不相干的數據。數據清理通常包括以下幾個方面:

(1)圖片,腳本和樣式:通常來說,以html結尾的日志瀏覽記錄才是用戶的訪問目的,所以刪除后綴為js、png、ico、css、jpg等日志記錄;

(2)HTTP請求方法:常見的有GET、POST、HEAD,用戶的主觀訪問行為以GET請求方法呈現,所以要刪除POST以及HEAD請求方法的日志記錄,保留GET方法的請求日志記錄;

(3)用戶訪問失敗:一般情況下,返回代碼為200代表用戶訪問網站成功,但也有訪問失敗的時候,這時返回的代碼一般為404(頁面丟失)、500(內部錯誤信息)等,只需保留正確的訪問記錄,刪除訪問失敗的記錄;

(4)彈出式廣告:用戶打開網頁時自動彈出,不能反映用戶主觀訪問意圖,所以應當刪除;

(5)Web Robots:一般叫網絡爬蟲,它會根據一定規則自動抓取頁面。由于網絡爬蟲沒有目的性,并不是用戶主動的訪問意圖,因此要刪除。

2.2 用戶識別

用戶識別是指從Web日志中分辨出每一條記錄相對應的用戶。由于本地緩存、防火墻等因素存在,使得精準的識別出用戶變得十分困難。通過識別注冊用戶、cookie等方法能提高識別的準確度,但涉及到用戶隱私,并且考慮獲取數據的難易度,大多數情況下運用啟發式規則識別用戶:

(1)不同IP地址代表不同用戶。

(2)如果IP地址相同,但用戶的瀏覽器或操作系統不同,可認為是不同用戶。

(3)如果IP地址、用戶瀏覽器和操作系統都相同,則根據引用頁判斷,若引用頁為空,代表不同用戶。

2.3 會話識別

用戶在進入站點到離開的期間所產生的全部瀏覽請求視為一次會話。同一個用戶可能在相隔時間較長的Web服務器日志中多次訪問了同一個站點,會話識別的任務便是識別出同一個用戶所對應的同一次訪問請求。會話識別的常用方法有3種:

(1)超時(Timeout)方法。J.Pitkow研究表明,當同一用戶在同一頁面停留超過25.5分鐘,就可視為同一用戶的不同會話,目前一般選擇30分鐘作為判斷標準。

(2)序列長度法。該方法由Cooley等人提出,用來識別事務會話。經研究表明,用戶瀏覽頁面時通常經過過渡頁面進入內容頁面,且用戶停在內容頁面比過渡頁面的時間長。若已知內容頁面和過渡頁面的合集,順序讀取Web日志記錄時,一旦讀取到內容頁面,就意味著找到了會話的邊界。

3 結論

本文介紹了Web數據挖掘的背景,Web日志挖掘的相關概念,以及Web日志數據的預處理,包括數據清理、用戶識別和會話識別。未來的研究針對預處理之后的Web日志數據進行挖掘,通過數據挖掘的算法,比如關聯規則算法中的Apriori算法,決策樹算法,神經元網絡算法等。

猜你喜歡
頁面數據挖掘用戶
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 新SSS无码手机在线观看| 在线色综合| 九九久久99精品| 国产精品手机在线观看你懂的| 亚洲精品777| 中文字幕1区2区| 午夜精品国产自在| 亚洲天堂免费在线视频| 色悠久久久| 日韩精品一区二区三区免费在线观看| 2020国产免费久久精品99| 日韩欧美中文字幕一本| 黄片一区二区三区| 国产乱肥老妇精品视频| 制服丝袜 91视频| 五月婷婷伊人网| 又爽又大又光又色的午夜视频| 欧美激情二区三区| 亚洲日韩欧美在线观看| 国产成人精品亚洲日本对白优播| 99精品国产电影| 色综合中文字幕| 九色视频最新网址| 欧美中日韩在线| 怡春院欧美一区二区三区免费| 中文字幕在线视频免费| 欧美午夜网站| 久久黄色一级片| 黄色一级视频欧美| 国产精品尤物在线| 四虎精品免费久久| 九九热这里只有国产精品| 国产麻豆精品久久一二三| vvvv98国产成人综合青青| 国产精品无码制服丝袜| 日韩av无码DVD| 亚洲第一网站男人都懂| 色综合天天综合中文网| 久草视频福利在线观看| 99资源在线| 国产亚洲精品91| 欧美区国产区| 久久久久国产一级毛片高清板| 国产女人在线视频| 超清无码熟妇人妻AV在线绿巨人 | 爆操波多野结衣| 亚洲日韩精品无码专区97| 色偷偷一区| 精品一区二区三区无码视频无码| 无码中文AⅤ在线观看| 亚洲AⅤ综合在线欧美一区| 午夜精品国产自在| 国产成人精品视频一区二区电影| 57pao国产成视频免费播放| 99久久精彩视频| 亚洲色大成网站www国产| 亚洲色图欧美在线| 亚洲AⅤ永久无码精品毛片| 天堂在线亚洲| 国产迷奸在线看| 婷婷六月色| 1769国产精品视频免费观看| 午夜日b视频| 国产精品极品美女自在线看免费一区二区| 天堂岛国av无码免费无禁网站| 欧美人与牲动交a欧美精品| 2022精品国偷自产免费观看| 亚洲成人网在线播放| 亚洲三级成人| 国产欧美精品专区一区二区| 免费亚洲成人| 99精品国产自在现线观看| 国产成人无码久久久久毛片| 免费国产好深啊好涨好硬视频| 亚洲国产午夜精华无码福利| 精品国产成人高清在线| 国产手机在线ΑⅤ片无码观看| 久久成人国产精品免费软件| 一级香蕉人体视频| 无码综合天天久久综合网| 久久亚洲中文字幕精品一区| 久热精品免费|