999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

企業網站的Web使用挖掘

2008-12-31 00:00:00張春明
電腦知識與技術 2008年30期

摘要:本文從介紹企業網站的web使用挖掘的意義入手,著重分析了web使用挖掘的數據源,探討了Web使用挖掘的常用技術,以及Web 使用挖掘的過程,企業網站的Web使用挖掘應具備的功能。

關鍵詞:企業網站;web使用挖掘;數據源;信息獲取

中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)30-0534-02

Web Usage Mining ofEnterprises Web Site

ZHANG Chun-ming

(Liaoning University of International Business and Economics,Dalian 116052, China)

Abstract: This paper introduces the significance for web usage mining of enterprise web site, Analysis sata source of web usage mining, discussesthe frequent technology,process and function of web usage mining.

Key words: enterprises Web site, Web usage mining, data source, Web crawling

1 企業網站的Web 使用挖掘的意義

對企業網站的Web使用信息進行挖掘已經不是對服務器的簡單統計(如頁面訪問次數,日平均訪問人數,最受歡迎頁面等信息)因其已經不能滿足企業網站設計人員對站點結構和內容優化的需求。通過分析企業網站的日志文件,可以發現用戶訪問頁面的特征、頁面被用戶訪問的規律、用戶頻繁訪問的頁組等,以便其合理、有效地優化站點的結構和內容,最終為用戶提供一個方便快捷的信息獲取環境和交易環境。

2 企業網站的Web 使用挖掘的數據源

Web使用挖掘通過分析用戶在網上沖浪的過程或行為所產生的數據,來發現用戶訪問Web的行為模式。

Web使用挖掘所挖掘的數據除了來自Web日志文件,還有其他的數據來源,例如:用戶實時訪問信息、代理服務器日志、瀏覽器日志、用戶數據、注冊數據、用戶會話或交易、Cookies、書簽數據以及任何用戶同Web進行交互所產生的其他數據。

3 企業網站的Web 使用挖掘的常用技術

3.1 路經分析

路徑分析(Path Analysis)就是要從圖中確定最頻繁的路徑訪問模式或大的參考序列。我們可以用許多不同類型的圖形來進行路徑分析,因為圖形表達了各網頁間定義的關系。最常見的一種是表示網站物理布局的網站結構圖,它把網頁當作結點,把頁面間的超文本鏈接當作連接的邊。還可以根據網頁類型來生成其他圖形,在這類圖形中,邊代表頁面間的相似度,或者在邊上給出使用該超鏈接的人數。

3.2 關聯規則

關聯規則(Association Rules)最早是由Agrawal 等人提出的,最初提出的動機是針對購物籃分析問題提出的,其目的是為了發現交易數據庫中不同商品之間的聯系規則,這些規則刻畫了顧客購買行為模式,可以用來指導商家科學地安排進貨、庫存以及貨架設計等。

3.3 序列模式

序列模式(Sequential Patterns) 在時間戳有序的事務集中,序列模式的發現就是指找到那些如“一些項跟隨另一個項”這樣的內部事務模式。

序列模式挖掘最早是由Agrawal等人提出的,它的最初動機是想通過帶有交易時間屬性的交易數據庫中發現頻繁項目序列以發現某一段時間內客戶的購買活動規律。近年來序列模式挖掘已經成為數據挖掘的一個重要方面。

3.4 分類聚類

分類算法首先建立一個模型,通過對訓練數據的分析,給出預定數據類集或概念集的特征描述,然后抽取未知數據對象的自身特性,根據模型中的定義,將其劃分到相對應的類別中。

聚類(Clustering)是將數據對象分組成為多個類或簇(Cluster),在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。相異度是根據描述對象的屬性值來計算的[。

3.5 信息獲取技術

信息獲取是指從網絡收集數據的過程。它是進行后續信息處理、信息服務的基礎。在大規模內容計算中,信息獲取分為主動獲取和被動獲取。被動獲取通常是將設備介入網絡的特定部位進行獲取。而主動獲取主要是指基于Web(萬維網-World Wide Web)的信息采集(Web Crawling, 簡稱WC),即根據Web協議,直接從Web上采集或下載信息。

Web信息采集技術可以分成:基于整個Web的信息采集(Scalable WC),增量式Web信息采集(Incremental WC),基于主題的Web信息采集(Focused WC),基于用戶個性化的Web信息采集(Customized WC),基于Agent的信息采集(Agent-based WC),遷移的信息采集(Relocatable WC)等等。實際系統往往是以上幾個采集技術的組合。

4 企業網站的Web 使用挖掘的過程

企業網站的Web使用挖掘是通過挖掘用戶訪問企業網站時留下的訪問數據進行用戶模式發現和分析的過程。企業網站的Web使用挖掘的過程一般分為三個階段:數據預處理階段、模式發現階段和模式分析與應用階段。

Web使用挖掘過程中輸入的數據包括服務器日志和遠程代理日志等日志文件。數據預處理階段包括數據清理、用戶識別、會話識別、路徑補充和事務識別等過程。模式發現階段的任務是對會話或事務數據集合運用數據挖掘的相關算法進行挖掘,從而發現隱藏的模式信息。模式分析與應用階段的任務是對挖掘出來的模式進行分析,獲得有用的規則和知識。

4.1 數據預處理階段

Web使用挖掘的數據預處理階段包括數據清理、用戶識別、會話識別、路徑補充和事務識別和格式化數據等過程。

4.2 模式發現階段

Web使用挖掘經過數據預處理階段后,就生成了會話或事務數據庫。模式發現階段也稱為挖掘算法實施階段,它是運用各種技術和算法從預處理后得到的數據中挖掘和發現用戶使用Web的各種潛在的規律和模式的過程。相關技術必須針對Web使用挖掘領域的特點做出相應的修改和完善才能進行移植。模式發現階段使用的各種技術和算法有:統計分析(Statistical Analysis)、序列模式(Sequential Pattern)、關聯規則(Association Rule)、聚類(Clustering)、分類(Classification)和依賴建模(Dependency Modeling)等方法。

4.3 模式分析與應用階段

模式分析與應用階段是整個Web使用挖掘過程的最后一步。此階段的目的是過濾掉模式發現階段產生的“不感興趣”的規則和模式。由于Web使用挖掘在大多數情況下屬于無偏向學習,它可以挖掘出所有的模式和規則,但是我們不能排除其中有些模式是常識性的、普通的或最終用戶不感興趣的。

5 企業網站的Web使用挖掘的功能

5.1 實現用戶建模

用戶建模(Modelling Users)是指根據用戶對一個Web頁面的訪問情況模型化訪問者的自身特性。在識別出訪問者的特性后就可以開展針對性的服務,訪問者建模是個性化服務的基礎和核心。個性化服務技術能夠充分提高站點的服務質量和訪問效率,以吸引更多的訪問者。

5.2 發現導航模式

發現導航模式(Discovering Navigation Patterns)是Web使用挖掘的一個重要的研究領域。用戶的導航模式是指群體用戶對Web 站點內的頁面的瀏覽順序模式。

5.3 改進企業網站訪問效率

利用Web使用挖掘可以在許多方面改進Web站點的訪問效率(System Improvement Site Modification)。

5.4 提供個性化服務

隨著互聯網的普及和電子商務的發展,企業網站的電子商務系統在為用戶提供越來越多選擇的同時,其結構也變得更加復雜,用戶經常會迷失在大量的商品信息空間中,無法順利找到自己需要的商品。在日趨激烈的競爭環境下,個性化服務是包括電子商務在內的企業網站提供商爭取更多用戶、防止用戶流失以及實現市場目標的重要手段。

5.5 商業智能的發現

通過對過去的使用信息特征的挖掘,發現新的商業智能,用于指導改進服務和擴展新的盈利點。通過結合日志數據和市場數據可以和CRM結合,在諸如顧客吸引(Customer Attractin)、顧客保留(Customer Retention)、跨區銷售(Cross Sales)、顧客離開(Customer Departure)等市場活動中找到相應的最佳對策。

5.6 用戶移動模式發現

利用web使用挖掘進行用戶移動模式發現可以分為如下三個步驟:

1) 數據收集階段:從各個服務器的日志集合中判斷最大的移動序列和移動對的出現次數。

2) 挖掘階段:從第一步的結果集中的每w個最大移動序列中判斷大項移動序列。考慮到新近的移動模式,設w為一個回顧因子,一個可調整的窗口。

3) 產生模式階段:根據第二步得到的大項移動序列,判斷用戶的移動模式。

參考文獻:

[1] 夏慶,馬元元,孫志輝.路徑遍歷模式挖掘方法的改進.蘭州人學學報(自然科學版),1999,35:370-371.

[2] 郭巖,白碩.Web使用挖掘綜述[J].計算機科學,2005,32(1).4-8.

[3] 李盛韜,基于主題的WEB信息采集技術研究,2002年,中科院計算所碩士學位論文.

[4]. Luotonen.The common log file format.http://www.w3.org/pub/www/,1995.

[5] G.Adomavicius, A.Tuzhilin. User profiling in personalization applications through rule discovery and validation. Proceedings of the 5th International Conference on Data Mining and Knowledge Discovery, New York. ACM Press,1999.377-381.

[6] Srivastava J, Cooley R. Discovery and Applications of Usage Patterns from Web Usage Mining[J].SIG KDD Explorations,ACM SIGKDD,2001,2(3).32-45,22.

[7] JCooley R, Mobasher B. Data preparation for mining world wide web browsing patterns[J].The Journal of Knowledge and Information Systems,1999,1(1):5-20.

主站蜘蛛池模板: 高h视频在线| 亚洲精品欧美日韩在线| 久久久亚洲国产美女国产盗摄| 亚洲欧美成人在线视频| 色播五月婷婷| 三级国产在线观看| 欧美性色综合网| 色哟哟国产成人精品| 成人亚洲视频| 久久精品视频一| 成人福利在线看| 99在线视频精品| 在线看片免费人成视久网下载 | 视频二区中文无码| 亚洲中文字幕久久精品无码一区| 尤物在线观看乱码| 国产成人精品优优av| 成年看免费观看视频拍拍| 久久综合久久鬼| 日韩精品无码免费一区二区三区| 亚洲成a人片77777在线播放| 国产精品午夜福利麻豆| 国产精品久线在线观看| 欧美啪啪视频免码| 国产亚洲精品自在久久不卡| 久久久精品国产亚洲AV日韩 | 中文字幕在线日本| 欧美综合区自拍亚洲综合天堂| 日韩小视频在线观看| 99热这里只有精品国产99| 色婷婷亚洲综合五月| 人妻无码一区二区视频| 老司机精品一区在线视频| 欧美日韩在线亚洲国产人| 国产一级精品毛片基地| 欧美在线导航| 亚洲精品男人天堂| 999福利激情视频| 亚洲视频色图| 国产清纯在线一区二区WWW| 中文字幕久久波多野结衣| 国产人人射| 国产精品污视频| 九九视频在线免费观看| 一级爱做片免费观看久久 | 91综合色区亚洲熟妇p| 午夜福利免费视频| 国产亚洲精久久久久久无码AV | 成人精品亚洲| 狠狠色噜噜狠狠狠狠奇米777 | 无码人妻热线精品视频| 亚洲视频三级| 国产免费高清无需播放器| 国内精自视频品线一二区| 高清视频一区| 中文毛片无遮挡播放免费| 试看120秒男女啪啪免费| 素人激情视频福利| 中文字幕中文字字幕码一二区| 亚洲成肉网| 精品久久综合1区2区3区激情| 久久这里只有精品23| 亚洲欧美日韩中文字幕一区二区三区 | h视频在线观看网站| 四虎永久免费地址| 四虎国产精品永久在线网址| 亚洲一区二区无码视频| 青青青国产视频| 午夜a级毛片| 在线观看国产小视频| 无码中文字幕乱码免费2| 国产浮力第一页永久地址 | 久久综合亚洲鲁鲁九月天| jizz在线免费播放| 国产91色| 国产日产欧美精品| 日本午夜影院| 首页亚洲国产丝袜长腿综合| 尤物亚洲最大AV无码网站| 国内精品视频区在线2021| 色成人亚洲| 婷婷五月在线视频|