999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于應用服務器信息的Web使用模式挖掘模型設計

2008-12-31 00:00:00
電腦知識與技術 2008年14期

摘要:本文介紹了Web使用模式的數據挖掘,分析作為源數據的Web服務器日志的局限性,提出基于應用服務器信息的Web使用模式挖掘,并在此基礎上對傳統的Web使用模式挖掘模型進行了改進。

關鍵詞:Web使用模式,數據挖掘,應用服務器信息

中圖分類號:TP393文獻標識碼:A 文章編號:1009-3044(2008)14-20794-02

1 引言

數據挖掘和萬維網應用研究的結合形成了近年來的一個活躍的研究領域——Web數據挖掘。Web挖掘是數據挖掘在Web上的應用,它利用數據挖掘技術從與WWW相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術、數據挖掘、計算機語言學、信息學等多個領域,是一項綜合技術。

Web數據挖掘分為Web內容挖掘和Web使用數據挖掘,后者主要是挖掘網站訪問日志,從中發掘出用戶訪問模式、獲取競爭對手和客戶信息以及反競爭情報活動。

2 Web使用模式的數據挖掘

Web使用模式的數據挖掘流程為:(1)收集源數據,提取數據挖掘的目標數據集;(2)數據預處理,進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等;(3)數據挖掘,根據數據功能的類型和和數據的特點選擇相應的算法,在凈化和轉換過的數據集上進行數據挖掘;(4)模式分析,對數據挖掘的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識,并將分析所得到的知識集成到業務信息系統的組織結構中去。

在Web使用模式數據挖掘中,數據最直接的來源是Web服務器,而Web服務器日志在Web使用模式數據挖掘中有很重要的地位。對日志文件進行分析,包含兩種方式:(1)先進行預處理,即將日志數據映射為關系表并采用相應的數據挖掘技術來訪問日志數據;(2)直接訪問日志數據以獲取用戶的導航信息。Web服務器還存儲了其他的Web使用信息如Cookie以及用戶提交的查詢數據。

Web服務器日志雖然被常用作Web使用模式數據挖掘的源數據,它最初的用處是調試Web服務器,其提供的數據對于數據挖掘來說是不充分的,需要使用啟發式方法重新構建事件。而且,許多事件在Web服務器中并沒有被日志所記錄。因此用Web服務器日志數據進行Web使用模式挖掘也不完全可靠。

3 基于應用服務器信息的Web使用模式挖掘

基于Web服務器日志數據在Web使用模式挖掘中的作用是有限的,Ron Kohavi針對這一情況提出使用應用服務器信息數據作為Web使用模式挖掘的源數據[1]。

Web服務器日志作為源數據不能識別使用者和session。而應用服務器卻能控制session和使用者的注冊、登陸和注銷。這些能通過應用服務器直接記錄下來。Web服務器日志需要與事務數據合并,但對于應用服務器,應用層寫入命令數據同時它也記錄下點擊流事件,就可以在數據庫中產生一個單獨的全面的日志并在表與表之間有一致的ID號。Web服務器日志缺少了某些事件,而應用層可以記錄下類似“加入購物車”等這類的事件。另外,一些特殊的有趣事件也會被記錄在日志中,如瀏覽器重置。除了單頁面事件外,高級別的商務事件也能被記錄下來。Web服務器日志不能存儲網頁形式的信息。而應用服務器層可以解析這些網頁形式。Web服務器日志包含URL而不是記錄下URL中包含的語義信息。而在動態地址的應用服務器層,重要的關于網頁顯示內容的語義信息已被記錄下來。Web服務器日志缺少產生動態內容的地址信息,而應用服務器層可以解決這個問題。Web服務器日志對于多層次文件系統而言只是一些在不同時間區的扁平文件,而應用服務器日志卻能被直接產生并形成數據庫,這樣就保持了事務層的完整性。時間可以存儲在GMT中,附帶一個域表示使用者瀏覽器的地方時間偏差,同時需要完成應用服務器的同步。Web服務器日志包含一些多余的信息而在應用服務器中會被刪去。Web服務器日志缺少許多重要信息,這些信息只能用其他方法收集。而在應用服務器上,任何信息都可以被收集并通過相應的關鍵字記錄進同一數據庫。

所以,總體上說使用應用服務器日志信息代替Web服務器日志可以克服Web服務器日志數據在許多方面的不足。

基于事務數據庫基礎的數據挖掘需要進行兩方面的工作,一方面是整理事務數據庫并將其轉換成與一定挖掘技術相適應的數據存儲形式,另一方面是利用數據挖掘算法挖掘出有效的信息。

Web使用模式挖掘常用的一些技術包括:(1)路徑分析技術;(2)分類與聚類技術;(3)序列模式挖掘技術;(4)關聯規則挖掘技術。

4 改進的Web使用模式挖掘模型

在以上分析的基礎上,本文提出一種基于Web應用服務器信息的Web使用模式挖掘模型IWUMS(Improved Web Usage Mining System)。如圖1所示。

該模型以應用服務器信息為源數據,經過數據清洗、集成、識別、入庫等步驟得到可滿足不同用戶進行數據挖掘需要的集成數據庫。將得到的數據送出至數據挖掘內核中的知識庫,由知識庫根據具體模式運用算法庫來進行處理。最終的處理結果通過模式評估后反饋給用戶界面。

5 總結

傳統的Web使用模式挖掘是一個對Web服務器日志的挖掘,而Web服務器日志本身作為數據挖掘的源數據具有許多缺點。本文以應用服務器信息為源數據,在此基礎上提出了對傳統Web使用模式挖掘模型的改進。

參考文獻:

[1] Ron Kohavi. Mining E-Commerce Data:The Good, the Bad, and the ugly.

[2] 張娥, 馮秋紅, 宣慧玉, 田增瑞. Web使用模式研究中的數據挖掘[J]. 計算機應用研究, 2001:80-83.

[3] 劉煒, 陳俊杰. 一種Web使用模式挖掘模型的設計[J], 計算機應用研究, 2007, 24(3):184-186.

[4] 鄒顯春, 謝中, 周彥暉. 電子商務與Web數據挖掘[J]. 計算機應用, 2001, 21(5):21-23.

[5] 王澤彬, 金飛, 李夏, 王冠. Web數據挖掘技術及實現[J]. 哈爾濱工業大學學報, 2005, 37(10):1403-1405.

[6] 鞏固, 張虹. Web數據挖掘分析[J]. 電腦知識與技術, 2006,(17):18-19.

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文

主站蜘蛛池模板: 欧美午夜理伦三级在线观看| 久夜色精品国产噜噜| 久久久成年黄色视频| 午夜无码一区二区三区| 精品撒尿视频一区二区三区| 亚洲人成高清| 99热这里只有精品5| 一级高清毛片免费a级高清毛片| 亚洲一区二区成人| 欧美笫一页| 亚洲婷婷丁香| 精品国产中文一级毛片在线看| 欧美有码在线| yjizz视频最新网站在线| 国产成人精品亚洲77美色| 国产小视频免费观看| 一级一毛片a级毛片| 久久久久无码精品| 国产资源免费观看| 99精品久久精品| 好吊色妇女免费视频免费| 在线视频亚洲色图| 国产精品19p| 欧洲一区二区三区无码| 欧美一区福利| 日韩一区二区在线电影| 国产亚洲欧美在线专区| 这里只有精品在线| 国产一级无码不卡视频| 日本人又色又爽的视频| 国产精品理论片| 5555国产在线观看| 欧美在线中文字幕| 国产精品视频观看裸模 | 呦视频在线一区二区三区| 精品人妻无码中字系列| 91久久青青草原精品国产| 国产区免费| 国产精品页| 国产农村精品一级毛片视频| 国产成人综合亚洲欧洲色就色| 视频二区国产精品职场同事| 免费观看国产小粉嫩喷水| 国产精品亚洲片在线va| 网友自拍视频精品区| 青青草国产免费国产| 国产成人一区| 久草视频福利在线观看| 2021国产在线视频| 999国内精品视频免费| 国产鲁鲁视频在线观看| 18禁影院亚洲专区| 欧美一级夜夜爽www| 好吊日免费视频| 日韩中文欧美| 久久综合色天堂av| 六月婷婷激情综合| 欧美一级99在线观看国产| 91小视频在线| 四虎影视无码永久免费观看| 国产菊爆视频在线观看| 亚洲精品无码久久毛片波多野吉| 四虎成人精品在永久免费| 久久伊人久久亚洲综合| 国产99视频精品免费观看9e| 欧美日韩久久综合| 欧美色亚洲| 91综合色区亚洲熟妇p| 亚洲一级毛片免费观看| 97在线碰| 亚洲中文字幕久久精品无码一区| 国产主播在线一区| 欧美日韩导航| 精品综合久久久久久97| 亚洲成人一区在线| 国产精品无码一区二区桃花视频| 日韩国产黄色网站| 亚洲自偷自拍另类小说| 欧洲日本亚洲中文字幕| 一本无码在线观看| 国产视频a| 日本三区视频|