摘要:本文介紹了Web使用模式的數據挖掘,分析作為源數據的Web服務器日志的局限性,提出基于應用服務器信息的Web使用模式挖掘,并在此基礎上對傳統的Web使用模式挖掘模型進行了改進。
關鍵詞:Web使用模式,數據挖掘,應用服務器信息
中圖分類號:TP393文獻標識碼:A 文章編號:1009-3044(2008)14-20794-02
1 引言
數據挖掘和萬維網應用研究的結合形成了近年來的一個活躍的研究領域——Web數據挖掘。Web挖掘是數據挖掘在Web上的應用,它利用數據挖掘技術從與WWW相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術、數據挖掘、計算機語言學、信息學等多個領域,是一項綜合技術。
Web數據挖掘分為Web內容挖掘和Web使用數據挖掘,后者主要是挖掘網站訪問日志,從中發掘出用戶訪問模式、獲取競爭對手和客戶信息以及反競爭情報活動。
2 Web使用模式的數據挖掘
Web使用模式的數據挖掘流程為:(1)收集源數據,提取數據挖掘的目標數據集;(2)數據預處理,進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等;(3)數據挖掘,根據數據功能的類型和和數據的特點選擇相應的算法,在凈化和轉換過的數據集上進行數據挖掘;(4)模式分析,對數據挖掘的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識,并將分析所得到的知識集成到業務信息系統的組織結構中去。
在Web使用模式數據挖掘中,數據最直接的來源是Web服務器,而Web服務器日志在Web使用模式數據挖掘中有很重要的地位。對日志文件進行分析,包含兩種方式:(1)先進行預處理,即將日志數據映射為關系表并采用相應的數據挖掘技術來訪問日志數據;(2)直接訪問日志數據以獲取用戶的導航信息。Web服務器還存儲了其他的Web使用信息如Cookie以及用戶提交的查詢數據。
Web服務器日志雖然被常用作Web使用模式數據挖掘的源數據,它最初的用處是調試Web服務器,其提供的數據對于數據挖掘來說是不充分的,需要使用啟發式方法重新構建事件。而且,許多事件在Web服務器中并沒有被日志所記錄。因此用Web服務器日志數據進行Web使用模式挖掘也不完全可靠。
3 基于應用服務器信息的Web使用模式挖掘
基于Web服務器日志數據在Web使用模式挖掘中的作用是有限的,Ron Kohavi針對這一情況提出使用應用服務器信息數據作為Web使用模式挖掘的源數據[1]。
Web服務器日志作為源數據不能識別使用者和session。而應用服務器卻能控制session和使用者的注冊、登陸和注銷。這些能通過應用服務器直接記錄下來。Web服務器日志需要與事務數據合并,但對于應用服務器,應用層寫入命令數據同時它也記錄下點擊流事件,就可以在數據庫中產生一個單獨的全面的日志并在表與表之間有一致的ID號。Web服務器日志缺少了某些事件,而應用層可以記錄下類似“加入購物車”等這類的事件。另外,一些特殊的有趣事件也會被記錄在日志中,如瀏覽器重置。除了單頁面事件外,高級別的商務事件也能被記錄下來。Web服務器日志不能存儲網頁形式的信息。而應用服務器層可以解析這些網頁形式。Web服務器日志包含URL而不是記錄下URL中包含的語義信息。而在動態地址的應用服務器層,重要的關于網頁顯示內容的語義信息已被記錄下來。Web服務器日志缺少產生動態內容的地址信息,而應用服務器層可以解決這個問題。Web服務器日志對于多層次文件系統而言只是一些在不同時間區的扁平文件,而應用服務器日志卻能被直接產生并形成數據庫,這樣就保持了事務層的完整性。時間可以存儲在GMT中,附帶一個域表示使用者瀏覽器的地方時間偏差,同時需要完成應用服務器的同步。Web服務器日志包含一些多余的信息而在應用服務器中會被刪去。Web服務器日志缺少許多重要信息,這些信息只能用其他方法收集。而在應用服務器上,任何信息都可以被收集并通過相應的關鍵字記錄進同一數據庫。
所以,總體上說使用應用服務器日志信息代替Web服務器日志可以克服Web服務器日志數據在許多方面的不足。
基于事務數據庫基礎的數據挖掘需要進行兩方面的工作,一方面是整理事務數據庫并將其轉換成與一定挖掘技術相適應的數據存儲形式,另一方面是利用數據挖掘算法挖掘出有效的信息。
Web使用模式挖掘常用的一些技術包括:(1)路徑分析技術;(2)分類與聚類技術;(3)序列模式挖掘技術;(4)關聯規則挖掘技術。
4 改進的Web使用模式挖掘模型
在以上分析的基礎上,本文提出一種基于Web應用服務器信息的Web使用模式挖掘模型IWUMS(Improved Web Usage Mining System)。如圖1所示。
該模型以應用服務器信息為源數據,經過數據清洗、集成、識別、入庫等步驟得到可滿足不同用戶進行數據挖掘需要的集成數據庫。將得到的數據送出至數據挖掘內核中的知識庫,由知識庫根據具體模式運用算法庫來進行處理。最終的處理結果通過模式評估后反饋給用戶界面。
5 總結
傳統的Web使用模式挖掘是一個對Web服務器日志的挖掘,而Web服務器日志本身作為數據挖掘的源數據具有許多缺點。本文以應用服務器信息為源數據,在此基礎上提出了對傳統Web使用模式挖掘模型的改進。
參考文獻:
[1] Ron Kohavi. Mining E-Commerce Data:The Good, the Bad, and the ugly.
[2] 張娥, 馮秋紅, 宣慧玉, 田增瑞. Web使用模式研究中的數據挖掘[J]. 計算機應用研究, 2001:80-83.
[3] 劉煒, 陳俊杰. 一種Web使用模式挖掘模型的設計[J], 計算機應用研究, 2007, 24(3):184-186.
[4] 鄒顯春, 謝中, 周彥暉. 電子商務與Web數據挖掘[J]. 計算機應用, 2001, 21(5):21-23.
[5] 王澤彬, 金飛, 李夏, 王冠. Web數據挖掘技術及實現[J]. 哈爾濱工業大學學報, 2005, 37(10):1403-1405.
[6] 鞏固, 張虹. Web數據挖掘分析[J]. 電腦知識與技術, 2006,(17):18-19.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文