摘 要 本文對日志挖掘過程中的數據預處理和模式發現進行了深入的討論,總結了用戶的頻繁訪問路徑,得到了比較理想的結果。
關鍵詞 Web日志挖掘研究 Apriori算法 訪問路徑
中圖分類號:TP393.07 文獻標識碼:A
0 引言
在Web數據挖掘中,Web日志挖掘是一個尤為重要的研究課題,通過Web日志挖掘,可以充分利用Web服務器上大量的日志文件,從中發現用戶訪問網站頁面的模型和訪問習慣,為電子商務網站管理員優化網站頁面結構提供依據,從而為用戶訪問網站時提供便捷服務。
1 Web日志數據分布
Web日志挖掘的數據來源主要包括:Web日志、站點拓撲結構、站點文件、與站點服務相關的數據庫數據以及其他一些信息等。目前,Web日志挖掘的主要數據來源是Web服務器日志,它完整且詳細地記錄了網站訪問者的瀏覽行為。
2 Web日志挖掘的處理過程
它是通過挖掘相關的Web日志記錄,來發現用戶訪問Web頁面的模式,通過分析日志記錄中的規律,可以識別用戶的喜好、滿意度,可以發現潛在用戶,增強站點的服務競爭力。
Web使用記錄數據除了服務器的日志記錄外,還包括代理服務器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、等一切用戶與站點之間可能的交互記錄。
3 關聯規則Apriori算法及改進
4 Web日志挖掘系統設計及應用
4.1 系統的設計思想
結合前文討論的Web日志挖掘關鍵技術、方法,應用改進的Apriori算法,開發一個Web訪問日志挖掘的測試系統:
(1)項:網站中的每個頁面為一項;
(2)事務:每個客戶端IP地址,在會話持續時間的閾值(設置為30分鐘)范圍內訪問的頁面為一條事務;
(3)事務數據庫的定義:同一天所有客戶端訪問的頁面的集合。
根據客戶端IP地址對會話識別過的頁面進行處理,將IP地址和該IP地址對應的頁面的集合作為一條事務,根據用戶輸入的最小支持度和最小可信度,構造頻繁項集和產生規則并將所有的規則顯示在表格中。
4.2 開發環境的選擇
系統的開發語言采用微軟公司推出的開發Win32應用程序的、面向對象的可視化集成工具Visual C++6.0。
后臺數據庫使用微軟公司推出的基于Windows的桌面關系數據庫管理系統(RDBMS)的Access。
4.3 Web服務器日志處理
將Web日志挖掘系統應用于學院網絡中心的“招生信息網”上,從訪問日志中挖掘出用戶的頻繁訪問路徑。基于這一目的,結合實驗條件和自身的技術水平,對日志文件數據的預處理主要做了如下工作:
數據清理階段:將日志文件導入數據庫后,通過使用SQL把數據庫中無關的數據消除,是數據庫保持干凈,有利于程序的運作。
用戶識別階段:IP優先考慮,即IP不同代表不同的用戶。
會話識別階段:同一IP地址(該IP可能是用戶的,也可能是代理服務器的)在一個時間段內可能會不只一次訪問網站,需要把同一IP地址用戶的所有訪問序列分割成多個單獨的用戶一次訪問的序列,本文采用通用的會話持續時間閾值(=30分鐘)的啟發式會話識別方法。對日志數據進行預處理后,生成對應的日志數據庫文件Weblog.mdb。
4.4 Web日志挖掘
結果分析:Web日志挖掘實驗結果表明,訪問招生網主頁的有六成訪問者訪問留言版信息,有五成多的人員訪問專業設置頁面和招生信息,依次類推。
參考文獻
[1] 孔昊,周長勝.Web日志挖掘預處理研究[J].北京機械工業學院學報,2005(04).