摘 要: Web日志的數(shù)據(jù)預(yù)處理是Web日志挖掘過程中基礎(chǔ)而關(guān)鍵的一步,對之后的模式識別和模式分析有著很大的影響。為了達到有效處理數(shù)據(jù)的目的,針對此預(yù)處理過程中的5個步驟逐一進行分析,并在事務(wù)識別這一步驟中,比較了常用的兩種算法。最后,基于這些算法思想,在Windows平臺下,采用Java語言實現(xiàn)了Web日志預(yù)處理。實驗結(jié)果表明是有效的。關(guān)鍵詞:數(shù)據(jù)預(yù)處理; Web挖掘; 用戶識別; 路徑補充
中圖分類號:TN911-34文獻標(biāo)識碼:A
文章編號:1004-373X(2010)18-0097-04
Pretreatment Process of Web Log Mining
BI Yong-cheng
(Suzhou University of Science and Techonolgy, Suzhou 215011, China)
Abstract: The data pretreatment of the Web log is the basic and pivotal process in Web log mining. It has a deep influenc on the following pattern recognition and pattern analysis. For getting dispose data in effect, 5 steps of pretreatmen process is analyzed one by one and two common algorithms are compared in the stap of affair recognition. Base on these algorithms, the Web log pretreatment was achieved with Windows platform and JAVA language. The experiment result proves that the method is effective.Keywords: data pretreatment; Web mining; user identification; path completion
收稿日期:2010-04-13
數(shù)據(jù)預(yù)處理是 Web 日志挖掘的基礎(chǔ),預(yù)處理的結(jié)果直接影響到挖掘算法產(chǎn)生的規(guī)則與模式。因此,預(yù)處理過程是保證Web日志挖掘質(zhì)量的關(guān)鍵。進行數(shù)據(jù)預(yù)處理時應(yīng)根據(jù)不同的應(yīng)用,從海量的原始數(shù)據(jù)中抽取需要的數(shù)據(jù),并對不完整的數(shù)據(jù)進行處理。
1 Web日志的文件格式
在Internet上有一個專門提供Web服務(wù)的軟件,稱為Web Server ,常見的有Microsoft上的IIS,Unix與Linux上廣泛流行的Apache。但無論采用哪種Web Server,都有一系列相關(guān)的日志文件,如:Microsoft的IIS上就有如Web日志、系統(tǒng)日志、FTP 日志、錯誤日志、網(wǎng)絡(luò)管理日志等很多日志文件。
Web日志文件是用來記錄Web服務(wù)過程中所發(fā)生的各種情況。一般而言,Web日志文件都是純文本文件,采用實際長度記錄(在Unix平臺下突破了255 B的長度限制),用回車換行作為記錄結(jié)束標(biāo)志。日志文件的格式多種多樣,因為不同的Web Server其不同的版本有不同的區(qū)別,即使同一個版本的Web Server ,由于用戶的設(shè)置不同也不一樣。但總體來看,所有國際上通用的Web Server日志都必須遵從W3C標(biāo)準(zhǔn)。一般而言,目前常用的Web Server日志格式可以分成兩類。……