999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web日志挖掘中預處理過程的具體研究

2010-04-12 00:00:00畢永成
現代電子技術 2010年18期

摘 要: Web日志的數據預處理是Web日志挖掘過程中基礎而關鍵的一步,對之后的模式識別和模式分析有著很大的影響。為了達到有效處理數據的目的,針對此預處理過程中的5個步驟逐一進行分析,并在事務識別這一步驟中,比較了常用的兩種算法。最后,基于這些算法思想,在Windows平臺下,采用Java語言實現了Web日志預處理。實驗結果表明是有效的。關鍵詞:數據預處理; Web挖掘; 用戶識別; 路徑補充

中圖分類號:TN911-34文獻標識碼:A

文章編號:1004-373X(2010)18-0097-04

Pretreatment Process of Web Log Mining

BI Yong-cheng

(Suzhou University of Science and Techonolgy, Suzhou 215011, China)

Abstract: The data pretreatment of the Web log is the basic and pivotal process in Web log mining. It has a deep influenc on the following pattern recognition and pattern analysis. For getting dispose data in effect, 5 steps of pretreatmen process is analyzed one by one and two common algorithms are compared in the stap of affair recognition. Base on these algorithms, the Web log pretreatment was achieved with Windows platform and JAVA language. The experiment result proves that the method is effective.Keywords: data pretreatment; Web mining; user identification; path completion

收稿日期:2010-04-13

數據預處理是 Web 日志挖掘的基礎,預處理的結果直接影響到挖掘算法產生的規則與模式。因此,預處理過程是保證Web日志挖掘質量的關鍵。進行數據預處理時應根據不同的應用,從海量的原始數據中抽取需要的數據,并對不完整的數據進行處理。

1 Web日志的文件格式

在Internet上有一個專門提供Web服務的軟件,稱為Web Server ,常見的有Microsoft上的IIS,Unix與Linux上廣泛流行的Apache。但無論采用哪種Web Server,都有一系列相關的日志文件,如:Microsoft的IIS上就有如Web日志、系統日志、FTP 日志、錯誤日志、網絡管理日志等很多日志文件。

Web日志文件是用來記錄Web服務過程中所發生的各種情況。一般而言,Web日志文件都是純文本文件,采用實際長度記錄(在Unix平臺下突破了255 B的長度限制),用回車換行作為記錄結束標志。日志文件的格式多種多樣,因為不同的Web Server其不同的版本有不同的區別,即使同一個版本的Web Server ,由于用戶的設置不同也不一樣。但總體來看,所有國際上通用的Web Server日志都必須遵從W3C標準。一般而言,目前常用的Web Server日志格式可以分成兩類。即“有頭”格式和“無頭”格式。所謂“有頭”格式日志文件是指在日志文件的記錄內容之前有一段日志格式說明,也稱為“擴展格式”日志文件。

如Microsoft的IIS系列日志文件屬于“有頭”格式的日志文件。“無頭”格式日志文件也稱“標準格式”日志文件,例如Unix,Linux上的Apache以及Microsoft Web Server中的NCSA格式、IIS W3C格式,都是標準格式的日志文件。“有頭”格式的日志文件非常直觀,各數據項之間用“空格”分隔,每一項都有相應的字段名對應。“無頭”格式日志的各項信息是固定的,由6項構成。 例如IIS日志某條記錄如下:

其常用的字段和含義如下所示:

日期(date):用戶請求頁面的日期。時間(time):用戶請求頁面的具體時間。客戶IP地址(cs-ip):客戶端主機的IP地址或DNS。客戶名(cs-username):客戶端的用戶名。用戶代理(User-Agent):服務的提供者。服務器IP地址(s-ip):服務器的IP地址。服務器端口(s-port):服務器的端口號。方法(cs-method):用戶的請求方法。常見的Method 有三種,分別是GET,POST和HEAD。URL資源(cs-uri-stem):用戶的請求頁面。URL查詢(cs-uri-query):用戶欲進行的查詢。協議狀態(cs-status):返回HTTP的狀態標識。它指示請求是否成功,或者遇到了什么樣的錯誤。大多數時候,這項值是200,它表示服務器已經成功地響應瀏覽器的請求,一切正常。 一般而言,以2 開頭的狀態代碼表示成功,以3開頭的狀態代碼表示由于各種不同的原因用戶請求被重定向到了其他位置,以4 開頭的狀態代碼表示客戶端存在某種錯誤,以5開頭的狀態代碼表示服務器遇到了某個錯誤。具體用戶可以參考相關資料查閱。

服務器名(s-computername):服務器名稱。發送字節數(sc-bytes):服務器發送的字節數。接收字節數(cs-bytes):服務器收到的字節數。所花時間(time-taken):完成瀏覽所花費的時間。主機(host):服務器的操作系統。協議版本(cs-version):傳輸用的協議版本。Cookie(Cookie):Cookie標識符。

2數據預處理過程

一般而言數據預處理過程主要包括以下5個步驟(見圖1)。

圖1 數據預言處理過程

2.1 數據清理

通過對Web日志文件記錄方式的研究發現,用戶對Web服務器的一次頁面請求(即一次點擊),就會在服務器的日志文件中產生多條甚至上百條的記錄。一般而言,一個Web頁面,特別是復雜的頁面,包含了圖片、視頻、CSS文件等,這些對象一般都是以單個文件方式保存的。正因為如此,雖然用戶只進行了1次頁面申請,但HTTP協議會因此而在Web日志中自動添加多條記錄。例如:簡單的5 次點擊,竟然在Web日志中生成了100多條記錄,絕大部分記錄都是相關頁面的一些圖片、圖標等。顯然這里面很多都是無用數據,所以說,數據清理是必須的。

根據以上原理,可以制定一些數據清理規則:

(1) 后綴名為gif,jpg 等的文件可以從日志中濾除,當然,如果是一些特殊的網站(例如圖片網站),可以重新設置過濾規則。

(2) 可以只保留Get動作,因為常見的請求方法包括GET,POST 和HEAD,然而只有GET 方法反映了用戶的訪問行為,因此通常在數據清理中只保留GET 方式的記錄。

(3) 屬性Status 中代碼顯示訪問錯誤的記錄,即屬性Status中代碼值小于200 或大于299 的日志記錄(屬性Status 中代碼為200~299 通常指示成功響應)。

根據以上思想,設計數據清理算法如下:

算法中的符號說明:Weblog為日志文件;R為日志文件中的一條記錄

輸入:Web日志的原始數據

輸出:清理后的數據

While(Weblog!=1)

{

讀R

If(URL后綴為.jpg,.css等)

Remove this Weblog

Else if(R.method==GETR.state<300)

將記錄寫入clean_log表中

Else

Remove this Weblog

}

2.2 用戶識別

如何識別屬于該用戶的會話和日志記錄,這個問題在很大程度上影響著挖掘質量。由于緩存、代理服務器和防火墻的使用,使得識別用戶這一步變得很復雜,這主要表現在:不同用戶可以在同一時間通過同一個代理訪問Web頁面;同一個用戶可能在不同的機器上訪問Web頁面;一個用戶可能在一臺機器上使用不同的瀏覽器訪問Web頁面;不同的用戶使用同一臺機器瀏覽某一Web頁面時也會造成用戶無法識別。

針對幾點問題,制定以下識別原則:

(1) 如果IP 地址不同,則認為是不同的用戶。

(2) 如果IP 地址相同,但瀏覽器軟件或操作系統不同,則認為是不同的用戶。

(3) 如果IP 地址相同,瀏覽器軟件和操作系統也相同,那么根據引用信息進一步進行判斷。檢查記錄的屬性ReferURI,如果ReferURI 中記錄的URL沒有被訪問過,則認為該記錄為一個新的用戶會話,或者如果ReferURI為空,且該記錄與上一條記錄的訪問時間間隔大于10 s,也認為該記錄為一個新的用戶會話。

(4) 根據前3 條規則得到的每個用戶會話可能包含了用戶在不同時間的多次訪問,因此采用基于頁面訪問時間的方法進一步進行用戶會話識別,得到用戶會話集合。

基于以上原則,設計用戶識別算法如下:

算法中的符號說明:Weblog為日志文件;U為用戶的集合;R為日志文件中的一條記錄

算法輸入為:經過清理后的數據表clean_log

算法輸出為:用戶集合U

for所有的記錄R∈clean_log

{

if(R.ip不同于U 中所有記錄的IP)

新建一個用戶R.user;

U=U+R.user;

else if(R.agent不同于同一IP的記錄)

新建一個用戶R.user;

U=U+R.user:

else if(當前頁面的R.referer為空)

新建一個用戶R.user;

U=U+ R.user;

else

刪除無關的日志R;

)

return U

End

2.3 會話識別

會話識別的目的是將用戶的所有訪問序列分成多個單獨的用戶一次訪問序列。可以認為一次會話是用戶的一次瀏覽行為,由一系列頁面組成,由訪問時間決定頁面次序。一個最簡單的方法就是定義一個時間段,如果用戶請求相鄰的任意兩個頁面之間的訪問時間間隔超過了這個時間段,則認為用戶又開始了一個新的會話,比較合理的間隔時間為25.5 min,通常情況下選擇為30 min。會話識別后將一個用戶會話序列分成不同時間段的多個用戶會話序列,給這個多用戶會話序列賦予相同的用戶ID號。根據這個原理,給出算法如下:

輸入:用戶序列表

輸出:用戶會話表

while(有未處理的記錄)

{

從clean_log中讀出一個用戶的訪問記錄

if(timeout>30min)

在用戶會話表中插入新的用戶會話

}

2.4路徑補充

由于本地緩存的存在,用戶可通過回退按鈕訪問前一頁面,這些訪問信息不會在訪問日志中保存,從而導致日志中記錄的用戶路徑信息不完整。路徑補充是通過分析將日志中沒有記錄的信息補充完整,得到用戶實際的瀏覽路徑。路徑補充算法如下:

輸入:用戶序列表

輸出:用戶會話序列表

While(有未處理的會話序列)

{

讀一個用會話序列表

if(當前頁是從上一頁直接訪問)

將該頁面加入到用戶會話表中;

else

將訪問路徑補充完整

}

2.5 事務識別

用戶會話對數據挖掘而言仍不夠精確,需要把會話進一步分解為具有一定語義的事務。事務識別就是對用戶會話進行語義分組。由于挖掘任務著重在于發現用戶訪問信息內容及訪問模式,所以區分導航頁與內容頁是事務識別的一個重要任務。下面就目前比較認可的兩種算法路徑補全+最大向前引用路徑和STT進行比較。詳細算法見文獻[3-4]。

例如:一個網站的拓撲圖如圖2所示。

某一訪問序列為:a-b-e-f-g-c-d;

采用路徑補全+最大向前引用路徑算法;

根據路徑補全算法得到補全路徑為:a-b-e-b-f-g-f-b-a-c-a-d;

再用最大向前引用路徑得到用戶的訪問事務為:a-b-e;a-b-f-g;a-c;a-d;

然而采用STT算法的時候:根據算法,先將圖2轉換為二叉樹如圖3所示;

繼而得到用戶的訪問事務為:a-b-e;a-b-f-g;a-c;a-d。

比較兩者可知,在使用STT算法的時候,因為中間略去了補全路徑這一步,使得整個預處理過程更加簡單有效率。

圖2 網站拓撲圖

圖3 二叉樹

3 具體實驗

基于以上思想在JBuilder 9下用Java語言,基于access數據庫得到如圖4所示結果原始日志文件(部分)。

圖4 部分原始日志文件

經數據清理后得(部分截圖),如圖5所示數據。

圖5 經數據清理得到的數據

在此實驗中,經用戶識別后識別出4個用戶,先截取1個用戶如圖6所示。圖7為會話識別(部分)。

進行路徑補充后得到圖8。

圖6 經用戶識別后所得日志

圖7 會話識別

圖8 進行路徑補充后得到的日志

4 結 語

Web日志挖掘的目的是為了發現用戶的訪問模式,完成對Web 日志的數據預處理還只其中的一步。對預處理這一步使用的步驟,算法很多,使用合理,高效率的算法對整個日志挖掘的影響很大,因此如何有效地提高與改進Web日志挖掘預處理技術,確保數據的正確性將仍然是今后Web日志挖掘研究的一個很重要方向。

參考文獻

[1]TANASA Doru, TROUSSE Bfigitte. Advanced data preprocessing for intersites Web usage mining[J].IEEE Intelligent Systems,2004,(3/4):59-65.

[2]KOSALA Raymond, BLOCKEEL Hendrik. Web mining research:a survey[J].Proc. ACM SIGKDD,2000,2(1):1-15.

[3]王嵐,翟正軍.Web日志挖掘的預處理及路徑補全算法的研究[J].微電子學與計算機,2006,23(8):113-116.

[4]馬瑞民,李向云.Web日志挖掘中數據預處理技術的研究[J].計算機工程與設計,2007,28(10):2358-2360.

[5]郭巖,白碩,于滿泉.Web使用信息挖掘綜述[J].計算機科學,2005,32(1):1-7.

[6]方元康,胡學鋼,夏啟壽,等.改進的Web日志數據預處理技術[J].計算機工程,2009,35(10):73-77.

[7]韓家煒.數據挖掘概念與技術[M].北京:機械工業出版社,2006.

[8]韓家煒,孟小峰,王靜,等.Web挖掘研究[J].計算機研究與發展,2001,38(4):405-414.

[9]莊力可,寇忠寶,張長水.網絡日志挖掘中基于時間間隔的會話切分[J].清華大學學報,2005,45(1):115-118.

[10]殷賢亮,張為.Web使用挖掘中的一種改進的會話識別方法[J].華中科技大學學報:自然科學版,2006,34(7):33-35.

[11]杜家強,韓其睿,王科,等.Web日志中用戶頻繁路徑快速挖掘算法[J].計算機工程與應用,2005,41(22):164-167.

[12]方元康,胡學剛,夏啟壽. 一種改進的Web 日志會話識別方法[J].計算機技術與發展,2008,18(11):214-216.

主站蜘蛛池模板: 国产人成在线视频| 日本在线国产| 91精品日韩人妻无码久久| 超级碰免费视频91| 国产亚洲欧美日韩在线一区| 国产成人三级| 国产青青草视频| 午夜福利无码一区二区| 国产嫖妓91东北老熟女久久一| 亚洲成av人无码综合在线观看| 暴力调教一区二区三区| 2018日日摸夜夜添狠狠躁| 亚洲av成人无码网站在线观看| 亚洲狼网站狼狼鲁亚洲下载| 无码福利日韩神码福利片| 无码内射在线| 国产一二视频| 欧美自慰一级看片免费| 久久久成年黄色视频| 国产黑丝一区| 国产亚洲精品自在线| 呦女亚洲一区精品| 欧美成人一级| 亚洲综合色在线| 国产欧美视频一区二区三区| 日本手机在线视频| 日本精品一在线观看视频| 久久亚洲天堂| 中国一级特黄大片在线观看| 在线99视频| 亚洲国产精品日韩av专区| 欧美成人综合在线| 精品视频第一页| 国产成人夜色91| 婷婷午夜影院| 亚洲美女一级毛片| 亚洲Va中文字幕久久一区 | 在线国产欧美| 日韩资源站| 自拍中文字幕| 99热这里都是国产精品| 美女无遮挡免费视频网站| 国产精品香蕉在线观看不卡| 91精品国产91久无码网站| 91区国产福利在线观看午夜| 91视频国产高清| 无码中字出轨中文人妻中文中| 国产福利大秀91| 欧美日韩午夜视频在线观看 | 国产欧美成人不卡视频| 国产大片喷水在线在线视频| 亚洲第一中文字幕| 国产全黄a一级毛片| 亚洲精品无码不卡在线播放| 四虎国产永久在线观看| 亚洲国产成人精品一二区| 国产精品第一区| 国产美女91呻吟求| 日韩av资源在线| 欧美一级高清免费a| 一级毛片网| 亚洲国产精品人久久电影| 中文无码精品a∨在线观看| 成年人国产网站| 五月天丁香婷婷综合久久| 欧美亚洲中文精品三区| 99这里只有精品在线| 国产成人凹凸视频在线| 播五月综合| 日韩亚洲综合在线| 国产欧美在线视频免费| 伊人五月丁香综合AⅤ| 成人在线亚洲| 免费欧美一级| 亚洲无线国产观看| 国产欧美日韩精品第二区| 色噜噜狠狠色综合网图区| 欧美第一页在线| 91精品国产丝袜| 国产本道久久一区二区三区| 国产呦视频免费视频在线观看| 精品国产免费第一区二区三区日韩|