摘要:本文以某校校園網Web日志挖掘為例,首先闡述如何進行Web挖掘,其次運用該理論分析該校Web日志得到用戶上網行為習慣,并給出合理化建議,最后引出進一步探索的方向,為以后工作奠定基礎。本文采用的挖掘方法具有通用性和實用性,對于類似時序序列趨勢分析都可參考本文。
關鍵詞:Web日志挖掘;上網行為習慣;時序數據;序列數據
Mining and Internet Web Log Analysis Behaviour
JIANG Qun,WANG Jiu-ru
(Anhui Polytechnic University,Computer Science and Engineering Institute,Huainan 232001,China)
Abstract:This article take some school campus net Web diary excavation as an example, first elaborated how carries on the Web excavation, next utilizes this theoretical analysis this school user Web diary to obtain the user surfer behavior custom, and aims at the excavation result to give the rationalization proposal, educates the student and the school leader for the instructor supervises the teacher and the office personnel provides the science reference. Finally draws out the direction in this foundation which the Web diary excavation further explores, lays the foundation for later work. This article uses the excavation method has the versatility and the usability, all may refer to this article procedure regarding the similar succession sequence trend analysis.
Key words:Web log excavation; surfer behavior customsuccession datasequence data;succession data trend analysis;Baye classifies
1 引言
某校校園網是通過論證計費方式上網,自該校園網開通以來,積累了大量用戶上網日志。為引導學生正常上網,預防網絡成癮影響學習,為輔導員做好學生工作提供幫助;同時,為監督教工、辦公室人員合理上網,預防沉迷網絡耽擱工作,為行政管理提供科學依據,特對上網日志進行挖掘,分析用戶上網行為習慣,為科學管理提供依據。
2 Web挖掘[1]
2.1 Web挖掘的含義
Web挖掘是通過分析Web服務器日志文件,發現用戶訪問站點的瀏覽模式,為站點管理員提供改進Web服務器結構設計信息,以方便用戶使用及提高Web服務器性能,增強個性化服務。如果將C看作輸入,將P看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個映像ξ,記作
ξ:C→P
Web日志既是時序數據也是序列數據。本次Web挖掘的目的就是分析時序序列趨勢,從Web日志得到用戶上網行為習慣。
2.2 Weblog挖掘器的設計
對于Web挖掘一般要經過如下過程:
a:預處理生成關系數據庫 b:從數據庫中產生數據立方體
c:OLAP上鉆或下鉆數據立方體 d:OLAM挖掘感興趣的知識
3應用實例
3.1 數據說明
本次挖掘有兩個數據源:user.txt 和log.txt,其中:user.txt:共1703條記錄,保存用戶信息文件。包括:用戶名和用戶所在的用戶組。102代表研究生組(299條記錄)、103代表本科生組(731條記錄)、104代表教職工組(569條記錄)、105代表辦公用戶組(89條記錄),其他用戶(15條記錄)。其格式如下:
user386 14
log.txt:共389348條記錄,為用戶上網日志文件,主要包括IP address, User, Timestamp, Method, File + Parameters, Status, Size。其格式如下:
3.2 模型假設
為實現預期目的,作如下假設:
假設一:用戶上網兩兩獨立且滿足貝葉斯公式;
假設二:同一用戶全部上網時間之和<300s,忽略不計;
假設三:同一用戶如果兩次鏈接的Timestamp差>10800s,算作重新上網。
為分析用戶上網行為習慣,使用概率論期望值公式[2]:
---計算各組上網時間、單位時間上網人數之和
---計算平均上網時間
3.3 模型建立
3.3.1數據清洗與轉存
因數據量有限,不再進行力度分級。根據數據挖掘目的去掉冗余數據,導入到VF6.0數據庫[3]中,建立下表。
user.dbf(username, group)——用戶名表;
log.dbf(username, time)——上網記錄表;
3.3.3數據分析和建議
第一:在線頻率分析。根據假設三,對數據立方體做在線人數切片,得如下結果:
結果表明:
研究生組、本科生組、教工組重復上線率比較高,且研究生組重復上線頻率比本科生組頻率高,教工組重復上網頻率比辦公室高。
第二:在線時間分析。根據數據挖掘目的和假設二,對log.dbf進一步清洗,每個用戶名僅保留一條記錄,得到onlinetime.dbf(username,time)表。
根據假設一,對數據立方體在時間長度維度做切片,得如下結果:
結果表明:
101其他人員統計2人在線,平均上網時間約為:7.4764小時;
102研究生組統計56人在線,平均上網時間約為:4.5296小時;
103本科生組統計45人在線,平均上網時間約為:4.6515小時;
104教工組統計155人在線,平均上網時間約為:3.3391小時;
105辦公室組上統計38人在線,平均網時間約為:3.6167小時。
第三:在線人數分析。對數據立方體在時間段維度做切片,得如下結果:
101其他人員在線時間長且連續;
102研究生組在13:00之前、14:00—23:00和18:00—21:00人數集中;
103本科生組上網習慣和研究生相似;
104教工組上網時間和上網人數偏多;
105組辦公室組明顯按照上班時間變化。
針對以上情況,結合該校實際,提出一下建議:
第一:建議校加強學校娛樂建設,豐富業余生活。為提供更多的休息娛樂項目,不要讓網絡成為首選娛樂方式。
第二:建議研究生、本科生上網時間長度<5小時,共計上限<10小時,教工、辦公室組上網時間長度<4小時,共計上限<8小時。
第三:建議網絡中心,對上網時間超過平均值的用戶,每隔一段時間(比如:30分鐘)在客戶端給予警示提示。
第四:建議輔導員對于長期上網時間超過10小時的重點監督,預防網絡沉迷,耽擱學業、耽擱前程;校領導對于長期在線時間超過8小時的教工和辦公人員重點督導,防止耽擱工作。
第五:建議所有用戶適當縮小上網時間,做適量的活動,晚上早休息。
3.4 模型評價
通過對該校校園網1703個用戶,389348條上網記錄分析做貝葉斯分類、聚類分析和數據擬合[4],認為雖然數據量有限,但結果是可信的。
4 小結
通過對某校校園網Web日志挖掘,發現了各組用戶上網行為習慣,為合理利用網絡和科學管理提供依據。同時,發現用戶上網習慣呈穩定趨勢[5],下一步的工作中深入探討。
參考文獻:
[1] Margare H. Dunham著,郭崇慧,田風占,靳曉明,等譯. 數據挖掘教程[M].北京: 清華大學出版社,2005(5).
[2] 郭巖,白碩,楊志峰,張凱. 網絡日志規模分析和用戶興趣挖掘.計算機學報[J],2005.28(9).
[3] 鄭阿奇. Visual FoxPro教程[M]. 北京:清華大學出版社,2005(3).
[4] 張志涌,徐彥琴,等編著. MATLAB教程-基于6.x版本[M].北京:北京航空航天大學出版社,2001(4).
收稿日期:2008-03-27
作者簡介:蔣群(1980-),女,安徽理工大學計算機科學與工程學院2006級碩士研究生,主要研究領域計算機應用技術。
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”