羅曼珺,賈 晨
(武漢工程大學,湖北武漢,430205)
基于數據挖掘的校園網網絡日志的探討
羅曼珺,賈 晨
(武漢工程大學,湖北武漢,430205)
隨著數據庫技術的快速發展,管理系統得到廣泛應用,人們生產生活中都離不開網絡技術,所積累的數據也不斷增加。以往的數據庫系統能夠對數據內容進行錄入、查詢等功能,但是難以實現對數據未來趨勢的預測。校園網絡日志能夠通過對校園網絡中各種事件的記錄,將重要的信息提煉出來,及時發現異常行為,對網絡結構進行改善。本文將對數據挖掘技術基礎上的校園網日志應用以及挖掘系統的設計進行分析。
數據挖掘;校園網;網絡日志
在計算機網絡技術的不斷發展之下,網絡服務也變得逐漸多樣化,在開放的復雜系統中進行的內在管理也變得日益復雜。校園網絡日志能夠對網絡文件進行有效的統計分析,它能夠將流量信息、攻擊、web訪問以及其他各種服務進行記錄,獲得用戶的行為模式,為校園網絡管理者提供較大的便利,極大的提升了管理效率和質量。
數據挖掘功能主要作用是能夠在數據中挖掘出想要尋找的類型,通常分為描述和預測兩個部分。其中描述性的挖掘任務是對數據庫中的數據一般性進行刻畫,而挖掘性任務則是根據目前的數據特點,對其進行預測,其在校園網日志中的應用主要體現在以下幾個方面。
1.1 統計化與可視化
根據調查統計能夠得出,只有用戶對挖掘數據的分布情況進行良好的掌握,才能夠建立出一個良好的語言模型。數據挖掘技術在校園網日志的應用中,應對統計類別進行定義和設置,例如web訪問統計、Email服務統計等等,在數據挖掘過后,這些統計結果將會實現可視化處理,能夠幫助用戶更加良好的掌握日志數據的大致分布位置。
1.2 關聯規則
通過關聯能夠掌握兩個或者兩個以上屬性之間的聯系。在校園網的日志挖掘過程中,可以通過關聯的方式對用戶以及訪問網站中存在的規則及時發現。例如,在某個特定的時間段內用戶可能既訪問了website1,又訪問了website2。在關聯規則當中,主要可以劃分為兩個步驟,第一步是對全部頻繁項目集進行識別,并且要求此種項目集的支持程度要遠遠大于用戶所設定的最小值。第二步是從獲得的頻繁項目集中,對高于用戶設定最低值的強關聯進行規則的制定[1]。
1.3 分類
通過分類的形式將其中數據類和概念的模型進行描述和劃分,以此來利用模型預測的方式對未知類對象進行標記。在校園網的日志挖掘過程中,應積極建立一種適宜用戶使用的網絡模式,并且能夠對模型的精確度予以保障。例如用戶與對象網站之間的預測使用協議等等。對于數據的分類方面,主要包括兩個步驟:第一步,建立相關模型,并且對預定的概念集或者數據類集進行描述,通過分析能夠將通過屬性描述的方式對數據庫元祖進行模型的構造。第二步,利用模型進行分類。首先,應保障評估模型預測的準確性,面對不具備測試樣本的問題,可以將已知類標號與樣本學習模型進行對比,如果模型的準確率相符,則可以將其利用到對應標號的位置中。
2.1 系統的實現流程
對于數據的收集階段,可以通過校園網防火墻的記錄日志來保存。對于數據的預處理階段,其中主要包括數據的清理、分類以及預統計等內容。在日志的解析階段,通過對收集到的日志文件分析,提升對基本的日志辨別能力。在數據清理的過程中,主要是對于與無效數據或者與挖掘無關的數據進行清理。在用戶交互定義挖掘條件的過程中,用戶可以對挖掘的對象和使用方式在日志的頁面中進行選擇,然后將設置內容傳遞到服務器當中,服務器再將最終的挖掘結果呈現到用戶的頁面當中。例如對用戶所訪問、瀏覽過的網站以及網絡服務類型關系進行挖掘、用戶在一定的時間段內對網站的訪問間隔、網站的訪問順序關系等等。其中,挖掘規則的不同導致其關聯規則也不盡相同,主要分為單維挖掘與多維挖掘兩種類型,同時利用給予密度的聚類算法能對聚類模塊進行使用。
2.2 系統軟件結構
校園網日志挖掘系統軟件主要涵蓋三個層次,即表示層、數據層以及控制層。在表示層中,能夠實現用戶與系統之間進行接口和界面的相互切換,用戶可以對挖掘的對象和使用方式在日志的頁面中進行選擇,然后將設置內容傳遞到服務器當中,服務器再將最終的挖掘結果呈現到用戶的頁面當中。在數據層中,主要是對以往的原始數據以及經過清理后的數據進行整理,并且能夠將日志數據提供給整個系統,在其接口處利用JDBC的方式能夠為為用戶提供一個特定的數據管理系統。由于JDBC屬于一個通用的程序編程接口,能夠支持SQL功能,因此它能夠在各種數據庫的功能模塊中呈現出統一的界面給用戶,為開發人員提供了較大的便利,使其對數據庫的操作變得更加方便簡單[2]。
在控制層當中,主要是校園網系統的整體核心部分,它能夠對用戶輸入的挖掘條件進行接收,然后根據條件從數據層中獲取數據進行相應的挖掘操作。控制層能夠實現各個部件的協同合作,為整體挖掘功能的實現而服務。在數據收集部分,能夠通過特定的syslog對校園網中的日志進行獲取,并且將其傳輸到日志分析器當中進行分析。對于數據的預處理部分,可以對所有的日志文件進行分析和處理,篩選出有價值的信息,將無效信息進行消除。在統計部分,能夠對日志中的相應字段進行簡單的統計,可以以小時或者一天為單位,統計出每天訪問量最多的網站及用戶的訪問數量。在關聯規則的挖掘部分,主要是通過尋找日志字段之間存在的關系進行分析。對于分類部分來說,可以利用樸素貝葉斯的分類算法對日志進行分類整理。在數據庫部分,通常利用JDBC的方式對數據庫進行訪問,然后提供一系列的建立、訪問以及斷開數據庫等功能,并且將最終的可視化結果以最直觀的方式為用戶展現。在系統的結構框架方面,所采用的是web以及C/S架構,主要應用的是Stryts程序框架,并且通過對控制器的應用,使得系統的靈活性以及可維護性得到顯著的增強[3]。
通過將數據挖掘在校園網中的應用,能夠對用戶瀏覽的信息內容以及使用的站點進行獲取,通過web server中的Log記錄能夠將信息挖掘出來,如果有較多的用戶在不斷重復的對同一個頁面集進行訪問,那么其能夠提供充分的證據證明該頁面集中的頁面具有較強的相關性。此外,web日志挖掘能夠通過用戶的點擊發現其中隱藏著的模型,對用戶興趣進行提取,進而構建出一個具有個性化信息服務功能的web智能化站點。
[1]姚亞輝,侯德恒.web數據挖掘在校園網絡化考試中的應用[N].安陽工學院學報,2013,01:57-60.
[2]黃永平,王健.web數據挖掘在高校教務考試中的應用[J].現代電子技術,2012,3216:69-72.
[3]陳陽,崔英敏.基于web日志的數據挖掘在校園網應用中的探索[N].廣東輕工職業技術學院學報,2015,01:20-22.
Research on campus network log based on Data Mining
Luo Manjun,Jia Chen
(Wuhan Institute of Technology,Wuhan Hubei,430205)
With the rapid development of database technology, the management system has been widely used in the production and life of people, all cannot do without the network technology, the data is also increasing. The database system can used for data entry, query and other functions, but it is difficult to forecast the future trend of the data. The campus network can log the various events in campus network records will extract important information, timely detection of abnormal behavior, to improve the network structure. This paper will analyze the design of mining technology based on the campus network and the application of data mining system log.
data mining; campus network; network log
武漢工程大學校長基金(項目編號:2017036)。