劉中原

摘要:本課題分別從大數據信息分析平臺、數據收集、數據存儲以及數據分析的架構著手分析;其次,通過實現K-means的MapReduce方法,采用Hadoop分布式計算平臺,同時分別從聚類功能結果測試和單機分析平臺性能對比測試,通過實驗測試,基于Hadoop的校園網絡日志分析系統在收集、處理、存儲、挖掘方面相比傳統單機處理有很大改進,不僅減少了開發人員工作量同時還提高了效率。
關鍵詞:大數據處理;Hadoop分布式;K-means
1 引言
如今,移動互聯網技術的發、大數據等新興技術的普及,整個社會的網絡信息技術發生了巨大的變化,信息化環境己進入了一個新的階段,這對學校網絡中心在對校園網絡的維護和管理上也提出了新的要求和挑戰。在當今時代,互聯網技術己經被十分深入地應用到高校的學習、工作和校園生活中,我國各大高校的校園網建設也越來越受到高校的重視,通過連接校園網絡上網,產生的日志數據具有實時、海量、動態、無規則等特點,但這些數據同時具有重要的價值。如何從這些復雜數據中找出我們需要的內容,這就需要對這些原始的日志數據內容進行一些處理,通過數據的處理,挖掘出對學校管理有用途的信息,這些信息對學校校園網絡建設以及學校對學生的管理都十分重要。現有的一些日志分析工具,如:Awstats、Webalizer等,都可以用來對網絡日志進行分析統計,但由于這些工具基本是屬于單機運行,在計算能力和存儲能力上,滿足不……