任華 張玲 葉煜
數字化校園中用戶網絡行為大數據的分析與監控?
任華 張玲 葉煜
(成都農業科技職業學院電子信息分院 成都 611130)
針對日益發展的數字化校園中不規范的用戶網絡行為,創新提出了一種基于用戶網絡通信大數據分析和監控的系統設計與實現。本文首先分析了監控技術的方向;其次從數字化校園建設出發介紹了在校園局域網中產生的大數據監控系統的架構思想;然后詳細描述了架構中大數據采集、大數據分析、大數據處理及存儲的方法和算法。其中大數據存儲和處理主要采用Hadoop分布式處理平臺完成設計(包括HDFS文件和Hbase數據庫);最后通過實驗驗證了該算法真實可行。本文的技術創新點在大數據分析算法中采用矩陣模式合并不同的文件數據,規避出錯率,提高數據處理效率。
數字化校園;大數據;用戶網絡行為;監控;Hadoop
AbstractIn view of the increasingly development of the digital campus,the user’s network behavior is not standardized,and the design and implementation of a system based on the analysis and monitoring of large data communication based on user network is proposed.Firstly the monitoring technology direction is analyzed,secondly from the construction of digital campus are introduced in this paper.The big data monitoring system in the campus network of ideological framework,then a detailed description of the ar?chitecture in data collection,data analysis,data processing and storage methods and algorithms.Big data storage and processing is mainly used Hadoop distributed processing platform to complete the design(including the HDFS file and Hbase database),finally through the experiment proved that the algorithm is feasible and practical.In this paper,the technology innovation points in the big data analysis algorithm using matrix model combined with different file data,to avoid the error rate,improve the efficiency of data processing.
Key Wordsdigital campus,big data,user network behavior,monitoring,Hadoop
Class NumberTP393.2
如今互聯網應用早已進入多元化時代,隨著數字化校園發展步伐的加快,我校校園網絡覆蓋率基本達到95%以上,無處不在的網絡,隨身攜帶的智能手機,隨時隨地的網絡通信,這些都將產生大量的數據,我們已經悄悄走進“大數據”時代。
這些海量數據背后是各種各樣復雜的用戶行為:或在瀏覽網頁、或在搜索熱點新聞、或在社交聊天、或在觀看視頻、或者聽音樂、或在玩游戲等等,通過網絡數據可以分析用戶行為,了解用戶習慣和愛好。在數字化校園建設中,這樣的用戶行為分析用在進入教室學習的同學身上,可以及時杜絕學生在課堂中偷偷利用手機做與課堂無關的事;用在寢室、校園中可以發現問題學生(游戲成癮、電影不離手等),及時進行教育和引導;用在辦公場所可以監控工作時間不務正業:上網、看視頻、下電影、購物、玩游戲等不良行為。因此,長遠來說在數字化校園建設中對用戶網絡行為數據進行分析和監控是非常有必要的。
網絡流量監控是指對網絡通信數據進行檢測和調節,主要體現在:網絡帶寬限制,網絡運行與維護、如何提高網絡使用效率、網絡通信數據分析等方面。目前我們所采用的監測技術是硬件探針監測和Deep Packet Inspection(簡稱DPI)進行流量監測。
用戶網絡行為的數據分析是指從用戶上網所產生的龐大數據中挖掘出有價值有意義的數據。目前大數據挖掘和分析使用的方法主要有:數學分析法、覆蓋正例排斥反例法、決策樹法、數據集成法、神經網絡探索分析法、粗集法、統計分析法、模糊集法、證據理論法、數據分析法、近似推理法、信息聚類分析法、數理統計法、遺傳算法、計算機學習法等。
本網絡大數據的分析和監控主要包括:網絡大數據采集、大數據分析、大數據處理及存儲3大模塊。如圖1所示。

圖1 監控系統架構圖
在大數據采集模塊主要通過結合探針監測和DPI獲取用戶請求;大數據分析是針對用戶請求分析用戶即將執行的行為,主要是對HTTP報文和DNS報文數據分析;數據處理是將分析的結果分類放入自定義的表中(用戶請求實時表、分類匯總用戶請求日表、分類匯總用戶請求月表),將表中數據存放到數據庫中提供有效檢索,進一步分析用戶的行為。
我們將大數據采集設備連接在教學樓每層的局域網出口處,由此獲取校園內師生的網絡通信數據和流量,下文簡稱為網絡數據監控設備。該設備具備路由功能,采用DPI技術識別UDP、TCP報文。針對UDP主要識別行為關鍵字,針對TCP主要捕獲用戶IP地址、傳輸協議類型、目的端口地址。當用戶發起請求時,該請求會通過網關中的監控設備向外傳送,若該請求解析出的數據與監控設備中數據相匹配,則該請求自動撤銷,不能通過網關發送出去,這樣服務器接受不到請求自然不會反饋請求結果,通過此網絡數據監控設備更好的管理用戶網絡行為。無數個網絡數據監控設備有效組成了網絡監控平臺,我們將捕獲到的網絡數據存放到HBase中進行集中管理和數據分析。由此,網絡監控平臺不僅可以有效獲取用戶數據,同時可以針對數據對用戶行為進行分析,為教育教學提供客觀依據。
大數據采集中我們將采集到的數據按時間段做周期化分類匯總,將匯總數據以文件的形式進行存儲。以學生上課時間為參照,我們劃分了兩個階段:學習期(8:30-20:30)和休息期(20:30-次日8:30),其中學習期周期為每2小時統計一次數據,休息期周期為每4小時統計一次數據,如此每天有9個文件統計文件。統計文件參數表如表1所示

表1 文件參數統計表
按周期將采集到的數據存在上表中,主要包含統計A和統計B兩部分,13個參數指標。每個周期都會生成一張這樣的表文件,當一天結束后,就會把當天按周期統計的9個文件合并成一個新的大文件統一上傳。
大數據采集中本身就存在問題:獲取到的信息基本是非連續的,是一個累計的結果;不同的統計數據混合在同一文件中。因此我們要運用Map功能消除數據的重疊性和不真實性。Map最終會生成一個指向同一會話的文件。這個大數據分析過程如下
1)初始化一個[24,2]的空矩陣;2)文件首行內容放入[0,0]中;
3)判斷文件是否已經執行到最后一行,如果是最后一行直接結束,如果不是則讀取下一行;
4)判斷是否在同一周期,即學習期間隔2h以上,休息期間隔4h以上,如果是同一周期則跳轉5),否則跳轉6);
5)由4)跳轉來,同一周期,下一行是否可用,若可用,則存入模式1并轉到3)繼續執行。若不可用,則存入模式2;
6)由4)跳轉來,不同周期,判斷是否發生過重置,若有重置,則返回5),判斷下一行是否可用,若沒有重置繼續7);
7)判斷下一行是否可用,如果不可用得到模式3,可用得到模式4。
其中,模式1、模式2、模式3、模式4如圖2所示

圖2 數據信息分析模式圖
其中,模式2中,數據合并算法公式如下

xi表示平均值,yi表示差方。i表示采集到數據樣本的個數。
4.2.1 用戶行為分析算法
我們通過詞頻-逆向文件頻率(term frequen?cy-inverse document frequency)統計用戶的網絡行為。詞頻(TF)用來統計用戶行為關鍵字出現的頻率。逆向文件頻率表示該關鍵字的重要程度,即在某個文檔的出現的頻率,頻率越小則說明該詞在文檔中的特征性越少。計算公式如下

4.2.2 數據過濾
大數據分析是針對有用有意義的數據,在大數據采集中需要過濾一些計算機運行時后臺自動運行的安全數據。例如:防火墻、殺毒軟件、360管家等固定的后臺程序。我們為這些域名在數據庫中創建一份白名單,大數據分析前,先與白名單匹配,直接過濾掉域名相同的安全后臺應用程序。
為提高大數據分析效率,我們還將白名單上的域名進行分類,另一類是大眾知曉的通用域名,如:百度、騰訊、新浪等;第二類是大眾不常用但特定群體訪問量巨大的域名,如:各類大型出版社官網、大學官網等;第三類是無法解析地址的,但也是安全被大眾訪問的。白名單上的域名也是不斷增加和更新的。
數據處理采用開源的分布式框架Hadoop,主要包括MapReduce和HDFS。MapReaduce的好處在于可以分解任務,多任務同時運行,最后對任務進行匯總。我們可以將編寫好的MapReduce程序上傳到子計算機中分別運行,配合HDFS分布式文件存儲系統就可以同步進行、存儲大數據,提高效率。Hadoop系統框架如圖3所示。

圖3 Hadoop系統框架圖
圖中,通信數據采集:是從用戶提交的網絡請求中獲取數據,是整個系統中大數據的來源地,數據類型多,主要通過對HTTP報文和DNS報文解析、檢測手段實現大數據采集功能。
·文件管理及存儲:是通過HDFS分布式文件系統對數據進行管理和存儲。Hadoop處理的數據都是通過HDFS獲取,將不同的數據文件存儲到對應的地址并上傳到上層。多文件處理同步運行,提高文件處理效率;
·數據存儲:將大數據存儲到HBase分布式數據庫或Hcatalog用戶自定表中。存儲的同時還做了編程輸入處理;
·編程/建模:通過MapReduce模型分布處理大數據,是整個系統框架的核心部分。是對任務的邏輯處理進行有效的分解和合并。
·數據分析:為Client客戶端用戶提供兩種不同的分析工具:Pig和Hive,Pig可簡化Hadooop工作任務,如快速加載數據(日志文件等)、存儲結果,好處在于對mapreduce算法(框架)實現了一套shell腳本。Hive類似SQL,進行數據的查詢等管理工作。
1)HTTP報文處理
將采集到的HTTP報文進行解析,得到規范有用的數據。HTTP報文處理后獲得字段及數據格式如表2所示。

表2 HTTP報文處理格式
2)DNS報文處理
將采集到的DNS報文進行解析,得到規范有用的數據。DNS報文處理后獲得字段及數據格式如表3所示。

表3 DNS報文處理格式
我們在公共大機房按上述進行部署,讓212名同學同時分別進入3個大機房上網進行測試,只要求了同學們統一打開QQ和百度,其他自由上網。我們希望得到的最高訪問量是QQ和百度。測試計算參考式(3)、式(4)、式(5)測試結果如表4所示。

表4 TF-IDF結果
從表中明顯看出,做了要求的騰訊和百度TF和IDF明顯高于其他網絡的訪問。實驗結果和預期期望一致,驗證成功。
隨著網絡用戶數量的不斷擴大,網絡應用也逐漸發展為多元化。如何對用戶異常網絡行為進行監控還校園網絡一個干凈的天空,是數字化校園建設中網絡良性發展的必然趨勢。本文首先分析了監控技術方向;其次從本校校園網建設出發介紹了建立校園網絡大數據監控系統的架構思想;然后詳細描述了架構中大數據采集、大數據分析、大數據處理及存儲的方法和算法,大數據分析中算法創新點在于采用矩陣模式合并不同的數據,存儲和處理都采用Hadoop的分布式處理平臺提高大數據處理效率;最后通過實驗驗證了該算法的可行性。后期我們希望能在分布式算法上進一步改進,在遠程教育中引入該監控模式,對學生的學習情況數據做客觀分析。希望這種網絡大數據的分析和監控可以應用于更多領域。
[1]陸悠,李偉,羅軍舟,等.一種基于選擇性協同學習的網絡用戶異常行為檢測方法[J].計算機學報,2014,37(1):28-40.
LU You,LI Wei,LUO Junzhou,et al.A Network User’s Abnormal Behavior Detection Approach Based on Selec?tive Collaborative Learning[J].Chinese Journal of Com?puters,2014,37(1):28-40.
[2]蔣昌俊,丁志軍,王俊麗,等.面向互聯網金融行業的大數據資源服務平臺[J].科學通報,2014,59(36):3547-3554.
JIANG Changjun,DING Zhijun,WANG Junli,et al.Big data resource sevice platform for the inernet financial[J].Chinese Science Bulletin,2014,59(36):3547-3554.
[3]任磊,杜一,馬帥,等.大數據可視分析綜述[J].軟件學報,2014(9):1909-1936.
REN Lei,DU Yi,MA Shuai,et al.Visual Analytics To?wards Big Data[J].Journal of Software,2014(9):1909-1936.
[4]陶彩霞,謝曉軍,陳康,等.基于云計算的移動互聯網大數據用戶行為分析引擎設計[J].電信科學,2013(3):27-31.
TAO Caixia,XIE Xiaojun,CHEN Kang,et al.Design of Mobile Internet Big Data User Behavior Analysis Engine Based on Cloud Computing[J].Telecommunications Sci?ence,2013(3):27-31.
[5]程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J].軟件學報,2014,25(9):1889-1908.
CHENG Xueqi,JIN Xiaolong,WANG Yuanzhuo,et al.Survey on Big Data System and Analytic Technology[J].Journal of Software,2014,25(9):1889-1908.
[6]賴英旭,李秀龍,楊震,等.基于流量監測的用戶流量行為 分 析[J].北 京 工 業 大 學 學 報 ,2013,39(11):1692-1699.
LAI Yingxu,LI Xiulong,YANG Zhen,et al.User’s Traffic Behavior Analysis Based on Network Traffic Monitoring[J].Journal of Beijing University of Technology,2013,39(11):1692-1699.
[7]李喬,何慧,方濱興,等.基于信任的網絡群體異常行為發現[J].計算機學報,2014,37(1):1-14.
LI Qiao,HE Hui,FANG Binxing,et al.Awareness of the Network Group Anomalous Behaviors Based on Network Trust[J].Chinese Journal of Computers,2014,37(1):1-14.
[8]李學龍,龔海剛.大數據系統綜述[J].中國科學:信息科學,2015,45(1):1-44.
LI Xuelong,GONG Haigang.Survey on Big Data System[J].Science China,2015,45(1):1-44.
[9]袁書寒,陳維斌,傅順開.位置服務社交網絡用戶行為相似性分析[J].計算機應用,2012,32(2):322-325.
YUAN Shuhan,CHWN Weibin,FU Shunkai.User Behav?ior Similarity Analysis of Location Based Social Network[J].Journal of Computer Applications,2012,32(2):322-325.
[10]張蕾,章毅.大數據分析的無限深度神經網絡方法[J].計算機研究與發展,2016,53(1):68-79.
ZHANG Lei,ZHANG Yi.Big Data Analysis by Infinite Deep Neural Networks[J].Journal of Computer Re?search and Development,2016,53(1):68-79.
[11]席兵,駱云龍,王建.LTE網絡用戶行為分析系統的設計與實現[J].重慶郵電大學學報(自然科學版),Generation Function Based on C#.NET[J].Computer En?gineering and Applications,2008,44(9):104-106.
[12]譚賀春.基于Excel模板的報表導出框架的設計與實現[C]//中國電子學會第十七屆信息論學術年會論文集.西安:國防工業出版社,2010:74-78.
TAN Hechun.Design and Implementation of Report Ex?port Framework Based on Excel Template[C]//Proceed?ings of the Seventeenth Annual Conference on informa?tion theory of Chinese Electronic Society.Xi’an:National Defense Industry Press,2010:74-78.
[13]鄭明釗,張建強.基于NPOI的通信工程概預算系統的設計與實現[J].軟件,2016,37(12):54-58.
ZHENGMingzhao,ZHANG Jianqiang.Design and Imple?mentation of Budget System for the Telecommunication Engineering Based on NPOI[J].Computer Engineering&Software,2016,37(12):54-58.
[14]李志秀,張軍,楊麗紅.獨立應用系統間數據交換的研究及實現[J].云南大學學報(自然科學版),2013,35(S2):135-137.
LI Zhixiu,ZHANG Jun,YANG Lihong.The Solutions and Implementations to Exchange Data between Indepen?dent Applications[J].Journal of Yunnan University(Nat?ural Sciences Edition),2013,35(S2):135-137.
[15]李冰山.COM組件技術及其應用[D].大連:大連理工大學,2000:58-60.
LI Bingshan.Technology and Application of COM[D].Dalian:Dalian University of Technology,2000:58-60.
[16]李碩.一種高效率的.NET平臺Excel文件控制方法[J].軟件導刊,2013,12(11):26-28.
LI Shuo.An efficient Excel file control method for.NET platform[J].Software Guide,2013,12(11):26-28.2015,27(2):208-212.
XI Bing,LUO Yunlong,WANG Jian.Design and imple?mentation of user behavior analysis system in LTE net?work[J].Journal of Chongqing University of Posts and Telecommunica-tions(Natural Science Edition),2015,27(2):208-212.
[12]Rahat Iqbal,Faiyaz Doctor,Brian More,Shahid Mahmud,Usman Yousuf.Big Data Analytics:computational intel?ligence techniques and application areas[J].Internation?al Journal of Information Management,2016(10):51-55.
[12]Victor Chang,Muthu Ramachandran,Gary Wills,Robert John Walters,Chung-Sheng Li,Paul Watters.Editorial for FGCSspecial issue:Big Data in the cloud[J].Future Generation Computer Systems,2016(8):103-108.
Analysis and M onitoring of Big Data of User’s Network Behavior in Digital Cam pus
REN Hua ZHANG Ling YE Yu
(School of Electronic Information,Chengdu Vocational College of Agricultural Science and Technology,Chengdu 611130)
TP393.2
10.3969/j.issn.1672-9722.2017.09.026
2017年3月9日,
2017年4月13日
成都農業科技職業學院院級科研課題(編號:cny14-13)資助。
任華,女,碩士,講師,研究領域:軟件工程,計算機應用。張玲,女,碩士,講師,研究領域:圖形圖像。葉煜,女,碩士,副教授,研究領域:計算機應用。