弋改珍,楊佳梅,段妮歌,徐勇
(咸陽師范學院計算機學院,咸陽 712000)
相關分析法在大學生上網行為分析中的應用
弋改珍,楊佳梅,段妮歌,徐勇
(咸陽師范學院計算機學院,咸陽 712000)
大數據的意義是由人類日益普及的網絡行為所伴生的,蘊含數據生產者真實意圖、喜好的,非傳統結構和意義的數據。以咸陽師范學院大學生上網行為數據為數據源,研究數據分析技術中相關分析方法的原理和數據建模方法,借助SAS軟件中的數據庫和分析模塊,對數據源進行采集、整理、清洗,并建立評價建立指標,對預處理后的數據從用戶量和網址類別兩個方面進行分析。最終針對大學生上網情況提出合理的規劃與建議。
大數據;相關分析;大學生上網行為數據
隨著互聯網和信息技術的快速發展,物聯網、移動互聯、各種社交網絡從各個方面擴展了互聯網的應用領域。網絡對在校大學生的生活產生了深遠的影響,學生的行為方式、思維方式、價值觀念發生了巨大變化。如何及時了解學生的行為和思想動態,把握學生管理的時機,對教育管理部門提出了嚴峻的問題和考驗。
本文利用統計學中的相關分析[1]方法,通過研究相關分析方法的原理和數據建模方法,以咸陽師范學院大學生上網行為數據為數據源,借助SAS[2]軟件中的數據庫和分析模塊,對數據源進行采集、整理、清洗并逐步分析。并針對大學生上網情況提出合理的規劃與建議,使處于信息時代的大學生們能夠正確、合理地運用網絡資源,充分把握每一個信息的重要性。
相關分析是研究現象之間是否存在某種依存關系,并對具體有依存關系的現象探討其相關方向以及相關程度,是研究隨機變量之間的相關關系的一種統計方法。相關關系是一種非確定性的關系[3]。
線性相關分析指的是研究兩個變量間線性關系的程度,用相關系數r來描述。設兩個變量為x,y,根據樣本數據計算,利用積差法來計算相關系數,計算公式:

其中,分子是兩變量的協方差,分母是兩變量的標準差,即:

以上公式簡化得:


將公式展開,即:從以上公式可以看出,r的符號只決定于分子Lxy的值的符號,即r的符號與Lxy的符號保持一致。相關系數r的符號反映相關關系的方向,其絕對值的大小則反映變量相關關系的密切程度。|r|的取值范圍為0到1之間。r=1表示變量完全正線性相關;r>0表示變量正線性相關;r=0表示變量不存在線性相關;r<0表示變量負線性相關。本文運用的是正線性相關[3]進行分析,正相關系數判別:
|r|>0.95表示變量之間存在顯著性相關;
|r|≥0.8表示變量之間高度相關;
0.5≤|r|<0.8表示變量之間中度相關;
0.3≤|r|<0.5表示變量之間低度相關;
|r|<0.3表示變量之間關系極弱,認為不相關。
數據來源于咸陽師范學院的學生上網數據。原始數據是學生上網的日志文件,不符合SAS進行處理的數據格式。在進行數據分析之前,要對原始數據進行預處理和標準化,然后倒入SAS,利用SAS中的相關分析過程進行分析。
我們選取2016年4月11號-4月16號這一個星期的上網數據。數據的觀測是按時間進行排序的,其指標有日期、學號、網址等。
2.1 原始數據的處理
數據的合并及導入:原始數據是每小時的數據,要利用(copy*.log合并文件.txt)進行每小時數據的合并,合并成為一天的數據。接下來在SAS中利用IMPORT過程將一天的數據導入。
數據的整理:首先選取學生學號做指標,利用SQL過程查找有效學號信息過濾掉無效學號及缺省值,并留存篩選后的數據。然后以網址為指標進行篩選過濾掉無效網址及私有不可訪問網址。并基于保護用戶私密信息,經過數據清洗處理,保留下的數據集具有學號與網址兩個屬性值。
數據二次清洗:對于學號與網址數據中不完整的數據,錯誤的數據,重復的數據進行清洗。
2.2 基于學號網址的網址類別處理
通過從360網址大全,百度網址大全,2345網址導航等網站的源碼中提取網址關鍵字,并對網址關鍵字進行分類。
通過模糊匹配法對網址進行關鍵字的匹配,從工具、購物、軍事、科技、旅游、其他、社交、體育、新聞、學習、音樂、影像、游戲等13個方面對網址進行分類。
(1)排序:按照類別排序,保證所有數據集的變量順序一致,以便分析。
(2)計算頻數:對每個類別求訪問量及所占百分比。
(3)轉置,追加:對所得表實現轉置并清洗其中無效信息以便追加數據集。對轉置后的表進行豎向追加。
(4)整理分析所用數據:對一天的表求和并將七天的合并在一張表中。
2.3 指標的建立
選取每一類網址(n)的每天作為樣本指標(p),分別用符號X0,X1,X2,X3,X4,X5,X6,X7來表示。其表示矩陣為Mij(i=1,2,…,n;j=1,2,…,p)。通過相關分析的CORR過程分別統計一周內各類網址的出現頻率,以及利用Pearson相關系數各類網址之間的關聯程度。
把一個周的網址按小時劃分,把原始數據整理、清洗、處理后,把網址數據分為工具,購物、軍事、旅游、社交、體育、新聞、學習、音樂、影像、游戲,其他13類,如圖1所示。由相關分析的corr過程,可以得出以下信息:N表示一共168個小時,也就是一周的網址信息量,從均值來看訪問社交、購物、學習、影像、游戲等網址的比例較大,其中訪問影像類網址的頻率最高。從標準差也可以看出學習與影像偏離均值較大,說明這類網址數據波動較大,反映出上學習與影像的網站具有時段性。縱觀全表,同學們比較熱衷于上網購物、社交、學習、看電影以及玩游戲,對于軍事、科技、新聞、體育、關注較少。通過Pearson相關系數,可以分析各類網址的相關程度,在工具行中可以發現工具類與科技類,體育類之間關系極弱,認為不相關;工具類與學習類中度相關,與其他各類呈高度相關和顯著性相關。
圖2是對星期一這天的網址數據進行相關分析:從均值水平可以得出這天訪問影像類網站的最多,依次是影像、學習、社交、其他、工具等;標準差反應數據的波動性,可見工具,購物、社交、學習,影像,游戲類網站的波動較大,具有時段性,也較符合日程時刻表。從總和來看訪問工具、購物、社交、學習、影像、游戲類網址遠高于其他各類。工具、影像類網址的最大最小值顯著于其他各類,相比于科技,新聞和體育,同學們較少關注,也間接反映大學生們普遍的生活行為方式,忽視了健康與時事。

圖1 學生訪問的網址類別統計

圖2 網址數據的相關分析結果
圖3是星期一的晚高峰22時的數據。影像、學習、社交、購物超過總網址的50%,影像類網址數量最多,科技類網址僅占1/1000,體育類網址占0.2%,軍事、旅游,新聞,體育類網址總和不及十分之一,側面反映出叫大多數同學的大學生活較單一,并且不熱愛體育運動。

圖3 學生上網類別百分比
正如引言所述事物之間有著兩種關系,函數關系和相關關系。函數關系能給我們確定性結果,相關分析則是反映事物之間關聯程度。使用相關分析方法分析大學生生上網數據,我們得到了許多客觀有效的結論,許多大學生的上網方式不科學,較少一部分同學沉溺于網絡游戲,在此我們提出建議,希望大學生能合理安排上網時間,正確對待網絡娛樂資源勞逸結合,寓教于樂是我們所提倡的健康的學習方式,適度娛樂能緩解學習,生活中的壓力也為后續的學習和工作提供能量。過度沉溺于如網絡娛樂,在線聊天等不僅浪費時間而且影響學習。我們必須合理的安排上網時間,做到有效的使用網絡資源并使其真正的為學習,生活帶來便利。
[1]何曉群.現代統計分析方法與應用[M].北京:中國人民大學出版社,2003.
[2]胡小平,王長發.SAS基礎統計實例教程[M].西安:西安地圖出版社,2001.
[3]謝龍漢,尚濤.SAS統計分析方法與數據挖掘[M].北京:電子工業出版社,2012.
Application of the Correlation Analysis Method in Students'Online Behavior Data
YI Gai-zhen,YANG Jia-mei,DUAN Ni-ge,XU Yong
(School of Computer,Xianyang Normal University,Xianyang 712000)
The significance of the big data is accompanied by the increasing popularity of the network behavior,and it contains the data producer's true intentions,preferences,non-traditional structure and significance of the data.Uses the students'online behavior data for data source in Xianyang Normal University,studies the principle of correlation analysis method of data analysis techniques and data modeling method, uses database and analysis module in SAS software,collects the data source,and sorted,cleans and sets up the index,and pre-processed data from users and the Web site.Analyzes the pre-processed data from the two accepts:the numbers and the kinds of Web site.Finally, puts forward the reasonable planning and suggestions for college students to surf the Internet.
Big Data;Correlation Analysis;University Students'Online Behavior Data
咸陽師范學院(國家級/省級/校級)大學生創新創業訓練計劃資助項目(No.201610722028)
1007-1423(2016)36-0019-04
10.3969/j.issn.1007-1423.2016.36.005
弋改珍(1969-),女,陜西咸陽人,碩士研究生,副教授,研究方向為無線網絡和網絡安全、大數據分析
2016-11-08
2016-12-10