郭玉彬 吳宇航 薄傲峰 鄭淑敏 張曉鵬
1(華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院 廣東 廣州 510642)2(中山大學(xué)數(shù)據(jù)科學(xué)與計算機學(xué)院 廣東 廣州 510006)
高校校園網(wǎng)是承載高校學(xué)生學(xué)習(xí)、生活、娛樂等各類活動的基礎(chǔ)性設(shè)施。隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,學(xué)生對網(wǎng)絡(luò)的使用增長迅速,其上網(wǎng)行為也呈現(xiàn)多樣化和復(fù)雜化特征。校園網(wǎng)認證數(shù)據(jù)包含了學(xué)生用戶名、上網(wǎng)端口地址、上下線時間等信息。通過對這些數(shù)據(jù)的分析,可發(fā)現(xiàn)學(xué)生上網(wǎng)時間、時長等信息及相關(guān)的特征分類規(guī)律。而這些規(guī)律性信息對學(xué)生管理、專業(yè)課程設(shè)置等工作具有較高的參考價值。2016年上網(wǎng)認證數(shù)據(jù)量約8 000萬條,并以每年約1億條的速度增加。
針對校園網(wǎng)日志數(shù)據(jù)進行學(xué)生行為分析的研究有很多,大多數(shù)研究都是采用傳統(tǒng)的K-means算法對在線時長和校園網(wǎng)使用流量進行聚類,利用聚類結(jié)果分析每一類用戶的上網(wǎng)行為和優(yōu)化校園網(wǎng)管理[1-4]。文獻[5]基于一種改進的K-means算法,即SimiClustering算法,對校園網(wǎng)用戶在線時長和流量進行聚類,得出3種用戶行為,并利用聚類結(jié)果為校園網(wǎng)用戶個性化需求方面提供理論依據(jù)。文獻[6]利用優(yōu)化層次聚類算法對校園網(wǎng)主干數(shù)據(jù)流的IP地址進行聚類,得到網(wǎng)絡(luò)用戶的訪問地址分布情況,從中了解用戶行為特征。文獻[7]提出結(jié)合網(wǎng)絡(luò)用戶數(shù)據(jù)特點的預(yù)處理方式,并引入基于圖論的子空間聚類方法、粒子群聚類算法得到校園網(wǎng)用戶網(wǎng)絡(luò)行為模式。文獻[8]利用K-means算法和統(tǒng)計技術(shù)對校園網(wǎng)用戶日志數(shù)據(jù)進行分析,發(fā)現(xiàn)大部分學(xué)生每個月上網(wǎng)時間小于170小時、學(xué)生上網(wǎng)時間越長越容易掛科的規(guī)律。文獻[9]對Concordia大學(xué)Wi-Fi日志數(shù)據(jù)利用PCA制導(dǎo)的聚類算法進行分析,得到7類行為模式,并給出多天同類型活動的搜索算法。
上述研究中,聚類中采用上網(wǎng)時間都是用戶一天或者一個月為單位的上網(wǎng)時間,大多數(shù)研究沒有去除臟數(shù)據(jù)。本文將學(xué)生上網(wǎng)認證數(shù)據(jù)轉(zhuǎn)換為24小時時長向量,保留較多細節(jié),更方便分析學(xué)生上網(wǎng)時刻及更能反映學(xué)生上網(wǎng)時間分布規(guī)律;采用改進Canopy算法,即K-canopy算法,去除離群點,提高聚類質(zhì)量,進而提高分析結(jié)論的可靠性。本文首先選擇校園網(wǎng)認證數(shù)據(jù)并對其進行清洗,去除與研究目標(biāo)無關(guān)的數(shù)據(jù);然后進行數(shù)據(jù)預(yù)處理,得到學(xué)生上網(wǎng)時長向量集;再對學(xué)生工作日和周末的上網(wǎng)時長向量分別進行聚類。最后依據(jù)聚類結(jié)果分析了各類學(xué)生上網(wǎng)時間和時長分布特征,結(jié)合年級專業(yè)上網(wǎng)規(guī)律進行總結(jié),為學(xué)生管理、專業(yè)課程設(shè)置等工作提供參考。
本文選擇校園網(wǎng)2016年11月本科生的認證數(shù)據(jù)進行實驗分析。因為11月份是正常學(xué)期時間,不受開學(xué)、期末考試影響,且11月假期較少,更能全面反映學(xué)生上網(wǎng)行為分布規(guī)律。在數(shù)據(jù)預(yù)處理階段,首先進行數(shù)據(jù)清洗,去掉與研究目標(biāo)無關(guān)的數(shù)據(jù),然后計算每個用戶、每天24小時內(nèi)每小時的上網(wǎng)時長,得到上網(wǎng)時長向量集合。
本文實驗數(shù)據(jù)來源于SAM網(wǎng)絡(luò)認證計費系統(tǒng)和Syslog網(wǎng)絡(luò)設(shè)備日志收集系統(tǒng)。主要提供的信息有:用戶帳號、IP地址信息、上線時間、下線時間和離線原因等。表1給出源數(shù)據(jù)表中關(guān)鍵字段說明。
(1) 數(shù)據(jù)選擇:校園網(wǎng)認證記錄數(shù)據(jù)量比較大,其中包括本科生、研究生、教職工和住宅區(qū)等多種類型賬號的認證數(shù)據(jù),也包括了線路故障反復(fù)登錄、設(shè)備自動登錄等其他與本研究無關(guān)的認證數(shù)據(jù)。針對本文研究目標(biāo),下面詳細列出需要清洗的數(shù)據(jù)及其清洗原因和處理策略。
① 研究生、教職工、辦公區(qū)、來訪人員和住宅區(qū)等非本科生認證數(shù)據(jù)。此類數(shù)據(jù)與本研究無關(guān),依據(jù)帳號特征去除該類數(shù)據(jù)。
② 大學(xué)一、五年級學(xué)生認證數(shù)據(jù)。學(xué)校規(guī)定僅有少量滿足特殊條件的一年級學(xué)生可開設(shè)校園網(wǎng)帳號,五年級學(xué)生是特殊專業(yè)或者學(xué)籍異動的學(xué)生,此類學(xué)生不具有代表性,依據(jù)帳號特征去除。
③ 去除11日的數(shù)據(jù)。雙11購物節(jié),按學(xué)校規(guī)定10-11日夜間不斷網(wǎng),因此這一天學(xué)生的上網(wǎng)行為不是常規(guī)工作日行為或者周末行為,屬于異常行為,直接刪除該時間段全部認證記錄。
④ 上下線時間間隔小于或等于60秒的數(shù)據(jù)。機器故障所產(chǎn)生的,這類數(shù)據(jù)對分析學(xué)生上網(wǎng)行為沒有意義,依據(jù)上下線時間計算時長,然后去除該類數(shù)據(jù)。
⑤ 單次在線時長超過48個小時的數(shù)據(jù)。可能是設(shè)備掛機或者是個人極端行為,這類數(shù)據(jù)不反映學(xué)生上網(wǎng)行為或者不具有代表性。依據(jù)上下線時間計算時長,然后去除該類數(shù)據(jù)。
⑥ 從6點鐘到23點鐘時間段內(nèi)上網(wǎng)時長都是3 600秒的數(shù)據(jù)。設(shè)備自動認證數(shù)據(jù),不反映學(xué)生上網(wǎng)行為,依據(jù)帳號每小時上網(wǎng)時長去除該類數(shù)據(jù)。
綜上所述,本文實驗數(shù)據(jù)范圍:全月原始數(shù)據(jù)有1 990 396條認證數(shù)據(jù),其中工作日數(shù)據(jù)1 487 914條,周末502 482條。清洗后總數(shù)據(jù)量201 523條,其中工作日152 007條,周末49 516條。
(2) 實驗數(shù)據(jù)預(yù)處理:本小節(jié)對學(xué)生每天產(chǎn)生的多條上網(wǎng)認證數(shù)據(jù)進行處理,得到每個學(xué)生每天的上網(wǎng)時長向量。計算每個學(xué)生每天24小時上網(wǎng)時長向量,從而將學(xué)生一天上網(wǎng)時長細化到每天每小時,更能反映學(xué)生上網(wǎng)時間分布。為保護學(xué)生隱私,本文對用戶帳號進行了脫敏處理,利用無意義的數(shù)字替代敏感信息。
表2給出學(xué)號為2013000XXXX的學(xué)生在2016年11月2日的認證數(shù)據(jù)預(yù)處理結(jié)果,假設(shè)其上網(wǎng)時長向量m,那么m值如下:
m=[2013000XXXX,2016/11/2,0,0,0,0,0,0,0,0,876,2 278,0,0,0,2 626,3 600,3 600,3 018,0,2 400,3 600,3 600,3 530,3 600,1 799]

表2 認證數(shù)據(jù)表
本小節(jié)使用K-canopy算法對上網(wǎng)時長向量集進行粗聚類,去除離群點并估計聚類個數(shù)。
Canopy算法一般稱為粗聚類算法,它不需要指定聚類個數(shù),算法簡單,運算速度快[10]。Canopy算法原理和實現(xiàn)方法見文獻[11]。本文基于Canopy算法基本原理設(shè)計并實現(xiàn)K-canopy聚類算法,用于去除離群點。K-canopy聚類算法的基本思想是首先利用Canopy算法對數(shù)據(jù)進行一次粗聚類,取數(shù)據(jù)個數(shù)少且聚類中心與其他Canopy中心距離較遠的Canopy作為離群點去掉。重復(fù)此操作直到去掉總數(shù)據(jù)量的2%~5%的離群數(shù)據(jù)為止。按常規(guī),2%~5%的數(shù)據(jù)為離群點是合理的,具體數(shù)量可依據(jù)數(shù)據(jù)質(zhì)量、學(xué)生實際上網(wǎng)特征異常的人數(shù)來設(shè)定,以下是K-canopy聚類算法步驟。
(1) 構(gòu)造原始數(shù)據(jù)集合List,計算全部數(shù)據(jù)兩兩之間的歐式距離的均值T,令T1=0.65×T;
(2) 在List中隨機選取一個樣本數(shù)據(jù)作為基點P,將其從List刪除,并計算List中其他樣本點到基點P的距離d1;
(3) 把d1小于T1的樣本劃到一個Canopy中,同時把這些已劃分好的數(shù)據(jù)從原始數(shù)據(jù)集合List中移除;
(4) 重復(fù)(2)、(3),直到List為空;
(5) 開始發(fā)現(xiàn)異常點,構(gòu)造由各個Canopy的中心組成的數(shù)據(jù)集合Center,令T2=0.95×T1;
(6) 從Center中順序選取一個數(shù)據(jù)C,計算C與Center中其他所有數(shù)據(jù)的距離d2,統(tǒng)計d2小于T2的次數(shù)n,直到遍歷Center;
(7)n小于或者等于2,則將由樣本C生成的Canopy定義為一個異常類,其他Canopy定義為正常類,該異常類中的樣本全部定義為離群點。
該算法中變量T、T1、T2和n是較重要的參數(shù)。T是兩兩向量之間距離的平均值,用來劃分Canopy的閾值。對每個向量,若其與選定向量的距離小于T1,則被劃分到選定向量所在的Canopy中,此處取T1=0.65×T是針對本實驗數(shù)據(jù)經(jīng)過多次實驗后能有效避免數(shù)據(jù)傾斜現(xiàn)象而選定的。參數(shù)T2和n是劃分離群點所在類的閾值。若一個類與其他類的中心之間的距離小于T2的次數(shù)少于或等于2次,則說明此類的中心與其他類的中心距離較遠。如果類包含向量個數(shù)少于200,則此類中所有向量為離群點。此處取T2=0.95×T1、n=2、類中向量個數(shù)小于200是針對本實驗上網(wǎng)時長向量集多次實驗選定的。對其他數(shù)據(jù)集,可選擇不同參數(shù)。本文為達到更好的粗聚類結(jié)果,對向量集循環(huán)了20次K-canopy聚類算法。
由于學(xué)校工作日和周末的斷網(wǎng)策略不同,本文將工作日和周末分別粗聚類。工作日粗聚類后得到148個Canopy,其中包含6個向量數(shù)量明顯較大的Canopy,去除2 323個離群點,占比1.53%;周末粗聚類后得到106個Canopy,其中包含5個向量數(shù)量明顯較大的Canopy,去除3 627個離群點,占比7.32%。通過分析發(fā)現(xiàn),去除的向量確實與其他向量差異較大。
K值,即聚類個數(shù),是K-均值聚類算法(K-means算法)中最重要的參數(shù),會極大地影響聚類結(jié)果。確定K值的思路有很多種[12-14]。本文采用投票機制,即利用多種指標(biāo)最終確定K值。在對數(shù)據(jù)樣本分布缺乏先驗的理解前提下,本文選擇穩(wěn)定性較好的三種指標(biāo),分別是輪廓系數(shù)[15]、戴維森堡丁指數(shù)(DBI)[16]與誤差平方和系數(shù)(SSE)[17]。輪廓系數(shù)、戴維森堡丁指數(shù)側(cè)重于類間間隔性與類內(nèi)緊密性,輪廓系數(shù)越大、戴維森堡丁指數(shù)越小說明聚類效果好。誤差平方和系數(shù)則是常規(guī)K-means算法的損失函數(shù),可以直接表現(xiàn)出聚類效果[18]。
K-means算法是一種簡單、收斂速度快、易實現(xiàn)的經(jīng)典聚類算法,適用于數(shù)值型數(shù)據(jù)集聚類。該算法的核心思想是找出K個聚類中心,使得每一個樣本點和與其最近的聚類中心的平方距離和被最小化[19]。本文K-means算法流程如下:
(1) 根據(jù)K-canopy聚類得到最優(yōu)K值,并從數(shù)據(jù)集中隨機選取K個樣本點作為初始中心點;
(2) 計算各個樣本點到各個中心點的距離,并將其歸類到距離最小時對應(yīng)的類;
(3) 根據(jù)聚類結(jié)果,重新計算每一個類的中心值;
(4) 重復(fù)(2)、(3),直到每一個類的中心值穩(wěn)定或者迭代次數(shù)超過給定閾值。
本文首先依據(jù)K-canopy算法計算結(jié)果中向量個數(shù)明顯較大的Canopy個數(shù),粗略得出K值范圍;然后對范圍內(nèi)每個K值的每一個指標(biāo)都進行10次K-means聚類再求均值,以降低隨機性影響;再利用投票原則來選取最優(yōu)K值;最后通過K-means聚類算法對數(shù)據(jù)集進行聚類。
綜上,本文最終得到的工作日學(xué)生的上網(wǎng)行為聚類個數(shù)即K值為6,周末聚類個數(shù)即K值為5。通過實驗結(jié)果可發(fā)現(xiàn)本文對工作日和周末數(shù)據(jù)聚類所得到的K值可得到較好的聚類效果。
本文實驗使用Java編程語言實現(xiàn),主機的CPU型號為CPUi7-8700K,內(nèi)存為8 GB,操作系統(tǒng)為Microsoft Windows 10。
由于工作日和周末的斷網(wǎng)策略不同,且學(xué)生課程安排也不一樣,學(xué)生的行為也存在較大差異,因此本文將周末和工作日數(shù)據(jù)分開處理。以下是整體的實驗流程:(1) 選擇校園網(wǎng)2016年11月本科生的認證數(shù)據(jù),并對其預(yù)處理得到上網(wǎng)時長向量集合;(2) 利用K-canopy算法對得到上網(wǎng)時長向量集進行粗聚類,去除離群點并估計聚類個數(shù);(3) 利用K-means算法和估計聚類個數(shù)對去除離群點后的上網(wǎng)時長向量集合進行進一步聚類,并使用三種指標(biāo)對聚類結(jié)果進行評價,選擇出最優(yōu)的聚類個數(shù)和聚類結(jié)果。
以下先對工作日12天數(shù)據(jù)進行聚類分析。圖1給出工作日聚類結(jié)果,圖的橫坐標(biāo)是時間,代表24個時段,縱坐標(biāo)為平均上網(wǎng)時長。曲線反應(yīng)各類各時段上網(wǎng)平均時長。表3給出工作日各類中學(xué)生人數(shù)分布,按學(xué)生學(xué)號統(tǒng)計每類中學(xué)生人數(shù)。

圖1 工作日聚類結(jié)果
從圖1和表3可總結(jié)工作日校園網(wǎng)用戶的上網(wǎng)時間分布規(guī)律如下:
(1) a類學(xué)生和b類學(xué)生上網(wǎng)行為相似,都是白天長時間上網(wǎng)的學(xué)生。其中a類學(xué)生從早晨6點時段陸續(xù)開始上網(wǎng),8點時段幾乎全部上線,直到當(dāng)天結(jié)束。b類學(xué)生在8點時段陸續(xù)開始上線,10點時段幾乎全部上線,10點到16點時段有少量下線,16點時段到23點時段在線人數(shù)有細微波動,直到0點斷網(wǎng)時全部下線。
a類學(xué)生人數(shù)少,占比為7.88%。其中,三個年級學(xué)生人數(shù)差距不大,分別占30.21%、35.84%和33.96%。本類學(xué)生工作日全天上網(wǎng)而且人數(shù)較少,說明上網(wǎng)應(yīng)屬個人行為,學(xué)生個人有網(wǎng)癮的概率較高。b類學(xué)生人數(shù)中等,占比16.48%,明顯大四、大二學(xué)生較多,分別占43.32%、35.66%。分析原因應(yīng)該與學(xué)校各專業(yè)課程設(shè)計相關(guān),是大二學(xué)生上午有課的較多,而大四學(xué)生上午沒課的比例較大。
(2) c類學(xué)生在12點時段陸續(xù)開始上網(wǎng),13時段上線在數(shù)達到最多,14點時段到22點時段有少量學(xué)生下線,22點到23點時段又有少量上線,直到24點斷網(wǎng)。
此類學(xué)生人數(shù)占比16.54%,同樣大三和大四學(xué)生較多,分別占36.70%和39.93%。分析原因同樣應(yīng)該是大三、大四學(xué)生下午沒課的比例較大。
(3) d類學(xué)生白天上網(wǎng)較少,峰值出現(xiàn)在13點時段,但此時段時長均值僅1 100秒(約合18分鐘)。13點時段后繼續(xù)下線,至16點時段到達最低點,平均上網(wǎng)時間約180秒(約3分鐘)。之后繼續(xù)上線,至晚上22點時段時達到峰值,平均上網(wǎng)時長3 437秒(約57分鐘)。之后繼續(xù)下線,直到12點斷網(wǎng)。
此類學(xué)生使用網(wǎng)絡(luò)較少,工作時間基本不使用網(wǎng)絡(luò),上線時間集中在晚上7點-10點時段。此類學(xué)生總數(shù)點比較高,點18.30%,有10 398人。三四年級學(xué)生人數(shù)占比稍大,分別占35.85%和38.30%。
(4) e類學(xué)生與d類有些相似,白天上網(wǎng)較少,峰值出現(xiàn)在13點時段,該時段平均時長略高于d類學(xué)生,1 311秒(約22分鐘)。其主要上網(wǎng)時間從21點時段開始陸續(xù)上網(wǎng),至22點-23點時段達到峰值。其峰值比a-d類學(xué)生平均時長都少3 066秒,約51分鐘。
此類學(xué)生工作日基本不使用網(wǎng)絡(luò),僅在晚上10點-11點時段上網(wǎng)。對大二、大三學(xué)生預(yù)計上課、自習(xí)時間較長,而對大四學(xué)生,可能因為參加實習(xí)等原因未在宿舍使用網(wǎng)絡(luò)。
(5) f類學(xué)生全天在線時間最短,峰值出現(xiàn)在中午13點時段,此時段平均上網(wǎng)時長峰值也僅僅551秒,約9分鐘。
此類學(xué)生上網(wǎng)行為與前面5類學(xué)生差異較大。此類學(xué)生總體占比23.95%,人數(shù)最多。在此類學(xué)生中同樣大三、大四學(xué)生較多。
與工作日分析相類似,本文對周末同樣進行聚類分析。圖2給出周末聚類結(jié)果,表4給出周末各類學(xué)生人數(shù)分布。

圖2 周末聚類結(jié)果

分類總體大二大三大四人數(shù)百分比/%人數(shù)百分比/%人數(shù)百分比/%人數(shù)百分比/%a9 54834.54241225.26335335.12378339.62b7 08825.641 87126.402 50135.282 71638.32c7 79828.212 26028.982 64533.922 89337.10d1 4995.4245930.6254336.2249733.16e1 7106.1949328.8358734.3363036.84
在周末,學(xué)校24小時不會斷網(wǎng),根據(jù)圖2和表4總結(jié)出代表周末校園網(wǎng)用戶的上網(wǎng)行為如下:
(1) a類學(xué)生周末會熬夜,在0點時段在線時長均值為1 449秒(約24分鐘),說明約一半學(xué)生在線。從0點時段開始陸續(xù)下線,4點時段差才全部下線。之后上午8點時段開始陸續(xù)上線,至14點時段時多數(shù)學(xué)生上線,上網(wǎng)時長均值達到3 386秒(約56分鐘)。從此時段直到晚23點時段此類學(xué)生大部分在線。
此類學(xué)生周末主要是白天長時間在線、會熬夜。總學(xué)生人數(shù)占比34.54%,是人數(shù)最多的一類。其中大二、大三、大四學(xué)生各占25.26%、35.12%、39.62%。
(2) b類學(xué)生周末熬夜,白天上網(wǎng)較少。在0點時段在線時長均值為963秒(約16分鐘),說明有些學(xué)生熬夜,但人數(shù)比a類少。此類學(xué)生熬夜集中在0點-4點時段。白天上網(wǎng)時間不多,峰值出現(xiàn)在中午13點時段,均值512秒,約9分鐘。下午在線人數(shù)少,晚上在線人數(shù)繼續(xù)增加,23點時段達到峰值,平均時長為3 392秒(約57分鐘)。
此類學(xué)生白天上網(wǎng)少,有少量學(xué)生會熬夜。占總?cè)藬?shù)的25.64%,其中大二、大三和大四年級學(xué)生各占26.40%、35.28%、38.32%。
(3) c類學(xué)生在線峰值出現(xiàn)在凌晨0點、中午13點和晚23點時段,但時長均值不大,最高1 587秒(約16分鐘),說明最多約一半學(xué)生23點時在線。其他時間在線的學(xué)生不超過一半。
此類學(xué)生使用網(wǎng)絡(luò)時長較短,少量熬夜,白天較少上網(wǎng),人數(shù)占總?cè)藬?shù)的28.21%,比例較大。各級學(xué)生占比分別是28.98%、33.92%和37.10%。
(4) d類學(xué)生全部通宵,白天很少上網(wǎng)。這類學(xué)生從0點到6點多全部通宵,6點多后陸續(xù)下線,至19點時段的在線人數(shù)趨近0。22點時段開始又有少量學(xué)生開始上線,至23點時段在線時長均值為239秒(約4分鐘)。
此類學(xué)生在總體中占比最少,為5.42%,人數(shù)1 499人。此類學(xué)生中三年級基本均衡,都占30%以上。
(5) e類0點到18點時段幾乎在線上,在線時長均值達到59分鐘。18點時段開始至24點有少量下線。此類學(xué)生在總體中占比6.19%,人數(shù)較少,約1 700人。且在此類三個年級人數(shù)相差不多,大四學(xué)生稍多,大二學(xué)生略少。
(1) 個人上網(wǎng)時間特征:針對每個學(xué)生,依據(jù)帳號可統(tǒng)計其上網(wǎng)時間分布所屬的類,從而發(fā)現(xiàn)學(xué)生個人的上網(wǎng)時間分布。表5給出兩個學(xué)生的上網(wǎng)時間分布。第一個學(xué)生工作日在線時間較少,有2天屬b類、1天c類、2天d類、1天e類和5天f類。其工作日大約有2天工作時間在線、6天時間晚睡。周末白天上網(wǎng)較多,有2天可能晚睡,但未通宵熬夜。可知,此學(xué)生是正常上網(wǎng)的學(xué)生。第二個學(xué)生15天中有10個工作日上網(wǎng)行為屬于a類,幾乎工作時間都在線,周末又有4天屬于a類,即白天幾乎全在線,晚上有晚睡。此學(xué)生使用網(wǎng)絡(luò)時間超長,有網(wǎng)癮的可能性較大。此類學(xué)生需要統(tǒng)計后提請學(xué)生管理部門特別注意。通過聚類結(jié)果,可以很容易發(fā)現(xiàn)使用網(wǎng)絡(luò)過多、過少或具有其他特征的學(xué)生,為學(xué)生管理部門提供建議。

表5 某學(xué)生上網(wǎng)時間特征分布
(2) 各專業(yè)學(xué)生的上網(wǎng)時間特征:對各專業(yè)可統(tǒng)計每年級屬于不同類的學(xué)生人數(shù),再對比其他年級專業(yè)可發(fā)現(xiàn)各專業(yè)學(xué)生上網(wǎng)時間分布特征。作為示例,表6給出計算機科學(xué)技術(shù)專業(yè)學(xué)生總?cè)藬?shù)、上網(wǎng)人數(shù)、工作日和周末上網(wǎng)人數(shù)分布。

表6 此校計算機科學(xué)技術(shù)專業(yè)學(xué)生上網(wǎng)分布
從表6可知,三個年級總?cè)藬?shù)相似,大四學(xué)生上網(wǎng)人數(shù)較多(149人)。總體來看,工作日大二學(xué)生使用網(wǎng)絡(luò)較少,晚睡、通宵的人數(shù)都比較少。大三使用網(wǎng)絡(luò)人數(shù)有所增加,晚睡、通宵的人數(shù)也都有增加。大四學(xué)生上網(wǎng)人數(shù)增加,在各類中人數(shù)占比大,說明學(xué)生上網(wǎng)時間差異較大,可能因為課程設(shè)置較少,學(xué)生不受上課時間約束,自由度高。對于周末人數(shù)分布,大四學(xué)生使用網(wǎng)絡(luò)最多,通宵、熬夜人最多。大二學(xué)生周末使用網(wǎng)絡(luò)比大三學(xué)生多,熬夜通宵人數(shù)少于大三人數(shù)。
對其他專業(yè)可進行類似分析。當(dāng)然也可通過數(shù)據(jù)對比獲取各專業(yè)學(xué)生上網(wǎng)時間分布的差異。限于篇幅,本文未給出各專業(yè)對比情況。通過專業(yè)對比,可為專業(yè)設(shè)置、專業(yè)各年級課程設(shè)置提供參考。
本文選擇2016年11月的校園網(wǎng)上網(wǎng)認證數(shù)據(jù),清洗掉與研究目標(biāo)無關(guān)的數(shù)據(jù),然后計算得到學(xué)生的上網(wǎng)時長向量集合。對上網(wǎng)時長向量的聚類分三步進行,首先利用K-canopy算法選擇并去除離群點數(shù)據(jù),提高了數(shù)據(jù)質(zhì)量和聚類效率,使聚類結(jié)果更具說服力。再用輪廓系數(shù)、戴維森堡丁指數(shù)與誤差平方和系數(shù)三種參數(shù)投票確定最優(yōu)聚類個數(shù)。最后利用K-means算法對工作日和周末上網(wǎng)時長向量集分別進行聚類,對聚類結(jié)果進行分析,得到工作日、周末不同類型學(xué)生上網(wǎng)時長特征。另外,統(tǒng)計單個學(xué)生、某專業(yè)各年級學(xué)生的聚類結(jié)果,分別得到對應(yīng)的上網(wǎng)時長特征。本文分析結(jié)果可為專業(yè)課程安排、學(xué)生管理工作提供參考。
隨著無線網(wǎng)絡(luò)認證數(shù)據(jù)的暴增,學(xué)生上網(wǎng)行為信息更為豐富。因此下一步會利用Spark平臺對有線、無線認證數(shù)據(jù)、網(wǎng)絡(luò)流量數(shù)據(jù)及學(xué)生成績等數(shù)據(jù)進行進一步分析,在校園人員流動規(guī)律、學(xué)生成績與上網(wǎng)成績關(guān)聯(lián)性等方面獲取更有價值的分析結(jié)果。