孫新杰 孫國營 管彥允 李偉



摘要:隨著高校數字化校園的建立,越來越多的學生行為數據可以通過電子的形式得以存儲,針對這些數據提出一些關注的特征值,并針對這些特征值進行進一步的處理達到一種切合實際的數據模型,并針對該模型提出一種改進的Apriori關聯算法,通過修改權重,對原始統計數據進行區間化處理等技巧,實現了W_S_Apriori算法,并通過實驗嚴重了該算法的有效性。
關鍵詞:數字化;特征值;關聯;W_S_Apriori算法
中圖分類號:TP391? ? ? ?文獻標識碼: A
文章編號:1009-3044(2020)36-0024-03
1 引言
隨著互聯網的高速發展及越發強大數據收集管理工具的誕生,如何高效找到數據之間的關系顯得至關重要。關聯分析是數據挖掘領域一個重要處理數據關系的手段,能夠從大數據中找出數據之間的關聯并進一步挖掘出數據之間潛在價值是關聯分析的重要使命。
關聯分析已經應用于生活中的很多方面,如購物、交通等。隨著近幾年國家對高等教育的不斷投入,大學校園基本已經建立起了一套完善的數據采集與存儲設備,學生在校園中使用網絡留下的數據都以不同形式存在于存儲設置之中。但是近年來對于高校學生數據的研究并沒有進行過多針對性的關聯分析算法研究,如何在教育領域,對教育大數據進行預測與關聯分析顯得十分有必要。
2 相關概念及技術基礎
分析教育大數據之間的關聯行為,必須首選確定好教育大數據的來源。校園一卡通數據基本包含了學生的教育大數據的來源,如成績、圖書借閱、寢室門禁、食堂就餐等數據。通過針對性的數據挖掘技術從一卡通數據中找出未知有價值的信息,從而指導改善學生在校期間的校園行為,有針對性地提出提高學科成績模型[3]。
關聯分析技術是一種使用頻繁項目集來尋找數據之間的關聯性的。下面就常見的關聯分析算法的優缺點進行簡單的闡述。
Apriori算法是通過首選確立頻繁1項集,然后在該1項集的基礎上進一步尋找頻繁2項集,以此類推直到達到設定的閾值為止。該算法的優缺點都非常的明顯,對整個數據源需要多次的訪問,保證了數據了完整性,但是也大大削弱了算法的時間效能;該算法的運行特性導致產生大量的候選數據項集,浪費運行空間;而且該算法采用的支持度不能發生變化,導致該算法無法對各個指標進行個性化的考慮使用。
FP-Growth算法采用的不同于Apriori的算法技巧,它使用的是“分治”的方法。該算法是把頻繁項集進行高度的壓縮,然后再把壓縮后的數據項集按條件進行拆分,然后分別對拆分后的數據庫進行關聯分析的挖掘。但是該算法也有它自己的不足之處,比如生成的樹的葉子節點過多,而且該樹只生成了前綴樹,這樣進一步削弱了算法的效能,由于“分治”的思想實現是采用遞歸的這種思維模式,該模式需要消耗大量的計算內存,導致該算法應用面縮小。
3 教育大數據的預處理與特征提取
要想對教育大數據進行挖掘,同樣需要對這些數據進行處理,對數據的預處理的質量直接絕對數據挖掘的質量。本論文主要對學生行為中的圖書資料借閱信息、一卡通等記錄進行格式化的預處理。下面分別對這些原始數據信息進行預處理。
3.1 圖書資料借閱信息特征提取
圖書資料借閱信息的提取直接關系到學生行為對成績的影響[1],該項權數據意義重大,提取的圖書借閱特征有“圖書借閱學生學號”“圖書借閱時間”“圖書借閱ISBN號”“圖書分類識別號”。通過對“圖書借閱學生學號”進行統計可以得出該生某段時間內的借閱圖書的總次數,以及通過“圖書借閱學生學號”和“圖書分類識別號”可以統計出學生借閱專業書籍的次數。通常情況下根據我校(六盤水師范學院)實際情況,每到期末考試前的最后2周都是學生集中借閱專業資料的黃金時段,該時段的借閱圖書統計科研單獨列出進行數據的挖掘,具體提取指標如表1所示。
3.2 自習時間特征提取
很多自習室需要使用一卡通進行刷卡才能進入進行學習(包括圖書館內部的自習室),這就為數據的統計帶來了方便,通過統計學生自習室的開放時間以及學生進入自習室自習的時間可以很好地獲取學生投入到學習中的時間占比。這里需要進行一些更加復雜的時間處理,首先應獲取學生的課表時間,在課表之外的時間進行學習占比的統計會更加的客觀,次數占比是除課表外的不低于1個小時的空閑時間進行時間段的統計,有效時間長度占比以每次自習時間不低于20分鐘進行占比統計。這里的統計方式與圖書資料借閱基本類似,不再進行詳細的闡述,具體見表2所示。
3.3 食堂就餐特征提取
食堂就餐數據的處理相對比較煩瑣,不同地域不同家庭的同學就餐的樣書及就餐的金額差距都比較大,沒辦法給出一個標準來衡量不同學生的這些數據的優劣程度。這里為了公平起見,需要對某些數據進行歸一化處理,并且對處理后的數據只統計每學期就餐時間的平均值,分別按早餐、午餐、晚餐三餐時間進行統計[2],并通過拉格朗日填充數據的方式對空缺值進行填充處理,詳情如表3所示。
4 實驗分析
在進行關聯分析中,支持度是統計頻繁項集在總數據中的占比,如公式(1)所示。
置信度是指當某個事件A發生時,另外一個事件B發生的概率問題,如公式(2)所示。
提升度是某事件A出現的時候,事件A和B一起出現的概率與事件B獨自出現的概率的比值,如公式(3)所示。
4.1 就餐時間依據范圍歸一化
采用Apriori算法思想非常的簡單就是不斷地掃描數據然后統計K-項集,只要滿足支持度的要求都可以進入下一輪的計算,但是這樣導致有些數據出現的頻率不高,但是可能起到十分重要的作用的數據不能在該算法中得到有效的利用。特別是就餐時間統計,由于每個人生活習慣的不同,比如不能簡單地把早上6:30起床吃早飯的同學認為優于喜歡晚吃早飯的同學,這樣就導致在進行數據關聯時容易出現無效的關聯。本文的處理方式是把就餐均值進行范圍式重定義,如早餐時間落在6:30-7:30之間的統一設定一個時間均值,其他就餐時間依據一小時為間隔范圍進行重新歸一化處理,認為在該段時間內就餐是沒有區別的,不然根據Apriori算法思想很難進行進一步的處理。時間處理如公式4所示,T_mixi代表就餐均值時間,Scan{T1|T2|T3……|TN}代表規定的好的區間,在不同區間給出不同的值賦值給Avg_Mixi,Avg_Mixi就代表最終的該項值并參與關聯規則的建立。
4.2 加權的項集
傳統的Apriori算法對所有的數據處理方式都是進行直接計數的方式,這種方式就是用起來比較簡單,但是容易把一些不是常出現,但是可能起到很重要的數據過濾掉,本文采用一種加權的方式對數據進行進一步的處理,在關注的學生行為數據中圖書借閱相關數據首先應進行處理,因為學校對每個學生的借閱數量有硬性要求,每個學期不得少于多少,這樣就導致雖然學生借閱圖書的數據是真實的,但是無意義的數據很多,如果進行處理,更多的時候更需要關注期末階段學生借閱的圖書數量及圖書與專業之間的關系度,所以依據上述特征統計到的數據應該適當降低該項權重。
對于自習時間的處理,由于我校(六盤水師范學院)的自習室并沒有完全采用電子化的處理方式,很多學生的自習得不到有效的統計,只能統計到部分教室的情況,而且有些自習是學院內部強調上的,效果也可能大打折扣,所以應對該項數據首先進行統一上自習的數據的刪除,然后對于其他時間地點統計到的數據進行提升權重的方式來處理,而且也要把自習時間進行范圍歸一化處理,如有效自習時間以3次為基準,沒增加3次為該生的自習進行一個更新。公式如5所示,[Z_countY]代表原始統計的有效自習次數,[Zcount]代表最終進行處理話之后的自習次數統計。
通過對數據的分析發現就餐時間的權重也應進行適當的降低,大部分學生采用外賣的形式就餐,這樣導致很多數據的不完整,雖然通過某些數據處理技巧進行的簡單的處理,但是該項數據實際的完整意義已經發生了改變,所以應適當降低該項數據的權重。
4.3 實驗測試
通過對數據的預處理之后發現,要把自習的數據提高5倍以滿足支持度的要求,不然就導致自習數據基本在關聯分析中無效。需要對圖書借閱次數數據進行縮小4倍進行處理,這樣才能有效地得出考前兩周內的借閱書籍的比例,繼而參與有效關聯。同時需要對就餐數據降低10倍來進行數據的關聯分析,不然可能出現就餐數據支持度遠遠高于其他兩項。
修改的Apriori算法記為W_S_Apriori。
通過使用W_S_Apriori算法對六盤水師范學院學生行為數據進行分析可得出支持度計數如表4所示。
下面分別使用2MB、5MB、10MB、20MB的數據量對三種算法對比發現W_S_Apriori算法在關聯預測方面做得更好。如圖1所示,衡中代表數據量的大小,縱軸代表關聯準確性。
5 總結
本文針對學生行為數據進行處理分析,并提出了一種加權修正區間值的一種改進Apriori算法W_S_Apriori,該算法相對于傳統的關聯算法更能夠準確地進行數據的關聯,大大提高了算法的可靠性,但是由于W_S_Apriori算法本身是基于Apriori的算法的改進,所以大規模數據使用該算法效率會大大降低。
參考文獻:
[1] 戎荷婷,王瑞玲,武晶,等.學生行為對學生成績的影響探究[J].現代商貿工業,2016,37(23):185-186.
[2] 姜楠,許維勝.基于數據挖掘技術的學生校園消費行為分析[J].大眾科技,2015,17(1):26-28,39.
[3] 馬丹.基于數據挖掘技術的學生成績分析系統的設計與實現[D].長春:吉林大學,2015.
[4] 王鳳軍.大學生行為習慣養成教育的措施與方法研究[J].當代教育理論與實踐,2014,6(12):129-130.
【通聯編輯:梁書】