周慶+尹春梅+全文君+張代英
摘 要 旨在通過校園卡消費來預測學生掛科情況。首先通過對消費數據和成績數據的預處理,再結合輔導員的反饋,提出作息習慣對成績有很大影響的合理猜想;然后運用多種數據挖掘模型來預測學生是否存在掛科風險。研究結果表明,通過使用一卡通消費數據,能比較準確地預測學生是否存在掛科風險,其中樸素貝葉斯模型的預測效果最好,Recall超過80%。
關鍵詞 校園卡;數據挖掘;一卡通;Recall;掛科
中圖分類號:G647 文獻標識碼:B
文章編號:1671-489X(2017)24-0051-05
Using Consumption of Campus Card to Predict Students Fail//ZHOU Qing, YIN Chunmei, QUAN Wenjun, ZHANG Daiying
Abstract This study aims at predicting the students final exam per-
formance using the campus card consumption data. Firstly, data pre-
processing was conducted in our experiments. And then, a reasona-ble assumption based on the counselors feedback and related studies
about the correlation between students living styles and their acade-
mic performance was proposed. Finally, some state-of-art algori-thms were adopted for prediction. Our experiments showed that Ba-yesian model outperformed the others, and Recall was more than 80%.
Key words campus card; data mining; metro card; Recall; fail an exam
1 引言
教育數據挖掘(Educational Data Mining,簡稱EDM)
是綜合利用數理統計、機器學習和數據挖掘技術與方法,對教育大數據進行處理和分析,從而發現這些信息背后隱藏的有價值的信息[1]。學生表現預測(Predicting Student
Performance,簡稱PSP)是EDM最早也最流行的應用之一[2],它有利于及時發現學生出現的不良學習行為,檢查教師的教學效果。
高校數字化校園建設中使用到許多系統,如校園一卡通系統、智能校園系統、自助圖書館服務系統等,這些系統在方便學校管理的同時也積累了大量的數據。如果將這些數據有效地運用起來進行數據挖掘,能獲得不少有價值的信息。校園一卡通系統里存儲著豐富的學生消費數據,研究校園一卡通數據,有助于了解學生在校生活情況。很多國外的學者通過校園一卡通數據分析學生在校的生活習慣。張林紅[3]等人通過數據挖掘方法,發現吃早餐的次數和時間與成績存在較大的相關性和可靠的關聯規則。
本研究主要通過校園卡消費來分析學生作息習慣,從而預測學生是否存在掛科風險。首先對校園卡消費數據進行預處理,然后根據相關研究結果以及輔導員的反饋提出幾個用于預測學生成績的猜想,接著根據猜想選取四個特征變量,最后通過使用幾種經典的數據挖掘方法來預測學生掛科風險。實驗結果表明,樸素貝葉斯預測效果最好,它的Precision和Recall分別為62.15%和80.41%。由此可以看出,通過學生校園卡消費數據能較準確地預測出存在掛科風險的學生,這有利于對學生學習的及時預警和向學生提供幫助。此外,本實驗用來進行預測建模的特征集只包含四個特征,雖然該特征集比較簡單,但這幾個特征能很好反映學生的作息習慣,并且具有較高的可解釋性。
2 數據預處理
本實驗數據來源于學生校園卡刷卡記錄和成績記錄,通過對這些數據的觀察,發現這些數據比較雜亂且難理解。為了更好地了解數據以便為進一步分析做準備,對這兩部分數據分別進行了預處理。
校園一卡通數據預處理 校園一卡通數據由重慶大學2012級計算機科學與技術專業的167名學生從第二學期到第四學期共約18萬條刷卡消費記錄構成。為保護學生隱私,對學生學號進行加密處理。所有學生的校園卡消費記錄按時間順序存儲在數據庫中的一個表中,表中包含27個字段,如刷卡時間、學生學號、賬戶號、卡號、姓名、性別、部門編碼等。這些數據中有很多用不到的字段,只保留表1所示字段:學號、消費時間、消費地點、消費金額等。
通過對比發現,學生一卡通中的數據以食堂消費數據居多且最為穩定,而其他消費出現頻率較低,如超市、洗衣、網絡費。這些數據不利于分析學生的作息和學習情況,所以實驗中只選用食堂消費數據。為了分析食堂的就餐情況,需要解決以下問題:
1)校園內有上百個商家,需要確定哪些商家屬于食堂;
2)學生節假日和周末的就餐記錄少且分布散亂,可能與上課期間存在極大差異,不利于學生就餐或者作息規律性的發現;
3)學生三餐時間受到很多因素影響,如最主要的食堂開放時間和上課時間安排,合理劃分三餐時間和夜宵是一個需要解決的問題。
為了解決以上問題,通過分析原始記錄,確定最終消費數據預處理過程。
1)數據過濾。首先確定哪些商家屬于食堂,將非食堂的消費記錄過濾;然后鑒于周末和節假日的消費存在較大的偶然性,過濾掉這些時間的消費記錄。endprint
2)類型劃分。根據食堂供餐規律,將11:00之前的消費記錄判定為早餐,11:00—16:00記作午餐,16:00—20:00歸為晚餐,20:00之后統一歸為夜宵。另外,根據上課時間安排,給學生劃定一個標準就餐時間,這里定義標準就餐時間為:早餐,6:30—8:25和9:40—10:10;午餐,11:40—12:40;晚餐,17:20—18:20。
3)記錄合并。按照消費類型對消費記錄進行合并,消費時間設定為在被合并的消費記錄中最早的消費時間,消費金額為被合并的消費記錄之和。經過對數據的預處理和統計分析之后得到三類特征:就餐時間、就餐金額、就餐規律。這些特征共計34個。表2列出部分特征屬性的分類和計算方法,這里以早餐為例,實際表中還包含午餐、晚餐等。
成績預處理 本實驗的成績數據為學生成績管理系統中計算機科學與技術專業167名學生(其中38名女生,129名男生)第二至四學期的成績記錄,每個學生大約有75條成績記錄,總計約12 000條。
在學生成績管理系統中,每個學生都有一張成績表,里面存儲著學生入校以來的所有考試成績記錄。這些表包含10個字段,分別是課程編碼、課程名稱、成績、學分、選修、類別、教師、考別、備注、時間等(表3)。從這些表中可以看出成績是無序的;成績的評定沒有統一的標準,有的成績按分數表示,有的按等級表示;考試的類別也比較多樣,包含正考和補考;同一門課程也有可能出現正常和重修的情況;另外,記錄中還包含與成績不相關的教師、課程編碼等信息。由于原始數據存在如此多的問題,因此,為了詳細了解學生成績分布情況,對成績數據進行預處理。
本研究的目的是預測學生是否存在掛科風險,所以首先需要統計學生的掛科情況。整體看來,學生每學期的掛科率為39%。另外,學生成績績點(GPA)也是學生成績優劣的綜合體現,因此,根據獎學金劃分原則統計了GPA位于前15%和后15%的情況。綜合以上需求,成績處理結果如表4所示。
3 特征屬性的猜想及驗證
從輔導員的反饋可知學生的作息時間、生活規律性以及自習習慣能在一定程度上反映一個學生成績的好壞,同時也有相關研究證實了這一觀點。梁桂珍[4]在學生作息習慣與學生成績相關關系的研究中發現,早起早睡的學生成績更優異。張林紅的研究表明,早餐時間和早餐規律性與學生成績存在很大的相關性。另外,國內不少學者在各自的研究中均發現學生成績和圖書館的利用情況存在顯著的正相關。
由于學生的作息與成績存在一定的相關性,因此,嘗試從學生的校園卡就餐消費情況中挖掘出學生的作息習慣,從而預測學生的成績。但是該數據集沒有直接提供有關學生作息習慣的信息,這就需要對就餐數據進行詳細分析,以便找出學生作息習慣的規律性并提取相應特征。圖1和圖2是2012級計算機科學與技術專業學生的就餐時間分布圖,分別代表成績優異的和成績一般的學生的就餐分布熱力圖。圖中橫坐標表示時間點,縱坐標表示年份、月份,中間的數字代表在對應時間的就餐次數,數值越大顏色越深。
從圖1可以看出,成績較優異的學生就餐時間比較符合課程時間安排,比如:8:30上第一節課之前,9:40后30分鐘的課間休息時間,一般按時上課的學生會選在這兩個時間段內吃早餐。然而圖2中的這類學生早餐次數極少,且分布多在9點之后。同樣,上午放學時間在11:50,成績較優異的學生多在這個時間前后就餐,較差的學生在13點之后。綜合以上發現,筆者認為按課程時間的就餐規律與成績存在一定的相關性。另外,由于學生三食堂離圖書館很近,多數去圖書館學習的學生會選擇在圖書館吃晚餐,因此,筆者認為學生在三食堂的晚餐數據能在一定程度上反映學生去圖書館自習的情況。
為了了解本實驗各特征變量對成績的影響大小,筆者做了相關性分析。從表3可以看出,作息相關的特征與成績存在較大的相關性。另外,根據輔導員的反饋和相關文獻的研究以及對實際數據的相關性分析,猜想早餐頻率、平均早餐時間、標準時間就餐次數、三食堂晚餐次數占學期總天數的比重等能較好地反映學生的作息習慣,可以作為特征屬性來預測學生的掛科情況。
接下來將對猜想的合理性做進一步分析。首先,為了更形象地對比成績與所選特征屬性之間的關系,對預處理后的數據進行可視化分析。從圖3可以看出,學生成績越優異,吃早餐的時間越早。圖4表明,學生成績的優劣隨著規定時間就餐頻率和三食堂的晚餐情況變化而變化。
綜合以上分析可以看出,學生作息習慣確實與學生成績存在較大相關性。本實驗所選取的特征屬性包括早餐時間、早餐頻率以及學生標準時間就餐次數等,能很大程度上反映學生的學習情況。
4 實驗對比
預測模型 EDM中運用了很多經典的數據挖掘算法[5],如決策樹、人工神經網絡、樸素貝葉斯、邏輯回歸和支持向量機等。本實驗中也采用了這些算法。下面將對樸素貝葉斯算法進行簡要介紹。
貝葉斯分類器(Naive Bayesian,NB)的原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類別。已經有不少學者使用貝葉斯算法來預測學生的成績提升、學業表現和學期成績。
評價指標 本文研究的問題(即預測學生是否掛科)是一個典型的二分類問題。預測結果分為四種類型:
預測為掛科的學生該學期實際也掛科了,可表示為TP(True Positive);
預測為不掛科的學生實際卻掛科了,可表示為FN(False Negative);
預測為掛科的學生實際不掛科,可表示為FP(False Positive);
預測為不掛科的學生實際也不掛科,可表示為TN(True Negative)。
二分類預測問題中常用召回率(Recall)、準確率(Precision)和F1值(F1-measure)來評價模型的優劣。在本應用中,輔導員更在意的是Recall,也就是盡量多地找出可能掛科的學生。endprint
實驗過程及結果 本實驗中采用DT、ANN、NB、LR、SVM等多種算法來建立模型,以對預處理之后的數據進行分析。各模型均使用10折交叉驗證,即將167名學生第二至四學期的統計記錄隨機分成10份,九份用于訓練模型,一份留作檢驗??傆涗洍l數本應為501條,但由于有三條數據存在較大的缺失,因此,實際分析中用到的是498條。將整理好的數據分別導入各個模型中,以學生是否掛科作為預測標簽,使用選定的特征屬性來對學生的掛科情況進行預測。實驗結果如表5所示。
從表5可以看出,NB模型的預測綜合性能最好,F1值達到0.70。由于在本研究中Recall是關注的重點,而NB模型的Recall明顯比其他模型好,達到80.41%,因此,NB模型能較準確地預測學生的掛科風險。從本實驗可以看出,看似與學生成績沒有多大關聯的一卡通消費數據,也可以比較準確地預測學生是否存在掛科風險。一個很重要的原因是通過輔導員的反饋和相關研究成果對成績的影響因素進行合理猜想,從而從一卡通消費數據中提取出恰當的特征來預測學生成績。較少的特征數量也有效地避免了模型過擬合的問題。
5 結論
筆者認為,利用一卡通消費數據預測學生成績是一個新穎的嘗試。本實驗首先對原始的消費數據進行預處理,然后根據輔導員的反饋和數據分析提取出四個特征,最后采用不同的數據挖掘算法來構建預測模型。實驗結果表明,通過使用一卡通消費數據,能有效地預測學生是否存在掛科風險,其中樸素貝葉斯模型的預測效果最好,Recall值達到80.41%。雖然本實驗僅選取了四個特征變量,但這幾個特征變量能很好地反映學生的作息習慣,具有很高的可解釋性。
本研究尚不完善,如模型采納的數據還不夠全面。目前,高校數字化校園建設已經比較成熟,各個校園管理系統都存有豐富的學生數據,如圖書館、門禁系統等,如果能有效地將這些數據運用起來,相信可以發現更多有價值的、有意義的信息。因此,下一步想結合圖書館數據做進一步研究。另外也希望本研究能對PSP的研究人員帶來一些啟發,促進PSP研究的發展。
參考文獻
[1]徐鵬,王以寧,劉艷華,等.大數據視角分析學習變革:美國《通過教育數據挖掘和學習分析促進教與學》報告解讀及啟示[J].遠程教育雜志,2013(6):11-17.
[2]Romero C, Ventura S. Educational Data mining: A
reviews of the state of the art[J].IEEE Transactions on Systems Man & Cybernetics Part C Applications & Reviews,2010, 40(6):601-618.
[3]張林紅,劉紅梅.基于一卡通數據分析的學生早餐習慣與成績關聯規則挖掘[J].阜陽師范學院學報:自然科學版,
2014,31(4):92-95,105.
[4]梁桂珍,高亞丹,吳志才.學生作息習慣與學習成績的相關關系[J].新鄉學院學報,2014(8):63-65.
[5]Kotsiantis S B. Supervised Machine Learning: A
Review of Classification Techniques[J].Informatica,
2007,31(3):249-268.endprint