999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于校園卡消費預測學生掛科情況

2018-02-27 20:07:46周慶尹春梅全文君張代英
中國教育技術裝備 2017年24期
關鍵詞:數據挖掘

周慶+尹春梅+全文君+張代英

摘 要 旨在通過校園卡消費來預測學生掛科情況。首先通過對消費數據和成績數據的預處理,再結合輔導員的反饋,提出作息習慣對成績有很大影響的合理猜想;然后運用多種數據挖掘模型來預測學生是否存在掛科風險。研究結果表明,通過使用一卡通消費數據,能比較準確地預測學生是否存在掛科風險,其中樸素貝葉斯模型的預測效果最好,Recall超過80%。

關鍵詞 校園卡;數據挖掘;一卡通;Recall;掛科

中圖分類號:G647 文獻標識碼:B

文章編號:1671-489X(2017)24-0051-05

Using Consumption of Campus Card to Predict Students Fail//ZHOU Qing, YIN Chunmei, QUAN Wenjun, ZHANG Daiying

Abstract This study aims at predicting the students final exam per-

formance using the campus card consumption data. Firstly, data pre-

processing was conducted in our experiments. And then, a reasona-ble assumption based on the counselors feedback and related studies

about the correlation between students living styles and their acade-

mic performance was proposed. Finally, some state-of-art algori-thms were adopted for prediction. Our experiments showed that Ba-yesian model outperformed the others, and Recall was more than 80%.

Key words campus card; data mining; metro card; Recall; fail an exam

1 引言

教育數據挖掘(Educational Data Mining,簡稱EDM)

是綜合利用數理統計、機器學習和數據挖掘技術與方法,對教育大數據進行處理和分析,從而發現這些信息背后隱藏的有價值的信息[1]。學生表現預測(Predicting Student

Performance,簡稱PSP)是EDM最早也最流行的應用之一[2],它有利于及時發現學生出現的不良學習行為,檢查教師的教學效果。

高校數字化校園建設中使用到許多系統,如校園一卡通系統、智能校園系統、自助圖書館服務系統等,這些系統在方便學校管理的同時也積累了大量的數據。如果將這些數據有效地運用起來進行數據挖掘,能獲得不少有價值的信息。校園一卡通系統里存儲著豐富的學生消費數據,研究校園一卡通數據,有助于了解學生在校生活情況。很多國外的學者通過校園一卡通數據分析學生在校的生活習慣。張林紅[3]等人通過數據挖掘方法,發現吃早餐的次數和時間與成績存在較大的相關性和可靠的關聯規則。

本研究主要通過校園卡消費來分析學生作息習慣,從而預測學生是否存在掛科風險。首先對校園卡消費數據進行預處理,然后根據相關研究結果以及輔導員的反饋提出幾個用于預測學生成績的猜想,接著根據猜想選取四個特征變量,最后通過使用幾種經典的數據挖掘方法來預測學生掛科風險。實驗結果表明,樸素貝葉斯預測效果最好,它的Precision和Recall分別為62.15%和80.41%。由此可以看出,通過學生校園卡消費數據能較準確地預測出存在掛科風險的學生,這有利于對學生學習的及時預警和向學生提供幫助。此外,本實驗用來進行預測建模的特征集只包含四個特征,雖然該特征集比較簡單,但這幾個特征能很好反映學生的作息習慣,并且具有較高的可解釋性。

2 數據預處理

本實驗數據來源于學生校園卡刷卡記錄和成績記錄,通過對這些數據的觀察,發現這些數據比較雜亂且難理解。為了更好地了解數據以便為進一步分析做準備,對這兩部分數據分別進行了預處理。

校園一卡通數據預處理 校園一卡通數據由重慶大學2012級計算機科學與技術專業的167名學生從第二學期到第四學期共約18萬條刷卡消費記錄構成。為保護學生隱私,對學生學號進行加密處理。所有學生的校園卡消費記錄按時間順序存儲在數據庫中的一個表中,表中包含27個字段,如刷卡時間、學生學號、賬戶號、卡號、姓名、性別、部門編碼等。這些數據中有很多用不到的字段,只保留表1所示字段:學號、消費時間、消費地點、消費金額等。

通過對比發現,學生一卡通中的數據以食堂消費數據居多且最為穩定,而其他消費出現頻率較低,如超市、洗衣、網絡費。這些數據不利于分析學生的作息和學習情況,所以實驗中只選用食堂消費數據。為了分析食堂的就餐情況,需要解決以下問題:

1)校園內有上百個商家,需要確定哪些商家屬于食堂;

2)學生節假日和周末的就餐記錄少且分布散亂,可能與上課期間存在極大差異,不利于學生就餐或者作息規律性的發現;

3)學生三餐時間受到很多因素影響,如最主要的食堂開放時間和上課時間安排,合理劃分三餐時間和夜宵是一個需要解決的問題。

為了解決以上問題,通過分析原始記錄,確定最終消費數據預處理過程。

1)數據過濾。首先確定哪些商家屬于食堂,將非食堂的消費記錄過濾;然后鑒于周末和節假日的消費存在較大的偶然性,過濾掉這些時間的消費記錄。endprint

2)類型劃分。根據食堂供餐規律,將11:00之前的消費記錄判定為早餐,11:00—16:00記作午餐,16:00—20:00歸為晚餐,20:00之后統一歸為夜宵。另外,根據上課時間安排,給學生劃定一個標準就餐時間,這里定義標準就餐時間為:早餐,6:30—8:25和9:40—10:10;午餐,11:40—12:40;晚餐,17:20—18:20。

3)記錄合并。按照消費類型對消費記錄進行合并,消費時間設定為在被合并的消費記錄中最早的消費時間,消費金額為被合并的消費記錄之和。經過對數據的預處理和統計分析之后得到三類特征:就餐時間、就餐金額、就餐規律。這些特征共計34個。表2列出部分特征屬性的分類和計算方法,這里以早餐為例,實際表中還包含午餐、晚餐等。

成績預處理 本實驗的成績數據為學生成績管理系統中計算機科學與技術專業167名學生(其中38名女生,129名男生)第二至四學期的成績記錄,每個學生大約有75條成績記錄,總計約12 000條。

在學生成績管理系統中,每個學生都有一張成績表,里面存儲著學生入校以來的所有考試成績記錄。這些表包含10個字段,分別是課程編碼、課程名稱、成績、學分、選修、類別、教師、考別、備注、時間等(表3)。從這些表中可以看出成績是無序的;成績的評定沒有統一的標準,有的成績按分數表示,有的按等級表示;考試的類別也比較多樣,包含正考和補考;同一門課程也有可能出現正常和重修的情況;另外,記錄中還包含與成績不相關的教師、課程編碼等信息。由于原始數據存在如此多的問題,因此,為了詳細了解學生成績分布情況,對成績數據進行預處理。

本研究的目的是預測學生是否存在掛科風險,所以首先需要統計學生的掛科情況。整體看來,學生每學期的掛科率為39%。另外,學生成績績點(GPA)也是學生成績優劣的綜合體現,因此,根據獎學金劃分原則統計了GPA位于前15%和后15%的情況。綜合以上需求,成績處理結果如表4所示。

3 特征屬性的猜想及驗證

從輔導員的反饋可知學生的作息時間、生活規律性以及自習習慣能在一定程度上反映一個學生成績的好壞,同時也有相關研究證實了這一觀點。梁桂珍[4]在學生作息習慣與學生成績相關關系的研究中發現,早起早睡的學生成績更優異。張林紅的研究表明,早餐時間和早餐規律性與學生成績存在很大的相關性。另外,國內不少學者在各自的研究中均發現學生成績和圖書館的利用情況存在顯著的正相關。

由于學生的作息與成績存在一定的相關性,因此,嘗試從學生的校園卡就餐消費情況中挖掘出學生的作息習慣,從而預測學生的成績。但是該數據集沒有直接提供有關學生作息習慣的信息,這就需要對就餐數據進行詳細分析,以便找出學生作息習慣的規律性并提取相應特征。圖1和圖2是2012級計算機科學與技術專業學生的就餐時間分布圖,分別代表成績優異的和成績一般的學生的就餐分布熱力圖。圖中橫坐標表示時間點,縱坐標表示年份、月份,中間的數字代表在對應時間的就餐次數,數值越大顏色越深。

從圖1可以看出,成績較優異的學生就餐時間比較符合課程時間安排,比如:8:30上第一節課之前,9:40后30分鐘的課間休息時間,一般按時上課的學生會選在這兩個時間段內吃早餐。然而圖2中的這類學生早餐次數極少,且分布多在9點之后。同樣,上午放學時間在11:50,成績較優異的學生多在這個時間前后就餐,較差的學生在13點之后。綜合以上發現,筆者認為按課程時間的就餐規律與成績存在一定的相關性。另外,由于學生三食堂離圖書館很近,多數去圖書館學習的學生會選擇在圖書館吃晚餐,因此,筆者認為學生在三食堂的晚餐數據能在一定程度上反映學生去圖書館自習的情況。

為了了解本實驗各特征變量對成績的影響大小,筆者做了相關性分析。從表3可以看出,作息相關的特征與成績存在較大的相關性。另外,根據輔導員的反饋和相關文獻的研究以及對實際數據的相關性分析,猜想早餐頻率、平均早餐時間、標準時間就餐次數、三食堂晚餐次數占學期總天數的比重等能較好地反映學生的作息習慣,可以作為特征屬性來預測學生的掛科情況。

接下來將對猜想的合理性做進一步分析。首先,為了更形象地對比成績與所選特征屬性之間的關系,對預處理后的數據進行可視化分析。從圖3可以看出,學生成績越優異,吃早餐的時間越早。圖4表明,學生成績的優劣隨著規定時間就餐頻率和三食堂的晚餐情況變化而變化。

綜合以上分析可以看出,學生作息習慣確實與學生成績存在較大相關性。本實驗所選取的特征屬性包括早餐時間、早餐頻率以及學生標準時間就餐次數等,能很大程度上反映學生的學習情況。

4 實驗對比

預測模型 EDM中運用了很多經典的數據挖掘算法[5],如決策樹、人工神經網絡、樸素貝葉斯、邏輯回歸和支持向量機等。本實驗中也采用了這些算法。下面將對樸素貝葉斯算法進行簡要介紹。

貝葉斯分類器(Naive Bayesian,NB)的原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類別。已經有不少學者使用貝葉斯算法來預測學生的成績提升、學業表現和學期成績。

評價指標 本文研究的問題(即預測學生是否掛科)是一個典型的二分類問題。預測結果分為四種類型:

預測為掛科的學生該學期實際也掛科了,可表示為TP(True Positive);

預測為不掛科的學生實際卻掛科了,可表示為FN(False Negative);

預測為掛科的學生實際不掛科,可表示為FP(False Positive);

預測為不掛科的學生實際也不掛科,可表示為TN(True Negative)。

二分類預測問題中常用召回率(Recall)、準確率(Precision)和F1值(F1-measure)來評價模型的優劣。在本應用中,輔導員更在意的是Recall,也就是盡量多地找出可能掛科的學生。endprint

實驗過程及結果 本實驗中采用DT、ANN、NB、LR、SVM等多種算法來建立模型,以對預處理之后的數據進行分析。各模型均使用10折交叉驗證,即將167名學生第二至四學期的統計記錄隨機分成10份,九份用于訓練模型,一份留作檢驗。總記錄條數本應為501條,但由于有三條數據存在較大的缺失,因此,實際分析中用到的是498條。將整理好的數據分別導入各個模型中,以學生是否掛科作為預測標簽,使用選定的特征屬性來對學生的掛科情況進行預測。實驗結果如表5所示。

從表5可以看出,NB模型的預測綜合性能最好,F1值達到0.70。由于在本研究中Recall是關注的重點,而NB模型的Recall明顯比其他模型好,達到80.41%,因此,NB模型能較準確地預測學生的掛科風險。從本實驗可以看出,看似與學生成績沒有多大關聯的一卡通消費數據,也可以比較準確地預測學生是否存在掛科風險。一個很重要的原因是通過輔導員的反饋和相關研究成果對成績的影響因素進行合理猜想,從而從一卡通消費數據中提取出恰當的特征來預測學生成績。較少的特征數量也有效地避免了模型過擬合的問題。

5 結論

筆者認為,利用一卡通消費數據預測學生成績是一個新穎的嘗試。本實驗首先對原始的消費數據進行預處理,然后根據輔導員的反饋和數據分析提取出四個特征,最后采用不同的數據挖掘算法來構建預測模型。實驗結果表明,通過使用一卡通消費數據,能有效地預測學生是否存在掛科風險,其中樸素貝葉斯模型的預測效果最好,Recall值達到80.41%。雖然本實驗僅選取了四個特征變量,但這幾個特征變量能很好地反映學生的作息習慣,具有很高的可解釋性。

本研究尚不完善,如模型采納的數據還不夠全面。目前,高校數字化校園建設已經比較成熟,各個校園管理系統都存有豐富的學生數據,如圖書館、門禁系統等,如果能有效地將這些數據運用起來,相信可以發現更多有價值的、有意義的信息。因此,下一步想結合圖書館數據做進一步研究。另外也希望本研究能對PSP的研究人員帶來一些啟發,促進PSP研究的發展。

參考文獻

[1]徐鵬,王以寧,劉艷華,等.大數據視角分析學習變革:美國《通過教育數據挖掘和學習分析促進教與學》報告解讀及啟示[J].遠程教育雜志,2013(6):11-17.

[2]Romero C, Ventura S. Educational Data mining: A

reviews of the state of the art[J].IEEE Transactions on Systems Man & Cybernetics Part C Applications & Reviews,2010, 40(6):601-618.

[3]張林紅,劉紅梅.基于一卡通數據分析的學生早餐習慣與成績關聯規則挖掘[J].阜陽師范學院學報:自然科學版,

2014,31(4):92-95,105.

[4]梁桂珍,高亞丹,吳志才.學生作息習慣與學習成績的相關關系[J].新鄉學院學報,2014(8):63-65.

[5]Kotsiantis S B. Supervised Machine Learning: A

Review of Classification Techniques[J].Informatica,

2007,31(3):249-268.endprint

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 欧洲亚洲一区| 免费又黄又爽又猛大片午夜| 国产一区二区三区在线精品专区| 精品人妻系列无码专区久久| 中文无码精品A∨在线观看不卡| 香蕉视频在线观看www| 成人欧美在线观看| 一区二区三区成人| 亚洲精品另类| 中文天堂在线视频| 亚洲精品国产成人7777| 亚洲一区二区成人| 波多野结衣视频一区二区| 99激情网| 亚洲精品成人7777在线观看| 伦精品一区二区三区视频| 手机成人午夜在线视频| 精品三级网站| 亚洲第一国产综合| 91国内外精品自在线播放| 91青草视频| 成人午夜精品一级毛片| 欧美在线综合视频| 五月天久久综合国产一区二区| 国产亚洲欧美在线专区| 亚洲一区波多野结衣二区三区| 国产成人午夜福利免费无码r| 日本一区二区三区精品AⅤ| 玖玖精品视频在线观看| 国产制服丝袜91在线| 亚洲成人一区二区三区| 九色综合伊人久久富二代| 国产va在线观看免费| 亚洲人成色77777在线观看| 亚洲成a人片77777在线播放| 国产美女无遮挡免费视频网站| 亚洲一区黄色| 欧美一区二区精品久久久| 欧美不卡在线视频| 午夜一区二区三区| 国产日韩欧美在线视频免费观看| 在线免费看黄的网站| 久久精品最新免费国产成人| 亚洲中文无码h在线观看| 国产区福利小视频在线观看尤物 | 午夜影院a级片| 亚洲成人动漫在线观看| 国产精品久久久精品三级| 激情综合图区| 亚洲 欧美 中文 AⅤ在线视频| 2021国产v亚洲v天堂无码| 国产无码精品在线| 热思思久久免费视频| 亚洲国产精品国自产拍A| 一级一级一片免费| 国产精品女熟高潮视频| 亚洲日韩精品无码专区97| 久青草免费在线视频| 久久久久亚洲AV成人人电影软件| 亚洲成人在线网| 国产麻豆福利av在线播放| 日本a级免费| 国产三级国产精品国产普男人 | 亚洲人成成无码网WWW| 日韩一级二级三级| 国产乱人免费视频| 四虎国产永久在线观看| 亚洲av无码成人专区| 欧美a√在线| 秘书高跟黑色丝袜国产91在线 | 欧美a级在线| 国产精品福利尤物youwu | 少妇极品熟妇人妻专区视频| 99精品视频在线观看免费播放| 91人妻在线视频| 激情综合网址| 日韩精品亚洲一区中文字幕| 精品视频在线观看你懂的一区| 精品一区国产精品| 看av免费毛片手机播放| 国产大全韩国亚洲一区二区三区| 国产成人亚洲精品色欲AV|