林龍 沈海青



摘? 要? 傳統的基于數據挖掘技術的學業表現研究存在數據來源單一、學習行為靜態、數據關聯模型準確度低等問題,如何對學業表現進行實時動態精確監測,更好地為教育管理者服務,實現學生學業預警,是目前較難解決的問題。針對以上問題,借助學校的多個平臺數據系統,圍繞學業表現預警問題,采用當下前沿的深度學習方法構建模型,進行學習表現預測,研究成果為學校和教師及時進行調整并給出個性化指導提供有益思路。
關鍵詞? 教育大數據;數據平臺;數據挖掘;深度學習;學業預警
中圖分類號:G712? ? 文獻標識碼:B
文章編號:1671-489X(2022)22-0034-04
0? 引言
隨著智慧校園、數字校園的推廣,大數據早已進入校園各個角落,學生在學習、生活中無時無刻不在產生數據,背后都有相應的數據系統在跟蹤記錄。與此同時,教育也從經驗向數據驅動決策、管理的方向發展,教育大數據研究和應用是當下熱議的話題。學生的學業表現是教育大數據應用研究的一個重要方向,也是學校教育管理者、教師、家長共同關心的焦點。不少學者將教育大數據和人工智能技術相結合,應用于學生的學習行為分析和學業表現預測,目前在相關方面已開展深入而廣泛的研究[1-2]。但是基于數據挖掘分析技術的學業表現研究還存在以下問題。
1)數據來源單向、片面。學生的學業數據往往來源于課程成績,這類數據較為單一。實際上,評價學生的學業表現應該是多維度多方面的。學生無時無刻不在產生數據,學業表現應該體現在學生學習、生活的方方面面,比如學生的德智體美勞,這五個方面都應該被納入評價范圍,因此需要構建一個整合型教育數據系統。
2)學習行為的單一性、靜態性。基于學習行為的分析往往只考慮單一或者幾種靜態的學習行為,并未考慮學習行為隨著時間而變化的特點,因此,如何追蹤學生在學習過程中不斷變化的行為特征,如何精準確定學生相應階段的狀態變化等,是當前教育數據研究實踐中亟待解決的難題。
3)數據關聯模型精度不夠。如何基于學習生活行為對學業表現的影響,構建學業表現的自變量和因變量因子,從而進行客觀全面評價,并對不良趨勢進行精確預測預警,是目前研究的一個難點。
針對以上問題,在教育大數據挖掘分析與應用中,收集和打通與學生相關的多個數據系統,消除數據冗余,形成整合型教育數據系統,構建全方位的學生立體化數據庫,通過人工智能算法技術,從宏觀層面對學生學業表現情況進行建模研究,同時在微觀層面針對學生個體動態監控學習過程、實時預測學習成績、有效評價學習結果,進而提供有針對性的干預和指導,顯得很有實際價值和現實意義[3]。
深度學習技術由多倫多大學的Hinton教授提出,是目前機器學習的最新熱門研究領域。深度學習算法已被很多學者應用于學習預測、語音識別等諸多領域,并展示出寬廣的應用空間和價值,比其他的數據挖掘方法更具靈活性和準確性,也彌補了許多數據挖掘方法的缺點[4]。本文基于深度學習算法,綜合學生在校表現的多維度評價數據,高效利用學習過程的動態數據,構建基于時間的學習行為表現模型,對學生的學習狀態進行實時監測,從而實現學業表現異常學生的及時預警。
1? 整合型教育數據系統采集
基于學生在校學習生活多類平臺系統,對各類數據進行收集匯總,建立學生在校檔案的立體數據庫,通過該數據庫可以了解學生在校學習生活的全方位信息。依據獲得數據的來源場合,從以下七個方面進行數據收集:
1)招生管理系統中的檔案數據,記錄了學生的基本信息;
2)教學平臺數據,記錄了教務管理系統中學生的各門課程考試成績;
3)在線學習平臺數據,記錄了課堂教學過程中學生的學習行為數據;
4)體育系統中的體測平臺數據,記錄了學生體育鍛煉和測試的各項數據;
5)教育科研平臺數據,記錄學生參與創新創業、技能比賽數據;
6)學生社會實踐平臺數據,記錄學生成長過程中的學習工作行為;
7)圖書借閱數據,記錄了圖書管理系統中學生的閱讀記錄、借閱次數等。
采集表1所示數據表格作為學生個體的學業表現數據,以固定周期作為數據統計的內容,將數據以向量的形式保存在系統中,做好標簽記錄,所有數據均以數值形式體現。
2? 基于深度學習的學生學業表現模型構建及預測
2.1? 數據預處理
根據以上七大數據系統中提取的數十維特征,設得到的特征矩陣為X:
其中,X(t)=當前學期不同月份對應的特征矩陣,m=學生數,n=特征個數,t=時間度量間隔,本文以月份進行表示。
由于數據維度很高,且格式不統一,因此需要對自變量數據X進行預處理。先對單個學生的單組數據進行歸一化,然后進行主成分分析(PCA),獲得學生單組特征數據集。具體步驟如下。
1)標準化。對特征矩陣X中的每個月份特征X(t)進行Z-Score標準化,得到具體標準化公式:
其中,和σ分別為每個月份特征X(t)的均值和方差。
2)降低數據維度。利用主成分分析方法對每個固定周期特征進行降維,設定累積方差貢獻率θ,選擇累積方差貢獻率大于θ的主成分,作為降維后的特征Xd(t)。
學生的課程種類多,數據維度高,對因變量數據Y進行預處理。設計以每學期的加權平均作為綜合成績,公式如下:
其中,n=該生本學期的課程數量,credit=某門課程學分,score=某門課程成績。計算得到每學期的綜合加權平均成績之后,將成績按照優秀、良好、中等、及格、不及格分成五檔,對應的分數分別為:90分及以上,80~89分,70~79分,60~69分,低于60分。以分數段進行獨熱編碼,形成學生成績標簽Y:
2.2? 建立學習狀態異常監測模型
構建many2one形式的長短時記憶網絡模型[5],將同一學生連續的若干個單組特征數據集輸入模型進行訓練,得到該學生的預測模型,從而實現對學生當前成績的預測預警。
將Xd(t)作為輸入,Y作為輸出,訓練長短時記憶網絡模型(LSTM),采用交叉熵損失函數作為損失函數,形式如下:
其中,Y表示實際輸出,表示預測輸出。優化器采用隨機梯度下降算法(SGD),為了獲取網絡模型的隱層單元值,在輸入與輸出處加入dropout層。另外,本模型中也可利用多個已知的歷史學業數據增多訓練次數,以便提高模型的預測準確率。
2.3? 實現預測預警
在進行成績預測時,收集學生上一個學期的相應學業表現數據,按照以上方法提取特征并進行標準化,然后進行PCA降維,將低維特征數據輸入訓練完成的LSTM模型,計算獲得網絡預測結果,即學生的成績類別,其中每個學生的預測結果為。
具體實施步驟如圖1所示。
1)對預測結果進行轉化賦值。將學生的預測結果按照所在檔次的分段平均分進行轉化。
2)計算公式。其中,W為預警率,當W>0時,說明該生學業表現存在下滑;當W>30%時,說明該生退步較大,需要談話預警。
3? 學業預警實例分析
以臺州科技職業學院汽車專業20級97位學生為例,進行學業預警分析。首先,根據不同的數據庫,收集學生各方面數據信息,同時計算學生的綜合加權平均成績,設置2020—2021學年第二學期學生在校期間五個月的數據作為訓練樣本數據,設置2021—2022學年第一學期學生的綜合加權平均成績作為因變量標簽。按照表2,對每個學生的綜合行為表現數據以單月為單位進行特征提取,然后進行獨熱編碼,設置如下:
其中,Y1=[1? 0? 0? 0? 0]對應[90,100),Y2=[0? 1? 0? 0? 0]對應[80,90),Y3=[0? 0? 1??0? 0]對應[70,80),Y4=[0? 0? 0? 1? 0]對應[60,70),Y5=[0? 0? 0? 0? 1]對應(0,60)。
最終得到學生特征矩陣X的大小為97×32,標簽矩陣Y大小為97×5。即總共學生人數97人,提取的特征為32維。對特征數據進行Z-Score標準化,然后進行PCA降維,選擇累積方差貢獻率大于90%的主成分對應的特征作為降維后的特征,降維后特征數據集為Xd(t),矩陣大小為97*4。
以每個月份特征矩陣Xd(t)作為輸入,Y作為輸出,訓練長短時記憶網絡模型,采用交叉熵損失函數,優化器采用隨機梯度下降算法(SGD)。此時輸入網絡的序列長度為5,輸入維度為4。通過網格搜索法進行參數尋優,獲得優化參數:批輸入大小為32,網絡隱層單元為32,網絡隱藏層層數為1,SGD中的動量參數為0.8,學習率設置為1×10-3,dropout層的丟棄比率為0.6。
取2021—2022學年第一學期的學業表現狀況來預測2021—2022學年第二學期學生的成績情況。獲取測試數據,按照圖1所示步驟進行特征提取,標準化降維后輸入訓練完成的網絡中進行測試,最終得到每個學生的預測成績狀況。對每個學生預測成績所處分段,按照平均分進行轉化,然后計算該學生上一學期成績與轉換后的預測成績差值,獲得預警率,如表2所示。篩選預警率大于30%的學生,總共九人,即成績下滑的學生,輔導員、班主任進行談話預警。
4? 結束語
學生的學業表現與平時的學習生活息息相關,其數據應來源于學生多個方面的數據平臺,以此能更客觀全面評價學生的學業。本文基于學生在校學習生活多類平臺系統,對各類數據進行收集匯總,建立學生在校檔案的立體數據庫,通過該數據庫可以了解學生在校學習生活的全方位信息;通過歸一化、加權平均、PCA分析對不同教育數據類別進行統一,以便提取相應的教育大數據特征,然后以該段時間內的學習表現特征為自變量,以綜合學業成績為因變量,基于深度學習的學業預測模型來構建兩者之間的映射關系,最后對學生學業表現進行實時預測,進而對成績退步學生實現預警監測。
參考文獻
[1] 廖鵬,劉宸銘,蘇航,等.基于深度學習的學生課堂異常行為檢測與分析系統[J].電子世界,2018(8):97-98.
[2] 陳彥釗,朱雪穎,黃瑾,等.基于深度學習的大學生課堂行為分析系統研究[J].齊魯工業大學學報,2020,34(1):13-18.
[3] 朱佳,張麗君,梁婉瑩.數據驅動下的個性化自適應學習研究綜述[J].華南師范大學學報(自然科學版),2020,52(4):17-25.
[4] 陳德鑫,占袁圓,楊兵.深度學習技術在教育大數據挖掘領域的應用分析[J].電化教育研究,2019,40(2):68-76.
[5] 吳和俊,王敏康.基于深度學習學生序列化行為的學業成績預測預警方法:CN201910401106[P].2019-05-15.
*項目來源:2021年浙江省教育規劃課題“多數據平臺融合下的學生學業表現及預警模型研究”(項目編號:2021SCG131。主持人:林龍);2021年浙江省高等教育學會課題“數據驅動的大學生學業表現精準評價研究”(項目編號:KT2021310。主持人:林龍)。
作者:林龍,臺州科技職業學院,講師,研究方向為教育信息化;沈海青,臺州科技職業學院,高級工程師,研究方向為汽車檢測技術(318020)。