郝巧龍
近年來,MOOC以“互聯網+教育”模式迅速發展,積累了海量學習行為數據,MOOC學習行為分析及成績預測成為研究熱點。筆者收集學習行為數據,用Clementine構建了MOOC成績預測模型,為驗證其有效性,依托智慧樹平臺數據結構課程的行為數據展開實證研究,旨在為其課程團隊提供指導意見。
【關鍵詞】MOOC 數據挖掘 回歸分析 成績預測模型
MOOC(Massive Open Online Course)的理想是任何人在任何時間和地點學到任何知識。2012年斯坦福大學等名校組建了Coursera、Udacity和edX平臺。2013年清華北大等名校和互聯網公司展開了MOOC實踐,研發了學習者在線交互平臺,為分析成績與行為的關系提供數據支持。國內在部分課程上進行MOOC教學但實證研究較少。蔣卓軒[2]首次描述中文MOOC學習行為并預測成績。Suhang Jiang用績效考核和公開課結合進行一周的干預,用logistic回歸分析預測成績驗證了及時干預的激勵作用。筆者理論上對比國內外學習行為分析及成績預測成果,用線性回歸分析構建了MOOC成績預測模型;實踐上用Clementine進行實證研究,預測效果良好并提出應用方案,為教師的決策支持提供嚴謹的數據保障。
1 成績預測模型構建
筆者分五個模塊構建了MOOC成績預測模型(圖1)。
模塊一:確定變量初始集。根據預測目標確定變量范圍,回歸分析的前提是因變量為數值型變量。
模塊二:全部變量進入回歸方程。選擇進入法和逐步法將全部變量加入方程中便于對比預測結果。
模塊三:篩選重要影響變量進入回歸方程。為保證結果的普適性,需要對變量初始集依次進行散點圖分析、統計量分析和特征選擇,剔除相關性弱的構成變量集3。在變量集3上選擇上述兩種方法進入方程。
模塊四:評估預測模型確定最優回歸模型。方程通過回歸方程的擬合優度檢驗、回歸方程的顯著性檢驗和回歸系數的顯著性檢驗后才能用于實際問題,通過評估模塊二、三的模型確定最優模型。模塊五:呈現預測模型結果。模型結果直觀呈現變量關系,形式為Y=ε+β0+β1X1+β2X2+…+βkXk。因變量Y為總成績;ε為誤差且ε~N(0,σ2);β0…βk為未知參數;自變量X1…Xk為影響因素。
2 實證研究
在2015年3月至6月數據結構的學習行為數據上展開研究,因為有本校學生參與,分析結果可信度強。所用設備是Intel Core i3處理器,Win 7操作系統,2.27GHz主頻,6G內存。
2.1 研究過程
模塊一:預處理行為數據存入learner_all表得到變量初始集。總成績為因變量Y,自變量是學生編號、學校編號、持續時間、學習進度、觀看時長、筆記數、一~七次作業成績、發帖數、回帖數、得分帖數、一~六次見面課成績、在線成績、論壇得分、見面課成績和期末成績,編號為X1~X26。
模塊二:X1不起作用將其過濾;將總體樣本分區70%為訓練集30%為測試集;添加回歸模型目標為總成績,選擇進入法和逐步法使全部變量進入方程,為模型結果連接表輸出和分析節點,執行數據流(圖2)顯示結果。
模塊三:一是散點圖分析:讀入learner_all設置總成績為輸出其它變量為輸入;添加散點圖節點Y軸為總成績X軸為25個自變量,X2、X9、X10與Y不相關將其剔除得到變量集1。二是統計量分析:添加統計量節點由Pearson相關性強度得知X3與Y相關性弱剔除后構成變量集2。三是特征選擇:添加特征選擇節點目標為總成績輸入為21個自變量,其中X4變異系數低將其剔除形成變量集3。為變量集3添加分區節點設置同模塊二;添加回歸模型選擇進入法和逐步法執行,為模型結果連接表輸出和分析節點,執行數據流(圖2)顯示結果。
模塊四:
(1)回歸方程的擬合優度檢驗
依據判定系數R2和估計標準差來檢驗,R2越接近1表明擬合優度越高。進入法使變量進入方程(無論篩選變量與否),R2均為1表明擬合優度高。逐步法進入方程R2為1估計標準差為0.314小于進入法的0.331,顯示出逐步法的優越性且擬合優度提高。
(2)回歸方程的顯著性檢驗
依據概率p值、殘差平方和、殘差均方進行檢驗,p小于0.05表明因變量與所有自變量線性關系顯著。進入法使變量進入方程(無論篩選變量與否),p為0線性關系顯著。表明篩選變量后方程變精練預測能力未減弱。逐步法建模后殘差均方減至0.110小于進入法的0.111,p為0線性關系顯著。
(3)回歸系數的顯著性檢驗
依據概率p值進行檢驗,p小于0.05表明自變量與因變量線性關系顯著。進入法使全部變量進入方程,僅7個變量p值小于0.05線性關系不顯著。進入法使重要影響變量進入方程,較多變量p值大于0.05但值變小。表明篩選變量后線性關系有改善。逐步法建模p最大為0.02表明線性關系顯著。
為直觀展示預測效果,連接四個回歸模型添加分析、評估和輸出表節點。全部變量_進入法對應為$E-總成績,篩選變量_進入法對應$E1-總成績,全部變量_逐步法對應$E2-總成績,對應$E3-總成績。分析節點結果表明測試集的最大/小誤差比訓練集小,且$E3-總成績最佳。評估節點結果顯示$E3-總成績增益明顯接近最佳線。圖3展示了訓練集和測試集的預測值與總成績吻合。綜上所述,最優回歸模型是篩選變量_逐步法所得的模型。
模塊五:結果表達式為
2.2 研究結果
2.2.1 結果分析
結果表明系數不同對總成績的影響也不同。X24、X23、X25和X26權重較大。論壇中發/回帖數反映學習積極性,得分帖數反映知識掌握程度,論壇參與越積極總成績越高;在線學習時觀看視頻次數越多知識掌握越牢固,自主學習能力越強越及時提交作業;見面課是學習者與教師進行互動探討極大提升積極性;梳理前期知識能顯著提高期末成績。
2.2.2 應用方案
一是學習者進行自我干預;二是教師和管理者對學習者進行人工干預;三是開發者接受學習者的建議后對學習者進行系統干預。
學習者應對重點環節做出自我調整,提高自主學習能力,縮短學習懈怠時間。教師和管理者應精心設計教學視頻和題庫,激發學習興趣提高在線成績;論壇討論應縮短答疑時間,高質量帖子應加分;見面課是人工干預的好時機,能直觀地調動各校學習者的積極性,及時解決疑難點;期末考試題的設計應有區分度。開發者應以改進在線體驗和提供優質資源為目標,增加個性化制定學習計劃模塊,根據學習者設置的自我干預條件及時提醒和系統干預。
3 結束語
筆者宏觀上運用多元線性回歸分析構建了普適的成績預測模型,微觀上進行實證研究,所得表達式使得教師和學習者可直接定位重點模塊,同步提高教和學的效果。預測結果為教師和管理者的決策支持提供了嚴謹的數據保障,為后續學習行為分析及成績預測起到借鑒和推動作用。
參考文獻
[1]湯敏.慕課革命:互聯網如何變革教育[M].北京:中信出版社,2015.
[2]蔣卓軒,張巖,李曉明.基于MOOC數據的學習行為分析與預測[J].計算機研究與發展,2015,03:614-628.
作者單位
中國海洋大學信息科學與工程學院 山東省青島市 266100