基于機器學習的在線學習數據分析與研究

2020-05-11 12:24:30黃家琦隋永博黃麗麗劉暢

數字技術與應用 2020年2期

黃家琦隋永博黃麗麗劉暢

摘要：本文主要以機器學習方法為基礎對學生在線學習行為數據進行分析和研究。首先采用多元線性回歸的方法對從網絡教學平臺獲得的14個量化特征按照對考試成績的影響權重進行排序，隨后采用廣義回歸神經網絡分別對選出的權重較高的9個特征以及全部特征進行建模。結果表明，通過特征選擇后的模型平均絕對誤差為5.7，無論是在預測能力還是擬合優度方面都要高于采用全部特征的模型，因此該模型可以有效預測考試成績，使教師能夠識別出容易不及格的學生，及時提供干預與支持。

關鍵詞：機器學習;多元線性回歸;廣義回歸神經網絡;在線學習

中圖分類號：TP181 文獻標識碼：A 文章編號：1007-9416（2020）02-0069-02

0 引言

目前大學當中的高等教育，雖然教育體制相對完善，但普遍存在的問題是老師只能根據教學大綱中規定的任務授課，很少考慮到學生的接受程度，以至于學生在課堂上獲得的知識個體差異明顯，一部分學生能夠完全領會老師所講的知識，而另一部分學生或多或少存在知識點的遺漏。因此，工作在第一線的高校教師始終都在嘗試實現個性化教育的方法，可惜的是至今還沒有找到行之有效的解決方案。隨著信息技術的迅速發展，教育信息化的深入應用，網絡教學平臺、自適應學習系統等應用的不斷崛起，在線學習已經成為諸多高校普遍使用的一種教學方式。國外學術界研究在線學習分析技術的時間較早，并通過實證研究獲得了豐富的研究成果。國內學者針對機器學習在教育領域的研究很少，少數學者僅從理論層面提出了在線學習數據分析在提高教師教學質量、學業成績預警等方面的研究[1]。

本文以大學計算機基礎課程為例，采用的數據庫含有從網絡教學平臺提取出的14個在線學習量化特征，包括：進入課程次數、向老師提問次數、課程討論區發表話題次數等，這些特征與考試成績密切相關。數據庫含有355條學生數據，經過有效的數據集劃分后，使用廣義回歸神經網路對全部特征以及通過多元線性回歸進行特征選擇之后得到的部分特征進行建模[2]。通過對結果的分析，可以得到模型的預測誤差以及一系列評價指標，教師可以在考試前針對預測結果進行真正意義上的因材施教。此外，根據特征選擇的結果，發掘出對于考試成績影響較大的特征，在教學過程中可以進行更多的關注。

1 廣義回歸神經網絡預測模型

廣義回歸神經網絡（GRNN，Generalized Regression Neural Network）是由美國學者Donald F.Specht提出的一種徑向基神經網絡[3]。GRNN具有較好的非線性調節能力和柔性網絡結構，以及高度的容錯性和魯棒性，適用于解決非線性問題。無論在學習速度上還是逼近能力方面，GRNN相較于其它神經網絡具有更強的優勢。

GRNN的理論基礎為非線性回歸分析方法，獨立變量x與非獨立變量Y的回歸分析事實上是求得具有最大概率值的y。已知兩個隨機變量x和y的聯合概率密度函數為f（x，y），設x的樣本觀測值為X，則y相對于X的條件均值為：

=E（y/X）=? ? ? ? ? ? ? ? ? ? ? ? ? （1）

即為當輸入值為X時，Y的預測輸出。

應用Parzen非參數估計，通過樣本數據集可估算密度函數。

=exp exp? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （2）

式中，Xi，Yi為隨機變量x和y的觀測值;p為隨機變量x的維數;n為樣本容量，σ為高斯函數的寬度系數，本文稱為光滑因子。當光滑因子σ較大時，近似于所有樣本觀測值的均值。相反，當光滑因子σ趨向于0時，和訓練樣本比較接近。

2 實驗結果

2.1 數據集準備

對數據集進行合理的劃分將直接影響到回歸模型的穩定性。本文采用SPXY（Sample set Partitioning based on joint x-y distances）算法[4]將355條從網絡教學平臺獲取到的學生學習行為數據按照4：1的比例分成由284條數據組成的訓練集，和71條數據組成的測試集。根據上文提到的采用多元線性回歸方法進行特征選擇，得到的每個特征對于響應變量影響的權重如表1所示：

根據上表1可知，對于學生期末考試成績影響較大的特征有3號：課程討論區發表話題次數、5號：課程討論區被回文次數以及4號：課程討論區回文次數。而1號：登錄次數、6號：閱讀課程教學材料次數以及2號：進入課程次數則對學生期末考試成績影響較小。

2.2 實驗結果分析

本文分別選取全部特征以及采用MLR方法計算出的對于因變量影響較大的前9個特征作為模型的輸入，將學生期末考試成績作為模型的輸出，采用GRNN進行建模，通過計算平均絕對誤差（Mean Absolute Error，MAE）：

MAE=? ? ? ? ? ? ? ? ? ? ? ? ? ?（3）

其中yi是第i個樣本的觀測值，是第i個樣本的預測值，得到的結果為別為8.1040和5.7303。通過上表不難看出，經過MLR特征選擇后所建立的模型雖然在預測能力和擬合度方面沒有達到理想的效果，可能存在過擬合現象，但平均絕對誤差為5.7，能夠在一定程度上反映出學生對于課程的掌握程度，教師可以在考試前針對可能不及格的學生進行監督和指導。

為了更加直觀的去衡量模型的預測能力和擬合度，我們用散點圖分別表示出樣本測試集和訓練集的實驗結果，樣本測試集預測結果圖1所示，樣本訓練集預測結果圖2所示：

通過上圖1、圖2可以得出，無論是測試集還是訓練集，對于大多數樣本都比較趨近于直線y=x，其中測試集誤差范圍在5的樣本為67.6%，訓練集誤差范圍在5的樣本為65.8%，證明模型的泛化能力較強，無過擬合現象。此外，觀察散點分布可知，對于分數在70-90分之間的樣本，模型的預測結果較準，而對于90分以上及60分以下的樣本，存在高分預測偏低，低分預測偏高的現象，這是由于數據集中90分以上及60分以下的樣本較少，尤其是40分以下的樣本只有一個。我們注意到觀測值為26.6的樣本，模型給出的預測值為45.2，雖然誤差較大，但是預測結果相對很低，對于考試成績不及格具備較高的參考價值。

3 結語

針對國內在線學習分析技術的研究大多數還在引介述評上，實證研究方面有待提高，本文采用廣義回歸神經網絡對從網絡教學平臺獲得的量化特征以考試成績為因變量進行回歸建模。結果表明，對考試成績的預測可以有效識別出可能存在考試危機的學生，從而可以使教師針對個體差異進行有效的教學決策、教學干預，達到提高教學質量的目標。機器學習方法已經被證實可以應用在教育領域，同樣在本文建立的考試成績預測模型方法上有著潛在的提升空間。未來需增加樣本數據集的涵蓋面，尤其是對于低分和高分數據的擴充，在收集大量學生學習行為數據后，可以嘗試與目前主流的一些預測模型以及特征選取方法的性能進行對比，例如LSTM等。

參考文獻

[1] 趙慧瓊，姜強，趙蔚，等.基于大數據學習分析的在線學習績效預警因素及干預對策的實證研究[J].電化教育研究，2017（01）：62-69.

[2] 劉嚴.多元線性回歸的數學模型[J].沈陽工程學院學報（自然科學版），2005（Z1）：128-129.

[3] Specht D F.A general regression neural networks[J].Ieee Transactions On Neural Networks，1991，2（6）：568-576.

[4] Roberto Kawakami Harrop Galvo，Mário César Ugulino Araujo，Gledson Emídio José，etc.A method for calibration and validation subset partitioning[J]. Talanta，2005，67（4）：736-40.

Analysis and Research of? Online Learning Data Based on Machine Learning

HUANG Jia-qi， SUI Yong-bo， HUANG Li-li， LIU Chang

（School of? medical information， Changchun University of? Chinese Medicine， Changchun? Jilin? 130117）

Abstract：This paper mainly analyzes and studies students' online learning behavior data based on machine learning methods. Firstly， the multiple linear regression method is used to rank the 14 quantitative features obtained from the online teaching platform according to the weights of the test scores， Then， nine features with higher weight and all features are modeled by using the generalized regression neural network. The results show that the average absolute error of the model after feature selection is 5.7， which is higher than the model with all features in both predictive ability and goodness of fit. Therefore， the model can effectively predict test scores and enable teachers to identify Students who are prone to fail， provide timely intervention and support.

Key words：machine learning; multiple linear regression; generalized regression neural network; online learning