

摘? 要:研究機器學習和神經網絡下的大數據與在線教育的預測和評估結果,對評估在線教育的學習效果和在線教育改革與發展具有重要的現實意義。以貴州某學院學生成績的數據為基礎,通過對五種機器學習模型方法進行比對,驗證了機器學習算法的準確率與原有方法相比有較大的提升,促進了在線教育學習效果的提高,有利于對學生的客觀評價和在線教育的發展。
關鍵詞:在線教育;機器學習;成績預測
中圖分類號:TP311.5;G434? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)03-0028-03
Abstract:It is of great practical significance to study the prediction and evaluation results of big data and online education under machine learning and neural network for evaluating the learning effect of online education and the reform and development of online education. In this paper,student performance of an adult education college in Guizhou is taken as the data. Through comparison of five machine learning model methods,it is verified that the accuracy of machine learning algorithm is greatly improved compared with the original method. It promotes the improvement of the learning effect of online education,and is conducive to the objective evaluation of students and the development of online education.
Keywords:online education;machine learning;predict performance
0? 引? 言
2015年是中國的教育大數據元年[1],相關研究機構和科研學者都開始關注教育大數據,在教育教學環節和教學活動中產生了大量的相關教育數據,這些數據對教育評價和教學效果有著直接的影響,尤其是在線大數據、海量教育大數據對相關教育產業、教育機構的影響。教育大數據產生于各種教育實踐活動,既包括受教育者在校園內的教學數據,也涵蓋由此產生的相關數據;同時還包括網絡環境下的遠程的教育教學活動。
在線教育也稱網絡教育,是指在互聯網環境下,以現代教育思想和學習理論為指導,充分發揮互聯網環境下豐富的教育教學資源優勢,向受教育者和學習者提供一種網絡化教和學的環境,利用數字化的語音、視頻和教育教學平臺,開展以學習者為重的非面授教育活動。在線教育是遠程教育的現代化表現,也是一種同時異地或者異時異地進行教育的形式。
總的來說,在線教育數據主要有以下三大特點:(1)數據間聯系緊密;(2)數據存儲存在異構性且處理困難;(3)在線數據分布廣泛。但在目前的互聯網環境下,海量在線數據分布的廣泛性會提高數據收集和檢索的難度,原有的很多不相關數據在深入剖析數據之間深層次的關系后,會發現大量數據之間依然存在一定的關系。
1? 在線教育大數據面臨的問題
在互聯網和大數據時代,在線教育平臺和在線教育機構不斷增加,社會所擁有的教育資源也越來越多,每個教育平臺、教育機構所擁有的數據都是獨立的、非共享的。各種數據之間的格式、含義、表示等都有差異,雖然這些異構的大數據很多都具有相同的表征含義,但對于教育機構和很多研究者而言,它們之間都沒有本質的關聯,大量數據存在但沒有得到有效利用。因此,高效利用大量的在線教育資源面臨著巨大挑戰:如何對互聯網中看似不相關、紛亂無序的教育大數據進行有效的管理和利用[2,3],如何提升教育資源已獲得更為優化的服務模式,以及如何有效評價服務模式的效率和性能已經成為急需解決的關鍵問題。
2? 基于機器學習算法的在線教育成績評價模型
在大數據分析的技術背景下,以貴州某大學成人教育學院的真實學生數據和網絡爬蟲爬取到的相關數據為基礎,去構建一個大數據環境下的機器學習預測回歸算法,分析該方法應用于在線學習結果預測評價中,以期提高在線成人教育的教學效果。為此我們選擇了五種常見的分類算法進行對比:邏輯回歸(Logistic Regression,LR)、支持向量機(Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、樸素貝葉斯(Na?ve Bayes,NB)和反向傳播(Back Propagation,BP)神經網絡[4]。
2.1? 特征向量的選取
考慮到數據之間的異構性,首先將無效信息刪除,同時對于原始信息中屬性中的丟失率超過20%的特征和無效特征刪除后,得到有效的原始數據。其次,可以進一步將異構數據進行處理和合并刪除相同語義的數據,由此構建特征向量。最后,將網絡爬蟲爬取到的文本信息進行分詞后獲取情感信息,利用情感詞庫構建情感特征向量,將兩者特征向量進行歸一化之后進行級聯,得到如表1所示的學生特征屬性名稱和特征描述表。
考慮到每種特征值的取值有很大的差異性,因此在特征空間量化的過程中,我們采用正則化的方法將所有的特征向量值都統一到[-1,1]的空間內。這樣有利于后續的模型進行處理。
2.2? 模型數據集和評價指標的選取
考慮到實際樣本數量的采集,將數據集的70%和80%分別作為實驗的訓練數據集,10%的數據作為實驗的驗證集,剩余的20%和10%作為兩次實驗的測試集。采用的評價指標主要有準確率(Precision)、F1-Measure、精確度(Accuracy)和召回率(Recall)[5]。主要的評價指標計算公式分別為:
2.3? 學習成績預測框架設計
學習預測框架包括原始數據合并與處理、訓練模型和預測應用三個階段:(1)原始數據合并與處理階段:首先需要對數據源進行選取,將原始數據清理之后進行采用主成分分析方法(Principal Component Analysis,PCA)進行特征提取,將提取后的特征和情感數據特征進行融合,構成最終的特征向量。并按照一定的比例將數據劃分為訓練集數據、驗證集數據和測試集數據三類;(2)訓練模型階段首先將數據重抽樣,利用合成少數類過采樣技術[6](Synthetic Minority Oversampling Technique,SMOTE)對不平衡數據進行處理使數據類型平衡,再使用機器學習算法和深度學習模型進行訓練,將訓練好的模型利用驗證集數據進行模型驗證后,對得到的模型使用測試數據測試,不斷地調整模型的參數和性能,直到最終完成模型;(3)在預測階段,將測試數據輸入訓練好的模型進行預測,得到在線學習期末成績趨勢的預測結果。在線學習期末成績預測模型框架圖如圖1所示。
2.4? 模型結果分析
實驗結果證明,與使用70%重采樣的結果相比,選擇80%重采樣的數據集進行五種機器學習和深度學習模型,我們可以發現精確度和召回率有大幅度的提升。比較與其他四種方法,Logistic Regression獲得了最好的實驗結果。最終的Logistic Regression得到擬合模型表達式為:
在上式中,GPA_COURSE表示所有已完成課程的平均成績/績點,COURSE_COUNT表示已完成的課程數,STUDENT_LEVEL表示學生類別,PASS_COURSE_TIME表示通過課程的平均學習時長,COURSE_TIME表示課程所用時間,CHAPER_TEST表示課程章節測試成績,HW_SCORE表示平時作業成績。
從模型中我們可以看到作業成績對于在線學習的成績影響非常小,當采用后的數據量非常大的情況下,在實際測試過程中可以考慮刪除該權重向量對預測的影響,以減少計算的復雜度和模型的開銷。
此外,由于數據量的采集依然存在問題,由于學生的情感評價打分有一定的缺陷,沒有有效利用情感等分進行模型訓練,導致深度學習算法在現有樣本數量下,訓練模型的效果不佳,因此對于測試集最后的預測精度不高。當樣本數量進一步增大,深度學習模型的預測結果將進一步提升。
3? 結? 論
隨著社會的不斷進步,遠程教育、在線教育將促進每個人知識的不斷獲取和技能的不斷提升。面對海量數據環境下的在線教育的預測和評估也將隨著時代的不斷發展而變得越來越充滿挑戰性。
此外,原有的、單一的評估模式和評估方法僅將學生的考試成績作為唯一的評判標準,將其變換成多方法、多模型的在線教育的評估方法,兼顧學習時間、學習效率、學習態度的同時也充分考慮學生的個人學習能力等因素,用更客觀的評測權重來得到最后的期末綜合總分,這樣才能有利于在線教育的長遠發展以及對學生的有效評價。
參考文獻:
[1] 楊現民,唐斯斯,李冀紅.教育大數據的技術體系框架與發展趨勢——“教育大數據研究與實踐專欄”之整體框架篇 [J].現代教育技術,2016,26(1):5-12.
[2] LANE J. Big Data:The Role Of Education and Training [J]. Journal of Policy Analysis and Management,2016,35(3):722-724.
[3] ALEKSANDRA K M,MIRJANA I,ZORAN B. Data science in education:Big data and learning analytics [J]. Computer Applications in Engineering Education,2017,25(6):1006-1078.
[4] 李航.統計學習方法 [M].北京:清華大學出版社,2012.
[5] SANDEEP M J,ERIK W M,EITEL J M L,et al. Early Alert of Academically At-Risk Students:An Open Source Analytics Initiative [J]. Journal of Learning Analytics,2014(1):6-47.
[6] CHAWLA N V,BOWYER K W,HALL L O,et al. SMOTE:Synthetic Minority Over-sampling Technique [J]. Journal of Artificial Intelligence Research,2002,16(1):321-357.
作者信息:徐洪峰(1977-),男,漢族,江西上饒人,副教授,碩士,研究方向:機器學習、深度學習、企業信息化。