

摘要:本文基于線上教育平臺用戶的學習行為信息和班級信息,以用戶學習質量為目標變量,進行了特征工程和屬性構建,基于已有數據集生成了用戶學習過程信息,然后基于隨機森林模型計算各種信息對用戶學習質量的影響,以發現線上用戶學習質量的影響因素,為線上用戶學習和線上教育平臺開發課程提供支持。
關鍵詞:在線學習質量;數據挖掘;影響因素分析
doi:10.3969/J.ISSN.1672-7274.2025.02.023
中圖分類號:G 434;TP 3" " " " " 文獻標志碼:A" " " " " " 文章編碼:1672-7274(2025)02-00-03
Prediction of Learning Quality and Analysis of Influencing Factors on Online Education Platforms
SONG Shuai
(Jinzhong Information College, Jinzhong 030600, China)
Abstract: Based on the learning behavior information and class information of online education platform users, this article conducts feature engineering and attribute construction with user learning quality as the target variable. User learning process information is generated based on existing datasets, and then the impact of each information on user learning quality is calculated using a random forest model to discover the influencing factors of online user learning quality and provide support for online user learning and online education platform course development.
Keywords: online learning quality; data mining; analysis of influencing factors
1" "研究背景
當前,隨著互聯網和移動技術迅速發展,數字化教育正成為全球教育發展的重要趨勢。隨著用戶逐漸增多,在線教育平臺對學習對象、學習內容和學習質量等要素的關注程度日益提高,對使用大數據手段分析用戶學習質量、幫助用戶提升學習效果的意愿愈加強烈。而對于用戶來說,線上學習與線下課堂學習完全不同,如何保證學習效果和學習質量成了線上學習的頭等大事。因此開展線上教育學習效果和學習質量分析,了解影響線上學習效果的因素并進行有針對性完善是十分必要的[1]。
2" "數據說明和問題定義
2.1 數據說明
數據來自某線上教學平臺運行數據,記錄了超過14萬名用戶的超過1 200萬條數據。基于原始記錄數據表的基本信息和用戶缺失率,本文通過對原始記錄數據表進行集成、聚合,以其中的學習行為和試卷結果表為主要數據來源進行透視和統計處理,得到包括用戶信息表、課程信息表、教師信息表和班級信息表在內共4個數據集,經過數據集成和聚合分析,共得到51 408個用戶的包括用戶基本信息、用戶學習行為信息和用戶參與的課程和班級信息等記錄。
2.2 問題定義
本文以線上教育平臺用戶的學習質量為對象進行建模研究,分析影響線上教育平臺用戶學習質量的因素,以期實現對線上教育平臺用戶學習質量的預測,并對影響用戶學習質量的因素進行分析探索,以提升線上教育平臺教學質量和用戶學習質量,為線上教育平臺課程安排和用戶管理提供決策支持[2]。
3" "數據處理
3.1 數據清洗
本文以用戶信息表中平均試卷總得分為目標屬性,在進行數據清洗時首先將平均試卷總得分為空的記錄做刪除處理。對于其他屬性,根據統計結果,直接刪除空值較多的屬性(空值占比超過30%)。此外,由于剩余屬性中只存在極個別記錄有空值出現,此處將剩余記錄中存在空值的記錄刪除。
接著將屬性分為類別屬性和數值屬性進行進一步分析。對于類別屬性,分析各屬性的屬性值分布,將屬性值分布不平衡或只有一個屬性值的屬性刪除。對于數值屬性,計算各數值屬性的描述統計指標,基于描述統計量進行分析。將數值屬性中存在的數值分布單一(如絕大部分值為0或-1)的屬性刪除。同時考慮屬性和屬性值的實際意義,將個別屬性中的0值、-1值(如平均測試時長為0)記錄刪除,將屬性中本身無意義的屬性(如none數量)刪除。考慮統計量取值、箱線圖中異常值數量和屬性實際意義,使用3-σ原則識別部分數值屬性中的離群點和異常值記錄,將識別到的異常值或離群點直接刪除。
至此完成數據異常值和異常分布屬性的處理,得到27 572條數據和包括用戶ID在內的19個屬性。
3.2 數據轉換
進行了新屬性的計算和部分屬性的離散化處理,考慮到數值和量綱,最后進行數據歸一化處理。
基于數據可視化結果,此處計算客觀分數占比指標,過程為用戶平均試卷客觀題總得分/用戶平均試卷總得分,得到新屬性“客觀分數占比”,并刪除客觀分數占比大于等于1的數據。
完成數據清洗和數據探索后,基于數據探索結果,進行新屬性的計算和部分屬性的離散化處理。考慮到數值和量綱,最后進行數據歸一化處理[3]。
4" "模型構建和優化
4.1 模型簡介
本文問題定義為對用戶學習質量預測,數據預處理過程將用戶學習質量設置為“不及格”“及格”和“優秀”三種,選擇分類模型進行數據挖掘。經大量實驗對比,本文中選擇隨機森林模型進行預測。
4.2 模型搭建
首先以所有屬性(除userId、所屬班級和成績)為模型輸入,以“成績”為模型輸出,所有參數均為默認值,進行模型訓練并完成0折交叉驗證,得到模型baseline。模型評分為0.80,可見模型分類效果較好,但在優秀用戶的預測中準確率較低,需調整優化。
4.3 模型優化
為方便調參和模型解釋,先進行特征篩選,輸出各變量重要性和貢獻值,基于此取累計貢獻值達到90%的特征,作為后續模型調參的輸入。如圖1所示。
因此,后續模型均使用篩選完的特征集合{“客觀分數占比”“試題testpaper數量”“good數量”“測試數量”“passed數量”“學習總時長”“已學完的課時數”“學完的任務數”“平均拖延時間”“所屬班級”“班級人數”“考試次數占比”}進行模型訓練和預測,進行10折交叉驗證后模型評分為0.79,模型準確率變化不大。
模型參數對模型預測結果影響較大,對于隨機森林算法,除了和決策樹有關的參數,還需要了解算法新增的參數。本文首先進行實驗,確定最優參數取值范圍,縮小范圍后進行網格搜索,確定最終的最優參數值。
以最優參數值設置模型參數,模型評分為0.82,模型效果較好,且對優秀用戶預測效果有所提升[4]。
5" "結果分析
使用調整后的參數,模型在數據集上交叉驗證的平均得分為0.73,表現基本平穩,效果較好,具備應用條件。
根據特征重要性排序,對線上教育學習質量影響較為重要的因素包括客觀分數占比、試題testpaper數量、good數量、測試數量、passed數量、學習總時長、已學完的課時數、學完的任務數、平均拖延時間、所屬班級、班級人數和考試次數占比。本文將其分為個人因素、班級因素和平臺因素三部分。模型輸出的特征重要性排序和因素分類如表1所示。
三類影響因素中對學習質量影響最大的為個人因素,可見在線上教育場景中,自律的重要影響。事實上,所有學習場景中自律都是較為重要的品質,這也給學習者和平臺指明了方向。學習者應該做好學習準備,平臺更應該為學習者提供各種手段促進學習者保持學習狀態,盡快完成作業,多做練習,保證學習質量。
班級因素對用戶學習質量的影響也較大?;诰€下經驗,班級管理中班級人數設置、班級信息傳遞渠道、班干部班主任負責程度等對班級學風影響較大。從分析結果看,這一規律在線上教育中亦依然有用。這也給平臺提供了依據,教育平臺需要做好班級信息共享、學習互助和班主任管理,以提升班級學習效果,進而促進用戶學習質量。作為用戶,也可以主動選擇較好的班級,為提高自己的學習效果創造良好條件。
平臺因素多為試題設置和結果評價方面的指標,可見線上教育平臺應在學習結果評價上支持用戶,通過設置多種評價測試環節,設置合理的題目和評價標準,使用戶準確了解自身學習情況,以獲得較好的學習質量[5]。
6" "結束語
“問渠哪得清如許,為有源頭活水來”,線上學習效果和質量取決于學習者本身的勤奮程度,在此過程中科學的練習和正確的引導也必不可少。此外,線上學習更加考驗學習者本身的自律程度和學習效率,花時間學完大部分內容是必要的,但在數據預處理的過程中,我們認為“電腦登錄比例”“平均拖延時間”等特征在模型中的重要程度較低。這也更加反映了線上學習的靈活性,表明線上學習質量更受學習效率和學習方法的影響。學完,以科學的方式進行測試,是線上學習取得較好質量的重要途徑。在線教育平臺應該注重這一點,為用戶提供更加便捷、科學的課程考核方式和內容,設置各種督促用戶學完知識的環節,注重發揮班級的督促作用,以幫助用戶更好地完成學習任務[6]。
參考文獻
[1] 鄒亞新.中國高校在線教育高質量發展模式研究[J].黑河學院學報,2024,15(5):88-90,157.
[2] 梁瀟.在線教育在高等教育中的應用及挑戰應對[J].現代職業教育,2024(21):141-144.
[3] 劉娜娜.數據支持下在線教育平臺學習支持服務策略研究[J].電腦知識與技術,2024,20(11):101-103.
[4] 桑彬彬.利用在線平臺增強計算機導論課程的互動性和學生參與度的研究[J].中國新通信,2024,26(6):93-95.
[5] 胡娟.基于學習效果的在線教學平臺設計與優化[C]//中國智慧工程研究會.2024教育教學創新發展交流會論文集.武漢工商學院電子商務學院,2024.
[6] 張雅君,王娟.2012—2022年國內數字教育平臺研究熱點與趨勢——基于CiteSpace可視化分析[J].中小學電教,2024(Z1):32-36.
項目基金:2024年山西省高等學??萍紕撔马椖浚ň幪?024L522);山西省教育科學“十四五”規劃2024年度規劃課題(編號GH-240518)。
作者簡介:宋" 帥(1991-),男,漢族,山西運城人,講師,碩士,研究方向為數據挖掘、文本分析。