基于數據挖掘算法的本科生學習質量分析

2022-07-26 09:31:34高雅奇穆軍妮劉培昌

微型電腦應用 2022年6期

高雅奇，穆軍妮，劉培昌

(北京第二外國語學院，網絡與信息中心(圖書館)，北京 100024)

0 引言

高等教育大眾化情境下，全面提升教育質量，改進本科教育教學成為國際高等教育界的共識，各高校將重視本科教學、提高人才培養質量放在高校發展重中之重的地位[1]。隨著中國高等教育的內涵式發展，學生學習的質量成為一流本科教育的關鍵指向[2]。《教育部關于全面提高高等教育質量的若干意見》《統籌推進世界“雙一流”建設總體方案[2015]64號》《國家中長期教育改革和發展規劃綱要(2010—2020年)》等相關政策文件都肯定了“質量為重”的中心思想。基于教育質量評價的內部增值觀也體現了教育質量提升的結果[3]。本科生教育階段是高等教育的主要階段，本科生學習質量的高低是考評高校辦學質量的核心要素[4]。然而，隨著高等教育的大眾化，學生的學習質量因各種因素無法得到保障。因此，如何獲取影響學生學習質量的關鍵因素，進而提高學生的學習質量是研究的主要目的。

1 研究設計

參考國內大部分高校通用的績點成績計算方法對本次研究進行設計：某一課程的績點成績=課程分數/10-5;學分績點成績=學分×績點即學分×(課程分數/10-5)(90分以上按90分計算);學生在校期間總的績點成績=該生所修全部科目的學分績點成績之和/該生所修全部科目的學分之和。根據學生績點成績生成該生學習質量(以XXZL命名)字段值，名次在同年級同專業前20%及以內的學生學習質量設為1等, 名次在20%～40%的學生學習質量設為2等，以此類推，名次在后20%的學生學習質量為5等，并將最后一等設定為預警等級。

本次研究抽取本科生在校期間與研究主題相關的基礎數據，構建影響學生學習質量分類模型，并對模型加以訓練。以訓練好的模型對本科生的學習質量進行預測，實現對預警等級學生的反饋，從而有效促進學生管理工作開展、為學校改進本科教育教學和提高學生質量提供可行性的支撐。

2 數據獲取及預處理

2.1 數據獲取

與本科生學習相關的數據主要涉及學生基本信息、學籍信息、校園行為等數據。學生學習質量建模時需要從北京某高校的一卡通系統、教務系統、財產系統、圖書館自動化系統、門禁系統、校園網計費系統中抽取如下信息：學號、國籍、地區、民族、性別、所在年級、所在院系、所在專業、學科門類、學生類別、培養層次、學制、是否學分制、校園日均消費、年均消費天數、年上網時長、年圖書外借冊數、年自習室刷卡次數。抽取的時間段設定為2013年1月至2019年12月。研究共收集到9 744位本科生在校期間的數據。

2.2 數據預處理

1)數據清洗

數據清洗的主要目的是從業務以及模型的相關需要方面考慮，篩選出需要的數據。原始數據集中53條數據的績點成績為空，為了便于模型分析，對其進行過濾處理。因此，研究的樣本量最終確定為9 691位學生數據。

2)缺失值處理

原始數據集存在數據缺失的情況，若將有缺失值的記錄刪除，會影響樣本的數據量。為達到較好的建模效果，采用取代法對缺失值進行插補。對于數值型的數據，如日均消費、年均消費天數等，采用其他記錄的均值插補缺失值；對于字符型的數據，采用以其他記錄中出現次數最多的值代替缺失值。

3)數據變換

在構建模型前，需要將原始數據集中的數據轉換成適合挖掘任務及算法需要的格式。采用的數據變換方式如下。

(1)數據規約。將分類變量轉換為字符型并定義代碼含義，如性別變量，以“0”代表女性、“1”代表男性。各變量指標及含義見表1。

表1 本科生學習質量影響因素及含義

3 模型建立

3.1 數據劃分

對數據樣本采用隨機抽樣的方法抽取80%作為訓練樣本，用于模型訓練;余下的20%作為測試樣本，用于模型結果檢驗。訓練數據集包含7 752條數據，測試數據集包含1 939條數據，可通過對訓練集和測試集數值型變量的分布情況對比驗證訓練集與測試集的劃分是否合理，具體描述性分析如表2所示。數值型變量包含上網時長、借書數量、消費天數、入館天數、日均消費。

表2 訓練樣本描述性統計

由上述對比可知，訓練集數據與測試集數據的數據分布較一致，劃分相對合理，根據訓練集生成的模型可以用測試集數據對其進行性能評估。

3.2 算法選擇

在研究中選擇3種算法進行比較，即決策樹算法、隨機森林算法和Boosting算法。采用R語言中各算法的默認參數構建模型，并對三者的擬合結果進行對比，確定研究最終選取的算法。

(1)驗證方法

交叉驗證法是驗證機器學習算法模型效果的常用測試方法。采用最常用的10折交叉驗證法，即將初始采樣分成10個互斥的子樣本，以1個子樣本作為模型的測試數據，另外9個樣本作為訓練數據。共進行10次訓練和測試，以10次結果的均值作為對算法性能的最終估計。

(2)算法性能評估

表3 三種模型10折交叉驗證結果

由表3可知，隨機森林算法的R-squared均值高于決策樹及Boosting算法，其擬合效果最佳。因此，選用隨機森林算法對本科生學習質量影響因素進行研究。

3.3 特征篩選及貢獻度排序

在模型訓練過程中，為了構建簡化的、易于理解的模型，需要從全部特征中篩選相關性強的特征子集作為最優特征子集。特征篩選不僅可以縮短模型訓練時間，改善模型的通用性，還可以降低模型過擬合的風險[5]。

(1)特征篩選

常用的特征選擇方法包括正向選擇法、后退選擇法和逐步回歸法，研究采用正向選擇法選擇特征變量。得出本科生學習質量的隨機森林分類模型包含學科類別代碼、專業代碼、院系所號、所在年級、上網時長、借書數量、消費天數、入館天數、日均消費、國籍、性別、學制、地區碼等13個特征指標時擬合程度最好。

(2)特征貢獻度

篩選出特征集后，需要對其各項特征變量在模型中貢獻度機型進行評估，隨機森林模型的feature importance函數可評估各個特征變量在模型中的重要性，即以完整的模型性能減去某個特征后的模型性能標注特征對模型的貢獻度，計算出的各特征對模型的貢獻度如圖1所示，年借書數量對模型的貢獻度最高，入館天數、消費天數和性別特征對模型分類性能也非常重要。

圖1 隨機森林分類模型特征貢獻度

(3)特征驗證

為了驗證隨機森林分類模型篩選出的特征及排序是否合理，可將其與決策樹和Boosting模型的特征篩選情況進行對比。決策樹算法篩選出的特征包含9個，用feature importance函數進行排序，前6個特征與隨機森林模型的特征指標及順序相同，之后依次為所在年級、上網時長、院系所號特征。Boosting算法篩選出的分類模型包含11個特征指標，通過計算各特征的F-score值對特征的貢獻度進行排序：前5個與隨機森林模型的特征指標及順序相同，之后依次為上網時長、地區碼、所在年級、院系所號、學科分類碼、學生分類碼特征。可見在不同模型中的特征選取和排序情況比較類似，隨機森林模型的特征篩選和貢獻度是合理的。

3.4 模型參數調優

模型需要進行參數調優的主要原因在于訓練出的模型可能存在過擬合和欠擬合問題。過擬合，一般是指模型缺乏泛化能力；欠擬合，一般指訓練出的模型距離擬合曲線較遠，擬合度不高[6]。當模型的復雜度上升會使模型的性能增加，也會增加過擬合的風險;當模型的復雜度減小，又可能出現欠擬合情況。綜合以上情況，需要做好對構建模型的參數調優工作。隨機森林分類模型如果采用默認值容易發生過擬合現象，可對以下參數采取限制措施。

(1)對樹的深度做限制，防止樹的深度太深。樹的深度越小，計算量越小，模型的計算速度越快。為了找到最佳深度，可增加一個集合驗證集，當tree depth=9時，模型準確率趨于穩定并不會隨著tree depth的增加明顯提高，故選定tree depth=9。

(2)限制最小樣本數：當節點包含的節點過少時就停止分裂節點。隨機森林模型的默認最小樣本數為1，經實驗當minimun node size增大到2時，模型的指標狀態最優。

(3)森林中決策樹的數量限制，隨機森林模型的默認決策樹數量為1 000，實驗證明，當ntree=1 000時模型的錯誤率基本收斂，而再增加ntree的數量模型效果不會顯著提高，故選定ntree=1 000。

4 模型性能評估

以測試集對構建的森林分類模型進行評估。

4.1 準確率及精度評估

表4 隨機森林分類模型混淆矩陣

4.2 ROC曲線評估

ROC曲線顯示分類模型在所有分類閾值下的效果。ROC空間將假正例率FPR定義為X軸，真正例率TPR定義為Y軸。橫坐標為用曲線下面積AUC表示ROC曲線下的面積，AUC的值介于0和1之間，AUC值越大代表分類模型的性能越好[18]。為驗證特征篩選是否提高了分類模型的性能，可將經特征篩選與未經特征篩選的隨機森林分類模型進行對比，其ROC曲線如圖2所示。圖2(a)為未經特征篩選的ROC驗證曲線,平均AUC值為86.12%；圖2(b)為經特征篩選后的ROC驗證曲線，平均AUC值為89.76%。經過特征篩選后，隨機森林模型的驗證性能提升了4.22%。

(a) 未經特征篩選

(b) 經特征篩選圖2 隨機森林模型驗證ROC曲線

4.3 小結與建議

從測試集的1 939條數據中隨機抽取100條數據，展示模型的預測效果。以虛線代表學習質量的真實值，實線代表學習質量的預測值，結果如圖3所示。

圖3 模型預測對比圖

由圖3可以觀察到模型的預測準確率較高，模型的預測準確率達到79.11%。模型本身具有較好的準確度和穩定性，可為改進高校教學管理和提高學生學習質量提供參考依據。

(1)高校應著力于學校學習環境的改善[7]，盡可能地為學生營造良好的學習氛圍，多種途徑多種方式引導和鼓勵學生增加閱讀量和自主學習的時間和能力。

(2)地域因素、家庭因素及語言環境都是影響學生學習質量的重要因素，高校應關注不同學生的需要和個性差異，重點關注新疆、西藏等少數民族地區及海外留學生。

(3)性別差異也是影響學生學習質量的重要因素。高校應充分重視性別差異造成的成績分化現象,利用各種有效措施來改善這種局面, 提高學生學習成績和實際的運用能力。

(4)高校應建立良好的鼓勵機制，轉變教學方法、增強課堂氛圍，調動學生的學習熱情與激情。

(5)合理區間內，上網時間的增加不會影響學生的學習質量反而會促進作用，高校應適當引導學生正確使用網絡，指導學生更好地、更有效地使用各種學習資源。

5 總結

研究基于機器學習算法，以經過預處理的本科生在校期間的相關數據為樣本進行模型訓練，建立學習質量和影響因素之間的映射關系，并就各影響因素對學生學習質量的重要程度進行排序。實驗效果顯示，隨機森林算法的學習質量預測模型預測準確率接近80%。但在學習質量的影響特征因素選取方面還不全面，未來仍需繼續改進，進一步提升模型的分類性能。