許杰 倪文瀚 蘭潔 周翔宇



關鍵詞:教育數據挖掘;寬度學習算法;成績預測
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2023)20-0090-03
0 引言
作為一種新興跨學科研究領域,教育數據挖掘涉及計算機科學、機器學習、數據挖掘和教育統計學等多學科內容。其中,實現高校學生成績的預測是教育數據挖掘的重要目標,通過對學生日常行為數據的挖掘與分析,可以幫助學校管理者和教師及時了解學生的學習成績,并做出針對性指導,改善學生的學習效率,盡可能避免出現課程不及格的現象,提高教學質量。因此,如何實現高校學生成績的準確預測,是本文研究的重點內容。
高校學生成績預測是指基于學生的相關信息,如歷史成績、行為數據、心理特征等,來預測其未來的學習表現,如分數、排名、考核等級等。這是教育數據挖掘領域的一個熱點問題,也是提高教育質量和效率的一個重要手段。針對高校學生的成績預測已經得到很多研究者的關注并取得相應的研究成果。文獻[1-3]提出了基于統計模型的方法,這種方法利用統計理論和技術,如線性回歸、邏輯回歸、方差分析等,建立學生成績與各種因素之間的數學關系,并進行參數估計和假設檢驗。這類方法簡單易用,但需要滿足一定的假設條件,并且難以處理非線性和復雜的關系。文獻[4-6]設計了基于機器學習的方法,能夠利用機器學習算法,如決策樹、支持向量機、神經網絡等,從大量的數據中自動學習出成績預測模型,并進行優化和評估。這類方法能夠處理非線性和復雜的關系,并且具有較強的泛化能力和魯棒性。文獻[7]利用深度神經網絡,從多源異構數據中提取高層次特征,并進行端到端的成績預測。這類方法能夠處理高維度和復雜結構的數據,并且具有較強的表達能力和自適應能力。
上述方法雖然能夠實現高校學生的成績預測,但還存在一些預測精度低和速度較慢的問題。具體來說,首先是數據質量問題。數據質量是影響成績預測精度的重要因素之一。如果數據存在缺失值、噪聲值、異常值等問題,或者數據量不足、數據來源單一、數據分布不均等問題,都會導致成績預測模型的訓練和測試效果下降。第二是特征選擇問題。特征選擇是指從原始數據中篩選出與目標變量相關性較高且冗余性較低的特征子集,以提高成績預測模型的泛化能力和解釋能力。如果特征選擇不合理,可能會導致信息損失或噪聲干擾,從而影響成績預測精度。第三是模型選擇問題。模型選擇是指從多個候選模型中選擇一個最優模型來進行成績預測。不同的模型具有不同的假設條件、參數設置、優化方法等,對于同一份數據可能會產生不同的預測結果。如果模型選擇不符合當前數據特點或者沒有經過充分的調優和驗證,可能會導致成績預測精度降低。最后是評估指標問題。評估指標是指用來衡量成績預測模型好壞的數值或標準。常見的評估指標有均方誤差、平均絕對誤差、相關系數、準確率等。不同的評估指標反映了成績預測結果的不同方面,例如:誤差大小、正確率、覆蓋率等。如果評估指標沒有考慮到教育領域內特有的因素或者沒有結合多種指標進行綜合分析,可能會導致對成績預測精度產生偏頗或片面的認識。
因此,本文提出了一種基于寬度學習網絡的高校學生成績預測方法,通過建立數據處理、網絡訓練和成績預測三個模塊,改善了數據質量、模型選擇和評估指標等問題。
1 寬度學習網絡
寬度學習網絡是基于隨機向量函數鏈接神經網絡(RVFLNN) 的一種改進和擴展,RVFLNN是一種單隱層前饋神經網絡,其輸入層到隱層的權重和偏置是隨機生成的,不需要訓練,只需要求解隱層到輸出層的權重矩陣。RVFLNN雖然簡單高效,但也存在一些問題,比如輸入數據的映射特征不夠豐富和穩定,導致網絡性能受限。為了解決這些問題,陳俊龍教授及其團隊[8]在2018年首次在學術界提出了寬度學習系統(BLS) ,并在之后不斷進行改進和擴展。與深度學習網絡的復雜結構有所不同,寬度學習網絡可以利用較少的網絡層數量來實現大規模數據的處理,同時利用偽逆矩陣的計算,一次求解得到訓練網絡的權重參數,避免了龐大的計算量,提高了運算速度。因此可以將寬度學習網絡應用到教育大數據領域,實現學生成績的高效與準確預測。
1.1 寬度學習網絡結構
寬度學習網絡的結構如圖1所示,其中包括輸入層、特征層、增強層和輸出層。特征層和增強層包含兩種節點,分別是特征節點(feature node)和增強節點(enhancement node)。特征節點由輸入數據計算得到,增強節點根據特征節點進一步計算得到。兩種節點直接組合起來連接到輸出層節點。由于這種相對簡單的結構,寬度學習網絡在訓練時只需要求解單層的最優權值,避免了復雜的反向傳播過程,有效降低了模型訓練時間。
當特征層和增強層需要增加新的網絡節點,或者收集到新的訓練數據時,寬度學習網絡無須復雜的重新訓練過程,只需要通過一些高效的增量計算來動態地更新已經學習到的權值。寬度學習網絡的增量學習包括添加特征節點、添加增強節點以及添加輸入數據等情況。
1.2 寬度學習網絡訓練
寬度學習網絡需要通過訓練來生成特征節點和增強節點,這兩類節點分別負責提取輸入數據的線性和非線性特征。同時,寬度學習網絡需要通過訓練來求解特征節點和增強節點到目標值的偽逆矩陣,這相當于神經網絡的權重矩陣,并調整稀疏表示和正交規范化等技術,以提高特征節點和增強節點的表達能力和穩定性。寬度學習網絡的訓練方法主要采用梯度下降法,這是一種最常用的訓練方法,它根據損失函數對神經網絡的參數進行迭代更新,使得損失函數達到最小值。梯度下降法可以分為批量梯度下降、隨機梯度下降和小批量梯度下降等不同的變體,根據每次更新時使用的數據量的不同。梯度下降法也可以結合一些優化技術,例如動量、自適應學習率、正則化等,來提高訓練效率和穩定性。
1.3 常見應用領域
經過近幾年的快速發展,寬度學習網絡已在很多技術領域都有展開應用,并且有良好的發展潛力,比如時間序列、高光譜分析、腦機信號分析、容錯、基因鑒定與疾病檢測、步態識別、3D打印以及智能交通等。其中,在安防領域[9],寬度學習網絡可以提升人工智能識別的可靠性和場景適應能力。2020年Feng等人[10]提出了寬度學習網絡可以通過增量學習來適應系統的變化和故障,這種方法應用在容錯系統中解決了機器人控制系統存在的故障率高等問題。同時,由于寬度學習網絡可以處理不同長度和頻率的時間序列數據,在股票預測[11]和災害預報[12]中也有較好的應用價值。
2 基于寬度學習的高校學生成績預測模型
為了實現高校學生成績的準確預測,本文提出了一種基于寬度學習的高校學生成績預測模型,成績預測流程如圖2所示。該模型主要包括數據處理、網絡訓練和成績預測三個模塊,每個模塊的具體功能如下。
2.1 數據處理模塊
這個模塊的功能是處理影響學生成績的日常行為數據,包括數據的獲取、存儲、更新、提取等操作。由于影響學生成績的日常行為數據維數較多,其中部分數據對成績并無參考價值,所以在數據處理模塊中需要進行特征提取,以獲取對本文研究有用的行為特征。
2.2 網絡訓練模塊
在網絡訓練模塊中,首先需準備數據,將類別變量進行編碼,把數據集劃分為訓練集和測試集,然后建立寬度學習網絡模型,設置各層的激活函數、單元數、學習率、正則化等參數,在訓練過程中,將訓練集數據輸入模型,設置迭代次數,并使用測試集數據計算預測誤差,調整參數優化模型。
2.3 成績預測模塊
經過數據處理和網絡訓練后,成績預測模塊可以快速準確地預測學生成績。
3 實驗結果與分析
3.1 實驗準備
為了訓練和測試成績預測模型,把數據集按照7∶3的比例劃分為訓練集和測試集。在對數據進行預處理后,分別采用線性回歸、支持向量機和本文提出的寬度學習網絡建立模型,并對模型參數進行優化,以保證方法對比的公平。本文的實驗在以下硬件和軟件環境下進行:處理器是Intel(R) Core(TM) i7-9700,主頻是3.2GHz,內存是16.0GB;軟件環境是Py?thon3.8。在使用寬度學習算法的成績預測模型中,設置每個窗口有10個特征節點,共有20個窗口,增強節點有200個。
3.2 不同預測模型的對比結果與分析
在本文實驗中,首先將采集到的數據進行預處理,解決數據缺失、異常和噪聲問題,然后將訓練數據導入預先設計好的寬度學習網絡模型,通過網絡訓練調整網絡中的節點數量和權重參數,最終通過訓練好的寬度學習網絡模型輸出數據得到學生成績的預測值,并與已有的兩種方法進行對比,實驗對比結果如圖3所示。
由圖3中可以發現,經過數據預處理和模型訓練后,采用線性回歸的學生成績預測準確率為75.2%,支持向量機的預測準確率為84.7%,而本文提出的寬度學習預測模型準確率達到了93.5%,驗證了本文所提出預測模型的有效性。
同時,為了評估高校學生成績模型的預測性能,主要用到的評標指標包括均方誤差(MAE) 、平均絕對誤差(RMSE) 、準確率(P) 和召回率(R) 。三種不同方法的預測性能對比結果如表1所示,從中可以看到,同線性回歸和支持向量機兩種方法相比,本文提出的寬度學習網絡預測準確率達到了92.4%,召回率達到了94.2%,同時具有最低的MAE值和RMSE值,說明本方法提高了成績預測精度。
4 總結
本文設計了一種基于寬度學習的高校學生成績預測模型,通過數據處理和網絡訓練,最終實現了高校學生成績的快速準確預測,能夠幫助高校教育管理人員及時了解學生的學習狀況,提高學生成績。