基于深度學(xué)習(xí)與數(shù)據(jù)挖掘的在線學(xué)習(xí)預(yù)測評估模型設(shè)計

2023-07-25 09:55:32由志勛

電子設(shè)計工程 2023年15期

關(guān)鍵詞：模型

劉靜，由志勛

（1.西安工程大學(xué)，陜西西安 710048；2.西安熱工研究院有限公司，陜西西安 710000）

近年來，隨著“互聯(lián)網(wǎng)+”概念的不斷發(fā)展，數(shù)字化教學(xué)對教育，尤其是高等教育產(chǎn)生了重要影響。而各領(lǐng)域的網(wǎng)課層出不窮，為人們的學(xué)習(xí)提供了新方式[1-4]。自新冠肺炎疫情爆發(fā)以來，全國各大高校相繼調(diào)整了返校時間。而為保證大學(xué)生們的學(xué)習(xí)進度，教育部提出了“停課不停學(xué)”的行動計劃，這一計劃也引發(fā)了社會各界對互聯(lián)網(wǎng)在線課程資源的關(guān)注[5-7]。

互聯(lián)網(wǎng)在線課程在我國已有十余年的發(fā)展歷史，在這期間輟學(xué)率和流失率是該課程所面臨的主要問題[8]。使用網(wǎng)絡(luò)教學(xué)中的學(xué)生行為數(shù)據(jù)，來預(yù)測學(xué)生的學(xué)習(xí)效果并進行精準教學(xué)干預(yù)，已成為當(dāng)前相關(guān)學(xué)者研究的熱門課題之一[9-10]。上述相關(guān)文獻均已實現(xiàn)并取得了一定的效果。但在影響因素方面，仍未能給出影響學(xué)習(xí)效果的關(guān)鍵指標(biāo)，且在評估各個指標(biāo)的影響時，定性與定量的評估相交雜，故主觀因素影響較大。

文中采用智能化的深度學(xué)習(xí)技術(shù)，對學(xué)習(xí)成績實現(xiàn)預(yù)測，且構(gòu)建了學(xué)習(xí)效果評估模型。利用數(shù)據(jù)挖掘技術(shù)對可能影響成績的各種因素進行聚類分析，并總結(jié)出了關(guān)鍵指標(biāo)。在分析各個關(guān)鍵指標(biāo)的影響權(quán)重與成績預(yù)測時，采用梯度漸進回歸樹構(gòu)建預(yù)測模型，從而實現(xiàn)成績預(yù)測。

1 成績預(yù)測評估模型框架

網(wǎng)絡(luò)課程這種全新的教學(xué)方法與學(xué)習(xí)體驗，對教師和學(xué)生而言均是一種挑戰(zhàn)。如何根據(jù)學(xué)生在網(wǎng)課上的交互行為及相關(guān)數(shù)據(jù)來預(yù)測學(xué)習(xí)效果，并對學(xué)生的學(xué)習(xí)狀態(tài)進行評估與干預(yù)，成為該文研究的重點[11-12]。

文中所提出的高校學(xué)生成績預(yù)測評估模型可分為兩個部分：一是總結(jié)出影響學(xué)生成績的關(guān)鍵因素、指標(biāo)；二是對學(xué)生成績進行預(yù)測和評估，具體如圖1所示[13-14]。根據(jù)預(yù)設(shè)的變量，利用聚類分析法，從學(xué)生網(wǎng)課的平時考核成績、學(xué)習(xí)行為歸類出影響學(xué)生成績的關(guān)鍵因素以及各個因素的影響權(quán)重，進而構(gòu)建成績影響因素體系，將其作為成績預(yù)測模型的輸入信息與初始參數(shù)；再使用深度學(xué)習(xí)中的梯度漸進回歸樹算法深度挖掘數(shù)據(jù)背后的邏輯，并對初始參數(shù)進行修正。當(dāng)預(yù)測結(jié)果與實際成績的差異低于閾值時，制定提高學(xué)習(xí)成績的干預(yù)措施；而當(dāng)預(yù)測結(jié)果與實際成績的差異大于閾值時，則篩選變量，且重新構(gòu)建成績影響因素體系。

圖1 成績預(yù)測評估模型框架示意圖

2 成績預(yù)測評估模型

2.1 成績影響因子體系構(gòu)建

學(xué)習(xí)成績預(yù)測與評估模型的構(gòu)建需要明確關(guān)鍵影響因素的個數(shù)和權(quán)重，在此過程中使用的數(shù)據(jù)主要分為學(xué)生的平時考核成績與在線學(xué)習(xí)行為。平時考核成績?yōu)槎繑?shù)據(jù)，僅需對數(shù)據(jù)是否重復(fù)、缺失進行檢查后，便可進行聚類分析；而學(xué)習(xí)行為則是定性數(shù)據(jù)，需要將其通過編碼轉(zhuǎn)換為定量數(shù)據(jù)。文中所研究的學(xué)習(xí)行為數(shù)據(jù)分為以下幾類，如表1 所示。

表1 學(xué)習(xí)行為數(shù)據(jù)

通過平時考核成績能夠直觀地了解學(xué)生的學(xué)習(xí)效果，而學(xué)習(xí)行為則比較抽象，故文中使用數(shù)據(jù)挖掘中的K-means 算法來挖掘各類學(xué)習(xí)行為與學(xué)習(xí)成績之間的關(guān)系[15]，以明確關(guān)鍵影響因素，并提高學(xué)習(xí)成績預(yù)測的準確率。

該文所采用的K-means 算法，又被稱為K-均值算法[16]，其設(shè)計的核心思想：預(yù)設(shè)聚類的個數(shù)，依據(jù)事先設(shè)定的規(guī)則，持續(xù)將在距離種子點一定范圍內(nèi)的個體劃分成指定簇；再通過迭代更新的方式，事先指定簇的劃分個數(shù)。在每次迭代過程中，選用的參考點為上一次迭代簇的質(zhì)心。具體的算法流程如圖2所示。

圖2 K-means算法流程圖

從圖2 可以看出，K-means 算法的終止條件是算法收斂。因此文中采用畸變函數(shù)來判斷算法是否收斂，具體表達式如下：

式中，J函數(shù)表示各個個體到達質(zhì)心的距離平方和。當(dāng)J函數(shù)為最小值時，代表K-means 算法收斂，即質(zhì)心μi和類別ci分別收斂。當(dāng)J函數(shù)不是最小值時，通過固定每個簇質(zhì)心μi或類別ci，調(diào)整另一個變量，直至J函數(shù)為最小值。

2.2 基于梯度漸進回歸樹的預(yù)測模型

在篩選出關(guān)鍵影響因素后，再使用深度學(xué)習(xí)中的梯度漸進回歸樹來分析關(guān)鍵影響因素與成績之間的聯(lián)系。梯度漸進回歸樹是一種以決策樹為基礎(chǔ)的Boosting 算法，其本質(zhì)為新生成的樹均通過父代樹的殘差來進行學(xué)習(xí)，且利用損失函數(shù)的負梯度作為整個算法殘差的近似值，并擬合成一棵回歸樹。故最終的預(yù)測結(jié)果為所有回歸樹預(yù)測結(jié)果的疊加。具體過程如下所示：

設(shè)定成績預(yù)測的數(shù)據(jù)集為D={(x1,y1),(x2,y2),…,(xn,yn)}，損失函數(shù)被定義為L(y,f(x))，回歸樹的最大深度數(shù)值為S。

1）依據(jù)式（2）預(yù)設(shè)常數(shù)因子c，使得損失函數(shù)最小。

2）以迭代的方式建立M棵回歸樹，對于每一個樣本數(shù)據(jù)，均利用式（3）計算損失函數(shù)的負梯度在回歸樹的數(shù)值，作為殘差的初始估計值。

同時將{xi,rmi}用回歸樹擬合，以得到第m棵回歸樹h(xi,λm)，回歸樹中λm為模型參數(shù)。

3）損失函數(shù)的最小化由模型參數(shù)權(quán)重得到βm，并使用線性搜索來計算權(quán)重βm：

4）在得到βm之后，利用更新步長α將模型更新如下：

5）完成所有迭代次數(shù)后，即可輸出最終模型：

在內(nèi)容交互行為中，在線時長t是以分鐘為單位進行統(tǒng)計的。為避免因數(shù)據(jù)單位不一致而導(dǎo)致預(yù)測結(jié)果的差異性，需要將在線時長數(shù)據(jù)進行歸一化處理，得到分布在[-1,1]之間的數(shù)據(jù)：

由上述分析可知，梯度漸進回歸樹模型的建立需要3 個參數(shù)：回歸樹數(shù)量M、每棵回歸樹的最大深度S和更新步長α，且回歸樹的數(shù)量決定了迭代次數(shù)。為防止模型訓(xùn)練時出現(xiàn)過擬合現(xiàn)象，每棵回歸樹的最大深度初始值為一個較小的數(shù)值。更新步長的大小決定著模型收斂速度的快慢。文中采用參數(shù)枚舉的方式來選定M、S、α這3 個參數(shù)，并以交叉驗證的方式對其進行考核，考核評分高的組合作為最終模型參數(shù)的數(shù)值。考核標(biāo)準為擬合優(yōu)度，如式（8）：

式中，R2代表擬合優(yōu)度，m為樣本個數(shù)，Yi為樣本實際數(shù)值，yi為樣本預(yù)測值。而y′為預(yù)測平均值，該值越趨近于1，則表示擬合效果越好。

參數(shù)枚舉優(yōu)化過程如下：

1）初始化參數(shù)M、S、α，M=[M1,M2,…,MK1]，S=[S1,S2,…,SK2]，α=[α1,α2,…,αK3]，參數(shù)枚舉數(shù)量分別為K1、K2、K3。

2）將樣本數(shù)據(jù)分為n份進行交叉驗證。選擇任意一組樣本數(shù)據(jù)作為目標(biāo)集合，利用其余的樣本數(shù)據(jù)對步驟1）中的某一組參數(shù)進行優(yōu)化訓(xùn)練與計算擬合優(yōu)度，并將平均擬合優(yōu)度作為該組參數(shù)的最終評估結(jié)果。重復(fù)此操作，直至每一組樣本數(shù)據(jù)均可作為目標(biāo)集。

3）選擇步驟1）中的另一組參數(shù)組合，進行步驟2）的操作，直至所有的參數(shù)組合均得到平均擬合優(yōu)度。

4）比較各個參數(shù)組合的平均擬合優(yōu)度數(shù)值大小，且將最高數(shù)值對應(yīng)的參數(shù)組合定為模型的最終參數(shù)。

3 測試與驗證

為了測試文中所提成績預(yù)測評估模型的性能，選取了某所高校共計2 358 名大學(xué)生的網(wǎng)絡(luò)課程學(xué)習(xí)數(shù)據(jù)，且該數(shù)據(jù)分為70%的畢業(yè)生數(shù)據(jù)與30%的在校生數(shù)據(jù)。畢業(yè)生數(shù)據(jù)被用來訓(xùn)練成績預(yù)測評估模型的參數(shù)；而在校生的學(xué)習(xí)數(shù)據(jù)則用來驗證模型的有效性。在進行模型訓(xùn)練前，使用Notepad++工具及R 語言對原始數(shù)據(jù)進行預(yù)處理：清除重復(fù)、無效的數(shù)據(jù)并對各類數(shù)據(jù)進行歸一化處理。通過K-means聚類算法得到關(guān)鍵影響因素后，再將這些因素作為梯度漸進回歸樹模型的輸入。文中采用枚舉的形式，對訓(xùn)練樣本進行交叉驗證。

文中使用Matlab2016仿真軟件平臺作為模型訓(xùn)練的軟件環(huán)境，硬件環(huán)境配置了64 bit、32 GB內(nèi)存與1 TB機械硬盤以滿足高速、海量的模型訓(xùn)練計算資源需求。

在模型訓(xùn)練前，依據(jù)經(jīng)驗設(shè)定K-means 算法的聚類個數(shù)及梯度漸進回歸樹模型各個參數(shù)的范圍。為了篩選出影響成績的關(guān)鍵因素，各簇之間的相似程度應(yīng)較低，而簇內(nèi)的個體相似程度則較高。將K值的初始范圍設(shè)定為[3,6]，并根據(jù)不同的K值，計算各個個體到相應(yīng)質(zhì)心的均值距離，結(jié)果如表2 所示。

表2 不同K值下個體到質(zhì)心的均值距離

從表2 可以看出，當(dāng)K值為5 時，各個體到質(zhì)心的均值距離最小。這表明將學(xué)生的學(xué)習(xí)行為特征劃分為5 個類別，對成績的預(yù)測效果最佳。

梯度漸進回歸樹的參數(shù)初始范圍設(shè)定為M={10,30,70,100}，S={2,3,5}，α={0.05,1,2,4}。在梯度漸進回歸樹模型訓(xùn)練過程中，使用均方根誤差來描述迭代精度，計算方式如下：

式中，m表示的是樣本數(shù)量，為樣本實際數(shù)值，yi為預(yù)測數(shù)值。RMSE 的數(shù)值越小，則表明預(yù)測值越接近實際數(shù)值。訓(xùn)練及預(yù)測樣本在模型迭代過程中的誤差變化曲線如圖3 所示。

圖3 梯度漸進回歸樹均方根誤差

從圖中可以看出，訓(xùn)練和測試樣本在迭代45 次后仍有下降的趨勢，但變化較為緩慢。這表明模型已經(jīng)趨于收斂，且此時的均方根誤差約為0.004 5。值得注意的是，測試樣本曲線與訓(xùn)練樣本曲線走向一致，且測試樣本曲線低于訓(xùn)練樣本。這是因為測試樣本的數(shù)量顯著低于訓(xùn)練樣本，所以在訓(xùn)練過程中訓(xùn)練樣本RMSE 誤差的降低未引發(fā)過擬合，因此也沒有導(dǎo)致預(yù)測結(jié)果出現(xiàn)較大的偏差。

4 結(jié)束語

針對在線網(wǎng)絡(luò)課程僅使用在線數(shù)據(jù)，難以預(yù)測學(xué)生成績的問題，文中利用K-means 算法和梯度漸進回歸樹，構(gòu)建出了一套成績評估預(yù)測模型，并利用該模型對進行在線學(xué)習(xí)用戶的成績進行了預(yù)測。測試結(jié)果表明，所設(shè)計的模型能夠?qū)崿F(xiàn)較為精準的預(yù)測。但是需要注意的是，該研究結(jié)果僅適用于對一門課程的數(shù)據(jù)進行分析，因此該模型仍存在一定的局限性，有待于進一步研究實現(xiàn)多學(xué)科的綜合評估。