劉 靜,由志勛
(1.西安工程大學(xué),陜西西安 710048;2.西安熱工研究院有限公司,陜西西安 710000)
近年來,隨著“互聯(lián)網(wǎng)+”概念的不斷發(fā)展,數(shù)字化教學(xué)對教育,尤其是高等教育產(chǎn)生了重要影響。而各領(lǐng)域的網(wǎng)課層出不窮,為人們的學(xué)習(xí)提供了新方式[1-4]。自新冠肺炎疫情爆發(fā)以來,全國各大高校相繼調(diào)整了返校時間。而為保證大學(xué)生們的學(xué)習(xí)進度,教育部提出了“停課不停學(xué)”的行動計劃,這一計劃也引發(fā)了社會各界對互聯(lián)網(wǎng)在線課程資源的關(guān)注[5-7]。
互聯(lián)網(wǎng)在線課程在我國已有十余年的發(fā)展歷史,在這期間輟學(xué)率和流失率是該課程所面臨的主要問題[8]。使用網(wǎng)絡(luò)教學(xué)中的學(xué)生行為數(shù)據(jù),來預(yù)測學(xué)生的學(xué)習(xí)效果并進行精準教學(xué)干預(yù),已成為當(dāng)前相關(guān)學(xué)者研究的熱門課題之一[9-10]。上述相關(guān)文獻均已實現(xiàn)并取得了一定的效果。但在影響因素方面,仍未能給出影響學(xué)習(xí)效果的關(guān)鍵指標(biāo),且在評估各個指標(biāo)的影響時,定性與定量的評估相交雜,故主觀因素影響較大。
文中采用智能化的深度學(xué)習(xí)技術(shù),對學(xué)習(xí)成績實現(xiàn)預(yù)測,且構(gòu)建了學(xué)習(xí)效果評估模型。利用數(shù)據(jù)挖掘技術(shù)對可能影響成績的各種因素進行聚類分析,并總結(jié)出了關(guān)鍵指標(biāo)。在分析各個關(guān)鍵指標(biāo)的影響權(quán)重與成績預(yù)測時,采用梯度漸進回歸樹構(gòu)建預(yù)測模型,從而實現(xiàn)成績預(yù)測。
網(wǎng)絡(luò)課程這種全新的教學(xué)方法與學(xué)習(xí)體驗,對教師和學(xué)生而言均是一種挑戰(zhàn)。如何根據(jù)學(xué)生在網(wǎng)課上的交互行為及相關(guān)數(shù)據(jù)來預(yù)測學(xué)習(xí)效果,并對學(xué)生的學(xué)習(xí)狀態(tài)進行評估與干預(yù),成為該文研究的重點[11-12]。
文中所提出的高校學(xué)生成績預(yù)測評估模型可分為兩個部分:一是總結(jié)出影響學(xué)生成績的關(guān)鍵因素、指標(biāo);二是對學(xué)生成績進行預(yù)測和評估,具體如圖1所示[13-14]。根據(jù)預(yù)設(shè)的變量,利用聚類分析法,從學(xué)生網(wǎng)課的平時考核成績、學(xué)習(xí)行為歸類出影響學(xué)生成績的關(guān)鍵因素以及各個因素的影響權(quán)重,進而構(gòu)建成績影響因素體系,將其作為成績預(yù)測模型的輸入信息與初始參數(shù);再使用深度學(xué)習(xí)中的梯度漸進回歸樹算法深度挖掘數(shù)據(jù)背后的邏輯,并對初始參數(shù)進行修正。當(dāng)預(yù)測結(jié)果與實際成績的差異低于閾值時,制定提高學(xué)習(xí)成績的干預(yù)措施;而當(dāng)預(yù)測結(jié)果與實際成績的差異大于閾值時,則篩選變量,且重新構(gòu)建成績影響因素體系。

圖1 成績預(yù)測評估模型框架示意圖
學(xué)習(xí)成績預(yù)測與評估模型的構(gòu)建需要明確關(guān)鍵影響因素的個數(shù)和權(quán)重,在此過程中使用的數(shù)據(jù)主要分為學(xué)生的平時考核成績與在線學(xué)習(xí)行為。平時考核成績?yōu)槎繑?shù)據(jù),僅需對數(shù)據(jù)是否重復(fù)、缺失進行檢查后,便可進行聚類分析;而學(xué)習(xí)行為則是定性數(shù)據(jù),需要將其通過編碼轉(zhuǎn)換為定量數(shù)據(jù)。文中所研究的學(xué)習(xí)行為數(shù)據(jù)分為以下幾類,如表1 所示。

表1 學(xué)習(xí)行為數(shù)據(jù)
通過平時考核成績能夠直觀地了解學(xué)生的學(xué)習(xí)效果,而學(xué)習(xí)行為則比較抽象,故文中使用數(shù)據(jù)挖掘中的K-means 算法來挖掘各類學(xué)習(xí)行為與學(xué)習(xí)成績之間的關(guān)系[15],以明確關(guān)鍵影響因素,并提高學(xué)習(xí)成績預(yù)測的準確率。
該文所采用的K-means 算法,又被稱為K-均值算法[16],其設(shè)計的核心思想:預(yù)設(shè)聚類的個數(shù),依據(jù)事先設(shè)定的規(guī)則,持續(xù)將在距離種子點一定范圍內(nèi)的個體劃分成指定簇;再通過迭代更新的方式,事先指定簇的劃分個數(shù)。在每次迭代過程中,選用的參考點為上一次迭代簇的質(zhì)心。具體的算法流程如圖2所示。

圖2 K-means算法流程圖
從圖2 可以看出,K-means 算法的終止條件是算法收斂。因此文中采用畸變函數(shù)來判斷算法是否收斂,具體表達式如下:
式中,J函數(shù)表示各個個體到達質(zhì)心的距離平方和。當(dāng)J函數(shù)為最小值時,代表K-means 算法收斂,即質(zhì)心μi和類別ci分別收斂。當(dāng)J函數(shù)不是最小值時,通過固定每個簇質(zhì)心μi或類別ci,調(diào)整另一個變量,直至J函數(shù)為最小值。
在篩選出關(guān)鍵影響因素后,再使用深度學(xué)習(xí)中的梯度漸進回歸樹來分析關(guān)鍵影響因素與成績之間的聯(lián)系。梯度漸進回歸樹是一種以決策樹為基礎(chǔ)的Boosting 算法,其本質(zhì)為新生成的樹均通過父代樹的殘差來進行學(xué)習(xí),且利用損失函數(shù)的負梯度作為整個算法殘差的近似值,并擬合成一棵回歸樹。故最終的預(yù)測結(jié)果為所有回歸樹預(yù)測結(jié)果的疊加。具體過程如下所示:
設(shè)定成績預(yù)測的數(shù)據(jù)集為D={(x1,y1),(x2,y2),…,(xn,yn)},損失函數(shù)被定義為L(y,f(x)),回歸樹的最大深度數(shù)值為S。
1)依據(jù)式(2)預(yù)設(shè)常數(shù)因子c,使得損失函數(shù)最小。
2)以迭代的方式建立M棵回歸樹,對于每一個樣本數(shù)據(jù),均利用式(3)計算損失函數(shù)的負梯度在回歸樹的數(shù)值,作為殘差的初始估計值。
同時將{xi,rmi}用回歸樹擬合,以得到第m棵回歸樹h(xi,λm),回歸樹中λm為模型參數(shù)。
3)損失函數(shù)的最小化由模型參數(shù)權(quán)重得到βm,并使用線性搜索來計算權(quán)重βm:
4)在得到βm之后,利用更新步長α將模型更新如下:
5)完成所有迭代次數(shù)后,即可輸出最終模型:
在內(nèi)容交互行為中,在線時長t是以分鐘為單位進行統(tǒng)計的。為避免因數(shù)據(jù)單位不一致而導(dǎo)致預(yù)測結(jié)果的差異性,需要將在線時長數(shù)據(jù)進行歸一化處理,得到分布在[-1,1]之間的數(shù)據(jù):
由上述分析可知,梯度漸進回歸樹模型的建立需要3 個參數(shù):回歸樹數(shù)量M、每棵回歸樹的最大深度S和更新步長α,且回歸樹的數(shù)量決定了迭代次數(shù)。為防止模型訓(xùn)練時出現(xiàn)過擬合現(xiàn)象,每棵回歸樹的最大深度初始值為一個較小的數(shù)值。更新步長的大小決定著模型收斂速度的快慢。文中采用參數(shù)枚舉的方式來選定M、S、α這3 個參數(shù),并以交叉驗證的方式對其進行考核,考核評分高的組合作為最終模型參數(shù)的數(shù)值。考核標(biāo)準為擬合優(yōu)度,如式(8):
式中,R2代表擬合優(yōu)度,m為樣本個數(shù),Yi為樣本實際數(shù)值,yi為樣本預(yù)測值。而y′為預(yù)測平均值,該值越趨近于1,則表示擬合效果越好。
參數(shù)枚舉優(yōu)化過程如下:
1)初始化參數(shù)M、S、α,M=[M1,M2,…,MK1],S=[S1,S2,…,SK2],α=[α1,α2,…,αK3],參數(shù)枚舉數(shù)量分別為K1、K2、K3。
2)將樣本數(shù)據(jù)分為n份進行交叉驗證。選擇任意一組樣本數(shù)據(jù)作為目標(biāo)集合,利用其余的樣本數(shù)據(jù)對步驟1)中的某一組參數(shù)進行優(yōu)化訓(xùn)練與計算擬合優(yōu)度,并將平均擬合優(yōu)度作為該組參數(shù)的最終評估結(jié)果。重復(fù)此操作,直至每一組樣本數(shù)據(jù)均可作為目標(biāo)集。
3)選擇步驟1)中的另一組參數(shù)組合,進行步驟2)的操作,直至所有的參數(shù)組合均得到平均擬合優(yōu)度。
4)比較各個參數(shù)組合的平均擬合優(yōu)度數(shù)值大小,且將最高數(shù)值對應(yīng)的參數(shù)組合定為模型的最終參數(shù)。
為了測試文中所提成績預(yù)測評估模型的性能,選取了某所高校共計2 358 名大學(xué)生的網(wǎng)絡(luò)課程學(xué)習(xí)數(shù)據(jù),且該數(shù)據(jù)分為70%的畢業(yè)生數(shù)據(jù)與30%的在校生數(shù)據(jù)。畢業(yè)生數(shù)據(jù)被用來訓(xùn)練成績預(yù)測評估模型的參數(shù);而在校生的學(xué)習(xí)數(shù)據(jù)則用來驗證模型的有效性。在進行模型訓(xùn)練前,使用Notepad++工具及R 語言對原始數(shù)據(jù)進行預(yù)處理:清除重復(fù)、無效的數(shù)據(jù)并對各類數(shù)據(jù)進行歸一化處理。通過K-means聚類算法得到關(guān)鍵影響因素后,再將這些因素作為梯度漸進回歸樹模型的輸入。文中采用枚舉的形式,對訓(xùn)練樣本進行交叉驗證。
文中使用Matlab2016仿真軟件平臺作為模型訓(xùn)練的軟件環(huán)境,硬件環(huán)境配置了64 bit、32 GB內(nèi)存與1 TB機械硬盤以滿足高速、海量的模型訓(xùn)練計算資源需求。
在模型訓(xùn)練前,依據(jù)經(jīng)驗設(shè)定K-means 算法的聚類個數(shù)及梯度漸進回歸樹模型各個參數(shù)的范圍。為了篩選出影響成績的關(guān)鍵因素,各簇之間的相似程度應(yīng)較低,而簇內(nèi)的個體相似程度則較高。將K值的初始范圍設(shè)定為[3,6],并根據(jù)不同的K值,計算各個個體到相應(yīng)質(zhì)心的均值距離,結(jié)果如表2 所示。

表2 不同K值下個體到質(zhì)心的均值距離
從表2 可以看出,當(dāng)K值為5 時,各個體到質(zhì)心的均值距離最小。這表明將學(xué)生的學(xué)習(xí)行為特征劃分為5 個類別,對成績的預(yù)測效果最佳。
梯度漸進回歸樹的參數(shù)初始范圍設(shè)定為M={10,30,70,100},S={2,3,5},α={0.05,1,2,4}。在梯度漸進回歸樹模型訓(xùn)練過程中,使用均方根誤差來描述迭代精度,計算方式如下:
式中,m表示的是樣本數(shù)量,為樣本實際數(shù)值,yi為預(yù)測數(shù)值。RMSE 的數(shù)值越小,則表明預(yù)測值越接近實際數(shù)值。訓(xùn)練及預(yù)測樣本在模型迭代過程中的誤差變化曲線如圖3 所示。

圖3 梯度漸進回歸樹均方根誤差
從圖中可以看出,訓(xùn)練和測試樣本在迭代45 次后仍有下降的趨勢,但變化較為緩慢。這表明模型已經(jīng)趨于收斂,且此時的均方根誤差約為0.004 5。值得注意的是,測試樣本曲線與訓(xùn)練樣本曲線走向一致,且測試樣本曲線低于訓(xùn)練樣本。這是因為測試樣本的數(shù)量顯著低于訓(xùn)練樣本,所以在訓(xùn)練過程中訓(xùn)練樣本RMSE 誤差的降低未引發(fā)過擬合,因此也沒有導(dǎo)致預(yù)測結(jié)果出現(xiàn)較大的偏差。
針對在線網(wǎng)絡(luò)課程僅使用在線數(shù)據(jù),難以預(yù)測學(xué)生成績的問題,文中利用K-means 算法和梯度漸進回歸樹,構(gòu)建出了一套成績評估預(yù)測模型,并利用該模型對進行在線學(xué)習(xí)用戶的成績進行了預(yù)測。測試結(jié)果表明,所設(shè)計的模型能夠?qū)崿F(xiàn)較為精準的預(yù)測。但是需要注意的是,該研究結(jié)果僅適用于對一門課程的數(shù)據(jù)進行分析,因此該模型仍存在一定的局限性,有待于進一步研究實現(xiàn)多學(xué)科的綜合評估。