楊坤融,熊 余,,張 健,儲 雯
1.重慶郵電大學 通信與信息工程學院,重慶 400065
2.重慶郵電大學 教育信息化辦公室,重慶 400065
在線學習被廣泛認為是一場新的教育革命,已經成為教育學、心理學、數據科學等學科交叉研究的熱門課題。在學術界和業界的共同努力下,尤其在新冠肺炎疫情突然爆發的刺激下,在線學習在教育中的作用越發凸顯[1]。在此背景下大規模開放式在線課程(massive open online courses,MOOC)提供數千門精心設計的在線課程,充分滿足數以萬計學生的需求。在一個典型的在線學習平臺中,學生不僅可以自由地訪問課程視頻,完成作業和參加考試,還可以使用在線論壇和維基等輔助工具。顯然,在線學習因為優質、開放、免費等諸多優點而廣受學生的青睞,但需要注意的是,由于師生缺少面對面交流,學生上課時間碎片化等問題,在線學習具有極高的輟學率[2]。相關研究表明,大多數在線學習平臺的課程完成率低至4%~10%,而輟學率高達80%~95%[3]。同時,由于在線學習環境中教師相比于學生數目較少,教師無法跟蹤每一位學生的學習行為。因此,對學生進行精準和及時的輟學預測,從而提高在線課程的保留率,改善在線課程質量和教學方法對在線學習的持續健康發展具有重要意義[4]。
高輟學率對MOOC 平臺和學生自身都有負面影響,不利于MOOC 在全球的持續發展。從平臺角度來看,輟學會增加每個學生的平均成本,因為吸引新學習者的注冊成本遠大于留住潛在輟學者的成本。而從學生角度來看,輟學是對時間和精力投入的浪費。為了解決高輟學率這一顯著問題,就必須充分利用MOOC 平臺中記錄并儲存的海量學習者行為數據建立預測模型,實現對輟學者的精準預測。輟學預測是根據學生歷史學習行為記錄來預測未來某個時間退出課程的可能性[5]。通過對學生行為建模預測輟學概率,可以隨時獲取學習者在平臺的學習情況,提前發現其輟學風險。MOOC平臺存儲的學習行為數據主要包括點擊流數據、論壇數據和作業數據三大類,研究者通過制定合理的特征工程,從這些行為數據中提取影響學生最終學習效果的特征,以便進一步建立輟學預測模型。其中點擊流數據因能較完整地反映學生的學習軌跡,在構建輟學預測模型時往往能取得較好的性能[6]。現有的輟學預測方法主要使用傳統機器學習算法和深度學習算法建立預測模型,從而提高預測的準確性。文獻[7]將學生的每周學習行為形成序列,根據每周學習行為情況定義不同類型的學生,使用支持向量機(support vector machine,SVM)構建模型預測學生下周的輟學情況。文獻[8]從點擊流數據中提取學生行為特征,綜合運用邏輯回歸(logistic regression,LR)和線性SVM 方法預測輟學行為,并在預測過程中對每個特征向量做輟學預測性的檢驗,得出在前幾周預測中加入論壇數據能有效提高預測準確率。文獻[9]提出一種基于長短期記憶(long shortterm memory,LSTM)網絡的輟學預測策略。首先將輟學預測問題視為時間序列預測問題;隨后將學生點擊流和論壇數據以周為時間步長構建學生行為時間序列,最后利用LSTM預測學生是否輟學。文獻[10]以卷積神經網絡(convolutional neural networks,CNN)作為預測模型,并設計了一個基于時間序列的二維矩陣作為輸入,將時間信息與學生的行為特征相結合,解決了行為特征之間的短期依賴性問題。文獻[11]綜合考慮了CNN 和LSTM 的優點,提出了一種CLMS-Net 混合網絡結構。該網絡由CNN、LSTM 和SVM 組成,其中CNN 可以從學生行為數據中自動提取有用的特征,LSTM用于捕獲學生行為數據中的時間關系,SVM 作為最終的分類器判定學生是否輟學。
雖然以上研究已經取得了比較好的表現,但仍然存在兩方面問題:(1)當前研究忽略了學生行為數據的短期依賴關系以及長期的模式和趨勢。MOOC 課程往往會持續數周,在課程學習期間學生的行為活動以周為單位分布得非常均勻,此時學生行為序列不僅呈現短期的依賴關系,而且存在長期的周期性,傳統的機器學習算法和常用的CNN、LSTM等深度學習算法并不能很好地捕捉數據的這些特點[12-13]。(2)當前研究在輟學預測中默認為輟學和不輟學樣本的數量差別不大,忽略了輟學預測中的動態類別不平衡問題。實際上,盡管在線學習平臺的總體輟學率較高,但在課程學習過程中的每一時間步長下(如每周),輟學的學生相比于未輟學的人數仍然較少,數據集隨著課程的開展不斷變化,同時存在類別不平衡問題。并且在訓練模型時先前研究通常假設數據集中輟學和未輟學兩類樣本誤分類代價相等,以整體誤差最小化為目標訓練預測模型。故在此情況下預測模型分析得到的結果會偏向多數類,即未輟學的學生,從而使得實際上要輟學的學生被模型判定為未輟學,無法及時進行人為干預,造成學生放棄課程的后果。
為此,可將MOOC 輟學預測視作長短期不平衡時間序列問題,提出一種針基于深度學習的輟學預測策略(dropout prediction strategy based on deep learning,DPSDL)。該策略首先構建以天為時間步長、周為學習周期的新型學生行為時間序列;然后結合兩種不同的輟學定義,判斷不同時間點學生的輟學人數并揭示輟學預測中的類別不平衡現象;隨后為了捕捉學生行為數據長期的模式趨勢和短期的依賴性,使用長短期時間序列網絡(long-and short-term time-series network,LSTNet)構建時間序列預測模型,該模型中的卷積單元用于捕捉學生行為中的短期依賴關系,并且通過循環跳躍層對輸入數據進行維度整理,緩解網絡中的梯度消失現象,以此獲取數據中更為長期的模式和趨勢,并充分利用時間序列的周期特性;最后引入代價敏感性學習解決不同時間步長下的動態類別不平衡問題,提升預測精度。
MOOC 平臺上教學形式通常是教師每周將課程內容以在線視頻的方式發布給學生,并且教學者會布置一些作業供學生作答。隨著課程的進行學生可能會對課程的某些內容和作業存在疑惑,這時可以去課程對應的論壇討論問題,MOOC平臺會記錄課程中所有學生的學習行為。本文對學生的學習行為進行分析,深度挖掘學生的學習規律,新發現了學生行為記錄數據的長短期混合模式。一般地,以一周為時間步長可將學生每周在平臺上的所有活動數據匯總開展學習分析。通常,每周學生會按照某種長期養成的學習習慣和規律開展學習(例如在每周初首次觀看課程視頻而在本周末課程結束時完成作業),這使得學生行為隨著課程的進行呈現長期的周期性[14]。同時,學生的學習行為并不是獨立出現的,而是在某段較短時間內連續發生(例如學生在完成作業前會再次觀看課程視頻并瀏覽課程論壇),因此學生行為也存在短期依賴關系。要捕捉學生行為數據的長期模式趨勢及短期依賴性,通常以周為時間步長的學習分析將難以準確描述這種復雜的時間序列關系。為此,這里將時間步長縮小為一天,并以一周為一個學習周期,由此捕捉每一時間步長下時間序列數據的短期依賴關系和相鄰學習周期之間的長期模式和趨勢。將學生K周的學習行為按時間順序形成序列XK=(x1,x2,…,xt,…,x7K),其中xt為第t個時間步長下的行為序列。同時,可根據所采用的輟學定義為每個學習周期各個學生生成一個輟學標簽,這里yK∈{0,1}(0代表未輟學,1代表輟學)。隨著課程的推進,輟學預測問題可以定義為:使用學生截至第K個學習周期(包括第K個周期)的行為序列XK,從而預測學生在該周期結束時的狀態yK,在每個學習周期結束時預測一次,直到課程結束,如圖1所示。

圖1 學生長短期時間序列構建Fig.1 Construction of students’long-and short-time series
在MOOC輟學預測中的動態類別不平衡問題是指數據集中每個時間點未輟學人數遠高于輟學人數,并且類別的數量隨時間不斷發生變化,本文揭示了這種現象。為了準確認識這個問題,首先依據輟學定義判定學生在某個時間點是否處于輟學狀態,隨后統計該時間點的輟學人數和未輟學人數,最后通過計算不平衡率(imbalance ratio,IR)衡量數據集的不平衡程度[15]。IR可由式(1)計算得出:
其中,n1和n2分別為輟學和未輟學的人數。若IR>1,即n2>n1,說明未輟學人數多于輟學的人數,且IR值越大,學生輟學預測中的類不平衡程度越高,反之則越低。
為了判定學生在不同時間步長的狀態,需要應用準確的輟學定義判斷學生是否輟學。為了證明類別不平衡現象并不是偶然發生,這里使用MOOC 輟學預測研究通用的KDD Cup 2015數據集,結合文獻[16]總結的兩種最常用的輟學定義判定數據集中學生在不同時間步長的狀態。
輟學定義1:若(xt+1,xt+2,…,xt+m)=?,即學生在未來一段或多段時間步長內沒有學習行為,則判定為輟學。
輟學定義2:若a?(x7K-6,x7K-5,…,x7K),即學生在課程結束之前的最后一周內沒有提交作業的行為,則判定為輟學。其中a為提交作業行為。
根據學生學習課程的不同階段,可結合以上兩種輟學定義來分析其輟學行為,其中定義1 和定義2 分別適用于課程前中期和末期。按照第1.1節提出的學生行為時間序列,從KDD Cup 2015公開數據集中選擇人數較多的5 門課程[4],統計在每個學習周期結束后輟學人數和未輟學人數,并計算不平衡率IR。對于輟學學生只統計本學習周期結束時新產生的輟學人數,而不是累計的輟學人數。圖2 是數據集不平衡率變化情況,圖3 為在線課程人數隨時間變化示意圖。從圖中可以看出,隨著課程的開展,不斷地有學生放棄課程,在每個時間段輟學的人數實際上少于未輟學的人數,是一個累積的過程,因此輟學者應當視為少數類,而未輟學者為多數類,并且數據集的類別不平衡程度隨著時間的推移動態變化。許多學生選擇在課程的第一周放棄課程,此時數據集不平衡率IR較低。隨著課程的開展,輟學人數不斷下降,課程人數較為平穩,所對應的數據集不平衡率IR逐漸上升,在第3周達到峰值(最高為8.82),最后在第5周達到最低點(最低為0.75),并且大多數時間段的IR皆大于1,數據集存在動態類別不平衡問題。在課程第1周學生處于課程的初步了解階段,由于課程內容不合適或難度較高,導致輟學人數較多,此時IR并不高;隨著時間的推移,課程逐漸進入平穩階段,只有少部分學生輟學,因此數據集極度不平衡;在課程最后1周,學生面臨考試的壓力,也有一部分學生參加課程的目的是學習課程內容,對于最終的考試成績并不關注,因此導致輟學人數急劇上升,從而降低了IR。可見,課程在線學習人數是不斷變化的,因此數據集的不平衡程度隨著課程的推進而不斷起伏,且在大多數情況下類別不平衡問題較為嚴重,即在一個學習周期內未輟學學生的數量遠大于輟學學生。

圖2 不平衡率隨時間變化情況Fig.2 Imbalance ratio changes over time

圖3 課程在線學習人數變動示意圖Fig.3 Illustration of change in the number of online learning students
從以上分析可知,通過統計分析時間序列數據的特點,可將MOOC 輟學預測視為長短期不平衡時間序列分類問題。目前深度學習算法已經成為構建時間序列模型的主流工具,現有研究所使用的深度學習模型可分為三類:(1)單一的CNN;(2)單一的RNN 及其變體,例如LSTM 和GRU;(3)由CNN 和RNN 組成的混合神經網絡。其中,CNN 雖然能夠通過滑動卷積核窗口以及池化等方法捕捉時間序列數據中的短期依賴關系,但是由于其卷積核大小的限制,不能很好地抓取長時的依賴信息。而以LSTM和GUR為代表的循環神經網絡由于訓練的不穩定性和梯度消失問題,很難記錄較為長期的周期模式[17]。因此本文充分考慮輟學預測數據集中學生行為的短時間連續性和長期周期性,引入LSTNet 網絡作為預測模型解決學生時間序列數據中短期和長期混合模式的捕獲問題,其核心思想是充分發揮CNN 的優勢,發現短期連續行為之間的局部依賴模式,并通過特殊的循環層對輸入數據進行維度整理,緩解深層網絡中的梯度消失現象,達到獲取學習行為中更為長期的模式和趨勢的目的,并充分利用學生行為的周期特性[13]。如圖4所示,LSTNet由卷積單元、循環單元、循環跳躍單元以及密集層組成。學生行為時間序列首先輸入卷積單元中,用于提取每一時間步長下學生行為之間局部模式和短期依賴關系;隨后,將卷積單元的輸出分別輸入到循環單元和循環跳躍單元中,用于發現相鄰學習周期間數據的長期模式和趨勢;最后,通過密集層整合循環單元和循環跳躍單元的輸出,并得到最終的預測結果。

圖4 LSTNet網絡預測模型Fig.4 LSTNet network prediction model
LSTNet的卷積單元是一個不含池化層的單層卷積神經網絡。學生MOOC 平臺在每一次學習中,往往會在一段較短的時間進行多次學習活動,例如觀看學習視頻、查找資料、參與討論等。因此可以通過卷積單元提取每一時間步長下連續學習行為之間的局部相關性信息,并獲得與輟學相關的高級特征。這里使用前面圖1所設計的學生行為序列X=(x1,x2,…,xt,…,x7K)作為模型輸入。為了加快模型的收斂速度,緩解深層網絡中“梯度消失”的問題,學生行為序列X經卷積層處理后需要進行批量歸一化(batch normalization,BN)才能輸入到ReLU激活函數中[18],如下所示:
其中,W為權重矩陣,*為卷積運算,b為偏置,s、y、D分別為卷積層輸出、批量歸一化輸出和卷積單元的輸出。
卷積單元的輸出D=(d1,d2,…,dq)同時輸入到循環單元和循環跳躍單元用于捕獲學生時間序列學習周期之間的長期模式,其中dq為第q個卷積核的輸出。循環單元由基于門控循環單元(gated recurrent unit,GRU)的循環層構成,學生經常在連續多個時間步長內表現出相似的學習行為,即學生在第二天的學習狀態有很大的可能性與學生前一天的學習狀態相似,因此可通過GRU記憶模塊中的更新門與重置門兩個門函數對學生行為之間的時間信息進行進一步提取。更新門用于控制前一時間步長的狀態信息被帶入到當前時間步長中的程度,權值越大表明前一時間步長的信息帶入越多,學生在相鄰時間步長之下學生狀態越相似,學習存在規律性;重置門用于控制忽略前一時間步長的狀態信息程度,其權值越小說明忽略得越多,學生某些偶然或無關學習行為越多。第t個時間步長下GRU記憶模塊的門函數計算公式如下:
更新門rt:
重置門zt:
更新規則ht:
其中,Wr、Wz、為權重矩陣。
MOOC 平臺的教學視頻和作業測試等課程資料一般每周組織一次,在課程期間學生的行為活動以周為單位分布得非常均勻,因此學生行為序列呈現長期的周期模式。但是GRU和LSTM神經網絡由于“梯度消失”問題很難捕捉這種長期的周期模式,因此LSTNet 通過在循環單元后添加循環跳躍單元來解決這個問題。循環跳躍單元主要是在循環單元上做出修改,即相對于GRU和LSTM,循環跳躍單元中隱含層與一個周期之前時刻的隱含層建立聯系,而不是前一時刻的隱含層,在學生長期的學習行為之間建立聯系,獲取學習行為之間的長期相關性,捕獲其周期規律。如下所示:
更新門rt:
重置門zt:
更新規則ht:
其中,p為跳躍過的循環神經元的數量,由于定義的時間步長為一天,一周為一個周期,這里p=7。隨后使用一個密集層組合循環單元和循環跳躍單元的輸出,將循環單元在第t個時間步長時刻下的輸出定義為,循環跳躍單元從第t-p+1 至t個時間步長時刻的定義為,密集層的輸出可以表示為:
先前研究在訓練輟學預測模型時,通常假設數據集中輟學和未輟學兩類樣本誤分類代價相等,以整體誤差最小化為目標更新模型參數。然而在MOOC輟學預測中輟學樣本相比于未輟學樣本擁有更高的重要性,例如將一個高輟學風險的學生判定為未輟學時,教師則可能不會給予幫助,從而導致學生放棄課程的后果,而將無輟學或低風險的學生判定為輟學時,教師的介入并不會產生消極影響,因此輟學樣本的誤分類代價應比未輟學要高,而不是相等。并且隨著課程的開展,如前面圖2和圖3所描述的動態類別不平衡現象,這時分類誤差主要來自未輟學學生,在這種情況下以整體誤差最小為目標訓練模型,會導致預測模型偏向于未輟學而忽略輟學,造成無法正確識別輟學學生的后果。
代價敏感性學習以代價敏感理論為基礎,將分類的重心放在誤分類代價較高的樣本,以不同類別樣本誤分類總代價最低為優化目標。因此本文引入基于代價敏感性學習的全局均方誤差分離(global mean square error separation,GMSES)算法[19],優化LSTNet 預測模型,將深度學習算法和代價敏感性學習結合,獲取學生行為記錄數據中長短期混合模式的同時,解決數據集中的動態類別不平衡問題。該方法通過分離各個類別的分類誤差,并賦予不同的代價權重,以保證不平衡數據中多數類與少數類的分類精度。GMSES算法使用的損失函數如下:
其中,c為訓練集樣本的數量,ec和yc分別為模型的期望輸出和實際輸出,k為代價權重,當樣本為多數類時(未輟學)k=1,當樣本為少數類時(輟學)k=k*。由于MOOC 數據集的不平衡率IR隨著課程的進行動態變化,k*也應該隨著數據集的變化而擁有不同的最優值。為此,這里可使用梯度下降法來優化k*,使其基于每一批次訓練的幾何平均數(geometric mean,G-mean)和精度(Accuracy)而自適應變化,并使用梯度下降進行優化,如式(15)~(18)所示:
式(15)為k*的損失函數;T為每一批次訓練集少數類最大誤分類代價;H為完整數據集的少數類樣本的最大誤分類代價(這里設為訓練集的不平衡率IR);式(18)為梯度下降算法的更新步驟。偽代碼如算法1所示。


該算法的步驟1~4為訓練前的準備工作,對數據集進行劃分,并將模型的權重ω*、偏置b*和少數類樣本的代價權重k*進行初始化,隨機生成初始值。步驟6~11為LSTNet的迭代訓練過程,在每一次迭代下,首先需要將劃分后的數據集vi依次輸入模型中,隨后基于式(14)的損失函數對模型進行訓練,最后更新模型權重ω*和偏置b*。步驟12~14為少數類樣本代價權重k*的計算過程,每一次模型迭代訓練完成后,需要對權重k*進行計算并更新,直到迭代次數達到上限。
KDD Cup 2015 數據集是教育數據挖掘領域應用最為廣泛的數據集。由于在線教育平臺的盈利性,目前極少有完整并且真實的公開數據集,數據集極其稀缺。因此KDD Cup 2015 數據集有極高的研究和應用價值。該數據集記錄了“學堂在線”2013 年10 月27 日至2014年8月1日期間學生的課程選擇記錄和學習記錄,共有來自39 門課程的79 186 名學生的120 542 條注冊活動日志,每門課程需要長達5周的學習時間。經過對數據集的分析,只有5%~10%的學生會參與論壇,大多數學生沒有任何的論壇行為數據。因此這里不將論壇特征作為預測特征,只采用點擊流數據和作業數據來進行輟學預測。由于同一學生在不同課程之間輟學行為具有相關性[5],為了進一步提升預測精度,將學生在其他課程的行為也作為預測特征。例如預測學生在課程c的輟學情況,將學生在除課程c外的所有課程的點擊流數據和作業數據的平均數、最大值和最小值也作為預測特征。完整的預測特征如表1所示。

表1 第t 個時間步長下學生在課程c 的特征列表Table 1 Feature list of students in course c at t-th time step
實驗采用Anaconda3.50 作為仿真平臺,LSTNet 的輸入為第1.1 節所建立的學生時間序列矩陣,卷積單元為單層的一維卷積,使用100 個卷積核生成100 個特征映射,卷積核大小均為6。循環單元和循環跳躍單元中神經元數目為100,并使用Dropout 函數防止過擬合現象,取值為0.2。模型最終輸出為0~1的數字,表示學生在相應課程輟學的概率。其中大于0.5 則定義為輟學,反之則為未輟學。使用代價敏感性學習訓練模型時,批量大小設置為32,迭代次數設置為200。
本次實驗從KDD Cup 2015數據集中選擇15門課程,每門課程持續時間為5周,即為5個學習周期。在每個學習周期結束后,使用第1.2 節提出的輟學定義對數據集中輟學樣本和未輟學樣本進行更新,并將數據集中的80%的學生數據作為訓練集,其余20%作為測試集,實驗的基線模型為SVM[7]、LR[8]、梯度上升決策樹(gradient boosting decision tree,GBDT)[21]、樸素貝葉斯(naive Bayes,NB)[22]、LSTM[9]、CNN[10]和CLMS-Net[11]。
常規的評價指標一般使用精度和AUC,但在MOOC輟學預測中,數據集的類別不平衡問題使得輟學樣本在一個學習周期內遠少于未輟學樣本,因此輟學樣本對總體的預測精度影響較小,這導致即使將全部學生樣本視為未輟學,模型依然被認為擁有較好的性能。為此,所選用的評價指標需要適用于類別不平衡數據集的特點。本文除了選擇精度和AUC 兩種常用評價指標,并且挑選針對不平衡數據分類性能評估的兩種典型評價指標,分別是F1值和G-mean,如下所示:
其中,TPrate為真正率,表示正類樣本中被正確分類的概率;TNrate為真負率,表示負類樣本中被正確分類的概率;precision為查準率,表示預測為正類的樣本中被正確分類的概率。F1 是基于查準率和真正率的調和平均,用于衡量模型對輟學樣本的分類性能;G-mean結合了輟學樣本和未輟學樣本的分類準確性,用于衡量模型對數據集整體的分類性能。TPrate、TNrate和precision的定義如下:
第一次對比實驗,將基線分為兩類,分別為傳統機器學習算法(traditional machine learning algorithms,TA)和深度學習算法(deep learning algorithms,DL)。傳統機器模型包括SVM、LR、BDT、NB。深度學習算法包括CNN、LSTM 和CLMS-Net。統計傳統機器學習算法和深度學習算法在精度、AUC、F1值和G值的整體表現,并與所提DPSDL 策略進行對比,其中DPSDL-W 表示所提策略不使用代價敏感性學習進行優化。第一次實驗目的是驗證通過捕獲學生行為數據的長短期混合特性能夠提升預測精度。實驗結果如圖5所示。
圖5 顯示了在第一次比較實驗中不同策略精度、AUC、F1值和G值的整體表現。其中DPSDL-W表示所提策略不使用代價敏感性學習。結果表明,在連續時間步長下,以SVM、LR、BDT 和NB 為代表的傳統機器學習整體表現最差,而可以獲取學生學習行為之間依賴關系的深度學習策略和所提的DPSDL-W 策略能獲得比傳統機器學習更高的準確性。在第1 周時,DPSDL-W和深度學習在四種評估標準下的整體表現差距并不大。這是由于此時學生行為記錄只包含一個學習周期的數據,學生行為數據并沒有呈現周期性,導致所提DPSDL策略使用的LSTNet模型的循環單元和循環跳躍單元無法捕捉相鄰學習周期之間的關系,其模型的優勢未得到充分展現。隨著課程的推進,學生行為記錄逐漸包含多個學習周期,所提DPSDL-W 策略性能不斷上升,明顯優于深度學習策略,其精度、AUC、F1 值和G 值比深度學習策略平均提升了5.5%、6.4%、4.9%和6.8%。原因是深度學習算法中的CNN雖然通過滑動卷積核窗口以及池化等方法能夠捕捉時間序列數據中的短期依賴關系,但是難以捕捉長期的周期模式。LSTM和CLMS-Net由于梯度消失問題,無法提取學生行為數據中較為長期的周期模式。而本文所使用的LSTNet 不僅充分發揮了CNN的優勢,捕捉學生行為數據中的短期依賴關系,同時通過循環跳躍層對輸入數據進行維度整理,緩解網絡中的梯度消失現象,以此獲取更為長期的模式和趨勢,并充分利用學生行為數據的周期特性。從以上分析可知,所提策略在不同時間點均取得了優異的性能,因此通過構建長短期學生時間序列,并引入LSTNet 網絡模型能夠解決學生行為數據的長短期混合特性的捕獲問題,提升預測精度。同時也注意到,在課程第3周,所提三種策略的整體表現均有所下降,如第3周的DPSDL-W策略的精度、AUC、F1 值和G 值相比于第2 周分別下降了1.4%、3.5%、0.9%和1.8%。因為此時處于課程中期,學生的學習狀態較為平穩,輟學人數遠少于未輟學人數,使得數據集中類別不平衡問題極為嚴重(正如圖2 所示),從而導致預測性能變差。

圖5 不同類型策略的整體性能Fig.5 Overall performance of different types of strategies
第二次對比實驗是將CNN、LSTM 和CLMS-Net 三種深度學習策略和DPSDL-W 使用代價敏感性學習進一步優化,證明代價敏感性學習可以解決輟學預測中動態類別不平衡問題,達到提升預測精確度的目的。如圖6所示,CS-CNN、CS-LSTM、CS-CLMS-Net為使用代價敏感性學習優化后的深度學習策略,DPSDL 為所提的完整策略。可以看到優化后的三種策略性能均有明顯提升,其中精度平均提升了1.6%,AUC值平均提升了2.2%,F1 值平均提升了1.94%,G 值平均提升了1.91%。尤其在動態類別不平衡問題最嚴重的第3周,性能提升最為明顯,其中四種評估標準分別平均提升了2.3%、3.9%、3.76%、3.1%。而所提完整的DPSDL 策略的性能仍然優于三種深度學習策略,其精度、AUC、F1 值和G值分別提升了1.36%、2.28%、1.38%和1.94%。因此,引入代價敏感性學習可以在原有策略基礎上提升預測性能,達到解決數據集中的動態類別不平衡問題的目的。

圖6 代價敏感性學習性能對比Fig.6 Cost-sensitive learning performance comparison
綜上所述,所提DPSDL 策略通過捕捉學生行為數據中的長短期混合特性和解決類別不平衡問題,提升了在課程不同階段對輟學學生的預測能力,在不同時間點均取得了良好性能。該策略可以幫助教師解決課程不同階段的監控、預測問題,提前預測輟學時間點和有輟學風險的學生,使教師能夠及時采取有針對性的課程設計和向此類學生提供個性化的干預措施提升MOOC保留率,提高學生學習效率與課程質量。并且通過引入代價敏感性學習解決預測中的動態類別不平衡問題,提高模型對輟學者的識別能力,避免對輟學者的錯誤識別導致無法獲得教師的幫助和干預而退出課程的后果。從先前分析可知課程第1周和最后1周對于學生是最具有挑戰的階段,容易導致較高的輟學率。原因為學生在第1周多數處于嘗試狀態,若有課程難度過高、內容不適合等原因,就會使其直接放棄該課程;在課程中期,課程進入相對平穩的階段,多數學生的學習步入正軌,此階段輟學人數較少;而在課程最后1 周,學生面臨期末考試的壓力選擇輟學,也有一些學生由于更關注課程的內容而對成績并不在乎,主動放棄課程。因此在課程第一周教師如果能夠及時對學生進行有針對性的教學和輔導,將有助于學生進入學習平穩階段。而在最后一周,如果能夠采取鼓勵學生參加最終的考核策略,則可以有效降低最終輟學率。
本文針對MOOC學生時間數據混合長期和短期兩種模式以及輟學預測中的類別不平衡問題,提出一種基于深度學習的輟學預測策略。首先從學生學習活動日志中,以一天為時間步長,一周為一個學習周期構建學生時間序列;隨后使用LSTNet網絡作為預測模型,捕捉學生時間序列中每一時間步長下學生行為之間短期的依賴關系以及相鄰學習周期之間長期的模式和趨勢;最后通過基于代價敏感性學習的均方誤差分離算法訓練預測模型,解決數據集中類別不平衡問題。實驗結果表明,所提DPSDL 策略可以有效提升在不同學習周期對輟學高風險學生的預測準確性,從而為教學者及時干預學生、提升MOOC教學質量提供合理的建議。