基于降采樣的堆模型預測大型規模網絡課程的學習結果

2018-07-25 11:31:28林菲張展

計算機應用與軟件 2018年7期

林菲張展

(杭州電子科技大學計算機學院浙江杭州 310018)

0 引言

學生表現預測問題PSP(predicting student performance)是教育數據挖掘EDM(education data mining)中一個很重要的課題[1]。隨著互聯網的發展學習的形式發生了巨大變化，慕課又稱大型開放式網絡課程MOOC是一種新型的學習方式，近年來受到了很多關注。在MOOC的背景下PSP問題顯得更加復雜，因為MOOC打破了傳統教育模式中空間、時間和學習年齡的限制，大量的互聯網用戶以不同的目的去學習。傳統的PSP研究并沒有考慮到MOOC場景下學習者表現分布的不平衡問題以及多門課程混合建模時帶來的數據分布干擾問題，例如大多數學習者沒能拿到證書所以預測模型傾向于預測拿不到證書的概率大，不同課程學習者的表現也有很大差別很難用一個模型進行刻畫。

針對上述問題，本文提出了一種基于混合數據的降采樣堆模型來預測MOOC平臺中學習者能否獲得證書。通過對比實驗選出最優的基礎模型，在此基礎上使用隨機降采樣算法克服數據不平衡問題，但是由于傳統隨機降采樣算法有可能丟失重要的訓練樣本而使得模型不穩定，因此采用堆模型的框架來提高數據的利用率并且進一步提升預測的效果。再者，借鑒推薦系統中物品相似度的概念，為MOOC課程建立一個課程相似度指標來分享混合數據集中課程之間的信息，提升了模型預測效果。本文所建立的模型具有高效性、強魯棒性，適合實際應用。

1 相關工作

PSP問題的研究主要分為兩類算法:基于教育心理學的方法(知識軌跡跟蹤)和基于機器學習的方法(決策樹、貝葉斯網絡、支持向量機、神經網絡等)。文獻[2]利用了線性支持向量機結合特征工程以及模型的融合來預測學生成績。但是這種方法需要花費巨大的存儲空間，以及計算資源。文獻[3]提出了知識跟蹤模型。這個模型假設每一種技能的掌握程度由4個部分組成：初始知識、學習率、猜對概率、直接放棄的概率。使用這個模型去預測成績，需要最大期望法EM(Expectation Maximization method)估計這些參數，而且需要很詳細的學生學習日志的記錄。近幾年，矩陣分解法MF(matrix factorization)在該問題中受到很大的關注。文獻[4]將學生的學習表現分為3個維度:學生信息、任務信息和時間屬性，通過MF方法來預測成績。但是MF模型需要大量的日志記錄，并且數據的預處理過程十分復雜。

2 數據

2.1 數據集的介紹

本文使用的數據來自edX公開數據集。數據集包含了60多萬用戶在2012年到2013年參與的16門課程的相關信息，因為考慮到原始數據集過大，所以官方只提供了每個學生在每門課程上所有的行為的聚合信息。數據集共有20個字段，一條記錄代表一個用戶的一門課程的所有相關信息，分別是用戶名、課程id、是否注冊課程、是否瀏覽課程、是否探索過課程、是否獲得證書、來自地區、學歷、年齡、性別、成績、開始注冊日期、最后一次交互日期、活躍的天數、視頻播放次數、學習的章節數、論壇使用次數、數據是否完整。在該數據集中，一個有趣的現象是大量的學習者是無法拿到證書的，如圖1所示。

圖1從每一門課程的角度反應出大量學習者是沒有拿到證書的，綜合統計所有課程中有證書的學習者只占到了4.6%。這使得建模任務變得更加困難，因為模型會傾向于預測學習者拿不到證書。

2.2 數據的處理

異常值和缺失值的處理在建模過程中十分重要，會直接影響到后面的預測結果。例如，很多用戶不愿意提供正確的性別和年齡信息和學歷信息，甚至有時他們會胡亂填寫，在模型中這將會是一個很大的干擾。本文考慮使用以下的方法對這些異常和缺失進行處理：

1) 刪除官方標記為不完整的記錄。

2) 將關鍵字段缺失的記錄刪除，比如最后一次交互的日期。在實驗中需要用到這個字段劃分訓練集和測試集。

3) 利用可信的人口統計學信息，以及課程信息恢復性別、年齡和學歷的異常值。以年齡字段來說，具體的方法如下所示：

(1)

式(1)表示在知道學歷和性別的前提下，利用同一堂課course(i)中與i相同學歷LoE(i)與性別gender(i)的人的平均年齡插補空值。如果不知道學歷，那么可以只用性別信息：

(2)

如果學歷和性別都不知道，可以使用參加課程的所用人的平均年齡來代替：

(3)

通過上述方法，最大程度的保留的可用的字段，修正了數據的分布，為模型提供了可靠的數據。

3 模型的建立

3.1 問題的描述

本文的預測任務是一個二分類任務，要求將學生最后分成兩類(能拿到證書的和不能拿到證書的)。模型由兩部分組成：輸入(自變量，X)和輸出(因變量，Y)。X=(x1,x2,…,xn)，其中每一個元素都是一個列向量代表一個影響結果的因素(特征)。分類模型就好比是一個映射函數Y=F(X)，對于一個模型的輸出結果Yi，只由和它對應的自變量Xi來決定，其中輸出1為有證書，0為沒有證書。如圖2所示是整個模型建立過程。

圖2 訓練的整體流程

3.2 基礎模型

最終的預測模型是一個融合模型，要建立在基礎模型之上，所以基礎模型的好壞直接影響到最終預測模型的好壞。本文通過對比實驗得到最好的基礎模型，所考慮的基礎模型有：邏輯回歸(LR)、支持向量機(SVM)、隨機森林(RF)、K近鄰(KNN)、樸素貝葉斯(NB)、梯度提升樹(GBDT)，還有一個比較新的模型eXtreme Gradient Boosting(XGBoost)，最后本文選擇了XGBoost作為基礎模型。具體的實驗結果見4.2節。下面將簡單介紹這個模型以及它的原理，并且說明它比一般樹模型好的原因。

在2016年,陳天奇提出了XGBoost模型[5]，并在KDD大賽上利用該模型獲得了冠軍。現在很多數據比賽都流行使用XGBoost模型。 XGBoost是對傳統梯度提升樹的改進，在特征粒度上實現了并行的算法，又加入了正則化和高效的特征搜索算法，使得模型的速度和性能都非常令人滿意。而且對于一些缺失的特征，XGBoost模型可以自動將缺失值歸類到損失函數最小的分支中，而且對于一些不平衡數據集，樹模型本身就比較占優勢。

對于一個給定n個樣本，包含m個特征的訓練集D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R)，模型的輸出定義為:

(4)

可以看到上面的樹模型是對回歸問題提出的,這時候的輸出值是一個連續的變量。根據Logit的思想，通過simgoid函數映射到0-1的范圍。如公式所示：

(5)

其中,一個屬于一個類的概率可以這樣表示：

(6)

式(6)中的概率服從邏輯分布，當輸出概率p>0.5時，則認為發生這件事，那么在這里就表示拿到了證書，最后的輸出值就是1，反之則輸出0。為了學習上面的模型，要求下面目標函數達到最小值。

(7)

(8)

如果將一個結構q代入式(8)中，目標函數可以表示為以下形式：

(9)

XGBoost使用特征不存度(基尼系數)作為特征的評價標準，如果一個特征的某個切分點的不存度是當前所有特征的切分點中最低的，那么就考慮在這個位置對該特征進行子樹分裂。可見尋找最佳切分位置是一個NP-hard問題，如果特征空間很大將消耗非常多的時間。XGBoost使用一種帶有排序的貪婪算法去找近似最優的劃分點，而且該算法可以并行運算，所以XGBoost比一般的梯度提升樹運算更快同時還具備了梯度提升樹良好的泛化能力。

3.3 降采樣的堆模型

在MOOC場景中，學習者的行為不同于傳統的電商和購物場景，因為學習者的行為更加復雜。也正是因為這種復雜而又豐富的行為造成了數據集中的不平衡問題。傳統的隨機降采樣算法也可以對不平衡問題進行修正，但是隨機降采樣在訓練模型的時候因為使用了自助(bootstrap)采樣可能在訓練模型的時候會丟失一部分重要的訓練樣本，導致模型的效果波動很大。為了解決這個問題，本文提出堆模型的框架結合隨機降采樣法去彌補降采樣的缺點。堆模型的思想和神經網絡類似，堆模型將數據的預測結果作為另一個模型輸入再進行預測，所以類似于隱藏層。堆模型是一個網絡結構，層數可以自己定義但一般不會太深，不然很難調參數。在文獻[6]中也提到堆模型在大多數的場景中比貝葉斯均值融合(隨機采樣就是一種均值融合的方法)具有更好的魯棒性能。偽代碼1描述了本文所使用的隨機降采樣SUS(stochastic under-sampling)的方法。

偽代碼1 隨機降采樣(SUS)

1. Begin:

2. 輸入：訓練集包D={N,M}含了兩類樣本多數類N和少數類M，以及自助法采樣的次數T。

3. Fori=1,…,Tdo

5. End for

7. End

堆模型先從初始數據集中訓練初級學習器(基礎模型)，然后生成一個新的數據集用于次級學習器。在這個新的數據集中，初級學習器的輸出被當作樣例輸入特征。而初始的樣本標記仍然被作為樣例標記。在這里初級學習器和次級學習器可以相同也可以不同，本文選用的所有學習器在3.2節中有介紹。堆模型算法見偽代碼2所示。

偽代碼2 模型算法

1. Begin:

2. 模型的輸入：訓練集包D含樣本個數為M，初級學習算法f1,f2,…,ft。次級學習算法F，初始化次級訓練集D′=φ。

3. Fort=1,…,Tdo

4. 訓練每一個次級學習器，得到模型ht=ft(D)。

5. End for

6. Fori=1,…,Mdo

7. Fort=1,…,Tdo

8. 對于每個樣本xi都用ht來預測得到中間輸出結果zit=ht(xi)。

9. End for

10. 擴大次級訓練集D′=D′∪((zi1,zi2,…,ziT),yi)。

11. End for

12. 次級學習器訓練新的訓練集得到h′=F(D′)最后得到結果:

H(X)=h′(h1(x),h2(x),…,hT(x))

13. End

在訓練階段，次級訓練集是利用初級學習器產生的，若直接使用初集學習器的訓練集來產生次級學習器的訓練集過擬合風險比較大。因此，本文方法就在堆模型的交叉驗證訓練次級模型的過程中加入隨機降采樣，保證了所用訓練集樣本都被用到，又防止過擬合。本文將這種方法稱為SSUS，該方法如圖3所示。

圖3 隨機降采樣的堆融合模型SUSS

3.4 特征的選擇

特征的選擇影響到最后模型預測的效果，在建模的過程中屬于比較關鍵的一步，本文的特征變量就是前面介紹的模型的輸入X，其中每一列代表一個特征。特征選擇需要一定的技巧，根據經驗和常識可以先提取出一部分有用的特征，然后通過模型的預測結果不斷地調整，直到找到比較好的特征集合。基礎的特征劃分為3部分，學習者屬性特征Xl，課程屬性特征Xc，和學習者-課程的活動特征Xlc。表1列出了本文所使用的學習者屬性特征。表2列出了本文所使用的課程屬性特征。表3列出了本文所使用的學習者-課程活動特征。

表1 學習者屬性特征

表2 課程屬性特征

表3 學習者-課程活動特征

表1中學習者的年齡跨度很大，而且年齡層次差不多的人可能有相似的特征，所以本文將年齡分段為0到10歲、11到20歲、21到30歲、31到40歲、41到50歲以及50歲以上，做成了標簽特征，更具魯棒性。

表2和表3中有些特征雖然是同一個含義，但是來自不同的課程，特征的范圍就會不同。比如用戶完成的課程的章節數，每一門課程章節數量是不同的，所以需要歸一化處理，還有一些特征比如標簽特征在邏輯回歸中需要獨特編碼。

本文使用了推薦系統的物品相似度來刻畫課程之間的聯系。當使用所有課程的數據來訓練模型可能發生不同分布數據規律的干擾導致模型性能下降。如果課程之間的信息可以有效地共享，那么模型的表達能力將進一步增強。文獻[7]對推薦系統中物品相似度的定義，本文的課程相似度可以用下面的公式來表示，稱為基礎相似度(sim1)：

(10)

式中：Wij表示課程i對課程的相似度j；N(i)表示學習了課程i的學習者集合；N(j)表示學習了課程j的學習者集合。式(10)表示課程i與課程jj相似是因為喜歡課程ii的學習者也喜歡課程j。物品相似度受到長尾分布的影響[8]，越是熱門的物品越是有人喜歡，越是冷門就越少人喜歡。MOOC課程和學習者可能也存在類似規律，比如有些學習者興趣特別廣泛，參加的課程非常多，但是這些學習者對相似度的貢獻不大，因為他們體現不出課程的區別；還有一種情況是熱門的課程之間擁有大量相同的學習者，導致課程相似度異常偏高。于是，本文又提出了兩種帶有懲罰的課程相似度，來削弱上面兩種情況對課程相似度的不良影響。

針對積極學習者的懲罰(sim2)，加入分母項N(j)，如下式所示：

(11)

針對熱門課程和積極學習者的懲罰(sim3)，如下式所示:

(12)

式(11)中學習者參加的課程越多則分母越大，會降低相似度權重。式(12)中N(u)代表學習課程u的人數，N(u)越大分子也會越小，也會降低相似度權重。通過式(10)-式(12)，計算得到課程相似度特征Xcc，最后，將上述特征拼接到一起形成特征變量X，如下式所示：

X=(Xl,Xc,Xlc,Xcc)

(13)

3.5 評價指標

4 實驗結果與分析

4.1 實驗的設置

本文將訓練集按照時間線進行劃分，一是符合MOOC平臺數據產生的場景，二是符合預測時候的客觀邏輯用已存在的數據預測未知的數據。特征變量X通過學習者最后一次學習的日期劃分為3個訓練集和3個測試集(測試集1:2013-03-01到2013-04-01，測試集2：2013-05-01到2013-06-01，測試集3：2013-08-01到2013-09-01，訓練集為切分點之前的數據)。通過對照實驗尋找最優的模型，防止一些偶然因素的影響，每次實驗都跑10次取平均值。

4.2 基礎模型的比較

從表4中可以發現，效果最好的基礎模型為XGBoost。樹模型(RF、GBDT、XGBoost)的表現比較讓人滿意對不平衡的修正比較強，而其他的模型表現并不是非常好。在實驗中發現了一個有趣的現象，就是隨著時間的推移R值(召回率)下降的非常快，導致整體的F1下降。這里反映出MOOC平臺現有的一個問題就是，大量的學習者越晚參加課程就越不容易拿到證書。此外，文獻[9]指出edX的課程中存在這樣一種現象：有部分學習者是積極的學習者按照常理完全有能力拿到證書，但是這些人放棄了考試或是不以獲得證書為目的去學習，反之也有這樣一群人幾乎沒有學習就能拿到證書。他們的這些行為在數據中就以離群點的形式表現出來并且這些離群點對模型的結果有很大影響，所以一些對異常值和不平衡數據敏感的算法表現不佳。

表4 基礎模型的對比

續表4

4.3 課程相似度效果的分析

為了說明課程相似度的效果，表1中的所用的特征集合并沒有使用課程相似度。本節在4.2節選出的最優模型XGBoost的基礎上加入了課程相似度，并且比較3種課程相似的差異。結果如表5所示。

表5 課程相似度的作用

表5比較了不同相似度的效果，帶有積極學習者懲罰的課程相似度(sim2)的效果最好，從整體上看3個相似度都提升了模型的P值和R值，并且對R值的提升大于對P值的提升；此外，隨著時間的推移學習者數量增加，課程相似度對F1的提升效果越來越明顯。但是帶有熱門課程懲罰的相似度表現不是很突出，一個可能的解釋：雖然數據集中學習者很多，但是包含的課程太少只有16門，所以很難體現出熱門課程對課程相似度的影響。

4.4 堆模型的比較

本文使用了降采樣的堆融合模型作為最終模型，選用的參數為：基礎模型XGBoost，降采樣子集數量T=15～20，采樣比r=10～20，并且利用了10-折疊訓練集作為堆模型的交叉驗證方法。為了證明本文的方法是有效的，對比了傳統的隨機降采樣算法和最經典的改進降采樣算法EE(EasyEnsemble)。最后的結果如表6所示。

表6 融合模型的比較

續表6

表6和圖4比較了不同融合模型的效果，SSUS-XGB是最出色的融合模型，可以發現SSUS主要提升了模型的R，但是會導致P值略微下降。SUS算法對基礎模型效果也有所提升，但是不穩定，這也反應出了降采樣的缺點會丟失重要的訓練樣本，導致P值大幅下滑，并且這個結果和文獻[6]的結論一致，堆模型比均值融合算法更加魯棒。對于經典的降采樣模型EE來說，在MOOC這種復雜場景下表現并不是很好，因為EE模型中Adaboost學習器對一些離群點是異常敏感的，所以模型的效果會受到很大的干擾。綜合比較各種模型，本文提出的SSUS模型更有魯棒性，能更好地符合MOOC這種復雜的場景。在時間效率上使用XGBoost模型會更快而且效果更好，本文的實驗環境是4個Intel Core i5-6500 CPU和8 GB RAM，SSUS-XGB訓練開銷約為10 min，而其他SSUS模型需要30 min甚至更久。

圖4 基于XGBoost模型預測結果的F1值比較

5 結語

本文提出了一種降采樣堆模型去解決MOOC平臺中學習者證書的預測，該模型克服了數據集中的不平衡問題，同時避免了降采樣算法丟失重要訓練樣本的缺點，通過比對實驗證明了該模型的可靠性和穩定性。為了擴充樣本空間以及節省建模的成本，本文提出了課程相似度的指標，成功傳遞了數據間的信息并且提升了模型的精度。本文選擇較新的XGBoost模型來處理二分類問題，不但節省了大量的時間還具有較好的預測效果。不過由于數據集的限制，熱門課程對預測結果的影響還無法確定，需要搜集更多的數據來驗證。此外，數據處理也是教育數據挖掘一個很重要的研究課題，但是目前的相關研究很少，而本文對缺失值和異常值采取了較為穩健的處理方式，這個還需要后面的研究繼續探索。