林佳慧 周寶建 廈門大學嘉庚學院管理學院
慕課即大型開放式網絡課程,是目前最熱門的線上學習方式之一。目前全球范圍內的MOOC用戶已經超過1億,全球有超過900所大學提供約有11 400個慕課課程。2020年是特許的一年,一場新冠疫情的來臨,讓所有人的生活都發生了巨大的變化,為了在這一特殊時期也可以順利完成教學任務,開啟了線上代替線下的教學模式,不少同學都開啟了“宅”在家中、網絡上課的模式,一時間在線教育用戶得到了快速增長。
伴隨國內疫情的逐漸好轉,國外的疫情狀況得到了強有力的控制,多地已有序組織開學復課。疫情之后,紅極一時的網上在線教育平臺,應該怎樣定位自己呢?
中國互聯網絡信息中心于2020年4月發布了《中國互聯網絡發展狀況統計報告》(第45次),報告統計,截至2020年3月,我國已注冊在線教育用戶數量已達4.23億,與2019年相比,用戶量增長了2.22億,在全部網民總量中占比46.8%。
MOOC (Massive Open Online Courses),本文將稱之為慕課,是教學模式借助互聯網發展的一種新型教學模式,具有課程免費、內容豐富、學習自由等特點。在過去的六年里,MOOC平臺不斷涌現,國內外著名高校紛紛在慕課在線學習平臺開設精品課程,越來越多的學生群體通過慕課在線平臺學習。[1]
在文獻調查前期,通過對慕課研究相關文獻調查分析發現,現今對于慕課在線學習平臺的相關國內外研究概括起來大概為三個方面:首先,在分析用戶學習行為發現規律的基礎上,優化慕課在線學習平臺的教學活動;[2]其次,采用數理統計方法分析學習行為繼而對慕課在線學習平臺現有措施提出意見建議;[3]三是通過建立模型尋找學習行為與學習效果之間的關系并對學習效果進行預測。但目前針對學習行為的退課預測研究較少,慕課較高的退課率嚴重影響了其作為在線學習平臺的持續發展,本文利用神經網絡、C5.0決策樹、二元Logistic回歸模型對學員的退課進行預測,助力慕課在線平臺的可持續發展。
本文的數據來源主要是“學堂在線”的MOOC平臺的2017年5月1日到2018年7月1日的大部分學習用戶的選課記錄和學習行為記錄。其中包括完成課后作業、觀看課程視頻、參與課程論壇討論、訪問課程內容和訪問課程其它部分內容。
針對數據集當中出現的若干問題,進行噪音處理。查找不規則的數值,例如空白、極端異常數值。對空白的數據進行插補處理,對極端異常數值,采取刪除處理。
為了更加直觀地了解已經獲取的數據,首先將數據區分為退課者和未退課者兩種類型,并分別觀察他們的各種學習行為的平均次數,這五種學習行為分別是:完成課后作業(problem)、觀看課程視頻(video)、訪問課程內容(wiki)、參與課程論壇討論(discussion)和訪問課程其他部分(navigation)完成課后作業。由表1可知,這五種學習行為都是未退課者比退課者的次數更多,說明學習行為與用戶是否選擇退課之間具有關聯性,利用這五個因素來進行MOOC的退課預測是可行的。

表1 2017—2018年MOOC用戶學習行為退課與未退課者平均次數比較
對用戶使用慕課學習行為的五個維度數據進行置信效度分析和因子分析,并對相關數據進行精簡和降維。
計算得到KMO值為0.946,Bartlett值為2445.352,自由度為45,P值為0.000,說明問卷總體效度居于較高且可接受范圍內,也就是說數據適合做因子分析。同時,根據總方差解釋圖,當取到三個因子的時候,累計方差已經達到85.727%>85%,可以認為該解釋程度已經達到所需的標準,參見表2。

表2 KMO和巴特利特檢驗
綜上所述,將五項測量指標轉化為得分均值,以因子載荷為權重,選擇“最大方差法”,縮減成三個因子影響程度指數,得到以下成分矩陣:

表3 旋轉后的因子成分矩陣
為了探究利用慕課學習因素的重要程度,在了解用戶日后是否繼續上課的基礎上,對其進行分析。考慮到用戶是否愿意繼續上課是一個定性二分變量,如果直接套用回歸方程模型,則可能出現許多不嚴謹的結論。通過線性回歸分析,可以使得對P值的回歸預測具有實際意義。為確保模型的準確率,使用神經網絡、C5.0決策樹、二元Logistic回歸三個模型對預測正確率進行比較,從而挑選出預測率最高的模型,對其因素的重要程度進行分析。利用SPSSModeler軟件進行分析,分析方法如下圖所示。

圖1 模型比較方法
BP神經網絡模型主要由三層組成,分別是輸入層、隱藏層及輸出層。隨著網絡層次的增加,會降低誤差,加強網絡的表現力,但網絡結構的龐大也會增加訓練的時長。一般情況下,三個層級的神經網絡模型能夠獲得較好的結果。
對于BP神經網絡的訓練以及測試同樣將進行因子分析篩選以后得到的因子作為分析的樣本。其中選取80%的數據部分作為訓練基,用來訓練模型。另外的20%則作為檢測基用來對該模型的樣本進行檢測。
最后得出各因子的重要程度如表4所示,可以看到,在神經網絡模型中,信息因子相較于其他兩個因子的重要程度較高,達到了0.3667。

表4 神經網絡模型各變量重要度
C5.0決策樹是一種經典的預測模型,是決策樹模型中的經典算法。它是一種映射關系主要針對于對象屬性和對象值,決策樹的分支代表著對象并且是符合節點條件的,而葉子節點則代表則代表對象所屬的一些預測結果,模型的建立需要特征選擇、決策樹的生成和修剪三個步驟。[5]
C5.0算法對C4.5算法的進一步完善,在大數據相關問題處理中C5.0更為合適,而且它能增加強大的Boosting算法提升分類精度。[6]

圖2 決策樹模型結果
在C5.0決策樹模型中,信息因子仍然是重要性最高的變量,達到了0.39。
對于Logistic回歸分析,要關注回歸系數。一般來說,50%—80%的決定系數為相當高的回歸決定系數。[4]模型中的回歸系數達到了47.2%與64.6%,因而可認為該模型的預測效果較好。

表5 回歸系數
表6為各個變量的偏回歸系數及其標準誤差、Wald卡方、自由度和P值與OR值。一般來說,P值小于0.05可以認為對因變量有影響。可以看到,三個因子的顯著性均為0.000,遠小于0.05,說明三個因子對因變量均有顯著影響。同時根據B與Exp(B)的數值來看,信息因子相較于其他兩個因子來看更為重要一些。其回歸方程為:

表6 二元Logistic模型各變量重要度
Logit(P)=0.538+2.125x1+2.086x2+2.041x3
如表7所示,神經網絡模型(即$N)的預測正確率為83.37%,C5.0決策樹模型(即$C)的預測正確率為86.63%,二元Logistic回歸(即$L)的模型正確率為86.14%。由此可以看到,C5.0決策樹模型的預測效果相對來說最好。

表7 各模型預測正確率比較
由于三個模型間的差異性較小,因此依舊分別對三個變量進行分析。
總的來說,通過三個模型的分析與對比可以發現,信息因子相比于其他兩個因子,對是否繼續選課影響更大。
通過研究用戶使用慕課學習時的五種學習行為,利用因子分析將其降維成信息因子,功能因子和社交因子。根據這個結果,采用預測模型進行預測,結果顯示信息因子對慕課用戶是否退課影響最大。
經過模型數據分析發現,三個因子重,信息因子對于慕課在線學習平臺用戶的退課行為影響是最大的,從降低慕課在線學習平臺用戶退課行為的角度來看,應該重點關注觀看課程視頻和完成課后作業這兩種行為。可以發現,若想完整的完成一門課程的學習,不僅要觀看課程視頻,還需要完成課后作業,及相關參考科目的學習。為了有效降低課程的退課率,有效完成課程學習,慕課在線學習平臺可以針對這對這兩種學習行為重點展開措施,例如針對一些學員要開展教學干預,如學生觀看課程視頻次數少,完成作業次數不達標等都可以成為干預對象。[7]
當教師設置MOOC課程時,應著重考慮視頻的設置、組織,以及作業集布置、評分等環節。
針對于高校與慕課在線平臺合作課程的狀況,則可以適當建設相關制度規范進行干預,例如建立相關學生管理誠信檔案,對于有過于頻繁以及惡意退課的同學進行警告處理。
修改慕課在線學習平臺的評價體系,提高觀看課程時評以及完成課后作業行為次數對于最終評價的影響程度,激勵更多同學提高積極學習行為,降低退課頻率。
對慕課用戶的五種學習行為進行因子分析,降維得到信息因子、功能因子和社交因子三個公共因子。在此基礎上,通過利用神經網絡算法、C5.0決策樹、二元線性回歸模型進行模型的建立以及預測研究,得到信息因子對慕課退課行為影響最大。因此,如何提高學生觀看課程視頻和完成課后作業的次數,成為慕課改進措施的重要切入點。■