基于在線教育數據挖掘的個性化學習策略研究

2020-09-02 07:14:46李艷紅樊同科

微型電腦應用 2020年8期

李艷紅樊同科

摘要：

近年來，隨著移動互聯網的快速發展，各種新型的在線學習平臺開始涌現，越來越多的人參與其中。在線平臺中課程豐富，種類繁多，如何選擇課程進行高效學習學習仍然是開放性的問題。通過對在線教育數據進行分析挖掘，構建用戶個性化學習策略的模型。首先通過情感分析模型對課程評分進行打分，形成用戶的喜好矩陣，然后利用推薦算法，給新用戶推薦個性化的課程。實踐結果表明，該方法能在某種程度上幫助用戶進行個性化高效學習。

關鍵詞：

在線教育; 情感分析; 個性化推薦; 數據挖掘

中圖分類號： G 643

文獻標志碼： A

Research on Personalized Learning Strategies Based on

Online Education Data Mining

LI Yanhong， FAN Tongke

（Institute of Technology， Xian International University， Xian， Shanxi 710077， China）

Abstract：

With the rapid development of mobile Internet， various new online learning platforms have emerged， and more and more people are participating. There are a wide variety of courses on the online platform， but how to choose courses for efficient learning is still an open question. This paper builds a model of user personalized learning strategies by analyzing and mining online education data. First， the course scores are scored through the sentiment analysis model to form the user's preference matrix， and then the recommendation algorithm is used to recommend personalized courses to new users. The practical results show that this method can help users to learn personalized and efficient to some extent.

Key words：

online education; sentiment analysis; personalized recommendation; data mining

0引言

隨著移動互聯網的快速發展，涌現了多種多樣的在線學習平臺，類似網易公開課、Coursera等平臺，為人們提供了豐富的教學資源，也吸引了更多了用戶。但由于在線教學平臺豐富多樣，課程資源呈井噴式涌現，這就使人們面臨有效選擇課程資源的問題。同時，由于網絡的開放性和包容性，課程教學質量參差不齊，充斥著各種低質量，內容完全相同的教學資源[1]。并且，人們都有自己的學習進度，如何在已有的學習進度基礎上，有效的“因材施教”式推薦學習資源，從而可以幫助用戶更加高效的學習。基于此，本文通過對在線教育數據進行分析挖掘，構建用戶個性化學習策略的模型。首先通過情感分析模型對課程評分進行打分，形成用戶的喜好矩陣，然后利用推薦算法，給新用戶推薦個性化的課程。研究結果表明，該方法能一定程度上幫助用戶進行個性化高效學習。

在線教育數據挖掘研究，屬于交叉學科研究，內容研究相對開放，國內外很多學者進行了探索。但是較少有將用戶行為數據、課程質量數據和個性化學習策略等信息聯合建模。基于此，本文通過對在線教育數據進行分析挖掘，構建用戶個性化學習策略的模型。首先通過情感分析模型對課程評分進行打分，形成用戶的喜好矩陣，然后利用推薦算法，給新用戶推薦個性化的課程。研究結果表明，該方法能一定程度上幫助用戶進行個性化高效學習。

1數據挖掘和在線教育

數據挖掘經常被人們稱作數據信息勘探、采礦等，主要以數據信息為對象，將現代信息技術手段、模式識別技術、在線統計分析技術、處理技術和和機器學習技術等相互融合實現數據信息更深層次的開發、探究、整合、分析以及處理的過程[2]。在線教育數據挖掘就是數據挖掘在教育領域的應用，指從人們教育及學習過程所產生的數據中自動提取出有價值信息的技巧、工具和研究，這些信息可以為教育者、學習者、管理者和教育研究者等所利用。

在線教育數據的類型，從來源上分類，主要分為用戶信息、課程信息、習題信息、論壇信息、用戶行為信息以及知識圖譜。用戶信息是指用戶個人信息、用戶的成績等信息;課程信息是指課程介紹、課程內容、課程時長等課程本身的信息;習題信息和課程信息類似;論壇信息包含用戶對課程的評價和帖子本身的內容;用戶行為信息是指用戶對課程的評論、用戶選擇的課程、用戶觀看的課程時間等用戶在線教學平臺中產生的行為;知識圖譜是知識點的集合，由自動化和人工標注產生[34]。

基于數據挖掘的在線教育的應用，主要包括以下幾個方面：

（1）知識圖譜的應用研究。從學生學習與教師教學的角度出發，將學生學習與教師教學的知識點進行總結匯總，從而構建知識框架，并對每門課程的知識模塊進行構建，便于學習與授課。

（2）在線教育平臺中的個性化研究。為了更好地為用戶提供服務，從多個數據維度研究個性化推薦服務。

（3）智能化習題訓練研究。通過借助知識圖譜及習題庫階段性地對知識進行鞏固，并根據學生答題的情況挑選出相關知識點，并從習題庫中智能地進行習題提取，便于學生鞏固和加強練習。

（4）學生的多方位評價模型研究。通過利用學生觀看視頻、完成習題及課程討論等行為數據的挖掘整理，能夠對學生的學習狀況進行評價，同時，能夠主動發現學生學習的弱點，從而給教師提供更多的輔助信息，幫助教師有效優化課程，甚至有效改進線下教學流程。

2在線教育個性化推薦模型

用戶對于課程的評論能一定程度上反映用戶對課程的喜好程度。所以本文通過收集用戶和課程對應的評論信息，利用文本分類模型，對課程評論進行打分，以此來構建用戶的喜好矩陣，在此基礎上利用經典的推薦算法，對用戶進行個性化課程的推薦。本文先描述評論打分模型，然后介紹推薦算法，最后在數據集上說明算法的效果。

2.1評論打分模型

用戶對課程評論的結果對于后期個性化推薦具有重要的影響。課程評論，具有文本短小，有效信息較少，傳統的文本分類模型，一般效果不太好[56]。本文通過利用深度學習的算法對評論進行打分，通過借助Word2vector，將短文本信息表示成低維的向量，在此基礎上利用神經網絡模型進行訓練，該方法相對于傳統的方法，可以有效的提高打分模型的準確度和召回率。本文對于評論的打分分為1/1，1表示不喜歡該課程（實際采用0表示不喜歡該課程），1表示喜歡該課程。問題的定義具體如下。

R={r1，r2，…，rn}表示課程評論數據集合，每條課程評論樣本的特征集合用X表示，相應的類別標簽用Y表示：{正面評論，負面評論}。P表示正負面評論的可能概率。P∈[0， 1]。F表示n*m的特征矩陣，n表示樣本的總數，m表示特征的總數|X|，yi表示第i條樣本的預測結果如式（1）。

其中Θ表示分類模型的閾值。實驗過程中該值是0.45。

在問題定義的基礎上，通過設計具體的神經網絡模型來對課程評論進行打分。課程評論打分的深度學習模型，如圖1所示。

該神經網絡，主要分為5個模塊。依次是輸入層、卷積層、池化層、全連接層和輸出層。輸入層是對評論文本進行切詞，利用onehot對文本進行表示。卷積層是在將輸入層的onehot特征，利用embedding方法轉換為低維向量表示，

然后利用不同大小的卷積抽取文本特征[7]。池化層對卷積

層的數據進行歸一化處理，將不同維度的卷積核轉換為相同

維度。全連接層，對池化層的輸出進行線性關系學習，學習更多的文本特征表示。輸出層主要是對樣本進行預測，首先利用ReLu函數對全連接層的線性關系進行非線性變換，然后利用SoftMax函數具體進行分類打分。該網絡結構能夠有效學習短文本的潛在的語義空間，從而有效學習用戶對課程的打分預測。

2.2課程推薦模型

在用戶對課程打分的基礎上，通過收集用戶、課程以及對應評論的關系，來構建用戶的喜好矩陣，在此基礎上利用推薦算法訓練在線課程的個性化學習模型。文本采用協同過濾的推薦算法進行模型訓練和預測。算法的具體流程，如圖2所示。

在協同過濾推薦算法中，用m × n的喜好矩陣表示用戶對課程的喜好程度，一般打分越高表示用戶越喜歡這個課程。0表示沒有選擇該課程。圖2中喜好矩陣的行表示擁護，列表示一門課程，Uij表示用i對課程j的喜好程度。CF算法分為兩個流程：預測和推薦。預測過程主要是預測用戶對沒有選擇課程的可能打分，推薦過程是根據預測階段的結果，推薦用戶最可能喜歡的TopN個課程。

3實驗結果與分析

為使得研究結果具有真實意義，本實驗采用案例分析法，以西安外事學院網絡綜合教學平臺上開展的網絡教學課程為數據來源，采集了自2015年9月到2018年9月平臺可到的用戶信息數據，其中包括55 688名學習者，992門課程。

3.1實驗設置

在實驗中為了與標準數據格式相統一，篩選了記錄數大于20條的用戶，數據源是從隨機篩選出的5500名用戶及992門課程中進行選取，在選取的數據集中，對用戶學習過的課程的進度進行統計，并根據課程學習進度的百分比映射為相應的等級表示用戶對課程的真實反饋。從而對用戶的基本信息進行處理和提取，作為模型輸入的一部分，我們將按照用戶的性別、所屬專業總共提取了25個用戶屬性類別，包括計算機科學與技術、會計、工商管理、電子商務等。從課程信息中，按照網絡綜合平臺對課程的分類，一共選取了45個課程類別。

通過爬蟲程序+人工標注的方法收集數據來進行實驗，其主要包含兩份數據集：課程評論數據集和推薦課程Top 5數據集。DataSet1數據集包含18 121條課程評論信息，通過人工篩選和校準的方式進行標注，課程評論可能存在無效重復的評論信息，為了消除重復的內容，需要進行文本去重，本文認為信息有超過90%的 bigram 匹配，則認為數據是重復的。通過特征選擇，從數據集的多門課程中得到相關的推薦課程數據集DataSet2，其數據集包含1 031個學生的Top 5推薦課程。

3.2評價指標

實驗采用評估分類性能方面的常用評價指標：召回率、準確率[8]。召回率和準確率是分類任務借鑒信息檢索任務中的評價指標。在信息檢索中，通常采用精準率（Precision）和召回率（Recall）來衡量檢索出來的信息的質量。一般將相關文檔稱為為正例（Positive），不相關文檔稱為負例（Negative）。在整個信息檢索過程中[9]，一般會產生四種結果：TP、TN、FP和FN。TP是指搜索引擎正確地檢索到相關文檔;TN是指正確地未檢索到不相關文檔，即將不相關的文檔正確進行過濾了;FP是錯誤地檢索到相關文檔，即將不相關的文檔認為是相關文檔了;FN是錯誤地未檢索到相關文檔，也就是相關文檔沒有被檢索到。對應關系如表1所示。

3.3實驗結果與分析

在訓練數據集 DataSet1采用傳統詞特征+SVM和深度學習改進算法的對比實驗所獲得的效果，如下表2所示：

從上表可以看出，傳統詞特征+SVM算法的分類效果，比本文提出的深度學習方法的分類效果表現稍差，本文通過利用Word2vec的詞向量表示，極大豐富了短文本的語義信息，在此基礎上利用深度網絡結構進行學習，能夠極大提高打分模型的精準度和召回率。

將采用多次隨機分隔數據集，選取學校網絡綜合平臺課程其中的80%打分數據作為訓練集，其它的作為測試集，實驗通過對數據多次計算得到的平均值作為最終結果。

在學生課程評論的喜好矩陣的前提下，推薦算法在DataSet2中的實驗結果如表3所示：

從上表中可以看出，基于課程評論的喜好矩陣基礎上，利用推薦算法構建在線課程的個性化學習模型效果較好，能夠滿足實際需要，從而幫助學生進行個性化高效學習。

4總結

文本首先分析了在線教育存在的問題，并具體介紹了數據挖掘對于在線教育的助益，在此基礎上上提出了基于在線教育數據挖掘的個性化學習模型。首先利用深度學習算法預測用戶對課程的喜好程度，以此來構建用戶的喜好矩陣，然后在此基礎上利用協同過濾算法學習個性化推薦模型，實驗結果表明，基于深度學習的課程評分模型，相較于傳統文本處理模型，有較大提升，同時實驗結果表明，本文提出的個性化學習策略能夠滿足實際需要，能夠有效改進用戶的學習體驗和效率。

參考文獻

[1]

West Darrell M. Big Data for Education： Data Mining， Data Analytics， and Web Dashboards.

Governance Studiesat Brookings [R].Washington： Brookings Institution， 2012：110.

[2]Ensan F， Du WC. A semantic metrics suite for evaluating modular ontologies[J].Information System， 2013，38（5）： 745770.

[3]W. Feng and Jie Tang and Tracy Xiao Liu.Understanding Dropauts in MOOCs[C].The ThirtyThird AAAI Conference on Artifical Intelligence （AAAI19）， pages 517524， Hilton Hawaiian Village， Honolulu， Hawaii， USA， January 27February 1，2019.

[4]Maeve Duggan， Nicole B Ellison.Social Media Update 2014[R].Washington： Pew Research Center， 2015.

[5]Tair M M A， ElHalees A M. Mining educational data to improve students' performance： a case study[J].International Journal of Information， 2012， 2（2）： 140146.

[6]Iyyer M， Manjunatha V， BoydGraber J， et al. Deep unordered composition rivals syntactic methods for text classification[C].Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing：papes 1681—1691， Beijing， China， July 2631， 2015.

[7]Shen T， Zhou T， Long G， et al. Disan： Directional selfattention network for rnn/cnnfree language understanding[C].The ThirtySecond AAAI Conference on Artificial Intelligence：（AAAI—18）， pages 5446—5455， New Orleans， Louisiana USA， February 27， 2018.

[8]Wang M， Zheng X， Yang Y， et al. Collaborative filtering with social exposure： A modular approach to social recommendation[C].The ThirtySecond AAAI Conference on Artificial Intelligence （AAAI18）， pages 2516—2523， New Orleans， Louisiana USA， February 27， 2018.

[9]Mansour Y， Mohri M， Rostamizadeh A. Domain Adaptation with Multiple Sources.[J].Nips， 2008（2）：10411048.

（收稿日期： 2019.05.21）

基金項目：

陜西省教科所十三五規劃項目（SGH18H535）;

陜西省2019年重點研發計劃項目（2019NY055）

作者簡介：

李艷紅（1978），女，碩士，講師，研究方向：大數據、教育技術。

樊同科（1979），男，碩士，副教授，研究方向：數據挖掘。

文章編號：1007757X（2020）08004503