陳茂 耿江濤 胡翌丹 余雪蓮

【摘? 要】在高等教育領域,數據挖掘與分析技術能夠改善大學生的學習過程和學習結果。隨著人工智能研究的深入,教育數據挖掘(EDM)和學習分析(LA)技術在近年也得到了長足的發展。這些技術也直接促進了教育領域4項基于計算機支持的應用研究:學習分析、預測分析、行為分析和可視化分析。研究表明,特定的EDM和LA技術可以提供特定應用研究的最佳方法。因此人工智能時代在高等教育中應用EDM和LA有助于制定以學生為中心的策略,并達到教育教學持續改進的目的。
【關鍵詞】教育數據挖掘;學習分析;數據分析;高等教育
引言
隨著人工智能技術研究的深入,以及互聯網在教育中的使用,特別是2020年為抗擊新冠疫情,全球都開啟了大規模在線教學。這些在線教學系統一方面為順利開展在線教學提供了運作基礎和各類教學數據,另一方面也創造了大量存儲教育數據的大規模數據庫。這些基于網絡的教育系統正以指數級的速度增長,也造成以不同的格式和不同的粒度級別存儲來自多個來源的大量潛在數據。同樣,新型的教育環境,如混合學習(Blend Learning, BL)、虛擬/增強環境、移動/泛在學習,特別是游戲學習等,也收集了大量關于學生學習的數據。這些系統都產生了大量具有較高教育價值的信息,但人工分析是不可能的。因此,需要采用人工智能技術來自動分析這類數據的工具,因為所有這些信息提供了一個教育數據的金礦,可以探索和利用這些數據來了解學生是如何學習的。事實上,如今高等教育機構面臨的最大挑戰之一就是教育數據的指數級增長,以及如何將這些大數據轉化為有利于學生、教師和管理者的新知識。
美國為了更好地促進大數據在教育領域的應用,集中領域專家進行研究,并在2012年由美國教育部 (U.S. Department of Education)發布藍皮書《通過教育數據挖掘和學習分析促進教與學》 (Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics) ,指出教育領域中大數據的應用主要有教育數據挖掘 (Educational Data Mining, EDM) 和學習分析(Learning Analytics, LA) 兩大研究方向,以及與之相應的研究目標和研究方法。
·教育數據挖掘EDM:致力于開發來自教育環境的獨特類型數據的方法。也可以定義為將數據挖掘(Data Mining, DM)技術應用于教育環境特定類型的數據集,以解決重要的教育問題。
·學習分析LA:可定義為測量、收集、分析和報告關于學習者及其背景的數據,以了解和優化學習及其發生的環境。該定義涉及三個關鍵要素:數據、分析和行動。
這兩種對教育研究的方向有著顯著的重疊:都關注教育數據,并且都有著強化教育實踐的共同目標。但也存在差異:一方面,LA關注教育挑戰,EDM關注技術挑戰。LA專注于數據驅動的決策,并通過應用已知的預測模型整合學習的技術和社會/教學層面。另一方面,EDM通常在數據中尋找新的模式并開發新的算法和模型。
EDM和LA是跨學科領域,包括但不限于信息檢索、推薦系統、可視化數據分析、領域驅動數據挖掘、社會網絡分析、心理教育學、認知心理學、心理測量學等。事實上,它們可以由三個主要領域組成:計算機科學、教育和統計學。這三個領域的交叉也形成了與EDM和LA密切相關的其他子區域,如計算機教育(Computer Based Education, CBE)、數據挖掘DM和機器學習(Machine Learning, ML)以及教育統計(Educational Statistics, ES)。
1.高教領域EDA/LA技術
一般來說,現代數據挖掘技術EDA在教育數據中尋找新的模式并開發新的算法或新的模型,而學習分析LA在教學系統中應用已知的預測模型。通過分析不同的數據挖掘技術在高等教育領域研究中的應用,目前EDA/LA在應用中主要采用了以下的數據挖掘技術:
分類(26.25%)、聚類(21.25%)、可視化數據挖掘(15%)、統計學(14.25%)、關聯規則挖掘(14%)、回歸(10.25%)、順序模式挖掘(6.50%)、文本挖掘(4.75%)等。
1.1分類
分類是高等教育中最常用的數據挖掘技術。這是一個有監督的學習過程,將數據映射到不同的預定義類中。分類的概念被用于預測學生的表現、成績、預測/防止學生輟學掛科、在線課程/在線學習中發現問題學生的行為。分類主要用于根據從學生活動中收集的使用模式來確定學習管理系統(Learning Management System, LMS)中的行為模式。分類技術可以通過準確預測學生在特定課程中的最終成績,幫助提高高等教育系統的質量。這包括:①檢查參與程度,以防止學生從在線學習課程中退學;②評估學生對學習活動的參與程度;③持續評估學生的學習表現;④識別學習動機弱的學生;⑤確定學生是否會完成作業;以及⑥評估學生與在線學習資源的互動。
此外,分類還用于提高學習過程的效率和有效性,并為高等教育系統提供一些指導方針,從而改進整個決策過程。基于此,分類的使用將使決策者能夠更靈活地評估一組學生的表現和行為,從而確定他們的特定知識或能力不適合該任務,小組中的個別成員在學習任務中的表現如何。因此,該技術可以有效地為學生提供以學業支持為形式的早期干預措施,特別是激勵那些在特定活動或課堂上表現不佳的學生,并準確地測量積極和消極的反應,從而形成分類模型的效率。
1.2聚類
聚類是對相似類對象的識別或分組。它的目的是篩選大數據集,以便以新的關系、模式或集群的形式建立有用的推論,以供決策使用。在高等教育中使用聚類主要是為了支持學生在不同學習情境下的互動,向相似的用戶推薦活動和資源,根據所訪問頁面的內容及其遍歷路徑模式(技能和知識),找到具有相似學習特征的學生群體,考察學生在學習過程中的成就和參與度。這些活動可以幫助教育決策者在早期階段識別潛在的輟學者,并解決將新生誤分配到他們不感興趣的課程上的問題。此外,聚類可以使教育工作者從學習管理系統LMS日志中預測學生的學習結果,識別不受歡迎的學生行為,并通過監控學生之間的集體互動,來支持教師在合作學習模式中,以評估學生的表現。聚類技術還用于支持學生獲得各種科學技能,發現在線教學Moodle(Modular Object-Oriented Dynamic Learning Environment)系統中的共同學習路線,并了解學生個體之間的協作探究過程。總之,在高等教育中,根據學生的學習特點、個人的學習風格偏好、學習成績和行為互動,聚類仍然是一種有效的分組方法。它還可以用來探索協作學習模式,提高在學率,從而使學校能夠在早期識別出存在學習風險學生。
1.3可視化數據挖掘
可視化數據挖掘將傳統的數據挖掘方法與數據可視化工具相結合,以可視化方式展現模式[。通常用于探索性數據分析。在高等教育中,圖形化的視覺數據挖掘減少了從在線教育系統收集的復雜和多維的學生跟蹤數據,這將幫助教師有效地分析學習過程的不同方面。目前已經使用視覺挖掘技術來促進對學生學習活動的監控,并評估他們在與學習系統交互過程中的行為、參與和表現。視覺數據挖掘也被應用于高等教育,以幫助教師(參與在線學習)了解學生如何在學習管理系統LMS環境中工作,并發現學生在學習活動中的行為和參與度。此外,視覺數據挖掘可以幫助教師獲得關于學生學習的進一步反饋,以評估學習任務和所提供教學資源的復雜性。應用可視化數據挖掘還可以繪制學習者對課程材料的在線參與度,教師可以操縱學生活動的圖形化表示,這使教師能更好地了解遠程課堂上正在發生的事情及底層邏輯。視覺數據挖掘技術可以用來呈現不同的教育數據,通過圖表,教師和教育決策者能夠探索和深入了解學生的表現,從而提供適當的支持。
1.4統計
統計學是一種數學方法,側重于使用統計軟件收集、分析、解釋和呈現數據。它可以根據使用模式(包括訪問頻率、獲取學習材料和參與討論論壇)評估對指導學習策略開發至關重要的相關學習行為,幫助教師了解如何使用web服務器日志信息進行形成性評價。教師可以使用這些技巧來了解學生參與在線活動與學習成果之間的聯系。
統計技術在高等教育中的應用廣泛地與以下預測相關:①學生學習成效;②自主學習和在線課程成績;③學生動機;④學生在大學中的退學率;以及⑤學生的畢業率。這些預測的結果可能會為決策者提供新的知識,用于解決各種學習問題。這有助于教師和課程設計者對學生在學習過程中的行為有全面的了解。
1.5關聯規則
關聯規則是一種挖掘技術,用于發現特定輸入模式的變量和屬性組之間的關系。用于根據學生的特點和能力發現學習規則,以使課件更有效。這是由于教師能夠分析學生的學習模式并更有效地組織課程材料。此外,它還可用于促進協作學習,提供反饋以支持教師的決策,識別不尋常的學習模式,根據在網絡學習環境中從記錄數據中提取的特征預測學生的表現(最終成績),學業表現的監測和評估(測試和考試成績),并根據學習者的訪問歷史推薦學習材料。研究表明,使用這些技術有助于構建概念圖,使教師能夠克服學習者的某些學習障礙和誤解。
關聯規則技術也被用于規劃策略,以了解課程修訂是否會影響學生在不同環境下的學習,并根據學生的成功率和失敗率,決定如何提高學校提供的學習管理系統LMS服務的質量。關聯規則識別學生的行為、學習材料和表現差異特征之間的關系。
1.6回歸
回歸是一種預測技術,用于確定因變量(目標域)與一個或多個獨立變量之間的關系,以及確定這些關系如何對個體的學習結果做出貢獻。回歸在高等教育中的一些常見用途包括預測學生的表現、行為、知識和分數或成績。此外,教師可以利用這一技術提出有效的策略,以加強學生在學習過程中的積極參與,并根據學生的能力水平開發在線學習的學習者模型。它也可以用來調查大學生的特點和經歷如何影響他們對學習管理系統LMS的滿意度,以避免學生輟學。
回歸技術還可以通過構建線性回歸模型來確定提高教學和課程質量的關鍵因素,幫助預測大學課程的成功率。回歸可以像分類技術一樣有效地用于預測目的。然而,在分類中,預測值是分類任務,而在回歸中,它是一個數值或連續任務。基于這個原因,EDM研究者經常使用一些回歸技術來預測學生的學習成績,并識別出可以預測大學課程成敗的變量。
1.7順序模式
順序模式主要是使用數據挖掘方法來發現這些事件之間的順序關系。在高等教育中,該技術已被應用于基于學生學習風格偏好的網絡學習系統個性化建議,并有效獲取構建學生模型所必需的知識。在協作學習中,它可以用來發現哪個信息序列可以用來預測學生群體中的高分者。這包括預測學生在一系列可以在問題解決環境中執行的動作的中間步驟。因此,可以預期,序列模式技術可以用來總結學生的歷史學習模式(logs),以便通過根據常見的學習序列過濾項目或事件來識別潛在的學習順序模式。它還可以用來發現隱藏的模式,提高推薦的質量,解決相關的教育問題。雖然隨機數據挖掘技術的重點是找出某些事件的原因,但如果使用自動實驗隨機選擇一個教育事件,則可以推斷出因果關系,從而最終獲得積極的學習結果。
1.8文本挖掘
文本挖掘是一種從大型數據庫中發現感興趣模式的技術,是指從非結構化文本中提取信息和知識的過程。這項技術已成功應用于不同類型的網絡教育系統,主要用于協作學習,以提供通常在論壇中進行的自動形成性評估。文本挖掘可以提高教師評估小組討論進度的能力,促進由在線討論板上的信息構建概念圖的過程,從一個大的在線學習數據量,并探討學生的認知學習結果是否存在差異,尤其是對于那些具有不同學習背景的學生。基于這些觀察結果,預計教育政策制定者可能會應用文本挖掘來檢查來自在線論壇、電子郵件或聊天的內容,這些內容可以產生相當多的見解并揭示學生學習行為中的有價值的模式。
2.高教領域的應用研究
不同的數據挖掘技術所發現的知識可以使高等學校做出更好的決策,在指導學生、預測未來趨勢和個人行為方面提供更優異的計劃,使學校能夠更有效地配置資源和人員。EDM和LA的使用在改善學生的學習體驗和學習成果、發現學生的行為和成就、領域知識內容、表現和評估的模式和預測方面都能發揮重要作用。EDM/LA的應用是當前高等教育的研究方向,具體可劃分為四個主要維度:計算機支持的學習分析(Computer-Supported Learning Analytics, CSLA)、計算機支持的預測分析(Computer-Supported Predictive Analytics, CSPA)、計算機支持的行為分析(Computer-Supported Behavioral Analytics, CSBA),以及計算機支持的可視化分析(Computer-Supported Visualization Analytics, CSVA)。
2.1計算機支持的學習分析CSLA
計算機支持的學習分析CSLA指的是利用數據挖掘技術,根據學生在學習管理系統LMS環境中的互動來獲得可操作的信息。參與持續監控學習活動的教師需要評估小組中學生之間互動的方法,以確定可能采取的干預措施,并評估課程的有效性。EDM和LA通常通過評估學生的互動和學習結果來識別學習問題。從這些評估中得出的數據有助于估計或改變提高學生對活動和內容的自我意識所需的支持水平。例如,來自課程相關活動(如論壇、內容交付和評估)的學習管理系統LMS數據可用于將系統級對象與學生的偏好相關聯。這也為教師提供了一個全面了解可能的學習結果的機會,并在對學習過程的不當控制發生時發現學生的不良行為。此外,使用EDM/LA分析學習行為和學生與課程資源的互動,最終可能有助于評估教育效果,并有助于設計提高學生認知能力的干預策略。
2.2計算機支持的預測分析CSPA
在分析促進學生學習的主要原因時,EDM和LA可用于預測學生在特定課程中的成績、參與、獲得、分數和領域知識的評估和評價。這包括對學習材料的評估,以評估任務的復雜性,并提供反饋,通過規劃新策略來支持決策學習,從而提高整體學習效果。通過在學習環境中使用數據挖掘技術,可以幫助發現大量數據中的知識和隱藏模式,并對結果或行為做出預測。EDM和LA可用于發現知識,幫助教師識別學生中的早期輟學,并確定哪些人需要特別關注。
2.3計算機支持的行為分析CSBA
數據挖掘技術的應用可以產生相當多的知識,并揭示學生學習行為的有價值的模式。通過過程性數據的分析,以及多模態數據的采集和智能分析,使用數據挖掘來識別學生在參與在線學習活動時的行為模式和偏好,使用EDM和LA可以改善學生在遠距離協作時的學習體驗。目前,EDM和LA的研究主要集中在使用實時數據來規范新信息的學習,以便學生能夠解決復雜程度不同的問題。EDM可以通過評估學生在線活動與他們的最終成績之間的關系來檢測學生在諸如Moodle這樣的在線環境中的不守規則行為和活動。
2.4計算機支持的可視化分析CSVA
計算機支持的可視化分析CSVA是一種將信息可視化技術與數據挖掘和知識表示技術相結合的一種查詢形式,主要是對個體與活動相關的行為進行可視化分析。在教育環境中,CSVA側重于使用可視化工具來深入了解學習過程和學生的體驗。例如,繪制在線討論圖,并根據主題的結構特征評估每個帖子(參與度)的質量,可以幫助學生識別相關的帖子和討論。將可視化數據挖掘應用于高等教育評估系統中,可以使評估方法更加靈活、多樣化和可視化,從而提高學習過程的效率。另一方面,利用EDM從大型數據集中提取有意義的知識和信息,并利用這些信息發現隱藏的模式和關系,這些模式和關系對高等教育的決策過程是有用的。可以用圖表來表示學生對學習任務的參與程度,這有助于教師更好地了解學生的在線行為,并注意在線環境中發生的事情。此外,數據可視化工具可用于高等教育,以簡化復雜的數據,并跟蹤學生從與在線教育系統的交互中獲取的多維數據。
3.結束語
教育數據挖掘EDM和學習分析LA通常用于與CSLA、CSPA、CABA和CSVA相關的各種學習問題提供機會和解決方案。一般來說,大多數數據挖掘技術都非常適合EDM和LA。主要的數據挖掘技術,如聚類、關聯規則、可視化數據挖掘、統計和回歸等通常都是跨這四個維度使用的。然而,一些數據挖掘技術,如文本挖掘、相關挖掘、離群點檢測、因果挖掘和密度估計等,由于在獲取調節或適應個人需求所需的屬性方面非常復雜,因此并不常用。
綜上所述,人工智能時代EDM/LA的應用可以帶來顯著的效益,因此高等院校在可行的情況下應盡量采用EDM/LA。此外,EDM和LA在高等教育中的應用可能有助于開發更多以學生為中心的課程,并提供數據和工具,供各院校用于實時預測,有效的提高教學質量。
參考文獻
[1]QUADIR B, CHEN N S, ISAIAS P. Analyzing the educational goals, problems and techniques used in educational big data research from 2010 to 2018 [J]. Interact Learn Environ, 2020, 17.
[2]KLASNJA-MILICEVIC A, IVANOVIC M, BUDIMAC Z. Data science in education: Big data and learning analytics [J]. Computer Applications in Engineering Education, 2017, 25(6): 1066-78.
[3]XIE K, DI TOSTO G, CHEN S B, et al. A systematic review of design and technology components of educational digital resources [J]. Computers & Education, 2018, (127)90-106.
[4]HOOSHYAR D, YOUSEFI M, LIM H. A systematic review of data-driven approaches in player modeling of educational games [J]. Artificial Intelligence Review, 2019, 52(3): 1997-2017.
[5]SLATER S, JOKSIMOVIC S, KOVANOVIC V, et al. Tools for Educational Data Mining: A Review [J]. Journal of Educational and Behavioral Statistics, 2017, 42(1): 85-106.
[6]CANTABELLA M, MARTINEZ-ESPANA R, AYUSO B, et al. Analysis of student behavior in learning management systems through a Big Data framework [J]. Future Generation Computer Systems-the International Journal of Escience, 2019, (90)262-72.
[7]ROMERO C, VENTURA S. Educational data mining and learning analytics: An updated survey [J]. Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery, 2020, 10(3)
[8]ALDOWAH H, AL-SAMARRAIE H, FAUZY W M. Educational data mining and learning analytics for 21st century higher education: A review and synthesis [J]. Telematics and Informatics, 2019, (37)13-49.
[9]TOMASEVIC N, GVOZDENOVIC N, VRANES S. An overview and comparison of supervised data mining techniques for student exam performance prediction [J]. Computers & Education, 2020, (18)143.
[10] VIEIRA C, PARSONS P, BYRD V. Visual learning analytics of educational data: A systematic literature review and research agenda [J]. Computers & Education, 2018, (122)119-35.
[11] RIOFRIO-LUZCANDO D, RAMIREZ J, MORAL C, et al. Visualizing a collective student model for procedural training environments [J]. Multimedia Tools and Applications, 2019, 78(8): 10983-1010.
[12] CHEN Y, ZHENG Q H, JI S G, et al. Identifying at-risk students based on the phased prediction model [J]. Knowledge and Information Systems, 2020, 62(3): 987-1003.
[13]顧小清,胡藝齡.理解、設計和服務學習:學習分析技術的回顧與前瞻[J].開放教育研究, 2020, 26(02):40-42.
[14]張文梅,祁彬斌,范文翔.數據驅動的教學行為分析:現狀、邏輯與發展趨向[J].遠程教育雜志, 2021, 39(01):84-93.
[15]陳凱泉,高蕾,孟祥紅. 高校混合式教學中的線上學習路徑挖掘及對教學改革的啟示[J].高教探索, 2020(05):5-13.
基金項目:①廣東省教育廳2020年度普通高校特色創新類項目(2020WTSCX297);②廣東省教育廳2019年度普通高校特色創新類項目(2019GKTSCX152);③廣東省教育廳2018年度重點平臺及科研項目特色創新項目(2018GWTSCX030);④廣東省教育廳2018年度省高等職業教育質量工程教育教學改革研究與實踐項目(GDJG2019309);⑤廣州涉外經濟職業技術學院2019年校級教研項目(2019JY06);⑥廣州涉外經濟職業技術學院2018年校級教科研項目(2018JY29)。
作者簡介:陳茂(1985.1-),女,講師,廣州涉外經濟職業技術學院數字媒體教研室主任。研究方向為人工智能,大數據應用技術,數字媒體技術,高職教育管理;
*通訊作者:耿江濤(1965.12-),男,教授,高級工程師,華南師范大學博士生,廣州涉外經濟職業技術學院教育研究院教授。研究方向為大數據應用技術,人工智能,高職教育管理與國際化。
胡翌丹(1978.9—),男,副教授,廣州涉外經濟職業技術學院外國語學院副院長。研究方向為高職教育管理 非通用語種專業建設。
余雪蓮(1993.6-),女,助教,學士,廣州涉外經濟職業技術學院計算機應用與軟件技術教研室專任教師。研究方向為軟件技術,人工智能。
1.廣州涉外經濟職業技術學院? ? 廣東廣州? ? 510540 ; 2.華南師范大學? ?廣東廣州? ? 510631