彭亞+于翠波+張勖



摘 要 教育數(shù)據(jù)挖掘是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于教育領(lǐng)域,以發(fā)現(xiàn)教育中的潛在問題。介紹教育數(shù)據(jù)挖掘的發(fā)展歷程和研究現(xiàn)狀,采用文獻(xiàn)計(jì)量和內(nèi)容分析法對(duì)教育數(shù)據(jù)挖掘從教育環(huán)境、應(yīng)用類型和技術(shù)方法三方面進(jìn)行分析,并對(duì)教育數(shù)據(jù)挖掘的應(yīng)用有所發(fā)現(xiàn)。
關(guān)鍵詞 數(shù)據(jù)挖掘;教育數(shù)據(jù)挖掘;e-learning
中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1671-489X(2017)18-0001-06
Applied Research of Education Data Mining Technology//PENG Ya, YU CUIBo, ZHANG Xu
Abstract Education Data Mining (EDM) belongs to a multidiscipli-nary research field which applies data mining technology to educa-
tion for finding the hidden value of data. This paper firstly introduces
the concept, development history and present research status of EDM,
then researches and analyzes EDM from aspects of education envi-
ronment, application type and the technical methods and last discusses
the current research status of EDM.
Key words data mining; education data mining; e-learning
1 前言
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中通過算法發(fā)現(xiàn)有用信息的過程,最早出現(xiàn)在數(shù)據(jù)庫(kù)領(lǐng)域,與計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)聯(lián)系緊密。數(shù)據(jù)挖掘用到了包括抽樣、估計(jì)、建模、人工智能、模式識(shí)別、可視化等技術(shù),并在近30年的時(shí)間里得到快速發(fā)展,目前已廣泛應(yīng)用在各個(gè)領(lǐng)域。
教育數(shù)據(jù)挖掘(Education Data Mining,EDM)是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于教育領(lǐng)域,并結(jié)合了教育學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等學(xué)科的理論和技術(shù),用以提高學(xué)習(xí)、教學(xué)和管理三方面水平的新興的多學(xué)科交叉研究領(lǐng)域。教育數(shù)據(jù)挖掘技術(shù)可用來解決教學(xué)工作和教育研究中遇到的很多問題,比如了解學(xué)生喜好、輔助教學(xué)管理人員做出決策、幫助教師改進(jìn)課程、對(duì)比學(xué)生知識(shí)掌握情況等。根據(jù)數(shù)據(jù)挖掘技術(shù)應(yīng)用的業(yè)務(wù)領(lǐng)域,可以將數(shù)據(jù)挖掘分為e-learning數(shù)據(jù)挖掘、e-management數(shù)據(jù)挖掘和e-research數(shù)據(jù)挖掘。E-learning數(shù)據(jù)挖掘應(yīng)用在教學(xué)領(lǐng)域,進(jìn)行學(xué)習(xí)者特征識(shí)別、在線學(xué)習(xí)行為分析、師生交互分析等,數(shù)據(jù)來源于課堂教學(xué)、遠(yuǎn)程教學(xué)系統(tǒng)、學(xué)習(xí)軟件系統(tǒng)等。E-management數(shù)據(jù)挖掘應(yīng)用在教學(xué)管理領(lǐng)域,其數(shù)據(jù)來源于各種教學(xué)管理系統(tǒng)中。E-research數(shù)據(jù)挖掘應(yīng)用科研領(lǐng)域,用以提高科研效率,數(shù)據(jù)主要是來源于各種科研數(shù)據(jù)庫(kù)。
2 教育數(shù)據(jù)挖掘研究現(xiàn)狀
關(guān)于教育數(shù)據(jù)挖掘的研究發(fā)展歷程,起初是智能輔導(dǎo)系統(tǒng)(ITS)、人工智能教育(AIED)和用戶建模(UM)等眾多研究領(lǐng)域中的一個(gè)子方向。從2005年開始,國(guó)際上許多計(jì)算機(jī)應(yīng)用(如ITS等)的相關(guān)會(huì)議都設(shè)置了關(guān)于EDM的議題。不同時(shí)間、不同會(huì)議上的EDM議題雖有差別,但宗旨一致。2007年,歐洲技術(shù)促進(jìn)學(xué)習(xí)協(xié)會(huì)(EATEL)在希臘克里特島舉辦第二屆歐洲技術(shù)促進(jìn)學(xué)習(xí)會(huì)議(EC-TEL2007),
其間舉辦了“Apply Data Mining in E-Learning”研討會(huì)(ADML2007);之后,該領(lǐng)域研究者組成國(guó)際教育數(shù)據(jù)挖掘工作組,并創(chuàng)辦在線學(xué)術(shù)期刊——《教育數(shù)據(jù)挖掘雜志》;2008年開始,該工作組每年都會(huì)召開教育數(shù)據(jù)挖掘國(guó)際會(huì)議;2011年成立國(guó)際教育數(shù)據(jù)挖掘協(xié)會(huì)(IEDMS)。EDM的研究歷程見圖1所示。
目前與EDM相關(guān)的學(xué)術(shù)會(huì)議主要有International Con-
ference on Educational Data mining(EDM)、Interna-
tional Conference on Learning Analytics and Knowle-dge(LAK)、International Conference on Artificial Intelligence in Education(AIED)、International Con-
ference on Intelligence Tutoring Systems(ITS)等。
與EDM相關(guān)的主要期刊有Journal of Engineering Education(JEE)、Computers and Education(CAE)、Journal of the Learning Sciences(JLS)、Expert System with Applications(ESWA)、Journal of Educational Data Mining(JEDM)等。此外,關(guān)于EDM的書籍,國(guó)際上主要有2010年Romero等人編寫的Handbook of Educational Data Mining,該書詳細(xì)講述了EDM的概念、技術(shù)以及案例等;國(guó)內(nèi)主要有葛道凱、張少剛、魏順平等人編寫的《教育數(shù)據(jù)挖掘方法與應(yīng)用》,程艷編寫的《教育數(shù)據(jù)挖掘與教育虛擬社區(qū)群集智能化構(gòu)建方法》等。endprint
在Google Scholar中以包含Educational data mining
的完整字句對(duì)已有論文進(jìn)行搜索,用每年論文發(fā)表數(shù)目體現(xiàn)教育數(shù)據(jù)挖掘的發(fā)展?fàn)顩r,能夠形象地展示出教育數(shù)據(jù)挖掘的發(fā)展研究趨勢(shì)。2008—2015年,教育數(shù)據(jù)挖掘論文發(fā)表數(shù)目隨時(shí)間變化趨勢(shì)如圖2所示。
從圖中可以看出,EDM論文數(shù)目呈現(xiàn)總體上升趨勢(shì)。2008—2011年增長(zhǎng)趨勢(shì)比較平緩,2008年發(fā)表的關(guān)于EDM論文數(shù)量?jī)H有不足200篇;2010和2011分別約為400篇;但從2011年以后,關(guān)于EDM論文數(shù)量遞增的趨勢(shì)明顯增大,數(shù)目已達(dá)到近1800篇。因此,關(guān)于教育數(shù)據(jù)挖掘的研究呈總體遞增趨勢(shì),且關(guān)注度逐步增長(zhǎng),國(guó)內(nèi)外研究持續(xù)上升。
3 教育數(shù)據(jù)挖掘研究與分析結(jié)果
本次研究樣本主要是來源于The 8th International Conference on Educational Data Mining(EDM2015)的論文集。EDM會(huì)議是關(guān)于教育數(shù)據(jù)挖掘的一個(gè)領(lǐng)先的高質(zhì)量的國(guó)際會(huì)議,主要關(guān)注教學(xué)研究和學(xué)生學(xué)習(xí)過程,相關(guān)研究的數(shù)據(jù)集分別來自ITS、MOOC、教育游戲、學(xué)習(xí)軟件、教學(xué)管理系統(tǒng)等。其中,EDM2015論文集中收錄長(zhǎng)論文(Full Papers)42篇、短論文(Short Papers)48篇、海報(bào)與展示論文(Poster and Demo Papers)46篇、博士交流(DC Papers)12篇。選擇論文集中質(zhì)量較高的長(zhǎng)論文和短論文作為本次的研究對(duì)象;另外在Google Scholar上搜索教育數(shù)據(jù)挖掘相關(guān)的論文,并選取2009—2014年間下載次數(shù)超過50的16篇論文作為補(bǔ)充。如此一來,本次研究的論文樣本總數(shù)計(jì)106篇。研究過程采用定量分析與定性分析相結(jié)合的方法,從教學(xué)環(huán)境、應(yīng)用類型及數(shù)據(jù)挖掘技術(shù)方法三個(gè)方面對(duì)這些樣本進(jìn)行分析研究。
EDM應(yīng)用的教學(xué)環(huán)境 教學(xué)環(huán)境是教師進(jìn)行教學(xué)活動(dòng)或者學(xué)生進(jìn)行學(xué)習(xí)必不可少的軟硬件及基礎(chǔ)設(shè)施的組合,可以是物理上的教室,也可以是虛擬的互聯(lián)網(wǎng)系統(tǒng)或?qū)W習(xí)軟件等。教學(xué)環(huán)境是教、學(xué)活動(dòng)實(shí)際進(jìn)行的場(chǎng)所,其中產(chǎn)生的數(shù)據(jù)可以作為EDM研究數(shù)據(jù)的來源,同時(shí)也是實(shí)施調(diào)整、改進(jìn)教師教學(xué)或者學(xué)生學(xué)習(xí)的實(shí)驗(yàn)場(chǎng)地。將教學(xué)環(huán)境主要分為相對(duì)較少采用現(xiàn)代信息科技系統(tǒng)的傳統(tǒng)教學(xué)環(huán)境、以開放式的互聯(lián)網(wǎng)信息系統(tǒng)為主的網(wǎng)絡(luò)教學(xué)環(huán)境和大數(shù)據(jù)時(shí)代背景下涌現(xiàn)出的新型教學(xué)場(chǎng)所或載體的大數(shù)據(jù)教學(xué)環(huán)境。
通過對(duì)論文樣本的教學(xué)環(huán)境進(jìn)行分析和歸類,在本文選取的106篇樣本中,傳統(tǒng)教學(xué)環(huán)境的有15篇,占論文總數(shù)的14.1%;網(wǎng)絡(luò)教學(xué)環(huán)境的有32篇,占比40.6%;大數(shù)據(jù)教學(xué)環(huán)境的有29篇,占比25.5%;此外還有一些論文沒有指出具體某種教學(xué)環(huán)境類型,稱為其他,有14篇,占比19.8%,見表1所示。各種主要教學(xué)環(huán)境在樣本中的分布情況見圖3。
由表1和圖3可見,來自網(wǎng)絡(luò)教學(xué)環(huán)境下的論文數(shù)量最多,占比40.6%;來自大數(shù)據(jù)環(huán)境下的論文數(shù)量次之,比例達(dá)到總數(shù)的25.5%,且多于傳統(tǒng)教學(xué)環(huán)境下的14.1%。這是因?yàn)橄啾扔趥鹘y(tǒng)環(huán)境,數(shù)字化的網(wǎng)絡(luò)環(huán)境與大數(shù)據(jù)環(huán)境下,教、學(xué)過程中的數(shù)據(jù)采集、存儲(chǔ)及處理更方便、快捷。另外,雖然目前大數(shù)據(jù)環(huán)境下的教育數(shù)據(jù)挖掘研究還不算最多,但由于它可以在短時(shí)間對(duì)上萬名學(xué)生的數(shù)據(jù)完成建模、預(yù)測(cè)等,其受到的關(guān)注度會(huì)越來越高。
傳統(tǒng)教學(xué)環(huán)境下EDM的研究通常采用統(tǒng)計(jì)學(xué)方法對(duì)搜集的數(shù)據(jù)進(jìn)行分析比對(duì),以便于幫助教師根據(jù)學(xué)生的知識(shí)掌握情況相應(yīng)地變動(dòng)教學(xué)方案。傳統(tǒng)教學(xué)環(huán)境下研究的數(shù)據(jù)來源有學(xué)生考試成績(jī)、作業(yè)習(xí)題和課堂情況記錄等。此類數(shù)據(jù)獲取通常比較煩瑣,需要逐個(gè)統(tǒng)計(jì)并錄入,數(shù)據(jù)量也相對(duì)較小。傳統(tǒng)教學(xué)環(huán)境下EDM的研究結(jié)果有通過學(xué)生的課堂表現(xiàn)來預(yù)測(cè)學(xué)生學(xué)習(xí)情況,以便于了解學(xué)生的知識(shí)掌握程度[1],根據(jù)學(xué)生上課回答問題情況對(duì)問題進(jìn)行自動(dòng)分類,有助于教師優(yōu)化教學(xué)計(jì)劃[2],對(duì)學(xué)生的CET成績(jī)進(jìn)行可視化分析和評(píng)價(jià)[3]。雖然各種新型的教學(xué)環(huán)境不斷涌現(xiàn)出來,面對(duì)面教學(xué)的傳統(tǒng)教學(xué)環(huán)境依然占當(dāng)今校園教學(xué)的主流,因此,這些研究結(jié)果有利于改進(jìn)課堂教學(xué)。
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)技術(shù)也越來越多地運(yùn)用到教學(xué)領(lǐng)域中形成網(wǎng)絡(luò)教學(xué)環(huán)境,數(shù)字化的網(wǎng)絡(luò)教學(xué)環(huán)境下產(chǎn)生的數(shù)據(jù)種類豐富、數(shù)量眾多,獲取容易。網(wǎng)絡(luò)環(huán)境下用于EDM的數(shù)據(jù)來源可以是服務(wù)器,也可以是客戶端的用戶活動(dòng)記錄,這些數(shù)據(jù)包括學(xué)生的登錄次數(shù)、學(xué)習(xí)記錄和作業(yè)成績(jī)等。在網(wǎng)絡(luò)教學(xué)環(huán)境中最典型的應(yīng)用就是智能導(dǎo)學(xué)系統(tǒng)(ITS),目前流行的ITS有MOODLE和ASSISTMent,以及其他一些小范圍的智能導(dǎo)學(xué)系統(tǒng)。在教學(xué)應(yīng)用中,可以基于ITS對(duì)個(gè)人學(xué)習(xí)曲線進(jìn)行混合建模,比較幾種模型優(yōu)勢(shì)并構(gòu)建最適合的模型來描述學(xué)生學(xué)習(xí),對(duì)學(xué)習(xí)情況進(jìn)行估計(jì)[4]。將智能導(dǎo)學(xué)推薦系統(tǒng)用于在線教育系統(tǒng)中,使用分類的方法在網(wǎng)絡(luò)教育環(huán)境中檢索最合適的課程,可以幫助學(xué)習(xí)者找到最適合的課程[5]。網(wǎng)絡(luò)教學(xué)環(huán)境中的數(shù)據(jù)獲取相較于傳統(tǒng)教學(xué)環(huán)境更方便,教學(xué)活動(dòng)可以根據(jù)每個(gè)用戶的特點(diǎn)自適應(yīng)調(diào)整。
大數(shù)據(jù)教學(xué)環(huán)境的特點(diǎn)是擁有海量的學(xué)習(xí)活動(dòng)數(shù)據(jù),其數(shù)據(jù)來源有MOOC、益智類游戲記錄數(shù)據(jù)、在線問卷訪談等,此類環(huán)境下的數(shù)據(jù)量最大。目前的MOOC平臺(tái)有Coursera、edX、Udacity等。與傳統(tǒng)課堂和一般網(wǎng)絡(luò)課堂的區(qū)別是,大數(shù)據(jù)環(huán)境下的MOOC課堂通常有數(shù)萬甚至數(shù)十萬名學(xué)生,因此,記錄的數(shù)據(jù)量是極大的,需要在大數(shù)據(jù)平臺(tái)上處理。如通過將學(xué)生進(jìn)行分類來強(qiáng)調(diào)學(xué)生之間的差異,并確定他們?cè)贛OOC中成功完成課程的路徑和方法[6]。
此外,除了上述三種環(huán)境下的論文,本次研究中還有一些論文的數(shù)據(jù)集來源于網(wǎng)絡(luò)上公開的數(shù)據(jù)集,如KDDCup、
PSLC DataShop等。此類論文通常是將模型進(jìn)行優(yōu)化,把幾種EDM方法進(jìn)行分析并對(duì)比優(yōu)劣,或者是對(duì)EDM方法進(jìn)行改進(jìn)等,有助于教師或者管理人員制定學(xué)習(xí)方法或教學(xué)策略等。endprint
以上三種學(xué)習(xí)環(huán)境中,通常可假設(shè)傳統(tǒng)教學(xué)環(huán)境下學(xué)生學(xué)習(xí)動(dòng)機(jī)相同、知識(shí)水平類似,而且此環(huán)境下學(xué)生數(shù)量及可獲取的數(shù)據(jù)相對(duì)較少,因此,用到的數(shù)據(jù)挖掘技術(shù)方法也相對(duì)簡(jiǎn)單。一般的網(wǎng)絡(luò)教育相對(duì)于傳統(tǒng)教育的特點(diǎn)是數(shù)據(jù)易于獲取,學(xué)生更多;而大數(shù)據(jù)教學(xué)環(huán)境相較于一般網(wǎng)絡(luò)教育的優(yōu)點(diǎn)是課程更加豐富,自由度更大。目前教學(xué)中已開始嘗試將在線教學(xué)應(yīng)用于傳統(tǒng)課堂并對(duì)學(xué)生學(xué)習(xí)情況進(jìn)行預(yù)測(cè),比較高中、大學(xué)和在線教學(xué)環(huán)境的交互學(xué)習(xí)情況等。
EDM的應(yīng)用類型 在研究中,根據(jù)EDM結(jié)果的不同用途,將EDM的應(yīng)用類型分成可視化(Visualization,即VS)、學(xué)生建模(Student Modeling,即SM)、學(xué)生表現(xiàn)預(yù)測(cè)(Pre-
dicting Student Performance,即PSP)、推薦系統(tǒng)(Reco-
mmender System,即RS)、自適應(yīng)系統(tǒng)(Adaptive System,
即AS)五類。VS是指將信息或數(shù)據(jù)用圖的形式形象化地展示出來;SM是指通過對(duì)學(xué)生的行為、動(dòng)機(jī)和學(xué)習(xí)習(xí)慣等建立模型,揭示學(xué)生的學(xué)習(xí)特征;PSP是指通過已經(jīng)掌握的數(shù)據(jù)去預(yù)測(cè)未知的結(jié)果;RS是指根據(jù)學(xué)生的特點(diǎn)向其推薦書籍、課程或者學(xué)習(xí)方法等;AS是指根據(jù)學(xué)生建模的結(jié)果做自適應(yīng)變化的學(xué)習(xí)系統(tǒng)。
通過對(duì)論文樣本進(jìn)行分析,可知用于可視化(VS)的有19篇,占論文總數(shù)的17.9%;研究學(xué)生建模(SM)的有32篇,占論文總數(shù)的30.2%;進(jìn)行學(xué)生表現(xiàn)預(yù)測(cè)(PSP)的有29篇,占27.4%;用于推薦系統(tǒng)(RS)的有14篇,占30.2%;用于自適應(yīng)系統(tǒng)(AS)研究的有12篇,占11.3%,如表2所示。各種用途分類結(jié)果在樣本中的分布情況見圖4。
選中的樣本中,用于學(xué)生建模(SM)研究的論文數(shù)量最多。EDM中學(xué)生建模采用貝葉斯網(wǎng)、序列模式挖掘、關(guān)聯(lián)規(guī)則和邏輯回歸等方法,對(duì)學(xué)生特點(diǎn)和學(xué)習(xí)行為進(jìn)行自動(dòng)建模。對(duì)學(xué)生建模,可以幫助教師及研究人員等更好地了解學(xué)生的學(xué)習(xí)特征,關(guān)注學(xué)習(xí)過程和教學(xué)研究。例如:利用最受歡迎的BKT推理模型推斷學(xué)生的知識(shí)和能力,了解學(xué)生的學(xué)習(xí)情況[7];將多功能分層序列模式挖掘和水平分層均用于學(xué)習(xí)行為特征中,并進(jìn)行對(duì)比,找出更適合的方式[8]。此外,學(xué)生建模還可以對(duì)集中模型進(jìn)行優(yōu)化、改進(jìn),從而得到最適合的模型,如針對(duì)Duolingo這一系統(tǒng)進(jìn)行模型優(yōu)化[4]。
進(jìn)行學(xué)生表現(xiàn)預(yù)測(cè)(PSP)研究的論文數(shù)量?jī)H次于SM。在EDM中,PSP的例子有預(yù)測(cè)學(xué)生的學(xué)習(xí)成績(jī)、預(yù)測(cè)學(xué)生是否能完成某項(xiàng)任務(wù)以及學(xué)生未來表現(xiàn)等。PSP是目前非常流行的應(yīng)用,用到的最主要的方法有分類、回歸、決策樹等。例如:利用分類器對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè);用邏輯回歸和貝葉斯知識(shí)追蹤的方法,根據(jù)某中學(xué)的學(xué)生在ASSISTMent系統(tǒng)交互的數(shù)據(jù),預(yù)測(cè)這個(gè)學(xué)校學(xué)生的大學(xué)入學(xué)率;根據(jù)學(xué)生參與論壇在線討論的情況,用分類和聚類的方法來預(yù)測(cè)學(xué)生最終的成績(jī)。
可視化(VS)研究可以幫助人們更加直觀地理解教育數(shù)據(jù),如在線評(píng)估過程中產(chǎn)生的數(shù)據(jù)、考試成績(jī)、用戶論壇數(shù)據(jù)等。可視化還可以幫助人們形象地對(duì)比不同的EDM技術(shù)與方法的差距,如在傳統(tǒng)教育環(huán)境中,將可視化數(shù)據(jù)挖掘用于高等教育評(píng)價(jià)體系[3]。
推薦系統(tǒng)(RS)研究可以根據(jù)人們以往的購(gòu)書內(nèi)容以及瀏覽內(nèi)容向其推薦合適的書籍,或者根據(jù)學(xué)生的學(xué)歷、專業(yè)等向其推薦合適的課程等。例如:用分類的方法在網(wǎng)絡(luò)教育環(huán)境中檢索最合適的課程[5];用目前最先進(jìn)的主題細(xì)分模型對(duì)課程進(jìn)行選擇[9]。
自適應(yīng)系統(tǒng)(AS)的研究是根據(jù)學(xué)生建模的結(jié)果自適應(yīng)地調(diào)整學(xué)習(xí)內(nèi)容,即學(xué)習(xí)系統(tǒng)可以根據(jù)學(xué)生每段時(shí)間的學(xué)習(xí)狀況,相應(yīng)地去調(diào)整該學(xué)生下一階段的學(xué)習(xí)計(jì)劃。如用支持向量機(jī)和邏輯回歸對(duì)資源進(jìn)行優(yōu)化以適應(yīng)學(xué)生進(jìn)行學(xué)習(xí)[10]。在自適應(yīng)輔導(dǎo)系統(tǒng)中,首先要準(zhǔn)確評(píng)估一個(gè)學(xué)生的能力,并對(duì)學(xué)生的表現(xiàn)進(jìn)行預(yù)測(cè),然后基于類型進(jìn)行自適應(yīng)。
由于本次研究的樣本主要來自EDM2015,而EDM2015會(huì)議主題是關(guān)注教育研究問題和隱藏學(xué)習(xí)過程的,因此,研究用途為學(xué)生建模(SM)和學(xué)生表現(xiàn)預(yù)測(cè)(PSP)的較多,自適應(yīng)系統(tǒng)(AS)和推薦系統(tǒng)(RS)相對(duì)較少。但在教學(xué)中,自適應(yīng)系統(tǒng)(AS)和推薦系統(tǒng)(RS)同樣非常重要,尤其是在網(wǎng)絡(luò)教育環(huán)境及大數(shù)據(jù)教學(xué)環(huán)境中,自適應(yīng)系統(tǒng)(AS)和推薦系統(tǒng)(RS)能夠給學(xué)生的學(xué)習(xí)及教師的教學(xué)提供極大的方便。
EDM的技術(shù)方法 從本次調(diào)研的論文以及綜合Romero和Venture、Baker和Yacef對(duì)EDM的分類了解到,統(tǒng)計(jì)分析與可視化、預(yù)測(cè)、聚類、關(guān)系挖掘是EDM研究中最常用的技術(shù),同時(shí)也是最基本、最成熟的技術(shù)。此外,還有一些技術(shù)如文本挖掘、協(xié)同過濾等也會(huì)在EDM中用到,但出現(xiàn)的概率都很低,本文將其歸為其他。
通過對(duì)樣本論文的分析,發(fā)現(xiàn)部分論文的研究過程中會(huì)用到不止一種技術(shù)方法,因此,計(jì)算某種技術(shù)方法所占百分比,是按照用到該種方法的論文數(shù)占總論文的比例計(jì)算的。本次研究的論文中,以統(tǒng)計(jì)分析與可視化方法為主的是21篇,占比19.8%;以預(yù)測(cè)技術(shù)為主的是48篇,占比45.3%;以聚類技術(shù)為主的是22篇,占比20.8%;以關(guān)系挖掘方法為主的是28篇,占比26.4%;其他方法的有14篇,占論文總數(shù)的13.2%。可將此次研究的論文中的長(zhǎng)論文、短論文、其他代表性論文等按照EDM的技術(shù)方法進(jìn)行分類,得到分類數(shù)目見表3。各種主要EDM技術(shù)方法在樣本中的分布情況見圖5。
由表3和圖5可見,預(yù)測(cè)是EDM研究中最常用的技術(shù),跟隨其后的依次是關(guān)系挖掘、聚類、統(tǒng)計(jì)分析與可視化,而文本挖掘、協(xié)同過濾等其他技術(shù)在研究中則用到得較少。在幾種技術(shù)中,聚類包括聚類和離群點(diǎn)分析,預(yù)測(cè)包括分類、回歸以及決策樹,關(guān)系挖掘包括關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘等。
統(tǒng)計(jì)分析與可視化通常不算數(shù)據(jù)挖掘技術(shù),但因可處理數(shù)據(jù)挖掘問題,因此也算教育數(shù)據(jù)挖掘的方法。統(tǒng)計(jì)的過程是先形成假設(shè),然后在可視化中將數(shù)據(jù)轉(zhuǎn)化為易于理解的圖像來進(jìn)行檢驗(yàn)。統(tǒng)計(jì)分析與可視化的應(yīng)用可以使研究人員更加直觀地對(duì)數(shù)據(jù)進(jìn)行理解和分析,如基于小的ITS樣本對(duì)幾種模型進(jìn)行分析,并用統(tǒng)計(jì)分析與可視化的方法對(duì)幾種效用進(jìn)行評(píng)估[11]。endprint
預(yù)測(cè)是根據(jù)已知屬性來預(yù)測(cè)未知屬性的情況,分類、回歸以及決策樹均可實(shí)現(xiàn)預(yù)測(cè)功能。當(dāng)未知屬性為類別型時(shí),特指分類,如用分類的方法來實(shí)現(xiàn)對(duì)學(xué)生課程完成情況的預(yù)測(cè),并用自然語言處理檢測(cè)是否成功預(yù)測(cè)[12]。回歸中被估計(jì)的目標(biāo)屬性通常是連續(xù)的,常常會(huì)用到最小二乘和梯度下降算法,如使用回歸對(duì)自適應(yīng)系統(tǒng)中的命令的有效性進(jìn)行預(yù)測(cè),以實(shí)現(xiàn)將自適應(yīng)系統(tǒng)用于教學(xué)中的功能[13]。決策樹是一種樹型結(jié)構(gòu),可根據(jù)某一屬性對(duì)數(shù)據(jù)進(jìn)行分裂,以達(dá)到某一標(biāo)準(zhǔn)的最優(yōu)值。但在運(yùn)用決策樹的過程中要注意如何分裂以及如何停止分裂兩個(gè)過程,如先將學(xué)生課堂表現(xiàn)是否活躍進(jìn)行分類,將學(xué)生分為“積極”和“非積極兩類”;之后將“非積極”的學(xué)生根據(jù)是否自愿購(gòu)買課程進(jìn)行分類[6]。決策樹算法是目前預(yù)測(cè)算法中運(yùn)用頻率最高的。
將數(shù)據(jù)按照內(nèi)在相似性劃分成多個(gè)類別是聚類算法,其中較普遍的方法是EM算法和K-means算法等。如用聚類的方法,根據(jù)McGraw-Hill網(wǎng)絡(luò)教育平臺(tái)的學(xué)生登錄數(shù)據(jù)來洞察學(xué)生的學(xué)習(xí)經(jīng)驗(yàn),其中有用到K-means算法[14];將幾種模型進(jìn)行對(duì)比,選出最適合論文中Duolingo數(shù)據(jù)集的模型并進(jìn)行優(yōu)化[4]。聚類與分類不同,它是一種在不知道樣本類別及個(gè)數(shù)的情況下的無指導(dǎo)的學(xué)習(xí)過程。根據(jù)學(xué)生的學(xué)習(xí)信息,可以對(duì)學(xué)生進(jìn)行個(gè)性化分類,如組成協(xié)作學(xué)習(xí)小組、實(shí)現(xiàn)個(gè)性化課程管理以及對(duì)學(xué)生分類推薦課程等。
關(guān)系挖掘是從關(guān)系數(shù)據(jù)庫(kù)中的多個(gè)表中挖掘有意義的模式,可以挖掘空間上的共現(xiàn)關(guān)系,也可以挖掘時(shí)間上的序列關(guān)系,其包括關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘等。關(guān)聯(lián)規(guī)則挖掘是挖掘空間共現(xiàn)關(guān)系,根據(jù)規(guī)則發(fā)現(xiàn)數(shù)據(jù)集中隱藏關(guān)聯(lián)。如通過peer-submitted和peer-reviewed的關(guān)系,分析學(xué)生行為和學(xué)習(xí)成果[15];選取遠(yuǎn)程教育的在線學(xué)生為樣本進(jìn)行分析,根據(jù)年齡的不同來比較他們的學(xué)習(xí)能力差異以及學(xué)習(xí)態(tài)度,通過關(guān)聯(lián)規(guī)則發(fā)現(xiàn)額外信息,并更好地幫助教師教學(xué)和學(xué)生學(xué)習(xí)。序列模式挖掘即是在某一時(shí)間相繼產(chǎn)生的關(guān)系[16],教學(xué)中可以將序列模式挖掘技術(shù)用于學(xué)生學(xué)習(xí)過程。研究中有論述多功能分層序列模式挖掘,并對(duì)現(xiàn)有的序列模式挖掘算法進(jìn)行擴(kuò)展等。目前,國(guó)內(nèi)外的關(guān)系挖掘研究雖仍面臨一些挑戰(zhàn),但也已經(jīng)獲得大量成果。
文本挖掘即文本數(shù)據(jù)挖掘,數(shù)據(jù)一般是指文本處理過程中產(chǎn)生的高質(zhì)量信息。典型的文本挖掘方法有文本分類、文本聚類、信息抽取、自動(dòng)分詞等。比如可以將數(shù)據(jù)挖掘技術(shù)用在跟蹤學(xué)生整個(gè)學(xué)期學(xué)習(xí)情況的文本集上,并要求學(xué)生寫課后評(píng)論,發(fā)現(xiàn)其中隱含知識(shí),以此來預(yù)測(cè)學(xué)生學(xué)習(xí)成績(jī)等。
4 結(jié)論與未來研究
本次研究的貢獻(xiàn)與意義 本次研究調(diào)研了教育數(shù)據(jù)挖掘技術(shù)的發(fā)展歷程及研究現(xiàn)狀,并采用文獻(xiàn)計(jì)量和內(nèi)容分析法,重點(diǎn)對(duì)EDM從教育環(huán)境、應(yīng)用類型和技術(shù)方法三方面進(jìn)行了研究分析,有助于在實(shí)際應(yīng)用中把各種應(yīng)用與具體的數(shù)據(jù)挖掘情況相結(jié)合,找出適合的技術(shù)方法。例如:用學(xué)生建模(SM)來分析學(xué)生的學(xué)習(xí)效果以及繪制或預(yù)測(cè)學(xué)生的行為模式,幫助教師和學(xué)生更加清楚學(xué)習(xí)情況等;而學(xué)生表現(xiàn)預(yù)測(cè)(PSP)可以對(duì)學(xué)生的成績(jī)、未來表現(xiàn)等進(jìn)行預(yù)測(cè)等。針對(duì)不同的研究對(duì)象而言,對(duì)教師的信息進(jìn)行挖掘,可以幫助教師改進(jìn)教學(xué)方法,制訂教學(xué)方案等;對(duì)學(xué)生的信息挖掘,可以了解學(xué)生的行為特征、日常學(xué)習(xí)情況、知識(shí)掌握程度等。
隨著科技的發(fā)展和信息量的劇增,EDM得到巨大發(fā)展,并廣泛應(yīng)用在教育領(lǐng)域各個(gè)層次的教學(xué)中。在EDM的三種教學(xué)環(huán)境中,網(wǎng)絡(luò)教育環(huán)境是占比最多的。起初,應(yīng)用最廣泛且教育領(lǐng)域的研究者們接觸最多的教學(xué)方式,就是傳統(tǒng)的教學(xué)方式。而隨著網(wǎng)絡(luò)的發(fā)展,依照傳統(tǒng)方法在大量數(shù)據(jù)中尋找決策變得困難,為了更好地幫助教師教學(xué)和學(xué)生學(xué)習(xí),網(wǎng)絡(luò)教學(xué)應(yīng)運(yùn)而生,并被廣泛地應(yīng)用在教育中,因此,關(guān)于網(wǎng)絡(luò)教學(xué)環(huán)境下的EDM研究數(shù)量越來越多。
之后,隨著互聯(lián)網(wǎng)的崛起,大數(shù)據(jù)背景下EDM又得到迅速發(fā)展。但相對(duì)于傳統(tǒng)教學(xué)和網(wǎng)絡(luò)教學(xué)環(huán)境,大數(shù)據(jù)背景下的教育數(shù)據(jù)挖掘的數(shù)據(jù)量巨大,技術(shù)更加復(fù)雜,對(duì)信息人員技能和成本要求也更高。因此,大數(shù)據(jù)環(huán)境下的EDM研究更加復(fù)雜,但研究的空間也是巨大的。
EDM研究的建議與展望 在教育數(shù)據(jù)挖掘中,數(shù)據(jù)是關(guān)鍵,只有擁有足夠的數(shù)據(jù),才能對(duì)學(xué)生的行為特征、日常學(xué)習(xí)情況、知識(shí)掌握程度等進(jìn)行分析,從而將學(xué)生的情況表現(xiàn)得更清楚。在傳統(tǒng)教學(xué)環(huán)境中,數(shù)據(jù)的獲取比較困難,可以考慮在教學(xué)實(shí)踐中運(yùn)用傳統(tǒng)教學(xué)與非傳統(tǒng)教學(xué)相結(jié)合的教學(xué)方式來記錄反映學(xué)生學(xué)習(xí)情況的數(shù)據(jù)。目前,有些學(xué)校已經(jīng)實(shí)現(xiàn)了此種教學(xué)方式,但數(shù)據(jù)記錄情況不夠全面詳細(xì),未來仍需要對(duì)此種傳統(tǒng)與非傳統(tǒng)結(jié)合的教學(xué)方式進(jìn)行優(yōu)化。
在教學(xué)研究中,數(shù)據(jù)挖掘只是一種技術(shù)方法,其根本目的是了解學(xué)生特性,預(yù)知學(xué)生掌握程度,以便能夠在教學(xué)中采取適合的教學(xué)方法調(diào)動(dòng)學(xué)生學(xué)習(xí)的積極性,使學(xué)生能夠更好地掌握知識(shí)。高斯也曾說過:“對(duì)數(shù)據(jù)挖掘、文本挖掘的無知不是沒有相關(guān)知識(shí),而是過于依賴數(shù)據(jù)挖掘和文本挖掘而忽視其他。”因此,應(yīng)把常用的數(shù)據(jù)挖掘技術(shù)應(yīng)用在教育的各個(gè)方面,把每一種應(yīng)用與具體的挖掘情況相結(jié)合,根據(jù)教育中具體情況,選擇適當(dāng)?shù)姆椒ㄍ诰驍?shù)據(jù)中的內(nèi)在聯(lián)系,找出教學(xué)中出現(xiàn)的問題,提高教學(xué)水平。
隨著網(wǎng)絡(luò)的發(fā)展,非傳統(tǒng)教學(xué)環(huán)境下的數(shù)據(jù)量越來越多,需要引入大數(shù)據(jù)平臺(tái)。同時(shí),這些數(shù)據(jù)隱含著學(xué)習(xí)者的學(xué)習(xí)方法、學(xué)習(xí)路徑、學(xué)習(xí)過程中思想活動(dòng)等對(duì)提高學(xué)習(xí)效率非常重要的信息,數(shù)據(jù)十分復(fù)雜,對(duì)算法的復(fù)雜度的要求更高,要做的工作也更多,會(huì)有更多的研究課題。因此,大數(shù)據(jù)環(huán)境下的EDM將是新的研究趨勢(shì)。未來將更關(guān)注大數(shù)據(jù)環(huán)境下EDM算法的設(shè)計(jì)和改進(jìn),以便于更好地服務(wù)智慧教育、教育信息化。
參考文獻(xiàn)
[1]Samei B, Olney A M, Kelly S, et al. Modeling Classroom Dis-
course: Do Models that Predict Dialogic Instruction Properties Generalize across Populations?[J].International Educational Data Mining Society,2015.endprint
[2]Blanchard N, DMello S, Olney A M, et al. Automatic Classi-
fication of Question & Answer Discourse Segments from Teachers
Speech in Classrooms[J].International Educational Data Mining
Society,2015.
[3]Jin H, Wu T, Liu Z, et al. Application of visual data mining in
higher-education evaluation system[M]//2009 First International
Workshop on Education Technology and Computer Science.2009.
[4]Streeter M. Mixture Modeling of Individual Learning Curves
[J].International Educational Data Mining Society,2015.
[5]Mihaescu M C, Popescu P S, Ionascu C. Intelligent Tutor Re-commender System for On-Line Educational Environments[J].International Educational Data Mining Society,2015.
[6]Sharma K, Jermann P, Dillenbourg P. Identifying Styles and Paths toward Success in MOOCs[J].International Educational Data Mining Society,2015.
[7]Martori F, Cuadros J, González-Sabaté L. Direct Estimation of the Minimum RSS Value for Training Bayesian Knowledge Tracing Parameters[J].International Educational Data Mining Society,2015.
[8]Ye C, Segedy J R, Kinnebrew J S, et al. Learning Behavior Characterization with Multi-Feature, Hierarchical Activity Se-
quences[J].International Educational Data Mining Society,2015.
[9]Alharbi G, Hain T. Using Topic Segmentation Models for the Automatic Organisation of MOOCs Resources[J].International Educational Data Mining Society,2015.
[10]Alexandron G, Zhou Q, Pritchard D. Discovering the Peda-gogical Resources that Assist Students in Answering Questions Correctly-A Machine Learning Approach[J].International Educa-
tional Data Mining Society,2015
[11]Doroudi S, Holstein K, Aleven V, et al. Towards Understan-ding How to Leverage Sense-Making, Induction and Refinement,
and Fluency to Improve Robust Learning[J].International Edu-cational Data Mining Society,2015.
[12]Crossley S, McNamara D S, Baker R, et al. Language to Completion: Success in an Educational Data Mining Massive Open Online Class[J].International Educational Data Mining Society,2015.
[13]Tang S, Gogel H, McBride E, et al. Desirable Difficulty and Other Predictors of Effective Item Orderings[J].International Educational Data Mining Society,2015.
[14]Agnihotri L, Aghababyan A, Mojarad S, et al. Mining Login
Data for Actionable Student Insight[J].International Educa-tional Data Mining Society,2015.
[15]Bhatnagar S, Lasry N, Desmarais M, et al. An Analysis of
Peer-Submitted and Peer-Reviewed Answer Rationales, in an
Asynchronous Peer Instruction Based Learning Environment[J].
International Educational Data Mining Society,2015.
[16]Bravo J, Romero S J, Luna M, et al. Exploring the influence of ICT in online students through data mining tools[J].Interna-tional Educational Data Mining Society,2015.endprint