王傳根+吳昊+劉路路



摘要:隨著大數(shù)據(jù)時(shí)代的到來,對(duì)當(dāng)前教學(xué)、學(xué)習(xí)考核思維模式都有了新的發(fā)展需求,文章探討了當(dāng)前教育大數(shù)據(jù)的存儲(chǔ)方式,如何對(duì)大數(shù)據(jù)進(jìn)行挖掘、提煉進(jìn)而分析教育大數(shù)據(jù)。這些方法對(duì)教師來說可以提高教學(xué)質(zhì)量、掌握學(xué)習(xí)者的學(xué)習(xí)特征,從而針對(duì)不同的學(xué)習(xí)者給出需要的教學(xué)內(nèi)容和形式,從而提高學(xué)習(xí)效率。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)分析;大數(shù)據(jù)存儲(chǔ)
中圖分類號(hào):G434 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2017)42-0213-03
一、引言
當(dāng)前,教育信息化已成為成主流趨勢(shì),其應(yīng)用方面,如Web考試系統(tǒng),技術(shù)也相當(dāng)成熟,但在考試過程控制、題庫(kù)管理等方面還存在一定的問題,主要是考生的考試結(jié)果系統(tǒng)不能實(shí)時(shí)保存,如此考試的一些重要參數(shù)無(wú)法統(tǒng)計(jì),也就很難實(shí)現(xiàn)對(duì)考試的客觀評(píng)價(jià);另外還有如電子白板、在線課程、各種多媒體應(yīng)用軟件等,但這些信息化技術(shù)最大的不足之處就是缺乏對(duì)課程信息的分析[1]。在大數(shù)據(jù)背景下,其目的是發(fā)掘數(shù)據(jù)是否有關(guān)系,然后透過數(shù)據(jù)之間的關(guān)系來預(yù)測(cè)下一步要發(fā)生的事情[2]。相關(guān)關(guān)系的核心是量化數(shù)據(jù)之間的關(guān)系。大數(shù)據(jù)時(shí)代有其重要的特征,如數(shù)字?jǐn)?shù)據(jù)矚目的速率增長(zhǎng),人們的生活、生產(chǎn)方式也發(fā)生著前所未有的變化,這些新特點(diǎn),也是當(dāng)前的課程教學(xué)、考核改革方向的熱點(diǎn)。大數(shù)據(jù)具有三個(gè)特征[3]:數(shù)據(jù)量大、數(shù)據(jù)產(chǎn)生得快、數(shù)據(jù)具有多樣性。第一,由于課程的學(xué)習(xí)者、考核數(shù)據(jù)、評(píng)估數(shù)據(jù)等規(guī)模都非常大,因此用來學(xué)習(xí)的樣本量本身就很大,并且,在此系統(tǒng)運(yùn)行過程中會(huì)產(chǎn)生新的數(shù)據(jù),這些數(shù)據(jù)通常在運(yùn)行過程中是指數(shù)倍增長(zhǎng),往往超出一般數(shù)據(jù)庫(kù)軟件所能捕捉、存儲(chǔ)和分析的數(shù)據(jù)量。第二,大數(shù)據(jù)往往是在課程學(xué)習(xí)、分析等過程中新產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)是即時(shí)產(chǎn)生,而不是事件發(fā)生后去采集的。第三,大數(shù)據(jù)擁有非常多的數(shù)據(jù)類型,課程中的每個(gè)學(xué)習(xí)步驟,都可以跟蹤采集相關(guān)學(xué)習(xí)行為的數(shù)據(jù),如觀看學(xué)習(xí)視頻時(shí)間長(zhǎng)度、平時(shí)測(cè)試的分?jǐn)?shù)、通過率、課程討論發(fā)帖數(shù)量、發(fā)帖的質(zhì)量等,這樣的數(shù)據(jù)采集也是不容易的,需要一定的軟硬件環(huán)境。從這三個(gè)特征我們也可以發(fā)現(xiàn),大數(shù)據(jù)時(shí)代背景下,課程的學(xué)習(xí)模式、教學(xué)模式、考核模式等都是通過對(duì)大量數(shù)據(jù)的獲取以此產(chǎn)生新的數(shù)據(jù)并進(jìn)行分析,從而科學(xué)地進(jìn)行課程改革,提高學(xué)習(xí)效率。文中主要討論如何確立數(shù)據(jù)的高效存儲(chǔ)、如何確保數(shù)據(jù)的高質(zhì)量性,以及如何對(duì)數(shù)據(jù)進(jìn)行分析以保障課程教學(xué)和學(xué)生學(xué)習(xí)質(zhì)量。
二、大數(shù)據(jù)存儲(chǔ)技術(shù)
大數(shù)據(jù)時(shí)代,數(shù)據(jù)的多樣性以及數(shù)據(jù)量的豐富使得早期的關(guān)系數(shù)據(jù)存儲(chǔ)方式已經(jīng)很難滿足現(xiàn)實(shí)的需求,存儲(chǔ)問題也是當(dāng)前大數(shù)據(jù)時(shí)代急需解決的問題。大數(shù)據(jù)時(shí)代的另一個(gè)概念就是云存儲(chǔ)。當(dāng)前,信息資源以海量形式存儲(chǔ)于“云”上已經(jīng)成為一種趨勢(shì)?;诖髷?shù)據(jù)的課程教學(xué)、學(xué)習(xí)結(jié)合“云計(jì)算”的存儲(chǔ)技術(shù)來實(shí)現(xiàn)的大數(shù)據(jù)存儲(chǔ)環(huán)境,可根據(jù)數(shù)據(jù)的類型、結(jié)構(gòu)不同而選擇不同的數(shù)據(jù)存儲(chǔ)方案,使各種類的數(shù)據(jù)及時(shí)、高效地同步到數(shù)據(jù)的“云”中心。大數(shù)據(jù)存儲(chǔ)管理是一項(xiàng)系統(tǒng)工程[4],是多種技術(shù)的協(xié)同工作。目前比較主流的是分布式文件系統(tǒng)(DFS,Distributed File System),本質(zhì)上這是一個(gè)基于C/S的應(yīng)用程序,通常包括主控節(jié)點(diǎn)、多個(gè)數(shù)據(jù)節(jié)點(diǎn)和各種大數(shù)據(jù)應(yīng)用或者終端用戶組成的客戶端。分布式存儲(chǔ)的目的是將大數(shù)據(jù)劃分為小數(shù)據(jù),均勻分布至多個(gè)數(shù)據(jù)節(jié)點(diǎn)上,將數(shù)據(jù)的規(guī)模降到單個(gè)節(jié)點(diǎn)可以處理的程度,其結(jié)構(gòu)如圖1所示:
三、基于大數(shù)據(jù)的學(xué)習(xí)評(píng)估
當(dāng)前,隨著大數(shù)據(jù)的浪潮,大數(shù)據(jù)處理與分析已經(jīng)成為教育領(lǐng)域改革與發(fā)展的熱點(diǎn),世界各國(guó)政府和教育行政部門都對(duì)此高度重視。2012年美國(guó)教育部發(fā)布了《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》的報(bào)告。其主要內(nèi)容是要求對(duì)教育大數(shù)據(jù)進(jìn)行分析挖掘,獲取有用的信息,促進(jìn)美國(guó)的教育發(fā)展[2]。通過上節(jié)的分析可知當(dāng)前教育大數(shù)據(jù)的存取有了較為可靠的技術(shù)基礎(chǔ),但通常我們獲取的只是教育大數(shù)據(jù)的原始信息數(shù)據(jù),如圖2所示,只有通過設(shè)計(jì)各種相應(yīng)的算法對(duì)各種采集到的原始教育數(shù)據(jù)進(jìn)行挖掘,開發(fā)相應(yīng)的學(xué)習(xí)分析模型軟件,發(fā)現(xiàn)影響教育各因素之間的關(guān)系,并實(shí)現(xiàn)賦予這些影響教育的因素的相關(guān)意義,才能使這些因素?cái)?shù)據(jù)轉(zhuǎn)變?yōu)樾畔?;并?jīng)過進(jìn)一步的分析和綜合,形成知識(shí);最后通過實(shí)踐運(yùn)用,知識(shí)才上升到智慧層次[5]。從圖2可以知道,大量的原始數(shù)據(jù)經(jīng)過一步步處理、提煉、挖掘、分析得到我們想要的能夠應(yīng)用的智慧信息。因此,教育數(shù)據(jù)挖掘和學(xué)習(xí)分析技術(shù)是大數(shù)據(jù)學(xué)習(xí)評(píng)估的關(guān)鍵技術(shù)。
1.教育數(shù)據(jù)挖掘。教育數(shù)據(jù)挖掘是運(yùn)用數(shù)理統(tǒng)計(jì)、人工智能與機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等數(shù)學(xué)和計(jì)算機(jī)技術(shù)等多種技術(shù),對(duì)原始教育大數(shù)據(jù)進(jìn)行分析處理,通過數(shù)理統(tǒng)計(jì)知識(shí)來構(gòu)建相應(yīng)的數(shù)據(jù)模型,對(duì)學(xué)習(xí)結(jié)果、學(xué)習(xí)內(nèi)容、學(xué)習(xí)資源以及教學(xué)行為等各種變量之間的相互關(guān)系進(jìn)行分析[6],當(dāng)然,這種分析是通過設(shè)計(jì)的數(shù)據(jù)挖掘算法來實(shí)現(xiàn)的,分析的結(jié)果要求能較好地預(yù)測(cè)學(xué)習(xí)者后面所想要學(xué)習(xí)的內(nèi)容(當(dāng)然是根據(jù)當(dāng)前推導(dǎo)而來),并為教育管理者、學(xué)習(xí)者、教育教學(xué)研究者以及教學(xué)軟件開發(fā)者提供信息,實(shí)現(xiàn)教育系統(tǒng)中教育資源的良性互動(dòng),最終實(shí)現(xiàn)改進(jìn)學(xué)習(xí)的目的。數(shù)據(jù)挖掘還可以區(qū)分優(yōu)等生和差生(這里強(qiáng)調(diào)的考試成績(jī))的一些學(xué)習(xí)特征,如隨堂測(cè)試的分?jǐn)?shù)、參與課堂討論的頻度等。因此,教育數(shù)據(jù)挖掘主要是對(duì)大量數(shù)據(jù)的分析后對(duì)學(xué)生的學(xué)習(xí)狀況,以及未來學(xué)習(xí)趨勢(shì)進(jìn)行的一般反饋,不具備量體裁衣的功能,但具有指導(dǎo)性意義[7]。教育數(shù)據(jù)挖掘流程具體如圖3所示。
2.學(xué)習(xí)分析。學(xué)習(xí)分析與教育數(shù)據(jù)挖掘研究的對(duì)象有所區(qū)別,數(shù)據(jù)挖掘研究的對(duì)象應(yīng)該是一個(gè)集合,但學(xué)習(xí)分析的研究對(duì)象主要是學(xué)習(xí)者個(gè)體、個(gè)體特定的學(xué)習(xí)環(huán)境,目的是通過對(duì)教育大數(shù)據(jù)的分析和建模即數(shù)據(jù)挖掘來進(jìn)行知識(shí)發(fā)現(xiàn),預(yù)測(cè)學(xué)習(xí)者潛在的問題,通過這些發(fā)掘點(diǎn),我們可以設(shè)計(jì)相應(yīng)的、針對(duì)個(gè)體本身的課程內(nèi)容和形式來幫助對(duì)應(yīng)有學(xué)習(xí)問題的學(xué)習(xí)者,同時(shí)也可以幫助教師改進(jìn)教學(xué)方法和設(shè)計(jì)針對(duì)個(gè)體的教學(xué)方案[8]。學(xué)習(xí)分析強(qiáng)調(diào)針對(duì)個(gè)體學(xué)習(xí)的特征,例如設(shè)計(jì)適應(yīng)學(xué)習(xí)者水平和能力的教學(xué)內(nèi)容,對(duì)于學(xué)習(xí)有困難、有障礙的學(xué)習(xí)者進(jìn)行干預(yù),提供反饋等[9]。endprint
學(xué)習(xí)分析具體過程如圖4所示。首先,學(xué)習(xí)者對(duì)當(dāng)前的教學(xué)內(nèi)容以及教學(xué)方式進(jìn)行學(xué)習(xí),在這個(gè)過程中會(huì)產(chǎn)生大量數(shù)據(jù),數(shù)據(jù)按照特定的存儲(chǔ)模式如DFS模式進(jìn)行存儲(chǔ)。之后,系統(tǒng)會(huì)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行挖掘、提煉,并保存結(jié)果進(jìn)行大數(shù)據(jù)學(xué)習(xí)分析,這樣可以通過分析對(duì)學(xué)習(xí)者的特征進(jìn)行歸類,并通過預(yù)測(cè)模型對(duì)課程內(nèi)容和教學(xué)環(huán)節(jié)順序進(jìn)行調(diào)整。如可以降低或者加大課程內(nèi)容難度、提供更多的先修課程。對(duì)于教師和教學(xué)研究者,通過基于教育數(shù)據(jù)挖掘結(jié)果和大數(shù)據(jù)的學(xué)習(xí)分析,可以對(duì)學(xué)習(xí)有困難、有障礙的學(xué)生進(jìn)行干預(yù),對(duì)個(gè)體進(jìn)行方案的調(diào)整。學(xué)習(xí)分析對(duì)數(shù)據(jù)基本沒有要求,可以是結(jié)構(gòu)化數(shù)據(jù)也可以是非結(jié)構(gòu)化的數(shù)據(jù)甚至是多媒體數(shù)據(jù)[10]。結(jié)構(gòu)化數(shù)據(jù)往往指量化的數(shù)據(jù),包括平時(shí)作業(yè)和平時(shí)測(cè)驗(yàn)成績(jī)、考試成績(jī)、學(xué)習(xí)過程中發(fā)生的時(shí)間、次數(shù)等數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)一般指在線發(fā)帖子、作業(yè)內(nèi)容、參與小組報(bào)告等;對(duì)媒體數(shù)據(jù)往往是學(xué)習(xí)者上傳或者下載的學(xué)習(xí)視頻、PPT課件等,這些數(shù)據(jù)構(gòu)成了我們當(dāng)前學(xué)習(xí)評(píng)估的新方向。例如教育數(shù)據(jù)挖掘過去評(píng)估較為簡(jiǎn)單,即考試分?jǐn)?shù),還有一些過程性評(píng)估大都通過模糊的方式來對(duì)學(xué)習(xí)行為進(jìn)行大概的描述。當(dāng)前,通過教育大數(shù)據(jù)的分析可以準(zhǔn)確、實(shí)時(shí)地跟蹤和記錄學(xué)習(xí)者發(fā)生的行為,這也必然會(huì)帶來教育研究質(zhì)量的提升、研究范圍的拓展以及研究深度的挖掘[11]。
四、結(jié)論
大數(shù)據(jù)作為信息技術(shù)發(fā)展的新趨勢(shì),同樣對(duì)于當(dāng)前教育改革也是重要因素。在大數(shù)據(jù)時(shí)代這樣的背景下,教育領(lǐng)域同樣蘊(yùn)藏著具有廣泛應(yīng)用價(jià)值的海量數(shù)據(jù),如何對(duì)這些海量數(shù)據(jù)進(jìn)行提煉以便更好地指導(dǎo)我們的學(xué)習(xí)是研究的關(guān)鍵。文中主要討論了學(xué)習(xí)分析和數(shù)據(jù)挖掘這兩大大數(shù)據(jù)在教育領(lǐng)域處理的關(guān)鍵技術(shù)。教育數(shù)據(jù)挖掘可以對(duì)獲取的大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析、綜合和推理,發(fā)掘數(shù)據(jù)之間的關(guān)聯(lián)以及規(guī)則,做出教育預(yù)測(cè)和決策;大數(shù)據(jù)的教育學(xué)習(xí)分析對(duì)學(xué)習(xí)者提供干預(yù),設(shè)計(jì)相應(yīng)的適應(yīng)于個(gè)人的學(xué)習(xí)方案,同時(shí)對(duì)教育工作者或者教學(xué)管理者的教學(xué)方式、教學(xué)內(nèi)容、教學(xué)設(shè)計(jì)提供方案,使教學(xué)實(shí)踐活動(dòng)轉(zhuǎn)向關(guān)注個(gè)體,這將有利于促進(jìn)教育公平。盡管基于教育大數(shù)據(jù)分析給我們展現(xiàn)了美好的愿望,但實(shí)現(xiàn)這一系列的數(shù)據(jù)采集、存儲(chǔ)以及分析面臨著較多的困難。第一,當(dāng)前大數(shù)據(jù)挖掘和學(xué)習(xí)分析的分析者和管理者嚴(yán)重匱乏,獲取大數(shù)據(jù)的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)不夠;第二,缺乏數(shù)據(jù)共享的政策保障;第三,數(shù)據(jù)采集和分析如何確保個(gè)人隱私保護(hù);第四,由于大數(shù)據(jù)分析和傳輸對(duì)硬件和軟件的要求很高,這就需要有足夠的硬件和軟件資源。這都是亟待解決的問題[10]。
參考文獻(xiàn):
[1]張燕南,胡繼岳.關(guān)于大數(shù)據(jù)應(yīng)用與教育的思考[J].中國(guó)電力教育,2013,3(32):5-7.
[2]徐鵬,王以寧,劉艷華,張海.大數(shù)據(jù)視角分析學(xué)習(xí)變革——美國(guó)《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》報(bào)告解讀及啟示[J].遠(yuǎn)程教育雜志,2013,(6):11-17.
[3]http://en.weikipedia.org/wiki/Big_data.
[4]Jeffery D,Ghemawat S. MapReduce:simplified data processing on large clusters [J].Communications of the ACM,2008,51(1):107-113.
[5]馬婧,韓錫斌,周潛,程建鋼.基于學(xué)習(xí)分析的高校師生在線教學(xué)群體行為的實(shí)證研究[J].電化教育研究,2014,(2):13-18.
[6]魏順平.教育數(shù)據(jù)的挖掘、分析、應(yīng)用[J].中小學(xué)信息技術(shù)教育,2013,(10):18-21.
[7]夏火松.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].北京:科學(xué)出版社,2004:124-205.
[8]楊慶安,趙偉男,張海.大數(shù)據(jù)在教育領(lǐng)域應(yīng)用的學(xué)習(xí)分析框架構(gòu)建[J].軟件導(dǎo)刊:教育技術(shù),2013,12(5):88-89.
[9]張羽.教育政策定量評(píng)估方法中的因果推斷模型以及混合方法的啟示[J].清華大學(xué)教育研究,2013,34(3):29-40.
[10]張羽,李越.基于MOOCs大數(shù)據(jù)的學(xué)習(xí)分析和教育測(cè)量介紹[J].清華大學(xué)教育研究,2013,4(34):22-26.
[11]James Manyika,Micehael Chui,Brad Brown,et al."Big data:The Next Frontier for Innovation,Competition,and Productivity" McKinsey Global Institute(2011).endprint