魏順平
(國家開放大學 信息化部(工程中心),北京 100039)
學習分析數(shù)據(jù)模型及數(shù)據(jù)處理方法研究 *
魏順平
(國家開放大學 信息化部(工程中心),北京 100039)
數(shù)據(jù)是學習分析的基礎(chǔ),應(yīng)用恰當?shù)臄?shù)據(jù)處理方法則是學習分析成功的關(guān)鍵。該文抓住學習分析領(lǐng)域這兩個關(guān)鍵點,采用演繹與歸納相結(jié)合的方法,即在格框架指導下演繹得出學習分析數(shù)據(jù)模型的基本框架,參考Moodle學習平臺中的數(shù)據(jù)表結(jié)構(gòu)來豐富數(shù)據(jù)模型中的各個細節(jié),構(gòu)建了學習分析數(shù)據(jù)模型;接著以數(shù)據(jù)模型中的“學習行為”數(shù)據(jù)表為例,列出了這一數(shù)據(jù)表中可能出現(xiàn)的數(shù)據(jù)子集,以實際案例介紹了針對不同數(shù)據(jù)子集的處理方法。學習分析實踐表明,這些處理方法中最為常用的是分類匯總,在分類匯總的基礎(chǔ)上可進一步采用聚類、社會網(wǎng)絡(luò)分析、文本挖掘等方法,使分析不斷走向深入。
學習分析;格框架;數(shù)據(jù)模型;數(shù)據(jù)處理方法
美國新媒體聯(lián)盟(NMC)在地平線報告中連續(xù)四年(從2011年開始)把學習分析作為影響教育發(fā)展的趨勢和關(guān)鍵技術(shù)[1-4],并指出學習分析是從教育大數(shù)據(jù)或者與學生相關(guān)的海量數(shù)據(jù)中辨別他們的學習行為發(fā)展趨勢和模式,以此促進個性化的高等教育支持系統(tǒng)。這在一個大數(shù)據(jù)盛行的時代,教育領(lǐng)域的研究者、管理者、教師、技術(shù)人員都會去嘗試使用學習分析技術(shù),去挖掘手中持有的教育大數(shù)據(jù)的價值。
這種對學習分析技術(shù)應(yīng)用的廣泛探索讓我們看到了諸多可能性,并讓我們發(fā)現(xiàn)學習分析技術(shù)簡直無所不能。綜合相關(guān)研究對學習分析領(lǐng)域的梳理[5][6],作者將學習分析典型應(yīng)用分為四類,即現(xiàn)狀描述、教學評價、未來預測、教學干預,主要利益相關(guān)者可分為管理者、教師、學生及研究人員。
正因為學習分析應(yīng)用非常廣泛,讓相關(guān)人員躍躍欲試。來自英國開放大學教育技術(shù)研究所的研究表明,要讓教師和學生參與到學習分析過程中來,而不僅僅是利用他們產(chǎn)生的數(shù)據(jù),他們的介入是解讀數(shù)據(jù)分析結(jié)果并使分析結(jié)論應(yīng)用于改進教學和學習的關(guān)鍵[7]。然而,教師和學生在參與到學習分析過程中,學習已有的學習分析研究,往往只能看到起因和結(jié)果,中間的過程往往不呈現(xiàn),數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)處理細節(jié)往往是黑箱。因此,本文擬重點介紹學習分析中的數(shù)據(jù)結(jié)構(gòu)及其處理方法,使每個讀者真正掌握學習分析的技術(shù)細節(jié),使這一技術(shù)真正發(fā)揮作用。
本文關(guān)注的對象主要有學習分析數(shù)據(jù)模型及其處理方法,下面我們來了解一下學習分析領(lǐng)域有關(guān)數(shù)據(jù)結(jié)構(gòu)及其處理方法的研究情況。
在學習分析中采用哪些數(shù)據(jù)才能更加深入全面地描述和解析學生的學習過程及狀態(tài)是學習分析技術(shù)應(yīng)用者比較關(guān)注的問題,并且該問題一直沒有得到很好的解決。張艷霞等從數(shù)據(jù)來源、數(shù)據(jù)項、數(shù)據(jù)收集方法以及在學習分析中的應(yīng)用等四個方面對2011年至2014年發(fā)表的學習分析數(shù)據(jù)集相關(guān)文獻133篇進行了內(nèi)容分析,總結(jié)得出了三類數(shù)據(jù)集包括行為數(shù)據(jù)集、情境數(shù)據(jù)集和注意元數(shù)據(jù)集,并給出了分析方法[8]。在張艷霞等的研究中,學習分析中的數(shù)據(jù)集特指與學生學習屬性和學習環(huán)境相關(guān)的原始數(shù)據(jù)項或者用于表征學習行為或?qū)W習環(huán)境的聚合數(shù)據(jù)項的集合。上述三類數(shù)據(jù)集中的行為數(shù)據(jù)集與本文擬構(gòu)建的學習分析數(shù)據(jù)模型較為接近。在張艷霞等的研究中,主要介紹了Verbert等人提出的學習行為數(shù)據(jù)集。Verbert等人提出的行為數(shù)據(jù)集包括五大類數(shù)據(jù)項:(1)描述行為主體(包括學生和教師)特征的數(shù)據(jù)項;(2)描述行為客體(資源)特征的數(shù)據(jù)項;(3)描述行為類別的數(shù)據(jù)項;(4)描述行為結(jié)果特征的數(shù)據(jù)項;(5)描述行為發(fā)生情境特征的數(shù)據(jù)項[9]。這一行為數(shù)據(jù)集不僅包含了用于描述行為本身屬性的數(shù)據(jù)項,而且包含了用于描述行為主體、行為客體、發(fā)生的情境以及產(chǎn)生的結(jié)果特征的一系列數(shù)據(jù)項。Verbert等人對學習行為的五要素描述可以說是非常全面了,但是不能確定是否已經(jīng)窮盡所有要素。例如行為客體是否僅有“資源”,諸如一些活動如討論、作業(yè)、調(diào)查、Wiki協(xié)同編輯是否也屬于行為客體。并且數(shù)據(jù)集這一概念僅僅強調(diào)各種數(shù)據(jù)項的集合,而忽略了數(shù)據(jù)項之間的關(guān)系描述,而在一個學習系統(tǒng)中這些數(shù)據(jù)項是關(guān)聯(lián)在一起的,因此數(shù)據(jù)集這一概念不適于描述學習分析中的數(shù)據(jù)。
已有學習分析研究領(lǐng)域的綜述性研究都會概要性介紹學習分析中可以用到的數(shù)據(jù)處理方法,所有學習分析研究領(lǐng)域的實證性研究都會用到若干數(shù)據(jù)處理方法。概括起來,學習分析中可以用到的數(shù)據(jù)處理方法涉及統(tǒng)計分析、聚類、預測、關(guān)系挖掘、文本挖掘等一系列數(shù)據(jù)挖掘方法,以及內(nèi)容分析、話語分析、社會網(wǎng)絡(luò)分析、系統(tǒng)建模等技術(shù)等社會學領(lǐng)域研究方法[10]。一般情況下,研究論文在限于篇幅以及聚焦重點的前提下并不會給出這些方法的操作過程,更多地是介紹數(shù)據(jù)樣本、所用工具,接著就是呈現(xiàn)結(jié)果,中間過程永遠是一個黑箱。并且從已有的學習分析實證研究來看,可以分析的點非常多,給出的可視化圖表也是各有各的樣,似乎數(shù)據(jù)可以進行無窮的變化,讓人抓不住頭腦。
針對已有研究現(xiàn)狀,本文提出構(gòu)建學習分析數(shù)據(jù)模型,并基于數(shù)據(jù)模型中數(shù)據(jù)項的組合和關(guān)聯(lián)情境給出數(shù)據(jù)處理方法。這一模型由學習行為及行為相關(guān)要素的數(shù)據(jù)表結(jié)構(gòu),以及這些數(shù)據(jù)表之間的關(guān)聯(lián)關(guān)系構(gòu)成。在模型構(gòu)建過程中,將采用演繹與歸納相結(jié)合的方法,即在一定的理論框架演繹得出學習分析數(shù)據(jù)模型的基本框架,然后參考已有學習平臺中的數(shù)據(jù)表結(jié)構(gòu)來豐富數(shù)據(jù)模型中的各個細節(jié)。這樣才能做到既不漏掉學習相關(guān)的重要信息,又能保證數(shù)據(jù)模型的可行性。模型構(gòu)建完成后,對模型中的數(shù)據(jù)項進行任意組合和關(guān)聯(lián),形成各類數(shù)據(jù)子集,并以實例呈現(xiàn)應(yīng)用情境,給出數(shù)據(jù)處理方法。如此將具體應(yīng)用情境、數(shù)據(jù)和處理方法結(jié)合在一起,使得處理方法更易于在其他任務(wù)情境中遷移應(yīng)用。
為使學習分析所需數(shù)據(jù)既有系統(tǒng)性,在采集過程中又有可行性,本文將采用演繹與歸納相結(jié)合的方法來構(gòu)建學習分析中的數(shù)據(jù)模型,首先采用格框架的方法演繹得出數(shù)據(jù)模型的基本框架,然后參考已有學習平臺中的數(shù)據(jù)表結(jié)構(gòu)來豐富數(shù)據(jù)模型中的各個細節(jié)。
格框架是采用格語法進行語言分析的結(jié)果表示方式。格語法(Case Grammar)是美國語言學家菲爾墨(C.J.Fillmore)在60年代中期提出來的著重探討句法結(jié)構(gòu)與語義之間關(guān)系的一種語法理論和語義學理論[11]。
菲爾墨在1996年認為命題中需用的格包括6種:(1)施事格,(2)工具格,(3)承受格,(4)使成格,(5)方位格,(6)客體格。后來,他在語言分析時又加了一些格:(7)受益格,(8)源點格,(9)終點格,(10)伴隨格。菲爾墨先后提出過16種語義格。
“格”語法理論介紹到中國來之后,引起了漢語語法學界的興趣,并吸收消化,用來研究漢語中名詞和動詞之間的格關(guān)系。孟琮在他們的《動詞用法詞典》中把名詞與動詞的格關(guān)系細分為14類[12]。魯川、林杏光根據(jù)漢語的特點,把“格語法”的說法,改為“格關(guān)系”說法。他們還認為格關(guān)系有層級性,“格系統(tǒng)是一棵樹”。在他們所設(shè)想的“格系統(tǒng)”里,先分六種體:主體(Nominative)、客體(Accusative)、鄰體(Dative)、方式(Means)、根由(Reason)、環(huán)境(Situation)[13]。每一種體下分三個格,如主體包括施事格、當事格、系事格,客體包括受事格、結(jié)果格、對象格等。
在格框架中,不僅可以有語法信息,而且還有許多語義信息,語言信息是整個格框架的最基本的部分。一個格框架可由一個主要概念和一組輔助概念組成,這些輔助概念以一種適當定義的方式同主要概念相聯(lián)系。在實際使用中,主要概念可以理解為動詞,輔助概念理解為施事格、受事格、處所格、工具格、工具格等語義深層格。
學習分析的對象自然是學生的學習,學習分析要用到的數(shù)據(jù)就是用來描述學習的數(shù)據(jù)。通過數(shù)據(jù)對一個事物的完整記錄,前提是明確事物的各種屬性和關(guān)系,并采用不同字段來記錄這些屬性和關(guān)系。對于一個動作“學習”而言,恰好可以通過格框架方法來窮盡它所有的語義關(guān)系。我們采用格語法中的格框架方法,以“學習”為中心謂詞進行語義格標識,以明確“學習”的各種構(gòu)成要素。常見的語義格包括施事格、客體格、與格、工具格、目標格、使成格、處所格、時間格等。所得結(jié)果如圖1所示。

圖1 學習要素框架
如圖1所示,一次“學習”的構(gòu)成要素包括“學習者”“學習伙伴”“學習內(nèi)容”“學習工具”“學習目標”“學習結(jié)果”“學習環(huán)境”“學習時間”等,這便可視為學習分析中的數(shù)據(jù)模型的基本框架。
從已有研究和實踐來看,學習分析確切地說是在線學習分析,因為只有在線學習才能以數(shù)據(jù)的形式記錄學習過程,而這些數(shù)據(jù)是分析的基礎(chǔ)。當然,隨著技術(shù)的進步和智慧學習環(huán)境的不斷落地,線下學習和線上學習已完美融合,所有學習活動均有記錄,學習分析將回歸它的本義。因此,本研究將進一步結(jié)合在線學習平臺已有數(shù)據(jù)表結(jié)構(gòu)來對數(shù)據(jù)模型進行細化。鑒于Moodle學習平臺是目前世界上最流行的開源學習管理系統(tǒng)之一,得到了國際廣泛的認可和應(yīng)用,本文將主要結(jié)合Moodle學習平臺(具體為Moodle2.6版本)來對模型進行細化。
在學習平臺中,對整個學習過程的記錄是通過一次次的學習行為記錄來實現(xiàn)的。這些學習行為可以是瀏覽一個資源、發(fā)表一個帖子、提交一個作業(yè)等。我們進一步來認識學習平臺中學習行為數(shù)據(jù)的表結(jié)構(gòu),以及與之關(guān)聯(lián)的其他表結(jié)構(gòu),從而得到一個可操作的數(shù)據(jù)模型。
一般我們這樣描述一次在線教學(學習)行為:小李在2012-2-1 12:11:00瀏覽了“媒體輔助英語教學”課程“Resource模塊”編號為1的資源。這樣一次行為,記錄在學習平臺日志數(shù)據(jù)表中,它的基本結(jié)構(gòu)如表1所示。

表1 在線學習行為日志數(shù)據(jù)表(樣例)
通過上述行為日志可以看出,一個行為由中心謂詞和各種體詞構(gòu)成。中心謂詞“動作”,與之相關(guān)的體詞,包括用戶、時間、所屬課程、所屬模塊、操作對象編號等。參考前文得出的學習要素框架,圍繞“行為”,有行為主體、行為客體、發(fā)生場所、發(fā)生時間等語義關(guān)系,并可能產(chǎn)生結(jié)果,于是我們可以得到學習行為的要素框架,它是學習要素框架的一個簡化版,如圖2所示。這里的“結(jié)果”要素屬于可選項,如“瀏覽資源”的行為不會產(chǎn)生結(jié)果記錄,而“發(fā)帖”則會產(chǎn)生結(jié)果記錄,結(jié)果就是帖子的內(nèi)容。

圖2 學習行為要素框架
根據(jù)這一要素框架,我們至少需要五類相對獨立的數(shù)據(jù)表(時間無需單獨記錄)來記錄學習行為及其要素,包括“行為”日志數(shù)據(jù)表、學習者數(shù)據(jù)表、學習內(nèi)容數(shù)據(jù)表(包括學習資源、討論話題、作業(yè)等學習內(nèi)容)、學習處所數(shù)據(jù)表(分為學習平臺模塊和課程學習單元兩類處所)以及學習結(jié)果數(shù)據(jù)數(shù)據(jù)表(包括論壇發(fā)帖、作業(yè)成績、課程成績等),結(jié)合Moodle平臺的已有數(shù)據(jù)表結(jié)構(gòu),可形成以“學習行為”數(shù)據(jù)表為中心的表結(jié)構(gòu),這就是學習分析中的數(shù)據(jù)模型,如圖3所示。圖中的箭頭表示兩個數(shù)據(jù)表中對應(yīng)字段的引用關(guān)系,以“行為日志”數(shù)據(jù)表指向“平臺模塊”數(shù)據(jù)表的箭頭為例,線段連接的是兩個表中的“模塊ID”字段,表明“行為日志”數(shù)據(jù)表中的模塊ID取自“平臺模塊”數(shù)據(jù)表中的“模塊ID”,二者之間是多對一的關(guān)系。

圖3 學習分析數(shù)據(jù)模型
前文已經(jīng)給出了學習分析中的數(shù)據(jù)模型,接下來介紹這對這一數(shù)據(jù)模型的處理方法。前文的文獻綜述已經(jīng)指出,學習分析中可以使用的數(shù)據(jù)處理方法和工具非常多,關(guān)鍵是建立起數(shù)據(jù)與方法之間的對應(yīng)關(guān)系,要明確數(shù)據(jù)的內(nèi)容、類型以及范圍,并為之選擇恰當?shù)奶幚矸椒?。前文?gòu)建的數(shù)據(jù)模型涉及的數(shù)據(jù)字段太多,籠統(tǒng)地處理,無法給出具體的方法,如果每次處理1-2個字段,則可以很明確地給出處理方法。下面就對數(shù)據(jù)模型中的數(shù)據(jù)進行分組,并按不同的分組給出不同的處理方法和實例。
在學習分析用數(shù)據(jù)中,從變量類型的角度看,多數(shù)變量都是分類變量,一種基礎(chǔ)的處理方法就是分類匯總,匯總方式可以根據(jù)匯總項的數(shù)據(jù)類型確定。如果匯總項為分類變量,一般采用“計數(shù)”這一匯總方式;如果匯總項為連續(xù)變量,則可采用“求和、平均值、標準偏差”等多種匯總方式。
當然,學習分析工作遠比單個變量的分類匯總復雜,往往需要選取兩個或兩個以上變量進行分類,通過分類匯總,來使原本信息量少、價值密度低的數(shù)據(jù)得到聚合,形成的匯總記錄將用來做更加復雜的運算,如聚類、關(guān)聯(lián)規(guī)則、時序分析、社會網(wǎng)絡(luò)分析等。這樣一來,這種分類組合多樣,對于一行擁有N個字段的行記錄而言,其分類組合可以有(2n-1)個。本文給出的行為日志數(shù)據(jù)表,其字段數(shù)為8個,除去行為ID字段不參與分類,那么可能的分類組合有(27-1)個即127個。具體到學習分析領(lǐng)域,每個分類組合的計算方法并不都一樣,而要根據(jù)具體教學需要進行不同程度的深入分析。限于篇幅并為了聚焦重點,下面以最重要的行為日志數(shù)據(jù)表分析為例,以字段組合矩陣的形式直觀呈現(xiàn)所有可能的組合。如前文所述,一個學習行為有五個重要屬性,相應(yīng)形成5維度矩陣,如表2所示,給出了所有可能的單一分類變量和兩個分類變量情況,這里的分類項為五個要素,即“時間”“處所”“學習者”“內(nèi)容”“結(jié)果”,匯總項統(tǒng)一為“行為ID”。

表2 行為日志數(shù)據(jù)分析框架
這里主要介紹“單一時間”“單一學習者”的處理方法,其他單一變量處理方法與之類似。
1.單一“時間”
對于單一“時間”,只有“時間”一個分類項。但是原始的時間值以秒為單位,甚至以微妙為單位,還不能作為分類變量??梢酝ㄟ^時間函數(shù),從中抽取出年份、月份、周次、日期、星期幾、小時等內(nèi)容,并以這些抽出的新時間單位作為分類項,以行為ID作為匯總項,進行分類計數(shù),將得到一張包含兩列信息的數(shù)據(jù)表格,可以了解全體學生行為頻次的時間分布情況。
例如,我們選取某學歷教育機構(gòu)一學年的學習行為日志數(shù)據(jù),從“時間”字段提取出月份,并計算每個月份的行為頻次,得到如表3所示結(jié)果。

表3 各個月行為頻次分布

續(xù)表3
一般可依據(jù)表3繪制柱狀圖,以“時間”為橫軸,以“行為頻次”為縱軸,得到如圖4所示結(jié)果,從而可以更加直觀反映時間分布特點。
如圖4所示,一年中的時間分布特點還是很明顯的,在一個學年中,學習高峰期發(fā)生在4月、5月以及10月、11月,低谷期發(fā)生在2月(寒假)和8月(暑假)。還可以繼續(xù)以周次、日期、星期幾、小時為分類變量,繪制不同時間單位的行為頻次分布圖,進而可以了解在線學習的高峰、一周的分布特點以及一天中的分布特點。

圖4 各個月行為頻次分布
2.單一“學習者”
對于單一“學習者”,只有“學習者”一個分類項。以學習者作為分類項,以行為ID作為匯總項,進行分類計數(shù),將得到一張包含兩列信息的數(shù)據(jù)表格,可以了解每個學生行為頻次情況。
例如,選取某培訓機構(gòu)一個學期的在線培訓課程的學習行為日志數(shù)據(jù),以學習者為分類項,以行為ID為匯總項,進行分類計數(shù),得到每個學生的行為頻次數(shù),如表4所示。

表4 每個學習者的行為頻次(片段)
以學習者為分類項,所得結(jié)果即為學生數(shù)量,而一學期的培訓學員有數(shù)百人之多,這么多的數(shù)據(jù)管理者看不過來,表明數(shù)據(jù)還需進一步聚合。我們可以進一步以“行為頻次”為分類項,以學生為匯總項,進行分類計數(shù),以得到各個行為頻次對應(yīng)的學生數(shù)。
我們以100為數(shù)量級對學生在每門課程中的行為頻次劃分為0-99、100-199、200-299等行為頻次段,并以“0”“1”“2”代表這些行為頻次段,得到各級行為頻次對應(yīng)的學生人次分布,如圖5所示。

圖5 學生行為頻次數(shù)量級及對應(yīng)的人次分布圖
由圖5可知,超過1000次的學生人次為25人,可以說鳳毛麟角。行為頻次在600次以下的學生人次占到225人次,占總?cè)舜?288次)的近80%,這225人次的行為頻次均值為265次,折合每周是44次。
3.其他單一變量
對于單一“處所”,只有“處所”一個分類變量。前文已經(jīng)指出,“處所”可以是學習平臺中的各個模塊(活動模塊和資源模塊),也可以一門課程中的各個單元。以“處所”為分類項,以行為ID為匯總項,進行分類計數(shù),將得到一張包含兩列信息的數(shù)據(jù)表格,可以了解全體學生在平臺各個模塊或課程各個章節(jié)的行為頻次分布情況。
對于單一“內(nèi)容”,只有“內(nèi)容”一個分類項。這里的“內(nèi)容”是“模塊”的各個實例,如一系列學習資源,若干討論話題,若干作業(yè)等。這里并不以所有“內(nèi)容”作為分類項,而會以“模塊”作為條件對“內(nèi)容”范圍進行限定,例如限定在“Forum” “Resource”等模塊。例如,以“討論話題”為分類項,以行為ID作為匯總項,進行分類計數(shù),將得到一張包含兩列信息的數(shù)據(jù)表格,可以了解每個話題的討論深度。再如,以“瀏覽過的資源”為分類項,以行為ID作為匯總項,進行分類計數(shù),將得到一張包含兩列信息的數(shù)據(jù)表格,可以了解每個資源的瀏覽程度。
對于單一“結(jié)果”,只有“結(jié)果”一個分類項,可進行各種成績分析,或者是對發(fā)帖內(nèi)容進行內(nèi)容分析,提取其中的術(shù)語并計算頻次,也可以對普通詞匯進行切分并計算詞頻。
這里重點介紹“處所—時間”“學習者—內(nèi)容—學習者”組合。
1.“處所—時間”組合
這一組合有兩個分類變量,以“處所”為主分類變量,以“時間”作為次分類變量,“時間”的各個類別將成為處所的屬性。對于“時間”,要經(jīng)過如“單一時間”中的“時間”處理,一般抽取出周次信息。此時,以處所、周次為分類項,以行為ID為匯總項,進行分類計數(shù),將得到一張m*n數(shù)據(jù)矩陣,可以了解不同時期學生學習重點的變化。
例如,選取一門基于Moodle的在線課程的學習行為日志數(shù)據(jù),從時間中抽取出“周次”信息,然后以學習平臺模塊、周次為分類變量,以行為ID為匯總項,進行分類計數(shù),得到如表5所示結(jié)果[14]。

表5 “平臺模塊—周次”組合行為頻次分布
根據(jù)表5,繪制學生在主要學習模塊(包括Assignment、Forum、Resource、User、Wiki)的行為頻次隨周次變化的折線圖,得到如圖6所示結(jié)果。為了凸顯各模塊在不同周次的差異,這里將匯總得到的行為頻次轉(zhuǎn)換為相對值,轉(zhuǎn)換方法是將矩陣中的行為除以每周的行為頻次。

圖6 師生在主要學習模塊的活動頻次隨時間分布情況
從圖6中可以看出,除高頻訪問模塊Forum外,在前三周,學生的訪問重點是User模塊和Resource模塊,反映出學生在熟悉人和熟悉內(nèi)容。進入第5周,開始主要的學習活動,主要模塊則是Wiki以及Forum;到第6周,Wiki活動達到頂峰;到第7周,Assignment活動達到頂峰。課程最后三周,Assignment模塊的活動逐漸增強,Resource模塊活動增強,F(xiàn)orum活動相對減弱。
2.“學習者—內(nèi)容—學習者”組合
這一組合有兩個分類變量,以“學習者”為主分類變量,以“內(nèi)容”為中介變量,建立起“學習者”與“學習者”之間的關(guān)系。例如,以論壇帖子為中介,建立回復—被回復關(guān)系,以資源為中介,建立共同關(guān)注關(guān)系。此時,“行為日志數(shù)據(jù)表”已不足以滿足此項分析,而需進一步使用“論壇發(fā)帖數(shù)據(jù)表”等結(jié)果數(shù)據(jù)表。
例如,選取一門基于Moodle的在線課程的論壇發(fā)帖數(shù)據(jù)表,以發(fā)帖人ID、被回復人ID(通過父貼ID查詢得到)為分類項,以帖子ID為匯總項,進行分類匯總,將得到一個回復關(guān)系矩陣,矩陣中的行和列分別代表參與網(wǎng)上討論的師生,i行與j列對應(yīng)的值Zij表示成員i回復成員j言論的次數(shù)[15]。其矩陣樣例如表6所示。

表6 回復關(guān)系矩陣
根據(jù)上述回復關(guān)系矩陣,借助UCINET社會網(wǎng)絡(luò)分析工具,可繪制師生交互網(wǎng)絡(luò)圖,如圖7師生交互網(wǎng)絡(luò)圖所示。在UCINET中,沿著 Networks-Regions-Components 進行成分分析,結(jié)果發(fā)現(xiàn):該培訓班中存在2個成分。其中一個成分有33名成員,一個成分只有一個成員(編號為131)。這33位成員的社會網(wǎng)絡(luò)圖如圖7所示。三個大圓點是教師,由此可以看出教師在其中所處的中心位置。

圖7 師生交互網(wǎng)絡(luò)圖
在UCINET中,沿著 Networks-Cohesion-Density-Density進行密度分析,密度約為2.2,即意味著平均每位成員回復了兩個成員,并得到其他兩位成員的回復。但是對于84天的長周期學習來說,這種交互強度是比較弱的。圖中未顯示的孤立成員有1位,所謂孤立者指的是從不與他人討論的人。
3.其他組合
“學習者—處所”組合有兩個分類變量,以“學習者”為主分類變量,以“處所”作為次分類變量,“處所”的各個平臺模塊或各個課程單元將成為處所的屬性。在該組合中,處所一般指的是平臺模塊。此時,以學習者、平臺模塊為分類項,以行為ID為匯總項,進行分類計數(shù),將得到一張m*n數(shù)據(jù)矩陣,可以了解每個學生在各個模塊的學習投入情況。
“學習者—時間”組合有兩個分類變量,以“學習者”為主分類變量,以“時間”作為次分類變量,時間的各個類別將成為處所的屬性。對于“時間”,要經(jīng)過如“單一時間”中的“時間”處理,一般抽取出周次信息。此時,以學習者、周次為分類項,以行為ID為匯總項,進行分類計數(shù),將得到一張m*n數(shù)據(jù)矩陣,可以了解學生在各周的學習投入情況。
“內(nèi)容—時間”組合有兩個分類變量,以“內(nèi)容”為主分類變量,以“時間”作為次分類變量。對于“內(nèi)容”, 要以“模塊”作為條件對“內(nèi)容”范圍進行限定,例如限定在“Forum”“Resource”等模塊。對于“時間”,要經(jīng)過如“單一時間”中的時間處理,一般抽取出周次信息。此時,以內(nèi)容、周次為分類項,以行為ID為匯總項,進行分類計數(shù),將得到一張m*n數(shù)據(jù)矩陣,可以了解學生在參與某類學習活動的基本過程。
從學習行為的5個要素中選出三個或四個要素,其可能的組合有15種之多。當然,不是所有的分類組合都有分析價值。這里僅舉一例,即“學習者—時間—處所”組合,時間一般抽取出日期(其格式為2015-9-1),處所一般為平臺模塊。這三個字段構(gòu)成的行為數(shù)據(jù)如表7所示。

表7 學生行為日志樣例
如果我們以某個用戶在某一天的平臺模塊訪問序列作為聚類單元,可以通過Microsoft順序分析和聚類分析算法聚類發(fā)現(xiàn)學生訪問平臺模型的路徑。
例如,選取一門基于Moodle的在線課程的學習行為日志數(shù)據(jù),以學習者、平臺模塊(選取5個頻繁訪問模塊包括Forum、Wiki、Assignment、Resource和User)、日期為分類變量,以行為ID為匯總項,采用Microsoft順序分析和聚類分析算法來分析模塊訪問序列[16]。
在構(gòu)建挖掘模型時,以“訪問日期+用戶編號”作為鍵值,以“訪問順序號”作為序列鍵值,以“模塊”作為預測值來構(gòu)建挖掘結(jié)構(gòu),應(yīng)用Microsoft順序分析和聚類分析算法,得到如表8和圖8所示結(jié)果。

表8 各模塊之間的轉(zhuǎn)換概率
如表8所示,是各模塊之間的轉(zhuǎn)換概率。在概率的計算方法上,以值“Forum,F(xiàn)orum”為例,它的概率通過“Forum,F(xiàn)orum”這一轉(zhuǎn)換組合的頻次除以所有轉(zhuǎn)換組合的頻次得來。不同模塊的跳轉(zhuǎn)方面主要發(fā)生“Resource”模塊與“Forum”模塊以及“Assignment”模塊和“Forum”模塊之間,“Forum”無疑成為一個重要的中介模塊。

圖8 各模塊之間的跳轉(zhuǎn)情況
如圖8所示,圖中各方向線上(不包含無源方向線)標明的轉(zhuǎn)換概率計算方法與表3又有不同,這里給出的是條件概率。以“ResourceàForum”這一轉(zhuǎn)換組合為例,圖中線條中標明的轉(zhuǎn)換概率由“ResourceàForum”轉(zhuǎn)換組合的頻次除以Resource這一模塊訪問的頻次得來。由圖8可知,由User、Resource、Assignment、Wiki四個模塊跳轉(zhuǎn)到Forum的概率均比較高,可見Forum是一個活動中心模塊,也是一個重要的活動中介模塊,諸如Resource、Assignment、Wiki等活動可以從中再次啟動。而在由Forum跳轉(zhuǎn)到其他模塊的情形中,F(xiàn)orumàResource的轉(zhuǎn)換組合的發(fā)生概率是最高的,達到6%。在發(fā)帖參與討論的過程中,發(fā)現(xiàn)問題,深入思考,再繼續(xù)學習相關(guān)資源,這符合學習常規(guī),也形成了討論帶動資源的學習兩者之間的良性互動,從而實現(xiàn)深度學習和反思。另外,Resource模塊對其他模塊的支撐作用還表現(xiàn)AssignmentàResource,這一條件概率達到13%,即學生在做作業(yè)過程中要求助于資源模塊,這也是符合學習常規(guī)的。
數(shù)據(jù)是學習分析的基礎(chǔ),應(yīng)用恰當?shù)臄?shù)據(jù)處理方法則是學習分析成功應(yīng)用的關(guān)鍵。本文抓住學習分析領(lǐng)域這兩個關(guān)鍵點,構(gòu)建了學習分析數(shù)據(jù)模型,并基于這一數(shù)據(jù)模型中的各種可能數(shù)據(jù)組合,系統(tǒng)介紹了數(shù)據(jù)處理方法及實例,具體表現(xiàn)為:
本文采用演繹與歸納相結(jié)合的方法,即在格框架指導下演繹得出學習分析數(shù)據(jù)模型的基本框架,這一基本框架以“學習行為”為中心,行為的要素包括“學習者”“內(nèi)容”“處所”“學習時間”和“結(jié)果”。然后參考Moodle學習平臺中的數(shù)據(jù)表結(jié)構(gòu)來豐富數(shù)據(jù)模型中的各個細節(jié),構(gòu)建了學習分析數(shù)據(jù)模型,這一模型包括五類數(shù)據(jù)表,即學習行為數(shù)據(jù)表、學習者數(shù)據(jù)表、學習內(nèi)容數(shù)據(jù)表、學習處所數(shù)據(jù)表以及學習結(jié)果數(shù)據(jù)表,并且這五類數(shù)據(jù)表相互關(guān)聯(lián)在一起,形成一個有機整體。
采用何種數(shù)據(jù)處理方法很大程度上取決于數(shù)據(jù)本身。本文以數(shù)據(jù)模型中的“學習行為”數(shù)據(jù)表為例,給出了這一數(shù)據(jù)表中可能出現(xiàn)的數(shù)據(jù)子集,以實際案例介紹了針對不同數(shù)據(jù)子集的處理方法。實踐表明,這些處理方法最為常用的就是分類匯總,在分類匯總的基礎(chǔ)上可進一步采用分類匯總、聚類、關(guān)聯(lián)規(guī)則、時序分析、順序分析與聚類分析、社會網(wǎng)絡(luò)分析、文本挖掘等方法,使分析不斷走向深入。
限于篇幅,本文未能給出學習分析數(shù)據(jù)模型的所有細節(jié),也未能窮盡數(shù)據(jù)模型中的所有數(shù)據(jù)子集以及對應(yīng)的數(shù)據(jù)處理方法,希望現(xiàn)有的介紹能對讀者開展無盡的學習分析有所啟發(fā)。
[1] Johnson, L., Smith, R., Willis, H., Levine, A., and Haywood, K.. The 2011 Horizon Report[R]. Austin, Texas: The New Media Consortium,2011.
[2] Johnson, L., Adams, S., and Cummins, M.. The NMC Horizon Report:2012 Higher Education Edition[R]. Austin, Texas: The New Media Consortium, 2012.
[3] Johnson, L., Adams Becker, S., Cummins, M., Estrada, V., Freeman,A., andLudgate, H.. NMC Horizon Report: 2013 Higher Education Edition[R].Austin, Texas: The New Media Consortium, 2013.
[4] Johnson, L., Adams Becker, S., Estrada, V., Freeman, A.. NMCHorizon Report: 2014 Higher Education Edition[R]. Austin, Texas: The NewMedia Consortium, 2014.
[5] Marie Bienkowski,FengMingyu,Barbara Means. Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics:An Issue Brief[R].U.S. Department of Education, Office of Educational Technology, 2012.
[6] Papamitsiou, Z., & Economides, A.. Learning Analytics and Educational Data Mining in Practice: A Systematic Literature Review of Empirical Evidence[J]. Educational Technology & Society, 2014, 17(4):49-64.
[7] Sharples, M., McAndrew, P., Weller, M., Ferguson, R., FitzGerald, E.,Hirst, T., and Gaved, M.. Innovating Pedagogy 2013: Open University Innovation Report 2[R]. Milton Keynes: The Open University, 2013.
[8] 張艷霞,孫洪濤等. 數(shù)據(jù)表征學習過程及其應(yīng)用——學習分析數(shù)據(jù)集國際研究綜述[J].中國電化教育, 2015,(9):85-93.
[9] Verbert, K., Manouselis, N., Drachsler, H., & Duval, E. Dataset-Driven Research to Support Learning and Knowledge Analytics[J].Educational Technology & Society, 2012,15(3):133-148.
[10] 魏順平.學習分析技術(shù):挖掘大數(shù)據(jù)時代下教育數(shù)據(jù)的價值[J].現(xiàn)代教育技術(shù),2013,(2):5-11.
[11] 百度文庫. 格語法[DB/OL].http://baike.baidu.com/link?url=JE1fNE GelwmoiqLlJXEKE7sb5w3bl2Gerx3QNjF6kLDImiIH3W9eQQAxB2v 540QNgU4cgD8w5y8D6-DudyQX_q,2015-09-08.
[12] 孟琮等. 動詞用法詞典[M].上海:上海辭書出版社, 1987.
[13] 魯川,林杏光. 現(xiàn)代漢語語法的格關(guān)系[J]. 漢語學習,1989,(5):11-15.
[14] 魏順平,韓艷輝,王麗娜. 基于學習過程數(shù)據(jù)挖掘與分析的在線教學反思研究[J]. 現(xiàn)代教育技術(shù),2015,(6):89-95.
[15] 魏順平.Moodle平臺數(shù)據(jù)挖掘研究——以一門在線培訓課程學習過程分析為例[DB/OL].http://www.docin.com/p-1224077811.html,2016-01-01.
[16] 魏順平.在線教育管理者視角下的學習分析——在線教學績效評估模式構(gòu)建與應(yīng)用[J]. 現(xiàn)代教育技術(shù),2014,(9):79-85.
Research on Data Model and Data Processing Methods in Learning Analytics
Wei Shunping
(R & D Center for E-Learning, The Open University of China, Beijing 100039)
Data is the basis of learning analytics, and applying data processing methods appropriately is the key factor to success of learning analytics. This paper concentrated upon the data model and data processing methods of learning analytics. Firstly, the author used both deduction and induction methods to construct data model of learning analytics, which included deducing the basic frame of data model, enriching details of data model by inducing data table structures of Moodle LMS. Secondly, the author chose learning behavior table in data model, listed all possible data subsets in this table, and introduced processing methods according to different data subsets with some examples. Learning analytics practices showed that, the most frequently used method is subtotal, and with the basis of subtotal more methods such as clustering, social network analysis, text mining, etc. could be used.
Learning Analytics, Case Frame, Data Model, Data Processing Methods
G434
:A
魏順平:博士,副研究員,研究方向為教育數(shù)據(jù)挖掘(wsp@ouchn.edu.cn)。
2015年10月7日
責任編輯:李馨 趙云建
1006—9860(2016)02—0008—09
* 本文系北京市教育科學“十二五”規(guī)劃2015年度重點課題“基于教育大數(shù)據(jù)的大規(guī)模私有型在線課程教學績效評估系統(tǒng)及其應(yīng)用研究”(課題編號:AJA15233)成果。