羅立成+楊絮+張海+陶亞楠
本文是西班牙科爾多瓦大學(xué)實(shí)施的一個(gè)基于在線學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)者成績(jī)預(yù)測(cè)實(shí)例。在該項(xiàng)研究中,研究者對(duì)多示例學(xué)習(xí)和單示例學(xué)習(xí)算法的預(yù)測(cè)效果進(jìn)行了比較研究。
● 基于MOODLE網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)的數(shù)據(jù)對(duì)學(xué)習(xí)結(jié)果的預(yù)測(cè)研究
一直以來(lái),根據(jù)學(xué)生使用網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)的情況對(duì)他們的學(xué)習(xí)成績(jī)進(jìn)行預(yù)測(cè)都是一個(gè)難題。為了解決這一問(wèn)題,研究者需要在兩者之間建立起有意義的關(guān)聯(lián)。例如,學(xué)生可以通過(guò)課程中的不同活動(dòng)來(lái)加強(qiáng)理解課堂中所學(xué)到的概念,在課程完成時(shí)進(jìn)行期末考試,成績(jī)合格者則表示成功完成本課程,成績(jī)不合格者則表示未成功完成課程。有了這一前提,研究者所要做的只是根據(jù)學(xué)生在課程中完成的活動(dòng)數(shù)量、類(lèi)型和所用時(shí)間來(lái)預(yù)測(cè)學(xué)生能否通過(guò)該模塊的考試。
本研究中所用的數(shù)據(jù)來(lái)自科爾多瓦大學(xué)的Moodle在線學(xué)習(xí)課程,研究者使用了由Moodle篩選出的7門(mén)課程和419名學(xué)生產(chǎn)生的數(shù)據(jù)。
Moodle系統(tǒng)在關(guān)系數(shù)據(jù)庫(kù)中存儲(chǔ)了大量關(guān)于課程內(nèi)容、使用者、使用情況的詳細(xì)信息,該研究基于所存儲(chǔ)信息中的測(cè)驗(yàn)、作業(yè)和論壇三類(lèi)活動(dòng)進(jìn)行預(yù)測(cè)。其中,“測(cè)驗(yàn)?zāi)K”是用來(lái)檢驗(yàn)學(xué)生知識(shí)層次和回顧所學(xué)內(nèi)容的有用工具,它可以為學(xué)生的學(xué)習(xí)狀況提供及時(shí)的反饋,為學(xué)生的材料理解程度提供準(zhǔn)確的評(píng)估;“作業(yè)模塊”是用來(lái)搜集學(xué)生作業(yè)的工具,該模塊可以幫助學(xué)生輕松上傳數(shù)字內(nèi)容,學(xué)生可以上傳論文、電子表格、報(bào)告、網(wǎng)頁(yè)、圖片,或者小的音視頻剪輯片段等;“論壇模塊”是Moodle課程中一個(gè)強(qiáng)大的通信工具,它能夠讓教師與學(xué)生之間的交流不受時(shí)間與地點(diǎn)的限制,相互交流的人也不必同時(shí)在線,因此,學(xué)生可以利用任何時(shí)間進(jìn)行回復(fù),這就可以幫助師生展開(kāi)深入探討,研究處理的信息如下表所示。
● 基于在線學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)者成績(jī)預(yù)測(cè)算法比較
傳統(tǒng)上這類(lèi)研究一般使用監(jiān)管學(xué)習(xí)算法,但在實(shí)踐中面臨的問(wèn)題是,每門(mén)課程具有不同類(lèi)型、不同數(shù)量的活動(dòng),且每個(gè)學(xué)生完成活動(dòng)的數(shù)量取決于自身的興趣和花費(fèi)時(shí)間的多少,這就導(dǎo)致了獲取的信息不夠完整,而多示例學(xué)習(xí)算法可以用來(lái)解決這一問(wèn)題。在實(shí)際教學(xué)中,使用多示例學(xué)習(xí)算法,可以以一種自然的方式表現(xiàn)出來(lái),而不必進(jìn)行大量改動(dòng)。上頁(yè)表中的信息,可以用兩種方式進(jìn)行描述。
一種是使用傳統(tǒng)監(jiān)管學(xué)習(xí)算法解決問(wèn)題的經(jīng)典描述。這種描述將學(xué)生按“模式/示例”進(jìn)行劃分。每個(gè)示例中的信息展示了學(xué)生可能參加的所有活動(dòng),但是在這個(gè)問(wèn)題中,每個(gè)學(xué)生可以執(zhí)行不同數(shù)量的活動(dòng),勤奮的學(xué)生可能會(huì)做完所有的活動(dòng),而懶惰的學(xué)生可能一項(xiàng)活動(dòng)都不做。另外,有的課程只擁有少量的活動(dòng),而其他的課程卻擁有大量的不同類(lèi)型的活動(dòng)。使用這種描述,就會(huì)忽略每個(gè)學(xué)生和每個(gè)課程中的信息差異,因?yàn)樗械氖纠紩?huì)共享相同的信息。
另一種描述方式是多示例問(wèn)題描述。每個(gè)示例都由一個(gè)注冊(cè)了全部課程的學(xué)生組成。在這種情況下,每個(gè)學(xué)生被看作是一個(gè)用來(lái)表示活動(dòng)完成情況的數(shù)據(jù)包,每個(gè)數(shù)據(jù)包由一個(gè)或幾個(gè)示例構(gòu)成,每個(gè)示例表示學(xué)生已經(jīng)完成的不同活動(dòng)類(lèi)型。因此,在每個(gè)數(shù)據(jù)包中都會(huì)包含著各種類(lèi)型的活動(dòng),它們代表著學(xué)生完成的示例。這種表示方法非常匹配上面的問(wèn)題,因?yàn)榘瑢W(xué)生與課程的一般通用信息是作為數(shù)據(jù)包屬性進(jìn)行存儲(chǔ),而變量信息是作為示例屬性進(jìn)行存儲(chǔ)的。對(duì)數(shù)據(jù)包屬性和示例信息的總結(jié)如下圖所示。
從多示例學(xué)習(xí)的角度出發(fā),這些信息可以以一種更自然的方式表示,當(dāng)加入新類(lèi)型的活動(dòng)時(shí),與該類(lèi)型無(wú)關(guān)的模式不會(huì)受到影響。被執(zhí)行的活動(dòng)所屬類(lèi)型信息被存儲(chǔ)為示例,每個(gè)學(xué)生包含示例的數(shù)量也是可變的,因此,課程中不常見(jiàn)的活動(dòng)被執(zhí)行后不會(huì)帶來(lái)各個(gè)模式中通用信息的增加。
對(duì)單示例學(xué)習(xí)算法與多示例學(xué)習(xí)算法的比較實(shí)驗(yàn)采用了十倍分層交叉驗(yàn)證方法進(jìn)行,可以看到準(zhǔn)確度、敏感性、特殊性的比較結(jié)果。準(zhǔn)確度測(cè)量的是正確評(píng)估的案例在所有評(píng)估案例所占的比例,敏感度測(cè)量的是在滿(mǎn)足某種條件時(shí)正確識(shí)別的案例中所占的比例,特殊性測(cè)量的是不滿(mǎn)足某種條件時(shí)正確識(shí)別的案例所占的比例。一些模型的敏感度值會(huì)因某些具體值的降低而得到優(yōu)化,這表明,由于這些模型將學(xué)生確定為可以成功完成課程,而實(shí)際上他們卻未通過(guò)考試,從而導(dǎo)致了模型沒(méi)有對(duì)這些消極示例進(jìn)行正確分類(lèi)。實(shí)際上,面對(duì)這種情況的確很難分類(lèi),因?yàn)橛幸恍┣趭^的學(xué)生最后卻沒(méi)能成功通過(guò)考試。
研究對(duì)傳統(tǒng)監(jiān)管式學(xué)習(xí)算法與多示例學(xué)習(xí)算法的應(yīng)用結(jié)果進(jìn)行了比較,每種各選擇了15種算法對(duì)最具代表性的范例進(jìn)行檢驗(yàn),并對(duì)結(jié)果進(jìn)行對(duì)比。通過(guò)比較得知,使用多示例算法所得到的結(jié)果獲得了較高的準(zhǔn)確度值,且差異很大。這些結(jié)果表明在基于在線學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)者成績(jī)預(yù)測(cè)領(lǐng)域,多示例算法是一種更加合理的算法,它可以用適當(dāng)?shù)姆绞矫枥L可用信息,并能夠顯著提高算法結(jié)果的準(zhǔn)確度。
本論文獲得吉林省教育廳“十三五”社會(huì)科學(xué)研究規(guī)劃項(xiàng)目重點(diǎn)課題“基于數(shù)據(jù)挖掘的卓越教師能力結(jié)構(gòu)與培訓(xùn)研究”、東北師范大學(xué)本科教改研究課題“卓越新聞傳播人才創(chuàng)新培養(yǎng)模式與評(píng)價(jià)研究”、吉林省高等教育教學(xué)改革課題重點(diǎn)項(xiàng)目“卓越新聞傳播人才創(chuàng)新培養(yǎng)模式與評(píng)價(jià)研究”、吉林省重點(diǎn)科技攻關(guān)項(xiàng)目“基于大數(shù)據(jù)的互聯(lián)網(wǎng)+長(zhǎng)白文化數(shù)字博物館工程”資助。endprint