歐陽(yáng)嘉煜 范逸洲 羅淑芳 紀(jì)九梅 汪 瓊
?
特征工程:學(xué)習(xí)分析中識(shí)別行為模式的重要方法*
歐陽(yáng)嘉煜 范逸洲[通訊作者]羅淑芳 紀(jì)九梅 汪 瓊
(北京大學(xué) 教育學(xué)院,北京 100871)
學(xué)習(xí)分析作為學(xué)習(xí)科學(xué)的子領(lǐng)域,其關(guān)注的核心問(wèn)題就是對(duì)學(xué)習(xí)過(guò)程的理解與優(yōu)化,而這離不開(kāi)對(duì)學(xué)習(xí)者學(xué)習(xí)行為數(shù)據(jù)的收集和對(duì)行為模式的分析。特征工程作為一種基于底層數(shù)據(jù)設(shè)計(jì)特征集的系統(tǒng)方法,為行為模式的分析提供了新的技術(shù)支持與研究路徑。文章通過(guò)介紹特征工程實(shí)施的四個(gè)步驟,系統(tǒng)梳理了目前使用特征工程方法識(shí)別出的典型行為模式,如投機(jī)取巧、挫折、疑惑等,可為行為模式的相關(guān)研究提供參考。同時(shí),文章基于對(duì)有效的技術(shù)支持和實(shí)踐意義兩個(gè)話題的討論,指出了未來(lái)的研究取徑與研究重點(diǎn)。
學(xué)習(xí)分析;特征工程;行為模式;學(xué)習(xí)科學(xué)
學(xué)習(xí)分析作為學(xué)習(xí)科學(xué)的子領(lǐng)域,正受到越來(lái)越多研究者的關(guān)注與重視[1]。學(xué)習(xí)分析起源于智能導(dǎo)師系統(tǒng)(Intelligent Tutoring Systems,ITS)的相關(guān)研究。一般而言,學(xué)習(xí)分析被定義為:為了理解、優(yōu)化學(xué)習(xí)過(guò)程和學(xué)習(xí)環(huán)境,對(duì)學(xué)習(xí)者及其所在情境的數(shù)據(jù)進(jìn)行的測(cè)量、收集、分析和匯總工作[2]。這一定義明確了學(xué)習(xí)分析關(guān)注的主要問(wèn)題之一是理解和優(yōu)化學(xué)習(xí)過(guò)程,而這離不開(kāi)對(duì)學(xué)習(xí)過(guò)程數(shù)據(jù)的收集和對(duì)行為模式的分析。通過(guò)揭示行為模式產(chǎn)生的深層次原因,進(jìn)而為學(xué)生提供優(yōu)質(zhì)的支持服務(wù),這是學(xué)習(xí)分析在教育領(lǐng)域應(yīng)用的核心價(jià)值所在[3]。
早期對(duì)于學(xué)習(xí)過(guò)程和行為模式的研究大多采用實(shí)地課堂觀察、訪談法、問(wèn)卷調(diào)查法等,這些方法關(guān)注的數(shù)據(jù)類型相對(duì)有限,并且以主觀數(shù)據(jù)為主。過(guò)于關(guān)注主觀數(shù)據(jù)而忽視學(xué)習(xí)者學(xué)習(xí)過(guò)程中產(chǎn)生的客觀數(shù)據(jù),教學(xué)研究就易受到研究者自身價(jià)值判斷或研究工具信效度的影響,導(dǎo)致研究結(jié)論的客觀性和可推廣性較低。20世紀(jì)90年代之后,隨著數(shù)據(jù)收集和分析技術(shù)的發(fā)展,以及人們對(duì)教學(xué)的理解更為深入,研究者開(kāi)始收集學(xué)習(xí)者在學(xué)習(xí)過(guò)程中產(chǎn)生的細(xì)節(jié)數(shù)據(jù),并進(jìn)一步從客觀數(shù)據(jù)中挖掘出學(xué)習(xí)者的行為模式。
近年來(lái),對(duì)于學(xué)習(xí)者行為模式的研究希望建立精確的預(yù)測(cè)分類算法或模型,雖然大多數(shù)算法在預(yù)測(cè)能力方面均能取得令人滿意的效果,但致力于優(yōu)化算法準(zhǔn)確度的研究并沒(méi)有取得實(shí)質(zhì)性的突破。這樣一種困境引發(fā)了研究者對(duì)預(yù)測(cè)算法特征之有效性的思考:如果基于底層數(shù)據(jù)提取的行為模式特征不夠理想,那么建立在行為特征數(shù)據(jù)之上的預(yù)測(cè)算法或模型自然就難以進(jìn)行較大優(yōu)化,因此,如何選取能夠有效反映學(xué)習(xí)者行為模式的特征是一個(gè)值得探討的話題。特征工程作為一種基于底層數(shù)據(jù)設(shè)計(jì)特征集的系統(tǒng)方法,正是解決這一困境的良方。正如Asker等[4]所說(shuō),在一個(gè)學(xué)習(xí)系統(tǒng)中,想要?jiǎng)?chuàng)造出一個(gè)高的分類準(zhǔn)確度,好的特征工程通常比一個(gè)特別的分類算法更為重要。
綜上可知,如何基于客觀行為數(shù)據(jù)來(lái)運(yùn)用特征工程識(shí)別行為模式是一個(gè)值得研究的問(wèn)題。因此,本研究嘗試回答以下兩個(gè)問(wèn)題:特征工程的一般步驟是什么?目前學(xué)習(xí)分析領(lǐng)域中使用特征工程方法所識(shí)別出的典型行為模式有哪些?本研究期待通過(guò)討論特征工程的技術(shù)意義和教學(xué)意義兩個(gè)話題,來(lái)指出未來(lái)學(xué)習(xí)分析領(lǐng)域使用特征工程技術(shù)可能開(kāi)展的研究方向和研究問(wèn)題。
特征工程(Feature Engineering)也稱為變量消除(Variable Elimination),是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要概念[5]。Arroba等[6]將特征工程定義為一種非常有用的技術(shù),用于選擇最優(yōu)的特征集,這些特征最能描述并優(yōu)化問(wèn)題。而Turner等[7]認(rèn)為特征工程就是選擇適當(dāng)?shù)奶卣鳎苊獍幌嚓P(guān)參數(shù)的過(guò)程。一般來(lái)說(shuō),可以認(rèn)為特征工程是為機(jī)器學(xué)習(xí)應(yīng)用而設(shè)計(jì)特征集的相關(guān)工作[8],重點(diǎn)關(guān)注如何設(shè)計(jì)出符合數(shù)據(jù)本身特點(diǎn)和所處情境的數(shù)據(jù)特征。特征工程可分為四個(gè)階段[9][10]:
①特征構(gòu)建(Feature Construction)階段,也稱為頭腦風(fēng)暴階段,是根據(jù)研究問(wèn)題初步構(gòu)思數(shù)據(jù)特征集的過(guò)程。如當(dāng)我們探討和描述學(xué)習(xí)者不認(rèn)真學(xué)習(xí)的行為模式時(shí),可能會(huì)構(gòu)思出一些特征:回答問(wèn)題總是錯(cuò)誤、作業(yè)完成不認(rèn)真、測(cè)驗(yàn)完成不認(rèn)真等。此過(guò)程主要可運(yùn)用三種方法:方法一是研究者自己思考得出一些特征;方法二是向他人詢問(wèn),補(bǔ)充一些自身沒(méi)有想到的想法,可以采用向?qū)<以儐?wèn)或者閱讀相關(guān)文獻(xiàn)等手段;方法三則是擴(kuò)展到“群體”,讓更多的人群加入到思維發(fā)散構(gòu)建特征的過(guò)程,也稱為眾所提議的特性[11]。
②特征提取(Feature Exaction)階段,是將前一階段初步構(gòu)思的特征與數(shù)據(jù)本身相結(jié)合,嘗試提取出與抽象特征對(duì)應(yīng)的原始數(shù)據(jù),是一個(gè)提取相關(guān)特征形成特征向量的過(guò)程[12]。如上文針對(duì)學(xué)習(xí)不認(rèn)真行為模式構(gòu)思出了一些特征,而如何將這些抽象特征與數(shù)據(jù)本身建立聯(lián)系并進(jìn)行表征,往往是特征提取階段的重點(diǎn)。特征提取階段遵循“物盡其用”的原則,盡可能多地囊括與特征相關(guān)的數(shù)據(jù),但這并不代表所有數(shù)據(jù)都是重要的且相互關(guān)聯(lián)的相關(guān)且重要的。
③特征選擇(Feature Selection)階段,需要排除一些無(wú)關(guān)或者影響甚微的因子,常用的方法有篩選法(Filter Methods)和包裝法。這個(gè)階段的重點(diǎn)是有效地描述輸入數(shù)據(jù),同時(shí)減少噪聲和無(wú)關(guān)變量的影響,盡可能地保證納入到特征集的特征數(shù)據(jù)都是較為高效的。
④特征評(píng)估(Feature Evaluation)階段,主要利用經(jīng)上述步驟選擇后的特征進(jìn)行建模,并使用一些真實(shí)數(shù)據(jù)評(píng)估模型精度,從而不斷修正、循環(huán)迭代,以期得到最適合該數(shù)據(jù)的特征集。
在大多數(shù)情況下,數(shù)據(jù)集是龐大而混亂的,想要建立一個(gè)規(guī)范的特征集往往不能一蹴而就,通常需要經(jīng)歷上述四個(gè)階段螺旋迭代進(jìn)行。因此人們常說(shuō),特性工程是一個(gè)高度迭代的、反復(fù)的、試錯(cuò)的過(guò)程。
目前,在智能導(dǎo)師系統(tǒng)和MOOC相關(guān)研究中使用特征工程探測(cè)出的行為模式,主要包括投機(jī)取巧、挫折與疑惑、注意力集中與粗心、心不在焉與不假思索等行為。但對(duì)于這樣一些抽象的行為模式,研究者是如何從真實(shí)數(shù)據(jù)中探測(cè)出學(xué)習(xí)者產(chǎn)生了上述行為模式呢?這是一個(gè)基礎(chǔ)而又關(guān)鍵的問(wèn)題。下面將根據(jù)上述提到的特征工程四階段,詳細(xì)介紹如何利用特征工程的方法識(shí)別“投機(jī)取巧”這一行為模式,并簡(jiǎn)略介紹其它行為模式。
“投機(jī)取巧”行為最初發(fā)現(xiàn)于認(rèn)知型導(dǎo)師系統(tǒng)(Cognitive Tutors)的教學(xué)應(yīng)用中,由Baker等[13]提出,指的是在交互式學(xué)習(xí)環(huán)境中,學(xué)習(xí)者通過(guò)系統(tǒng)性試錯(cuò)或?yàn)E用幫助,獲得學(xué)習(xí)成功的行為模式。Baker等為了開(kāi)發(fā)一個(gè)能夠探測(cè)投機(jī)取巧行為模式的算法,在一個(gè)使用了認(rèn)知導(dǎo)師系統(tǒng)、有70名學(xué)生參加的數(shù)理統(tǒng)計(jì)課程中進(jìn)行了實(shí)驗(yàn),具體如下:
①在特征建構(gòu)階段,Baker收集了來(lái)自認(rèn)知導(dǎo)師系統(tǒng)的日志文件,每個(gè)學(xué)生在使用認(rèn)知導(dǎo)師系統(tǒng)的過(guò)程中產(chǎn)生了71~478次的行為數(shù)據(jù)。根據(jù)系統(tǒng)記錄的日志文件,針對(duì)記錄下的每一次行為,研究者初次建立了一個(gè)包含24個(gè)特征的特征集,由行為動(dòng)作細(xì)節(jié)(如學(xué)生選擇下列菜單、輸入字符串等行為)、知識(shí)點(diǎn)評(píng)價(jià)(如學(xué)習(xí)前已經(jīng)掌握的技能、在學(xué)習(xí)過(guò)程中沒(méi)有掌握的技能)、時(shí)間(如每個(gè)行為所花費(fèi)的時(shí)間、持續(xù)的5~8個(gè)行為所花費(fèi)的時(shí)間)、先前的互動(dòng)(如學(xué)生完成某一具體問(wèn)題步驟時(shí)錯(cuò)誤的總次數(shù)、在持續(xù)的8個(gè)行為中學(xué)生尋求幫助的次數(shù))等四個(gè)維度組成。
②在特征提取階段,Baker等借助一組潛在響應(yīng)模型(Latent Response Models),將所有行為表征為參數(shù)αi×Xi(Xi2或XiYi)的形式,其中Xi、Xi2和XiYi是根據(jù)上面討論的24個(gè)特征、24個(gè)特征的二次效應(yīng)(特征平方)和23×24的特征間的交互效應(yīng)(特征A×特征B)設(shè)置而成,統(tǒng)稱Xn。然后,使用Pm作為預(yù)測(cè)某一行為是否為投機(jī)取巧這一行為模式的變量,Pm=α0X0+α1X1+α2X2+α3X3+…+αnXn,每一個(gè)預(yù)測(cè)值Pm通過(guò)階躍函數(shù)(Step Function)來(lái)設(shè)置閾值,假設(shè)閾值=0.5,如果Pm≤0.5,那么P'm=0,反之P'm=1。再將所有行為與學(xué)生相對(duì)應(yīng),得到每個(gè)學(xué)生產(chǎn)生投機(jī)取巧這一行為模式與該學(xué)生總行為次數(shù)的占比,標(biāo)記為G'0…G'69。同時(shí),Baker等收集了觀察人員在真實(shí)課堂中的觀察數(shù)據(jù),可提供學(xué)生在課程中產(chǎn)生投機(jī)取巧行為與總行為的時(shí)間占比信息,標(biāo)記為G0…G69,并與G'0…G'69進(jìn)行對(duì)比。
③在特征選擇階段,Baker等采用基于相關(guān)性的快速過(guò)濾法(Fast Correlation-Based Filtering)中的迭代梯度下降法(Iterative Gradient Descent),尋找每個(gè)參數(shù)(αi)的最佳值,并進(jìn)行參數(shù)剔除,再使用向前選擇法(Forward Selection)逐個(gè)驗(yàn)證參數(shù),以確保現(xiàn)有參數(shù)會(huì)影響平均值的絕對(duì)偏差。
④在特征評(píng)估階段,Baker等采用LOOCV(Leave One Out Cross Validation)交叉驗(yàn)證法驗(yàn)證上述建構(gòu)的模型是否有效,第一次剔除70名學(xué)生中的1名,將剩余69名學(xué)生作為測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試并修正模型,之后每次再剔除1名,如此循環(huán)進(jìn)行70次。

表1 篩選后的4個(gè)主要特征
經(jīng)上述四個(gè)階段后,Baker等最終篩選出4個(gè)主要特征用于探測(cè)投機(jī)取巧這一行為模式,如表1所示。正如上文所說(shuō),評(píng)估階段的結(jié)束并不意味著特征工程的結(jié)束,Baker等[14]為了驗(yàn)證特征及算法的擴(kuò)展性,重新收集了同樣使用了認(rèn)知導(dǎo)師系統(tǒng)的另外三個(gè)班級(jí)的數(shù)據(jù),依照上述步驟,再次進(jìn)行驗(yàn)證。Baker等[15]發(fā)現(xiàn),當(dāng)探測(cè)出學(xué)習(xí)者頻繁出現(xiàn)投機(jī)取巧的行為模式時(shí),很可能是因?yàn)楫?dāng)前學(xué)習(xí)任務(wù)難度過(guò)高或者學(xué)習(xí)者對(duì)當(dāng)前的學(xué)習(xí)系統(tǒng)產(chǎn)生了厭惡情緒,使學(xué)習(xí)者難以利用自身掌握的知識(shí)點(diǎn)解決問(wèn)題,退而選擇利用系統(tǒng)的相關(guān)屬性完成學(xué)習(xí)任務(wù)。因此,教師和課程設(shè)計(jì)開(kāi)發(fā)人員應(yīng)該考慮重新設(shè)計(jì)學(xué)習(xí)任務(wù),吸引學(xué)習(xí)者再次參與到學(xué)習(xí)任務(wù)中,或提供相應(yīng)的學(xué)習(xí)支持[16]。
挫折是一種認(rèn)知的不平衡狀態(tài),是對(duì)于接下來(lái)要做什么的一種不確定性,常表現(xiàn)為猛擊鍵盤(pán)或鼠標(biāo)、拉頭發(fā)、長(zhǎng)嘆、說(shuō)一些類似“發(fā)生了什么?”的話語(yǔ)等行為[17]。困惑則常表現(xiàn)為撓頭、重復(fù)看著機(jī)器界面上的元素、向老師或同學(xué)請(qǐng)教、看看其他同學(xué)的情況來(lái)決定接下來(lái)如何做等類似的行為[18]。從概念角度來(lái)說(shuō)挫折與困惑是相似的,但兩者也存在顯著區(qū)別:挫折包含消極的影響,常常與不滿或憤怒的表達(dá)相關(guān);而困惑的消極體驗(yàn)程度相對(duì)弱一些。但是,如果學(xué)習(xí)者的學(xué)習(xí)問(wèn)題沒(méi)有得到解決,困惑可能會(huì)導(dǎo)致挫折或者無(wú)聊的行為產(chǎn)生,學(xué)習(xí)者可能會(huì)選擇從學(xué)習(xí)任務(wù)中脫離,從而導(dǎo)致低效學(xué)習(xí)。
注意力集中指的是學(xué)習(xí)者集中注意力,高度參與學(xué)習(xí)活動(dòng),是一種積極的行為模式[19]。在運(yùn)用智能導(dǎo)師系統(tǒng)的教學(xué)中,教師可以通過(guò)合理安排、設(shè)計(jì)任務(wù)難度來(lái)提高學(xué)生的參與度與集中度。只有任務(wù)難度和學(xué)生自身能力之間達(dá)到了一定的匹配,才能發(fā)揮出最大的激勵(lì)作用,才能讓學(xué)生專注集中于學(xué)習(xí),如此沉浸學(xué)習(xí)才有可能會(huì)發(fā)生,才有可能獲得最佳的學(xué)習(xí)體驗(yàn)。因此,識(shí)別這類行為模式,對(duì)于設(shè)計(jì)在線學(xué)習(xí)課程內(nèi)容與任務(wù)難度都具有一定的參考價(jià)值。
粗心指的是學(xué)習(xí)者知道正確答案也掌握了解題技巧,卻依然回答錯(cuò)誤[20],其與高度集中的行為模式存在一定的相關(guān)性。往往是那些在線上學(xué)習(xí)中表現(xiàn)出參與度很高、注意力非常集中的學(xué)生更容易因粗心而犯錯(cuò),而那些注意力不集中、參與度不高的學(xué)生則較少因粗心而犯錯(cuò),因?yàn)樗麄儽旧砭蜎](méi)有掌握知識(shí)點(diǎn),不能將做錯(cuò)的原因歸結(jié)為粗心。研究發(fā)現(xiàn),目標(biāo)明確、掌握能力強(qiáng)的學(xué)生往往比缺乏明確目標(biāo)的學(xué)生更加粗心,但隨著學(xué)習(xí)時(shí)間的推移,學(xué)習(xí)者的錯(cuò)誤率會(huì)逐漸下降[21]。
“心不在焉”指的是學(xué)習(xí)者的學(xué)習(xí)行為不以從材料中學(xué)習(xí)為首要目標(biāo),而從事一些與學(xué)習(xí)任務(wù)無(wú)關(guān)的事情,其與學(xué)習(xí)者的動(dòng)機(jī)和付出的努力關(guān)系密切[22],常表現(xiàn)為產(chǎn)生格外快或格外慢的行為、尋求幫助的次數(shù)過(guò)多、在已經(jīng)掌握的知識(shí)點(diǎn)犯錯(cuò)等行為特征。以往研究發(fā)現(xiàn),學(xué)生對(duì)教師和所用系統(tǒng)的消極態(tài)度會(huì)導(dǎo)致心不在焉行為出現(xiàn)的可能性增大,學(xué)習(xí)者難以將注意力集中在學(xué)習(xí)任務(wù)上,從而導(dǎo)致低效學(xué)習(xí)[23]。“不假思索”這一行為模式與分心都屬于不積極參與型的行為模式,但不假思索側(cè)重于學(xué)習(xí)者表面上雖然與學(xué)習(xí)環(huán)境進(jìn)行互動(dòng),實(shí)質(zhì)上并不帶有任何學(xué)習(xí)目的,因此也易造成低效學(xué)習(xí)的產(chǎn)生[24]。
當(dāng)然,通過(guò)特征工程所識(shí)別的行為模式并不僅限于上述七類,還有幫助尋求和幫助避免、探索行為、厭煩和興奮等行為模式,本研究在此不展開(kāi)論述。
“數(shù)據(jù)驅(qū)動(dòng)決策,分析變革教育”的大數(shù)據(jù)時(shí)代推動(dòng)了技術(shù)與教育的深度融合[25]。傳統(tǒng)基于自我報(bào)告式問(wèn)卷調(diào)查法所收集的數(shù)據(jù)難以客觀地反映學(xué)習(xí)者的學(xué)習(xí)過(guò)程,大數(shù)據(jù)時(shí)代下,學(xué)習(xí)分析領(lǐng)域中為學(xué)習(xí)行為的分析提供了新的研究路徑,基于客觀數(shù)據(jù)對(duì)學(xué)習(xí)過(guò)程進(jìn)行評(píng)量成為了未來(lái)的研究趨勢(shì)之一。從本研究綜述的文獻(xiàn)來(lái)看,特征工程所需的數(shù)據(jù)源大多來(lái)自學(xué)習(xí)系統(tǒng)或平臺(tái)中的日志文件,其數(shù)據(jù)較為客觀,且學(xué)習(xí)管理系統(tǒng)和MOOC等研究情境都能提供類似的數(shù)據(jù)支持。
學(xué)習(xí)分析領(lǐng)域不乏有大量計(jì)算機(jī)科學(xué)家的研究成果,但他們關(guān)注的研究重點(diǎn)大多是對(duì)算法或者模型的優(yōu)化,對(duì)學(xué)習(xí)過(guò)程本質(zhì)的理解程度在某種層面上會(huì)啟發(fā)或制約算法的優(yōu)化。特征工程強(qiáng)調(diào)數(shù)據(jù)本身所處的情境特性,不僅僅把數(shù)據(jù)看作是“不會(huì)說(shuō)話的符號(hào)”,其需要研究人員具有較為豐富的領(lǐng)域知識(shí)與智慧,能夠敏銳地發(fā)現(xiàn)數(shù)據(jù)背后可能蘊(yùn)含的學(xué)習(xí)本質(zhì)。綜上所述,本研究認(rèn)為,在大數(shù)據(jù)時(shí)代,作為基于底層數(shù)據(jù)進(jìn)行分析、適用于不同研究情境的分析方法——特征工程,有可能成為學(xué)習(xí)分析領(lǐng)域今后的主流技術(shù)之一。
既然使用特征工程方法能夠有效探測(cè)學(xué)習(xí)者在學(xué)習(xí)過(guò)程中表現(xiàn)出的行為模式,那么,今后的研究重點(diǎn)應(yīng)該是什么?本研究認(rèn)為,應(yīng)將研究重點(diǎn)由優(yōu)化各類行為模式探測(cè)器轉(zhuǎn)向?qū)W情預(yù)警和有效的教學(xué)支持,以能為學(xué)習(xí)者提供更好的教學(xué)服務(wù)。
從教師和課程開(kāi)發(fā)人員的角度看,學(xué)習(xí)者產(chǎn)生不同類型的行為模式是教學(xué)支持的影響結(jié)果。以往研究提供了一些教學(xué)支持方式,如使用動(dòng)畫(huà)代理呈現(xiàn)負(fù)面情緒,給予學(xué)習(xí)者警示;提供即時(shí)信息反饋,鼓勵(lì)學(xué)習(xí)者努力嘗試或?qū)で髱椭唤o予持續(xù)的可視化反饋,客觀表征學(xué)習(xí)者目前的學(xué)習(xí)情況,幫助教師和學(xué)習(xí)者了解學(xué)習(xí)進(jìn)度等——這些方式都顯示能夠降低投機(jī)取巧、分心等行為模式出現(xiàn)的頻率[26][27]。因此,特征工程技術(shù)應(yīng)從教學(xué)支持的角度出發(fā),提取出有助于改進(jìn)教學(xué)支持服務(wù)的有效特征,從而改進(jìn)教學(xué)支持服務(wù)。
基于特征工程技術(shù)總結(jié)出有效特征集,研究者可以進(jìn)一步建構(gòu)相應(yīng)的算法或模型,從而辨識(shí)學(xué)習(xí)者在學(xué)習(xí)過(guò)程中產(chǎn)生的各類行為,并提供學(xué)情預(yù)警,以幫助教師和學(xué)習(xí)者更好地掌握目前的學(xué)習(xí)情況,這也是人工智能在教育中應(yīng)用的基礎(chǔ)研究。因此,如何根據(jù)探測(cè)出的行為模式提供相應(yīng)的學(xué)情預(yù)警與教學(xué)支持,并促進(jìn)有效學(xué)習(xí),是后續(xù)研究的重點(diǎn)之一。與此同時(shí),后續(xù)研究還需考慮探索相應(yīng)的教學(xué)原理、完善教學(xué)的設(shè)計(jì)環(huán)節(jié)等內(nèi)容。
[1]魏順平.學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值[J].現(xiàn)代教育技術(shù),2013,(2):5-11.
[2]Siemens G, Long P. Penetrating the fog: Analytics in learning and education[J]. Educause Review, 2011,(5):31-40.
[3]趙慧瓊,姜強(qiáng),趙蔚,等.基于大數(shù)據(jù)學(xué)習(xí)分析的在線學(xué)習(xí)績(jī)效預(yù)警因素及干預(yù)對(duì)策的實(shí)證研究[J].電化教育研究,2017,(1):62-69.
[4]Asker L, Maclin R. Feature engineering and classifier selection: A case study in venusian volcano detection[A]. Fourteenth international conference on machine Learning[C]. Morgan Kaufmann Publishers Inc. 1997:3-11.
[5]Chandrashekar G, Sahin F. A survey on feature selection methods[J]. Computers & Electrical Engineering, 2014,(1):16-28.
[6]Arroba P, Zapater M. Enhancing regression models for complex systems using evolutionary techniques for feature engineering[J]. Journal of Grid Computing, 2015,(3):409-423.
[7]Turner C R, Fuggetta A, Lavazza L, et al. A conceptual basis for feature engineering[J]. Journal of Systems & Software, 1999,(1):3-15.
[8]李林,吳躍,葉茂.基于概率圖模型的圖像整體場(chǎng)景理解特征工程綜述[J].計(jì)算機(jī)應(yīng)用研究,2015,(12):3542-3550.
[9]Liu D, Hua G, Viola P, et al. Integrated feature selection and higher-order spatial feature extraction for object categorization[A]. Computer vision and pattern recognition[C]. IEEE, 2008:1-8.
[10]Anderson M, Antenucci D, Bittorf V, et al. Brainwash: A data system for feature engineering[OL].
[11]Veeramachaneni K, O’Reilly U M, Taylor C. Towards feature engineering at scale for data from massive open online courses[OL].
[12]Sharma O P, Ghose M K, Shah K B, et al. Recent trends and tools for feature extraction in OCR technology[J]. International Journal of Soft Computing & Engineering, 2013,(6):220-223.
[13]Baker R S J D, Corbett A T, Koedinger K R, et al. Detecting student misuse of intelligent tutoring systems[A]. Lester J C, Vicari R M, Paraguacu et al, International conference on intelligent tutoring systems[C]. Springer-Verlag Berlin, 2004:531-540.
[14]Baker R S J D, Corbett A T, Roll I, et al. Developing a generalizable detector of when students game the system[J]. User Modeling and User-Adapted Interaction, 2008,(3):287-314.
[15]Baker R S J D, Roll I, Corbett A T, et al. Do performance goals lead students to game the system?[A]. Looi C K, McCalla G, Bredeweg et al. Artificial intelligence in education-supporting learning through intelligent and socially informed technology[C]. IOS Press, 2005:57-64.
[16]Baker R S J D, Corbett A T, Koedinger K R, et al. Adapting to when students game an intelligent tutoring system[J]. 2006,4053:392-401.
[17]Sidney K D, Craig S D, Gholson B, et al. Integrating affect sensors in an intelligent tutoring system[OL].
[18]Baker R S J D, D’Mello S K, Rodrigo M M T, et al. Better to be frustrated than bored: The incidence, persistence, and impact of learners’ cognitive-affective states during interactions with three different computer-based learning environments[J]. International Journal of Human-Computer Studies, 2010,(4):223-241.
[19]Pedro M O C Z S, Rodrigo M M T, Baker R S J D. The relationship between carelessness and affect in a cognitive tutor[A].DMello S, Graesser A, Schuller B, et al. International conference on affective computing and intelligent interaction[C]. Springer-Verlag, 2011:306-315.
[20]Clements M A. Careless errors made by sixth-grade children on written mathematical tasks[J]. Journal for Research in Mathematics Education, 1982,(2):136-144.
[21]Hershkovitz A, Baker R S J D, Gobert J, et al. Discovery with models: A case study on carelessness in computer-based science inquiry[J]. American Behavioral Scientist, 2013,(10):1480-1499.
[22]Baker R S J D. Modeling and understanding students’ off-task behavior in intelligent tutoring systems[A]. ACM. Conference on human factors in computing systems[C]. Assoc Computing Machinery, 2007:1059-1068.
[23]Arroyo I, Murray T, Woolf B P, et al. Inferring unobservable learning variables from students’ help seeking behavior[A].Lester J C, Vicari R M, Paraguacu F. Intelligent tutoring systems, proceedings[C]. Springer Berlin Heidelberg, 2004:782-784.
[24]Wixon M, Baker, Ryan S. J. D, et al. WTF? Detecting students who are conducting inquiry without thinking fastidiously[J]. Lecture Notes in Computer Science, 2012, 7379:286-296.
[25]曹帥,王以寧,徐鵬.學(xué)習(xí)分析技術(shù)的研究現(xiàn)狀與未來(lái)趨勢(shì)——基于2011-2015年LAK會(huì)議論文的分析[J].中國(guó)電化教育,2016,(5):78-84.
[26]Arroyo I, Ferguson K, Johns J, et al. Repairing disengagement with non-invasive interventions[A]. Luckin R, Koedinger K R. Artificial intelligence in education: Building technology rich learning contexts that work[C]. IOS Press, 2007:195-202.
[27]Roll I, Aleven V, Mclaren B M, et al. Can help seeking be tutored? Searching for the secret sauce of metacognitive tutoring[A]. Luckin R, Koedinger K R, Greer J. Artificial intelligence in education: Building technology rich learning contexts that work[C]. IOS Press, 2007:203-210.
編輯:小西
Feature Engineering: The Method of Detecting Learner Behavior Patterns in Learning Analytics Field
OUYANG Jia-yu FAN Yi-zhou[Corresponding Author]LUO Shu-fang JI Jiu-mei WANG Qiong
As a subfield of Learning Science, the key issue of learning analysis is to understand and optimize learning and the environment, which is significantly associated with data collection of learning behaviors and analysis of behavior patterns. As a method designing the feature set based on the underlying data, the feature engineering system provides new technical support and research path for the analysis of behavior patterns. This paper introduces the fundamental steps of feature engineering, and further systemically reviews some typical types of behavior patterns distinguished by feature engineering, such as gaming the system, frustration and confusion. Finally, this paper hopes to provide references for future studies of behavior patterns. Meanwhile, it points out the possible research direction and research focuses by discussing the effective technical support and practical significance.
learning analytics; feature engineering; behavior patterns; learning science
G40-057
A
1009—8097(2018)04—0013—07
10.3969/j.issn.1009-8097.2018.04.002
本文受教育部在線教育研究中心2O16年度在線教育研究基金(全通教育)重點(diǎn)項(xiàng)目“基于學(xué)習(xí)分析的MOOC教學(xué)設(shè)計(jì)原則研究”(項(xiàng)目編號(hào):2016ZD101)、國(guó)家自然科學(xué)基金項(xiàng)目“大規(guī)模在線課程中用戶流失問(wèn)題的研究”(項(xiàng)目編號(hào):61472006)、國(guó)家自然科學(xué)基金項(xiàng)目“MOOC數(shù)據(jù)模型及其對(duì)課程與學(xué)習(xí)評(píng)價(jià)的效用研究”(項(xiàng)目編號(hào):61472013)資助。
歐陽(yáng)嘉煜,在讀碩士,研究方向?yàn)榻虒W(xué)設(shè)計(jì),郵箱為jiayu5177@163.com。
2018年1月19日