






摘要:隨著“互聯(lián)網(wǎng)+”時(shí)代的到來(lái),在線測(cè)試開(kāi)始受到廣泛的關(guān)注,并逐漸被應(yīng)用于學(xué)習(xí)系統(tǒng)中。然而,目前常見(jiàn)的在線測(cè)試系統(tǒng)多以學(xué)習(xí)者的做題成績(jī)、做題時(shí)間等單模態(tài)數(shù)據(jù)為依據(jù)計(jì)算測(cè)試成績(jī),對(duì)測(cè)試過(guò)程的感知和反饋很少,導(dǎo)致在線測(cè)試成績(jī)的客觀性和真實(shí)性不足。為此,文章結(jié)合多模態(tài)數(shù)據(jù)的分析特點(diǎn),提出了一種基于多模態(tài)數(shù)據(jù)的精準(zhǔn)在線測(cè)試模型,重點(diǎn)研究了眼動(dòng)和鍵鼠行為數(shù)據(jù)作為評(píng)價(jià)數(shù)據(jù)源的應(yīng)用方法及其有效性。實(shí)驗(yàn)結(jié)果表明:眼動(dòng)和鍵鼠等多模態(tài)數(shù)據(jù)的融入有助于客觀、真實(shí)地反映學(xué)習(xí)者的測(cè)試過(guò)程;模型能夠有效提高在線測(cè)試結(jié)果的準(zhǔn)確性,多級(jí)融合方法也使多模態(tài)數(shù)據(jù)具有較好的可解釋性;同時(shí),非侵入性的數(shù)據(jù)獲取使模型具有較高的實(shí)用性。文章對(duì)多模態(tài)學(xué)習(xí)行為數(shù)據(jù)獲取、挖掘、融合與應(yīng)用的研究,旨在為在線學(xué)習(xí)評(píng)價(jià)提供參考,并為學(xué)習(xí)平臺(tái)客觀、全面把握學(xué)習(xí)者學(xué)習(xí)成效和實(shí)現(xiàn)個(gè)性化學(xué)習(xí)服務(wù)提供有效支撐。
關(guān)鍵詞:在線測(cè)試;多模態(tài)數(shù)據(jù);行為分析;眼動(dòng)檢測(cè)
【中圖分類(lèi)號(hào)】G40-057 【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009—8097(2023)04—0092—09 【DOI】10.3969/j.issn.1009-8097.2023.04.011
“互聯(lián)網(wǎng)+”時(shí)代,在線測(cè)試憑借其高管理效率、節(jié)約資源、方便學(xué)習(xí)者等優(yōu)勢(shì)已被逐步應(yīng)用于許多學(xué)習(xí)系統(tǒng)中。然而,在實(shí)際應(yīng)用中,學(xué)習(xí)者在線測(cè)試成績(jī)?cè)u(píng)定通常以做題成績(jī)、做題時(shí)間等單模態(tài)數(shù)據(jù)作為評(píng)價(jià)依據(jù),這導(dǎo)致在線測(cè)試成績(jī)的客觀性存在不足。此外,在線測(cè)試為大家所詬病的主要問(wèn)題是缺少對(duì)學(xué)生測(cè)試過(guò)程的感知和反饋,測(cè)試作弊現(xiàn)象頻出[1],測(cè)試成績(jī)的真實(shí)性不如線下。事實(shí)上,在線上學(xué)習(xí)環(huán)境中,學(xué)習(xí)者產(chǎn)生的大量多維場(chǎng)景數(shù)據(jù)為學(xué)習(xí)行為分析提供了充足的數(shù)據(jù)源,這為全面真實(shí)反映在線測(cè)試情況奠定了基礎(chǔ)。教育研究者當(dāng)前也已經(jīng)開(kāi)始將多模態(tài)數(shù)據(jù)納入研究范圍,針對(duì)多模態(tài)數(shù)據(jù)的學(xué)習(xí)分析研究也受到了廣泛關(guān)注,那么測(cè)試作為完整教學(xué)過(guò)程的一個(gè)重要環(huán)節(jié),也應(yīng)納入學(xué)習(xí)分析的范疇。為此,本研究提出了一種基于多模態(tài)數(shù)據(jù)的精準(zhǔn)在線測(cè)試模型,使用多模態(tài)學(xué)習(xí)分析對(duì)學(xué)習(xí)者的在線測(cè)試過(guò)程進(jìn)行研究,以期為在線學(xué)習(xí)評(píng)價(jià)改革和創(chuàng)新提供參考。
一 研究現(xiàn)狀
目前,常見(jiàn)的在線測(cè)試系統(tǒng)大多只是將線下考試轉(zhuǎn)移到線上,沿用傳統(tǒng)考試法的評(píng)價(jià)方式,以成績(jī)?yōu)橹行?,根?jù)學(xué)習(xí)者的在線做題結(jié)果直接決定其學(xué)習(xí)成績(jī)[2]。這種簡(jiǎn)單的方式難以反映學(xué)習(xí)者測(cè)試中的很多表現(xiàn),如注意力、眼神的快速變化,也不利于甄別偷看、切屏、遠(yuǎn)程連接等違規(guī)行為,無(wú)法保證整個(gè)測(cè)試結(jié)果的客觀性和真實(shí)性[3]。雖然有學(xué)者提出通過(guò)引入Rasch、IRT等項(xiàng)目反應(yīng)理論模型,將學(xué)習(xí)者測(cè)試過(guò)程中所體現(xiàn)的能力納入評(píng)價(jià)范圍,以達(dá)到改善測(cè)試結(jié)果的目的[4],但是測(cè)試結(jié)果依據(jù)的源數(shù)據(jù)并沒(méi)有發(fā)生實(shí)質(zhì)變化,導(dǎo)致其未能實(shí)現(xiàn)。而在線測(cè)試作為學(xué)習(xí)行為的一部分,是一個(gè)循序漸進(jìn)的過(guò)程性活動(dòng),不同學(xué)習(xí)者在測(cè)試過(guò)程中的眼動(dòng)、鍵鼠動(dòng)作等行為往往富含個(gè)人的特點(diǎn)與習(xí)慣,因此關(guān)注學(xué)習(xí)者在線測(cè)試過(guò)程中的表現(xiàn),有助于更詳盡、更全面地進(jìn)行學(xué)情分析。已有研究者通過(guò)采集學(xué)習(xí)者的腦電、眼動(dòng)、人機(jī)交互等學(xué)習(xí)痕跡數(shù)據(jù),利用人工智能技術(shù)進(jìn)行語(yǔ)義、情感及行為等分析,實(shí)現(xiàn)了基于多模態(tài)數(shù)據(jù)的眾多教育應(yīng)用[5][6][7],這些工作為本研究精準(zhǔn)在線測(cè)試研究提供了重要基礎(chǔ)和可靠依據(jù)。
1 基于多模態(tài)數(shù)據(jù)的語(yǔ)義分析
相關(guān)研究以學(xué)習(xí)者在線會(huì)話、上傳文本為分析主體,如吳林靜等[8]針對(duì)在線協(xié)作會(huì)話的特征,提出了五維度在線協(xié)作會(huì)話分析框架,并以話語(yǔ)的語(yǔ)義心理特征為基礎(chǔ),進(jìn)一步提出了基于語(yǔ)義的協(xié)作會(huì)話學(xué)習(xí)投入自動(dòng)分析模型,以實(shí)現(xiàn)學(xué)習(xí)投入的自動(dòng)化分析。語(yǔ)義分析應(yīng)用于在線測(cè)試中效果一般,但該研究所采納的多維度分析框架為本研究提供了研究基礎(chǔ)和分析思路。
2 基于多模態(tài)數(shù)據(jù)的情感分析
相關(guān)研究著重從心理學(xué)、生理學(xué)、教育學(xué)等方面出發(fā),通過(guò)分析淺層表征與深層表征所代表的含義對(duì)學(xué)習(xí)者進(jìn)行深度分析,如麻益通[9]建立了基于評(píng)論文字、表情符號(hào)、面部表情、肢體動(dòng)作四種模態(tài)數(shù)據(jù)的在線學(xué)習(xí)情感分析模型,能夠有效分析在線學(xué)習(xí)者的情感傾向并判斷學(xué)習(xí)者的學(xué)習(xí)狀態(tài)。
3 基于多模態(tài)數(shù)據(jù)的行為分析
相關(guān)研究重視學(xué)習(xí)者的行為檢測(cè)與分析應(yīng)用,如呂坤[10]以用戶(hù)的鍵盤(pán)行為、鼠標(biāo)行為作為檢測(cè)的主要標(biāo)準(zhǔn),總結(jié)出如擊鍵頻率、擊鍵次數(shù)、組合鍵使用情況等多種檢測(cè)指標(biāo)用于識(shí)別研究;孫銘揚(yáng)[11]提出融合鼠標(biāo)軌跡、觀看時(shí)長(zhǎng)、提問(wèn)次數(shù)等隱式反饋數(shù)據(jù),構(gòu)建基于學(xué)習(xí)行為頻繁項(xiàng)集的多模態(tài)數(shù)據(jù)評(píng)估模型。相比于學(xué)習(xí)者的肢體動(dòng)作、面部表情數(shù)據(jù),眼動(dòng)、鍵鼠數(shù)據(jù)是學(xué)習(xí)者在線測(cè)試過(guò)程中的主要人機(jī)交互數(shù)據(jù),作為個(gè)體大腦與心理作用結(jié)果的外在表現(xiàn)形式,這些數(shù)據(jù)能準(zhǔn)確反映學(xué)習(xí)者的認(rèn)知過(guò)程和投入情況,是影響在線測(cè)試結(jié)果的重要因素[12][13]。
二 模型構(gòu)建
為解決在線測(cè)試系統(tǒng)中的客觀性、真實(shí)性不足等問(wèn)題,本研究主要基于多模態(tài)數(shù)據(jù)語(yǔ)義、情感尤其是行為分析研究的已有成果,提出了一種基于多模態(tài)數(shù)據(jù)的精準(zhǔn)在線測(cè)試模型,如圖1所示。模型涉及多模態(tài)數(shù)據(jù)的選擇、評(píng)價(jià)指標(biāo)體系設(shè)計(jì)以及多模態(tài)數(shù)據(jù)多級(jí)融合三個(gè)關(guān)鍵內(nèi)容。
1 多模態(tài)數(shù)據(jù)的選擇
模型選擇的初始多模態(tài)數(shù)據(jù)包括:學(xué)習(xí)者在線測(cè)試中的單次測(cè)試得分、簡(jiǎn)單題和難題答題情況、做題時(shí)間等在線測(cè)試系統(tǒng)可以提供的文本類(lèi)和日志類(lèi)數(shù)據(jù);學(xué)習(xí)者眼動(dòng)檢測(cè)的視頻類(lèi)數(shù)據(jù);學(xué)習(xí)者擊鍵次數(shù)、鼠標(biāo)移動(dòng)次數(shù)等鍵鼠行為的動(dòng)作記錄類(lèi)數(shù)據(jù)。之后,對(duì)答題情況等文本數(shù)據(jù)進(jìn)一步處理,得到簡(jiǎn)單題和難題正確率;對(duì)眼動(dòng)視頻數(shù)據(jù)進(jìn)一步挖掘,得到眼動(dòng)路徑、注視次數(shù)和注視區(qū)域等數(shù)據(jù);對(duì)鍵鼠行為數(shù)據(jù)進(jìn)一步挖掘,得到擊鍵總數(shù)、鍵鼠交互比等數(shù)據(jù)。
2 評(píng)價(jià)指標(biāo)體系設(shè)計(jì)
利用直接獲取或挖掘得到的多模態(tài)數(shù)據(jù),本研究設(shè)計(jì)在線測(cè)試三維評(píng)價(jià)指標(biāo),如表1所示。
(1)知識(shí)掌握度設(shè)計(jì)
知識(shí)掌握度采用目前在線測(cè)試評(píng)價(jià)通常依據(jù)的測(cè)試得分,增加了難、簡(jiǎn)單題得分統(tǒng)計(jì)數(shù)據(jù),以反映學(xué)習(xí)者知識(shí)獲取的情況。
(2)思維活躍度設(shè)計(jì)
設(shè)計(jì)思維活躍度可更好地發(fā)掘和研究學(xué)習(xí)者的學(xué)習(xí)特征,同時(shí)也能使在線測(cè)試的成績(jī)更有區(qū)分度、更加客觀[14]。為獲取學(xué)習(xí)者在線測(cè)試期間的思維狀態(tài),本模型設(shè)置2個(gè)可量化的特征,其中,做題時(shí)間是指從題目出現(xiàn)到學(xué)習(xí)者答題完畢的時(shí)間,以反映學(xué)習(xí)者測(cè)試時(shí)的思維敏捷程度。讀題速度不僅能在學(xué)習(xí)認(rèn)知的更深層面對(duì)學(xué)習(xí)者進(jìn)行測(cè)量,以此反映學(xué)習(xí)者對(duì)于知識(shí)內(nèi)容的掌握程度與提取信息的難易程度,同時(shí)也可以分析出當(dāng)前知識(shí)內(nèi)容對(duì)于學(xué)習(xí)者的吸引程度。
(3)認(rèn)知投入度設(shè)計(jì)
認(rèn)知投入度是用于衡量學(xué)習(xí)者是否保持注意力集中的一個(gè)狀態(tài)指標(biāo),也是檢測(cè)學(xué)習(xí)者學(xué)習(xí)行為是否符合規(guī)范的有效方式。可以這樣認(rèn)為,如果學(xué)習(xí)者在測(cè)試過(guò)程中頻繁地切換頁(yè)面,或是出現(xiàn)目光游離、四處張望的情況,與系統(tǒng)預(yù)設(shè)的情況出現(xiàn)偏差,則認(rèn)定學(xué)習(xí)者在測(cè)試過(guò)程中沒(méi)有達(dá)到很好的投入度,指標(biāo)構(gòu)建依據(jù)如下:
①眼部活動(dòng)得分。根據(jù)多模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)性和互補(bǔ)性,眼動(dòng)檢測(cè)可用于幫助和改善在線測(cè)試中的監(jiān)管問(wèn)題,分析學(xué)習(xí)者的潛在行為模式。一般來(lái)說(shuō),在測(cè)試過(guò)程中,學(xué)習(xí)者的注視點(diǎn)應(yīng)當(dāng)集中在答題區(qū)域附近,以專(zhuān)注投入的態(tài)度進(jìn)行測(cè)試。當(dāng)學(xué)習(xí)者的目光出現(xiàn)較長(zhǎng)時(shí)間偏離、不集中等現(xiàn)象時(shí),則可認(rèn)為當(dāng)前的測(cè)試狀態(tài)出現(xiàn)異常。
②鍵鼠活動(dòng)得分。鍵盤(pán)和鼠標(biāo)是學(xué)習(xí)者在測(cè)試過(guò)程中頻繁使用的交互工具,這些交互信息中隱藏著大量的個(gè)人行為日志,包括學(xué)習(xí)者的行為模式、個(gè)人習(xí)慣等。本研究對(duì)學(xué)習(xí)者鼠標(biāo)軌跡特征和鍵盤(pán)輸入特征相結(jié)合的持續(xù)性行為檢測(cè)進(jìn)行研究,通過(guò)分析學(xué)習(xí)者的潛在行為模式,融合兩種特征檢測(cè)學(xué)習(xí)者有無(wú)作弊等違規(guī)情況。
3 數(shù)據(jù)多級(jí)融合
由于在線測(cè)試過(guò)程中采集到的眼動(dòng)、鍵鼠等檢測(cè)數(shù)據(jù)粒度比較細(xì),對(duì)于測(cè)試成績(jī)?nèi)狈^好的可解釋性,為此本研究借鑒深度學(xué)習(xí)理論,采用多級(jí)融合策略,對(duì)獲取的原始數(shù)據(jù)進(jìn)行逐層抽象,最終得到學(xué)習(xí)者該次在線測(cè)試綜合評(píng)分。多模態(tài)數(shù)據(jù)多級(jí)融合過(guò)程如下——
①一級(jí)融合:將學(xué)習(xí)者眼動(dòng)檢測(cè)視頻數(shù)據(jù)、鍵鼠行為數(shù)據(jù)分別經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)或統(tǒng)計(jì)分析處理后,得到C5~C7二級(jí)評(píng)價(jià)指標(biāo)的數(shù)值化表達(dá)形式。
②二級(jí)融合:選用客觀賦權(quán)法,即熵權(quán)法計(jì)算Cj權(quán)重 ,并加權(quán)求和得到A1。之后,將C4與經(jīng)過(guò)一級(jí)融合獲得的二級(jí)評(píng)價(jià)指標(biāo)C5、將二級(jí)評(píng)價(jià)指標(biāo)C6與C7分別融合得到A2和A3,并將輸出結(jié)果范圍從[0, 1]拉伸到[0, 100],以便與A1進(jìn)行三級(jí)融合。
③三級(jí)融合:采用客觀賦權(quán)與主觀賦權(quán)相結(jié)合的方法。采用熵權(quán)法求得三維指標(biāo)的客觀權(quán)重 ,采用AHP法求得主觀權(quán)重 。融合主客觀權(quán)重,運(yùn)用公式(1)計(jì)算得到綜合權(quán)重 ,最后與 加權(quán)求得本次測(cè)試綜合評(píng)分。
三 多模態(tài)數(shù)據(jù)的處理
由表1可知,各評(píng)價(jià)指標(biāo)的取值均來(lái)源于多模態(tài)數(shù)據(jù),其中直接從在線測(cè)試系統(tǒng)后臺(tái)讀取相關(guān)數(shù)據(jù)即可生成C1~C4取值。而讀題速度、眼部活動(dòng)得分、鍵鼠活動(dòng)得分等評(píng)價(jià)指標(biāo)數(shù)據(jù)則需分別針對(duì)眼動(dòng)檢測(cè)視頻和鍵鼠行為數(shù)據(jù)進(jìn)行挖掘、融合才能得到。
1 由眼動(dòng)檢測(cè)視頻數(shù)據(jù)計(jì)算讀題速度
首先由眼動(dòng)視頻數(shù)據(jù)計(jì)算學(xué)習(xí)者眼動(dòng)路徑。在線測(cè)試過(guò)程中,對(duì)攝像頭捕獲的視頻流進(jìn)行人臉識(shí)別預(yù)處理后獲得眼動(dòng)視頻數(shù)據(jù),再分別進(jìn)行頭部俯仰角檢測(cè)和人臉標(biāo)記點(diǎn)檢測(cè)。其中,頭部俯仰角檢測(cè)采用訓(xùn)練Mulit-loss卷積神經(jīng)網(wǎng)絡(luò)的方法[15];人臉標(biāo)記點(diǎn)檢測(cè)采用Intel發(fā)布的開(kāi)源工具包OpenVINO中提供的Facial-landmarks-35-adas-0002目標(biāo)識(shí)別模型,可得到左右眼的內(nèi)外眼角坐標(biāo)、左右嘴角坐標(biāo)、左右眼剪裁圖片等輸出結(jié)果。最后利用OpenVINO提供的Gaze-estimation-adas-0002模型方法,可獲得學(xué)習(xí)者在測(cè)試中的眼動(dòng)路徑。
利用眼動(dòng)路徑計(jì)算學(xué)習(xí)者讀題速度的策略如下:當(dāng)學(xué)習(xí)者的注視點(diǎn)在題目開(kāi)始區(qū)域停留1.5s后開(kāi)始檢測(cè),檢測(cè)區(qū)間設(shè)為A。若在1.5s內(nèi)采樣得到的點(diǎn)均在A中,則開(kāi)始眼動(dòng)路徑的檢測(cè)。這里眼動(dòng)路徑實(shí)際也可稱(chēng)為讀題路徑。采樣間隔為t0,采樣窗口為t1,在一個(gè)采樣窗口內(nèi)采集的n個(gè)點(diǎn)的集合B可以表示為 。根據(jù)采集到的數(shù)據(jù),可以計(jì)算出學(xué)習(xí)者在一個(gè)采樣窗口t1的讀題速度,如公式(2)所示。
圖2展示的是在進(jìn)行某一題測(cè)試時(shí),以屏幕左下角為原點(diǎn)、屏幕分辨率為坐標(biāo)軸,系統(tǒng)檢測(cè)從開(kāi)始做題后15s內(nèi)不同學(xué)習(xí)者的讀題路徑。從圖中可以看出,學(xué)習(xí)者對(duì)于同一道題目的讀題策略各不相同,選擇快速讀題的學(xué)習(xí)者的讀題路徑往往少于重復(fù)讀題的學(xué)習(xí)者。如學(xué)習(xí)者A的讀題路徑就少于其他三位學(xué)習(xí)者,而此計(jì)算的讀題速度能反映出學(xué)習(xí)者的思維特點(diǎn)。
2 由眼動(dòng)檢測(cè)視頻數(shù)據(jù)計(jì)算眼部活動(dòng)得分
生成眼動(dòng)活動(dòng)得分時(shí),本研究將注視次數(shù)和注視區(qū)域作為計(jì)算依據(jù),這兩類(lèi)數(shù)據(jù)也利用眼動(dòng)檢測(cè)視頻數(shù)據(jù)獲得。將學(xué)習(xí)者目光集中在某一個(gè)點(diǎn)上超過(guò)1.5s定義為注視行為,為確保實(shí)驗(yàn)的可行性和魯棒性,對(duì)于注視點(diǎn)的采集采用模糊化采樣的方式,即采樣間隔為t0,集合C為某個(gè)1.5s時(shí)間段內(nèi)采樣的點(diǎn),n為采集點(diǎn)的總個(gè)數(shù),( )為集合C中的首個(gè)元素。若其中有90%的點(diǎn)都處于合理注視區(qū)域G中,則認(rèn)為學(xué)習(xí)者出現(xiàn)了一次注視行為,計(jì)算如公式(3)所示。
確定注視區(qū)域的關(guān)鍵是統(tǒng)計(jì)無(wú)關(guān)注視區(qū)域率,即采集學(xué)習(xí)者一段時(shí)間以來(lái)的眼動(dòng)軌跡,計(jì)算學(xué)習(xí)者注視點(diǎn)處于答題區(qū)域外的數(shù)量與注視點(diǎn)總數(shù)的比值,從而對(duì)其眼部活動(dòng)進(jìn)行評(píng)判。本研究收集了80名學(xué)習(xí)者在閉卷和開(kāi)卷環(huán)境下的眼部活動(dòng)情況進(jìn)行分析,并細(xì)化為遇見(jiàn)難題和簡(jiǎn)單題兩種情況,結(jié)果如表2所示。其中,E代表簡(jiǎn)單題,D代表難題。
從表2可以得出,在遇到不同類(lèi)型的題目時(shí),學(xué)習(xí)者的注視次數(shù)會(huì)隨著題型難度的增大而升高,且在開(kāi)卷環(huán)境下,學(xué)習(xí)者的無(wú)關(guān)注視區(qū)域率也會(huì)隨著難度上升而增加,說(shuō)明學(xué)習(xí)者注意力出現(xiàn)了明顯的波動(dòng),集中程度大幅度下降,因此考慮將注視次數(shù)作為眼部活動(dòng)檢測(cè)輔助評(píng)判標(biāo)準(zhǔn),以注視區(qū)域?yàn)橹饕u(píng)判標(biāo)準(zhǔn)。注視次數(shù)的系統(tǒng)預(yù)設(shè)閾值為Gsetting,注視次數(shù)為Ga,無(wú)關(guān)注視區(qū)域率為Ra,則可依據(jù)公式(4)計(jì)算學(xué)習(xí)者的眼部活動(dòng)得分C6,結(jié)果如圖3所示。
3 由鍵鼠行為數(shù)據(jù)計(jì)算鍵鼠活動(dòng)得分
鍵鼠行為數(shù)據(jù)中實(shí)際包含了很多能夠反映學(xué)情的隱式特征。為更好地區(qū)分學(xué)習(xí)者行為模式,本研究以開(kāi)卷測(cè)試模擬學(xué)習(xí)者不遵守考試規(guī)則,或出現(xiàn)注意力不集中的情況。為此,本研究采集了80名學(xué)習(xí)者在閉卷測(cè)試和開(kāi)卷測(cè)試環(huán)境下的擊鍵次數(shù)、特殊鍵使用次數(shù)、鼠標(biāo)移動(dòng)次數(shù)、鼠標(biāo)移動(dòng)軌跡等數(shù)據(jù),并從中提取出不同鍵鼠行為的特征,各項(xiàng)特征取均值后結(jié)果如表3所示。
從表中可以看出,當(dāng)學(xué)習(xí)者被告知處于閉卷測(cè)試環(huán)境時(shí),擊鍵總數(shù)與刪除鍵率高于開(kāi)卷測(cè)試,且鼠標(biāo)軌跡基本集中在答題區(qū)域。而處于開(kāi)卷測(cè)試環(huán)境時(shí),學(xué)習(xí)者使用功能鍵的頻率上升,鍵鼠交互比的提高則表明學(xué)習(xí)者移動(dòng)鼠標(biāo)的次數(shù)更頻繁,且處于非答題區(qū)域的軌跡明顯增多,可認(rèn)為學(xué)習(xí)者出現(xiàn)了與測(cè)試無(wú)關(guān)的違規(guī)行為。根據(jù)表3的統(tǒng)計(jì)特征及實(shí)驗(yàn)結(jié)果,可以構(gòu)建具有3層隱含層的神經(jīng)網(wǎng)絡(luò)對(duì)5種鍵鼠特征進(jìn)行學(xué)習(xí),輸出層為5種特征融合后的鍵鼠活動(dòng)得分C7。
本研究的實(shí)驗(yàn)中,神經(jīng)網(wǎng)絡(luò)的3個(gè)隱藏層各層節(jié)點(diǎn)數(shù)分別設(shè)為10、20和10。將實(shí)驗(yàn)收集到的3000條有效數(shù)據(jù)按4:1劃分為訓(xùn)練集和測(cè)試集,鍵鼠行為滿(mǎn)足4種及以上閉卷測(cè)試特征的數(shù)據(jù)記為0.8,滿(mǎn)足3種閉卷測(cè)試特征的數(shù)據(jù)記為0.6,低于或等于兩種閉卷測(cè)試特征的數(shù)據(jù)記為0.4。經(jīng)過(guò)200輪訓(xùn)練后準(zhǔn)確率達(dá)到最優(yōu),為94.3%,測(cè)試集上的準(zhǔn)確率為87%。訓(xùn)練后該神經(jīng)網(wǎng)絡(luò)在收集到學(xué)習(xí)者測(cè)試時(shí)的鍵鼠行為數(shù)據(jù)后將會(huì)自動(dòng)計(jì)算出鍵鼠活動(dòng)得分。
四 實(shí)證研究
由于目前在線學(xué)習(xí)平臺(tái)對(duì)于學(xué)習(xí)者的信息和學(xué)習(xí)數(shù)據(jù)的隱私性保護(hù),無(wú)法滿(mǎn)足本研究需求,因此本研究自主搭建了基于Python+Django環(huán)境的在線學(xué)習(xí)測(cè)試平臺(tái)。其中,Python版本為3.9,Django版本為2.2。為了驗(yàn)證模型及評(píng)價(jià)指標(biāo)的有效性、準(zhǔn)確性與實(shí)用性,本研究在測(cè)試平臺(tái)上對(duì)南京N大學(xué)2021年秋季學(xué)期計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)某班的39名本科生進(jìn)行“程序設(shè)計(jì)基礎(chǔ)”“數(shù)據(jù)結(jié)構(gòu)”等5門(mén)課程的學(xué)業(yè)考核,并通過(guò)系統(tǒng)后臺(tái)收集了這5門(mén)課程的在線考試成績(jī)與行為數(shù)據(jù),共篩選出300份有效數(shù)據(jù)。
1 模型有效性分析
本研究對(duì)比學(xué)習(xí)者在線測(cè)試單次測(cè)試得分C1和引入本模型后的綜合評(píng)分,結(jié)果如圖4所示。從圖中可以看出,單次測(cè)試得分的統(tǒng)計(jì)結(jié)果主要集中在85分到滿(mǎn)分,人數(shù)較多,這是由于在線測(cè)試的特殊性,當(dāng)直接將單次測(cè)試得分作為在線測(cè)試成績(jī)時(shí),因缺少符合學(xué)習(xí)者特征的多模態(tài)評(píng)價(jià)數(shù)據(jù),指標(biāo)單一,會(huì)出現(xiàn)眾多學(xué)習(xí)者成績(jī)相近的情況,即數(shù)據(jù)扎堆,這對(duì)學(xué)習(xí)平臺(tái)后期有針對(duì)性地進(jìn)行資源推薦和學(xué)情反饋工作造成了一定阻礙。當(dāng)引入本模型后,可以發(fā)現(xiàn)分?jǐn)?shù)段出現(xiàn)了明顯的不同,分布情況更加平均,學(xué)習(xí)者的綜合評(píng)分具有了多維度、多模態(tài)的特征,而不僅僅是測(cè)試成績(jī)這一指標(biāo)。因此,可以說(shuō)明本模型將眼動(dòng)和鍵鼠等多模態(tài)數(shù)據(jù)融入在線測(cè)試最終成績(jī)的計(jì)算中,能夠客觀有效地反映測(cè)試者的測(cè)試過(guò)程活動(dòng)。
2 模型準(zhǔn)確性分析
為評(píng)估模型質(zhì)量,本研究采用均方誤差(Mean Squared Error,MSE)來(lái)反映估計(jì)量和被估計(jì)量之間的差異程度,同時(shí),還引入平均絕對(duì)值誤差(Mean Absolute Error,MAE)和平均絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)兩個(gè)評(píng)估指標(biāo),用以計(jì)算測(cè)評(píng)對(duì)象的實(shí)際評(píng)分和預(yù)測(cè)評(píng)分之間的差異。
本研究的模型與線性回歸模型評(píng)測(cè)情況的對(duì)比結(jié)果如表4所示,指標(biāo)取值越小,表明評(píng)估方法得出的預(yù)測(cè)值越接近實(shí)際值。結(jié)果表明,本研究模型提升了在線測(cè)試結(jié)果的準(zhǔn)確性。
3 模型實(shí)用性分析
根據(jù)前文實(shí)驗(yàn)過(guò)程所述,本模型可以及時(shí)捕獲學(xué)習(xí)者的系統(tǒng)后臺(tái)日志信息、眼動(dòng)視頻、鍵鼠行為等數(shù)據(jù),并以融合算法輸出學(xué)習(xí)者的綜合測(cè)試結(jié)果,還可以在實(shí)驗(yàn)階段以及部署測(cè)試階段保持7×24小時(shí)持續(xù)運(yùn)行。在實(shí)際應(yīng)用中,該模型部署無(wú)須配備額外硬件設(shè)備,易于大規(guī)模部署,對(duì)學(xué)習(xí)者全過(guò)程無(wú)感采集眼動(dòng)及鍵鼠等動(dòng)作行為,不涉及隱私數(shù)據(jù),符合在線學(xué)習(xí)數(shù)據(jù)的安全性要求,具有較高的實(shí)用性。
五 結(jié)語(yǔ)
本研究提出了一種基于多模態(tài)數(shù)據(jù)的精準(zhǔn)在線測(cè)試模型,將眼動(dòng)和鍵鼠等多模態(tài)數(shù)據(jù)融入在線測(cè)試最終成績(jī)的計(jì)算中,并通過(guò)實(shí)驗(yàn)表明這些數(shù)據(jù)能夠有效地反映測(cè)試者的測(cè)試活動(dòng);從知識(shí)掌握度、思維活躍度、認(rèn)知投入度三個(gè)維度設(shè)計(jì)了評(píng)價(jià)指標(biāo)體系和多級(jí)融合算法,計(jì)算得出學(xué)習(xí)者一次在線測(cè)試的綜合評(píng)分,能夠提高在線測(cè)試結(jié)果的客觀性和真實(shí)性,并使多模態(tài)數(shù)據(jù)具有較好的可解釋性;同時(shí),非侵入性無(wú)感方式的數(shù)據(jù)獲取使模型具有較高的實(shí)用性。本研究旨在為學(xué)習(xí)平臺(tái)客觀、真實(shí)地評(píng)估學(xué)習(xí)者測(cè)試結(jié)果提供新思路,為在線學(xué)習(xí)評(píng)價(jià)提供新方法,為個(gè)性化學(xué)習(xí)服務(wù)提供可靠參考。當(dāng)然,本研究還存在一些不足,如在學(xué)習(xí)者眼動(dòng)路徑檢測(cè)中,針對(duì)頭部俯仰角檢測(cè)的開(kāi)源訓(xùn)練集數(shù)量不足,模型處理復(fù)雜情況的穩(wěn)定性和準(zhǔn)確性還有待提升;構(gòu)建題庫(kù)時(shí)局限于難度,未來(lái)可以通過(guò)引入學(xué)科知識(shí)圖譜,進(jìn)而對(duì)多種類(lèi)型題目的答題情況進(jìn)行統(tǒng)計(jì),進(jìn)一步提高模型的精確性。
參考文獻(xiàn)
[1]萬(wàn)子云,陳世偉,秦斌.基于深度學(xué)習(xí)的MOOC作弊行為檢測(cè)研究[J].信息安全學(xué)報(bào),2021,(1):32-39.
[2]王劍嬌.面向高校的在線考試管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2018:1-5.
[3]陳乾國(guó).一種干部在線作弊學(xué)習(xí)行為分析與預(yù)測(cè)策略[J].計(jì)算機(jī)工程,2017,(9):17-22、28.
[4]董慧嶸.基于學(xué)習(xí)行為分析的學(xué)習(xí)能力評(píng)估與學(xué)習(xí)意圖預(yù)測(cè)方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2019:11-14.
[5]牟智佳,符雅茹.多模態(tài)學(xué)習(xí)分析研究綜述[J].現(xiàn)代教育技術(shù),2021,(6):23-31.
[6]Mangaroska K, Martinez-Maldonado R, Vesin B, et al.. Challenges and opportunities of multimodal data in human learning: The computer science students’ perspective[J]. Journal of Computer Assisted Learning, 2021,(4):1030-1047.
[7]張家華,胡惠芝,黃昌勤.多模態(tài)學(xué)習(xí)分析技術(shù)支持的學(xué)習(xí)評(píng)價(jià)研究[J].現(xiàn)代教育技術(shù),2022,(9):38-45.
[8]吳林靜,高喻,涂鳳嬌,等.基于語(yǔ)義的在線協(xié)作會(huì)話學(xué)習(xí)投入自動(dòng)分析模型及應(yīng)用研究[J].電化教育研究,2022,(3):77-84.
[9]麻益通.基于多模態(tài)的在線學(xué)習(xí)情感分析模型設(shè)計(jì)與實(shí)現(xiàn)[D].南京:南京師范大學(xué),2019:10-11.
[10]呂坤.基于鍵盤(pán)鼠標(biāo)行為的持續(xù)身份認(rèn)證系統(tǒng)研究[D].成都:西南財(cái)經(jīng)大學(xué),2019:3-8.
[11]孫銘揚(yáng).融合學(xué)習(xí)者隱式反饋的在線學(xué)習(xí)效果評(píng)估[D].南京:南京師范大學(xué),2019:4-8.
[12]翟苗,張睿,劉恒彪.高?;旌鲜浇虒W(xué)形成性評(píng)價(jià)指標(biāo)研究[J].現(xiàn)代教育技術(shù),2020,(9):35-41.
[13]冷靜,易玉何.智慧教室中學(xué)習(xí)投入度與教學(xué)活動(dòng)類(lèi)型的關(guān)系[J].現(xiàn)代教育技術(shù),2020,(5):47-53.
[14]Durukan E. Impact of speed reading training on reading speeds and comprehension skills of secondary school students[J]. Cypriot Journal of Educational Sciences, 2020,(2):184-193.
[15]Ruiz N, Chong E, Rehg J M. Fine-Grained head pose estimation without keypoints[A]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops[C]. Salt Lake City: IEEE, 2018:2155-2164.
Abstract: With the arrival of the “Internet+” era, online testing has begun to receive widespread attention and gradually been applied to learning systems. However, the current common online testing systems are mosty based on the single-modal data such as learners’ test scores and test-taking time to calculate test scores, which resulted in little perception and feedback on the testing process and led to insufficient objectivity and authenticity of online testing results. Therefore, combining with the analysis characteristics of multimodal data, this paper proposed an accurate online testing model based on multimodal data, and gave the selected multimodal data and an evaluation index system designed from three dimensions of knowledge mastery degree, thinking activity degree, and cognitive input degree, as well as a multi-level fusion algorithm. Meanwhile, the application methods and effectiveness of behavior data of eye movement and keyboard-mouse as evaluation data sources were mainly studied. Experimental results indicated that the integration of multimodal data, such as eye movement and keyboard-mouse helped to objectively and truly reflect learners’ testing process, and the model could improve the accuracy degree of online testing results. Meanwhile, the multilevel fusion method made the multimodal data more interpretable, and the acquisition of non-intrusive data made the model more practical. The acquisition, mining, integration and application of multi-modal learning behavior data in this paper were expected to provide reference for the online learning evaluation, and offer effective support for learning platforms to objectivly and comprehensivly understand learners’ learning outcomes and achieve personalized learning services.
Keywords: online testing; multimodal data; behavior analysis; eye movement detection
*基金項(xiàng)目:本文受江蘇省“十四五”教育科學(xué)規(guī)劃重大課題“未來(lái)學(xué)校建設(shè)研究”(項(xiàng)目編號(hào):A/2021/05)、江蘇省高等教育學(xué)會(huì)重點(diǎn)資助課題“在線教學(xué)質(zhì)量評(píng)價(jià)體系研究”(項(xiàng)目編號(hào):2021-Z07)資助。
作者簡(jiǎn)介:陳波,教授,博士,研究方向?yàn)橹腔劢逃c信息安全,郵箱為bchen@njnu.edu.cn。
收稿日期:2022年10月23日" " " " " " " " " " " " " " " " " " " " " " " " " " " " " " 編輯:小時(shí)