智能技術(shù)支持的多模態(tài)互動教學(xué)評價框架設(shè)計與應(yīng)用效果

2024-12-31 00:00:00王夢珂陳增照石雅王卓

現(xiàn)代教育技術(shù) 2024年9期

摘要：評價和反饋互動教學(xué)質(zhì)量，既是開展教學(xué)診斷、促進教師發(fā)展的重要方式，也是落實發(fā)展性評價理念的有益實踐。然而，傳統(tǒng)的互動教學(xué)評價往往忽視了教學(xué)過程中的多模態(tài)信息，存在分析不全面、不準確且耗時費力的問題。基于此，文章設(shè)計了智能技術(shù)支持的多模態(tài)互動教學(xué)評價框架，分為指標層、數(shù)據(jù)層、技術(shù)層、結(jié)果層和應(yīng)用層，并從互動范圍、互動參與度、互動親密度、互動公平性、互動深度五個維度評價互動教學(xué)的質(zhì)量。為了檢驗此評價框架的應(yīng)用效果，文章以10個教學(xué)錄像為樣本，進行了多模態(tài)互動教學(xué)評價結(jié)果和專家模糊評價結(jié)果的相關(guān)性分析，驗證了智能技術(shù)支持的多模態(tài)互動教學(xué)評價框架能夠有效反映互動教學(xué)的質(zhì)量。文章的研究為互動教學(xué)評價提供了一種更加全面、準確且高效的工具，并為推動教學(xué)診斷和教師專業(yè)發(fā)展、落實發(fā)展性評價理念提供了有力支持。

關(guān)鍵詞：多模態(tài)互動教學(xué)；智能技術(shù)；教學(xué)錄像；行為識別；教學(xué)診斷

【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097（2024）09—0091—11 【DOI】10.3969/j.issn.1009-8097.2024.09.009

為深化教師評價改革，推進人工智能技術(shù)與教師隊伍建設(shè)融合，教育部出臺了《高等學(xué)校人工智能創(chuàng)新行動計劃》^[1]，并先后啟動了兩批人工智能助推教師隊伍建設(shè)行動試點工作^[2]。互動教學(xué)質(zhì)量既是決定教學(xué)質(zhì)量的關(guān)鍵，也是教師教學(xué)能力的重要體現(xiàn)，因此評價和反饋課堂互動質(zhì)量被認為是提升教師互動教學(xué)水平、改善教學(xué)質(zhì)量的主要途徑。然而，傳統(tǒng)的互動教學(xué)評價主要關(guān)注言語方面的互動，而忽略了教師的非言語行為（如面部表情、語音情感等），導(dǎo)致互動教學(xué)分析不全面、不準確，且存在耗時、費力的問題，難以常態(tài)化實施。目前，智能技術(shù)在細粒度信息捕捉、核心特征提取、大數(shù)據(jù)建模分析等方面具有明顯優(yōu)勢，為實現(xiàn)智能化的多模態(tài)互動教學(xué)分析提供了技術(shù)支持。基于此，本研究嘗試設(shè)計智能技術(shù)支持的多模態(tài)互動教學(xué)評價框架，并驗證其應(yīng)用效果，以期推動多模態(tài)互動教學(xué)評價的發(fā)展，并為人工智能賦能教師專業(yè)發(fā)展提供新手段。

一研究現(xiàn)狀

1 課堂互動教學(xué)分析系統(tǒng)的相關(guān)研究

課堂互動是教學(xué)過程的核心，是師生交往的具象化體現(xiàn)，對學(xué)生的參與程度和課堂教學(xué)質(zhì)量有重要影響。20世紀60年代，F(xiàn)landers^[3]提出弗蘭德斯互動分析系統(tǒng)（Flanders’ Interaction Analysis System，F(xiàn)IAS），標志著教學(xué)互動研究進入系統(tǒng)化、科學(xué)化的階段。FIAS通過定時取樣觀察并記錄師生的言語互動行為，再以矩陣表格進行統(tǒng)計分析，其分析結(jié)果可用于評估教學(xué)質(zhì)量、發(fā)現(xiàn)教學(xué)模式、指導(dǎo)教學(xué)改進。此后，F(xiàn)IAS被廣泛應(yīng)用，并在不同學(xué)科領(lǐng)域進行了改編和拓展^[4][5][6]。隨著信息技術(shù)的發(fā)展，課堂互動方式和類別得到了進一步擴展，出現(xiàn)了基于信息技術(shù)的互動分析系統(tǒng)（Information Technology-based Interaction Analysis System，ITIAS）^[7]，以及改進型弗蘭德斯互動分析系統(tǒng)（iFIAS）^[8]、基于交互式電子雙板的互動分析系統(tǒng)等^[9]。近年來，隨著智能行為識別技術(shù)的應(yīng)用，有研究者在參考FIAS的基礎(chǔ)上，增加教師和學(xué)生的心理、生理行為指標，設(shè)計了基于多維數(shù)據(jù)的課堂教學(xué)行為評價指標體系，以彌補既往系統(tǒng)忽視非言語行為的不足^[10]。然而，這些研究尚未與互動教學(xué)建立深層聯(lián)系，仍有進一步完善的空間。

2 課堂互動教學(xué)分析方式的進化

借鑒趙麗等^[11]對課堂教學(xué)分析發(fā)展階段的梳理，本研究將課堂互動教學(xué)分析方式分為三個階段：①基于人腦的課堂觀察階段。在本階段，觀察者主要使用觀察表記錄課堂互動行為并進行編碼，隨后依照計算規(guī)則對編碼進行統(tǒng)計分析。②信息技術(shù)支持的課堂觀察階段。信息技術(shù)的介入改變了學(xué)習(xí)環(huán)境，催生了師生與技術(shù)互動的新模式，也促進了一些輔助分析工具的發(fā)展。例如，方海光等^[12]開發(fā)了改進型弗蘭德斯互動分析系統(tǒng)iFIAS，可在自動定時、統(tǒng)計分析編碼結(jié)果等方面一定程度上減輕觀察者的工作負擔(dān)。此外，還出現(xiàn)了一些視頻編輯工具，如多模態(tài)視頻標注工具ELAN可用于對教學(xué)錄像的編碼處理，并提供標簽檢索功能，方便觀察者進行分析與整理。這些工具雖然提升了分析的便捷性和效率，但仍然依賴于人工判斷。③智能化互動教學(xué)分析階段。借助計算機視覺、語音識別、機器學(xué)習(xí)等技術(shù)，人工智能賦能的互動教學(xué)分析正蓬勃發(fā)展。例如，美國卡內(nèi)基梅隆大學(xué)開發(fā)了EduSense課堂分析系統(tǒng)，能夠自動識別學(xué)生的舉手動作、微笑表情等，還能判斷教師是否在課堂上行走^[13]。盧國慶等^[14]利用深度圖像識別技術(shù)對師生的行為進行識別和標注，包括教師的板書、巡視、講授等行為和學(xué)生的舉手、應(yīng)答、聽講等行為。上述研究成果展示了智能技術(shù)在教學(xué)分析方面的潛力，但目前針對課堂互動進行系統(tǒng)化、智能化分析的研究還比較缺乏。

3 現(xiàn)存的問題與智能技術(shù)的潛能

課堂互動是多模態(tài)信息生成、傳遞和接收的過程，而當(dāng)前課堂互動教學(xué)分析存在的主要問題是忽視多模態(tài)信息，導(dǎo)致分析不全面、不準確。有研究認為，多模態(tài)信息反映的師生參與程度和情感投入是理解課堂互動的重要內(nèi)容^[15]。認知神經(jīng)科學(xué)的相關(guān)研究表明，多感官相互作用是人們感知并與外部世界交互的重要方式^[16]，人們基于多模態(tài)信息的整合完成不同感知通道的內(nèi)部連接和信息互補，由此實現(xiàn)完整的意義建構(gòu)^[17]。然而，傳統(tǒng)的互動教學(xué)分析系統(tǒng)往往忽視了對多模態(tài)行為的關(guān)注，也忽略了其他交流形式（如眼神接觸、肢體語言等），導(dǎo)致無法全面、有效地理解課堂互動教學(xué)^[18]。此外，人工觀察的分析方式耗時且費力，觀察步驟繁瑣、難度大，這也限制了課堂觀察在教師專業(yè)發(fā)展中的常態(tài)化應(yīng)用。

隨著計算機視覺、自然語言處理、機器學(xué)習(xí)等技術(shù)的飛速發(fā)展，智能技術(shù)在課堂互動分析方面的應(yīng)用逐漸成為研究熱點，課堂分析邁入智能化階段。例如，計算機視覺技術(shù)不僅可以分析靜態(tài)的人體姿勢^[19]、識別動態(tài)的教學(xué)手勢^[20]，還可以通過分析教師的頭部姿態(tài)，對教師的注意力進行定向分析^[21]；語音識別技術(shù)能夠?qū)⒄n堂語音轉(zhuǎn)化為文本，為后續(xù)的文本分析奠定基礎(chǔ)；語音情感分析技術(shù)能夠依據(jù)語音的頻率、能量、共振峰等聲學(xué)特征，判斷語音的情感屬性是積極、中性還是消極^[22]。然而，課堂環(huán)境因其復(fù)雜性、動態(tài)性、開放性等特征，對技術(shù)算法的準確度提出了更高要求，課堂教學(xué)的情境性和情感性也對分析建模提出了挑戰(zhàn)。

二智能技術(shù)支持的多模態(tài)互動教學(xué)評價框架設(shè)計

從多模態(tài)互動教學(xué)分析的角度出發(fā)，依托社會建構(gòu)主義學(xué)習(xí)理論，本研究設(shè)計了智能技術(shù)支持的多模態(tài)互動教學(xué)評價框架，如圖1所示。此評價框架分為指標層、數(shù)據(jù)層、技術(shù)層、結(jié)果層和應(yīng)用層，其中指標層將互動教學(xué)解構(gòu)，形成了包含互動范圍、互動參與度等五個維度的評價指標；數(shù)據(jù)層采用錄像技術(shù)，無感化采集課堂教學(xué)數(shù)據(jù)；技術(shù)層利用計算機視覺、語音識別、情感分析等智能技術(shù)對視頻進行識別和分析，并基于分級規(guī)則對數(shù)據(jù)進行處理與計算；結(jié)果層采用可視化技術(shù)，直觀展現(xiàn)多模態(tài)互動教學(xué)的質(zhì)量；應(yīng)用層則闡釋評價框架在教學(xué)診斷、教學(xué)改進和教師發(fā)展評價中所起的重要作用。

1 指標層

為了全面評價互動教學(xué)質(zhì)量，本研究構(gòu)建了包含互動范圍、互動參與度、互動親密度、互動公平性、互動深度的五維評價指標體系。其中，互動范圍指參與互動的學(xué)生人數(shù)，用于評估互動的廣度；互動參與度指學(xué)生參與互動的積極性，用于評估學(xué)生參與的興趣；互動親密度指互動時教師在空間位置、面部表情、語音情感方面的表現(xiàn)，用于評估互動中師生物理空間和心理空間的接近程度；互動公平性指學(xué)生個體參與回答問題的次數(shù)，用于評估教師分配互動機會的均衡性；而互動深度指師生提出問題的認知層次，用于評估師生認知交互的深度。這五個維度的設(shè)計參考了現(xiàn)有的課堂互動教學(xué)評價標準和相關(guān)文獻，并借鑒了高校研究者、專家型教師、教研員的意見。例如，互動親密度的設(shè)計參考了Hall^[23]的人際關(guān)系距離理論和McCroskey等^[24]編制的“教師非言語親切性行為印象量表”。

為了更準確地評價上述五個維度，本研究采用量化分級方法，按照互動教學(xué)評價分級規(guī)則（如表1所示）展開評價。其中，互動參與度、互動公平性的評價分級規(guī)則需根據(jù)班級人數(shù)進行靈活調(diào)整。評價等級設(shè)為1～5級，級別越高，表示教師在該維度的表現(xiàn)越優(yōu)秀。本研究參考優(yōu)質(zhì)課實例和專家型教師的教學(xué)錄像在互動范圍、互動參與度方面的常見比值，將超過0.5的比值定為最高級別；其他四個級別每增加0.125，就提升一個級別。互動公平性通過將發(fā)言人數(shù)占班級人數(shù)的比值與發(fā)言次數(shù)占班級人數(shù)的比值相加，得到一個介于0～1之間的比值，將小于0.2的比值設(shè)為等級1；之后每增加0.2，就提升一個級別。對于互動親密度的評價分級，則根據(jù)積極行為的出現(xiàn)頻次來決定，頻次越高，級別越高。互動深度的評價分級通過計算互動深度等級來實現(xiàn)，得到的結(jié)果為0～5之間的數(shù)值，其小數(shù)部分采用進一取整的方法處理。

2 數(shù)據(jù)層

本研究從采集到的教學(xué)錄像中提取音頻類數(shù)據(jù)和視頻類數(shù)據(jù)作為數(shù)據(jù)來源，通過提取音頻和視頻信息對互動教學(xué)過程進行分析。其中，音頻類數(shù)據(jù)主要是課堂語音，可以轉(zhuǎn)化為文本數(shù)據(jù)；而視頻類數(shù)據(jù)包含靜態(tài)圖像和時間序列數(shù)據(jù)。教學(xué)錄像通常使用固定鏡頭拍攝，后方鏡頭記錄教師活動，前方鏡頭捕捉學(xué)生行為，確保全班視角的完整性。相比穿戴式傳感器，使用攝像頭錄制教學(xué)過程能夠更大程度地避免課堂干擾，確保數(shù)據(jù)獲取的真實性和自然性。為保護師生隱私，所有教學(xué)錄像僅用于學(xué)術(shù)研究和教學(xué)改進。

3 技術(shù)層

針對采集到的教學(xué)錄像，本研究使用智能教學(xué)分析平臺“益課”（網(wǎng)址：http：//ecourse.nercel.com/#/login）進行互動教學(xué)表現(xiàn)分析。對應(yīng)于互動范圍、互動參與度、互動親密度、互動公平性、互動深度五個維度，互動教學(xué)表現(xiàn)分析主要通過以下技術(shù)得以實現(xiàn)：

（1）說話人識別

說話人識別用于評估互動范圍和互動公平性，具體流程如下：首先，使用活動音檢測技術(shù)（Voice Activity Detection，VAD）區(qū)分音頻信號中的語音和非語音部分，并將音頻分割為多個片段；之后，使用多尺度殘差聚合神經(jīng)網(wǎng)絡(luò)（Multi Scale Residual Aggregation Neural Network，MSRANet）處理經(jīng)過VAD分割的課堂音頻片段；最后，在后端使用SoftMax層進行說話人嵌入分類，標記各個語音片段中教師和學(xué)生身份^[25]。根據(jù)標簽和時間戳，可以計算各類語音在一節(jié)課中的總時長及其占比。“益課”平臺在學(xué)生站立并開始發(fā)言時自動記錄“發(fā)言開始”，學(xué)生坐下時自動記錄“發(fā)言結(jié)束”。另外，“益課”平臺可以根據(jù)站立姿勢的坐標數(shù)據(jù)判斷是否為同一學(xué)生重復(fù)發(fā)言，并計算課堂中發(fā)言的學(xué)生人數(shù)。

（2）學(xué)生舉手手勢識別

學(xué)生舉手手勢識別用于評估互動參與度，具體流程如下：首先，使用OpenCV和FFMPEG對教學(xué)錄像進行預(yù)處理；然后，通過YOLOv5目標檢測模型識別學(xué)生的舉手行為；最后，利用OpenPifPaf姿態(tài)估計工具進一步分析和確認行為類型，以提高識別的準確率^[26]。“益課”平臺可以根據(jù)學(xué)生的座位位置將識別的行為與對應(yīng)的學(xué)生相關(guān)聯(lián)，并通過數(shù)據(jù)可視化技術(shù)展示每位學(xué)生的行為模式和整個班級的互動情況，從而支持教師優(yōu)化教學(xué)和促進學(xué)生互動。

（3）學(xué)生站立姿勢識別

學(xué)生站立姿勢識別用于評估互動范圍和互動公平性，其識別過程與舉手手勢識別相似，使用的模型也相同——YOLOv5目標檢測模型能夠同時檢測舉手、站立、打哈欠等多種行為^[27]。YOLOv5目標檢測模型通過輸出一個邊界框，來標識學(xué)生站立姿勢發(fā)生的位置，然后根據(jù)返回的坐標數(shù)據(jù)，判斷站立的學(xué)生是否為同一個人，進而自動統(tǒng)計發(fā)言學(xué)生人數(shù)。

（4）教師空間位置檢測

教師空間位置檢測的輸出結(jié)果會顯示教師在體距近區(qū)和體距遠區(qū)的停留時長，可用于評估互動親密度。在學(xué)生區(qū)時，教師與學(xué)生處于體距近區(qū)；而在講臺區(qū)時，教師與學(xué)生處于體距遠區(qū)。本研究采用教師空間位置估計（Teacher Spatial Position Estimation，TSPE）模型檢測教師的空間位置^[28]，具體操作如下：首先，利用單目標跟蹤算法，實現(xiàn)對視頻中教師的實時持續(xù)跟蹤；然后，使用單目深度估計算法，獲取整幅圖像的深度信息；最后，結(jié)合這兩個部分的輸出結(jié)果，通過分類算法完成從模型計算結(jié)果到空間位置的映射。

（5）教師面部表情識別

教師面部表情識別用于評估互動親密度，經(jīng)常微笑的教師被認為親密度更高。本研究使用Compact-Xception算法對教師的面部表情進行識別^[29]，具體流程如下：首先，通過人臉檢測、對齊、數(shù)據(jù)增強和歸一化操作，檢測出目標人物——教師的面部動作單元，并識別眼、眉、嘴、鼻、臉部肌肉的變化；之后，根據(jù)識別結(jié)果，將教師的面部表情按照積極、消極、中性三種類型進行分類整理；最后，輸出積極、中性、消極三類面部表情的占比，并通過積極面部表情的占比來判斷互動親密度。

（6）教師語音情感分析

教師語音情感分析用于評估互動親密度。本研究采用基于連接注意機制的多尺度語音情感識別網(wǎng)絡(luò)（Attention-based Multi-scale Speech Emotion Recognition Network，AMSNet）進行教師語音情感分析。AMSNet包含基于時間結(jié)構(gòu)的幀級表征學(xué)習(xí)模塊（Frame-level Representation Learning Module，F(xiàn)RLM）和基于全局結(jié)構(gòu)的語句級表征學(xué)習(xí)模塊（Utterance-level Representation Learning Module，URLM），用于提取不同層次的情感表達，具體流程如下：首先，在FRLM引入改進的注意力長短期記憶網(wǎng)絡(luò)，以聚焦對情感識別貢獻較大的幀；URLM則采用帶壓縮激勵模塊的卷積神經(jīng)網(wǎng)絡(luò)提取深度特征^[30]。之后，基于教師語音中的韻律、能量等特征，將教師語音情感分為積極、中性、消極三類，并輸出這三類語音情感的占比。最后，通過積極語音情感的占比來判斷互動親密度。

（7）語音識別

語音識別用于評估互動深度。本研究采用開源的WhisperX系統(tǒng)（這是一種具備詞級時間戳的高精度語音識別工具）進行語音識別^[31]，具體流程如下：首先，通過語音活動檢測技術(shù)對輸入音頻進行預(yù)處理分段；然后，對分段后的音頻進行切割和合并，使其符合自動語音識別（Automatic Speech Recognition，ASR）模型的輸入長度要求（約30秒）；最后，利用強制音素對齊技術(shù)，將音頻片段與語音轉(zhuǎn)錄的文本精確對齊，生成準確的詞級時間戳。

（8）預(yù)訓(xùn)練模型微調(diào)

預(yù)訓(xùn)練模型微調(diào)用于評估互動深度，主要通過判斷課堂中師生所提問題所處認知水平的層級，來確定互動深度的具體等級。根據(jù)修改版的教育目標分類理論^[32]，本研究從認知層次的角度將課堂提問分為記憶、理解、應(yīng)用、分析、評價、創(chuàng)造六個層次。預(yù)訓(xùn)練模型微調(diào)的具體流程如下：首先，基于上述分類對課堂提問文本進行標注，建立課堂提問數(shù)據(jù)集；接著，以“通義千問”為基礎(chǔ)模型，利用課堂提問數(shù)據(jù)集對開源大語言模型進行微調(diào)訓(xùn)練，使模型能夠提取問句并進行精準分類；然后，設(shè)計專屬的Prompt（提示語），引導(dǎo)模型對輸入的提問進行分類和響應(yīng)生成；最后，模型接收新的課堂提問，生成相應(yīng)的響應(yīng)并對提問進行分類。

技術(shù)層使用的算法模型及其性能表現(xiàn)如表2所示，可以看出：各項技術(shù)在關(guān)鍵指標上的準確率和精度均超過80%，說明技術(shù)層使用的算法模型性能表現(xiàn)較佳。值得一提的是，在進行數(shù)據(jù)分析時，音頻類算法模型和視頻類算法模型并行運行，而同類算法模型串行運行。

4 結(jié)果層

本研究使用Python中的OpenCV可視化技術(shù)，生成互動教學(xué)表現(xiàn)分析結(jié)果雷達圖，以可視化展示多模態(tài)互動教學(xué)在五個維度上的等級分布情況。同時，“益課”平臺以柱狀圖呈現(xiàn)教師在不同課堂中的互動教學(xué)數(shù)據(jù)，并按時間順序展示各互動教學(xué)維度在多次教學(xué)中的發(fā)展變化。互動教學(xué)表現(xiàn)分析結(jié)果的量化和可視化，既便于教師、教學(xué)管理者、研究者等相關(guān)利益者快速了解互動教學(xué)的質(zhì)量，為不同教師進行互動教學(xué)比較和交流提供了依據(jù)，也有助于教師追蹤教學(xué)互動情況的動態(tài)變化。

5 應(yīng)用層

在教學(xué)診斷、教學(xué)改進、發(fā)展性評價方面，智能技術(shù)支持的多模態(tài)互動教學(xué)評價已展現(xiàn)出了較大的應(yīng)用潛力：①能夠支持教學(xué)診斷，主要表現(xiàn)為通過多元數(shù)據(jù)分析，識別互動教學(xué)的薄弱環(huán)節(jié)，助力教學(xué)問題發(fā)現(xiàn)。②可為教學(xué)改進提供科學(xué)依據(jù)，主要表現(xiàn)為參照目標課程的互動教學(xué)分析結(jié)果，明確改進方向，以及結(jié)合長期的評估跟蹤報告開展教學(xué)改進。③關(guān)注過程的發(fā)展性評價，主要表現(xiàn)為通過常態(tài)化應(yīng)用，持續(xù)監(jiān)控互動教學(xué)情況，為教師的專業(yè)發(fā)展和互動教學(xué)能力提升提供支持。總之，智能技術(shù)支持的多模態(tài)互動教學(xué)評價不僅能夠滿足一線教師的教學(xué)實踐和專業(yè)發(fā)展需求，還為教學(xué)管理者進行教學(xué)決策提供了有力支持，并為相關(guān)研究者提供了豐富的數(shù)據(jù)資源，推動了教育教學(xué)研究的繼續(xù)深化。

三多模態(tài)互動教學(xué)評價框架的應(yīng)用效果檢驗

為驗證智能技術(shù)支持的多模態(tài)互動教學(xué)評價框架（下文簡稱“評價框架”）在反映互動教學(xué)質(zhì)量方面的有效性，本研究通過多模態(tài)互動教學(xué)評價結(jié)果和專家模糊評價結(jié)果的相關(guān)性分析來檢驗其應(yīng)用效果。其中，專家模糊評價是一種在評估中允許專家表達不確定性或模糊性的方法。本研究中的多模態(tài)互動教學(xué)評價涉及多個模糊維度，這些維度難以用傳統(tǒng)的定量方法精確測量，而專家能夠提供主觀判斷和看法，有助于填補信息空白。如果多模態(tài)互動教學(xué)評價結(jié)果與專家模糊評價結(jié)果的相關(guān)性為中等及以上，就說明評價框架能夠反映互動教學(xué)的質(zhì)量。

1 數(shù)據(jù)來源

本研究使用貴州省S縣小學(xué)數(shù)學(xué)教學(xué)技能比賽的10個教學(xué)錄像，作為檢驗評價框架應(yīng)用效果的樣本。10個教學(xué)錄像的選取過程如下：教學(xué)錄像的滿分為50分，先從比賽得分最低分段隨機選取2個，然后從最高分段隨機選取2個，最后從中間分段隨機選取6個。10個教學(xué)錄像按照比賽得分從低到高排序，其基本信息如表3所示。為排除教師職稱、學(xué)校、獲獎情況等因素對檢驗結(jié)果的影響，本研究去除了所有錄像的片頭、片尾信息，僅保留授課片段。

2 數(shù)據(jù)分析

每個教學(xué)錄像都經(jīng)歷了兩輪獨立的分析：第一輪，利用“益課”平臺開展多模態(tài)互動教學(xué)評價。為保證研究的嚴謹性，本研究邀請兩位教育技術(shù)學(xué)專業(yè)的碩士研究生作為觀察者，對自動分析結(jié)果進行詳細的編碼驗證。在開始編碼前，兩位觀察者接受編碼培訓(xùn)，學(xué)習(xí)各行為的子類和判斷方法，并進行編碼演練。掌握編碼規(guī)則后，兩位觀察者背對背地獨立完成對10個教學(xué)錄像的編碼。根據(jù)不同維度的行為特征，觀察者的編碼過程可以分為兩種情況：①涉及互動參與度和互動公平性的編碼。這兩個維度關(guān)注特定行為的發(fā)生情況，如檢測學(xué)生是否舉手。觀察者在查看教學(xué)錄像時，可以快速播放至學(xué)生舉手的片段，然后根據(jù)表1的等級描述記錄相關(guān)行為，之后通過統(tǒng)計計算得出該維度的等級結(jié)果。②涉及互動范圍、互動親密度和互動深度的編碼。這三個維度對教學(xué)全過程的某種行為賦予屬性標簽，如教師在每一時刻的空間位置都被標記為“在講臺區(qū)”或“在學(xué)生區(qū)”。CSV文件記錄了每個行為標簽的起止時間，在對比教學(xué)錄像時，觀察者應(yīng)查看并記錄CSV文件中與視頻不一致的行為標簽，并根據(jù)特定的計算規(guī)則得到這些維度的等級結(jié)果。經(jīng)計算，兩位觀察者的Cohen’s Kappa系數(shù)為0.889，表明評分一致性較高。盡管人工編碼對個別標簽進行了修改，但由于其結(jié)果與平臺生成的結(jié)果一致，故在進行具體的數(shù)據(jù)分析時無需對平臺生成的結(jié)果進行人工編碼。

第二輪，開展專家模糊評價。本研究邀請1名教研員、1名經(jīng)驗型教師和1名研究教學(xué)論的大學(xué)教授組成專家組，開展與多模態(tài)互動教學(xué)評價同步進行的專家模糊評價。本研究為專家提供的評價框架雖然包含五個維度——互動范圍、互動參與度、互動親密度、互動公平性和互動深度，但并沒有提供各維度包含的具體指標和具體分級規(guī)則，而是將每個維度劃分為五個模糊集：非常低、低、中等、高、非常高。每個模糊集都有一個對應(yīng)的隸屬函數(shù)值，分別為0.2（非常低）、0.4（低）、0.6（中等）、0.8（高）、1（非常高）。3位專家根據(jù)其專業(yè)知識和豐富的經(jīng)驗，對10個教學(xué)錄像進行模糊評價。例如，如果專家認為互動范圍是“高”，則對應(yīng)的隸屬函數(shù)值為0.8。經(jīng)計算，3位專家的Fleiss Kappa系數(shù)為0.573，表明評分一致性處于中等水平。專家模糊評價的信度低于多模態(tài)互動教學(xué)評價的信度，原因主要在于不同專家的主觀經(jīng)驗不同；而信度系數(shù)處于可接受水平，說明3位專家對互動教學(xué)的評價具有某些共識。本研究綜合3位專家的評價，對每個教學(xué)錄像的五個維度進行等級判定，并將該結(jié)果作為后續(xù)相關(guān)性分析的依據(jù)。

3 檢驗結(jié)果

本研究采用皮爾遜相關(guān)性分析法，對多模態(tài)互動教學(xué)評價結(jié)果與專家模糊評價結(jié)果的相關(guān)性進行分析。相關(guān)系數(shù)的解釋標準如下：當(dāng)0lt;∣r∣≤0.19時，表示相關(guān)性非常低；當(dāng)0.2≤∣r∣≤0.39時，表示相關(guān)性較低；當(dāng)0.4≤∣r∣≤0.59時，表示中等相關(guān)性；當(dāng)0.6≤∣r∣≤0.79時，表示相關(guān)性較高；當(dāng)0.8≤∣r∣≤1.0時，表示相關(guān)性非常高^[40]。

相關(guān)性分析結(jié)果表明，兩種評價結(jié)果的皮爾遜相關(guān)系數(shù)為0.778、顯著性為0.008，表明兩者存在較強的正相關(guān)性，說明多模態(tài)互動教學(xué)評價結(jié)果與專家模糊評價結(jié)果較為一致，智能技術(shù)支持的多模態(tài)互動教學(xué)評價框架能夠有效反映互動教學(xué)的質(zhì)量。因此，評價框架可以作為一種互動教學(xué)評價工具，用于對教學(xué)錄像的自動化評價，從而減輕常態(tài)化互動教學(xué)評價中對人工評價的依賴，促進發(fā)展性評價理念的落實。

四結(jié)語

本研究構(gòu)建了智能技術(shù)支持的多模態(tài)互動教學(xué)評價框架，并以10個教學(xué)錄像為樣本，通過多模態(tài)互動教學(xué)評價結(jié)果與專家模糊評價結(jié)果的相關(guān)性分析，驗證了評價框架能夠有效反映互動教學(xué)的質(zhì)量。評價框架提供了可觀察、可測量、可計算的評價指標，并采用智能技術(shù)進行自動化分析，為互動教學(xué)評價提供了新思路。但是，本研究也存在一些不足之處，如評價框架主要適用于小學(xué)階段，尚未驗證在其他學(xué)段的適用性；對互動教學(xué)中教師空間位置和學(xué)生舉手手勢、學(xué)生站立姿勢等行為的分析是基于主流的秧田式桌椅布局和課堂中“要發(fā)言先舉手”的默認互動規(guī)則，如果空間布局或互動規(guī)則發(fā)生變化，其適用性可能會受影響；評價框架采用量化分級的方式，雖然具有廣泛的兼容性，但可能不夠精確。基于此，后續(xù)研究應(yīng)繼續(xù)優(yōu)化框架，探索適應(yīng)中學(xué)階段和高等教育階段的評價框架；同時，在不同空間布局和互動規(guī)則下，設(shè)計適用性互動教學(xué)評價框架。另外，評價方式可以采用更精確的百分制評價，并設(shè)計更具靈活性的賦分規(guī)則，以提升評價框架的應(yīng)用價值。

參考文獻

[1]教育部.教育部關(guān)于印發(fā)《高等學(xué)校人工智能創(chuàng)新行動計劃》的通知[OL].

lt;http：//www.moe.gov.cn/srcsite/A16/s7062/201804/t20180410_332722.htmlgt;

[2]教育部.教育部關(guān)于實施第二批人工智能助推教師隊伍建設(shè)行動試點工作的通知[OL].

lt;http：//www.moe.gov.cn/srcsite/A10/s7034/202109/t20210915_563278.htmlgt;

[3]Flanders N. Intent， action and feedback： A preparation for teaching[J]. Journal of Teacher Education， 1963，（3）：251-260.

[4]Amidon E J， Hunter E. Abstracted from verbal interaction category system （VICS）[J]. Classroom Interaction News Letter， 1968，（2）：1-5.

[5]Moskowitz G. Interaction analysis—A new modern language for supervisors[J]. Foreign Language Annals， 1971，（5）：211-221.

[6]陳珍國，鄧志文，于廣瀛，等.基于FIAS分析模型的翻轉(zhuǎn)課堂師生互動行為研究——以中學(xué)物理課堂為例[J].全球教育展望，2014，（9）：21-33.

[7]顧小清，王煒.支持教師專業(yè)發(fā)展的課堂分析技術(shù)新探索[J].中國電化教育，2004，（7）：18-21.

[8][12]方海光，高辰柱，陳佳.改進型弗蘭德斯互動分析系統(tǒng)及其應(yīng)用[J].中國電化教育，2012，（10）：109-113.

[9]張屹，白清玉，馬靜思，等.交互式電子雙板環(huán)境下的課堂交互性研究——以高校“教育技術(shù)學(xué)研究方法”課堂教學(xué)為例[J].電化教育研究，2014，（3）：83-87.

[10]炕留一，葉海智，張瑾，等.基于多維數(shù)據(jù)的課堂教學(xué)行為評價研究[J].現(xiàn)代教育技術(shù)，2022，（4）：68-77.

[11]趙麗，賀瑋，王洋.人工智能支持的課堂教學(xué)行為分析：困境與路徑[J].電化教育研究，2022，（1）：86-92.

[13]Ahuja K， Kim D， Xhakaj F， et al. EduSense： Practical classroom sensing at scale[J]. Proceedings of the ACM on Interactive， Mobile， Wearable and Ubiquitous Technologies， 2019，（3）：1-26.

[14]盧國慶，謝魁，劉清堂，等.基于人工智能引擎自動標注的課堂教學(xué)行為分析[J].開放教育研究，2021，（6）：97-107.

[15]Lynch M， Cicchetti， D. Maltreated children’s reports of relatedness to their teachers[J]. New Directions for Child and Adolescent Development， 1992，（57）：81-107.

[16]Shams L， Seitz A R. Benefits of multisensory learning[J]. Trends in Cognitive Sciences， 2008，（11）：411-417.

[17]王一巖，王楊春曉，鄭永和.多模態(tài)學(xué)習(xí)分析：“多模態(tài)”驅(qū)動的智能教育研究新趨向[J].中國電化教育，2021，（3）：88-96.

[18]王蓮.多模態(tài)英語視聽說教學(xué)中的課堂互動分析[J].教學(xué)與管理，2013，（15）：141-143.

[19]Lan G， Wu Y， Hu F， et al. Vision-based human pose estimation via deep learning： A survey[J]. IEEE Transactions on Human-Machine Systems， 2022，（1）：253-268.

[20]Luan K， Matsumaru T. Dynamic hand gesture recognition for robot ARM teaching based on improved LRCN model[A]. 2019 IEEE International Conference on Robotics and Biomimetics （ROBIO）[C]. Dali： IEEE， 2019：1269-1274.

[21]Ghosh S， Hayat M， Dhall A， et al. Mtgls： Multi-task gaze estimation with limited supervision[A]. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision[C]. Waikoloa： WACV， 2022：3223-3234.

[22][31][38]Chen Z， Li J， Liu H， et al. Learning multi-scale features for speech emotion recognition with connection attention mechanism[J]. Expert Systems with Applications， 2023，214：118943.

[23]Hall E T. The hidden dimension[M]. Palatine： Anchor， 1966：116-121.

[24]McCroskey J C， Richmond V P， Sallinen A， et al. A cross-cultural and multi behavioral analysis of the relationship between nonverbal immediacy and teacher evaluation[J]. Communication Education， 1995，（4）：281-291.

[25][33]Zheng Q， Chen Z， Liu H， et al. MSRANet： Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios[J]. Expert Systems with Applications， 2023，217：119511.

[26][27][34][35]Zhou H， Jiang F， Si J， et al. StuArt： Individualized classroom observation of students with automatic behavior recognition and tracking[A]. ICASSP 2023-2023 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）[C]. Rhodes Island： IEEE， 2023：1-5.

[28][36]龔斌.基于課堂視頻的教師空間位置測量研究[D].武漢：華中師范大學(xué)，2024：21-39.

[29][37]劉婷婷.面向教師教學(xué)行為量化的智能感知與識別方法研究[D].武漢：華中師范大學(xué)，2019：63.

[30]Krathwohl D R. A revision of Bloom’s taxonomy： An overview[J]. Theory into Practice， 2002，（4）：212-218.

[32][39]Bain M， Huh J， Han T，et al. WhisperX： Time-accurate speech transcription of long-form audio[OL].

lt;https：//arxiv.org/pdf/2303.00747gt;

[40]Selvanathan M， Jayabalan N， Saini G K， et al. Employee productivity in Malaysian private higher educational institutions[J]. PalArch’s Journal of Archaeology of Egypt/Egyptology， 2020，（3）：66-79.

Design and Application Effect of the Multimodal Interactive

Teaching Evaluation Framework Supported by Intelligent Technology

WANG Meng-Ke"" "CHEN Zeng-Zhao^{[Corresponding Author]}"" "SHI Ya-Wen"" "WANG Zhuo

（Faculty of Artificial Intelligence， Central China Normal University， Wuhan， Hubei， China 430079）

Abstract： Evaluation and feedback of interactive teaching quality is not only an important approach to carry out teaching diagnosis and promote teachers’ development， but also a beneficial practice to implement the developmental evaluation concept. However， the traditional interactive teaching evaluation often ignores the multimodal information in the teaching process， and there exist problems of incomplete， inaccurate， and time-consuming analysis. Based on this， the multimodal interactive teaching evaluation framework supported by intelligent technology was designed， which was divided into five layers of indicator layer， data layer， technology layer， result layer， and application layer， and could evaluate the quality of interactive teaching from five dimensions of interaction scope， interaction participation， interaction intimacy， interaction fairness， and interaction depth. In order to examine the application effect of this evaluation framework， the paper conducted the correlation analysis on the results of multimodal interactive teaching evaluation and expert fuzzy evaluation by taking 10 teaching videos as samples， confirming that the multimodal interactive teaching evaluation framework supported by intelligent technology can effectively reflect the quality of interactive teaching. The research in this paper provided a more comprehensive， accurate， and efficient tool for interactive teaching evaluation， offered strong support for promoting teaching diagnosis and teachers’ professional development， and implementing the developmental assessment concept.

Keywords： multimodal interactive teaching; intelligent technology; teaching video; behavior recognition; teaching diagnosis

*基金項目：本文受2021年國家自然科學(xué)基金“教師課堂非言語行為的量化計算與教學(xué)效果評價研究”（項目編號：62077022）、2024年華中師范大學(xué)國家教師發(fā)展協(xié)同創(chuàng)新實驗基地建設(shè)專項研究“多模態(tài)教師研修自動評價方法與技術(shù)研究”（項目編號：CCNUTEIII 2024-01）資助。

作者簡介：王夢珂，在讀博士，研究方向為技術(shù)支持的教師發(fā)展、學(xué)習(xí)分析、反饋干預(yù)、自我調(diào)節(jié)學(xué)習(xí)，郵箱為moco@mails.ccnu.edu.cn。

收稿日期：2024年3月9日