張凌熙 蔡子碩 李林燕
摘 要:本文探討了教育領(lǐng)域中多模態(tài)情感分析技術(shù)在提升教學(xué)質(zhì)量和學(xué)習(xí)效果方面的優(yōu)越性和適應(yīng)性。當(dāng)前,教育成本不斷上升,而小班化教學(xué)成為了沉重的負(fù)擔(dān)。因此,多數(shù)學(xué)校的班級人數(shù)很多,導(dǎo)致授課教師難以準(zhǔn)確判斷每個(gè)學(xué)生的學(xué)習(xí)情況,影響了教學(xué)質(zhì)量和學(xué)生的學(xué)習(xí)進(jìn)展。利用多模態(tài)情感分析技術(shù)可以通過人臉識別和面部情感分析解決這一問題,從而提高教學(xué)質(zhì)量和學(xué)生的學(xué)習(xí)效果。此外,文章還指出了現(xiàn)有課堂輔助教學(xué)識別設(shè)備存在的問題,并探討了多模態(tài)情感分析技術(shù)在這些問題上的優(yōu)勢。
關(guān)鍵詞:人臉識別;多模態(tài)情感分析;教育教學(xué)應(yīng)用
一、引言
如今人工智能行業(yè)正在快速發(fā)展,各行各業(yè)都在嘗試將人工智能應(yīng)用于創(chuàng)新和迭代,以搶占市場先機(jī)。在教育領(lǐng)域,學(xué)習(xí)分析技術(shù)是一種新興技術(shù),它可以深入分析和應(yīng)用師生數(shù)據(jù),為教育領(lǐng)域向智慧化轉(zhuǎn)型提供新的發(fā)展視角,同時(shí)學(xué)生的認(rèn)知能力也被認(rèn)為是影響學(xué)生學(xué)習(xí)能力和學(xué)習(xí)熱情的最根本原因之一。現(xiàn)有的研究資料表明,學(xué)生的認(rèn)知能力通常通過面部表情、肢體動作、神情變化和語言等方式顯現(xiàn)出來。情感計(jì)算是指開發(fā)者通過人工智能識別并分析采集到的人體面部情感信息和肢體動作,從而解讀人類情感。因此,情感數(shù)據(jù)計(jì)算分析在評估教學(xué)質(zhì)量和學(xué)習(xí)效果方面具有重要作用。
隨著教育成本的不斷上升,小班化教學(xué)成為了一種沉重的負(fù)擔(dān)。大多數(shù)學(xué)校的班級人數(shù)依然很多,導(dǎo)致授課教師無法對每個(gè)學(xué)生的學(xué)習(xí)情況做出準(zhǔn)確的判斷。這也使得授課教師無法及時(shí)調(diào)整授課內(nèi)容和方式,無法了解學(xué)生在課堂上的表現(xiàn),從而影響了教學(xué)質(zhì)量和學(xué)生的學(xué)習(xí)進(jìn)展。雖然市面上出現(xiàn)了一些課堂輔助教學(xué)識別設(shè)備,但它們的功能不完善,識別不精準(zhǔn),或者存在前期投入巨大、效果不佳、干擾因素過多等問題,無法確保后臺獲取的信息正確性。
本文嘗試?yán)枚嗄B(tài)情感分析這一技術(shù)手段,以人臉識別為基礎(chǔ),以面部情感分析為核心,嘗試論證多模態(tài)情感分析在教育教學(xué)中的優(yōu)越性和適應(yīng)性。
二、多模態(tài)情感分析在教育教學(xué)中的應(yīng)用
19世紀(jì)末人臉識別這個(gè)概念首次被提出,經(jīng)過近30年的發(fā)展,人臉識別已經(jīng)成為計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一,并且在近年來取得了很大的進(jìn)展。機(jī)器學(xué)習(xí)中深度學(xué)習(xí)脫穎而出,它通過構(gòu)建多層次的神經(jīng)網(wǎng)絡(luò)并且通過眾多的包含標(biāo)簽的數(shù)據(jù)作為燃料學(xué)習(xí)數(shù)據(jù)的諸多特征,并對學(xué)習(xí)到的特征進(jìn)行歸納匯總,從而實(shí)現(xiàn)數(shù)據(jù)的分類、識別、預(yù)測等基本任務(wù)。其中卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是深度學(xué)習(xí)中最常用的兩種神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)主要用于圖像識別和計(jì)算機(jī)視覺領(lǐng)域,它可以通過卷積操作來提取圖像的局部特征,從而實(shí)現(xiàn)對圖像的分類、檢測、分割等任務(wù)。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)主要是它可以自動學(xué)習(xí)圖像的特征表示,該神經(jīng)網(wǎng)絡(luò)不需要人工手動設(shè)計(jì)特征,從而進(jìn)一步提高了使用該神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識別的準(zhǔn)確性和效率。
循環(huán)神經(jīng)網(wǎng)絡(luò)主要用于自然語言處理和語言識別領(lǐng)域,它可以處理序列數(shù)據(jù)和時(shí)序數(shù)據(jù),列如文本、語音、音樂。循環(huán)神經(jīng)網(wǎng)絡(luò)的主要優(yōu)點(diǎn)為可以通過捕捉序列數(shù)據(jù)的上下文信息從而實(shí)現(xiàn)對文本的情感分析、語音識別和機(jī)器翻譯的任務(wù)。此外,深度學(xué)習(xí)還可以處理大規(guī)模、高維度的數(shù)據(jù),具有很強(qiáng)的泛化能力和魯棒性,可以應(yīng)用于圖像識別、語音識別、自然語言生成、自然語言理解等領(lǐng)域。
(一)多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)
多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)(Multimodal Convolutional Neural Network,MCNN)顧名思義它是一種用于處理多種類型數(shù)據(jù)的深度學(xué)習(xí)模型。它的主要優(yōu)點(diǎn)在于它可以同時(shí)處理視頻信息、圖像信息、文本信息、音頻信息等多種數(shù)據(jù)類型,并通過模型和算法將這些數(shù)據(jù)融合在一起進(jìn)行數(shù)據(jù)的分析和預(yù)測從而提高分類或者預(yù)測的準(zhǔn)確性。
一般來說一個(gè)多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)的體系架構(gòu)主要包括多模態(tài)輸入層、多個(gè)卷積神經(jīng)網(wǎng)絡(luò)分支、特征融合層、全連接層和輸出層。
1.多模態(tài)輸入層:多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)輸入層可以處理同時(shí)輸入的多種不同類型數(shù)據(jù)例如圖像、文本、語音等。
2.多個(gè)卷積神經(jīng)網(wǎng)絡(luò)分支:該層每一個(gè)分支都是一個(gè)輸入模型,該層使用卷積層、池化層等對數(shù)據(jù)進(jìn)行特征提取和降維。卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心基石,卷積神經(jīng)網(wǎng)絡(luò)的每個(gè)卷積層都由多個(gè)卷積單元組成,每個(gè)卷積單元都有一組可訓(xùn)練的參數(shù),這些參數(shù)通過反向傳播算法進(jìn)行優(yōu)化,以最大化模型的準(zhǔn)確性。卷積運(yùn)算的目的是在輸入數(shù)據(jù)中提取出不同的特征,例如邊緣、線條、角等。第一層卷積層通常只能提取一些簡單的低級特征,而更深層的卷積層可以從這些低級特征中迭代地提取更加復(fù)雜的高級特征。這種迭代特征提取的過程可以幫助卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對輸入數(shù)據(jù)的更加準(zhǔn)確的分類和預(yù)測。當(dāng)數(shù)據(jù)經(jīng)過卷積層的特征提取后,所以的特征圖都會被送到池化層,池化層包含一組預(yù)設(shè)定的池化函數(shù),例如最大池化或平均池化,其功能是將特征圖中每個(gè)局部區(qū)域的特征值替換為該區(qū)域內(nèi)的統(tǒng)計(jì)量,例如最大值或平均值。這樣可以幫助減少特征圖的尺寸,同時(shí)保留重要的特征信息,提高模型的魯棒性和泛化能力。
3.特征融合層:該層會將從多個(gè)卷積神經(jīng)網(wǎng)絡(luò)分支中的獲取的不同的特征圖融合在一起,以便更好地描述整個(gè)多模態(tài)輸入數(shù)據(jù)的特征。通常,特征融合層采用加權(quán)平均或?qū)W習(xí)到的融合權(quán)重的方式進(jìn)行特征融合。加權(quán)平均可以簡單地將不同分支提取的特征圖加權(quán)平均,權(quán)重可以根據(jù)先驗(yàn)知識或手動調(diào)整。而學(xué)習(xí)到的融合權(quán)重可以通過反向傳播算法自動學(xué)習(xí)得到,以最大化模型的準(zhǔn)確性和泛化能力。
4全連接層:是將從特征融合層中獲取到的特征向量,使用激活函數(shù)進(jìn)行非線性變換,最終輸出一個(gè)分類或預(yù)測結(jié)果。
5.輸出層:輸出分類或預(yù)測結(jié)果。
(二)基于多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)的人臉識別
基于多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)的情感識別主要通過一下幾個(gè)步驟完成:首先從監(jiān)控?cái)z像頭中獲取視頻流信息,從視頻流中一幀幀的讀取圖像,將視頻流轉(zhuǎn)換為靜態(tài)圖像。然后,使用cv2.imwrite()函數(shù)將從視頻幀中獲得的圖像保存為靜態(tài)圖像,并使用cv2.imshow()函數(shù)顯示幀圖像然后將數(shù)據(jù)傳輸至OpenCV中的cap.read()函數(shù)讀取視頻流中的圖像同時(shí)對視頻流進(jìn)行預(yù)處理,進(jìn)行圖像縮放、灰度化、直方圖均衡化等,以便于后續(xù)的人臉檢測,然后使用人臉檢測算法對進(jìn)行預(yù)處理后的視頻流進(jìn)行處理,檢測視頻流中人臉的位置信息,截取圖像中的人臉信息,將人臉信息傳輸至模型中對人臉進(jìn)行行為分析和表情識別。
(三)基于多模態(tài)情感分析的教育教學(xué)應(yīng)用
“模態(tài)”是“人類通過感覺器官建立的與外部環(huán)境之間的交互方式”,如視覺、聽覺、觸覺、嗅覺、味覺等。當(dāng)前人工智能領(lǐng)域的發(fā)展已經(jīng)由基于神經(jīng)網(wǎng)絡(luò)和遺傳算法的計(jì)算智能階段邁向以文本、語音和圖像等符號系統(tǒng)表征的語義信息的識別和加工為核心的感知智能階段。基于計(jì)算機(jī)視覺技術(shù)對智慧教育場景中學(xué)生的表情、動作等圖像信息進(jìn)行智能化的采集,用以分析學(xué)生的課堂表現(xiàn),對學(xué)生課堂學(xué)習(xí)過程中的專注度、情感狀態(tài)等信息進(jìn)行智能識別;基于語音識別技術(shù),對學(xué)生課堂發(fā)言中的話語信息進(jìn)行采集,根據(jù)學(xué)習(xí)者的語音語調(diào)信息和話語信息,分析學(xué)習(xí)者的認(rèn)知發(fā)展?fàn)顩r和情感狀態(tài);基于自然語言處理技術(shù),從語義層面分析對學(xué)習(xí)者所表述的信息進(jìn)行深入的挖掘分析,提取其中潛在的觀點(diǎn)和情感信息,基于語義網(wǎng)絡(luò)和知識圖譜分析學(xué)習(xí)者的認(rèn)知發(fā)展?fàn)顩r;基于腦電感應(yīng)、眼神追蹤等生理信息識別技術(shù),對學(xué)習(xí)者的眼動、腦電、皮膚電、激素分泌等數(shù)據(jù)進(jìn)行采集,為學(xué)習(xí)分析相關(guān)研究的開展提供多樣化的生理數(shù)據(jù)支持;基于平臺數(shù)據(jù)采集技術(shù),對學(xué)習(xí)者在智慧教學(xué)平臺的學(xué)習(xí)過程進(jìn)行精準(zhǔn)監(jiān)測,形成面向?qū)W習(xí)者個(gè)體的在線學(xué)習(xí)流數(shù)據(jù),根據(jù)學(xué)習(xí)者的檢索、瀏覽、觀看、測試數(shù)據(jù)分析學(xué)習(xí)者的學(xué)習(xí)偏好和知識掌握程度,為其提供智能化的認(rèn)知診斷和學(xué)習(xí)資源推薦服務(wù)。通過對學(xué)生多源異構(gòu)數(shù)據(jù)的采集分析,形成面向?qū)W習(xí)者的多模態(tài)數(shù)據(jù)集,利用智能化分析方法對學(xué)生深層次的認(rèn)知和情感狀態(tài)進(jìn)行精準(zhǔn)測評,實(shí)現(xiàn)面向?qū)W習(xí)者的精準(zhǔn)化學(xué)習(xí)分析。
三、結(jié)束語
本文主要討論如何將多模態(tài)情感分析技術(shù)應(yīng)用于教育教學(xué)中,以提高教學(xué)效果和教學(xué)質(zhì)量。首先介紹了學(xué)習(xí)分析技術(shù)和情感計(jì)算技術(shù)在教育領(lǐng)域的應(yīng)用,接著探討了小班化教學(xué)的問題和課堂輔助教學(xué)識別設(shè)備的不足。然后,著重介紹了基于多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)的人臉識別技術(shù),并分析了其優(yōu)點(diǎn)和適用性。最后,結(jié)合情感數(shù)據(jù)計(jì)算分析和人臉識別技術(shù),探討了如何利用多模態(tài)情感分析技術(shù)來評估教學(xué)質(zhì)量和學(xué)習(xí)效果,以及如何通過分析學(xué)生的情感數(shù)據(jù)來了解學(xué)生在課堂上的表現(xiàn)和情感狀態(tài),進(jìn)而調(diào)整授課內(nèi)容和方式,提高教學(xué)效果和教學(xué)質(zhì)量。基于多模態(tài)數(shù)據(jù)的感知與融合,實(shí)現(xiàn)對課堂生態(tài)系統(tǒng)構(gòu)成要素的精準(zhǔn)化建模分析,構(gòu)建時(shí)空融合的多模態(tài)數(shù)據(jù)表征體系,模擬智慧課堂的數(shù)據(jù)流動,理清相關(guān)構(gòu)成要素對學(xué)習(xí)生態(tài)變革的作用機(jī)理,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)驅(qū)動的智慧教學(xué)生態(tài)的精準(zhǔn)治理。
總之,多模態(tài)情感分析技術(shù)的應(yīng)用可以為教育領(lǐng)域的智慧化轉(zhuǎn)型提供新的發(fā)展視角,為學(xué)校提供更準(zhǔn)確的教學(xué)質(zhì)量和學(xué)習(xí)效果評估方法,同時(shí)也可以幫助授課教師了解學(xué)生的情感狀態(tài)和表現(xiàn),從而更好地指導(dǎo)學(xué)生學(xué)習(xí)和促進(jìn)學(xué)生的學(xué)習(xí)積極性。
參考文獻(xiàn):
[1]陳曉歡. 基于多模態(tài)融合的情感識別研究[D].延安大學(xué),2022.
[2]陳光輝. 語音圖像多模態(tài)信息融合的情感識別方法研究[D].重慶大學(xué),2021.
[3]凌云昊. 基于多模態(tài)情感識別的自適應(yīng)教學(xué)系統(tǒng)研究與實(shí)現(xiàn)[D].上海交通大學(xué),2018.
[4]董建功. 多模態(tài)情感識別及其虛擬環(huán)境人機(jī)交互研究[D].重慶郵電大學(xué),2021.
[5]張海峰. 基于多特征融合的人臉表情識別研究[D].中國科學(xué)技術(shù)大學(xué),2020.
[6]王一巖、王楊春曉、鄭永和.多模態(tài)學(xué)習(xí)分析:"多模態(tài)"驅(qū)動的智能教育研究新趨向[J].中國電化教育,2021,000(003):88-96.