唐閨臣 謝躍 李克



摘 要 近年來(lái),因?yàn)橐咔橐约耙粢曨l和網(wǎng)絡(luò)技術(shù)的發(fā)展,在線(xiàn)教學(xué)急速發(fā)展。與傳統(tǒng)課堂教學(xué)相比,在線(xiàn)教學(xué)具有不受地點(diǎn)限制、互動(dòng)范圍廣等優(yōu)點(diǎn)。但是,在線(xiàn)教學(xué)比較缺乏師生互動(dòng),受環(huán)境和軟件等因素影響老師無(wú)法面對(duì)面有效觀察學(xué)員,從而無(wú)法判斷學(xué)習(xí)者的當(dāng)時(shí)的學(xué)習(xí)狀態(tài),影響教學(xué)效果。為此,本文提出一種基于人工智能技術(shù)的學(xué)生情緒在線(xiàn)分析方法,旨在通過(guò)識(shí)別學(xué)生的情緒來(lái)輔助了解當(dāng)前學(xué)生的學(xué)習(xí)狀態(tài),從而為授課教師提供教學(xué)參考,進(jìn)而幫助老師正確選擇教學(xué)策略,以達(dá)到提高教學(xué)質(zhì)量的目的。
關(guān)鍵詞 在線(xiàn)教學(xué);情緒識(shí)別;深度學(xué)習(xí)網(wǎng)絡(luò);人工智能
中圖分類(lèi)號(hào):TP181? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? DOI:10.16400/j.cnki.kjdk.2021.33.044
Online Analysis Method of Students' Emotion Based on
Artificial Intelligence Technology
TANG Guichen[1], XIE Yue[1], LI Ke[2]
([1] School of Information and Communication Engineering, Nanjing Institute of Technology, Nanjing, Jiangsu 211167;
[2] School of Information Science and Engineering, Southeast University, Nanjing, Jiangsu 210096)
Abstract In recent years, due to the epidemic situation and the development of audio, video and network technology, online teaching has developed rapidly. Compared with traditional classroom teaching, online teaching has the advantages of unlimited location and wide range of interaction. However, online teaching lacks interaction between teachers and students. Affected by factors such as environment and software, teachers cannot effectively observe students face to face, so they cannot judge the learners' learning state at that time and affect the teaching effect. Therefore, this paper proposes an online analysis method of students' emotion based on artificial intelligence technology, which aims to help understand the current students' learning state by identifying students' emotion, so as to provide teaching reference for teachers, and then help teachers choose teaching strategies correctly, so as to improve teaching quality.
Keywords online teaching; emotion recognition; deep learning network; artificial intelligence
引言
隨著互聯(lián)網(wǎng)和人工智能技術(shù)的飛速發(fā)展,同時(shí)因?yàn)橐咔椋诰€(xiàn)教學(xué)的發(fā)展越發(fā)迅捷。相比于世界各國(guó),中國(guó)雖然起步較晚,但發(fā)展迅速,很多原來(lái)從事網(wǎng)絡(luò)會(huì)議行業(yè)的互聯(lián)網(wǎng)企業(yè)也開(kāi)始進(jìn)軍在線(xiàn)教育行業(yè)。騰訊會(huì)議、釘釘、飛書(shū)等音視頻即時(shí)通訊軟件也在在線(xiàn)教學(xué)中起著重要的作用。
與傳統(tǒng)課堂教學(xué)相比,在線(xiàn)教學(xué)具有不受地理位置限制、資源豐富、傳播范圍廣等優(yōu)點(diǎn)。然而,由于在線(xiàn)教育中的教師無(wú)法面對(duì)面觀察學(xué)習(xí)者,無(wú)法判斷學(xué)習(xí)者的學(xué)習(xí)情緒,缺乏與學(xué)習(xí)者的溝通和互動(dòng)。與任何學(xué)習(xí)過(guò)程一樣,在線(xiàn)學(xué)習(xí)依賴(lài)于人類(lèi)知識(shí)的有效交流,無(wú)論是在面對(duì)面的課堂上還是在互聯(lián)網(wǎng)上。因此,如何有效的在在線(xiàn)學(xué)習(xí)過(guò)程中評(píng)估學(xué)生的學(xué)習(xí)效果變得非常重要。近年來(lái),人工智能技術(shù)在學(xué)生狀態(tài)分析方面的研究越來(lái)越多。
有效和個(gè)性化的情緒反饋對(duì)學(xué)習(xí)者的動(dòng)機(jī)、參與度、自我調(diào)節(jié)和學(xué)習(xí)結(jié)果有積極影響。[1]近年來(lái),網(wǎng)絡(luò)教育中的情緒問(wèn)題受到了廣泛關(guān)注。[2]教育中的情感包括:(1)教育者理解和識(shí)別學(xué)習(xí)者情感狀態(tài)并給予他們個(gè)性化和有效的情感反饋的能力;(2)讓學(xué)習(xí)者意識(shí)到自己的情緒狀態(tài),以便能夠改變情緒狀態(tài)。情緒會(huì)對(duì)學(xué)習(xí)產(chǎn)生巨大影響,并在決策、管理學(xué)習(xí)活動(dòng)、時(shí)間安排和反思學(xué)習(xí)中發(fā)揮重要作用。情感在教學(xué)和學(xué)習(xí)中也很重要,通常以特定的方式表達(dá),如與他人互動(dòng)和學(xué)習(xí)動(dòng)機(jī)。提高學(xué)習(xí)者在在線(xiàn)教育中的表現(xiàn)是設(shè)計(jì)和評(píng)估在線(xiàn)平臺(tái)[3]的關(guān)鍵挑戰(zhàn)之一。為此,許多學(xué)者從事了相關(guān)的研究工作,比如基于人工智能技術(shù)的情緒識(shí)別方法等。
Mohamed Soltani等人提出了一種基于表情動(dòng)作的情感反饋系統(tǒng),通過(guò)在課程中使用面部動(dòng)作系統(tǒng)分析學(xué)生的面部表情,讓學(xué)生了解自己的情緒狀態(tài),從而提高他們的動(dòng)機(jī)、參與度、自我調(diào)節(jié)和學(xué)習(xí)成績(jī)。YU Wanying等人提出基于深度注意力網(wǎng)絡(luò)的課堂教學(xué)視頻中學(xué)生表情識(shí)別模型與智能教學(xué)評(píng)估算法。[4]Chao Ma等人提出并實(shí)現(xiàn)了一個(gè)基于CNN的在線(xiàn)教育學(xué)習(xí)情緒分析識(shí)別模型,以加強(qiáng)講師和學(xué)員之間的互動(dòng),從而有助于個(gè)性化教育。[5]Pan Xiang提出一種基于模糊神經(jīng)網(wǎng)絡(luò)的情感識(shí)別方法,通過(guò)分析學(xué)生的表情來(lái)識(shí)別學(xué)生的情緒,從而幫助系統(tǒng)正確選擇教學(xué)策略。[6]Liang Jie等人以教師的語(yǔ)音信號(hào)為研究對(duì)象,設(shè)計(jì)了一套情感檢測(cè)音頻處理系統(tǒng),用于教學(xué)中的語(yǔ)音情感識(shí)別。[7]
針對(duì)在線(xiàn)教學(xué)現(xiàn)狀,本文提出一種基于人工智能技術(shù)的學(xué)生情緒在線(xiàn)分析方法。該方法首先構(gòu)建神經(jīng)網(wǎng)絡(luò)模型獲取含有情感信息視頻初級(jí)特征,并基于時(shí)頻分析方法提取音頻初級(jí)特征;然后,根據(jù)視頻初級(jí)特征和音頻初級(jí)特征得到融合特征,將融合特征矩陣輸入基于深度學(xué)習(xí)網(wǎng)絡(luò)的情緒識(shí)別模型,從而得到情緒識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法在開(kāi)放的多模態(tài)情感識(shí)別數(shù)據(jù)集上取得了較好的效果。
1 情緒識(shí)別模型
1.1 系統(tǒng)架構(gòu)
圖1是基于人工智能技術(shù)的情緒識(shí)別的系統(tǒng)架構(gòu)。如圖所示,整個(gè)系統(tǒng)主要分為特征提取,特征融合和識(shí)別模型三個(gè)部分。其中,特征提取分為音頻和視頻特征提取兩個(gè)部分。其中,音頻部分為美爾倒譜系數(shù)提取;而視頻部分是基于深度殘差網(wǎng)絡(luò)提取深度特征。兩部分特征提取后,通過(guò)特征注意力方法進(jìn)行融合,并送入情緒識(shí)別模型。情緒識(shí)別模型由雙向門(mén)控循環(huán)單元網(wǎng)絡(luò)構(gòu)成,最后一層輸出經(jīng)過(guò)全連接層后得到等同于分類(lèi)數(shù)量的輸出向量,從而獲得情緒識(shí)別結(jié)果。
1.2 音視頻特征提取
本文采用深度殘差網(wǎng)絡(luò)[8]提取視頻模態(tài)數(shù)據(jù)所包含的特征。深度殘差網(wǎng)絡(luò)包括17個(gè)卷積層與1個(gè)全連接層,最后提取的視頻初級(jí)特征共128維。音頻特征為24階梅爾頻率倒譜系數(shù)。
為了將視頻初級(jí)特征矩陣和音頻初級(jí)特征矩陣進(jìn)行特征融合,模型采用一種能夠自動(dòng)學(xué)習(xí)融合權(quán)重的機(jī)制。首先,模型對(duì)每一組特征矩陣以相同間隔進(jìn)行下采樣,并歸一化至相同的時(shí)間長(zhǎng)度。對(duì)于長(zhǎng)度不足部分的數(shù)據(jù)采取填零處理,隨后拼接每一時(shí)刻對(duì)應(yīng)的視頻初級(jí)特征與音頻初級(jí)特征,得到融合特征矩陣。其中,融合后的特征維度為152,故為一個(gè)行高為152、列寬為的矩陣。
將融合特征矩陣輸入特征融合模塊,得到經(jīng)過(guò)自注意力機(jī)制處理的融合特征矩陣,該過(guò)程使網(wǎng)絡(luò)能夠?qū)W習(xí)融合特征中更為重要的維度并將注意力集中,提高其權(quán)重并降低冗余維度的權(quán)重。該機(jī)制可以被描述為一個(gè)查詢(xún)矩陣到一系列(鍵-值)對(duì)矩陣的映射,[9]其計(jì)算方式是先計(jì)算查詢(xún)矩陣和各個(gè)鍵的相關(guān)性,得到每個(gè)鍵對(duì)應(yīng)值的權(quán)重系數(shù),即注意力權(quán)重,使用該權(quán)重對(duì)各值進(jìn)行加權(quán)求和,最終得到經(jīng)過(guò)注意力機(jī)制處理的值。
1.3 識(shí)別模型
為建模含有情緒信息的多模態(tài)數(shù)據(jù)樣本中的時(shí)序關(guān)系,本文構(gòu)建雙向門(mén)控循環(huán)單元網(wǎng)絡(luò)。此處的雙向門(mén)控循環(huán)單元采用兩個(gè)門(mén)控循環(huán)單元上下疊加在一起組成,在每一個(gè)時(shí)刻,輸入會(huì)同時(shí)提供給這兩個(gè)方向相反的門(mén)控循環(huán)單元,而輸出則是由這兩個(gè)單向的門(mén)控循環(huán)單元共同決定。門(mén)控循環(huán)單元是循環(huán)神經(jīng)網(wǎng)絡(luò)中的一種,可以有效解決長(zhǎng)期記憶和反向傳播中的梯度爆炸問(wèn)題,并且其參數(shù)量較少。
將融合特征矩陣,輸入雙向門(mén)控循環(huán)單元網(wǎng)絡(luò),得到所有時(shí)刻的輸出向量,以及最后一個(gè)隱藏層的狀態(tài)向量,每一時(shí)刻的輸出向量為當(dāng)前時(shí)刻的隱藏層向量通過(guò)一個(gè)全連接層得到,維度設(shè)置為128。由于門(mén)控循環(huán)單元網(wǎng)絡(luò)是雙向的,因此輸出向量與狀態(tài)向量的維度均為256。隨后,使用時(shí)間注意力機(jī)制模塊計(jì)算最后一個(gè)隱藏層的狀態(tài)向量與所有時(shí)刻的輸出向量之間的注意力:
(1)
其中,、和均為可訓(xùn)練的參數(shù)向量或矩陣,為時(shí)刻的輸出向量在時(shí)間維度上的注意力權(quán)重。根據(jù)注意力權(quán)重對(duì)所有時(shí)刻的輸出向量進(jìn)行加權(quán)求和,得到高級(jí)特征向量:
(2)
此時(shí),256維的高級(jí)特征向量已經(jīng)過(guò)特征維度和時(shí)間維度的注意力機(jī)制處理,融合了多模態(tài)特征以及上下文信息,且對(duì)于重要的特征維度及時(shí)刻擁有更高的權(quán)重。將輸入全連接層得到一個(gè)維度等同于分類(lèi)數(shù)量的輸出向量,使用Softmax函數(shù)映射為概率分布后計(jì)算其與樣本實(shí)際概率分布之間的交叉熵。以已知真實(shí)標(biāo)簽的含有情感信息的音視頻數(shù)據(jù)作為訓(xùn)練樣本、以交叉熵作為損失函數(shù)進(jìn)行反向傳播訓(xùn)練整個(gè)神經(jīng)網(wǎng)絡(luò),最終得到可以預(yù)測(cè)音視頻樣本情感分類(lèi)概率的神經(jīng)網(wǎng)絡(luò)模型。
2 情緒識(shí)別實(shí)驗(yàn)
2.1 實(shí)驗(yàn)設(shè)置
為了客觀的評(píng)估算法性能,本文使用了一個(gè)被廣泛使用的多模態(tài)情感數(shù)據(jù)庫(kù)RAVDESS。該數(shù)據(jù)集包含24名專(zhuān)業(yè)演員(12名女性,12名男性)作為被試,每名被試以演講和演唱兩種方式表達(dá)各種情緒,本文僅采用其演講的音視頻數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。對(duì)于實(shí)驗(yàn)方案和性能指標(biāo),采用五折交叉驗(yàn)證計(jì)算識(shí)別精度,并采用平均F1分?jǐn)?shù)來(lái)評(píng)估我們多模態(tài)情感識(shí)別方法的性能,情緒的分類(lèi)包括快樂(lè)、悲傷、憤怒、恐懼、驚訝和厭惡。
實(shí)驗(yàn)以25fps的幀率提取圖像序列并進(jìn)行灰度化處理,進(jìn)而對(duì)所有提取出的灰度圖像幀進(jìn)行人臉檢測(cè),并定位人臉的68點(diǎn)關(guān)鍵點(diǎn);根據(jù)定位處理得到的關(guān)鍵點(diǎn),以31號(hào)關(guān)鍵點(diǎn)鼻尖為中心,裁剪出人臉正方形區(qū)域,并歸一化為64?4的尺寸、[0,1]的像素值范圍以送入圖像特征提取網(wǎng)絡(luò)。以已知真實(shí)標(biāo)簽的含有情感信息的音視頻數(shù)據(jù)作為訓(xùn)練樣本、以交叉熵作為損失函數(shù)進(jìn)行反向傳播訓(xùn)練整個(gè)神經(jīng)網(wǎng)絡(luò),并采用自適應(yīng)矩估計(jì)算法進(jìn)行訓(xùn)練優(yōu)化,利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,其中,自適應(yīng)矩估計(jì)算法的權(quán)值衰減設(shè)置為5e-5,以32個(gè)樣本作為一個(gè)小批次進(jìn)行輸入,學(xué)習(xí)率初始化為4e-3,每20個(gè)迭代周期衰減為原先的一半,共迭代100個(gè)周期。
2.2 實(shí)驗(yàn)結(jié)果
為驗(yàn)證情緒識(shí)別算法的效果,實(shí)驗(yàn)在公開(kāi)的主流多模態(tài)情感識(shí)別數(shù)據(jù)集RAVDESS上進(jìn)行對(duì)比實(shí)驗(yàn)。對(duì)比方法為基于無(wú)注意力機(jī)制、特征注意力機(jī)制和本文提出的方法。評(píng)價(jià)指標(biāo)為識(shí)別準(zhǔn)確率和平均F1分?jǐn)?shù)。實(shí)驗(yàn)結(jié)果如表1所示。由表可知,本文采用的方法在數(shù)據(jù)集上取得了最好的識(shí)別效果。相比于無(wú)注意力機(jī)制,特征注意力機(jī)制的識(shí)別準(zhǔn)確率在提升5.58%。融合特征-時(shí)間注意力后,識(shí)別準(zhǔn)確率達(dá)到11.88%。兩種算法在F1平均分?jǐn)?shù)上有類(lèi)似的提升。
3 結(jié)論
為了提升在線(xiàn)教學(xué)的效果,本文提出一種基于人工智能技術(shù)的學(xué)生情緒在線(xiàn)分析方法。該方法綜合運(yùn)用了音頻和視頻特征,基于人工智能的方法來(lái)有效的被試情緒。實(shí)驗(yàn)結(jié)果顯示,該方法能充分利用錄制的音視頻數(shù)據(jù)來(lái)識(shí)別被試情緒,使從事在線(xiàn)教學(xué)的教師有可能獲得學(xué)生的情緒狀況,進(jìn)而及時(shí)對(duì)課程內(nèi)容進(jìn)行調(diào)整,比如增加實(shí)例分析、提問(wèn)、學(xué)生答疑等。后期研究應(yīng)該錄制更有效的音視頻數(shù)據(jù),并融入語(yǔ)音識(shí)別和自然語(yǔ)言處理技術(shù),將學(xué)生情緒和語(yǔ)言表征相結(jié)合,從而更好的判斷學(xué)生的學(xué)習(xí)狀態(tài),進(jìn)而全面的評(píng)價(jià)學(xué)生行為并用以指導(dǎo)教學(xué)行為。
基金項(xiàng)目:2020年度江蘇高校哲學(xué)社會(huì)科學(xué)研究一般項(xiàng)目“基于人工智能的在線(xiàn)教學(xué)質(zhì)量雙向評(píng)價(jià)研究”(項(xiàng)目編號(hào):2020SJA0455)
參考文獻(xiàn)
[1] Arguedas, Marta1, Daradoumis, Thanasis, Xhafa, Fatos. Analyzing How Emotion Awareness Influences Students' Motivation, Engagement, Self-Regulation and Learning Outcome. Journal of Educational Technology Society, 2016; 19(2): 87-103
[2] Soltani M, Zarzour H, Babahenini M C, Hammad M, Smadi M a-, Jararweh Y. An Emotional Feedback Based on Facial Action Coding System for MOOCs with Computer-Based Assessment.in 2019 Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS).2019.
[3] Chemam C, Zarzour H, Sari T, Al-Smadi M, Jararweh Y. Trends in Linked Data-Based Educational Studies: A Review of Contributions in SSCI Journals. in 2018 IEEE/ACS 15th International Conference on Computer Systems and Applications (AICCSA). 2018.
[4] 于婉瑩,梁美玉,王笑笑,等.基于深度注意力網(wǎng)絡(luò)的課堂教學(xué)視頻中學(xué)生表情識(shí)別與智能教學(xué)評(píng)估.計(jì)算機(jī)應(yīng)用, 1-7 DOI: 10. 11772/j. issn. 1001-9081. 2021040846.
[5] Ma C, Sun C, Song D, Li X, Xu H. A Deep Learning Approach for Online Learning Emotion Recognition. in 2018 13th International Conference on Computer Science & Education (ICCSE). 2018.
[6] Pan X. Research on the Emotion Recognition Based on the Fuzzy Neural Network in the Intelligence Education System. in 2011 Second International Conference on Digital Manufacturing & Automation. 2011.
[7] Jie L, Xiaoyan Z, Zhaohui Z. Speech Emotion Recognition of Teachers in Classroom Teaching. in 2020 Chinese Control And Decision Conference (CCDC). 2020.
[8] He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. in 29th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, June 26, 2016 - July 1, 2016. 2016. Las Vegas, NV, United states: IEEE Computer Society.
[9] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, Kaiser L, Polosukhin I. Attention is all you need. in 31st Annual Conference on Neural Information Processing Systems, NIPS 2017, December 4, 2017 - December 9, 2017. 2017. Long Beach, CA, United states: Neural information processing systems foundation.