


收稿日期:2023-08-05
基金項目:無錫城市職業技術學院橫向課題項目(HX2023017);無錫城市職業技術學院校級教育教學改革立項課題
DOI:10.19850/j.cnki.2096-4706.2024.06.041
摘? 要:隨著人工智能技術的飛速發展,人臉表情識別技術的應用越來越廣泛。學校是學生的聚集地,人臉表情數據的來源充足,為表情識別技術的研究提供了數據支撐。文章以課堂實錄視頻為研究對象,采用K210檢測人臉進行表情特征提取及分類,借此對課堂質量進行等級評分,并以皮爾遜積矩相關系數驗證課堂質量等級評分與教師評價的相關性,最終進行教學效果反饋的研究。
關鍵詞:人工智能;表情識別;教學效果
中圖分類號:TP39;G434? 文獻標識碼:A? 文章編號:2096-4706(2024)06-0194-05
Research on Teaching Effect Feedback Based on Expression Recognition Technology
XU Xiaoping
(Wuxi City College of Vocational Technology, Wuxi? 214153, China)
Abstract: With the rapid development of artificial intelligence technology, the application of facial expression recognition technology is becoming increasingly widespread. A college is a gathering place for students, and the source of facial expression data is abundant, providing data support for the research of facial expression recognition technology. This paper takes classroom recorded videos as the research object, uses K210 to detect face for facial expression feature extraction and classification, and grades the classroom quality. The Pearson product moment correlation coefficient is used to verify the correlation between classroom quality grade rating and teacher evaluation, and finally, a study on teaching effect feedback is conducted.
Keywords: artificial intelligence; facial expression recognition; teaching effect
0? 引? 言
相對于指紋、虹膜等識別技術,面部表情識別技術的發展較慢,但是由于其具有多樣性和復雜性的特點,在人機交互領域得到越來越廣泛的應用。相關研究表明,在人與人的日常溝通和交流中,語言表達、肢體動作、面部表情等信息傳遞占據著重要地位,其中面部表情是重要角色,在沒有任何外力或修飾下最能反映人的心理活動和情緒狀態。隨著人工智能技術及其相關學科的迅速發展,表情識別技術在各行各業中的應用也越來越廣泛,比如公安測謊、疲勞駕駛檢測、醫療監護系統,等等。在教育方面,無論是線上方式還是線下方式,通過記錄、分析學生的面部表情,教師能更有效地判斷學生的學習狀態及其知識掌握情況,便于教師及時調整教學設計和教學方法,從而提高教學質量。本文采用K210從課堂視頻中獲取人臉檢測目標,通過人臉表情識別網絡模型進行表情判別,計算學生的表情分數和課堂教學質量等級分值,并與測試分值進行比較,從而分析學生的知識掌握情況,最后進行教學效果反饋的研究。
1? 人臉表情識別概述
課堂教學中,學生面部表情隨著教師教學進程的推進而不斷變化,從課堂教學視頻幀中獲取學生的人臉圖像,通過圖像預處理進行表情特征信息提取及分類,達到表情識別的目的。人臉表情識別框架圖如圖1所示。
圖1? 表情識別框架圖
1.1? 人臉識別
人臉識別任務的執行除借助識別算法之外,還需搭載一個識別設備,目前嵌入式設備有很多,本文主要采用K210單片機,主要原因在于其成本低,容易實現MicroPython的開發,且其內部擁有一個神經網絡處理器,可以進行高性能的計算,亦可以加載和運行各種現成的AI算法模型,可對人臉進行實時檢測,還可進行均衡、去噪、裁剪、仿射變形等一系列處理,接下來再進行圖像預處理。
圖像預處理是指對原圖像進行人臉對齊、數據增強及人臉歸一化等操作,在提取特征值關鍵點之前,排除掉與之無關的一切干擾。恰當的圖像預處理能夠提高表情識別度,有利于實現情緒分類。其中,圖像預處理之一“人臉對齊”也叫人臉關鍵點定位,在檢測到人臉的基礎上,找到眉毛、眼睛、鼻子、嘴、人臉輪廓等關鍵點位置,目前要求至少找到5個關鍵點,而網絡上一般基于68個關鍵點的變化情況進行特征提取,滿足表情識別的需要。圖像預處理之二“數據增強”是指在圖像識別過程中,為了提高識別率,防止過擬合現象的發生,隨機改變訓練集樣本,從而降低網絡模型對某些屬性的依賴。圖像預處理之三“人臉歸一化”主要是指亮度歸一化和姿態歸一化。
1.2? 表情特征提取及分類
20世紀70年代,美國心理學家Ekman [1]定義了人類的6種基本表情:高興、生氣、吃驚、恐懼、厭惡和悲傷,并與Friesen共同建立了面部動作編碼系統(FACS),可使研究者按照系統劃分的一系列人臉動作單元(AU)來描述人臉面部動作,為如今的人臉表情識別統一了標準。由于本文主要研究課堂教學中學生臉部表情變化,與生氣、恐懼等情緒的相關性不大,特此分析歸納了學生學習過程中各類情緒與面部表情特征之間的關系,具體分為以下6類:1)疑惑、思考類特征:眼睛瞪大,鼻孔變大,嘴緊閉或張開。2)喜歡、理解類特征:下眼皮有皺紋,魚尾紋向外擴張,嘴角向后拉高。3)不感興趣類特征:下眼皮有橫紋,鼻子上有皺紋,嘴緊閉嘴角下拉。4)排斥類特征:眼睛睜大可能斜視,嘴張開。5)疲憊類特征:上眼皮抬高,嘴角下拉。6)興奮類特征:眼睛瞪大,上眼瞼挑高,下眼瞼垂落,嘴未閉,不緊張,不拉伸。根據這六類特征提取面部特征值,進行相關標注及劃分。
2? 基于K210的人臉識別技術
2.1? 環境配置
硬件:K210開發板、攝像頭、屏幕、SD卡、USB Type-C數據線
環境搭建:硬件接線,下載并安裝MaixPy IDE,分別安裝串口驅動、Python 3.8、pip、TensorFlow,進行CUDA環境配置。
2.2? 實現人臉識別
基于K210的人臉識別[2]的主要目標是人臉檢測。目前人臉檢測有Maix Hub [3]云端訓練和本地訓練兩種方式。MaixHub云端訓練即在云端進行,只需上傳訓練數據即可輸出訓練模型,無須進行本地環境配置及相關軟件的安裝,但缺點是功能十分有限,因此采用本地訓練方式。檢測人臉的數據集來源于某高校課堂實錄視頻,視頻總長為8分鐘,學生聽課內容為計算機基礎課程中二進制與十進制的快速轉換。從長期的教學經驗來看,這個知識點沒有太多承上啟下的銜接,易理解,易計算,學生在聽講的過程中情緒變化較為明顯,面部表情豐富,適合進行基于表情識別技術的教學效果反饋研究。
首先,按照Sipeed官方K210教程中本地訓練的步驟進行環境配置;其次,采用Maix Hub以48幀為單位對課堂視頻進行數據采集并實現頭像標注,數據集圖像命名如圖2所示,數量為300張;從Maix Hub網站下載人臉檢測模型文件face_model_at_0x300000.kfpkg至K210開發板中,并進行參數設定,在KPU中運行YOLO(You Only Look Once)目標檢測算法實現人臉檢測。
然后,對圖像數據集中獲取的單張人臉進行定位,考慮到光線、坐姿、分辨率等因素,除去定位錯誤或不符合要求的圖像,最后將人臉圖像統一調整為200×200大小,形成如圖3所示的人臉數據集。
最后進行圖像變換、裁剪、旋轉等仿射變換矩陣操作實現人臉對齊,最終形成1 300張有效人臉圖像。仿射變換矩陣計算式為:
(1)
其中,X′和Y′表示矯正后的像素位置,θ表示旋轉的角度,a、b分別表示水平位移和垂直位移,x和y表示原圖片的像素位置。通過計算左眼和右眼中心坐標,求得雙眼的傾斜夾角θ,逆時針旋轉θ度獲得對齊后的人臉圖像。
3? 表情特征提取及分類
通過上文歸納出的學生學習過程中6類情緒與面部表情特征之間的關系可以看出,特征值主要定位在嘴巴、眼睛、鼻子等位置。dlib [4]庫中自帶的預訓練人臉特征點檢測器主要用于獲取臉部特定區域對應的68(x, y)個坐標點[5],這68個坐標點的編號從1至68,主要分布在人臉、眉毛、眼睛、鼻子、嘴等部位,根據六類表情特征,結合關聯關鍵點的變化進行分類,并為課堂教學效果反饋賦予相應權值,如表1所示。
4? 課堂教學反饋
4.1? 課程質量等級評價方法描述
學生學習情緒的變化主要體現在表情特征的變化,這是課堂教學效果反饋的最主要途徑,從教學經驗得出,學生的情緒變化既能直接影響教師的教學情緒,又能直觀體現教學效果。若要研究課堂教學反饋,需要建立表情識別模型,將學習情緒分為6類,為每類學習情緒設置一個置信度作為判斷學生存在這個表情的可能性,而將這一可能性作為對學生聽課狀態評分的標準。現結合表情特征將學生聽課狀態分成6種[6]:很不好、不好、較不好、好、較好、非常好,并給予賦權值。如表1所示,fear作為對聽課狀態很不好的判斷,權值設置為-3;disgust作為對聽課狀態不好的判斷,權值設為-2;sad作為對聽課狀態較不好的判斷,權值設為-1;anger作為對聽課狀態好的判斷,權值設為1;happy作為對聽課狀態較好的判斷,權值設為2;surprised作為對聽課狀態非常好的判斷,權值設為3。最終得分取值在-3到3之間,再進行歸一化處理,就可以得到學生a在t時刻的表情分數,計算式如式(2)所示。其中E表示表情集,g表示各類表情權值。
(2)
累加所有學生的表情權重并求平均值即可得到所有學生一幀圖片的表情分數,如式(3)所示:
(3)
根據視頻總時長,將所有時刻的分數累計取平均值獲得整個視頻中學生的表情分數,由于該分數值在-1~1之間,數值太小,不利于劃分等級,現將權值乘上5再加上5分基礎分,使得分數在0~10之間,如式(4)所示:
(4)
根據數值將聽課質量劃分為5個等級[7]:非常好(Very Good)、好(Good)、一般(General)、差(Bad)、很差(Very Bad),數值分布如表2所示。
表2? 課堂質量等級劃分表
質量等級 Very Bad Bad General Good Very Good
數值 0~2.0 2.0~4.0 4.0~6.0 6.0~8.0 8.0~10
4.2? 實驗與分析
采用如前所述的質量等級評價方法對錄取的8分鐘課堂視頻進行計算處理。通過以48幀為單位截取的300張有效圖像計算學生的表情分數和等級分值,根據時間點顯示部分中間過程數據,如表3所示。
通過計算得出課堂質量等級平均值為7.12,屬于6.0~8.0之間,顯示聽課質量為好。觀看此視頻,雖然由于錄制范圍、教室座位、架設角度、光線等問題畫面呈現不夠全面,但是教師與學生互動頻繁,學生聽課質量較高,符合聽課質量好的等級。接著通過選擇跟蹤上文進行人臉識別及表情分類的10名學生的評價等級數值,與課堂隨測結果進行比較,結果如表4所示。
表3? 部分時間點學生表情分數及等級分值圖
圖像編號 表情分數 質量等級
iamge_1.jpg 0.301 915 2 6.509 576 00
iamge_15.jpg 0.306 579 90 6.532 899 50
iamge_29.jpg 0.332 463 50 6.662 317 50
iamge_43.jpg 0.343 934 50 6.719 672 50
iamge_57.jpg 0.359 208 65 6.796 043 25
iamge_71.jpg 0.394 482 80 6.972 414 00
iamge_85.jpg 0.427 569 50 7.137 847 50
iamge_99.jpg 0.455 031 10 7.275 155 50
iamge_113.jpg 0.525 179 10 7.625 895 50
iamge_127.jpg 0.565 621 70 7.828 108 50
iamge_141.jpg 0.525 321 50 7.626 607 50
iamge_155.jpg 0.497 645 60 7.488 228 00
iamge_169.jpg 0.386 579 20 6.932 896 00
iamge_183.jpg 0.370 763 10 6.853 815 50
iamge_197.jpg 0.344 082 50 6.720 412 50
iamge_211.jpg 0.397 223 10 6.986 115 50
iamge_225.jpg 0.427 320 10 7.136 600 50
iamge_239.jpg 0.496 752 20 7.483 761 00
iamge_253.jpg 0.525 843 90 7.629 219 50
iamge_267.jpg 0.524 105 80 7.620 529 00
表4? 學生等級分值及測試分值
Student ALL_Point Exam Student ALL_Point Exam
Student1 8.125 895 5 10 Student6 7.460 432 5 10
Student2 8.828 108 5 7 Student7 6.545 412 5 9
Student3 6.562 317 5 9 Student8 7.187 847 5 8
Student4 6.469 672 5 10 Student9 6.356 421 0 4
Student5 5.987 317 5 9 Student10 6.789 956 0 7
表4中Exam [8]值來自學習通課堂隨測,題目數量為10,題型為單選題和填空題,分別為5題,每題1分,知識點涵蓋視頻中內容,難度分布均衡,針對性極強,可作為教師評分項。
最后,通過皮爾遜積矩相關系數驗證課堂質量等級評分與測試評分的相關性。皮爾遜積矩[9]相關系數的計算式為:
(5)
其中,sn為學生數量,σ為標準差,皮爾遜積矩[10]相關系數的取值范圍為[-1, 1],相關系數的絕對值代表相關度,且成正比。取-1時是負線性相關,取1時是正線性相關。其相關程度與相關系數密切相關,如表5所示。
表5? 相關系數的絕對值與相關程度表
相關系數
絕對值區間 0.0~0.2 0.2~0.4 0.4~0.6 0.6~0.8 0.8~1.0
相關度 無相關或極弱相關 弱相關 中等程度相關 強相關 極強
相關
通過計算得出,該課堂視頻的Pearson [3]值為0.611,大于0且處于0.6~0.8之間,說明課堂質量等級評分與測試成績存在強相關性,能夠切實體現教學效果反饋,從而驗證了本次課堂教學效果較好。
5? 結? 論
大學的公共基礎課程大部分都是合班課,學生人數眾多,教師無法一一關注到每位學生的聽課情況。有效的教學效果反饋是教學的重要組成部分,教師通過傳統觀察方式獲取的教學效果反饋不一定準確,通過測試方式獲取的教學效果反饋也存在不確定性,研究表明通過表情識別技術獲取教學效果反饋是一種可行且可靠的方式。但是其也存在一些不足之處,有待做進一步的深入研究:1)課堂視頻針對性強,缺乏普及性。在錄制視頻前,教師與學生已經溝通過,且視頻較短,學生的注意力較集中,聽課專注度較好,與真實上課的情況存在差異。在后續研究中應獲取多段課堂視頻,擴充表情數據源,以期更加全面真實地反饋教學效果。2)表情識別數據集數據單一,不夠全面。除人臉表情外,人物情緒還可以由微表情、語音、肢體動作等多種模態展現,本文主要采用單模態數據集進行表情識別技術研究,比較單一,在后續研究中還可以加入其他模態數據進行分析,力求使教學效果反饋更周全。
參考文獻:
[1] EKMAN P,ROSENBERG E L. What the Face Reveals: Basicand Applied Studies of Spontaneous Expression Using the Facial Action Coding System (FACS) [M].Oxford:Oxford Uni-versity Press,1997.
[2]卓瑪cug. dlib人臉識別安裝及使用教程 [EB/OL].(2020-01-13).https://blog.csdn.net/qq_29153321/article/details/103952475.
[3] 于方軍,焦玉杰,孫麗君.人體關鍵點檢測及教學應用之人臉表情識別 [J].中國信息技術教育,2023(1):96-98.
[4] 戴海云.基于人臉表情識別的課堂質量分析研究 [D].鎮江:江蘇科技大學,2022.
[5] 鐘源,李鴻天,袁家政,等.基于深度學習的人臉表情識別研究綜述 [C]//中國計算機用戶協會網絡應用分會2022年第二十六屆網絡新技術與應用年會.北京:[出版者不詳],2022:9-12.
[6] 劉建華,唐雷.人臉表情識別技術研究綜述 [J].信息通信技術與政策,2022(8):89-96.
[7] 王曄,王峰,賈海蓉,等.結合人臉關鍵點與光流特征的微表情識別 [J].激光雜志,2023,44(5):72-77.
[8] 崔海生,侯晨杰.基于Tensorflow框架的面部識別技術 [J].科技與創新,2023(10):34-38.
[9] 孫廨堯,李秀茹,王松林.基于改進YOLOv5的學生面部表情識別 [J].齊魯工業大學學報,2023,37(1):28-35.
[10] 賴東升,馮開平,羅立宏.基于多特征融合的表情識別算法 [J].廣東工業大學學報,2023,40(3):10-16.
作者簡介:許曉萍(1979—),女,漢族,江蘇無錫人,講師,碩士,研究方向:計算機及應用。