劉錦峰



摘? 要:學(xué)生課堂面部表情識(shí)別產(chǎn)品不適合采用“大樣本”的研發(fā)方法,為減少數(shù)據(jù)采集工作量,提出使用卷積神經(jīng)網(wǎng)絡(luò)算法,分析了卷積神經(jīng)網(wǎng)絡(luò)基本原理,探討了總體結(jié)構(gòu),設(shè)計(jì)了識(shí)別流程,以證件照為原始樣本構(gòu)建了人臉數(shù)據(jù)集,以表情特征訓(xùn)練的方法擴(kuò)展數(shù)據(jù)集,經(jīng)實(shí)驗(yàn)研究表明,該方法表現(xiàn)良好,能夠有效開(kāi)展識(shí)別。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);面部表情;識(shí)別
中圖分類號(hào):G642? ? ? ? ?文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號(hào):2096-000X(2020)07-0067-03
Abstract: Students' facial expression recognition products are not suitable for the "large sample" research and development method, in order to reduce the workload of data collection, convolutional neural network algorithm is proposed, the basic principle of convolutional neural network is analyzed, the overall structure is discussed, the recognition process is designed, the face data set with the original sample of certificate photo is constructed, and the data set is extended to the method of expression feature training. The experimental results show that this method performs well and can workeffectively in recognition.
Keywords: convolutional neural network; facial expression; recognition
一、概述
情緒對(duì)動(dòng)機(jī)有積極作用,學(xué)生課堂情緒與學(xué)習(xí)動(dòng)機(jī)密切相關(guān),是影響學(xué)習(xí)效果的重要因素之一。面部表情是情緒的“晴雨表”,以往是教師通過(guò)學(xué)生面部表情解讀學(xué)生情緒,以此及時(shí)引導(dǎo)學(xué)生調(diào)整情緒狀態(tài),但是受班額大、教師能力與經(jīng)驗(yàn)等因素影響,效果不佳。隨著智能技術(shù)在教育領(lǐng)域的廣泛應(yīng)用,各學(xué)校建設(shè)了智慧教室,其智能監(jiān)控設(shè)備能實(shí)時(shí)捕獲面部特征,以識(shí)別其面部表情,從而分析出學(xué)生的情緒狀態(tài)。
目前面部表情識(shí)別的相關(guān)產(chǎn)品都是基于“大樣本”研發(fā),訓(xùn)練模型較好、識(shí)別率較高,但是需要收集大量數(shù)據(jù),研發(fā)難度較大。在學(xué)生信息管理中,往往只能獲取到單一的人臉數(shù)據(jù),訓(xùn)練樣本較小,可能會(huì)導(dǎo)致識(shí)別效果低,甚至不能識(shí)別。本文提出使用卷積神經(jīng)網(wǎng)絡(luò)的面部表情識(shí)別,降低對(duì)訓(xùn)練樣本量的依賴,減少收集工作量,減輕數(shù)據(jù)存儲(chǔ)壓力。
二、研究現(xiàn)狀
本世紀(jì)九十年代初,Turk和Pentlandt[1]提出了特征臉技術(shù),拉開(kāi)人臉識(shí)別研究序幕。隨著機(jī)器學(xué)習(xí)理論發(fā)展迅速,廣大研究者將遺傳算法、支持向量機(jī)等應(yīng)用于人臉識(shí)別技術(shù)中,雖然識(shí)別率不斷提高,但是仍沒(méi)有超過(guò)人眼識(shí)別率。2013年,MSRA的研究學(xué)者使用10萬(wàn)張人臉圖像作為訓(xùn)練集,識(shí)別率達(dá)到了95.17%[2],首次超過(guò)人眼識(shí)別率。近年來(lái),很多學(xué)者應(yīng)用數(shù)據(jù)增強(qiáng)技術(shù)、子空間擴(kuò)展法、三維建模方法、基于泛化學(xué)習(xí)的方法、通用學(xué)習(xí)框架法、one-shot-learning、zero-shot-learning等技術(shù)開(kāi)展小樣本人臉識(shí)別,取得了一定成效。
隨著教育信息化持續(xù),國(guó)內(nèi)越來(lái)越多學(xué)者對(duì)學(xué)生課堂面部表情識(shí)別開(kāi)展研究,取得了較好的理論成果和實(shí)踐成效。2018年,陳靚影[3]等人對(duì)頭部姿態(tài)、面部表情、課堂互動(dòng)等開(kāi)展識(shí)別與融合研究,以此判斷學(xué)生課堂學(xué)習(xí)興趣,其中面部表情是采用條件隨機(jī)森林方法識(shí)別笑臉表情,即主要分析學(xué)生課堂積極情緒。賈鸝宇[4]采用DLIB官方提供的特征提取器開(kāi)展了實(shí)踐研究。
從已有成果看,小樣本人臉識(shí)別技術(shù)還不夠成熟,識(shí)別率不夠高。課堂教學(xué)大場(chǎng)景下,不同表情、角度、光照等條件下的捕捉與識(shí)別難度更大,應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)算法,對(duì)面部圖像的處理與分析,能提高識(shí)別率。
三、卷積神經(jīng)網(wǎng)絡(luò)基本原理
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種仿造生物視知覺(jué)機(jī)制的算法[5],是深度學(xué)習(xí)(deep learning)代表算法之一,被廣泛的應(yīng)用于自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等領(lǐng)域。
(一)卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)
卷積神經(jīng)網(wǎng)絡(luò)主要特點(diǎn)是局部連接和權(quán)值共享。其中,局部連接是指從隱藏層隱式提取權(quán)值相同的特征,進(jìn)行并行學(xué)習(xí),降低網(wǎng)絡(luò)復(fù)雜度,避免數(shù)據(jù)重建。權(quán)值共享是指圖像同一深度的平面切片上可以共享同一組權(quán)重和偏置,采用梯度下降法開(kāi)展參數(shù)學(xué)習(xí),從而減少網(wǎng)絡(luò)中的參數(shù)數(shù)量。
基于上述特征,構(gòu)建圖1所示的基本結(jié)構(gòu),主要包括輸入層、卷積層、池化層、全連接層和輸出層,完成特征提取與特征映射兩個(gè)操作。特征提取是指每個(gè)神經(jīng)元的輸入都局部連接特征點(diǎn),并傳到下一層,傳完一個(gè)點(diǎn)轉(zhuǎn)向另一個(gè)點(diǎn);特征映射是權(quán)值相等的平面上,通過(guò)激活函數(shù)將一個(gè)點(diǎn)的特征映射到其他點(diǎn)上。
(二)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練包括正向傳播和反向傳播兩個(gè)部分。正向傳播是指從輸入層向輸出層正向計(jì)算,順序傳遞;反向傳播是指輸出結(jié)果與真實(shí)值進(jìn)行對(duì)比,將超出誤差部分進(jìn)行更新。
正向傳播模型式1和式2,由輸入層輸入、隱藏層計(jì)算、輸出層輸出。
式中,a(l)為第l層的輸出值,W(l)為l從到l+1層的連接權(quán)值,b(l)是l層的偏置值,f(*)是激活函數(shù)。
反向傳播主要是驗(yàn)證輸出結(jié)果的可靠性,反向循環(huán)迭代,與各層權(quán)重對(duì)比,對(duì)超出誤差范圍值不斷修正,直到達(dá)到預(yù)期范圍。
四、基于卷積神經(jīng)網(wǎng)絡(luò)的面部表情識(shí)別實(shí)驗(yàn)
(一)識(shí)別流程
本文按照?qǐng)D2所示的圖像采集、人臉定位、特征提取、特征對(duì)比、輸出結(jié)果的流程開(kāi)展識(shí)別。識(shí)別過(guò)程中將數(shù)據(jù)進(jìn)行存儲(chǔ),對(duì)原始樣本進(jìn)行擴(kuò)充,不斷豐富樣本信息,大大降低直接獲取數(shù)據(jù)樣本的難度。
(二)構(gòu)建樣本
本研究選取60人的單張證件照作為原始樣本,構(gòu)建了圖3所示的小樣本數(shù)據(jù)集。因證件照片為相同背景,能夠使得圖像中的人臉處于同一個(gè)角度,能夠消除不同圖像背景影響、避免人臉膚色影響等。在此基礎(chǔ)上,開(kāi)展了鏡像變換、多區(qū)域裁剪、高斯噪聲、對(duì)稱擴(kuò)充、位平面法等數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充樣本數(shù)據(jù)庫(kù)。
為了實(shí)現(xiàn)表情識(shí)別,使用對(duì)抗生成[6]網(wǎng)絡(luò)進(jìn)行樣本擴(kuò)充,從圖4所示的表情特征樣本中提取表情,使用卷積神經(jīng)網(wǎng)絡(luò)模型,將其“附著”于單一人臉圖像,訓(xùn)練生成不同表情下的人臉圖像。對(duì)訓(xùn)練結(jié)果進(jìn)行損失測(cè)試,如圖5所示,經(jīng)迭代次數(shù)增加,損失值不斷減小并趨于平穩(wěn)。
(三)實(shí)驗(yàn)結(jié)果分析
經(jīng)卷積神經(jīng)網(wǎng)絡(luò)模型擴(kuò)充后,實(shí)驗(yàn)使用的人臉數(shù)據(jù)集擴(kuò)充到1200張,經(jīng)對(duì)齊、裁剪、歸一化后,解決了不良干擾。課堂環(huán)境實(shí)驗(yàn)之前,將數(shù)據(jù)集分為表2所示的訓(xùn)練、驗(yàn)證和測(cè)試三組。
實(shí)驗(yàn)得到圖6所示的第一層卷積核形態(tài),每一個(gè)方塊代表一個(gè)卷積核,可以看出基本上沒(méi)有噪聲圖像,總體比較美觀、光滑,圖像相關(guān)性不高。從圖7所示的第一層與第二層響應(yīng)特征圖可以看出,第二層雖然看不出原圖,但是可以看出輪廓。對(duì)其他層特征圖分析發(fā)現(xiàn),學(xué)生課堂面部表情識(shí)別有較好的稀疏性,保證了泛化能力和識(shí)別能力,總體識(shí)別率達(dá)到91%。
五、結(jié)束語(yǔ)
本文研究了基于卷積神經(jīng)網(wǎng)絡(luò)的學(xué)生課堂面部表情識(shí)別方法。基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),開(kāi)展了特征分析和訓(xùn)練,根據(jù)實(shí)驗(yàn)數(shù)據(jù)特點(diǎn)設(shè)計(jì)合適的參數(shù),對(duì)構(gòu)建的數(shù)據(jù)集進(jìn)行訓(xùn)練,經(jīng)測(cè)試和分析,結(jié)果表明構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)的模型在學(xué)生課堂面部表情數(shù)據(jù)集上表現(xiàn)良好,使用測(cè)試集測(cè)試的識(shí)別率在91%,表明該方法科學(xué)可行,且能夠降低對(duì)訓(xùn)練樣本量的依賴,減少收集工作量,減輕數(shù)據(jù)存儲(chǔ)壓力。
參考文獻(xiàn):
[1]Turk M, Pentland A. Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 1991,3(1):71.
[2]Chen D, Cao X, Wen F, et al. Blessing of dimensionality: high-dimensional feature and its efficient compression for face verification[C]. IEEE International Conference on Computer Visionand Pattern Recognition,2013.
[3]陳靚影,羅珍珍,徐如意.課堂教學(xué)環(huán)境下學(xué)生學(xué)習(xí)興趣智能化分析[J].電化教育研究,2018,39(08):91-96.
[4]賈鸝宇,張朝暉,趙小燕,等.基于人工智能視頻處理的課堂學(xué)生狀態(tài)分析[J].現(xiàn)代教育技術(shù),2019,29(12):82-88.
[5]方鵬飛,劉復(fù)昌,姚爭(zhēng)為.基于卷積神經(jīng)網(wǎng)絡(luò)的單幅圖像室內(nèi)物體姿態(tài)估計(jì)[J].杭州師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2020(01):1-8.
[6]王坤峰,左旺孟,譚營(yíng).生成式對(duì)抗網(wǎng)絡(luò):從生成數(shù)據(jù)到創(chuàng)造智能[J].自動(dòng)化學(xué)報(bào),2018,44(05):4-9.