徐振國 張冠文 孟祥增 黨同桐
[摘? ?要] 情感能夠影響和調節(jié)學習者的注意、記憶、思維等認知活動,學習者情感的準確識別是構建智慧學習環(huán)境中和諧情感交互的基礎,更是判斷學習者學習狀態(tài)的重要手段。傳統學習者情感識別方法存在識別率低、算法復雜、魯棒性差等問題,并且容易丟失面部表情特征的關鍵信息。文章提出一種基于卷積神經網絡的學習者情感識別方法,該網絡包括3個卷積層、3個池化層和1個全連接層。然后在自主搭建的大規(guī)模學習者情感數據庫中進行了訓練和實驗,實驗結果表明該方法能夠快速、準確的識別學習者情感。未來,該方法可應用到智慧學習環(huán)境建設中,為完善學習者模型、實現情感交互、挖掘學習行為等提供技術支撐。
[關鍵詞] 深度學習; 學習者情感; 情感識別; 智慧學習環(huán)境; 情感交互; 卷積神經網絡
[中圖分類號] G434? ? ? ? ? ? [文獻標志碼] A
一、引? ?言
智慧學習環(huán)境注重培養(yǎng)學習者的創(chuàng)新能力、問題求解能力、決策力和批判性思維能力等高階能力,認知活動在培養(yǎng)過程中起著至關重要的協調與控制作用[1]。情感是由外界刺激引起的心理反應,能夠影響和調節(jié)注意、知覺、表象、記憶、思維和語言等認知活動。研究表明,學習過程中的積極情感有助于激發(fā)學習動機、培養(yǎng)學習興趣,促進認知過程;而消極情感則會影響耐心度、注意力,阻礙認知過程[2]。另外,智慧學習環(huán)境以學習者為中心,打破了傳統的教學模式,強調以MOOCs、微課、博物館等為學習資源的泛在學習和無縫學習。學習者多借助電子書包等移動設備進行自主學習和協作學習,師生在時空上多處于準分離狀態(tài),難以感受對方的情感,普遍存在“情感缺失”問題。學習者情感能夠影響學習興趣和效率,其準確識別是構建智慧學習環(huán)境中和諧情感交互的基礎,更是判斷學習者學習狀態(tài)的重要手段,對促進學習者的智慧學習具有重要意義。
2016年《地平線報告(高等教育版)》指出,情感計算(Affective Computing)將在未來四到五年內得到普遍應用[3]。學習者情感識別作為情感計算的重要內容,研究者主要圍繞生理信號、心理測量、外顯行為對其開展研究[4]。美國學者梅拉比安(Albert Mehrabian)指出,感情表達=7%的言辭+38%的聲音+55%的面部表情[5]。心理學家艾克曼(Paul Ekman)的研究表明,從面部表情到單一具體情感狀態(tài)映射的準確率為88%[6]。可見,學習者情感表達方式中,面部表情起到了非常關鍵的作用。并且實踐應用中,通過學習設備自帶攝像頭捕捉學習者的面部表情,進而識別學習者情感狀態(tài),要比其他方法更加自然可行。
傳統學習者面部表情識別算法主要包括圖像預處理、特征提取、特征選擇、分類器構建等過程,面部表情的視覺情感特征需要顯式的表達和提取,并依賴經驗或運氣對其進行挑選。這無疑增加了識別難度,并且可能會丟失原圖像的關鍵特征信息。隨著技術的快速發(fā)展,深度學習(Deep Learning,DL)成為人工智能領域重要的機器學習算法。深度學習將圖像特征提取與神經網絡的模糊分類相結合,省略前期復雜的圖像預處理和特征提取過程,使之不再依賴人工精心設計的顯式特征提取方法,在提高性能、泛化能力的同時,也提高了識別算法的魯棒性[7]。深度學習已在醫(yī)學圖像處理、自然語言處理等領域獲得應用,但在教育領域的應用尚需進一步研究。本研究自建大規(guī)模學習者情感數據庫,并提出基于深度學習的學習者情感識別方法,以期提高學習者情感的識別效率和準確率,為智慧學習環(huán)境中和諧情感交互提供技術支撐,促進學習者輕松、投入和有效的學習。
二、相關研究
自2006年以來,深度學習在算法、理論和應用等方面取得了巨大成功,已然成為人工智能和大數據領域的發(fā)展引擎。情感能力是人類智能的重要標志,賦予計算機識別、理解和表達情感的能力,是人工智能未來前進的方向。通過梳理深度學習、學習者情感識別的發(fā)展歷程及相關研究,既可為本研究的開展提供有價值的借鑒,也可為彌補現有研究的不足提供切入點。
(一)深度學習
迄今人工神經網絡(Artificial Neural Networks,ANN)大致經歷了三個階段,第一個階段始于20世紀40年代至60年代的控制論。但其無法處理“異或”問題,并且此時的計算機缺乏足夠的計算能力,無法滿足神經網絡長時間的運行需求。第二個階段始于20世紀80年代末期,魯姆哈特(David Rumelhart)等學者提出反向傳播(Back Propagation,BP)算法[8],雖然克服了“異或”問題,并使兩層神經網絡所需的復雜計算量降低,但受限于數據獲取的瓶頸,普遍存在過擬合等問題。隨著計算機性能的顯著提升以及大數據時代的到來,2006年,加拿大的辛頓(Geoffery Hinton)等研究者在Science上發(fā)表了一篇文章,提出一種被稱為“深度置信網絡”(Deep Belief Network,DBN)的神經網絡模型以實現數據降維[9]。文章的核心觀點為:(1)有著較多隱層的神經網絡結構具有獨特的特征學習能力,能夠較好地獲取圖像更本質的特征;(2)可通過“逐層初始化”來克服深層神經網絡的訓練難度。自此,開啟了人工智能領域的深度學習時代。2016年3月,阿爾法圍棋(Alphago)以4:1的比分戰(zhàn)勝韓國圍棋名將李世石,引起全世界關注的同時,深度學習、神經科學等概念也進入普通公眾的視野。
深度學習屬于機器學習(Machine Learning,ML),本質上是對擁有深層結構的模型進行訓練的一類方法的統稱。目前主流的深度學習模型有深度置信網絡(Deep Belief Networks,DBN)、循環(huán)神經網絡(Recurrent Neural Networks,RNN)、卷積神經網絡(Convolutional Neural Networks,CNN)等。1998年,美國學者勒存(Yann Lecun)等提出基于梯度學習的CNN算法,并將其運用于手寫數字字符識別[10]。2012年,在ImageNet大規(guī)模視覺挑戰(zhàn)賽中,辛頓等學者憑借CNN獲得圖像分類和目標定位任務的冠軍。自此,CNN得到學界的關注和持續(xù)研究。CNN最初受腦神經科學研究的啟發(fā),模仿視覺神經中簡單細胞和復雜細胞的視覺信息處理過程,用卷積操作模擬簡單細胞對不同方向邊緣信息的處理過程,用池化操作模擬復雜細胞累積相近的簡單細胞的處理結果[11]。CNN支持將圖像的像素值直接作為輸入值,隱式地獲得圖像抽象的特征信息,而不必事先對圖像進行預處理以及顯式地提取圖像特征,避免了復雜的特征提取和人工選擇過程,并且CNN對圖像的平移、縮放、旋轉等變換以及光照、遮擋物等敏感問題具有較高魯棒性。因此,CNN在手寫字符識別、人臉識別、車牌字符識別等領域得到了廣泛應用,目前已成為人工智能領域的重要方法。深度學習和CNN的關系如圖1所示。
(二)學習者情感識別
情感是人們在社會活動中對客觀事物所持的態(tài)度體驗,是人們對客觀事物的一種特殊的心理反映形式,它在人的思想認識及行為表現中發(fā)揮著重要作用[12]。學習者情感多指學習者在學習過程中由學習內容、學習畫面等刺激產生的內心體驗及相應的外部表現。近年來,隨著情感計算的發(fā)展,研究者基于不同的情感理論已提出許多種學習者情感識別方法。目前,學習者情感識別主要圍繞生理信號分析、心理測量分析、外顯行為分析等三類方法展開研究。其中,基于外顯行為的方法又分為基于面部表情的方法、基于語音表情的方法和基于姿勢表情的方法等。
1. 基于面部表情的學習者情感識別研究
孫波等研究者依據艾克曼提出的面部表情編碼系統(Facial Action Coding System,FACS)構建基于面部表情識別的情感分析框架SLE-FER,包括感知層、傳輸層、數據層、分析層和應用層,并利用張量分解算法進行表情識別[1]。詹澤慧結合眼動追蹤與面部表情識別,提出基于智能Agent的遠程學習者情感與認知識別模型,將眼動追蹤與表情監(jiān)控迭代識別、情感與認知過程相耦合,以提高識別準確率[13]。荷蘭開放大學的巴雷尼(KiavashBahreini)等學者提出通過網絡攝像頭和麥克風改善學習者學習的框架FILTWAM,FILTWAM根據學習者的面部表情及語言表達識別學習者情感并及時提供反饋[14]。印度的雷(Arindam Ray)等學者采用面部表情及生理信息相結合的方法識別學習者情感,其中生理信息包括心率、皮膚電傳導、血容量壓力,基于此,他們探討了學習過程中情感的變化,以及如何使用情感反饋來改善學習體驗[15]。
2. 基于其他方法的學習者情感識別研究
喬向杰等研究者根據OCC模型理論,提出基于認知評價的學生情感識別模型,采用模糊推理方法實現對學習事件的期望度推理,并通過構建動態(tài)貝葉斯網絡對所構建的模型進行了計算機仿真測試和評估[16]。黃煥認為,學習者發(fā)布的微博內容帶有情感特征,對其分析能夠獲得學習者當時的情感狀態(tài),因此,提出一種基于學習者微博分析的情感建模方法[17]。臺灣的陳志銘(Chih-Ming Chen)等學者采用基于生理信息檢測的情感估計系統emWave來估計學習者的情感狀態(tài)[18]。巴西雅克(Patricia Jaques)等學者借助信念、愿望、意圖模型在教育環(huán)境中實施情感判斷過程,他們采用基于情感認知理論并可通過計算實現的心理學OCC模型,從而根據學習者的行為推斷出學習者的情感[19]。
綜上所述,國內外學者對學習者情感的識別進行了廣泛研究,其中基于面部表情的學習者情感識別研究最多。學習者相對于普通人群具有其特殊性,生理信號分析等通過附加設備判斷學習者情感的方法在學習環(huán)境中較難實現,基于心理測量、認知評價的方法則較難保證結果的客觀性,相對而言,學習者面部表情是學習者在學習過程中的自然表達,能夠較好地客觀反映學習者真實的情感狀態(tài)。徐曉青等學者指出,教育領域基于面部表情的識別方法相比于其他情感識別方法,可用性較高[20]。但目前研究多采用人臉識別、特征提取、特征選擇、訓練分類的傳統機器學習方法,效率低且難以保證人工選擇的特征是否能夠有效反映面部表情。因此,本研究采用具有自主學習能力的CNN實現對學習者情感的有效識別。
三、卷積神經網絡的結構設計
作為深度學習的重要方法,CNN具有權值共享和局部連接的特點,降低了網絡復雜度的同時,也利于并行處理。CNN的前饋運算階段通過卷積(Convolution)操作、池化(Pooling)操作和激活函數映射等一系列操作的層層堆疊,將圖像、音頻等原始數據的高層語義信息逐層提取出來。其中,不同類型的操作一般稱作層,卷積操作即卷積層,池化操作即池化層。CNN通常包括輸入層、卷積層、池化層、全連接層和輸出層。
(一)卷積層
卷積層為特征提取層,是CNN的基礎。每個卷積層包括多個神經元,每個神經元利用多個可訓練的卷積核分別與前一層所有的特征圖進行卷積求和,加上偏值,以此作為激活函數的參數求解,輸出值將構成新的特征圖像[11]。卷積核大小和卷積步長是重要的調整參數。卷積層的計算公式為:
公式(1)中,l表示當前層;l-1表示前一層;f()為激活函數;?茚表示卷積;ylj為當前層的第j個輸出圖像(特征圖像);yil-1為前一層的第i個輸出圖像,即當前層的輸入圖像;wlij表示當前層第j個特征圖像與前一層第i個特征圖像的卷積核;blj表示當前層第j個神經元的輸入偏置;Nl-1表示前一層神經元的數量。CNN中常用的激活函數有線性修正函數(ReLU)、雙曲正切S形函數(Tanh)、對數S形函數(Sigmoid)等,本研究采用的激活函數為Sigmoid函數。
(二)池化層
池化層又被稱為下采樣層,特征圖的數量會因卷積層數量的遞增而增加,導致學習到的特征維數將快速增長,給分類器造成困難。池化層的關鍵作用就是特征降維,減少計算量和參數數量,并在一定程度上防止過擬合,更方便優(yōu)化。池化層并不改變特征圖的數量,而是使特征圖的尺寸變小。池化的類型主要有平均值池化和最大值池化兩種,池化操作的類型、核大小、步長是重要的調整參數,本研究采用平均值池化的方式。池化層的計算公式為:
公式(2)中,down()表示池化函數;ylj和yil-1表示當前層和前一層的第j個特征圖像;?茁lj和blj表示當前層第j個特征圖像的權重系數和偏值。
(三)全連接層
全連接層在整個CNN中起到“分類器”的作用,全連接層的輸出將作為輸出層的輸入或最終的分類結果,CNN通常有一個或多個全連接層。全連接層的每個神經元都將與前一層的所有神經元相連,把卷積層和池化層提取到的特征綜合起來[21]。實際使用中,全連接層可由卷積操作實現,對前層是全連接的全連接層可以轉化為卷積核為1×1的卷積;而前層是卷積層的全連接層可以轉化為卷積核為h×w的全局卷積,h和w分別是前層卷積輸出結果的高和寬。
(四)卷積神經網絡的結構
CNN結構設計需要考慮準確率、訓練速度和內存消耗等三個因素。研究表明,小卷積核通過多層疊加可取得與大卷積核同等規(guī)模的感受野,此外采用小卷積核可增加網絡深度,并減少參數個數。通常卷積核大小設置為3×3或5×5,本研究設置卷積核大小為5×5,步長為1。網絡層數過低會導致信息表達能力不足,增加網絡的層數會使特征信息表達能力逐步增強,但層數過多也會導致網絡結構過于復雜,訓練時間增加,易出現過擬合現象[22]。輸入圖像尺寸、卷積核大小、卷積步長、池化窗口大小、池化步長共同決定網絡層數,本研究根據學習者面部表情圖像的特點,設計了一種7層的CNN,其中包括3個卷積層、3個池化層、1個全連接層,結構如圖2所示。(1)輸入層為60×60像素的學習者面部表情圖像。(2)在C1層用6個5×5的卷積核對輸入圖像進行卷積操作,步長為1,激活函數為Sigmoid函數。此時C1層包含6個特征圖,特征圖的尺寸為56×56。(3)在S1層用2×2的池化窗口對C1層的特征圖進行池化操作,池化方式為平均值池化,步長為1。此時C1層仍包含6個特征圖,特征圖的尺寸為28×28。(4)在C2層用12個5×5的卷積核對S1層的特征圖進行卷積操作,步長為1。此時C2層包含12個特征圖,特征圖的尺寸為24×24。(5)在S2層用2×2的池化窗口對C2層的特征圖進行池化操作,池化方式為平均值池化,步長為1。此時S2層仍包含12個特征圖,特征圖尺寸為12×12。? ? ? (6)在C3層用24個5×5的卷積核對S2層的特征圖進行卷積操作,步長為1。此時C3層包含24個特征圖,特征圖的尺寸為8×8。(7)在S3層用2×2的池化窗口對C3層的特征圖進行池化操作,池化方式為平均值池化,步長為1。此時S2層仍包含24個特征圖,特征圖尺寸為4×4。(8)全連接層的每個神經元與S3層的特征圖進行全連接,輸出層將輸出最終的分類結果及強度。
四、卷積神經網絡的參數訓練
CNN的訓練就是利用已標注情感類型及強度的面部表情樣本集調整CNN的內部參數。大數據訓練樣本是進行深度學習的前提和基礎,樣本的數量和質量將直接決定深度學習的性能和泛化能力。本研究首先明確學習者情感的類型,然后自主構建大規(guī)模學習者情感數據庫,并將其作為訓練樣本集對CNN進行訓練,從而實現對學習者情感的準確識別。
(一)學習者情感數據庫
基于面部表情的情感識別離不開表情數據庫的支撐。目前,情感識別研究開始面向各專業(yè)領域發(fā)展,特別是學習者情感識別受到研究者的廣泛關注,但基于面部表情構建的學習者情感數據庫并不多見[4]。因此,建設基于面部表情的學習者情感數據庫,對學習者情感識別算法的深入研究具有一定的推動作用。
1. 學習者情感的類型
情感是人類對客觀事物的態(tài)度體驗與相應的行為反應,對于情感的描述,我國古代有“七情六欲”之說,西方思想家笛卡爾(Rene Descartes)則認為有六種原始情感。目前,心理學領域主要圍繞基本情感和維度情感兩種理論對情感分類展開研究。艾克曼在對面部表情和行為反應研究的基礎上,將基本情感分為高興、驚訝、悲傷、憤怒、恐懼、厭惡[23]。伊扎德(Carroll Izard)提出差別情感理論,認為基本情感除艾克曼所說的六類外,還包括害羞、輕蔑、興趣和自罪感[24]。普拉奇克(Robert Plutchik)認為,情緒具有強度、相似度和兩極性三個維度,他采用倒立圓錐的形象來描述三個維度間的關系,八個截面分別表示狂喜、接受、驚奇、恐懼、悲痛、憎恨、狂怒和警惕等八種基本情感,最強烈的情感位于頂部,越往下情感強度越弱;對角位置的情感具有兩極性,相鄰的情感表現出相似性[25]。
學習者情感雖具有人類情感的普遍特性,但又具有其獨特性。孫波將學習者的情感類型概括為高興、驚訝、厭煩、困惑、疲勞、專注及自信[1]。魏刃佳則采用艾克曼的基本情感理論,將學習者情感分為六種類型[26]。劉永娜依據文獻調研及課堂視頻分析,提出學習者情感包括高興、驚奇、自信、厭煩、困惑、挫敗、疲憊、專注、走神等九種[4]。詹澤慧從喚醒維度、興趣維度、愉快維度將學習者情感類別分為緊張、睡眠、感興趣、不感興趣、愉快、不愉快[13]。雖然研究者對學習者情感的劃分并不一致,但都是在艾克曼六種基本情感理論的基礎上進行研究的。本研究在借鑒既有研究的基礎上,認為常見的學習者情感主要包括常態(tài)、高興、憤怒、悲傷、驚恐、專注、厭倦等七種類型。
2. 構建學習者情感數據庫
目前,人臉面部表情數據庫主要有日本女性人臉表情數據庫(JAFFE)、卡內基梅隆大學的CK(Cohn-Kanade)人臉表情數據庫及其擴展數據庫CK+人臉表情數據庫、馬里蘭大學人臉表情數據庫、清華大學人臉表情數據庫、五邑大學CED-WYU人臉表情數據庫、BNU學習情感數據庫等[27]。首先,由于外國人的人臉及表情特征與中國人的人臉及表情特征具有顯著差異,用外國人的人臉表情數據庫進行訓練,訓練結果很難推廣到中國。其次,目前已知的人臉表情數據庫樣本數量較少且多為成人,很難滿足深度學習和實際應用的需求。最后,由于隱私保護等原因,也較難獲得其他機構或單位的人臉表情數據庫。因此,本研究選擇自主建設基于面部表情的學習者情感數據庫。
被試為70名研究生,其中18名男生,52名女生,年齡范圍在20到29歲之間。在正式采集表情前,分組對他們進行培訓,使他們能夠盡量在自然狀態(tài)下呈現標準的各類情感及強度。采集平臺用C++語言編寫,采集設備為高清攝像頭。正式采集表情時,每名研究生表現常態(tài)、高興、憤怒、悲傷、驚恐、專注、厭倦等7種情感,每種情感由弱到強表現5種強度,每種強度捕捉30幅圖像,形成擁有73500幅學習者面部表情圖像的原始數據庫。捕捉的同時,由平臺自動標注每幅圖像的情感類型及強度,例如:0001_02_03_0004中,0001表示被試編號、02表示情感類型、03表示情感強度、0004表示圖像編號。
隨后采用基于Haar矩形特征的Adaboost方法,對原始數據庫內的73500幅圖像進行人臉檢測,共提取出70090幅人臉圖像。人臉檢測算法相對成熟、完善,本文不再贅述。因為前期采集環(huán)境為宿舍、自習室等,背景較為復雜,給人臉檢測造成困擾。后期采用純色背景進行采集,人臉檢測準確率較高。最終,本研究選用其中的60000幅面部表情圖像作為深度學習的訓練樣本,9000幅面部表情圖像作為深度學習的測試樣本。7種情感的面部表情樣例如圖3所示。
(二)實驗結果分析
在訓練開始前,需要將訓練樣本集中的圖像進行預處理,將圖像歸一化為60×60像素的RGB圖像。同時,為了提高訓練結果的魯棒性和準確率,并且避免出現過擬合問題。本研究在原訓練樣本集的基礎上進行數據擴充,擴增訓練樣本集的數量為原來的5倍,即訓練樣本集圖像總數增加到30萬。具體做法為取原圖像的左上、右上、左下、右下以及原圖像作為新的訓練樣本。本研究采用WIN10下的Matlab 2016軟件作為實驗環(huán)境,計算機CPU為Core i7-6700,內存為24G。
CNN的訓練主要包括信號正向傳播和誤差反向傳播兩個過程。其中正向傳播階段,輸入圖像經過多次卷積操作、池化操作,將高層語義信息逐層由輸入圖像中提取出來,逐層抽象。最終,CNN的最后一層將其目標任務形式化為目標函數。通過計算預測值與標注值間的誤差,憑借反向傳播算法將誤差由最后一層逐層向前反饋,更新每層參數,并在更新參數后再次前饋。正向傳播、反向傳播反復循環(huán),直到模型收斂,達到訓練的目的。測試結果見表1。
由表1可知,驚恐、常態(tài)、高興、憤怒、悲傷的識別率較高,均超過85%,專注、厭倦的識別率較低,但也超過80%。驚恐、憤怒、悲傷等表情面部特征明顯,因此,準確率較高。而專注與常態(tài)、厭倦與悲傷面部特征相似,給識別帶來難度,因此,準確率相對較低。但七種面部表情的準確率均高于80%,說明本研究基于深度學習提出的學習者情感識別方法能夠較為準確地識別學習者情感,具有實際應用價值。與已有研究相比,平均識別率比傳統機器識別算法略高,但CNN省略前期復雜的特征提取過程,耗時明顯比傳統機器識別算法縮短。經實驗測試,能無延遲地實時識別學習者情感,現已實際應用到智慧學習環(huán)境中學習畫面情感自適應調整系統。
五、學習者情感的識別應用
現有的智慧學習環(huán)境研究重“知”輕“情”,注重學習者認知層面的適應性和個性化,而較少考慮性格、興趣、情感等非智力因素在學習活動中的作用,對學習者情感狀態(tài)的適應性考慮較少,以致智慧學習環(huán)境缺乏情感的自適應和個性化,使學習者在學習過程中缺少情感支持。本研究提出的CNN結構和方法能夠快速、準確地識別學習者情感,并且支持將攝像頭捕捉的圖像作為原始圖像直接輸入,避免傳統識別方法中的特征提取過程,可實時、快速識別學習者的情感,將來可在以下領域取得實際應用:
(一)完善智慧學習環(huán)境中的學習者模型
學習者模型是學習者特征在虛擬學習環(huán)境中的抽象表示,代表著學習環(huán)境所能認識和理解的學習者,并實時更新學習者的特征信息,是智慧學習環(huán)境實施智慧化、個性化的重要依據。因此,構建完善的學習者模型是為學習者提供智慧學習服務的前提和基礎。目前,學習者模型領域已建立IEEE PAPI、IMSLIP等標準,研究者也從不角度對其進行了研究。但已有研究多關注學習者基本信息和認知層面的屬性特征,如性別、年齡、知識水平、認知能力等,忽視或輕視學習者的情境、偏好、情感等因素。學習者模型既要涵蓋學習者的基本信息、學業(yè)信息、關系信息、知識狀態(tài),還要涉及情境特征、情感狀態(tài)等。本研究將有助于構建融合情感特征的智慧學習環(huán)境學習者模型。該模型主要包括基本信息、學習者偏好、知識狀態(tài)、情境特征、情感狀態(tài)等。其中,基本信息主要包括姓名、性別、年齡、年級、聯系方式等;學習者偏好包括學習風格、內容偏好、交互偏好、媒體偏好等;知識狀態(tài)包括知識基礎、領域知識、掌握程度等;情境特征包括社會情境、認知情境、技術情境等[28];情感狀態(tài)則包括情感類型及強度等,情感類型及強度將由本研究提出的學習者情感識別方法實時識別后獲得,以便及時更新完善學習者模型。
(二)實現智慧學習環(huán)境中的情感交互
目前,智慧學習環(huán)境研究多關注根據學習者的知識水平提供適應性的學習內容,即強調智慧學習環(huán)境中認知層面的自適應交互,較少考慮學習者情感的自適應交互。智慧學習環(huán)境需要提供比信息化、數字化更加個性化、智慧化的學習服務,要提供更智慧化的學習服務,學習環(huán)境與學習者間的情感自適應交互必不可少,而學習者情感快速、準確的實時識別是實現智慧學習環(huán)境情感自適應交互的基礎。智慧學習環(huán)境中,學習者主要通過觀看學習內容的信息呈現畫面即學習畫面進行學習,學習畫面是學習者學習的主要環(huán)境,并且是學習者與學習內容間信息交互的主通道,對學習效果有著至關重要的影響。學習畫面所隱含的情感對學習者的學習興趣、認知負荷、情感狀態(tài)都有潛在影響,智慧學習環(huán)境中的學習畫面情感是其情感特征的重要表現。本研究將有助于實現智慧學習環(huán)境中的和諧情感交互,根據學習者觀看學習畫面的面部表情,識別、判斷學習者的情感狀態(tài),結合學習者對學習畫面的視覺情感偏好,自動調整學習畫面的關鍵視覺情感特征,包括調整界面背景顏色與紋理、增強顯示學習興趣點區(qū)域或重點學習內容、增添隱現趣味動畫等,而且快速、實時,不影響學習者正常在線學習,使學習者始終保持積極、良好的情感狀態(tài)。
(三)挖掘智慧學習環(huán)境中的學習行為
學習行為泛指學習者在某種動機引導下,為實現一定學習目標而與周圍環(huán)境進行的雙向交互活動的總和[29]。挖掘智慧學習環(huán)境中的學習行為,能夠發(fā)現和理解數據背后隱藏的信息,既能夠準確把握學習者的學習狀態(tài),以做出客觀、有效的評價和建議,又能夠自適應推送符合學習者需求的資源和內容,并為教師或管理者的決策提供支持。目前,研究者主要通過學習者的論壇交流、鍵鼠交互、文本輸入、測驗提交、觀看記錄等挖掘學習者的學習行為,而學習者情感狀態(tài)的識別為智慧學習環(huán)境中的學習行為分析開辟了新的途徑。智慧學習環(huán)境可根據學習者的情感狀態(tài)為其推送交互程度、資源類型、難易程度恰當的學習資源。學習者學習過程中,實時識別學習者情感,連續(xù)時間內,若學習者多為消極情感時,可自適應推送較低難度的學習內容或任務,也可推送交互性或趣味性較強的資源類型;若學習者多為積極情感,則可自適應推送難度較高的學習內容或任務。對于學習過程中的情感狀態(tài),在課后將以儀表盤或分析報告的形式呈現給學習者或教師,便于學習者調整學習狀態(tài),也有利于教師掌握學習者的學習狀態(tài)和對學習內容的理解程度,以便及時調整學習內容的難易程度以及呈現類型。通過一段時間內學習者情感數據的收集和分析,可挖掘學習者的學習風格、內容偏好、交互偏好、資源類型偏好等關鍵信息。
六、結? ?語
學習者情感的準確識別是實現智慧學習環(huán)境中和諧情感交互的關鍵,只有高效識別出學習者的情感,智慧學習環(huán)境中的學習畫面或智能教學Agent才能進行相應調整,實現自適應和個性化。已有學習者情感識別多采用人工特征提取后機器學習的傳統方法,復雜且效率較低。深度學習作為人工智能領域的重要技術,以原始圖像作為輸入,通過訓練樣本集進行自主學習,避免了顯式的特征提取過程,具有較高性能和泛化能力。此外,池化層的下采樣操作增強了識別算法的魯棒性。本研究在借鑒既有研究的基礎上,將常見學習者情感分為常態(tài)、高興、憤怒、悲傷、驚恐、專注、厭倦,并以此自建大規(guī)模學習者情感數據庫,提出基于深度學習的學習者情感識別方法。該方法相比于傳統的學習者情感識別方法,具有較高準確率和魯棒性,并可應用于智慧學習環(huán)境,將有助于完善學習者模型、實現情感交互、挖掘學習行為。但仍存在較多不足,在后續(xù)研究中將增加學習者情感類型、擴充學習者情感數據庫,優(yōu)化基于深度學習的學習者情感識別方法,進一步提高識別準確率和效率。目前,本研究已將通過Matlab軟件編寫的學習者情感識別程序封裝成函數,可供C、C++、C#、Java等語言調用,以期為智慧學習環(huán)境理論研究者、平臺建設者提供參考和幫助,為智慧學習環(huán)境的情感自適應交互作出應有貢獻。
[參考文獻]
[1] 孫波,劉永娜,陳玖冰,等. 智慧學習環(huán)境中基于面部表情的情感分析[J]. 現代遠程教育研究,2015(2):96-103.
[2] 孟昭蘭. 情緒心理學[M]. 北京:北京大學出版社,2005.
[3] 金慧,劉迪,高玲慧,等. 新媒體聯盟《地平線報告》(2016高等教育版)解讀與啟示[J]. 遠程教育雜志,2016,35(2):3-10.
[4] 劉永娜. 學習環(huán)境中基于面部表情的情感識別[D]. 北京:北京師范大學,2015.
[5] MEHRABIAN A. Communication without words[J]. Psychology today,1968,2(4):53-56.
[6] EKMAN P,FRIESEN W V.? Facial action coding system: a technique for the measurement of? facial? movement[M]. Palo Alto: Consulting Psychologists Press,1978.
[7] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. Lack Tahoe,Nevada:Currant Associates Inc,2012:1097-1105.
[8] RUMELHART D E,HINTON G E,WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature,1986,323(6088): 533.
[9] HINTON G E,SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786): 504-507.
[10] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324.
[11] 劉瑞梅,孟祥增. 基于深度學習的多媒體畫面情感分析[J]. 電化教育研究,2018,39(1):68-74.
[12] 許遠理,熊承清. 情緒心理學的理論與應用[M]. 北京:中國科學技術出版社,2011.
[13] 詹澤慧. 基于智能Agent的遠程學習者情感與認知識別模型——眼動追蹤與表情識別技術支持下的耦合[J].現代遠程教育研究,2013(5):100-105.
[14] BAHREINI K,NADOLSKI R,WESTERA W. Towards multimodal emotion recognition in e-learning environments[J]. Interactive learning environments,2016,24(3):590-605.
[15] RAY A,CHAKRABARTI A. Design and implementation of technology enabled affective learning using fusion of bio-physical and facial expression[J]. Educational technology & society,2016,19(4):112-125.
[16] 喬向杰,王志良,王萬森. 基于OCC模型的E-learning系統情感建模[J]. 計算機科學,2010,37(5):214-218.
[17] 黃煥. 面向e-Learning的學習者情感建模及應用研究[D]. 武漢:華中師范大學,2014.
[18] CHEN C M,WANG H P. Using emotion recognition technology to assess the effects of different multimedia materials on learning emotion and performance[J]. Library & information science research,2011,33(3):244-255.
[19] JAQUES P A,VICARI R M. A BDI approach to infer student's emotions in an intelligent learning environment[J]. Computers & education,2007,49(2):360-384.
[20] 徐曉青,趙蔚,劉紅霞. 混合式學習環(huán)境下情緒分析應用與模型研究——基于元分析的視角[J].電化教育研究,2018,39(8):70-77.
[21] 盧官明,何嘉利,閆靜杰,等. 一種用于人臉表情識別的卷積神經網絡[J]. 南京郵電大學學報(自然科學版),2016,36(1):16-22.
[22] 彭清,季桂樹,謝林江,等. 卷積神經網絡在車輛識別中的應用[J]. 計算機科學與探索,2018,12(2):282-291.
[23] EKMAN P,FRIESEN W V. Constants across cultures in the face and emotion.[J]. Journal of personality & social psychology,1971, 17(2):124-129.
[24] IZARD C E. Human emotions[M]. New York:Plenum Press,1977.
[25] PLUTCHIK R. The nature of emotions[J]. American scientist,2001,89(4):344-350.
[26] 魏刃佳,丁亦喆,張莉,等. 在線學習系統中情感識別模塊的設計與實現[J]. 現代教育技術,2014,24(3):115-122.
[27] 劉永娜,孫波,陳玖冰,等. BNU學習情感數據庫的設計與實現[J]. 現代教育技術,2015,25(10):99-105.
[28] 丁繼紅,劉華中. 影響教育資源選擇的學習者模型構建[J]. 遠程教育雜志,2017,35(4):97-103.
[29] 楊金來,洪偉林,張翼翔. 網絡學習行為的實時監(jiān)控研究與實踐[J]. 開放教育研究,2008,14(4):87-92.