劉榮華, 范 誠
(1 云南大學 職業與繼續教育學院, 昆明650091; 2 昆明理工大學 農業與食品學院, 昆明650504)
人類的注意力體現著人們重要的動機和認知取向[1],師生互動是教師教育教學工作實現的重要載體[2]。 師生互動中,教師注意力的分配與轉移影響著課堂教學效果,而教師具有較強的注意分配能力是促使學生集中注意的一個必要條件[3]。 因此,對課堂教學環境下,教師注意力的識別與分析具有重要意義。 本研究基于課堂實錄視頻,采用人工智能中的圖像識別技術,提出在教室自然場景下對教師注意力的識別方法,并進行量化分析與評價,進而提高教師對自身注意力的意識,為培養教師較強的注意分配能力提供理論依據。
在教學過程中,師生的課堂行為、學生的學習記錄等環節,都會產生大量的實時數據。 利用深度學習和人工智能技術,可以將這些數據充分利用起來,優化教育教學的發展。 陳靚影等人通過對頭部姿態、面部表情、課堂互動多模態信息識別與融合,提出了學生學習興趣的智能化分析方法[4];徐振國等人提出了基于深度學習的學習者情感識別方法,能夠快速、準確的識別學習者情感[5];郭曉旭等人采集了真實課堂環境下的學生數據,提出了基于微表情的學生課堂專注度識別[6]。 以上研究可以看出:關注學生課堂行為數據的研究中,大多集中在學生學習興趣、課堂專注度和學習者情感等方面,而關注教師行為數據的研究較少;其次,深度學習在教育領域的研究已經取得一定的進展,基于深度學習的教師注意力的識別具有可行性。 然而,在真實課堂環境下,教育場景的復雜性帶來了背景信息的冗余,教師注意力的變化涉及頭部、姿勢、目光等多維度信息。 為解決以上問題,本研究采集了多種真實課堂環境下的教師圖像數據集,進一步提高了識別模型的泛化能力;由于YOLOv3 算法對小目標物體檢測具有較高的精度和速度[7],本研究采用該算法來滿足實時檢測需求;頭部姿態在注意力方向中的貢獻占40.3%[8],人的注意方向可以根據頭部姿勢預測[9]。 本文在頭部姿勢的基礎上增加了手勢、動作等多維度識別特征,提高了教師注意力識別的可靠性。
深度學習是人工智能領域一個研究方向,它可以高效的提取復雜數據的特征,學習不同類型的知識[10],被廣泛應用于圖像識別、語音識別、自然語言處理等方面。 卷積神經網絡(Convolutional Neural Network, CNN)是深度學習技術中具有代表性的一種網絡結構,主要用于圖像識別。 本研究提出使用基于TensorFlow 開源框架的YOLOv3 神經網絡,來實現教師注意力的識別。 YOLOv3 網絡結構如圖1 所示。

圖1 YOLOv3 網絡結構Fig. 1 YOLOv3 network structure
YOLOv3 主干網絡采用53 層卷積層,包含了多組殘差模塊。 在訓練過程中接收416×413×3 大小的圖像作為輸入。 具體流程如下:
(1)通過卷積塊提取特征,經過殘差模塊進一步提取深層特征,分別生成13×13,26×26,52×52 三種特征層。 其中,上層特征層的網絡會進行上采樣后與下層網絡進行融合,能有效保留物體的淺層信息,有利于提升物體的檢測精度。
(2)通過對特征層的融合進行圖像的識別定位。
(3)通過softmax 激活函數對物體進行分類。
由于本研究教師注意行為有4 種,故網絡模型的輸出有4 種類別。
通過采集真實課堂中教師4 類注意行為的圖像作為數據集,進行YOLOv3 網絡模型的訓練,生成權重文件;對識別結果進行統計,分析教師每節課中的注意力變化趨勢,進而傳輸到相應的教師移動端,供教師參考和反思。 教師注意力檢測分析流程如圖2 所示。

圖2 教師注意力檢測流程圖Fig. 2 Flow chart of teacher's attention detection
在日常教學中,經常會發現有些教師的注意力只集中于授課內容,而忽視了講臺下的學生學習活動,因此很容易造成學生缺乏學習興趣的現象。 因此,本研究提出4 種對教學效果影響較大的典型課堂注意對象類別:首先將教師的注意力對象分為教學內容和學生表現兩個方面;其次將教學內容細分為板書和課件兩種;將學生表現分為學生聽課狀態和學生練習情況。在視頻觀察的基礎上,總結出每類教師注意對象的行為特征,包括頭部姿勢、手勢、動作等特征,并且對每類注意行為進行編碼,如表1 所示。

表1 教師注意力分布編碼表Tab. 1 Teacher attention distribution code table
由于課堂教學環境差異較大,為獲取真實環境下的數據,本研究在國家教育資源服務平臺中選取了40 節中小學課堂教學實錄視頻。 其中包括不同年齡、不同性別、不同科目的教師課堂實錄視頻,每間隔3s 左右采集課堂教學實錄視頻中的一幀圖像作為數據樣本,將其中模糊或者不包含教師的圖像刪除,獲得包含4 種編碼行為的教師注意力圖像。
通過對原始圖像進行裁剪、旋轉及鏡像等方式來擴大數據集,最終獲得的教師注意力數據集共3 600張圖片,每種編碼行為約900 張圖片,將該數據集按比例分為訓練集與測試集。 按照教師注意力分布編碼表,使用Labellmg 標注工具對圖像中的關鍵特征用矩形框進行標注,標注后的圖像數據保存為PASCAL VOC 格式。
(1)實驗環境。 本實驗的主要設備配置包括:GTX1060(GPU)、6G 顯存、I7-8750(CPU);軟件環境采用TensorFlow 開源深度學習框架、OpenCV、Cuda、Cudnn、Python 等完成。
(2)實驗步驟。 ①數據采集。 采集課堂實錄中教師4 中注意行為的圖像。 ②數據預處理。 對采集的圖像進行預處理,主要包括數據標注和數據增強。③模型的訓練與調整。 搭建YOLOv3 網絡結構及設置相關參數后,在TensorFlow 框架中迭代生成權值模型。 ④模型測試與評價。 在實驗過程中可通過記錄每幅圖像的檢測時間來衡量模型的實時性。 從圖像測試集中隨機抽取圖片作為模型評價數據集,重復進行3 次檢測后對各變量取值計算平均值,計算每種注意行為的識別正確率與速率來評估算法性能。
圖像檢測效果如圖3 所示。 圖3(a)用藍色方框標記了教師板書的行為,此時注意對象為多媒體課件,該行為編碼為1;圖3(b)用紫色方框標記了教師側對的行為,此時注意對象為講授內容;圖3(c)用紅色方框標記了教師面向學生講授的行為,此時注意對象為學生的聽課狀態,編碼為3;圖3(d)用綠色方框標記了教師巡視和個別指導的行為,此時注意對象為學生練習情況,編碼為4。

圖3 教師注意力檢測結果示例Fig. 3 Example of teacher attention detection results
為了達到最好的識別效果,比較多個權重模型,找到準確率、召回率、調和平均值以及精度均值最好的模型,選出最好的訓練模型對真實的課堂教師注意力檢測中進行識別與分析。 本研究統計了三次隨機實驗的平均精度,采用F 值作為綜合評價指標,其算式如式(1)所示。 式(1)中, RS 表示正確識別圖像中的目標,FS 表示非正確識別的目標, FN 表示非識別的目標。P 表示正確率,R 表示召回率, F為調和平均值。 不同類別的檢測正確率和速率如表2 所示。


表2 不同類別的檢測效果比較Tab. 2 Comparison of detection effects of different categories
綜上所述,將基于深度學習的圖像識別技術應用到課堂教學教師的注意力識別中,實現對教師注意力分配的智能分析與實時檢測,有利于輔助教師教學的評價與培養教師注意分配能力,提高教師專業素養。 本研究訓練出的教師注意力識別模型,具有較高的準確率和識別速度。