賀子琴,黃文輝,肖嘉彥,蔣勛澤,胡俊杰
(湖南工商大學計算機學院,湖南長沙 410000)
隨著現代教育體系的不斷發展,教育領域利用人工智能的優勢,對教育方式不斷進行創新。學生課堂行為作為課堂質量的一個重要衡量指標,系統采集學生課堂上的行為,將數據進行可視化,有利于對課堂的過程分析以及學生的多元化評價。
學生行為分析主要是針對學生在課堂上寫字、玩手機、站立、端坐四種行為進行識別分析。通過對學生的課堂行為進行分析,教師可以了解學生的課堂狀態,掌握學生的情況,以此針對課堂氛圍制定不同的教學計劃。利用該學生行為分析系統可以采集學生的課堂行為,將采集的數據進行可視化,對學生的課堂行為進行多元化評價。
目前在學生課堂行為分析方面,隨著人工智能技術發展愈加成熟,越來越多的技術不斷發展與成熟。
利用課堂教學視頻分析軟件替代部分人工的工作量進行學生課堂行為分析,主要包括S-T課堂教學分析法、蘭德斯互動分析系統以及基于信息技術的互動分析系統[1]。薛新國等利用并改進S-T課堂分析法對融入信息技術的語文課堂教學過程中的教師行為、學生行為以及師生互動行為進行了分析。
通過人工觀察視頻編碼學生行為的方式,本質上還是依賴人的觀察對課堂教學進行分析,沒有充分利用人工智能、計算機視覺等技術的優勢,耗時耗力且效率不高。
基于傳統的人工提取特征方法可以根據具體需求提取相應的特征,其中大多采用輪廓特征、人體骨架特征和軌跡特征等識別方法。針對傳統的學生課堂行為分析,馬喜茹[2]采用Viola-Jones 和膚色檢測算法分別對學生的起立與舉手行為進行了識別。鄧淼磊[3]采用Hu矩進行輪廓特征提取后,使用線性分類器(SVM)進行舉手、正坐、低頭姿態分類。此方法利用人體骨骼特征和傳統機器學習進行結合,且需在教室里架設專門的kinect 設備采集數據,操作較復雜且準確率不高。
此類傳統的機器學習方法相較于初始的分析法具有較高的穩定性和可靠性,但是在課堂視頻中往往存在學生目標眾多,有遮擋嚴重的情況,存在一定時序性上的局限性。
深度學習方法是模擬人腦的認知機制建立的具有分析學習能力深度神經網絡,學習數據的特征,摒棄依賴人工設計提取特征,通過對大量的數據進行訓練和學習,自動學習到有效的特征可用于目標和行為識別。廖鵬[4]基于卷積神經網絡(VGG)來預訓練網絡模型和遷移學習,搭建學生課堂行為識別數據集,并通過反復多次訓練得出分析結果。

圖1 系統結構圖
綜上所述,傳統的機器學習方法相較于初代學生課堂行為分析更智能科技化,但其操作復雜,準確度不高,在檢測速度和檢測精度上都存在著較大的缺點,在復雜的課堂環境中往往存在著光線不足、動作遮擋等問題,給學生課堂行為分析帶來了巨大的挑戰。
本系統通過計算機軟件與硬件的結合,主要通過三個模塊來實現對學生的課堂行為識別分析,分別如下:圖像采集模塊、行為檢測模塊、輸出分析模塊。如圖1所示。
學生課堂行為分析系統通過攝像頭對學生的課堂行為進行圖像采集,在系統的檢測識別下判斷學生行為的類別,通過可視化顯示輸出端,提醒教師把握好課堂氛圍,提高課堂效率。系統將會在復雜環境中,顯示班集體四種學生課堂行為的具體人數,分別為玩手機、站立、端坐、寫字四種具體學生課堂行為。
目前,針對學生的課堂行為識別分析上并沒有公開的數據集,因此數據采集是該系統行為分析的基礎,系統主要通過攝像頭對教室課堂學生行為實時檢測獲取。
在異常檢測模塊中,主要通過制作大量各種環境下真實的課堂數據集,對不同角度下的數據進行數據清洗與比例篩選圖片,對數據集進行預處理和訓練,訓練采用YOLOv5 算法模型,最后測試集測試模型后對訓練結果進行分析。
2.2.1 數據集制作
本設計從網絡上收集各級各類學校的高清公開課堂視頻,并分割為圖片幀,為了還原真實的課堂環境,對分割的圖片采用改變亮度、高斯模糊等數據增強手段進行處理。實驗通過不同環境下不同群體的課堂行為視頻,獲得正面拍攝、側面拍攝和背面拍攝三個視角下面的:玩手機、寫字、站立和端坐4 種類別的數據,共計5 639張數據圖片,部分數據集如圖2所示。

圖2 多角度數據集
文中采用LabelImg 標注工具構建學生課堂行為數據集,利用標注工具對生成的文件標簽進行調整,為了增強實驗的有效性和可說服力,對4種學生課堂行為制定了標準,如表1所示。

表1 4種行為標準

圖3 YOLOv5s網絡模型
2.2.2 YOLOv5介紹
基于PyTorch框架的YOLOv5s 模型是YOLOv5 系列中網絡寬度和深度較小的模型,與其他目標檢測模型相比,參數量較少。
YOLOv5 算法繼承了之前的YOLO 系列的網絡架構[5],主要由4 個部分組成,分別是輸入端(Input) 、主干網絡(Backbone) 、網絡的頸部(Neck)和預測輸出端(Prediction),在4 個部分分別進行了不同程度的改進,展現出了更精確、更及時、更適用于小目標檢測的特點。YOLOv5s 網絡模型結構如圖3所示。
1)在輸入端主要采用了K-means 算法的自適應描框計算,自適應圖片填充,以及目標檢測領域發展以來提出的加速訓練方法,即數據增強方法[6]。通過數據增強的方法對圖像的隨機處理,不僅豐富了數據集,而且減少GPU 的處理量,自適應的描框計算方法通過聚類的方法自適應地計算出當前數據集的最佳描框尺寸,并將其直接嵌入代碼中,增強了算法的健壯性和穩健性。
2)在主干網絡部分,YOLOv5引用了新的結構,創新性地采用了Focus 切片技術對圖像進行切片,遍歷圖像,提取像素值,提高運算速度,并采用CSP結構結合空間金字塔SPP結構來兼顧各個層次的特征提取,豐富網絡可以進行處理的各種圖片類型,使網絡可以輸入任意比例的圖像。
3)在網絡的頸部主要采用特征金字塔FPN 以及路徑聚合網絡PAN進行特征融合,可以利用低層特征的高分辨率信息和高層特征的高義信息兼顧不同目標的識別,從而網絡可以學習和提取更大范圍的特征信息。
4)輸出端主要對損失函數進行優化,在YOLOv5模型中定位損失采用的是GIOU,GIOU[7]是在IOU的基礎上面增加了一個非重疊面積的懲罰項,解決了真實框和預測框兩框不相交的時,梯度無法進行回傳的問題。
YOLOv5 算法的創新性不斷提高,其速度和精度都得到了極大的提升,比其他同類別的網絡擁有更好的性能。
2.2.3 實驗流程
關于學生課堂行為識別的方法,主要包括數據集的采集與制作、模型的訓練與改進。學生課堂行為識別實驗流程如圖4所示。

圖4 學生課堂行為識別實驗流程圖
2.2.4 實驗環境
模型訓練的環境為Windows 10系統、Python 版本為3.6、深度學習框架為PyTorch[8],框架版本為1.7.0。
2.2.5 實驗分析
數據集訓練的過程中設置epochs 為300,當訓練迭代次數達到了300后,模型達到收斂[9]。訓練集、驗證集和測試集按照8:1:1隨機分配劃分。
使用訓練好的YOLOv5 模型對數據集進行測試,結果如圖5所示:

圖5 訓練結果
該學生課堂行為分析系統使用方便,應用范圍廣泛,在課堂教學環境下可以通過該系統分析學生的行為,判斷該行為對課堂和學生自身是積極影響還是消極影響。采用PC 端進行系統設計,將可視化結果更好地展示在屏幕上,有利于教師及時掌握學生的課堂行為。
該系統主要包括圖片檢測和視頻檢測兩類。當導入的圖片幀中含有學生課堂行為時,系統將會檢測出學生具體的課堂行為,如圖5所示。

圖5 系統結果展示
本文通過對學生的課堂行為進行檢測分析,幫助學生養成良好的課堂行為并提高課堂效率,針對傳統的課堂行為識別方法識別率不高等問題,提出了基于YOLOv5的學生課堂行為識別分析的方法。
本文主要通過輸入設備對學生課堂行為進行圖像采集,在正面、側面和背面不同的角度對數據進行采集,用所訓練的權重模型對不同的學生課堂行為均能達到較高的檢測識別,并且延遲度較低。該方法應用范圍廣泛,具有實用價值,幫助教師判斷學生課堂行為,輔助教師進行課堂評估,進一步提高課堂效率,改善教師教學方法。未來,筆者將會進一步改進擴充數據庫,提高學生課堂行為識別的精確度,同時輕量化模型并提高其實用性。
致謝
在此感謝導師黃少年副教授對我們的指導和幫助,以及在設計中被我引用或參考的論著的作者。在此表達衷心的感謝!