張凌熙 蔡子碩 李林燕



摘 要:人工智能在教育領域的應用,尤其是學習分析技術和情感計算在評估教學質量和學習效果方面顯現出巨大的優勢。OpenCV是一個免費開源的計算機視覺庫,提供多種編程語言的接口,可用于圖像處理和計算機視覺處理。TensorFlow是谷歌公司開發的免費開源深度學習框架,提供豐富的API和工具,可以快速構建各種類型的機器學習模型。Keras是一個高級神經網絡API,可以與多個深度學習框架集成,提供簡單、快速構建深度學習模型的方式。
關鍵詞:人臉識別;多模態情感識別;學情分析
一、引言
當今世界人工智能行業發展迅速,各行各業都在嘗試將人工智能融入進行行業創新,進行行業迭代搶占市場先機。在教育行業這種現象也十分常見,其中新興的學習分析技術對師生數據的深度刨析和應用為教育領域向智慧化轉型提供了新的發展視角。在教育行業中,學生的認知能力一度被認定為影響學生學習能力和學習熱情的最根本原因,根據現有的研究資料表明學生的認知能力通常會通過面部表情和肢體動作、神情變化、語言等方式顯現出來。而情感計算是指開發者通過人工智能識別并分析計算采集到的人體面部的情感信息和肢體動作,從而解讀人類情感,就此來看情感數據計算分析在評估教學質量和學習效果方面可以發揮出不小的作用。
OpenCV是一個免費開源的計算機視覺庫,可以在多種操作系統上使用,并提供多種編程語言的接口。它已經持續更新和升級了近20年,擁有近500個C函數的API,使得開發者可以通過簡單的函數調用來編寫較為復雜的模型框架,而不需要過多了解底層的邏輯架構。除了提供豐富的圖像處理和計算機視覺處理算法庫之外,OpenCV還可以與流行的深度學習框架如TensorFlow、Caffe2進行集成,使得開發者可以將訓練好的模型應用于實際的項目或產品中。
TensorFlow是由谷歌公司設計和實現的一款基于數據流圖的免費開源深度學習框架,它提供了豐富的API和工具,可以幫助開發者快速構建各種類型的機器學習模型。Keras是一個高級神經網絡API,基于Python語言和多個深度學習框架(如TensorFlow、CNTK和Theano等),它提供了一種簡單、快速構建深度學習模型的方式。Keras的設計理念是模塊化、可組合和易擴展,使得開發者可以輕松構建各種類型的神經網絡模型。Tensorflow基本架構如下圖1所示。
二、基于監控視頻流的情感識別的實現
(一)基于監控視頻流的情感識別方法的實現
本系統旨在建立一種基于高清監控攝像頭的人臉識別情感分析方法,并實時反饋分析結果到后端。具體實現中,我們利用OpenCV提供的視頻流采集模塊cv2.VideoCapture,對監控攝像頭采集到的視頻進行輸入。同時,我們可以設置視頻的分辨率和幀速率等參數。接著,我們使用cap.read()函數逐幀讀取視頻流中的圖像,并將其轉換為靜態圖像。使用cv2.imwrite()函數將所獲得的圖像保存為靜態圖像,并使用cv2.imshow()函數顯示圖像幀。然后使用TensorFlow人臉識別模塊對視頻流中的靜態圖像進行分析,以識別人臉位置、大小、姿勢和表情等特征,并與預存儲在數據庫中的人臉圖像進行比較和分析。通過調用TensorFlow模型的predict()方法,我們可以對所選圖像進行預測,得到一個表示該圖像屬于每個類別概率的向量。通過使用np.argmax()函數獲取概率最大的類別的索引,并將其映射到標簽名稱,我們可以輸出預測結果。該系統將分析結果上傳至數據庫,包括學生在課堂上實時的表情數據以及該表情所反映的學生的學習能力和學習情況。同時,服務器還將同步更新Web端數據,實現課堂學情情況的實時更新和共享。如下圖2所示。
(二)基于監控視頻流的多模態人臉檢測模塊的實現
系統使用了OpenCV中的cap.read()函數讀取視頻流,并對視頻流進行了預處理,包括圖像縮放、灰度化和直方圖均衡化等操作,以方便后續的人臉檢測。接著,使用人臉檢測算法對預處理后的視頻流進行處理,以檢測視頻流中人臉的位置信息。對于檢測到的人臉,系統使用表情識別算法對其進行行為分析和表情識別,并將分析結果存儲在數據庫中。同時,系統將這些數據上傳至Web頁面,以便實時更新和共享學生的學情數據。
(三)基于監控視頻流的多模態人臉識別模塊實現
1.收集多種類型的人臉識別數據
為了構建高效準確的學情分析系統,需要使用多種類型的人臉識別數據集,其中包括來自Labeled Faces in the Wild (LFW)、CelebA、CASIA-WebFace等公開的數據集。除此之外,為了更好地識別學生的情感狀態,還需要收集每位同學40張面部圖片,涵蓋各種表情,以便進行更精確的情感分析。
2.建立多模態卷積神經網絡訓練模型
為了訓練高效準確的人臉識別模型,需要對多模態數據集進行預處理和標準化。多模態數據集采用串行的方式輸入到不同的卷積層中進行特征提取,然后設計多個卷積層,分別對不同的模態數據進行特征提取。使用加權平均和拼接等方法將多種模態的特征融合,以提高模型的性能和容錯能力。同時,采用交叉熵損失函數(Cross-entropy Loss)同步提高模型的訓練效果。
3.評估人臉識別效果
在完成人臉識別模型的設計和訓練后,需要計算該算法的準確率和召回率,并繪制混淆矩陣以直觀地展示算法的效果。當人臉識別算法的性能達到一定的水平時,可以將其部署到學情分析系統中進行檢測。該系統通過調用教室中的監控攝像頭,獲取攝像頭傳輸的視頻流信息。每秒選取一幀圖像進行預處理,然后使用人臉識別模塊獲得圖像中具體的人臉特征信息。再與數據庫中的數據集進行對比,將分析結果返回。在完成一次識別后,系統會自動開始下一輪識別,直到將班級中所有同學的情況都獲取完成。
三、系統功能實現
基于多模態情感識別的學情分析系統的實現依賴于多種技術和框架,包括OpenCV、基于多模態的卷積神經網絡(CNN)深度學習框架、HTML超文本標記語言、Vue前端框架、Python開發語言、Node.js框架和MySQL數據庫。系統的工作流程包括獲取圖像、進行CNN模型訓練和優化、將模型返回的數據保存到MySQL數據庫中,最后通過Web端可視化展示數據。在蘇州經貿技術學院信息技術學院18個班級課堂的試用中,該系統已經滿足了學生課堂上實時的學情分析、學生家長端的學生課堂基本情況、授課教師和年級主任端的學情分析和總結、學校領導端的課堂巡查和系統管理員等各方的應用需求。該系統的實現流程如圖3所示。
四、結論
本學情分析系統不僅能夠收集和分析情感數據,還能通過與后臺數據庫連接,為學校領導提供了查看班級學生學情分析、實時巡查和年級學情匯總分析等功能。此外,它還能為授課教師提供依據,以控制教學進度和評估教學效果,為實現個性化教學提供了有效的手段。此外,它還為學生家長提供了學生在課堂上的具體情況,以實現智能、靈活和高效地分析和使用學情狀態的功能。綜合來看,本基于多模態情感識別的學情分析系統充分考慮了用戶需求,并且根據需求規格說明書不斷完善各個模塊和系統整體邏輯與性能。在系統測試中,我們發現了一些潛在的問題并進行了修復,滿足了中小學和高校日常學情分析的基本需求。現在,該系統已經成功部署在蘇州經貿職業技術學院信息技術學院的18間教室中,使用簡便,數據分析準確快速,得到了使用師生們的好評。
參考文獻:
[1]李斌建. 基于深度學習的語音和文本融合多模態情感識別方案研究與設計[D].南京郵電大學,2022.
[2]陳曉歡. 基于多模態融合的情感識別研究[D].延安大學,2022.
[3]陳光輝. 語音圖像多模態信息融合的情感識別方法研究[D].重慶大學,2021.
[4]凌云昊. 基于多模態情感識別的自適應教學系統研究與實現[D].上海交通大學,2018.
[5]董建功. 多模態情感識別及其虛擬環境人機交互研究[D].重慶郵電大學,2021.
[6]張海峰. 基于多特征融合的人臉表情識別研究[D].中國科學技術大學,2020.
[7]裴浩.基于Python+OpenCV的課堂人臉簽到微型系統[J].信息技術與信息化,2023(01):181-184.
[8]展寬,朱佳雨,王一元,陳祥培,陳天曉.基于openCV人臉追蹤云臺與大數據應用系統設計[J].信息與電腦(理論版),2023,35(01):140-142.
[9]李玉臣.基于OpenCV的計算機圖像識別技術研究與實現[J].電腦編程技巧與維護,2022(11):147-149+169.