



摘要:本文介紹了一種基于視覺大模型的大學(xué)生就業(yè)面試多模態(tài)測評與訓(xùn)練系統(tǒng)。該系統(tǒng)通過多模態(tài)數(shù)據(jù)捕捉與分析,提供個性化的面試反饋,旨在提升大學(xué)生的面試技能。研究內(nèi)容包括多模態(tài)數(shù)據(jù)采集、視覺大模型訓(xùn)練和系統(tǒng)功能設(shè)計。初步應(yīng)用顯示,該系統(tǒng)能夠有效識別和分析面試者的非言語行為,如面部表情和肢體動作,為學(xué)生面試能力的提升提供了科學(xué)、個性化的支持。
關(guān)鍵詞:大學(xué)生面試;多模態(tài)識別;視覺大模型;個性化反饋;面試訓(xùn)練系統(tǒng)
中圖分類號:G434" 文獻(xiàn)標(biāo)識碼:A" 論文編號:1674-2117(2025)08-0101-05
隨著每年大學(xué)畢業(yè)生人數(shù)的不斷增長,就業(yè)市場的競爭愈發(fā)激烈。在這種背景下,面試技能越來越受到畢業(yè)生的關(guān)注。本研究旨在通過構(gòu)建基于視覺大模型的多模態(tài)測評與訓(xùn)練系統(tǒng),為大學(xué)生提供科學(xué)、個性化的面試訓(xùn)練工具,提升其面試表現(xiàn)和就業(yè)競爭力。
研究綜述
多模態(tài)識別技術(shù)通過綜合利用文本、視覺、聽覺等多種信息來源,能夠全面、準(zhǔn)確地理解和處理復(fù)雜任務(wù)。該技術(shù)在情感計算、人機(jī)交互、視頻監(jiān)控等多個領(lǐng)域中都有廣泛的應(yīng)用。其基本原理在于綜合使用多種信息來源,以提高信息處理的效果和可靠性。[1]
深度學(xué)習(xí)(Deep Learning)是由Hinton等提出的,是一種具有自動化、高效性、精確性和高靈活性的機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)模型擁有多種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、長短時記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory Networks,LTSM)等。其中,卷積神經(jīng)網(wǎng)絡(luò)主要被應(yīng)用于圖像處理和人臉識別。[2]
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,當(dāng)前,基于多模態(tài)識別的方法被廣泛應(yīng)用但存在一定的局限性:一是模態(tài)間關(guān)聯(lián)性考慮不夠,現(xiàn)有方法在處理多模態(tài)數(shù)據(jù)時,往往沒有充分利用不同模態(tài)間的關(guān)聯(lián),導(dǎo)致信息的片面利用,降低了模型對整體數(shù)據(jù)的挖掘能力;二是個體間差異性考慮不足,每個人都具有獨特的表情等非語言行為,這些個體差異對于精準(zhǔn)識別至關(guān)重要,然而目前的方法個體差異性不強(qiáng),導(dǎo)致個性化反饋機(jī)制不完善。
理論基礎(chǔ)
1.多模態(tài)識別理論
多模態(tài)識別技術(shù)綜合視覺、聽覺等多模態(tài)信息,通過特征拼接、特征加權(quán)等方式將不同模態(tài)的特征合并,通過投票機(jī)制、加權(quán)平均等方式將不同模態(tài)的分類結(jié)果融合,通過集成學(xué)習(xí)方法將多個模型的輸出結(jié)果融合,從而實現(xiàn)多模態(tài)融合識別。
2.教育心理學(xué)理論
情緒狀態(tài)和非言語行為在面試過程中起著至關(guān)重要的作用,它們不僅影響面試者的表現(xiàn),還會影響面試官的判斷。積極的面部表情(如微笑、點頭)、開放的肢體語言(如手勢自然、坐姿端正)和堅定的眼神交流等非言語行為可以傳達(dá)自信和誠實,反之則可能傳遞緊張和不安,影響面試官的評價。
3.社會呈現(xiàn)理論
Erving Goffman在其著作《日常生活中的自我呈現(xiàn)》中提出了社會呈現(xiàn)理論。該理論認(rèn)為,人們會根據(jù)不同的社會場合和觀眾,調(diào)整自己的語言和非言語行為,以達(dá)到特定的社交目的。在面試過程中,面試者的行為一致性不僅影響其自身的表現(xiàn),還會影響面試官的判斷。面試中行為一致性的重要性在于它能夠幫助面試者更好地管理自己在面試官心中的印象。根據(jù)Goffman的社會呈現(xiàn)理論,面試者需要在情緒狀態(tài)和非言語行為上保持一致,以展示自己的自信、專業(yè)能力和良好態(tài)度,從而更容易獲得面試官的認(rèn)可和信任。因此,面試者在準(zhǔn)備面試時,不僅要關(guān)注自己的言語內(nèi)容,還要注意自己的情緒管理和非言語行為的表現(xiàn)。
研究方法
1.研究設(shè)計
本研究的對象是面臨就業(yè)的大學(xué)生。通過公開數(shù)據(jù)集、招募志愿者等參與實驗,收集在模擬面試中的表現(xiàn)數(shù)據(jù),以便對系統(tǒng)進(jìn)行測試和優(yōu)化。項目研究思路從理論研究、模型構(gòu)建與優(yōu)化、實驗數(shù)據(jù)收集、軟件開發(fā)到實際應(yīng)用,逐步推進(jìn),確保研究的科學(xué)性和實用性,研究思路如圖1所示。系統(tǒng)應(yīng)用設(shè)計了多種典型的面試情境,如壓力面試、行為面試、案例分析等,以覆蓋不同類型的面試需求。
2.數(shù)據(jù)收集
(1)數(shù)據(jù)來源
①學(xué)院內(nèi)部數(shù)據(jù)。利用學(xué)院已有的教學(xué)資源,如大小面試錄像等,這些數(shù)據(jù)涵蓋了不同專業(yè)、不同年級的學(xué)生在面試中的表現(xiàn),具有較高的多樣性和代表性。
②公開數(shù)據(jù)集。從公開的數(shù)據(jù)集中獲取部分?jǐn)?shù)據(jù),如AffectNet(人臉表情識別數(shù)據(jù)集)、Kinetics(視頻動作識別數(shù)據(jù)集)等,這些數(shù)據(jù)集提供了豐富的多模態(tài)數(shù)據(jù),有助于模型的預(yù)訓(xùn)練和驗證。
③志愿者數(shù)據(jù)。通過校園公告、社交媒體等方式招募志愿者,邀請他們參與模擬面試實驗,利用高清攝像頭和麥克風(fēng)采集志愿者在模擬面試中的多模態(tài)數(shù)據(jù),采集流程如圖2所示。
另外,在歸檔存儲前,對上述三類來源的數(shù)據(jù),統(tǒng)一使用Python等工具進(jìn)行預(yù)處理,包括去噪、格式轉(zhuǎn)換等,確保數(shù)據(jù)的一致性和可用性。
(2)數(shù)據(jù)類型
①視頻數(shù)據(jù)。記錄面試者的面部表情、肢體動作等視覺信息。視頻數(shù)據(jù)的分辨率設(shè)定為1080p,幀率為30fps,以確保數(shù)據(jù)的質(zhì)量和清晰度。
②音頻數(shù)據(jù)。記錄面試者的語音信息,包括語音內(nèi)容、語速、音調(diào)等。音頻數(shù)據(jù)的采樣率為44.1kHz,應(yīng)用噪聲減少功能,優(yōu)化音頻清晰度。
③文本數(shù)據(jù)。記錄面試過程中的問題和答案,以及面試者的自我介紹等文本信息。
④標(biāo)注數(shù)據(jù)。由心理學(xué)專業(yè)人士對面試者的非言語行為進(jìn)行標(biāo)注,包括表情、肢體動作、眼神交流等,用于訓(xùn)練和驗證模型。
(3)數(shù)據(jù)管理
使用文件系統(tǒng)存儲采集到的數(shù)據(jù),包括視頻數(shù)據(jù)、音頻數(shù)據(jù),使用數(shù)據(jù)庫存儲文本數(shù)據(jù)和標(biāo)注數(shù)據(jù)。數(shù)據(jù)庫設(shè)計應(yīng)確保數(shù)據(jù)的安全性和完整性。因此,要采取必要的安全措施,如數(shù)據(jù)加密、訪問控制等,保護(hù)數(shù)據(jù)不被未經(jīng)授權(quán)的訪問和泄露,并定期對數(shù)據(jù)庫進(jìn)行備份,防止數(shù)據(jù)丟失。
3.技術(shù)實現(xiàn)
(1)多模態(tài)捕捉識別技術(shù)
表情識別。①使用OpenCV庫讀取視頻流,對每一幀圖像進(jìn)行預(yù)處理,包括灰度化、歸一化等操作,以提高后續(xù)處理的效率和準(zhǔn)確性。②使用深度學(xué)習(xí)模型(MTCNN)檢測視頻幀中的面部區(qū)域,提取面部特征點。③利用預(yù)訓(xùn)練的表情識別模型(FER2013數(shù)據(jù)集訓(xùn)練的ResNet模型)對提取的面部特征點進(jìn)行表情分類,識別出高興、悲傷、憤怒、驚訝等基本表情。
肢體動作識別。①使用OpenPose庫或MediaPipe庫對視頻幀中的肢體進(jìn)行姿態(tài)估計,提取關(guān)鍵點坐標(biāo)。②利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)組合模型(LSTM)對提取的姿態(tài)關(guān)鍵點進(jìn)行時序分析,識別出不同的肢體動作,如揮手、點頭等。通過預(yù)訓(xùn)練的動作識別模型(Kinetics數(shù)據(jù)集訓(xùn)練的3D ResNet模型)對提取的肢體動作進(jìn)行分類,識別出具體的動作類別。
眼神交流識別。①使用深度學(xué)習(xí)模型(DeepGaze II)檢測視頻幀中的眼球位置,提取眼球特征點。②利用眼球特征點計算眼球的注視方向,判斷面試者是否與面試官保持良好的眼神交流。
語音識別。①使用Librosa庫讀取音頻數(shù)據(jù),進(jìn)行預(yù)處理,包括降噪、分幀、加窗等操作。②提取音頻的Mel頻譜圖、MFCC等特征。③利用預(yù)訓(xùn)練的語音識別模型(Google的Speech-to-Text API)將音頻轉(zhuǎn)換為文本,提取面試者的口頭表達(dá)內(nèi)容。
(2)LLM agent模型
利用LLM agent模型提高傳統(tǒng)動作識別的準(zhǔn)確度,實現(xiàn)多方面、立體化的多模態(tài)輸入。選擇預(yù)訓(xùn)練的大型語言模型(LLM),本研究選擇通義千問的開源模型,該模型具有強(qiáng)大的語言理解和生成能力。利用LLM agent模型的生成能力可以生成更多的訓(xùn)練數(shù)據(jù),增強(qiáng)模型的泛化能力,生成多樣化的面試場景,包括不同類型的面試問題、面試官的反饋等,將生成的面試場景應(yīng)用于系統(tǒng)中,為用戶提供更加真實和多樣化的面試訓(xùn)練環(huán)境;利用其語言理解能力可以對面試者的動作進(jìn)行深入理解,識別出動作背后的情感和意圖,對面試者的動作進(jìn)行更準(zhǔn)確的分類和評估,識別出積極、消極、中性等情感狀態(tài),生成個性化的反饋報告,指出面試者在情感表達(dá)方面的優(yōu)點和不足,并提供改進(jìn)建議。其在本系統(tǒng)中的作用如圖3所示。
4.系統(tǒng)架構(gòu)
本系統(tǒng)是一個基于多模態(tài)數(shù)據(jù)捕捉與分析技術(shù)的大學(xué)生就業(yè)面試模擬訓(xùn)練系統(tǒng),采用B/S架構(gòu),旨在通過科學(xué)、個性化的訓(xùn)練和反饋提升大學(xué)生的面試技能。系統(tǒng)主要由前端、后端和數(shù)據(jù)庫三部分組成,各部分之間的交互和數(shù)據(jù)流如下頁圖4所示。
結(jié)果與討論
1.應(yīng)用結(jié)果
(1)數(shù)據(jù)收集與預(yù)處理
目前,本研究已經(jīng)整合了筆者所在學(xué)院內(nèi)部的教學(xué)資源數(shù)據(jù)和公開數(shù)據(jù)集,使用了大小面試錄像等內(nèi)部數(shù)據(jù),以及AffectNet、Kinetics等公開數(shù)據(jù)集,并對數(shù)據(jù)進(jìn)行了去噪、格式轉(zhuǎn)換等預(yù)處理工作,確保了數(shù)據(jù)的一致性和可用性。
(2)模型訓(xùn)練與驗證
利用處理后的多模態(tài)數(shù)據(jù)訓(xùn)練了深度學(xué)習(xí)模型,該模型能夠準(zhǔn)確地識別面試者的非言語行為,并對其面試表現(xiàn)進(jìn)行評估。本項目在大模型的訓(xùn)練中將面試中常見的肢體動作概括為中性動作、指向性動作、雙臂交叉、雙手合攏、雙臂張開、未知動作六種。
在表情的訓(xùn)練中,本項目按照心理學(xué)上常用的情緒分類將面試者的情緒檢測分為憤怒、厭惡、恐懼、開心、悲傷、驚訝、中性、緊張八種。
此外,本項目還增加了對語音識別的處理及自動標(biāo)注功能,包括但不限于語義及表達(dá)情感的識別。模型訓(xùn)練采用了端到端的多模態(tài)學(xué)習(xí)框架,結(jié)合了視覺、音頻和文本數(shù)據(jù),提高了模型的綜合評估能力。具體成果如圖5所示。
(3)系統(tǒng)實現(xiàn)
本研究實現(xiàn)了面試場景模擬、自動評分、個性化建議等功能的開發(fā)。此外,系統(tǒng)在管理端還增加了訓(xùn)練數(shù)據(jù)管理和測試數(shù)據(jù)管理的功能,允許管理員上傳和管理訓(xùn)練數(shù)據(jù),確保數(shù)據(jù)的多樣性和質(zhì)量,允許用戶上傳自己的面試錄像或音頻,用于測試系統(tǒng)的評估能力。
2.系統(tǒng)功能
系統(tǒng)由前端和管理端兩大模塊組成,其具體內(nèi)容如下頁圖6所示。
①面試場景模擬。系統(tǒng)能夠根據(jù)用戶選擇的職業(yè)方向和崗位要求,模擬真實的面試環(huán)境。
②實時反饋。在模擬面試過程中,系統(tǒng)能夠?qū)崟r捕捉用戶的非言語行為(如面部表情、肢體語言)和言語行為(如語音內(nèi)容、語速、音調(diào)),并給出即時反饋。
③自動評分與報告生成。在面試結(jié)束后,系統(tǒng)將根據(jù)用戶的整體表現(xiàn)自動生成評分報告,報告中包含對面試技巧的具體評價和改進(jìn)建議。
④個性化輔導(dǎo)。基于用戶的面試報告,系統(tǒng)提供針對性的學(xué)習(xí)資料和練習(xí)建議,幫助用戶進(jìn)一步提升面試能力。
⑤訓(xùn)練數(shù)據(jù)管理。管理員可以通過用戶界面上傳和管理訓(xùn)練數(shù)據(jù),確保數(shù)據(jù)的多樣性和質(zhì)量。
⑥測試數(shù)據(jù)管理。管理員可以上傳自己的面試錄像或音頻,用于測試系統(tǒng)的評估能力。
⑦測試結(jié)果糾錯。管理員可以對系統(tǒng)的評估結(jié)果進(jìn)行人工校正,系統(tǒng)會根據(jù)這些反饋不斷優(yōu)化模型,提高評估準(zhǔn)確性。
3.用戶反饋
在系統(tǒng)開發(fā)完成后,項目組向所在高校學(xué)生投放了問卷調(diào)查清單,有97人次參與了此次問卷調(diào)查,收到了以下反饋:81%的用戶普遍認(rèn)為系統(tǒng)的模擬面試功能非常接近真實面試場景,有助于減輕實際面試時的壓力;66%的用戶認(rèn)為實時反饋和自動評分功能是非常有用的工具,能夠幫助用戶及時發(fā)現(xiàn)并改正不足之處;40%的用戶提出希望增加更多職位類型的面試場景選項。
4.結(jié)果分析
系統(tǒng)通過現(xiàn)有的多模態(tài)數(shù)據(jù)分析技術(shù),特別是在加入了語音識別和情感分析后,能夠更全面地評估用戶的面試表現(xiàn)。模型在非言語行為和言語行為的理解上都展現(xiàn)出了較高的準(zhǔn)確率,這對于提升面試官的好感度和溝通效果至關(guān)重要。目前,模型的準(zhǔn)確率已經(jīng)從65%提升到了73%左右。
結(jié)語
本研究初步證明了利用多模態(tài)數(shù)據(jù)支持下的模擬面試訓(xùn)練對提高大學(xué)生面試技能具有有效性。系統(tǒng)在以下幾個方面展現(xiàn)了創(chuàng)新性和實用性:①系統(tǒng)將視頻、音頻和文本數(shù)據(jù)進(jìn)行了多模態(tài)融合,提供了更全面的評估視角。②建立實時反饋機(jī)制,幫助用戶及時調(diào)整和改進(jìn)。③基于用戶的面試報告和自動評分報告,進(jìn)行個性化的輔導(dǎo)。④系統(tǒng)能夠根據(jù)用戶選擇的職業(yè)方向和崗位要求,模擬真實面試場景,幫助用戶提前適應(yīng)實際面試場景,從而可以有效服務(wù)當(dāng)前大學(xué)生就業(yè)困難的社會問題,為高校在就業(yè)方面的工作提供了一個智能化的教學(xué)方案。當(dāng)然,本項目在取得初步成功的同時,也仍存在一些限制,如數(shù)據(jù)量有限、模型泛化能力不夠、用戶經(jīng)驗局限、系統(tǒng)功能需進(jìn)一步驗證等。后續(xù),筆者將在數(shù)據(jù)收集、優(yōu)化模型、增加場景和職位類型、長期跟蹤研究等方面展開進(jìn)一步研究與實踐。
參考文獻(xiàn):
[1]翟雪松,許家奇,王永固.在線教育中的學(xué)習(xí)情感計算研究——基于多源數(shù)據(jù)融合視角[J].開放教育研究,2022,28(09):43-54.
[2]楊婷婷.基于視頻圖像的人臉面部表情快速識別研究[J].計算機(jī)仿真,2024,41(04):67-72.
作者簡介:陸蘇于,研究方向為智能教育技術(shù)、人工智能教育應(yīng)用、多模態(tài)數(shù)字人;王永固,通訊作者,博士,教授,研究方向為學(xué)習(xí)科學(xué)與技術(shù)、智能教育。
基金項目:2024年國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目“基于視覺大模型的大學(xué)生就業(yè)面試多模態(tài)測評與訓(xùn)練系統(tǒng)研究”(項目編號:202410337038)。