999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識增強的跨模態融合網絡的多模態對話情緒識別模型

2025-04-30 00:00:00干欣怡黃賢英鄒世豪沈旭東
計算機應用研究 2025年4期

摘 要:針對未充分利用模態表征能力的差異和說話者情緒線索的問題,提出了一種基于知識增強的跨模態融合網絡模型。該模型設計了外部知識增強的跨模態模塊,將較弱模態特征與多層次文本和外部知識逐層融合嵌入到多頭注意力層中,充分挖掘較弱模態中的有效信息,實現模態間的特征互補和一致性。此外,模型還設計了基于有向圖的情緒線索增強模塊,利用基于說話者不同情緒線索的外部知識來增強融合特征,并構建上下文信息有向圖,深入挖掘并利用說話者的情緒線索。實驗結果表明,該模型在兩個基準數據集中有效利用了模態表征能力的差異和說話者情緒線索,情緒識別效果顯著優于現有方法,驗證了模型的可行性與有效性。

關鍵詞:對話情緒識別;外部知識;數據增強;Transformer;多模態交互

中圖分類號:TP391"" 文獻標志碼:A""" 文章編號:1001-3695(2025)04-013-1065-08

doi: 10.19734/j.issn.1001-3695.2024.08.0322

KCF: knowledge-enhanced cross-modal fusion network foremotion recognition in conversation

Gan Xinyi1, Huang Xianying1, Zou Shihao2, Shen Xudong1

(1.College of Computer Science amp; Engineering, Chongqing University of Technology, Chongqing 400054, China; 2. School of Computer Science amp; Technology, Huazhong University of Science amp; Technology, Wuhan 430074, China)

Abstract:To address the underutilization of differences in modal representation capabilities and speaker emotional cues, this paper proposed a knowledge-enhanced cross-modal fusion network model. This model incorporated a cross-modal module enhanced by external knowledge, which systematically integrated weaker modal features with multi-level text and external know-ledge, embedding them into the multi-head attention layer. This approach fully extracted valuable information from the weaker modalities, ensuring feature complementarity and consistency across modalities. Additionally, the model introduced an emotion clue enhancement module based on a directed graph, which leveraged external knowledge linked to the speaker’s emotional cues to strengthen the fused features. This module also constructed a directed graph to capture contextual information, allowing for a deeper exploration and utilization of the speaker’s emotional states. Experimental results on two benchmark datasets de-monstrate that the model effectively harnesses both modal representation differences and speaker emotional cues, achieving significantly improved emotion recognition performance compared to existing methods, thereby validating the model’s feasibility and effectiveness.

Key words:emotion recognition in conversation; external knowledge; data augmentation; Transformer; multi-modality interaction

0 引言

對話情緒識別(emotion recognition in conversation,ERC)是對話系統領域的重要研究方向,在人工智能研究中占據關鍵地位。ERC通過分析說話者的語句、聲調、表情等信息,識別其情緒,幫助對話系統更深入地理解對話的內容和目的,從而提升在人機交互[1]中的用戶滿意度和體驗感。因此,ERC在社交媒體、客戶服務、心理健康等領域具有廣泛的應用,對人機交互技術的發展起到了極大的推動作用。

在ERC研究的早期階段,情緒識別主要集中于文本模態。然而,人類表達情緒的方式遠不止一種,還包括語音聲調和面部表情等多種模態。在此背景下,多模態ERC應運而生。通過綜合利用語音、圖像、文本等多源信息,更加準確全面地識別情緒,大幅提升了對話情緒識別的精度和魯棒性。

在多模態ERC中,跨模態融合成為重要的研究方向。盡管以往的研究已取得顯著進展[2,3],但在實際應用中仍存在一些不足。在多模態融合過程中,一些研究雖已經考慮到了模態間的關系,但往往未充分考慮模態的表征能力差異,通常將所有模態視為同等重要[4]。這種處理方式可能會忽略表征能力較弱的模態中潛藏的有效信息,導致這些模態的有效利用不足,從而影響整體情緒識別的準確性。此外,文獻[5]也指出,不同模態的情緒信息往往存在不一致。因此,簡單地將所有模態視為同等重要的做法會限制模型的性能,難以減少干擾并深入挖掘表征能力較弱模態中的有效信息。此外,在多模態ERC中,說話者在對話過程中發揮著關鍵作用。目前的研究未充分利用說話者的情緒線索[6],尤其是說話者自身和他人發言對情緒狀態的影響,如圖1所示,說話者所說話語的情緒狀態會受到自身和他人情緒狀態的影響。同時,現有模型在上下文建模中往往忽視了情緒線索的連貫性,導致情緒特征提取不夠全面和準確。這種處理方式可能會降低情緒預測的準確性,未能有效捕捉和增強情緒線索中的關鍵信息。

針對上述問題,提出了基于知識增強的跨模態融合網絡的對話情緒識別模型(knowledge-enhanced cross-modal fusion network for emotion recognition in conversation,KCF)。該模型為了更有效地捕捉和增強情緒線索中的關鍵信息,并挖掘表征能力較弱模態中的有效信息,設計基于外部知識增強的跨模態融合模塊。引入COMET[7]從文本中提取外部知識,并將多模態信息融合嵌入到多頭注意力層中,通過跨模態注意力機制,潛在地將較弱模態特征依次與多層次的文本特征和外部知識特征進行融合,以充分挖掘模態中的有效信息,并有助于減少跨模態融合過程的干擾,實現模態之間的特征互補和一致性,獲得更優質的多模態融合特征;為了充分利用說話者情緒線索的動態變化,并考慮外部知識對說話者所表達話語的影響,設計了基于有向圖的情緒線索增強模塊,將說話者的情緒線索細分為說話者自身的情緒線索和說話者之間的情緒線索,并對這兩類線索分別增強融合特征。通過構建基于情緒線索的上下文信息的有向圖結構,結合多頭自注意力機制,深入挖掘說話者的相關信息,以準確地捕捉說話者當前話語的情緒狀態。

簡而言之,本文的主要貢獻包括:a)在多模態融合過程中考慮到各模態的表征能力差異,設計了外部知識增強的跨模態融合模塊,實現了對較弱模態特征的深入挖掘,減少了多模態融合中的干擾,使得模態之間特征互補并保持一致性。b)創新性地設計了基于有向圖的情緒線索增強模塊來解決沒有充分考慮說話者的情緒線索,忽視了情緒線索的轉移和交互,以及它的連貫性的問題。c)提出了一種新的對話情緒識別模型KCF。KCF采用知識增強的跨模態融合網絡方法,能夠更好地對說話者所說的話語進行情緒標簽的預測,進一步提高多模態對話情緒識別的準確性。d)在兩個公共基準多模態數據集(IEMOCAP、MELD)上進行了大量的實驗。結果表明本文KCF比所有SOTA基線模型更具有效性和優越性。

1 相關工作

對話情緒識別是一種人工智能技術,旨在根據結合多源信息(文本、語音、視頻等)來識別話語的情緒,在近幾年受到廣泛的關注和研究[8,9] 。現有對ERC的研究主要包括基于上下文信息依賴、基于多模態融合和基于外部知識增強三個研究方面:

a)基于上下文信息依賴:為捕捉和理解對話中的情緒動態變化,Poria等人[10]提出BC-LSTM模型,利用LSTM網絡提取每個話語的上下文語義特征。為了進一步解決循環神經網絡在處理語境信息中的不足,DialogueGCN[11]通過建模說話者的自我依賴關系和說話者之間的依賴關系來處理上下文。然而,圖神經網絡未考慮到說話者的順序信息。為此,Shen等人[12]設計了有向無環神經網絡(directed acyclic graph-based emotion recognition in conversation,DAG-ERC),更好地編碼對話中的內在結構,從而有效地捕捉和建模每個說話者的信息。盡管DAG-ERC模型在建模順序信息上有所改進,未來的研究仍需要進一步結合情感的動態變化,特別是通過分析說話者的情緒線索來更全面地捕捉對話情感的波動。

b)基于多模態融合依賴:在多模態融合中,為了有效利用多模態和長距離上下文信息,MMGCN[2]構建基于模態內和模態間對話的圖,從而增強了模態間的依賴性和說話者之間的關系。然而,這種方法在模態間的語境理解上存在局限性。因此,MM-DFN[3]通過捕捉不同語義空間中的動態變化,減少冗余信息并增強模態間的互補性。GMGCN[13]充分考慮說話者情緒特征利用的問題,使模型學習到更合理的話語特征。此外,Li等人[14]提出了聯合模態融合和圖對比學習的多模態情緒識別模型(joint learning of contextualized representations for emotion understanding in conversations,JOYFUL),實現了全局上下文與單模態特征的深度交互。盡管已有研究在多模態融合和情感識別上取得了顯著進展,但在模態間的語境理解上仍顯不足。尤其是在有效挖掘較弱模態信息、減少特征差異方面,這可能影響模型在復雜情感狀態識別中的性能。

c)基于外部知識增強:外部知識可以為情緒識別模型提供合理的額外信息,奠定了情緒線索的基礎。這些知識主要來源于知識圖譜,如ATOMIC和ConceptNet。目前,已有多項研究嘗試將外部知識融入到情緒識別系統中。例如,KET[15]通過計算話語文本與常識知識(common sense knowledge,CSK)特征的余弦相似度及情緒強度來動態融合CSK信息,但忽略了話語中的常識關鍵詞對說話者的影響。COSMIC[16]結合不同的常識知識元素,為對話中的說話者和對話者設立了多個心理狀態GRU,以捕捉CSK對心理狀態與情緒之間復雜交互的影響,但這種基于遞歸的方法可能會導致遠距離信息的遺忘。KI-Net[17]則通過基于自注意力的模塊匹配適當的CSK,但同樣未考慮對話者的影響。這些研究未能充分重視常識關鍵詞對說話者情緒狀態的作用,從而影響了情緒狀態識別的準確性。

2 問題定義

3 KCF模型

KCF結構展示如圖2所示。它包含特征編碼模塊、基于外部知識增強的跨模態融合模塊、基于有向圖的情緒線索增強模塊和情緒分類模塊四個關鍵部分。

3.1 特征編碼

KCF模型提取的特征包括文本、語音、視頻和外部特征。其中文本、視頻和音頻特征分別通過文本模態、視頻模態和音頻模態的特征提取器得到,外部知識特征由文本模態進行相應的外部知識特征提取和上下文編碼得到。

3.1.1 文本特征編碼

為了獲得具有情緒色彩的話語表達信息,得到更豐富的模態特征,使用預訓練語言模型RoBERTa[18]對文本進行編碼提取,得到特征向量uTi。

文本語境上下文信息主要是由語言活動發生的時間、場合、地點等因素組成,文本語境上下文信息在多模態ERC中是必不可少的,特別是在全局性的對話中。然后采用雙向LSTM來捕獲對話語的文本模態向量進行上下文編碼,實現如式(1)所示。

4 實驗設置

4.1 數據集和評價指標

在IEMOCAP[21]和MELD[22]兩個基準數據集上對KCF的有效性進行了評估。

IEMOCAP:多模態ERC數據集,由南加州大學的SALL實驗室錄制收集,其中包含5個男演員和5個女演員錄制情感互動的過程。IEMOCAP中的每段對話都是來自兩位演員根據劇本所做出的表演。

MELD:數據獲取來自電視劇“Friends”中截取片段,其中提供了三大類粗粒度情感標簽以及七種細粒度情感標簽,有多方對話者進行對話。

根據文獻[2]對數據集進行劃分,IEMOCAP和MELD兩個數據集的對話和話語的詳細分布情況如表1所示,其情感標簽如表2所示。

為了全面評估模型在各類別上的分類性能以及整體表現,本文采用了加權F1分數(W-F1)和準確率(ACC)作為評價指標,分別用于衡量模型在IEMOCAP和MELD數據集上的性能。W-F1能夠反映模型在類別不平衡情況下的分類能力,而ACC則提供了模型總體正確率的直觀衡量。W-F1和ACC的計算如式(19)所示。

W-F1=∑Ra=1Ma×F1a∑Ra=1Ma, ACC=∑Ra=1Ma×Accuracya∑Ra=1Ma

(19)

其中:R表示數據集中的情感類別的總數;Ma表示第a類別中的樣本數量;F1a表示第a個情感類別的F1得分;而Accuracya表示第a個情感類別的準確率得分。這兩項指標相結合,可以更好地展示模型在不同數據集上的綜合表現。

4.2 數據預處理

在特征提取之前,對原始數據進行數據預處理,以確保原始數據干凈、一致且適合多模態輸入。具體步驟如下:a)文本預處理:將文本分解為更小單位,轉換為小寫,刪除特殊字符以減少噪音,移除停用詞并進行詞形還原,最后按句子或話語分割;b)音頻預處理:通過濾波去除噪音,標準化音頻幅度,移除非語音部分,并按話語進行分割,確保與其他模態一致;c)視頻預處理:檢測并聚焦說話者臉部,通過均勻采樣減少幀數,保留關鍵視覺信息,最后將幀標準化并與文本和音頻對齊。

通過這些預處理步驟,可以確保多模態數據的一致性和有效性,為后續特征提取和模型訓練提供可靠的基礎。

4.3 基線模型

BC-LSTM[10]:它通過雙向LSTM網絡對上下文語義信息進行編碼,但是沒有考慮話語者信息。

DialogueGCN[11]:它將GCN應用于ERC,生成的特征可以集成豐富的信息。

AGHMN[23]:AGHMN解決了用于話語特征提取的卷積神經網絡在模型中的兼容性問題,使用單向門控遞歸單元允許每個歷史話語在其之前有上下文建模,阻止相反方向的信息傳播。

KET[15]:使用層次自注意力來解釋上下文話語,并使用上下文感知的情感圖注意機制動態地利用外部常識知識。

COSMIC[16]:結合了不同的常識因素(比如心理狀態、事件和因果關系)為對話中的speaker和listener設立了多個心理狀態GRU,以此捕獲CSK作用下心理狀態與情緒之間的復雜交互,緩解當前基于RNN和GCN方法中經常存在的情感轉移檢測困難和相關情感類別之間錯誤分類等問題。

KI-Net[17]:KI-Net考慮了話語與知識的相互作用,提出了一個知識交互網絡與情緒極性強度感知的多任務學習,利用常識知識和情感詞典來增強語義信息。

MMDFN[3]:MMDFN提出在單峰和跨模態交互聚合多模態信息的過程中,每一層都有積累冗余信息,限制模態之間的上下文理解的問題。設計了模型捕獲不同語義空間中的上下文信息動態來減少冗余并增強模態之間的互補性。

RBA-GCN[5]:RBA-GCN解決了傳統GCN聚合方法導致的節點信息冗余問題,以及單層GCN在圖中捕獲長距離上下文信息不足的問題。

JOYFUL[14]:JOYFUL解決了現有基于圖的方法不能同時描述對話中的全局上下文特征和局部多樣的單模態特征,以及隨著圖層數的增加,容易陷入過平滑的問題。

GraphMTF[24]:提出基于圖網絡的多模態融合技術來降低多模態融合的難度,使用vanilla 圖注意力網絡來解決圖神經網絡過平滑問題。

4.4 實驗細節

KCF模型在PyTorch框架上實施。超參數設置如下:IEMOCAP和MELD中的dropout都為0.2。IEMOCAP中的學習率設置為0.000 1,MELD中設置為0.000 3。batch_size在IEMOCAP和MELD中都為16。在CMA的注意力頭數量為3,CSMA的注意力頭數量為5,在MHSA中設置heads數量為6。每個訓練和測試過程都在單個RTX 3090 GPU上運行,實現模型的報告都是基于測試集上5次隨機運行的平均分數。

5 結果與分析

首先,將KCF與所有基線模型作對比實驗。其次,對KCF上不同設置的影響(比如模態組合、關鍵參數等)進行了討論。最后,通過案例研究分析模型處理問題的能力。

5.1 與其他基線模型比較

結合表3和4比較兩個數據集的基準方法與KCF方法的結果。實驗結果表明,KCF的效果明顯優于所有的實驗基線方法。可以發現:

a)從總體效果而言,KCF在效果上相比基線模型的SOTA方法有顯著改進。在IEMOCAP數據集上,KCF的W-F1值達到了73.69%,比最優的基線RBA-GCN高出2.26百分點。此外,在MELD數據集上,KCF的W-F1值為64.32%,超越最佳基線COSMIC,進一步驗證了KCF的有效性。

b)與僅使用文本模態的基線模型相比,KCF在兩個數據集上的表現均優于這些模型。這表明提出的方法能夠有效從非文本模態中獲得有用信息,從而提升ERC的性能。

c)與基于外部知識的基線模型相比,KCF在IEMOCAP數據集上的性能有顯著提升。然而,在MELD數據集上,雖然KCF優于COSMIC,但其準確率仍然低于后者。這可能是因為在MELD數據集中,簡短對話中多位說話者復雜且模糊的上下文限制了KCF有效捕捉關鍵信息的能力。總體而言,KCF表現優于其他模型,這也表明本文模型在跨模態融合和說話者上下文建模中具有優勢。

d)與基于多模態的基線模型相比,KCF表現出顯著優勢。在IEMOCAP數據集上,KCF的W-F1值比基線中表現最好的RBA-GCN高出2.26百分點。在MELD數據集,KCF的W-F1值則超出1.65百分點。這表明本文模型充分挖掘了表征能力較弱模態中的有效信息,并有效利用這些信息,減少了融合過程中的干擾。同時,這也表明通過有效利用說話者的情緒線索,模型能夠更準確地識別情緒,從而提升情緒預測的效果。

e)KCF的總體效果優于基于話語者信息的JOYFUL。證明將對話中的話語信息進行充分利用的必要性。考慮到實際應用場景下的對話中情緒變化的原因,一方面是由于自身的情緒狀態會影響到話語的情緒狀態,另一方面是來自說話者他人所說話語影響到話語的情緒狀態。因此,提取并有效利用說話者自身及他人相關的情緒線索是準確識別情緒并提升情緒預測效果的關鍵。

5.2 KCF的情緒標簽比較

KCF在IEMOCAP和MELD數據集上的實驗結果如表3、4和混淆矩陣圖4所示,它們更清楚地說明了KCF的有效性。

在IEMOCAP數據集中,KCF的情緒標簽與其他基線比較時,除了happy之外,其余情緒標簽均表現出色。這表明本文模型在基于說話者的情緒線索和挖掘較弱模態有效特征方面取得了成功,有效提高了情緒標簽的識別性能。然而,happy情緒標簽的效果未能超過基線中的RBA-GCN,這主要是因為RGB-GCN在利用相似性度量過濾冗余信息方面表現突出,從而更好地區分相似的情緒標簽。結合圖4(a),可以看到happy和excited之間的相似性,這可能導致它們被誤分類。為了解決這一問題,筆者將在后續研究中重點關注并進一步區分這些相似樣本,以提升happy情緒標簽的識別性能。

在MELD數據集中,KCF的情緒標簽與其他基線比較時,surprise、fear、joy和disgust的性能明顯優于其他標簽。這一表現主要歸功于KCF構建的基于有向圖的說話者情緒線索增強模塊,該模塊有效結合了上下文建模、說話者的動態情緒轉移和連貫性,從而提升了情緒標簽的識別能力,尤其在少樣本標簽fear和disgust上表現出顯著優勢。然而,neutral、sadness和angry情緒標簽的性能在基線中并不突出,可能是由于MELD數據集中存在多人對話且話語較短,使得情緒推理時容易出現錯誤,此外樣本數量不均衡也限制了模型在這些標簽上的表現。在后續工作中,筆者將更加關注除說話者之外的其他潛在因素,以實現對話語情緒狀態的更精準分析。

5.3 不同模態組合方式

不同模態的組合方式對本文模型的影響如表5所示。正如預期那樣,在語音和視頻的單模態情況下,文本模態的輸入使得性能明顯增加。比如在IEMOCAP數據集里,在單峰模態中,僅文本情緒特征的W-F1是68.35%,僅語音情緒特征的W-F1是47.26%,僅視頻情感特征的W-F1是39.75%。當引入文本模態之后,基于語音和文本的情緒特征值增加了2258百分點,基于視頻和文本的情感特征值增加了2856百分點。可見文本在整個對話過程中有著重要的地位,得到文本模態的表征能力要比視頻和音頻的表征能力強。同時對比視頻和音頻的單峰模態,可看出音頻模態攜帶信息能力要大于視頻模態,故而可推斷視頻模態的數據存在的噪聲要多于音頻模態。在單峰模態和雙峰模態以及三峰模態中,明顯發現三峰模態的效果是最好的,如圖5所示。在IEMOCAP數據集效果達到73.69%的F1得分,在MELD數據集效果達到64.32%的F1得分。

5.4 消融實驗

為研究KCF模型中主要模塊的作用,對兩個數據集進行了消融研究。表6顯示消融結果,“-w/o”表示沒有特定模塊的模型性能。考慮以下設置:

a)-w/o CMA:移除基于跨模態交互模塊。

b)-w/o CSMA:移除基于外部知識增強的多模態交互模塊。

c)-w/o CMA amp; CSMA:移除基于外部知識的跨模態融合模塊。

d)-w/o CE:移除基于說話者的情緒線索圖結構模塊。

e)-w/o CMA amp; CSMA amp; CE:移除多模態融合模塊和基于說話者的情緒線索圖模塊。

表6顯示了消融實驗的結果,可以得到:

a)刪除任何一個模塊時,KCF性能都會下降,這表明設計的每一個部分都是必不可少的。

b)移除基于跨模態交互模塊會導致表征能力較弱的模態無法充分挖掘有效特征,同時各模態之間無法有效學習其他模態的特征,信息難以貫通,進而缺乏一致性和互補性,最終導致ERC的性能不佳。

c)基于外部知識增強的多模態交互模塊是在跨模態交互模塊的基礎上發展而來的,其目的是通過引入外部知識來進一步挖掘表征能力較弱的模態中的有效特征,減緩模態之間的信息差異性,并減少跨模態融合過程中的干擾。如果移除該模塊,情緒識別的性能將會降低。

d)在沒有基于外部知識的跨模態融合模塊下,表征能力較弱模態(A\V)的有效信息無法被深入挖掘,同時各模態之間無法有效交互并學習其他模態的特征,導致多模態交互中存在干擾性和有效特征遺漏的問題。這使得無法充分從數據中提取互補和同步信息,從而影響情緒預測的效果。因此,設計CSMA模塊可以充分發揮表征能力較弱模態的優勢,并利用外部知識特征增強其情感特征,從而提高情緒預測的準確性。

e)移除基于說話者的情緒線索圖模塊,導致兩個數據集都出現了性能下降。這是因為兩個數據集都是兩人及以上的對話,所以說話者在其過程中扮演重要的角色,捕獲對話中話語者的情緒線索就顯得尤為重要。由于MELD的數據集是多方說話者的對話,雖然根據說話者的情緒線索構建了上下文有向圖,保證情緒線索的連貫性,利用了說話者本身和說話者之間的關系,但忽略挖掘每個話語者的獨立信息,所以導致CE模塊在MELD上的效果不如IEMOCAP上的明顯。

5.5 參數敏感性實驗

CMA、CSMA和MHSA的注意力機制頭數量在兩個數據集上的選取是需要結合模型的具體需求、計算資源限制以及實際實驗結果來決定的。

在KCF模型中,在CMA、CSMA和MHSA模塊中使用不同數量的頭,觀察相應的W-F1分數,如圖6所示,可以觀察到當CMA_head=3、CSMA_head=5和MHSA_head=6時,本文模型在兩個數據集上獲得更好的效果。更多的注意力頭允許模型從多個不同的角度來捕捉上下文信息,因為每個頭關注輸入的不同部分或特征,能夠提升模型的表現,但計算和內存開銷也會增加。頭的數量較少,每個頭處理的信息量增多,可能會捕捉到更全局的上下文,但可能在特定任務上表達能力有限。因此選擇合適的參數對模型的效果會有很好的提升。

5.6 案例研究

在該節中,對MELD數據集的典型對話進行情緒預測。由于MELD數據集的話語涉及多方說話者,且每個對話的平均話語數量少于IEMOCAP數據集,所以MELD數據集中的情緒識別任務更加具有挑戰性。在圖7中,展示了MELD數據集中的一個包含10個話語的對話示例,其中涉及5個說話者,并展示了說話者的情緒線索轉移情況。這意味著某些說話者在兩個連續話語中的情緒狀態發生了變化。在多個說話者參與、上下文信息較少且情緒狀態頻繁變化的情況下,ERC任務的執行變得更加困難。

該對話圍繞著喬伊和他的朋友們玩比牌大小游戲展開。觀察到當蕾切爾拿到一張Q牌時,她表現得非常激動,但隨著喬伊拿到了一張K牌,大家的情緒也隨之發生了相應的變化。模型利用基于有向圖的情緒線索增強模塊,成功捕捉了說話者在上下文中情緒線索的變化。例如,喬伊在不同回合中的情緒變化得以被模型準確識別。同時,通過融合文本、語音和視覺特征,模型有效整合了各模態的情緒信息,尤其是在情緒強度顯著變化時,如蕾切爾的激動情緒表現。然而,模型仍存在一些局限性。情緒變化不僅受對話內容影響,還受到其他潛在變量(如對話主題、話題轉移、對話歷史等)的影響,但目前模型尚未充分考慮這些因素,這可能導致在復雜情境下的情緒識別不夠準確。同時,由于話語較短,情緒預測任務變得更加具有挑戰性。

6 結束語

本文針對對話情緒識別,提出了基于外部知識增強的跨模態融合網絡模型KCF。KCF通過引入外部知識增強的多模態融合模塊,將文本、音頻、視頻等模態特征與外部知識逐層融合,這有助于充分挖掘弱模態中的有效信息,減少噪聲的干擾。這種方法特別適合處理模態特征較弱或不完整的對話場景,如音頻或視頻質量較低的情況下,文本和外部知識起到補充作用;通過多頭注意力機制,KCF確保模態之間的特征互補和一致性。多模態信息在情緒識別中存在冗余或沖突,但KCF的設計使得各模態在融合時互為補充,減少了沖突和信息缺失。這在現實應用中能夠提高模型對不同數據質量的魯棒性;通過設計有向圖,不僅增強了不同說話者情緒線索的連貫性,還利用外部知識提取隱藏的情緒線索,確保模型在上下文變化時能夠保持準確的情緒理解。這種設計在長對話中尤為有效,能夠捕捉跨句子、跨說話者的情緒變化。

在實際應用中,KCF能夠處理多模態輸入中數據質量不均的情況,尤其在音頻或視頻數據不完整時,通過緊密結合外部知識和文本,增強情緒識別能力。在復雜且變化頻繁的對話場景(如客服或心理咨詢)中,KCF可根據上下文和說話者情緒線索調整預測,實現更精準的情緒識別。在情緒檢測聊天機器人或智能客服系統中,KCF的準確性提升能有效減少誤判,提高用戶體驗和系統響應能力。

在未來的工作中,應重點探討如何有效利用模態差異性及其復雜關系,以提供更優的融合方法,并深入探索情緒產生的原因,結合對話主題和情緒標簽信息,減少信息錯誤傳播,而提高情緒識別的準確性和可靠性。

參考文獻:

[1]Poria S, Majumder N, Mihalcea R,et al. Emotion recognition in conversation: research challenges, datasets, and recent advances [J]. IEEE Access, 2019, 7: 100943-100953.

[2]Hu Jingwen, Liu Yuchen, Zhao Jinming,et al. MMGCN: multimodal fusion via deep graph convolution network for emotion recognition in conversation[C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, CA:ACL, 2021: 5666-5675.

[3]Hu Dou, Hou Xiaolong, Wei Lingwei,et al. MM-DFN: multimodal dynamic fusion network for emotion recognition in conversations[C]// Proc of International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ:IEEE Press, 2022: 7037-7041.

[4]Hazarika D, Zimmermann R, Poria S. MISA: modality-invariant and-specific representations for multimodal sentiment analysis[C]// Proc of the 28th ACM International Conference on Multimedia. New York:ACM Press, 2020: 1122-1131.

[5]Yuan Lin, Huang Guoheng, Li Fenghuan,et al. RBA-GCN: relatio-nal bilevel aggregation graph convolutional network for emotion recognition [J]. IEEE/ACM Trans on Audio, Speech, and Language Processing, 2023, 31: 2325-2337.

[6]López-Cózar R, Silovsky J, Kroul M. Enhancement of emotion detection in spoken dialogue systems by combining several information sources [J]. Speech Communication, 2011, 53(9-10): 1210-1228.

[7]Bosselut A, Rashkin H, Sap M,et al. COMET: commonsense Transformers for automatic knowledge graph construction [EB/OL]. (2019-06-14) . https://arxiv. org/abs/1906. 05317.

[8]Tashu T M, Hajiyeva S, Horvath T. Multimodal emotion recognition from art using sequential co-attention [J]. Journal of Imaging, 2021, 7(8): 157.

[9]沈旭東, 黃賢英, 鄒世豪. 基于時序感知DAG的多模態對話情緒識別模型 [J]. 計算機應用研究, 2024, 41(1): 51-58. (Shen Xudong, Huang Xianying, Zou Shihao. Multi-modal temporal-aware DAG for emotion recognition in conversation [J]. Application Research of Computers, 2024, 41(1): 51-58. )

[10]Poria S, Cambria E, Hazarika D,et al. Context-dependent sentiment analysis in user-generated videos[C]// Proc of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, CA:ACL, 2017: 873-883.

[11]Ghosal D, Majumder N, Poria S,et al. DialogueGCN: a graph convolutional neural network for emotion recognition in conversation[C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, CA:ACL, 2019: 154-164.

[12]Shen Weizhou, Wu Siyue, Yang Yunyi,et al. Directed acyclic graph network for conversational emotion recognition[C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Proces-sing. Stroudsburg, CA:ACL, 2021: 1551-1560.

[13]譚曉聰, 郭軍軍, 線巖團, 等. 基于一致性圖卷積模型的多模態對話情緒識別 [J]. 計算機應用研究, 2023, 40(10): 3100-3106. (Tan Xiaocong, Guo Junjun, Xian Yantuan, et al. Consistency based graph convolution network for multimodal emotion recognition in conversation [J]. Application Research of Computers, 2023, 40(10): 3100-3106. )

[14]Li Dongyuan, Wang Yusong, Funakoshi K,et al. JOYFUL: joint modality fusion and graph contrastive learning for multimodal emotion recognition [EB/OL]. (2023-11-18) . https://arxiv. org/abs/2311. 11009.

[15]Zhong Peixiang, Wang Di, Miao Chunyan. Knowledge-enriched Transformer for emotion detection in textual conversations [EB/OL]. (2019-10-01) . https://arxiv. org/abs/1909. 10681.

[16]Ghosal D, Majumder N, Gelbukh A,et al. COSMIC: commonsense knowledge for emotion identification in conversations[C]//Proc of Findings of the Association for Computational Linguistic: EMNLP. 2020: 2470-2481.

[17]Xie Yunhe, Yang Kailai, Sun Chengjie,et al. Knowledge-interactive network with sentiment polarity intensity-aware multi-task learning for emotion recognition in conversations[C]//Proc of Findings of the Association for Computational Linguistics: EMNLP. Stroudsburg, CA:ACL, 2021: 2879-2889.

[18]Liu Yinhan, Ott M, Goyal N,et al. RoBERTa: a robustly optimized BERT pretraining approach [EB/OL]. (2019-07-26) . https://arxiv. org/abs/1907. 11692.

[19]Eyben F, Wllmer M, Schuller B. OpenSMILE: the Munich versatile and fast open-source audio feature extractor[C]// Proc of the 18th ACM International Conference on Multimedia. New York:ACM Press, 2010: 1459-1462.

[20]Huang Gao, Liu Zhuang, Van Der Maaten L,et al. Densely connec-ted convolutional networks[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 4700-4708.

[21]Busso C, Bulut M, Lee C C,et al. IEMOCAP: interactive emotional dyadic motion capture database [J]. Language Resources and Evaluation, 2008, 42: 335-359.

[22]Poria S, Hazarika D, Majumder N,et al. Meld: a multimodal multi-party dataset for emotion recognition in conversations [EB/OL]. (2019-06-04) . https://arxiv. org/abs/1810. 02508.

[23]Jiao Wenxiang, Lyu M, King I. Real-time emotion recognition via attention gated hierarchical memory network[C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto, CA: AAAI Press,2020: 8002-8009.

[24]Li Jiang, Wang Xiaoping, Lyu Guoqing,et al. GraphMFT: a graph network based multimodal fusion technique for emotion recognition in conversation [J]. Neurocomputing, 2023, 550: 12642.

主站蜘蛛池模板: 国产情侣一区二区三区| 波多野结衣在线一区二区| 国产视频 第一页| 亚洲人成高清| 国产精品久线在线观看| 国产麻豆永久视频| 99久久性生片| 天天躁夜夜躁狠狠躁躁88| 国产一级精品毛片基地| 尤物精品国产福利网站| 日韩精品无码不卡无码| 一级不卡毛片| 欧美精品影院| 亚洲AⅤ无码日韩AV无码网站| 国产丝袜第一页| 91香蕉视频下载网站| 久青草国产高清在线视频| 性激烈欧美三级在线播放| 男人的天堂久久精品激情| 精品小视频在线观看| 日本免费a视频| 一本大道东京热无码av| 国产精品视频猛进猛出| 91久久夜色精品国产网站| 午夜精品福利影院| 蜜桃视频一区二区三区| 国产精品嫩草影院av| 狠狠色综合网| 亚洲日韩在线满18点击进入| 最新精品国偷自产在线| 国产精品尤物在线| 99精品伊人久久久大香线蕉| 亚洲成人高清无码| 成年免费在线观看| 少妇精品在线| 日韩在线中文| 黄色国产在线| 1级黄色毛片| 欧美自慰一级看片免费| 国产精品无码久久久久久| 免费人成在线观看成人片| 日韩人妻少妇一区二区| 国产精品jizz在线观看软件| 嫩草影院在线观看精品视频| 99re这里只有国产中文精品国产精品 | 欧美不卡二区| 综合色在线| 99久久精品国产精品亚洲| 性做久久久久久久免费看| 欧美激情一区二区三区成人| 国产精选自拍| 国产午夜无码专区喷水| 激情五月婷婷综合网| 99久久成人国产精品免费| 国产日本视频91| 国产精品99久久久久久董美香| 最新精品久久精品| 国产97区一区二区三区无码| 永久在线播放| 免费激情网址| 欧美特黄一级大黄录像| 97成人在线视频| 日韩精品一区二区深田咏美| 天天综合网色中文字幕| 一本一本大道香蕉久在线播放| 成人va亚洲va欧美天堂| 国产又色又刺激高潮免费看| 高清亚洲欧美在线看| 又污又黄又无遮挡网站| 1级黄色毛片| 日韩精品成人在线| 精品一区二区三区中文字幕| 亚洲国产精品人久久电影| 无码AV日韩一二三区| 久久综合色88| 99国产精品免费观看视频| 亚洲三级影院| 找国产毛片看| 免费一看一级毛片| 亚洲精品国产首次亮相| 国产又黄又硬又粗| 亚州AV秘 一区二区三区|