時(shí)空變化注意力機(jī)制圖神經(jīng)網(wǎng)絡(luò)的音頻事件分類研究

2025-09-28 00:00:00張墨華劉霽

現(xiàn)代信息科技 2025年16期

中圖分類號(hào)：TP18文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：2096-4706（2025）16-0057-07

Research on Audio Event Classification Based on Graph Neural Network with Spatio-Temporal Variation Attention Mechanism

ZHANG Mohua，LIU Ji （School ofComputerandInformation Enginering，Henan Universityof EconomicsandLaw，Zhengzhou45o046，China）

Abstract：Audio event classification faces challenges in complex scenarios，andthe existing methods strugle to capture temporalrelationshpseffectively.Toaddressthis，thispaperproposesaSpati-TmporalVariationAtentionbasedGraphNeural Network （STVA-GNN）， which models audio-visual segments as sequential graph nodes and leverages a Negative Attention Mechanism to compute spatiotemporal variationfeatures betweenadjacent nodes，enhancing intra-modal andcross-modal dynamic information interactions.Thecore inovations include thata Contextual Information Compensation Module （CICM） capturesspatiotemporalevolutionpaterns，andaCross-Modal Gaph Variation IncentiveModule（CMGVI）enhancesaudionode weightsusingvideo-modalspatiotemporalvariations fordepfusion.ExperimentalresultsontheAudioSetdatasetdemonstrate that STVA-GNNachieves mAPandAUC scores of 0.56and0.94respectively，outperforming mainstream methods.Additionaly it maintains a significant advantage in noisy environments，verifying itsrobustness.

Keywords：audioeventclasification;Spatio-TemporalVariationAtentionMechanism;Temporal GraphNeuralNetwork; change information compensation;cross-modal information fusion

0 引言

音頻信號(hào)是現(xiàn)實(shí)世界信息傳遞的關(guān)鍵載體，尤其在人工智能領(lǐng)域中，音頻事件分析已成為研究的前沿?zé)狳c(diǎn)。然而，現(xiàn)實(shí)場(chǎng)景中的音頻事件常常受到環(huán)境噪聲的干擾，增加了識(shí)別與分析的難度。研究表明，視覺(jué)信息能有效增強(qiáng)音頻事件的感知與認(rèn)知[1-2]。相較于傳統(tǒng)的單模態(tài)音頻學(xué)習(xí)方法，音頻-視覺(jué)多模態(tài)分析方法[-4通過(guò)深度融合音頻與視覺(jué)數(shù)據(jù)，展現(xiàn)出顯著優(yōu)勢(shì)，因此受到廣泛關(guān)注。當(dāng)前主流方法采用分別訓(xùn)練視覺(jué)與聽(tīng)覺(jué)模態(tài)特征表示，隨后通過(guò)特征融合策略（如注意力機(jī)制）或特定損失函數(shù)（如對(duì)比損失、互信息最大化損失等）實(shí)現(xiàn)跨模態(tài)信息整合[5]。

目前的音頻事件分析多模態(tài)圖神經(jīng)網(wǎng)絡(luò)研究多采用時(shí)序圖學(xué)習(xí)方法進(jìn)行交互建模，通過(guò)聚合歷史鄰域信息實(shí)現(xiàn)特征提取。然而，現(xiàn)有方法僅關(guān)注節(jié)點(diǎn)時(shí)間維度的時(shí)序關(guān)系，忽視了節(jié)點(diǎn)信息的動(dòng)態(tài)演變特征。本研究創(chuàng)新性地提出了一種基于時(shí)空變化注意力機(jī)制的多模態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)模型STVA-GNN（Spatio-Temporal VariationAttention based GraphNeuralNetwork）。該模型通過(guò)引入時(shí)空變化注意力模塊、優(yōu)化跨模態(tài)融合策略和設(shè)計(jì)高效網(wǎng)絡(luò)架構(gòu)，顯著提升了音頻事件分類性能。本文的主要貢獻(xiàn)包括：

1）時(shí)空變化注意力模塊的構(gòu)建與優(yōu)化。設(shè)計(jì)了一種新穎的時(shí)空變化注意力模塊，通過(guò)計(jì)算相鄰節(jié)點(diǎn)的時(shí)空動(dòng)態(tài)關(guān)系，生成自適應(yīng)權(quán)重調(diào)制系數(shù)，有效激活與時(shí)空變化相關(guān)的關(guān)鍵信息，提升模型的分類能力。

2）跨模態(tài)信息融合機(jī)制的創(chuàng)新。提出了一種基于時(shí)空變化信息傳遞的融合策略。STVA-GNN通過(guò)壓縮視頻模態(tài)節(jié)點(diǎn)的空間變化信息并與音頻節(jié)點(diǎn)加權(quán)融合，實(shí)現(xiàn)跨模態(tài)信息的有效整合。

3）高效網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化設(shè)計(jì)。采用高步長(zhǎng)隨機(jī)裁剪技術(shù)與長(zhǎng)程路徑單層結(jié)構(gòu)擴(kuò)展感受野，優(yōu)化節(jié)點(diǎn)聚合自適應(yīng)模塊，提高訓(xùn)練效率和分類性能。

4）實(shí)驗(yàn)驗(yàn)證與性能評(píng)估。在廣泛認(rèn)可的AudioSet數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，結(jié)果表明STVA-GNN在多個(gè)評(píng)價(jià)指標(biāo)上超越現(xiàn)有先進(jìn)方法，尤其在復(fù)雜場(chǎng)景中的音頻事件分類任務(wù)中表現(xiàn)突出。消融實(shí)驗(yàn)進(jìn)一步證實(shí)時(shí)空變化注意力模塊和跨模態(tài)融合策略的貢獻(xiàn)。

1 相關(guān)工作

1.1 音頻事件分類

音頻事件分類作為音頻信號(hào)處理領(lǐng)域的關(guān)鍵任務(wù)，在音頻內(nèi)容理解與分析中扮演著重要角色。根據(jù)模型在訓(xùn)練和推理過(guò)程中所利用的數(shù)據(jù)模態(tài)數(shù)量，現(xiàn)有方法主要可分為單模態(tài)和多模態(tài)兩大類。單模態(tài)模型僅利用音頻信號(hào)進(jìn)行特征提取和分類，而多模態(tài)模型則通過(guò)整合視覺(jué)信息或文本描述等額外數(shù)據(jù)源來(lái)提升分類性能。

1.1.1 單模態(tài)音頻學(xué)習(xí)方法

早期音頻事件分類主要依賴機(jī)器學(xué)習(xí)方法：如隨機(jī)森林（RF）、支持向量機(jī)（SVM）和高斯混合模型（GMM）等方法通過(guò)對(duì)音頻特征的直接進(jìn)行識(shí)別[]。

隨著深度學(xué)習(xí)技術(shù)的發(fā)展，研究者提出了多種先進(jìn)的單模態(tài)模型：模型Spectrogram-VGG[通過(guò)將音頻轉(zhuǎn)換為聲譜圖并輸入VGG網(wǎng)絡(luò)進(jìn)行分類；模型DaiNet采用一維卷積直接在原始音頻波形上進(jìn)行處理；模型 R （ 2+1 ） D^[9] 基于CNN架構(gòu)，專注于提取音頻的時(shí)序特征；模型Wave-Logmel[同時(shí)利用音頻波形和Logmel語(yǔ)譜圖作為CNN的輸入；模型AST[]將梅爾頻譜圖輸入Transformer進(jìn)行特征學(xué)習(xí)；模型 PaSST-S^[12] 則專注于優(yōu)化和正則化音頻頻譜圖上的Transformer性能。這些深度學(xué)習(xí)方法能夠自動(dòng)學(xué)習(xí)音頻數(shù)據(jù)中的抽象特征表示，顯著提升了分類性能這些方法提升了分類性能，但仍局限于單一模態(tài)，難以在復(fù)雜場(chǎng)景下充分利用多模態(tài)信息，為多模態(tài)學(xué)習(xí)提供了發(fā)展契機(jī)。

1.1. 2 多模態(tài)視聽(tīng)學(xué)習(xí)方法

多模態(tài)學(xué)習(xí)在視聽(tīng)領(lǐng)域展現(xiàn)出巨大潛力，研究者致力于通過(guò)整合多感官信息來(lái)增強(qiáng)聲學(xué)數(shù)據(jù)的解析能力[2，13]。跨模態(tài)師生方法通過(guò)動(dòng)態(tài)關(guān)系學(xué)習(xí)實(shí)現(xiàn)視覺(jué)和音頻信號(hào)的交互，有效增強(qiáng)了特征嵌入[14]。自監(jiān)督學(xué)習(xí)策略的引入為視聽(tīng)學(xué)習(xí)提供了新思路，通過(guò)設(shè)計(jì)前置任務(wù)預(yù)測(cè)視覺(jué)和音頻信息的共同來(lái)源，降低了對(duì)標(biāo)注數(shù)據(jù)的依賴[15-16]。近期研究提出的跨模態(tài)聚類技術(shù)（如演變損失方法[）在學(xué)習(xí)有效特征表示方面展現(xiàn)出顯著優(yōu)勢(shì)。但依然缺少對(duì)模態(tài)本身特性的探究。

1.2基于圖的多模態(tài)學(xué)習(xí)方法

基于圖的方法憑借其捕捉數(shù)據(jù)間復(fù)雜交互關(guān)系的優(yōu)勢(shì)，已成為多模態(tài)學(xué)習(xí)的重要范式。圖神經(jīng)網(wǎng)絡(luò)通過(guò)節(jié)點(diǎn)與邊的抽象表示，為視聽(tīng)信息的深度融合提供了新途徑。

模型VAED利用異質(zhì)圖建模圖像和音頻信息的關(guān)系，通過(guò)不同類型節(jié)點(diǎn)和邊的構(gòu)建實(shí)現(xiàn)跨模態(tài)消息傳遞；模型SSLgraph[19將音頻信號(hào)轉(zhuǎn)換為圖結(jié)構(gòu)，基于特征相似度定義節(jié)點(diǎn)間關(guān)系；模型 HGCN^[20] 在VAED基礎(chǔ)上進(jìn)一步發(fā)展，針對(duì)不同模態(tài)特性設(shè)計(jì)專門(mén)的學(xué)習(xí)策略；模型TMAC[21]采用時(shí)序圖提取特征，重點(diǎn)研究視聽(tīng)模態(tài)的時(shí)間關(guān)聯(lián)；模型SSLgraph[1]提出自注意力監(jiān)督模型，有效解決了標(biāo)簽依賴、泛化能力和魯棒性等問(wèn)題。

盡管基于圖的方法在處理視聽(tīng)數(shù)據(jù)時(shí)展現(xiàn)出獨(dú)特優(yōu)勢(shì)，但現(xiàn)有研究對(duì)時(shí)空特征的挖掘仍不夠深入，視頻和音頻模態(tài)間的信息傳遞機(jī)制還有待進(jìn)一步探索。這為本文的研究提供了重要的創(chuàng)新方向。

2 STVA-GNN模型

本文提出了一種基于時(shí)空變化注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)模型（STVA-GNN），旨在通過(guò)提取音頻和視頻模態(tài)中的時(shí)空變化信息，實(shí)現(xiàn)對(duì)聲音事件的精確分類。模型的輸入為獨(dú)立的視聽(tīng)事件，輸出為事件的分類結(jié)果。STVA-GNN的核心思想是通過(guò)構(gòu)建時(shí)序圖結(jié)構(gòu)，捕捉音頻和視頻模態(tài)中的動(dòng)態(tài)變化信息，并通過(guò)圖神經(jīng)網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)嵌入的學(xué)習(xí)和聚合，最終生成全局表示以完成分類任務(wù)。本節(jié)將詳細(xì)介紹模型的圖構(gòu)建過(guò)程、總體框架以及關(guān)鍵模塊的設(shè)計(jì)。

2.1 時(shí)序圖構(gòu)建過(guò)程

為了將聲音事件轉(zhuǎn)化為圖結(jié)構(gòu)，首先定義了時(shí)序圖和多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)的基本概念。

2. 1.1 時(shí)序圖

時(shí)序圖 G=（V，E，T，X），其中 V 表示節(jié)點(diǎn)集合， E 表示邊集合， T 表示與每個(gè)交互相關(guān)的時(shí)間戳集合， X 則表示節(jié)點(diǎn)特征的集合。與傳統(tǒng)圖不同，兩節(jié)點(diǎn)間允許多次時(shí)序交互。如果節(jié)點(diǎn) x 和 y 之間存在一條邊，則意味著它們至少交互過(guò)一次，即：T_x，y={（x，y，t₁），（x，y，t₂），…，（x，y，t_n）}_c

2.1.2視音多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)

視音多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)（Visual-audioMultimodal Temporal Graph Neural Networks）如圖1所示，將視聽(tīng)事件分割為視頻和音頻片段，構(gòu)建多模態(tài)圖神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)由音頻、視頻節(jié)點(diǎn)和模態(tài)內(nèi)、模態(tài)間邊組成。節(jié)點(diǎn)信息基于固定時(shí)間步長(zhǎng)預(yù)處理數(shù)據(jù)構(gòu)建。設(shè)計(jì)視頻、音頻、跨模態(tài)三種鄰接矩陣，分別表示不同節(jié)點(diǎn)連接關(guān)系。

圖1構(gòu)建STVA-GNN過(guò)程圖

其中黑色節(jié)點(diǎn)表示 ?Z_i^ν ，灰色色節(jié)點(diǎn)表示 ?Z_i^a ，具有相同的時(shí)間戳通過(guò)模態(tài)間鄰接矩陣 A_c 連接。

網(wǎng)絡(luò)構(gòu)建中，視頻、音頻節(jié)點(diǎn)嵌入表示為 Z_i^a 和Z_i^a ，節(jié)點(diǎn)攜帶對(duì)應(yīng)片段時(shí)間戳信息。同一模態(tài)內(nèi)節(jié)點(diǎn)邊依時(shí)間戳順序確定，不同模態(tài)節(jié)點(diǎn)僅時(shí)間戳相同時(shí)才有邊。構(gòu)建模態(tài)內(nèi)圖神經(jīng)網(wǎng)絡(luò)時(shí)，關(guān)注每個(gè)節(jié)點(diǎn)最近 N 個(gè)鄰居節(jié)點(diǎn)。先連接前后 N 個(gè)隨機(jī)節(jié)點(diǎn)形成邊，再借鑒Dropout思想隨機(jī)斷開(kāi)部分邊，防止模型過(guò)度依賴特定連接，避免信息過(guò)載。 N 表示超參數(shù)，代表節(jié)點(diǎn)時(shí)間維度感受野大小，在實(shí)驗(yàn)部分對(duì)其進(jìn)行詳細(xì)的討論并優(yōu)化以確定最佳參數(shù)。

通過(guò)這種方式，視音多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)不僅能夠有效地捕捉視頻和音頻數(shù)據(jù)中的時(shí)序關(guān)系，還能夠?qū)W習(xí)到模態(tài)間的相互作用，從而在音頻事件分析等任務(wù)中展現(xiàn)出優(yōu)異的性能。

2.2時(shí)空變化信息補(bǔ)償模塊

在當(dāng)前的多模態(tài)音頻事件分類研究中，音頻和視頻信息中隨時(shí)間和空間維度變化的高階特征尚未得到足夠的重視和深入挖掘。為此，本文提出變化信息補(bǔ)償模塊（CICM），并設(shè)計(jì)了時(shí)空變化信息注意力機(jī)制。CICM通過(guò)學(xué)習(xí)相鄰節(jié)點(diǎn)的映射矩陣來(lái)捕捉單模態(tài)內(nèi)的表征關(guān)系，同時(shí)通過(guò)計(jì)算映射矩陣的差異作為時(shí)空變化信息，進(jìn)而更新圖神經(jīng)網(wǎng)絡(luò)的邊權(quán)重。通過(guò)這種方式，網(wǎng)絡(luò)能夠同時(shí)學(xué)習(xí)到靜態(tài)信息和動(dòng)態(tài)變化信息，從而更全面地捕捉事件的特征。圖2展現(xiàn)了節(jié)點(diǎn)時(shí)空變化注意力模塊在音頻模態(tài)和視頻模態(tài)上的表現(xiàn)形式。

圖2單模態(tài)連接邊權(quán)重更新

以視頻模態(tài)為例，設(shè)置第 i 時(shí)刻為目標(biāo)節(jié)點(diǎn) 和其相鄰 M 個(gè)節(jié)點(diǎn) ，用于生成注意力機(jī)制中的，和

其中，表示線性投影矩陣。接著，通過(guò)計(jì)算與的點(diǎn)積，并使用Softmax函數(shù)生成注意力映射矩陣，其中每個(gè)位置的值表示與其鄰居之間的相似程度：

得到的注意力映射矩陣可以用于同時(shí)傳輸環(huán)境信息和提取時(shí)空變化信息。對(duì)于外觀信息，首先從鄰居節(jié)點(diǎn)中聚合相似的外觀信息，然后將其與融合，更新節(jié)點(diǎn)信息，以增強(qiáng)該節(jié)點(diǎn)中的外觀信息，即：

相鄰節(jié)點(diǎn)之間空間信息是相似的，而對(duì)于時(shí)空變化信息，根據(jù)本文通過(guò) 進(jìn)行加權(quán)來(lái)增加變化目標(biāo)的權(quán)重，再與相鄰的第 n 個(gè)節(jié)點(diǎn) 相減，得到時(shí)空變化信息：

其中，包含運(yùn)動(dòng)信息，可以為變化估計(jì)提供明確的先驗(yàn)信息，然后通過(guò)線性層來(lái)生成運(yùn)動(dòng)特征。

為了讓圖神經(jīng)網(wǎng)絡(luò)在前向傳遞時(shí)都包含靜態(tài)信息和變化信息，本文設(shè)計(jì)了單模態(tài)圖神經(jīng)網(wǎng)絡(luò)的權(quán)重更新機(jī)制，即 W_i，j 通過(guò) 進(jìn)行更新。同時(shí)，由于相近時(shí)間的節(jié)點(diǎn)信息更加相似，因此對(duì)其進(jìn)行時(shí)間加權(quán)：

其中， A_ν 和 A_a 表示視頻模態(tài)和音頻模態(tài)的鄰接矩陣， N_i 表示第 i 節(jié)點(diǎn)， R 表示為控制CICM中變化信息比例的超參數(shù)。當(dāng) R 值過(guò)大時(shí)，雖然會(huì)增加對(duì)視頻模態(tài)內(nèi)行為信息的提取，但也可能導(dǎo)致空間信息損失，進(jìn)而影響準(zhǔn)確率。 R 值表示時(shí)空信息在時(shí)序模型中的比重，對(duì)于構(gòu)建高效的時(shí)序模型具有重要的探討價(jià)值。因此，對(duì)參數(shù) R 的細(xì)致討論將在3.3節(jié)中詳細(xì)闡述。同理在音頻模態(tài)中，CICM模塊同樣用于捕捉時(shí)間維度上的變化，并結(jié)合注意力機(jī)制削弱環(huán)境背景噪聲，從而更專注于音頻事件特征。該機(jī)制不僅提升了音頻事件分類性能，還增強(qiáng)了模型的特征提取能力。

2.3跨模態(tài)圖變化激勵(lì)層

音頻事件的發(fā)生不僅伴隨著聲音的變化，其對(duì)應(yīng)的視頻畫(huà)面也應(yīng)在空間維度上展現(xiàn)出相應(yīng)的動(dòng)態(tài)變化。因此，在模態(tài)間音頻節(jié)點(diǎn)與視頻節(jié)點(diǎn)聚合時(shí)，那些含有較大變化信息的節(jié)點(diǎn)更有可能對(duì)應(yīng)特定事件的發(fā)生，從而有助于音頻事件的學(xué)習(xí)。在視頻和音頻進(jìn)行模態(tài)間信息聚合時(shí)，應(yīng)增強(qiáng)具有較強(qiáng)變化信息的節(jié)點(diǎn)的邊權(quán)重。為此，本文設(shè)計(jì)了跨模態(tài)圖變化激勵(lì)模塊（CMGVI），用于根據(jù)變化信息更新連接矩陣權(quán)重 A_c ，如圖3所示。

圖3模態(tài)間連接權(quán)重更新示意圖

根據(jù)公式（4），在視頻單模態(tài)圖神經(jīng)網(wǎng)絡(luò)中成功提取了單模態(tài)的變化信息特征，通過(guò) L₂ 范數(shù)來(lái)代替矩陣的大小，并對(duì)其進(jìn)行歸一化處理，并用于更新權(quán)重，這種處理方式確保了在模態(tài)間信息傳遞時(shí)，能夠?qū)鬟f的節(jié)點(diǎn)特征施加適當(dāng)?shù)臋?quán)重，從而提升視聽(tīng)數(shù)據(jù)融合的效率和音頻事件分類的準(zhǔn)確性。由于STVA-GNN專注于音頻事件分類，模態(tài)間僅將視頻節(jié)點(diǎn)聚合到音頻節(jié)點(diǎn)：

在節(jié)點(diǎn)信息建模完成后，關(guān)鍵的一步是通過(guò)圖讀取函數(shù)將所有節(jié)點(diǎn)嵌入池化為一個(gè)全局表示，對(duì)于第i 個(gè)事件 G ，其圖嵌入的計(jì)算如下：

其中， P（x）池化函數(shù)支持構(gòu)建一個(gè)可學(xué)習(xí)的池化向量 p ，利用這個(gè)池化函數(shù)，通過(guò)將第1層的節(jié)點(diǎn)嵌入信息輸入到該函數(shù)，而生成第 i 個(gè)事件的圖嵌入。這一過(guò)程有效地整合了圖中的全局信息，為事件分類提供了有力的表征。最后，使用交叉熵?fù)p失函數(shù)對(duì)整體圖神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練：

其中， p_ν，i 和 p_a，i 分別表示視頻模態(tài)和音頻模態(tài)的輸出概率， γ 表示視頻模態(tài)的權(quán)重系數(shù)，可以動(dòng)態(tài)平衡不同模態(tài)之間的輸出。

3 實(shí)驗(yàn)與結(jié)果分析

本節(jié)通過(guò)實(shí)驗(yàn)深入驗(yàn)證STVA-GNN模型的性能與有效性。在節(jié)點(diǎn)分類任務(wù)中，將該模型與多種現(xiàn)有方法進(jìn)行對(duì)比，以展現(xiàn)其優(yōu)勢(shì)。此外，實(shí)驗(yàn)還開(kāi)展了消融研究，旨在探究不同組件對(duì)模型性能的具體影響；進(jìn)行了參數(shù)敏感性分析，以評(píng)估模型對(duì)參數(shù)變化的適應(yīng)能力；以及進(jìn)行收斂性分析，深入理解模型的訓(xùn)練過(guò)程。這些綜合評(píng)估有助于加強(qiáng)對(duì)STVA-GNN性能的全面理解。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本實(shí)驗(yàn)基于AudioSet數(shù)據(jù)集[19]，該數(shù)據(jù)集包含10秒長(zhǎng)的YouTube片段，并標(biāo)注特定音頻類別。數(shù)據(jù)集按 70% 訓(xùn)練、 10% 驗(yàn)證、 20% 測(cè)試劃分，實(shí)驗(yàn)選取置信度0.7以上的33類音頻，構(gòu)建82410個(gè)訓(xùn)練樣本和85487個(gè)測(cè)試樣本，以確保公平比較。

σ_V^t=M_V^t₂

其中， W_i^c 表示第 i 個(gè)節(jié)點(diǎn)的變化信息歸一化的結(jié)果， A_c 表示模態(tài)間的連接矩陣。通過(guò)圖注意力網(wǎng)絡(luò)（GAT），節(jié)點(diǎn)特征被傳播至目標(biāo)節(jié)點(diǎn)。在執(zhí)行跨模態(tài)信息融合時(shí)，節(jié)點(diǎn)的選擇嚴(yán)格遵循時(shí)間戳的對(duì)應(yīng)關(guān)系，隨后選定的節(jié)點(diǎn)將與來(lái)自視頻圖神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)進(jìn)行融合，以實(shí)現(xiàn)模態(tài)間的深度交互和信息整合。

整體圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)層可以表示為：

為驗(yàn)證模型魯棒性，實(shí)驗(yàn)將AudioSet音頻與UrbanSound8k數(shù)據(jù)集[23]中10類環(huán)境聲音隨機(jī)混合，并在不同信噪比下測(cè)試，無(wú)噪聲標(biāo)簽，以模擬復(fù)雜現(xiàn)實(shí)場(chǎng)景。

3.2實(shí)驗(yàn)任務(wù)和參數(shù)設(shè)置

本實(shí)驗(yàn)采用平均精度均值（meanAveragePrecision，mAP）和曲線下面積（AreaUndertheCurve，AUC）作為評(píng)估指標(biāo)。對(duì)于每個(gè)視頻片段，構(gòu)建包含40個(gè)音頻節(jié)點(diǎn)和100個(gè)視頻節(jié)點(diǎn)的時(shí)空變化多模態(tài)圖，分別對(duì)應(yīng)960毫秒的音頻和250毫秒的視頻。為確保結(jié)果魯棒性，實(shí)驗(yàn)在不同隨機(jī)種子下重復(fù)10次，并計(jì)算mAP和AUC的均值。

STVA-GNN采用4層結(jié)構(gòu)，每層包含512個(gè)隱藏單元，并由CMGVI和CICM組成。實(shí)驗(yàn)基于PyTorch框架，在NVIDIAGeForceRTX3080TiGPU上執(zhí)行。優(yōu)化采用Adam，初始學(xué)習(xí)率0.005，每個(gè)epoch結(jié)束后衰減 10% 。網(wǎng)絡(luò)權(quán)重采用Xavier初始化，并在250輪迭代后調(diào)整學(xué)習(xí)率為0.005、衰減率0.1，同時(shí)進(jìn)行1000輪預(yù)熱。每個(gè)節(jié)點(diǎn)選擇8個(gè)鄰居，包括音頻、視頻及跨模態(tài)節(jié)點(diǎn)。

3.3 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)結(jié)果如表1所示，STVA-GNN在mAP指標(biāo)上顯著優(yōu)于所有對(duì)比方法。與次優(yōu)模型TMac相比，STVA-GNN的mAP提升 7% 。同時(shí)，STVA-GNN在ROC指標(biāo)上達(dá)到0.94的最高得分，表明模型在不同閾值下具有更穩(wěn)定和可靠的預(yù)測(cè)能力。結(jié)果表明，綜合考慮音頻和視頻在時(shí)序與空間維度上的變化信息對(duì)于音頻事件預(yù)測(cè)具有重要價(jià)值。值得注意的是，與基于Transformer的方法（如VATT和AST）相比，STVA-GNN在取得優(yōu)異性能的同時(shí)，顯著減少了參數(shù)量，展現(xiàn)出其模塊化設(shè)計(jì)的靈活性和易部署性。

表1不同模型的實(shí)驗(yàn)結(jié)果對(duì)比

為驗(yàn)證CMGVI模塊對(duì)模型整體性能的貢獻(xiàn)，本文進(jìn)行了消融實(shí)驗(yàn)，使用圖注意力網(wǎng)絡(luò)（GAT）替代CMGVI，并與STVA-GNN進(jìn)行對(duì)比，以評(píng)估其對(duì)分類準(zhǔn)確性和魯棒性的影響。實(shí)驗(yàn)結(jié)果如表2所示。

表2消融實(shí)驗(yàn)結(jié)果對(duì)比

為評(píng)估STVA-GNN在噪聲環(huán)境下的魯棒性，實(shí)驗(yàn)從AudioSet選取音頻樣本，并與UrbanSound8k的環(huán)境噪聲按特定信噪比混合，不保留噪聲標(biāo)簽，以模擬真實(shí)場(chǎng)景。對(duì)比當(dāng)前優(yōu)異模型TMac，進(jìn)一步測(cè)試STVA-GNN中CICM模塊在不同信噪比下的效果，以驗(yàn)證其在降低噪聲影響方面的貢獻(xiàn)，結(jié)果如表3所示。

表3噪聲環(huán)境下模型的消融實(shí)驗(yàn) 單位：%

由表3可知，STVA-GNN在所有信噪比下均取得了最優(yōu)性能，進(jìn)一步驗(yàn)證了所提出方法在復(fù)雜環(huán)境中的適應(yīng)能力。值得注意的是，隨著信噪比的降低，各模型的性能均有所下降，但STVA-GNN相較于其他變體模型，性能下降幅度較小，表明其具有更強(qiáng)的抗噪能力。CICM模型在環(huán)境噪聲下對(duì)模型的貢獻(xiàn)率達(dá)到了 16%～25% ，通過(guò)類似時(shí)域差分操作的方式提高模型的整體穩(wěn)健性。

在音頻事件分類研究中，變化信息對(duì)模型性能提升具有重要作用。本文通過(guò)參數(shù) R 控制變化信息的占比，并評(píng)估其對(duì)模型的影響，如表4所示。結(jié)果表明，當(dāng) R=0.8 時(shí)，mAP和ROC指標(biāo)達(dá)到最佳，但過(guò)高的R 值會(huì)導(dǎo)致空間信息損失，影響分類性能。因此，變化信息應(yīng)適當(dāng)高于靜態(tài)信息，以增強(qiáng)時(shí)序動(dòng)態(tài)特征，同時(shí)保留環(huán)境靜態(tài)信息的關(guān)鍵作用。

表4超參數(shù) R 對(duì) mAP 和ROC指標(biāo)的影響

進(jìn)一步分析發(fā)現(xiàn)，在固定視頻單模態(tài)圖神經(jīng)網(wǎng)絡(luò)的 R 值時(shí)，增大音頻單模態(tài)圖神經(jīng)網(wǎng)絡(luò)的 R 值可提升分類準(zhǔn)確率，反之亦然，超參數(shù) R 的變化對(duì)準(zhǔn)確率的影響如表5所示。這表明CICM模塊能有效增強(qiáng)音視頻模態(tài)的特征提取能力，從而提升整體模型性能。

表5超參數(shù)R的變化對(duì)準(zhǔn)確率的影響

（續(xù)表）

鑒于變化信息是通過(guò)節(jié)點(diǎn)間在負(fù)數(shù)注意力機(jī)制下的差異來(lái)生成的，節(jié)點(diǎn)間距離在此過(guò)程中起著關(guān)鍵作用。實(shí)驗(yàn)通過(guò)調(diào)整不同的步長(zhǎng)來(lái)探究模型性能變化，結(jié)果如表6所示。當(dāng)節(jié)點(diǎn)間的距離設(shè)置為5時(shí)，模型能夠捕獲最優(yōu)的變化信息表征。過(guò)小的節(jié)點(diǎn)距離可能導(dǎo)致變化信息捕捉不足，而過(guò)大的距離則可能使變化信息過(guò)于分散，不利于模型的有效識(shí)別。這一發(fā)現(xiàn)為變化信息感受野的優(yōu)化提供了重要指導(dǎo)。

表6節(jié)點(diǎn)距離對(duì)變化信息提取效果的影響

4結(jié)論

本研究提出基于時(shí)空變化注意力機(jī)制的STVA-GNN，以增強(qiáng)音頻事件分類的時(shí)空信息表征。核心創(chuàng)新包括變化信息補(bǔ)償模塊（CICM）和跨模態(tài)圖變化激勵(lì)層（CMGVI），用于精準(zhǔn)捕捉音視頻間的動(dòng)態(tài)特征，強(qiáng)化跨模態(tài)融合，提高分類準(zhǔn)確性。

實(shí)驗(yàn)表明，STVA-GNN在mAP和AUC指標(biāo)上分別達(dá)到0.56和0.94，優(yōu)于基線方法，并在噪聲環(huán)境下表現(xiàn)出較強(qiáng)魯棒性。該研究驗(yàn)證了時(shí)空變化信息的價(jià)值，并為多模態(tài)學(xué)習(xí)提供新思路。未來(lái)可探索其在視頻理解、跨模態(tài)檢索及實(shí)時(shí)音頻事件檢測(cè)中的應(yīng)用。

參考文獻(xiàn)：

[1]ATILGANH，TOWNSM，WOODKC，etal.IntegrationofVisualInformationinAuditoryCortexPromotesAuditory Scene Analysis Through Multisensory Binding[J].Neuron，2018，97（3）：640-655.

[2]戎翔.多模態(tài)數(shù)據(jù)融合的研究[D].南京：南京郵電大學(xué)，2012.

[3]MAS，ZENGZY，MCDUFFD，etal.ActiveContrastiveLearningofAudio-visual Video Representations[J/OL].arXiv：2009.09805 [cs.LG]. （2020-08-31）.https：//arxiv.org/abs/2009.09805.

[4]WANGJQ，JIANGHQ，LIUYH，etal.AComprehensiveReviewofMultimodalLargeLanguageModels：Performance and Challenges Across Different Tasks [J/OL].arXiv：2408.01319 [cs.A1]. （2024-08-02） .https：//arxiv.org/abs/2408.01319.

[5]劉建偉，丁熙浩，羅雄麟.多模態(tài)深度學(xué)習(xí)綜述[J].計(jì)算機(jī)應(yīng)用研究，2020，37（6）：1601-1614.

[6] PHANH，MAABM，MAZURR，etal.Random

Regression Forests forAcoustic EventDetectionand Classification

[J].IEEE/ACM Transactions on Audio， Speech， and Language

Processing，2015，23（1）：20-31.

[7] SIMONYAN K， ZISSERMAN A. Very Deep Convolutional

Networks for Large-scale Image Recognition [J/OL].arXiv：1409.1556

[cs.CV]. （2014-09-04）.https：//arxiv.0rg/abs/1409.1556.

[8] DAI W，DAI C，QU S H，et al.Very Deep

Convolutional Neural Networks for Raw Waveforms [C]//2017

IEEE International Conference on Acoustics， Speech and Signal

Processing.New Orleans：IEEE，2017：421-425.

[9] TRAN D，WANGH，TORRESANI L，et al. A Closer

Look at Spatiotemporal Convolutions for Action Recognition

[C]/2018 IEEE/CVF Conference on Computer Vision and Pattern

Recognition.SaltLake City：IEEE，2018：6450-6459.

[10] KONGQQ，CAO Y，IQBAL T，et al. PANNs：

Large-scale Pretrained Audio Neural Networks for Audio Pattern

Recognition[J].IEEE/ACMTransactions on Audio，Speech， and

Language Processing，2020，28：2880-2894.

[11] GONG Y，CHUNG Y-A，GLASS J. AST： Audio

Spectrogram Transformer [C]//Interspeech 2021.Brno：ISCA，

2021：571-575.

[12] KOUTINIK，SCHLUTER J，EGHBAL-ZADEHH，

etal.Efficient TrainingofAudio TransformerswithPatchout[J/

OL].arXiv：2110.05069 [cs.SD]. （2021-10-11） .https：/arxiv.org/

abs/2110.05069.

[13]HEKM，ZHANGXY，RENSQ，et al.Deep

Residual Learning for Image Recognition [C]//2016 IEEE

Conference on Computer Vision and Pattern Recognition （CVPR）.

Las Vegas：IEEE，2016：770-778.

[14]李宏菲，李慶，周莉.基于多視覺(jué)描述子及音頻特

征的動(dòng)態(tài)序列人臉表情識(shí)別[J].電子學(xué)報(bào)，2019，47（8）：

1643-1653.

[15] AKBARI H，YUAN L Z，QIAN R，et al. VATT：

Transformers for Multimodal Self-Supervised Learning from Raw

Video，Audio and Text [J/OL].arXiv：2104.11178 [cs.CV]. （2021-

04-22）.htps：//arxiv.org/abs/2104.1178.

[16] ALWASSEL H，MAHAJAND，KORBAR B，

et al. Self-Supervised Learning by Cross-modal Audio-video

Clustering-Supplementary Material— [C]//NeurIPS 2020.

Vancouver：NeurIPs， 2021.https：//proceedings.neurips.cc/paper_

files/paper/2020/hash/6f2268bd1d3d3ebaabb04d6b5d099425-

Abstract.html.

[17] GAO D F，LI K，WANG RP，et al. Multi-modal

Graph Neural Network for Joint Reasoning on Vision and Scene

Text [C]//2020 IEEE/CVF Conference on Computer Vision and

Pattern Recognition（CVPR）.Seatle： IEEE，2020：12743-

12753.

[18]MISHRAP，PILLIE S，VARADHARAJANV，

et al.VAED：VMI-assisted Evasion Detection Approach for

Infrastructure as a Service Cloud [J].Concurrency and Computation

Practice and Experience，2017，29（12）：1-30.

[19]SHIRIANA，SOMANDEPALLIK，GUHAT.Self

supervised GraphsforAudio Representation Learningwith

Limited LabeledData[J].IEEE JournalofSelected Topicsin

SignalProcessing，2022，16（6）：1391-1401. [20]SHIRIANA，AHMADIANM，SOMANDEPALLI

K，et al.Heterogeneous Graph Learning for Acoustic Event

Classification[C]//ICASSP2023-2023IEEEInternational

Conference on Acoustics，Speech and Signal Processing （ICASSP）.

RhodesIsland：IEEE，2023：1-5. [21]LIUM，LIANGK，HUD，etal.TMAC：Temporal

Multi-modal GraphLearningforAcoustic EventClassification

[C]//Proceedingsofthe3lstACMInternational Conferenceon

Multimedia.Ottawa：ACM，2023：3365-3374.

[22]GEMMEKEJF，ELLISDPW，F(xiàn)REEDMAND，et

al.Audio Set：An Ontologyand Human-labeled Dataset for Audio

Events [C]//2017 IEEE International Conference on Acoustics，

Speech and Signal Processing （ICASSP）.New Orleans：IEEE，

2017：776-780.[23]ARNAULTA，HANSSENSB，RICHEN.Urban

SoundClassification：StrivingTowardsaFair Comparison[J/

OL].arXiv：2010.11805 [cs.SD]. （2020-10-22）.https：//arxiv.org/

abs/2010.11805.

作者簡(jiǎn)介：張墨華（1979.10—），男，漢族，河南信陽(yáng)人，教授，博士，研究方向：機(jī)器學(xué)習(xí)；劉霽（2000.03—），男，漢族，河南商丘人，碩士在讀，研究方向：視音多模態(tài)。

現(xiàn)代信息科技2025年16期

現(xiàn)代信息科技的其它文章: 基于硬件PWM的恒溫氣體檢測(cè)池系統(tǒng)設(shè)計(jì); 基于機(jī)器閱讀理解的水利工程巡檢知識(shí)抽取; 基于深度學(xué)習(xí)的水果品質(zhì)分級(jí)方法綜述; 基于外掛專業(yè)知識(shí)庫(kù)的AI大模型搭建方案與其在智能制造中的應(yīng)用; 基于中臺(tái)架構(gòu)的文件管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn); 基于頻域誤差分析的寬帶校正均衡器設(shè)計(jì)方法