中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2096-4706(2025)16-0057-07
Research on Audio Event Classification Based on Graph Neural Network with Spatio-Temporal Variation Attention Mechanism
ZHANG Mohua,LIU Ji (School ofComputerandInformation Enginering,Henan Universityof EconomicsandLaw,Zhengzhou45o046,China)
Abstract:Audio event classification faces challenges in complex scenarios,andthe existing methods strugle to capture temporalrelationshpseffectively.Toaddressthis,thispaperproposesaSpati-TmporalVariationAtentionbasedGraphNeural Network (STVA-GNN), which models audio-visual segments as sequential graph nodes and leverages a Negative Attention Mechanism to compute spatiotemporal variationfeatures betweenadjacent nodes,enhancing intra-modal andcross-modal dynamic information interactions.Thecore inovations include thata Contextual Information Compensation Module (CICM) capturesspatiotemporalevolutionpaterns,andaCross-Modal Gaph Variation IncentiveModule(CMGVI)enhancesaudionode weightsusingvideo-modalspatiotemporalvariations fordepfusion.ExperimentalresultsontheAudioSetdatasetdemonstrate that STVA-GNNachieves mAPandAUC scores of 0.56and0.94respectively,outperforming mainstream methods.Additionaly it maintains a significant advantage in noisy environments,verifying itsrobustness.
Keywords:audioeventclasification;Spatio-TemporalVariationAtentionMechanism;Temporal GraphNeuralNetwork; change information compensation;cross-modal information fusion
0 引言
音頻信號(hào)是現(xiàn)實(shí)世界信息傳遞的關(guān)鍵載體,尤其在人工智能領(lǐng)域中,音頻事件分析已成為研究的前沿?zé)狳c(diǎn)。然而,現(xiàn)實(shí)場(chǎng)景中的音頻事件常常受到環(huán)境噪聲的干擾,增加了識(shí)別與分析的難度。研究表明,視覺(jué)信息能有效增強(qiáng)音頻事件的感知與認(rèn)知[1-2]。相較于傳統(tǒng)的單模態(tài)音頻學(xué)習(xí)方法,音頻-視覺(jué)多模態(tài)分析方法[-4通過(guò)深度融合音頻與視覺(jué)數(shù)據(jù),展現(xiàn)出顯著優(yōu)勢(shì),因此受到廣泛關(guān)注。當(dāng)前主流方法采用分別訓(xùn)練視覺(jué)與聽(tīng)覺(jué)模態(tài)特征表示,隨后通過(guò)特征融合策略(如注意力機(jī)制)或特定損失函數(shù)(如對(duì)比損失、互信息最大化損失等)實(shí)現(xiàn)跨模態(tài)信息整合[5]。
目前的音頻事件分析多模態(tài)圖神經(jīng)網(wǎng)絡(luò)研究多采用時(shí)序圖學(xué)習(xí)方法進(jìn)行交互建模,通過(guò)聚合歷史鄰域信息實(shí)現(xiàn)特征提取。然而,現(xiàn)有方法僅關(guān)注節(jié)點(diǎn)時(shí)間維度的時(shí)序關(guān)系,忽視了節(jié)點(diǎn)信息的動(dòng)態(tài)演變特征。本研究創(chuàng)新性地提出了一種基于時(shí)空變化注意力機(jī)制的多模態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)模型STVA-GNN(Spatio-Temporal VariationAttention based GraphNeuralNetwork)。該模型通過(guò)引入時(shí)空變化注意力模塊、優(yōu)化跨模態(tài)融合策略和設(shè)計(jì)高效網(wǎng)絡(luò)架構(gòu),顯著提升了音頻事件分類性能。本文的主要貢獻(xiàn)包括:
1)時(shí)空變化注意力模塊的構(gòu)建與優(yōu)化。設(shè)計(jì)了一種新穎的時(shí)空變化注意力模塊,通過(guò)計(jì)算相鄰節(jié)點(diǎn)的時(shí)空動(dòng)態(tài)關(guān)系,生成自適應(yīng)權(quán)重調(diào)制系數(shù),有效激活與時(shí)空變化相關(guān)的關(guān)鍵信息,提升模型的分類能力。
2)跨模態(tài)信息融合機(jī)制的創(chuàng)新。提出了一種基于時(shí)空變化信息傳遞的融合策略。STVA-GNN通過(guò)壓縮視頻模態(tài)節(jié)點(diǎn)的空間變化信息并與音頻節(jié)點(diǎn)加權(quán)融合,實(shí)現(xiàn)跨模態(tài)信息的有效整合。
3)高效網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化設(shè)計(jì)。采用高步長(zhǎng)隨機(jī)裁剪技術(shù)與長(zhǎng)程路徑單層結(jié)構(gòu)擴(kuò)展感受野,優(yōu)化節(jié)點(diǎn)聚合自適應(yīng)模塊,提高訓(xùn)練效率和分類性能。
4)實(shí)驗(yàn)驗(yàn)證與性能評(píng)估。在廣泛認(rèn)可的AudioSet數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明STVA-GNN在多個(gè)評(píng)價(jià)指標(biāo)上超越現(xiàn)有先進(jìn)方法,尤其在復(fù)雜場(chǎng)景中的音頻事件分類任務(wù)中表現(xiàn)突出。消融實(shí)驗(yàn)進(jìn)一步證實(shí)時(shí)空變化注意力模塊和跨模態(tài)融合策略的貢獻(xiàn)。
1 相關(guān)工作
1.1 音頻事件分類
音頻事件分類作為音頻信號(hào)處理領(lǐng)域的關(guān)鍵任務(wù),在音頻內(nèi)容理解與分析中扮演著重要角色。根據(jù)模型在訓(xùn)練和推理過(guò)程中所利用的數(shù)據(jù)模態(tài)數(shù)量,現(xiàn)有方法主要可分為單模態(tài)和多模態(tài)兩大類。單模態(tài)模型僅利用音頻信號(hào)進(jìn)行特征提取和分類,而多模態(tài)模型則通過(guò)整合視覺(jué)信息或文本描述等額外數(shù)據(jù)源來(lái)提升分類性能。
1.1.1 單模態(tài)音頻學(xué)習(xí)方法
早期音頻事件分類主要依賴機(jī)器學(xué)習(xí)方法:如隨機(jī)森林(RF)、支持向量機(jī)(SVM)和高斯混合模型(GMM)等方法通過(guò)對(duì)音頻特征的直接進(jìn)行識(shí)別[]。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究者提出了多種先進(jìn)的單模態(tài)模型:模型Spectrogram-VGG[通過(guò)將音頻轉(zhuǎn)換為聲譜圖并輸入VGG網(wǎng)絡(luò)進(jìn)行分類;模型DaiNet采用一維卷積直接在原始音頻波形上進(jìn)行處理;模型 R ( 2+1 ) D[9] 基于CNN架構(gòu),專注于提取音頻的時(shí)序特征;模型Wave-Logmel[同時(shí)利用音頻波形和Logmel語(yǔ)譜圖作為CNN的輸入;模型AST[]將梅爾頻譜圖輸入Transformer進(jìn)行特征學(xué)習(xí);模型 PaSST-S[12] 則專注于優(yōu)化和正則化音頻頻譜圖上的Transformer性能。這些深度學(xué)習(xí)方法能夠自動(dòng)學(xué)習(xí)音頻數(shù)據(jù)中的抽象特征表示,顯著提升了分類性能這些方法提升了分類性能,但仍局限于單一模態(tài),難以在復(fù)雜場(chǎng)景下充分利用多模態(tài)信息,為多模態(tài)學(xué)習(xí)提供了發(fā)展契機(jī)。
1.1. 2 多模態(tài)視聽(tīng)學(xué)習(xí)方法
多模態(tài)學(xué)習(xí)在視聽(tīng)領(lǐng)域展現(xiàn)出巨大潛力,研究者致力于通過(guò)整合多感官信息來(lái)增強(qiáng)聲學(xué)數(shù)據(jù)的解析能力[2,13]。跨模態(tài)師生方法通過(guò)動(dòng)態(tài)關(guān)系學(xué)習(xí)實(shí)現(xiàn)視覺(jué)和音頻信號(hào)的交互,有效增強(qiáng)了特征嵌入[14]。自監(jiān)督學(xué)習(xí)策略的引入為視聽(tīng)學(xué)習(xí)提供了新思路,通過(guò)設(shè)計(jì)前置任務(wù)預(yù)測(cè)視覺(jué)和音頻信息的共同來(lái)源,降低了對(duì)標(biāo)注數(shù)據(jù)的依賴[15-16]。近期研究提出的跨模態(tài)聚類技術(shù)(如演變損失方法[)在學(xué)習(xí)有效特征表示方面展現(xiàn)出顯著優(yōu)勢(shì)。但依然缺少對(duì)模態(tài)本身特性的探究。
1.2基于圖的多模態(tài)學(xué)習(xí)方法
基于圖的方法憑借其捕捉數(shù)據(jù)間復(fù)雜交互關(guān)系的優(yōu)勢(shì),已成為多模態(tài)學(xué)習(xí)的重要范式。圖神經(jīng)網(wǎng)絡(luò)通過(guò)節(jié)點(diǎn)與邊的抽象表示,為視聽(tīng)信息的深度融合提供了新途徑。
模型VAED利用異質(zhì)圖建模圖像和音頻信息的關(guān)系,通過(guò)不同類型節(jié)點(diǎn)和邊的構(gòu)建實(shí)現(xiàn)跨模態(tài)消息傳遞;模型SSLgraph[19將音頻信號(hào)轉(zhuǎn)換為圖結(jié)構(gòu),基于特征相似度定義節(jié)點(diǎn)間關(guān)系;模型 HGCN[20] 在VAED基礎(chǔ)上進(jìn)一步發(fā)展,針對(duì)不同模態(tài)特性設(shè)計(jì)專門(mén)的學(xué)習(xí)策略;模型TMAC[21]采用時(shí)序圖提取特征,重點(diǎn)研究視聽(tīng)模態(tài)的時(shí)間關(guān)聯(lián);模型SSLgraph[1]提出自注意力監(jiān)督模型,有效解決了標(biāo)簽依賴、泛化能力和魯棒性等問(wèn)題。
盡管基于圖的方法在處理視聽(tīng)數(shù)據(jù)時(shí)展現(xiàn)出獨(dú)特優(yōu)勢(shì),但現(xiàn)有研究對(duì)時(shí)空特征的挖掘仍不夠深入,視頻和音頻模態(tài)間的信息傳遞機(jī)制還有待進(jìn)一步探索。這為本文的研究提供了重要的創(chuàng)新方向。
2 STVA-GNN模型
本文提出了一種基于時(shí)空變化注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)模型(STVA-GNN),旨在通過(guò)提取音頻和視頻模態(tài)中的時(shí)空變化信息,實(shí)現(xiàn)對(duì)聲音事件的精確分類。模型的輸入為獨(dú)立的視聽(tīng)事件,輸出為事件的分類結(jié)果。STVA-GNN的核心思想是通過(guò)構(gòu)建時(shí)序圖結(jié)構(gòu),捕捉音頻和視頻模態(tài)中的動(dòng)態(tài)變化信息,并通過(guò)圖神經(jīng)網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)嵌入的學(xué)習(xí)和聚合,最終生成全局表示以完成分類任務(wù)。本節(jié)將詳細(xì)介紹模型的圖構(gòu)建過(guò)程、總體框架以及關(guān)鍵模塊的設(shè)計(jì)。
2.1 時(shí)序圖構(gòu)建過(guò)程
為了將聲音事件轉(zhuǎn)化為圖結(jié)構(gòu),首先定義了時(shí)序圖和多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)的基本概念。
2. 1.1 時(shí)序圖
時(shí)序圖 G=(V,E,T,X) ,其中 V 表示節(jié)點(diǎn)集合, E 表示邊集合, T 表示與每個(gè)交互相關(guān)的時(shí)間戳集合, X 則表示節(jié)點(diǎn)特征的集合。與傳統(tǒng)圖不同,兩節(jié)點(diǎn)間允許多次時(shí)序交互。如果節(jié)點(diǎn) x 和 y 之間存在一條邊,則意味著它們至少交互過(guò)一次,即:Tx,y={(x,y,t1),(x,y,t2),…,(x,y,tn)}c
2.1.2視音多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)
視音多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)(Visual-audioMultimodal Temporal Graph Neural Networks)如圖1所示,將視聽(tīng)事件分割為視頻和音頻片段,構(gòu)建多模態(tài)圖神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)由音頻、視頻節(jié)點(diǎn)和模態(tài)內(nèi)、模態(tài)間邊組成。節(jié)點(diǎn)信息基于固定時(shí)間步長(zhǎng)預(yù)處理數(shù)據(jù)構(gòu)建。設(shè)計(jì)視頻、音頻、跨模態(tài)三種鄰接矩陣,分別表示不同節(jié)點(diǎn)連接關(guān)系。
圖1構(gòu)建STVA-GNN過(guò)程圖

其中黑色節(jié)點(diǎn)表示 ?Ziν ,灰色色節(jié)點(diǎn)表示 ?Zia ,具有相同的時(shí)間戳通過(guò)模態(tài)間鄰接矩陣 Ac 連接。
網(wǎng)絡(luò)構(gòu)建中,視頻、音頻節(jié)點(diǎn)嵌入表示為 Zia 和Zia ,節(jié)點(diǎn)攜帶對(duì)應(yīng)片段時(shí)間戳信息。同一模態(tài)內(nèi)節(jié)點(diǎn)邊依時(shí)間戳順序確定,不同模態(tài)節(jié)點(diǎn)僅時(shí)間戳相同時(shí)才有邊。構(gòu)建模態(tài)內(nèi)圖神經(jīng)網(wǎng)絡(luò)時(shí),關(guān)注每個(gè)節(jié)點(diǎn)最近 N 個(gè)鄰居節(jié)點(diǎn)。先連接前后 N 個(gè)隨機(jī)節(jié)點(diǎn)形成邊,再借鑒Dropout思想隨機(jī)斷開(kāi)部分邊,防止模型過(guò)度依賴特定連接,避免信息過(guò)載。 N 表示超參數(shù),代表節(jié)點(diǎn)時(shí)間維度感受野大小,在實(shí)驗(yàn)部分對(duì)其進(jìn)行詳細(xì)的討論并優(yōu)化以確定最佳參數(shù)。
通過(guò)這種方式,視音多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)不僅能夠有效地捕捉視頻和音頻數(shù)據(jù)中的時(shí)序關(guān)系,還能夠?qū)W習(xí)到模態(tài)間的相互作用,從而在音頻事件分析等任務(wù)中展現(xiàn)出優(yōu)異的性能。
2.2時(shí)空變化信息補(bǔ)償模塊
在當(dāng)前的多模態(tài)音頻事件分類研究中,音頻和視頻信息中隨時(shí)間和空間維度變化的高階特征尚未得到足夠的重視和深入挖掘。為此,本文提出變化信息補(bǔ)償模塊(CICM),并設(shè)計(jì)了時(shí)空變化信息注意力機(jī)制。CICM通過(guò)學(xué)習(xí)相鄰節(jié)點(diǎn)的映射矩陣來(lái)捕捉單模態(tài)內(nèi)的表征關(guān)系,同時(shí)通過(guò)計(jì)算映射矩陣的差異作為時(shí)空變化信息,進(jìn)而更新圖神經(jīng)網(wǎng)絡(luò)的邊權(quán)重。通過(guò)這種方式,網(wǎng)絡(luò)能夠同時(shí)學(xué)習(xí)到靜態(tài)信息和動(dòng)態(tài)變化信息,從而更全面地捕捉事件的特征。圖2展現(xiàn)了節(jié)點(diǎn)時(shí)空變化注意力模塊在音頻模態(tài)和視頻模態(tài)上的表現(xiàn)形式。
圖2單模態(tài)連接邊權(quán)重更新

以視頻模態(tài)為例,設(shè)置第 i 時(shí)刻為目標(biāo)節(jié)點(diǎn)
和其相鄰 M 個(gè)節(jié)點(diǎn)
,用于生成注意力機(jī)制中的
,
和 



其中,
表示線性投影矩陣。接著,通過(guò)計(jì)算
與
的點(diǎn)積,并使用Softmax函數(shù)生成注意力映射矩陣
,其中每個(gè)位置的值表示
與其鄰居之間的相似程度:

得到的注意力映射矩陣
可以用于同時(shí)傳輸環(huán)境信息和提取時(shí)空變化信息。對(duì)于外觀信息,首先從鄰居節(jié)點(diǎn)中聚合相似的外觀信息,然后將其與
融合,更新節(jié)點(diǎn)信息,以增強(qiáng)該節(jié)點(diǎn)中的外觀信息,即:

相鄰節(jié)點(diǎn)之間空間信息是相似的,而對(duì)于時(shí)空變化信息,根據(jù)本文通過(guò)
進(jìn)行加權(quán)來(lái)增加變化目標(biāo)的權(quán)重,再與相鄰的第 n 個(gè)節(jié)點(diǎn)
相減,得到時(shí)空變化信息:

其中,
包含運(yùn)動(dòng)信息,可以為變化估計(jì)提供明確的先驗(yàn)信息,然后通過(guò)線性層來(lái)生成運(yùn)動(dòng)特征。
為了讓圖神經(jīng)網(wǎng)絡(luò)在前向傳遞時(shí)都包含靜態(tài)信息和變化信息,本文設(shè)計(jì)了單模態(tài)圖神經(jīng)網(wǎng)絡(luò)的權(quán)重更新機(jī)制,即 Wi,j 通過(guò)
進(jìn)行更新。同時(shí),由于相近時(shí)間的節(jié)點(diǎn)信息更加相似,因此對(duì)其進(jìn)行時(shí)間加權(quán):



其中, Aν 和 Aa 表示視頻模態(tài)和音頻模態(tài)的鄰接矩陣, Ni 表示第 i 節(jié)點(diǎn), R 表示為控制CICM中變化信息比例的超參數(shù)。當(dāng) R 值過(guò)大時(shí),雖然會(huì)增加對(duì)視頻模態(tài)內(nèi)行為信息的提取,但也可能導(dǎo)致空間信息損失,進(jìn)而影響準(zhǔn)確率。 R 值表示時(shí)空信息在時(shí)序模型中的比重,對(duì)于構(gòu)建高效的時(shí)序模型具有重要的探討價(jià)值。因此,對(duì)參數(shù) R 的細(xì)致討論將在3.3節(jié)中詳細(xì)闡述。同理在音頻模態(tài)中,CICM模塊同樣用于捕捉時(shí)間維度上的變化,并結(jié)合注意力機(jī)制削弱環(huán)境背景噪聲,從而更專注于音頻事件特征。該機(jī)制不僅提升了音頻事件分類性能,還增強(qiáng)了模型的特征提取能力。
2.3跨模態(tài)圖變化激勵(lì)層
音頻事件的發(fā)生不僅伴隨著聲音的變化,其對(duì)應(yīng)的視頻畫(huà)面也應(yīng)在空間維度上展現(xiàn)出相應(yīng)的動(dòng)態(tài)變化。因此,在模態(tài)間音頻節(jié)點(diǎn)與視頻節(jié)點(diǎn)聚合時(shí),那些含有較大變化信息的節(jié)點(diǎn)更有可能對(duì)應(yīng)特定事件的發(fā)生,從而有助于音頻事件的學(xué)習(xí)。在視頻和音頻進(jìn)行模態(tài)間信息聚合時(shí),應(yīng)增強(qiáng)具有較強(qiáng)變化信息的節(jié)點(diǎn)的邊權(quán)重。為此,本文設(shè)計(jì)了跨模態(tài)圖變化激勵(lì)模塊(CMGVI),用于根據(jù)變化信息更新連接矩陣權(quán)重 Ac ,如圖3所示。
圖3模態(tài)間連接權(quán)重更新示意圖

根據(jù)公式(4),在視頻單模態(tài)圖神經(jīng)網(wǎng)絡(luò)中成功提取了單模態(tài)的變化信息特征,通過(guò) L2 范數(shù)來(lái)代替矩陣
的大小,并對(duì)其進(jìn)行歸一化處理,并用于更新權(quán)重,這種處理方式確保了在模態(tài)間信息傳遞時(shí),能夠?qū)鬟f的節(jié)點(diǎn)特征施加適當(dāng)?shù)臋?quán)重,從而提升視聽(tīng)數(shù)據(jù)融合的效率和音頻事件分類的準(zhǔn)確性。由于STVA-GNN專注于音頻事件分類,模態(tài)間僅將視頻節(jié)點(diǎn)聚合到音頻節(jié)點(diǎn):


在節(jié)點(diǎn)信息建模完成后,關(guān)鍵的一步是通過(guò)圖讀取函數(shù)將所有節(jié)點(diǎn)嵌入池化為一個(gè)全局表示,對(duì)于第i 個(gè)事件 G ,其圖嵌入的計(jì)算如下:

其中, P(x) 池化函數(shù)支持構(gòu)建一個(gè)可學(xué)習(xí)的池化向量 p ,利用這個(gè)池化函數(shù),通過(guò)將第1層的節(jié)點(diǎn)嵌入信息輸入到該函數(shù),而生成第 i 個(gè)事件的圖嵌入
。這一過(guò)程有效地整合了圖中的全局信息,為事件分類提供了有力的表征。最后,使用交叉熵?fù)p失函數(shù)對(duì)整體圖神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練:

其中, pν,i 和 pa,i 分別表示視頻模態(tài)和音頻模態(tài)的輸出概率, γ 表示視頻模態(tài)的權(quán)重系數(shù),可以動(dòng)態(tài)平衡不同模態(tài)之間的輸出。
3 實(shí)驗(yàn)與結(jié)果分析
本節(jié)通過(guò)實(shí)驗(yàn)深入驗(yàn)證STVA-GNN模型的性能與有效性。在節(jié)點(diǎn)分類任務(wù)中,將該模型與多種現(xiàn)有方法進(jìn)行對(duì)比,以展現(xiàn)其優(yōu)勢(shì)。此外,實(shí)驗(yàn)還開(kāi)展了消融研究,旨在探究不同組件對(duì)模型性能的具體影響;進(jìn)行了參數(shù)敏感性分析,以評(píng)估模型對(duì)參數(shù)變化的適應(yīng)能力;以及進(jìn)行收斂性分析,深入理解模型的訓(xùn)練過(guò)程。這些綜合評(píng)估有助于加強(qiáng)對(duì)STVA-GNN性能的全面理解。
3.1 實(shí)驗(yàn)數(shù)據(jù)集
本實(shí)驗(yàn)基于AudioSet數(shù)據(jù)集[19],該數(shù)據(jù)集包含10秒長(zhǎng)的YouTube片段,并標(biāo)注特定音頻類別。數(shù)據(jù)集按 70% 訓(xùn)練、 10% 驗(yàn)證、 20% 測(cè)試劃分,實(shí)驗(yàn)選取置信度0.7以上的33類音頻,構(gòu)建82410個(gè)訓(xùn)練樣本和85487個(gè)測(cè)試樣本,以確保公平比較。
σVt=MVt2


其中, Wic 表示第 i 個(gè)節(jié)點(diǎn)的變化信息歸一化的結(jié)果, Ac 表示模態(tài)間的連接矩陣。通過(guò)圖注意力網(wǎng)絡(luò)(GAT),節(jié)點(diǎn)特征被傳播至目標(biāo)節(jié)點(diǎn)。在執(zhí)行跨模態(tài)信息融合時(shí),節(jié)點(diǎn)的選擇嚴(yán)格遵循時(shí)間戳的對(duì)應(yīng)關(guān)系,隨后選定的節(jié)點(diǎn)將與來(lái)自視頻圖神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)進(jìn)行融合,以實(shí)現(xiàn)模態(tài)間的深度交互和信息整合。
整體圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)層可以表示為:
為驗(yàn)證模型魯棒性,實(shí)驗(yàn)將AudioSet音頻與UrbanSound8k數(shù)據(jù)集[23]中10類環(huán)境聲音隨機(jī)混合,并在不同信噪比下測(cè)試,無(wú)噪聲標(biāo)簽,以模擬復(fù)雜現(xiàn)實(shí)場(chǎng)景。
3.2實(shí)驗(yàn)任務(wù)和參數(shù)設(shè)置
本實(shí)驗(yàn)采用平均精度均值(meanAveragePrecision,mAP)和曲線下面積(AreaUndertheCurve,AUC)作為評(píng)估指標(biāo)。對(duì)于每個(gè)視頻片段,構(gòu)建包含40個(gè)音頻節(jié)點(diǎn)和100個(gè)視頻節(jié)點(diǎn)的時(shí)空變化多模態(tài)圖,分別對(duì)應(yīng)960毫秒的音頻和250毫秒的視頻。為確保結(jié)果魯棒性,實(shí)驗(yàn)在不同隨機(jī)種子下重復(fù)10次,并計(jì)算mAP和AUC的均值。
STVA-GNN采用4層結(jié)構(gòu),每層包含512個(gè)隱藏單元,并由CMGVI和CICM組成。實(shí)驗(yàn)基于PyTorch框架,在NVIDIAGeForceRTX3080TiGPU上執(zhí)行。優(yōu)化采用Adam,初始學(xué)習(xí)率0.005,每個(gè)epoch結(jié)束后衰減 10% 。網(wǎng)絡(luò)權(quán)重采用Xavier初始化,并在250輪迭代后調(diào)整學(xué)習(xí)率為0.005、衰減率0.1,同時(shí)進(jìn)行1000輪預(yù)熱。每個(gè)節(jié)點(diǎn)選擇8個(gè)鄰居,包括音頻、視頻及跨模態(tài)節(jié)點(diǎn)。
3.3 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)結(jié)果如表1所示,STVA-GNN在mAP指標(biāo)上顯著優(yōu)于所有對(duì)比方法。與次優(yōu)模型TMac相比,STVA-GNN的mAP提升 7% 。同時(shí),STVA-GNN在ROC指標(biāo)上達(dá)到0.94的最高得分,表明模型在不同閾值下具有更穩(wěn)定和可靠的預(yù)測(cè)能力。結(jié)果表明,綜合考慮音頻和視頻在時(shí)序與空間維度上的變化信息對(duì)于音頻事件預(yù)測(cè)具有重要價(jià)值。值得注意的是,與基于Transformer的方法(如VATT和AST)相比,STVA-GNN在取得優(yōu)異性能的同時(shí),顯著減少了參數(shù)量,展現(xiàn)出其模塊化設(shè)計(jì)的靈活性和易部署性。
表1不同模型的實(shí)驗(yàn)結(jié)果對(duì)比

為驗(yàn)證CMGVI模塊對(duì)模型整體性能的貢獻(xiàn),本文進(jìn)行了消融實(shí)驗(yàn),使用圖注意力網(wǎng)絡(luò)(GAT)替代CMGVI,并與STVA-GNN進(jìn)行對(duì)比,以評(píng)估其對(duì)分類準(zhǔn)確性和魯棒性的影響。實(shí)驗(yàn)結(jié)果如表2所示。
表2消融實(shí)驗(yàn)結(jié)果對(duì)比

為評(píng)估STVA-GNN在噪聲環(huán)境下的魯棒性,實(shí)驗(yàn)從AudioSet選取音頻樣本,并與UrbanSound8k的環(huán)境噪聲按特定信噪比混合,不保留噪聲標(biāo)簽,以模擬真實(shí)場(chǎng)景。對(duì)比當(dāng)前優(yōu)異模型TMac,進(jìn)一步測(cè)試STVA-GNN中CICM模塊在不同信噪比下的效果,以驗(yàn)證其在降低噪聲影響方面的貢獻(xiàn),結(jié)果如表3所示。
表3噪聲環(huán)境下模型的消融實(shí)驗(yàn) 單位:%

由表3可知,STVA-GNN在所有信噪比下均取得了最優(yōu)性能,進(jìn)一步驗(yàn)證了所提出方法在復(fù)雜環(huán)境中的適應(yīng)能力。值得注意的是,隨著信噪比的降低,各模型的性能均有所下降,但STVA-GNN相較于其他變體模型,性能下降幅度較小,表明其具有更強(qiáng)的抗噪能力。CICM模型在環(huán)境噪聲下對(duì)模型的貢獻(xiàn)率達(dá)到了 16%~25% ,通過(guò)類似時(shí)域差分操作的方式提高模型的整體穩(wěn)健性。
在音頻事件分類研究中,變化信息對(duì)模型性能提升具有重要作用。本文通過(guò)參數(shù) R 控制變化信息的占比,并評(píng)估其對(duì)模型的影響,如表4所示。結(jié)果表明,當(dāng) R=0.8 時(shí),mAP和ROC指標(biāo)達(dá)到最佳,但過(guò)高的R 值會(huì)導(dǎo)致空間信息損失,影響分類性能。因此,變化信息應(yīng)適當(dāng)高于靜態(tài)信息,以增強(qiáng)時(shí)序動(dòng)態(tài)特征,同時(shí)保留環(huán)境靜態(tài)信息的關(guān)鍵作用。
表4超參數(shù) R 對(duì) mAP 和ROC指標(biāo)的影響

進(jìn)一步分析發(fā)現(xiàn),在固定視頻單模態(tài)圖神經(jīng)網(wǎng)絡(luò)的 R 值時(shí),增大音頻單模態(tài)圖神經(jīng)網(wǎng)絡(luò)的 R 值可提升分類準(zhǔn)確率,反之亦然,超參數(shù) R 的變化對(duì)準(zhǔn)確率的影響如表5所示。這表明CICM模塊能有效增強(qiáng)音視頻模態(tài)的特征提取能力,從而提升整體模型性能。
表5超參數(shù)R的變化對(duì)準(zhǔn)確率的影響

(續(xù)表)

鑒于變化信息是通過(guò)節(jié)點(diǎn)間在負(fù)數(shù)注意力機(jī)制下的差異來(lái)生成的,節(jié)點(diǎn)間距離在此過(guò)程中起著關(guān)鍵作用。實(shí)驗(yàn)通過(guò)調(diào)整不同的步長(zhǎng)來(lái)探究模型性能變化,結(jié)果如表6所示。當(dāng)節(jié)點(diǎn)間的距離設(shè)置為5時(shí),模型能夠捕獲最優(yōu)的變化信息表征。過(guò)小的節(jié)點(diǎn)距離可能導(dǎo)致變化信息捕捉不足,而過(guò)大的距離則可能使變化信息過(guò)于分散,不利于模型的有效識(shí)別。這一發(fā)現(xiàn)為變化信息感受野的優(yōu)化提供了重要指導(dǎo)。
表6節(jié)點(diǎn)距離對(duì)變化信息提取效果的影響

4結(jié)論
本研究提出基于時(shí)空變化注意力機(jī)制的STVA-GNN,以增強(qiáng)音頻事件分類的時(shí)空信息表征。核心創(chuàng)新包括變化信息補(bǔ)償模塊(CICM)和跨模態(tài)圖變化激勵(lì)層(CMGVI),用于精準(zhǔn)捕捉音視頻間的動(dòng)態(tài)特征,強(qiáng)化跨模態(tài)融合,提高分類準(zhǔn)確性。
實(shí)驗(yàn)表明,STVA-GNN在mAP和AUC指標(biāo)上分別達(dá)到0.56和0.94,優(yōu)于基線方法,并在噪聲環(huán)境下表現(xiàn)出較強(qiáng)魯棒性。該研究驗(yàn)證了時(shí)空變化信息的價(jià)值,并為多模態(tài)學(xué)習(xí)提供新思路。未來(lái)可探索其在視頻理解、跨模態(tài)檢索及實(shí)時(shí)音頻事件檢測(cè)中的應(yīng)用。
參考文獻(xiàn):
[1]ATILGANH,TOWNSM,WOODKC,etal.IntegrationofVisualInformationinAuditoryCortexPromotesAuditory Scene Analysis Through Multisensory Binding[J].Neuron,2018,97(3):640-655.
[2]戎翔.多模態(tài)數(shù)據(jù)融合的研究[D].南京:南京郵電大學(xué),2012.
[3]MAS,ZENGZY,MCDUFFD,etal.ActiveContrastiveLearningofAudio-visual Video Representations[J/OL].arXiv:2009.09805 [cs.LG]. (2020-08-31).https://arxiv.org/abs/2009.09805.
[4]WANGJQ,JIANGHQ,LIUYH,etal.AComprehensiveReviewofMultimodalLargeLanguageModels:Performance and Challenges Across Different Tasks [J/OL].arXiv:2408.01319 [cs.A1]. (2024-08-02) .https://arxiv.org/abs/2408.01319.
[5]劉建偉,丁熙浩,羅雄麟.多模態(tài)深度學(xué)習(xí)綜述[J].計(jì)算機(jī)應(yīng)用研究,2020,37(6):1601-1614.
[6] PHANH,MAABM,MAZURR,etal.Random
Regression Forests forAcoustic EventDetectionand Classification
[J].IEEE/ACM Transactions on Audio, Speech, and Language
Processing,2015,23(1):20-31.
[7] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional
Networks for Large-scale Image Recognition [J/OL].arXiv:1409.1556
[cs.CV]. (2014-09-04).https://arxiv.0rg/abs/1409.1556.
[8] DAI W,DAI C,QU S H,et al.Very Deep
Convolutional Neural Networks for Raw Waveforms [C]//2017
IEEE International Conference on Acoustics, Speech and Signal
Processing.New Orleans:IEEE,2017:421-425.
[9] TRAN D,WANGH,TORRESANI L,et al. A Closer
Look at Spatiotemporal Convolutions for Action Recognition
[C]/2018 IEEE/CVF Conference on Computer Vision and Pattern
Recognition.SaltLake City:IEEE,2018:6450-6459.
[10] KONGQQ,CAO Y,IQBAL T,et al. PANNs:
Large-scale Pretrained Audio Neural Networks for Audio Pattern
Recognition[J].IEEE/ACMTransactions on Audio,Speech, and
Language Processing,2020,28:2880-2894.
[11] GONG Y,CHUNG Y-A,GLASS J. AST: Audio
Spectrogram Transformer [C]//Interspeech 2021.Brno:ISCA,
2021:571-575.
[12] KOUTINIK,SCHLUTER J,EGHBAL-ZADEHH,
etal.Efficient TrainingofAudio TransformerswithPatchout[J/
OL].arXiv:2110.05069 [cs.SD]. (2021-10-11) .https:/arxiv.org/
abs/2110.05069.
[13]HEKM,ZHANGXY,RENSQ,et al.Deep
Residual Learning for Image Recognition [C]//2016 IEEE
Conference on Computer Vision and Pattern Recognition (CVPR).
Las Vegas:IEEE,2016:770-778.
[14]李宏菲,李慶,周莉.基于多視覺(jué)描述子及音頻特
征的動(dòng)態(tài)序列人臉表情識(shí)別[J].電子學(xué)報(bào),2019,47(8):
1643-1653.
[15] AKBARI H,YUAN L Z,QIAN R,et al. VATT:
Transformers for Multimodal Self-Supervised Learning from Raw
Video,Audio and Text [J/OL].arXiv:2104.11178 [cs.CV]. (2021-
04-22).htps://arxiv.org/abs/2104.1178.
[16] ALWASSEL H,MAHAJAND,KORBAR B,
et al. Self-Supervised Learning by Cross-modal Audio-video
Clustering-Supplementary Material— [C]//NeurIPS 2020.
Vancouver:NeurIPs, 2021.https://proceedings.neurips.cc/paper_
files/paper/2020/hash/6f2268bd1d3d3ebaabb04d6b5d099425-
Abstract.html.
[17] GAO D F,LI K,WANG RP,et al. Multi-modal
Graph Neural Network for Joint Reasoning on Vision and Scene
Text [C]//2020 IEEE/CVF Conference on Computer Vision and
Pattern Recognition(CVPR).Seatle: IEEE,2020:12743-
12753.
[18]MISHRAP,PILLIE S,VARADHARAJANV,
et al.VAED:VMI-assisted Evasion Detection Approach for
Infrastructure as a Service Cloud [J].Concurrency and Computation
Practice and Experience,2017,29(12):1-30.
[19]SHIRIANA,SOMANDEPALLIK,GUHAT.Self
supervised GraphsforAudio Representation Learningwith
Limited LabeledData[J].IEEE JournalofSelected Topicsin
SignalProcessing,2022,16(6):1391-1401. [20]SHIRIANA,AHMADIANM,SOMANDEPALLI
K,et al.Heterogeneous Graph Learning for Acoustic Event
Classification[C]//ICASSP2023-2023IEEEInternational
Conference on Acoustics,Speech and Signal Processing (ICASSP).
RhodesIsland:IEEE,2023:1-5. [21]LIUM,LIANGK,HUD,etal.TMAC:Temporal
Multi-modal GraphLearningforAcoustic EventClassification
[C]//Proceedingsofthe3lstACMInternational Conferenceon
Multimedia.Ottawa:ACM,2023:3365-3374.
[22]GEMMEKEJF,ELLISDPW,F(xiàn)REEDMAND,et
al.Audio Set:An Ontologyand Human-labeled Dataset for Audio
Events [C]//2017 IEEE International Conference on Acoustics,
Speech and Signal Processing (ICASSP).New Orleans:IEEE,
2017:776-780.[23]ARNAULTA,HANSSENSB,RICHEN.Urban
SoundClassification:StrivingTowardsaFair Comparison[J/
OL].arXiv:2010.11805 [cs.SD]. (2020-10-22).https://arxiv.org/
abs/2010.11805.
作者簡(jiǎn)介:張墨華(1979.10—),男,漢族,河南信陽(yáng)人,教授,博士,研究方向:機(jī)器學(xué)習(xí);劉霽(2000.03—),男,漢族,河南商丘人,碩士在讀,研究方向:視音多模態(tài)。