999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

時(shí)空變化注意力機(jī)制圖神經(jīng)網(wǎng)絡(luò)的音頻事件分類研究

2025-09-28 00:00:00張墨華劉霽
現(xiàn)代信息科技 2025年16期

中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):2096-4706(2025)16-0057-07

Research on Audio Event Classification Based on Graph Neural Network with Spatio-Temporal Variation Attention Mechanism

ZHANG Mohua,LIU Ji (School ofComputerandInformation Enginering,Henan Universityof EconomicsandLaw,Zhengzhou45o046,China)

Abstract:Audio event classification faces challenges in complex scenarios,andthe existing methods strugle to capture temporalrelationshpseffectively.Toaddressthis,thispaperproposesaSpati-TmporalVariationAtentionbasedGraphNeural Network (STVA-GNN), which models audio-visual segments as sequential graph nodes and leverages a Negative Attention Mechanism to compute spatiotemporal variationfeatures betweenadjacent nodes,enhancing intra-modal andcross-modal dynamic information interactions.Thecore inovations include thata Contextual Information Compensation Module (CICM) capturesspatiotemporalevolutionpaterns,andaCross-Modal Gaph Variation IncentiveModule(CMGVI)enhancesaudionode weightsusingvideo-modalspatiotemporalvariations fordepfusion.ExperimentalresultsontheAudioSetdatasetdemonstrate that STVA-GNNachieves mAPandAUC scores of 0.56and0.94respectively,outperforming mainstream methods.Additionaly it maintains a significant advantage in noisy environments,verifying itsrobustness.

Keywords:audioeventclasification;Spatio-TemporalVariationAtentionMechanism;Temporal GraphNeuralNetwork; change information compensation;cross-modal information fusion

0 引言

音頻信號(hào)是現(xiàn)實(shí)世界信息傳遞的關(guān)鍵載體,尤其在人工智能領(lǐng)域中,音頻事件分析已成為研究的前沿?zé)狳c(diǎn)。然而,現(xiàn)實(shí)場(chǎng)景中的音頻事件常常受到環(huán)境噪聲的干擾,增加了識(shí)別與分析的難度。研究表明,視覺(jué)信息能有效增強(qiáng)音頻事件的感知與認(rèn)知[1-2]。相較于傳統(tǒng)的單模態(tài)音頻學(xué)習(xí)方法,音頻-視覺(jué)多模態(tài)分析方法[-4通過(guò)深度融合音頻與視覺(jué)數(shù)據(jù),展現(xiàn)出顯著優(yōu)勢(shì),因此受到廣泛關(guān)注。當(dāng)前主流方法采用分別訓(xùn)練視覺(jué)與聽(tīng)覺(jué)模態(tài)特征表示,隨后通過(guò)特征融合策略(如注意力機(jī)制)或特定損失函數(shù)(如對(duì)比損失、互信息最大化損失等)實(shí)現(xiàn)跨模態(tài)信息整合[5]。

目前的音頻事件分析多模態(tài)圖神經(jīng)網(wǎng)絡(luò)研究多采用時(shí)序圖學(xué)習(xí)方法進(jìn)行交互建模,通過(guò)聚合歷史鄰域信息實(shí)現(xiàn)特征提取。然而,現(xiàn)有方法僅關(guān)注節(jié)點(diǎn)時(shí)間維度的時(shí)序關(guān)系,忽視了節(jié)點(diǎn)信息的動(dòng)態(tài)演變特征。本研究創(chuàng)新性地提出了一種基于時(shí)空變化注意力機(jī)制的多模態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)模型STVA-GNN(Spatio-Temporal VariationAttention based GraphNeuralNetwork)。該模型通過(guò)引入時(shí)空變化注意力模塊、優(yōu)化跨模態(tài)融合策略和設(shè)計(jì)高效網(wǎng)絡(luò)架構(gòu),顯著提升了音頻事件分類性能。本文的主要貢獻(xiàn)包括:

1)時(shí)空變化注意力模塊的構(gòu)建與優(yōu)化。設(shè)計(jì)了一種新穎的時(shí)空變化注意力模塊,通過(guò)計(jì)算相鄰節(jié)點(diǎn)的時(shí)空動(dòng)態(tài)關(guān)系,生成自適應(yīng)權(quán)重調(diào)制系數(shù),有效激活與時(shí)空變化相關(guān)的關(guān)鍵信息,提升模型的分類能力。

2)跨模態(tài)信息融合機(jī)制的創(chuàng)新。提出了一種基于時(shí)空變化信息傳遞的融合策略。STVA-GNN通過(guò)壓縮視頻模態(tài)節(jié)點(diǎn)的空間變化信息并與音頻節(jié)點(diǎn)加權(quán)融合,實(shí)現(xiàn)跨模態(tài)信息的有效整合。

3)高效網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化設(shè)計(jì)。采用高步長(zhǎng)隨機(jī)裁剪技術(shù)與長(zhǎng)程路徑單層結(jié)構(gòu)擴(kuò)展感受野,優(yōu)化節(jié)點(diǎn)聚合自適應(yīng)模塊,提高訓(xùn)練效率和分類性能。

4)實(shí)驗(yàn)驗(yàn)證與性能評(píng)估。在廣泛認(rèn)可的AudioSet數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明STVA-GNN在多個(gè)評(píng)價(jià)指標(biāo)上超越現(xiàn)有先進(jìn)方法,尤其在復(fù)雜場(chǎng)景中的音頻事件分類任務(wù)中表現(xiàn)突出。消融實(shí)驗(yàn)進(jìn)一步證實(shí)時(shí)空變化注意力模塊和跨模態(tài)融合策略的貢獻(xiàn)。

1 相關(guān)工作

1.1 音頻事件分類

音頻事件分類作為音頻信號(hào)處理領(lǐng)域的關(guān)鍵任務(wù),在音頻內(nèi)容理解與分析中扮演著重要角色。根據(jù)模型在訓(xùn)練和推理過(guò)程中所利用的數(shù)據(jù)模態(tài)數(shù)量,現(xiàn)有方法主要可分為單模態(tài)和多模態(tài)兩大類。單模態(tài)模型僅利用音頻信號(hào)進(jìn)行特征提取和分類,而多模態(tài)模型則通過(guò)整合視覺(jué)信息或文本描述等額外數(shù)據(jù)源來(lái)提升分類性能。

1.1.1 單模態(tài)音頻學(xué)習(xí)方法

早期音頻事件分類主要依賴機(jī)器學(xué)習(xí)方法:如隨機(jī)森林(RF)、支持向量機(jī)(SVM)和高斯混合模型(GMM)等方法通過(guò)對(duì)音頻特征的直接進(jìn)行識(shí)別[]。

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究者提出了多種先進(jìn)的單模態(tài)模型:模型Spectrogram-VGG[通過(guò)將音頻轉(zhuǎn)換為聲譜圖并輸入VGG網(wǎng)絡(luò)進(jìn)行分類;模型DaiNet采用一維卷積直接在原始音頻波形上進(jìn)行處理;模型 R ( 2+1 ) D[9] 基于CNN架構(gòu),專注于提取音頻的時(shí)序特征;模型Wave-Logmel[同時(shí)利用音頻波形和Logmel語(yǔ)譜圖作為CNN的輸入;模型AST[]將梅爾頻譜圖輸入Transformer進(jìn)行特征學(xué)習(xí);模型 PaSST-S[12] 則專注于優(yōu)化和正則化音頻頻譜圖上的Transformer性能。這些深度學(xué)習(xí)方法能夠自動(dòng)學(xué)習(xí)音頻數(shù)據(jù)中的抽象特征表示,顯著提升了分類性能這些方法提升了分類性能,但仍局限于單一模態(tài),難以在復(fù)雜場(chǎng)景下充分利用多模態(tài)信息,為多模態(tài)學(xué)習(xí)提供了發(fā)展契機(jī)。

1.1. 2 多模態(tài)視聽(tīng)學(xué)習(xí)方法

多模態(tài)學(xué)習(xí)在視聽(tīng)領(lǐng)域展現(xiàn)出巨大潛力,研究者致力于通過(guò)整合多感官信息來(lái)增強(qiáng)聲學(xué)數(shù)據(jù)的解析能力[2,13]。跨模態(tài)師生方法通過(guò)動(dòng)態(tài)關(guān)系學(xué)習(xí)實(shí)現(xiàn)視覺(jué)和音頻信號(hào)的交互,有效增強(qiáng)了特征嵌入[14]。自監(jiān)督學(xué)習(xí)策略的引入為視聽(tīng)學(xué)習(xí)提供了新思路,通過(guò)設(shè)計(jì)前置任務(wù)預(yù)測(cè)視覺(jué)和音頻信息的共同來(lái)源,降低了對(duì)標(biāo)注數(shù)據(jù)的依賴[15-16]。近期研究提出的跨模態(tài)聚類技術(shù)(如演變損失方法[)在學(xué)習(xí)有效特征表示方面展現(xiàn)出顯著優(yōu)勢(shì)。但依然缺少對(duì)模態(tài)本身特性的探究。

1.2基于圖的多模態(tài)學(xué)習(xí)方法

基于圖的方法憑借其捕捉數(shù)據(jù)間復(fù)雜交互關(guān)系的優(yōu)勢(shì),已成為多模態(tài)學(xué)習(xí)的重要范式。圖神經(jīng)網(wǎng)絡(luò)通過(guò)節(jié)點(diǎn)與邊的抽象表示,為視聽(tīng)信息的深度融合提供了新途徑。

模型VAED利用異質(zhì)圖建模圖像和音頻信息的關(guān)系,通過(guò)不同類型節(jié)點(diǎn)和邊的構(gòu)建實(shí)現(xiàn)跨模態(tài)消息傳遞;模型SSLgraph[19將音頻信號(hào)轉(zhuǎn)換為圖結(jié)構(gòu),基于特征相似度定義節(jié)點(diǎn)間關(guān)系;模型 HGCN[20] 在VAED基礎(chǔ)上進(jìn)一步發(fā)展,針對(duì)不同模態(tài)特性設(shè)計(jì)專門(mén)的學(xué)習(xí)策略;模型TMAC[21]采用時(shí)序圖提取特征,重點(diǎn)研究視聽(tīng)模態(tài)的時(shí)間關(guān)聯(lián);模型SSLgraph[1]提出自注意力監(jiān)督模型,有效解決了標(biāo)簽依賴、泛化能力和魯棒性等問(wèn)題。

盡管基于圖的方法在處理視聽(tīng)數(shù)據(jù)時(shí)展現(xiàn)出獨(dú)特優(yōu)勢(shì),但現(xiàn)有研究對(duì)時(shí)空特征的挖掘仍不夠深入,視頻和音頻模態(tài)間的信息傳遞機(jī)制還有待進(jìn)一步探索。這為本文的研究提供了重要的創(chuàng)新方向。

2 STVA-GNN模型

本文提出了一種基于時(shí)空變化注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)模型(STVA-GNN),旨在通過(guò)提取音頻和視頻模態(tài)中的時(shí)空變化信息,實(shí)現(xiàn)對(duì)聲音事件的精確分類。模型的輸入為獨(dú)立的視聽(tīng)事件,輸出為事件的分類結(jié)果。STVA-GNN的核心思想是通過(guò)構(gòu)建時(shí)序圖結(jié)構(gòu),捕捉音頻和視頻模態(tài)中的動(dòng)態(tài)變化信息,并通過(guò)圖神經(jīng)網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)嵌入的學(xué)習(xí)和聚合,最終生成全局表示以完成分類任務(wù)。本節(jié)將詳細(xì)介紹模型的圖構(gòu)建過(guò)程、總體框架以及關(guān)鍵模塊的設(shè)計(jì)。

2.1 時(shí)序圖構(gòu)建過(guò)程

為了將聲音事件轉(zhuǎn)化為圖結(jié)構(gòu),首先定義了時(shí)序圖和多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)的基本概念。

2. 1.1 時(shí)序圖

時(shí)序圖 G=(V,E,T,X) ,其中 V 表示節(jié)點(diǎn)集合, E 表示邊集合, T 表示與每個(gè)交互相關(guān)的時(shí)間戳集合, X 則表示節(jié)點(diǎn)特征的集合。與傳統(tǒng)圖不同,兩節(jié)點(diǎn)間允許多次時(shí)序交互。如果節(jié)點(diǎn) x 和 y 之間存在一條邊,則意味著它們至少交互過(guò)一次,即:Tx,y={(x,y,t1),(x,y,t2),…,(x,y,tn)}c

2.1.2視音多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)

視音多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)(Visual-audioMultimodal Temporal Graph Neural Networks)如圖1所示,將視聽(tīng)事件分割為視頻和音頻片段,構(gòu)建多模態(tài)圖神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)由音頻、視頻節(jié)點(diǎn)和模態(tài)內(nèi)、模態(tài)間邊組成。節(jié)點(diǎn)信息基于固定時(shí)間步長(zhǎng)預(yù)處理數(shù)據(jù)構(gòu)建。設(shè)計(jì)視頻、音頻、跨模態(tài)三種鄰接矩陣,分別表示不同節(jié)點(diǎn)連接關(guān)系。

圖1構(gòu)建STVA-GNN過(guò)程圖

其中黑色節(jié)點(diǎn)表示 ?Ziν ,灰色色節(jié)點(diǎn)表示 ?Zia ,具有相同的時(shí)間戳通過(guò)模態(tài)間鄰接矩陣 Ac 連接。

網(wǎng)絡(luò)構(gòu)建中,視頻、音頻節(jié)點(diǎn)嵌入表示為 Zia 和Zia ,節(jié)點(diǎn)攜帶對(duì)應(yīng)片段時(shí)間戳信息。同一模態(tài)內(nèi)節(jié)點(diǎn)邊依時(shí)間戳順序確定,不同模態(tài)節(jié)點(diǎn)僅時(shí)間戳相同時(shí)才有邊。構(gòu)建模態(tài)內(nèi)圖神經(jīng)網(wǎng)絡(luò)時(shí),關(guān)注每個(gè)節(jié)點(diǎn)最近 N 個(gè)鄰居節(jié)點(diǎn)。先連接前后 N 個(gè)隨機(jī)節(jié)點(diǎn)形成邊,再借鑒Dropout思想隨機(jī)斷開(kāi)部分邊,防止模型過(guò)度依賴特定連接,避免信息過(guò)載。 N 表示超參數(shù),代表節(jié)點(diǎn)時(shí)間維度感受野大小,在實(shí)驗(yàn)部分對(duì)其進(jìn)行詳細(xì)的討論并優(yōu)化以確定最佳參數(shù)。

通過(guò)這種方式,視音多模態(tài)時(shí)序圖神經(jīng)網(wǎng)絡(luò)不僅能夠有效地捕捉視頻和音頻數(shù)據(jù)中的時(shí)序關(guān)系,還能夠?qū)W習(xí)到模態(tài)間的相互作用,從而在音頻事件分析等任務(wù)中展現(xiàn)出優(yōu)異的性能。

2.2時(shí)空變化信息補(bǔ)償模塊

在當(dāng)前的多模態(tài)音頻事件分類研究中,音頻和視頻信息中隨時(shí)間和空間維度變化的高階特征尚未得到足夠的重視和深入挖掘。為此,本文提出變化信息補(bǔ)償模塊(CICM),并設(shè)計(jì)了時(shí)空變化信息注意力機(jī)制。CICM通過(guò)學(xué)習(xí)相鄰節(jié)點(diǎn)的映射矩陣來(lái)捕捉單模態(tài)內(nèi)的表征關(guān)系,同時(shí)通過(guò)計(jì)算映射矩陣的差異作為時(shí)空變化信息,進(jìn)而更新圖神經(jīng)網(wǎng)絡(luò)的邊權(quán)重。通過(guò)這種方式,網(wǎng)絡(luò)能夠同時(shí)學(xué)習(xí)到靜態(tài)信息和動(dòng)態(tài)變化信息,從而更全面地捕捉事件的特征。圖2展現(xiàn)了節(jié)點(diǎn)時(shí)空變化注意力模塊在音頻模態(tài)和視頻模態(tài)上的表現(xiàn)形式。

圖2單模態(tài)連接邊權(quán)重更新

以視頻模態(tài)為例,設(shè)置第 i 時(shí)刻為目標(biāo)節(jié)點(diǎn) 和其相鄰 M 個(gè)節(jié)點(diǎn) ,用于生成注意力機(jī)制中的

其中, 表示線性投影矩陣。接著,通過(guò)計(jì)算 的點(diǎn)積,并使用Softmax函數(shù)生成注意力映射矩陣 ,其中每個(gè)位置的值表示 與其鄰居之間的相似程度:

得到的注意力映射矩陣 可以用于同時(shí)傳輸環(huán)境信息和提取時(shí)空變化信息。對(duì)于外觀信息,首先從鄰居節(jié)點(diǎn)中聚合相似的外觀信息,然后將其與 融合,更新節(jié)點(diǎn)信息,以增強(qiáng)該節(jié)點(diǎn)中的外觀信息,即:

相鄰節(jié)點(diǎn)之間空間信息是相似的,而對(duì)于時(shí)空變化信息,根據(jù)本文通過(guò) 進(jìn)行加權(quán)來(lái)增加變化目標(biāo)的權(quán)重,再與相鄰的第 n 個(gè)節(jié)點(diǎn) 相減,得到時(shí)空變化信息:

其中, 包含運(yùn)動(dòng)信息,可以為變化估計(jì)提供明確的先驗(yàn)信息,然后通過(guò)線性層來(lái)生成運(yùn)動(dòng)特征。

為了讓圖神經(jīng)網(wǎng)絡(luò)在前向傳遞時(shí)都包含靜態(tài)信息和變化信息,本文設(shè)計(jì)了單模態(tài)圖神經(jīng)網(wǎng)絡(luò)的權(quán)重更新機(jī)制,即 Wi,j 通過(guò) 進(jìn)行更新。同時(shí),由于相近時(shí)間的節(jié)點(diǎn)信息更加相似,因此對(duì)其進(jìn)行時(shí)間加權(quán):

其中, Aν 和 Aa 表示視頻模態(tài)和音頻模態(tài)的鄰接矩陣, Ni 表示第 i 節(jié)點(diǎn), R 表示為控制CICM中變化信息比例的超參數(shù)。當(dāng) R 值過(guò)大時(shí),雖然會(huì)增加對(duì)視頻模態(tài)內(nèi)行為信息的提取,但也可能導(dǎo)致空間信息損失,進(jìn)而影響準(zhǔn)確率。 R 值表示時(shí)空信息在時(shí)序模型中的比重,對(duì)于構(gòu)建高效的時(shí)序模型具有重要的探討價(jià)值。因此,對(duì)參數(shù) R 的細(xì)致討論將在3.3節(jié)中詳細(xì)闡述。同理在音頻模態(tài)中,CICM模塊同樣用于捕捉時(shí)間維度上的變化,并結(jié)合注意力機(jī)制削弱環(huán)境背景噪聲,從而更專注于音頻事件特征。該機(jī)制不僅提升了音頻事件分類性能,還增強(qiáng)了模型的特征提取能力。

2.3跨模態(tài)圖變化激勵(lì)層

音頻事件的發(fā)生不僅伴隨著聲音的變化,其對(duì)應(yīng)的視頻畫(huà)面也應(yīng)在空間維度上展現(xiàn)出相應(yīng)的動(dòng)態(tài)變化。因此,在模態(tài)間音頻節(jié)點(diǎn)與視頻節(jié)點(diǎn)聚合時(shí),那些含有較大變化信息的節(jié)點(diǎn)更有可能對(duì)應(yīng)特定事件的發(fā)生,從而有助于音頻事件的學(xué)習(xí)。在視頻和音頻進(jìn)行模態(tài)間信息聚合時(shí),應(yīng)增強(qiáng)具有較強(qiáng)變化信息的節(jié)點(diǎn)的邊權(quán)重。為此,本文設(shè)計(jì)了跨模態(tài)圖變化激勵(lì)模塊(CMGVI),用于根據(jù)變化信息更新連接矩陣權(quán)重 Ac ,如圖3所示。

圖3模態(tài)間連接權(quán)重更新示意圖

根據(jù)公式(4),在視頻單模態(tài)圖神經(jīng)網(wǎng)絡(luò)中成功提取了單模態(tài)的變化信息特征,通過(guò) L2 范數(shù)來(lái)代替矩陣 的大小,并對(duì)其進(jìn)行歸一化處理,并用于更新權(quán)重,這種處理方式確保了在模態(tài)間信息傳遞時(shí),能夠?qū)鬟f的節(jié)點(diǎn)特征施加適當(dāng)?shù)臋?quán)重,從而提升視聽(tīng)數(shù)據(jù)融合的效率和音頻事件分類的準(zhǔn)確性。由于STVA-GNN專注于音頻事件分類,模態(tài)間僅將視頻節(jié)點(diǎn)聚合到音頻節(jié)點(diǎn):

在節(jié)點(diǎn)信息建模完成后,關(guān)鍵的一步是通過(guò)圖讀取函數(shù)將所有節(jié)點(diǎn)嵌入池化為一個(gè)全局表示,對(duì)于第i 個(gè)事件 G ,其圖嵌入的計(jì)算如下:

其中, P(x) 池化函數(shù)支持構(gòu)建一個(gè)可學(xué)習(xí)的池化向量 p ,利用這個(gè)池化函數(shù),通過(guò)將第1層的節(jié)點(diǎn)嵌入信息輸入到該函數(shù),而生成第 i 個(gè)事件的圖嵌入 。這一過(guò)程有效地整合了圖中的全局信息,為事件分類提供了有力的表征。最后,使用交叉熵?fù)p失函數(shù)對(duì)整體圖神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練:

其中, pν,i 和 pa,i 分別表示視頻模態(tài)和音頻模態(tài)的輸出概率, γ 表示視頻模態(tài)的權(quán)重系數(shù),可以動(dòng)態(tài)平衡不同模態(tài)之間的輸出。

3 實(shí)驗(yàn)與結(jié)果分析

本節(jié)通過(guò)實(shí)驗(yàn)深入驗(yàn)證STVA-GNN模型的性能與有效性。在節(jié)點(diǎn)分類任務(wù)中,將該模型與多種現(xiàn)有方法進(jìn)行對(duì)比,以展現(xiàn)其優(yōu)勢(shì)。此外,實(shí)驗(yàn)還開(kāi)展了消融研究,旨在探究不同組件對(duì)模型性能的具體影響;進(jìn)行了參數(shù)敏感性分析,以評(píng)估模型對(duì)參數(shù)變化的適應(yīng)能力;以及進(jìn)行收斂性分析,深入理解模型的訓(xùn)練過(guò)程。這些綜合評(píng)估有助于加強(qiáng)對(duì)STVA-GNN性能的全面理解。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本實(shí)驗(yàn)基于AudioSet數(shù)據(jù)集[19],該數(shù)據(jù)集包含10秒長(zhǎng)的YouTube片段,并標(biāo)注特定音頻類別。數(shù)據(jù)集按 70% 訓(xùn)練、 10% 驗(yàn)證、 20% 測(cè)試劃分,實(shí)驗(yàn)選取置信度0.7以上的33類音頻,構(gòu)建82410個(gè)訓(xùn)練樣本和85487個(gè)測(cè)試樣本,以確保公平比較。

σVt=MVt2

其中, Wic 表示第 i 個(gè)節(jié)點(diǎn)的變化信息歸一化的結(jié)果, Ac 表示模態(tài)間的連接矩陣。通過(guò)圖注意力網(wǎng)絡(luò)(GAT),節(jié)點(diǎn)特征被傳播至目標(biāo)節(jié)點(diǎn)。在執(zhí)行跨模態(tài)信息融合時(shí),節(jié)點(diǎn)的選擇嚴(yán)格遵循時(shí)間戳的對(duì)應(yīng)關(guān)系,隨后選定的節(jié)點(diǎn)將與來(lái)自視頻圖神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)進(jìn)行融合,以實(shí)現(xiàn)模態(tài)間的深度交互和信息整合。

整體圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)層可以表示為:

為驗(yàn)證模型魯棒性,實(shí)驗(yàn)將AudioSet音頻與UrbanSound8k數(shù)據(jù)集[23]中10類環(huán)境聲音隨機(jī)混合,并在不同信噪比下測(cè)試,無(wú)噪聲標(biāo)簽,以模擬復(fù)雜現(xiàn)實(shí)場(chǎng)景。

3.2實(shí)驗(yàn)任務(wù)和參數(shù)設(shè)置

本實(shí)驗(yàn)采用平均精度均值(meanAveragePrecision,mAP)和曲線下面積(AreaUndertheCurve,AUC)作為評(píng)估指標(biāo)。對(duì)于每個(gè)視頻片段,構(gòu)建包含40個(gè)音頻節(jié)點(diǎn)和100個(gè)視頻節(jié)點(diǎn)的時(shí)空變化多模態(tài)圖,分別對(duì)應(yīng)960毫秒的音頻和250毫秒的視頻。為確保結(jié)果魯棒性,實(shí)驗(yàn)在不同隨機(jī)種子下重復(fù)10次,并計(jì)算mAP和AUC的均值。

STVA-GNN采用4層結(jié)構(gòu),每層包含512個(gè)隱藏單元,并由CMGVI和CICM組成。實(shí)驗(yàn)基于PyTorch框架,在NVIDIAGeForceRTX3080TiGPU上執(zhí)行。優(yōu)化采用Adam,初始學(xué)習(xí)率0.005,每個(gè)epoch結(jié)束后衰減 10% 。網(wǎng)絡(luò)權(quán)重采用Xavier初始化,并在250輪迭代后調(diào)整學(xué)習(xí)率為0.005、衰減率0.1,同時(shí)進(jìn)行1000輪預(yù)熱。每個(gè)節(jié)點(diǎn)選擇8個(gè)鄰居,包括音頻、視頻及跨模態(tài)節(jié)點(diǎn)。

3.3 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)結(jié)果如表1所示,STVA-GNN在mAP指標(biāo)上顯著優(yōu)于所有對(duì)比方法。與次優(yōu)模型TMac相比,STVA-GNN的mAP提升 7% 。同時(shí),STVA-GNN在ROC指標(biāo)上達(dá)到0.94的最高得分,表明模型在不同閾值下具有更穩(wěn)定和可靠的預(yù)測(cè)能力。結(jié)果表明,綜合考慮音頻和視頻在時(shí)序與空間維度上的變化信息對(duì)于音頻事件預(yù)測(cè)具有重要價(jià)值。值得注意的是,與基于Transformer的方法(如VATT和AST)相比,STVA-GNN在取得優(yōu)異性能的同時(shí),顯著減少了參數(shù)量,展現(xiàn)出其模塊化設(shè)計(jì)的靈活性和易部署性。

表1不同模型的實(shí)驗(yàn)結(jié)果對(duì)比

為驗(yàn)證CMGVI模塊對(duì)模型整體性能的貢獻(xiàn),本文進(jìn)行了消融實(shí)驗(yàn),使用圖注意力網(wǎng)絡(luò)(GAT)替代CMGVI,并與STVA-GNN進(jìn)行對(duì)比,以評(píng)估其對(duì)分類準(zhǔn)確性和魯棒性的影響。實(shí)驗(yàn)結(jié)果如表2所示。

表2消融實(shí)驗(yàn)結(jié)果對(duì)比

為評(píng)估STVA-GNN在噪聲環(huán)境下的魯棒性,實(shí)驗(yàn)從AudioSet選取音頻樣本,并與UrbanSound8k的環(huán)境噪聲按特定信噪比混合,不保留噪聲標(biāo)簽,以模擬真實(shí)場(chǎng)景。對(duì)比當(dāng)前優(yōu)異模型TMac,進(jìn)一步測(cè)試STVA-GNN中CICM模塊在不同信噪比下的效果,以驗(yàn)證其在降低噪聲影響方面的貢獻(xiàn),結(jié)果如表3所示。

表3噪聲環(huán)境下模型的消融實(shí)驗(yàn) 單位:%

由表3可知,STVA-GNN在所有信噪比下均取得了最優(yōu)性能,進(jìn)一步驗(yàn)證了所提出方法在復(fù)雜環(huán)境中的適應(yīng)能力。值得注意的是,隨著信噪比的降低,各模型的性能均有所下降,但STVA-GNN相較于其他變體模型,性能下降幅度較小,表明其具有更強(qiáng)的抗噪能力。CICM模型在環(huán)境噪聲下對(duì)模型的貢獻(xiàn)率達(dá)到了 16%~25% ,通過(guò)類似時(shí)域差分操作的方式提高模型的整體穩(wěn)健性。

在音頻事件分類研究中,變化信息對(duì)模型性能提升具有重要作用。本文通過(guò)參數(shù) R 控制變化信息的占比,并評(píng)估其對(duì)模型的影響,如表4所示。結(jié)果表明,當(dāng) R=0.8 時(shí),mAP和ROC指標(biāo)達(dá)到最佳,但過(guò)高的R 值會(huì)導(dǎo)致空間信息損失,影響分類性能。因此,變化信息應(yīng)適當(dāng)高于靜態(tài)信息,以增強(qiáng)時(shí)序動(dòng)態(tài)特征,同時(shí)保留環(huán)境靜態(tài)信息的關(guān)鍵作用。

表4超參數(shù) R 對(duì) mAP 和ROC指標(biāo)的影響

進(jìn)一步分析發(fā)現(xiàn),在固定視頻單模態(tài)圖神經(jīng)網(wǎng)絡(luò)的 R 值時(shí),增大音頻單模態(tài)圖神經(jīng)網(wǎng)絡(luò)的 R 值可提升分類準(zhǔn)確率,反之亦然,超參數(shù) R 的變化對(duì)準(zhǔn)確率的影響如表5所示。這表明CICM模塊能有效增強(qiáng)音視頻模態(tài)的特征提取能力,從而提升整體模型性能。

表5超參數(shù)R的變化對(duì)準(zhǔn)確率的影響

(續(xù)表)

鑒于變化信息是通過(guò)節(jié)點(diǎn)間在負(fù)數(shù)注意力機(jī)制下的差異來(lái)生成的,節(jié)點(diǎn)間距離在此過(guò)程中起著關(guān)鍵作用。實(shí)驗(yàn)通過(guò)調(diào)整不同的步長(zhǎng)來(lái)探究模型性能變化,結(jié)果如表6所示。當(dāng)節(jié)點(diǎn)間的距離設(shè)置為5時(shí),模型能夠捕獲最優(yōu)的變化信息表征。過(guò)小的節(jié)點(diǎn)距離可能導(dǎo)致變化信息捕捉不足,而過(guò)大的距離則可能使變化信息過(guò)于分散,不利于模型的有效識(shí)別。這一發(fā)現(xiàn)為變化信息感受野的優(yōu)化提供了重要指導(dǎo)。

表6節(jié)點(diǎn)距離對(duì)變化信息提取效果的影響

4結(jié)論

本研究提出基于時(shí)空變化注意力機(jī)制的STVA-GNN,以增強(qiáng)音頻事件分類的時(shí)空信息表征。核心創(chuàng)新包括變化信息補(bǔ)償模塊(CICM)和跨模態(tài)圖變化激勵(lì)層(CMGVI),用于精準(zhǔn)捕捉音視頻間的動(dòng)態(tài)特征,強(qiáng)化跨模態(tài)融合,提高分類準(zhǔn)確性。

實(shí)驗(yàn)表明,STVA-GNN在mAP和AUC指標(biāo)上分別達(dá)到0.56和0.94,優(yōu)于基線方法,并在噪聲環(huán)境下表現(xiàn)出較強(qiáng)魯棒性。該研究驗(yàn)證了時(shí)空變化信息的價(jià)值,并為多模態(tài)學(xué)習(xí)提供新思路。未來(lái)可探索其在視頻理解、跨模態(tài)檢索及實(shí)時(shí)音頻事件檢測(cè)中的應(yīng)用。

參考文獻(xiàn):

[1]ATILGANH,TOWNSM,WOODKC,etal.IntegrationofVisualInformationinAuditoryCortexPromotesAuditory Scene Analysis Through Multisensory Binding[J].Neuron,2018,97(3):640-655.

[2]戎翔.多模態(tài)數(shù)據(jù)融合的研究[D].南京:南京郵電大學(xué),2012.

[3]MAS,ZENGZY,MCDUFFD,etal.ActiveContrastiveLearningofAudio-visual Video Representations[J/OL].arXiv:2009.09805 [cs.LG]. (2020-08-31).https://arxiv.org/abs/2009.09805.

[4]WANGJQ,JIANGHQ,LIUYH,etal.AComprehensiveReviewofMultimodalLargeLanguageModels:Performance and Challenges Across Different Tasks [J/OL].arXiv:2408.01319 [cs.A1]. (2024-08-02) .https://arxiv.org/abs/2408.01319.

[5]劉建偉,丁熙浩,羅雄麟.多模態(tài)深度學(xué)習(xí)綜述[J].計(jì)算機(jī)應(yīng)用研究,2020,37(6):1601-1614.

[6] PHANH,MAABM,MAZURR,etal.Random

Regression Forests forAcoustic EventDetectionand Classification

[J].IEEE/ACM Transactions on Audio, Speech, and Language

Processing,2015,23(1):20-31.

[7] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional

Networks for Large-scale Image Recognition [J/OL].arXiv:1409.1556

[cs.CV]. (2014-09-04).https://arxiv.0rg/abs/1409.1556.

[8] DAI W,DAI C,QU S H,et al.Very Deep

Convolutional Neural Networks for Raw Waveforms [C]//2017

IEEE International Conference on Acoustics, Speech and Signal

Processing.New Orleans:IEEE,2017:421-425.

[9] TRAN D,WANGH,TORRESANI L,et al. A Closer

Look at Spatiotemporal Convolutions for Action Recognition

[C]/2018 IEEE/CVF Conference on Computer Vision and Pattern

Recognition.SaltLake City:IEEE,2018:6450-6459.

[10] KONGQQ,CAO Y,IQBAL T,et al. PANNs:

Large-scale Pretrained Audio Neural Networks for Audio Pattern

Recognition[J].IEEE/ACMTransactions on Audio,Speech, and

Language Processing,2020,28:2880-2894.

[11] GONG Y,CHUNG Y-A,GLASS J. AST: Audio

Spectrogram Transformer [C]//Interspeech 2021.Brno:ISCA,

2021:571-575.

[12] KOUTINIK,SCHLUTER J,EGHBAL-ZADEHH,

etal.Efficient TrainingofAudio TransformerswithPatchout[J/

OL].arXiv:2110.05069 [cs.SD]. (2021-10-11) .https:/arxiv.org/

abs/2110.05069.

[13]HEKM,ZHANGXY,RENSQ,et al.Deep

Residual Learning for Image Recognition [C]//2016 IEEE

Conference on Computer Vision and Pattern Recognition (CVPR).

Las Vegas:IEEE,2016:770-778.

[14]李宏菲,李慶,周莉.基于多視覺(jué)描述子及音頻特

征的動(dòng)態(tài)序列人臉表情識(shí)別[J].電子學(xué)報(bào),2019,47(8):

1643-1653.

[15] AKBARI H,YUAN L Z,QIAN R,et al. VATT:

Transformers for Multimodal Self-Supervised Learning from Raw

Video,Audio and Text [J/OL].arXiv:2104.11178 [cs.CV]. (2021-

04-22).htps://arxiv.org/abs/2104.1178.

[16] ALWASSEL H,MAHAJAND,KORBAR B,

et al. Self-Supervised Learning by Cross-modal Audio-video

Clustering-Supplementary Material— [C]//NeurIPS 2020.

Vancouver:NeurIPs, 2021.https://proceedings.neurips.cc/paper_

files/paper/2020/hash/6f2268bd1d3d3ebaabb04d6b5d099425-

Abstract.html.

[17] GAO D F,LI K,WANG RP,et al. Multi-modal

Graph Neural Network for Joint Reasoning on Vision and Scene

Text [C]//2020 IEEE/CVF Conference on Computer Vision and

Pattern Recognition(CVPR).Seatle: IEEE,2020:12743-

12753.

[18]MISHRAP,PILLIE S,VARADHARAJANV,

et al.VAED:VMI-assisted Evasion Detection Approach for

Infrastructure as a Service Cloud [J].Concurrency and Computation

Practice and Experience,2017,29(12):1-30.

[19]SHIRIANA,SOMANDEPALLIK,GUHAT.Self

supervised GraphsforAudio Representation Learningwith

Limited LabeledData[J].IEEE JournalofSelected Topicsin

SignalProcessing,2022,16(6):1391-1401. [20]SHIRIANA,AHMADIANM,SOMANDEPALLI

K,et al.Heterogeneous Graph Learning for Acoustic Event

Classification[C]//ICASSP2023-2023IEEEInternational

Conference on Acoustics,Speech and Signal Processing (ICASSP).

RhodesIsland:IEEE,2023:1-5. [21]LIUM,LIANGK,HUD,etal.TMAC:Temporal

Multi-modal GraphLearningforAcoustic EventClassification

[C]//Proceedingsofthe3lstACMInternational Conferenceon

Multimedia.Ottawa:ACM,2023:3365-3374.

[22]GEMMEKEJF,ELLISDPW,F(xiàn)REEDMAND,et

al.Audio Set:An Ontologyand Human-labeled Dataset for Audio

Events [C]//2017 IEEE International Conference on Acoustics,

Speech and Signal Processing (ICASSP).New Orleans:IEEE,

2017:776-780.[23]ARNAULTA,HANSSENSB,RICHEN.Urban

SoundClassification:StrivingTowardsaFair Comparison[J/

OL].arXiv:2010.11805 [cs.SD]. (2020-10-22).https://arxiv.org/

abs/2010.11805.

作者簡(jiǎn)介:張墨華(1979.10—),男,漢族,河南信陽(yáng)人,教授,博士,研究方向:機(jī)器學(xué)習(xí);劉霽(2000.03—),男,漢族,河南商丘人,碩士在讀,研究方向:視音多模態(tài)。

主站蜘蛛池模板: 宅男噜噜噜66国产在线观看| 国产农村妇女精品一二区| 亚洲精品自拍区在线观看| 欧美亚洲国产日韩电影在线| 91www在线观看| 国产美女无遮挡免费视频| 伊人丁香五月天久久综合| 狠狠色丁香婷婷| 伊人丁香五月天久久综合| 精品久久人人爽人人玩人人妻| 亚洲成人精品在线| 波多野结衣视频网站| 国产喷水视频| 久久无码免费束人妻| 亚洲码在线中文在线观看| 国产麻豆精品在线观看| 亚洲国产一区在线观看| 中文字幕在线免费看| 国产成人亚洲综合a∨婷婷| 亚洲高清无码精品| 久久天天躁狠狠躁夜夜躁| 美女啪啪无遮挡| 九九视频免费看| 成人精品在线观看| 亚洲成A人V欧美综合| 国产精品亚洲天堂| 国产精品久久久久鬼色| 精品久久久无码专区中文字幕| 中国毛片网| 青青青视频蜜桃一区二区| a级毛片一区二区免费视频| 国产欧美网站| 国产欧美日韩在线一区| 2020久久国产综合精品swag| 国产亚洲视频在线观看| 欧美视频在线不卡| 视频一区视频二区日韩专区| 亚洲日本中文字幕乱码中文| 久久免费成人| 国产高清在线丝袜精品一区| 亚洲欧美成人网| 夜夜高潮夜夜爽国产伦精品| 欧美午夜性视频| 欧美一级专区免费大片| 国产一级小视频| 91无码人妻精品一区二区蜜桃 | 国产精品一区二区不卡的视频| 日韩欧美国产另类| 亚洲人成在线精品| 亚洲一级毛片在线观播放| 中文字幕天无码久久精品视频免费| 国产精品3p视频| 为你提供最新久久精品久久综合| 国产精品自在线天天看片| 久久精品亚洲专区| 免费高清自慰一区二区三区| 国产一区二区三区精品欧美日韩| 午夜精品一区二区蜜桃| 成年女人a毛片免费视频| 韩国自拍偷自拍亚洲精品| 国产噜噜噜视频在线观看| 综合社区亚洲熟妇p| 狠狠亚洲五月天| 91精品日韩人妻无码久久| 亚洲精品爱草草视频在线| 国产综合色在线视频播放线视| 亚洲一级毛片免费观看| 大陆国产精品视频| 国产v欧美v日韩v综合精品| 波多野结衣久久精品| 蜜臀av性久久久久蜜臀aⅴ麻豆| 色婷婷在线影院| 麻豆精品视频在线原创| 超清人妻系列无码专区| 亚洲国产综合第一精品小说| 动漫精品啪啪一区二区三区| 高清视频一区| 国产一级小视频| 久久久久免费看成人影片| 在线观看亚洲精品福利片| 日韩小视频在线播放| 精品视频一区在线观看|