999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PANNs-CNN的環境聲音分類算法研究及應用

2024-12-31 00:00:00關志廣
無線互聯科技 2024年16期

摘要:環境聲音分類(ESC)技術主要涉及聲音特征提取和分類器算法的選擇。為了探索最佳的特征提取方法和分類器組合,文章對深度學習模型PANNs-CNN進行了研究和分析,對不同的特征提取方法進行了實驗對比。實驗結果表明,在與同類模型對比中,選用預訓練且更深層的CNN模型可以提高ESC的預測性能;Log-Mel特征可以更好地保留聲音信號高維度特征及特征相關性,有助于提升模型分類準確率。文章研究的基于Log-Mel特征提取方式和PANNs-CNN 14的環境聲音分類算法在ESC-50數據集上的分類準確率最好,并且在實際應用中驗證了該算法的有效性。

關鍵詞:環境聲音分類;預訓練音頻神經網絡;卷積神經網絡;Log-Mel;Mel頻率倒譜系數

中圖分類號:TP3-05" 文獻標志碼:A

0 引言

環境聲音分類(Environmental Sound Classifica-tion, ESC)技術已被廣泛應用于警報系統、野生動物監測、城市環境聲音檢測等領域,主要涉及聲音特征提取和分類器算法的選擇。在聲音特征提取方面,目前廣泛使用基于梅爾濾波器組和伽瑪通濾波器組的特征提取方法。在分類器方面,與傳統機器學習模型的手動特征提取方案相比,深度學習能夠從大型數據集中自動提取具有區分性的特征,并且在未見過的數據上具有良好的泛化能力。Piczak[1]采用了從Log-Mel(LM)特征中獲得的二維結構輸入具有2個全連接層和2個卷積層的深度學習模型,該模型的準確率達到了64.5%。Tokozume等[2]提出了一個由全連接層和一維卷積層組成的CNN模型,從原始波形中提取特征,達到了71.0%的準確率。Zhu等[3]研究了由6個卷積層組成的深度神經模型的預測性能,基于頻譜圖和原始波進行特征提取,獲得了79.1%的準確率。

然而,這些研究工作仍然存在明顯不足:(1)選用的特征提取算法很多是為語音、音樂等結構化聲音信號設計的,無法充分表征復雜的非結構化環境聲音;(2)對更深的神經網絡探索不足,訓練模型的泛化能力不強。為此,本文選用在AudioSet數據集預訓練的深度學習模型PANNs-CNN作為主干架構,使用公開數據集ESC-50進行模型微調(fine-tune),對基于梅爾濾波器組的Log-Mel特征和Mel頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)特征提取方法進行實驗對比,以探尋最佳的特征提取方法與分類器的組合。

1 研究對象與方法

1.1 ESC-50數據集

聲音檢測在研究領域取得了巨大進展,公開可用的帶標注數據集功不可沒。ESC-50是2000個環境聲音樣本的帶標注公開數據集,可以認為是環境聲音分類的基準數據集之一。該數據集包含了5大類聲音樣本,分別是動物聲音、自然界聲音、人類發出的非語言聲音、室內聲音以及城市噪聲。每個大類的聲音樣本又細分為10個小類,是單通道的.wav文件,采樣頻率為44.1 kHz,時長為5 s。

1.2 特征提取方法

1.2.1 Log-Mel特征

聲音信號首先經過預處理(包括預加重、分幀和加窗等)后進行短時傅里葉變換(Short-Time Fourier Transform,STFT),得到功率譜;然后通過一組三角形梅爾濾波器,對功率譜進行濾波得到梅爾頻譜。

Log-Mel特征是對梅爾頻譜進行對數運算得到的,其表達式滿足式(1)。

LogMel(m,j)=log(Sm(m,j)+ε)(1)

其中,Sm(m,j)是聲音信號的梅爾頻譜,ε是一個小常數,用于避免對數零值問題。對數運算考慮了人類聽覺系統的非線性特性,使提取的特征更加符合人類的聲音感知。

1.2.2 MFCC特征

MFCC特征是對Log-Mel特征進行離散余弦變換得到的,其表達式滿足式(2)。

MFCC(m,n)=∑J-1j=0LogMel(m,j)·cosπnJ(j+12)(2)

其中,n是MFCC系數的索引,J是MFCC的系數數量。為了壓縮數據,一般僅保留最有效(前12~20個)的MFCC特征,因此J通常取值為13。

1.3 PANNs-CNN模型

在大規模AudioSet數據集中,基于卷積神經網絡的預訓練音頻神經網絡(Pretrained Audio Neural Networks based Convolutional Neural Network,PANNs-CNN)分為6層、10層和14層結構,在本文分別記為PANNs-CNN6、PANNs-CNN10、PANNs-CNN14。6層結構由4個卷積層組成,卷積核大小為(5,5)。10層和14層結構分別由4個和6個卷積塊組成,每個卷積塊由2個卷積層組成,卷積核大小為(3,3)。PANNs-CNN在每個卷積層之間應用批量歸一化(Batch Normalization,BN),并使用ReLU激活函數。卷積模塊之后使用平均池化下采樣,池化核大小為(2,2)。PANNs-CNN14的模型結構,如圖1所示。

2 實驗及分析

2.1 實驗設置

2.1.1 數據集

本文使用ESC-50數據集對PANNs-CNN進行訓練和評估。聲音的采樣頻率為44.1 kHz,窗函數選擇漢寧窗,幀長為1024,幀移為320,梅爾頻率通道數為64。

本文采用5-fold交叉驗證的方法劃分數據集,以證明最終模型評估結果非隨機產生。即將整個數據樣本分成5等份,訓練過程每次選擇其中的一份作為驗證集,其余4份作為訓練集,最終以5次訓練在驗證集上的準確率均值作為該模型的最終評估結果。

2.1.2 模型參數

為適配ESC-50數據集,本文在PANNs-CNN模型的末尾添加了50個節點的全連接神經網絡,用以將提取的音頻特征映射到分類標簽的空間。每個模型的超參數均進行相同的設置,每次訓練的Epoch均為50次,優化函數為Adam,學習率為0.0001,batch size設置為16,dropout值為0.3,損失函數為交叉熵損失函數。

本文所有模型均基于paddlepaddle-gpu 2.6.1深度學習框架及Python 3.8進行訓練。用于程序運行的計算機操作系統為Ubantu18.04,內存為64 GB,處理器型號為Intel Xeon W-2223,顯卡型號為NVIDIA GeForce RTX 2080 Ti,顯卡內存為11 GB。

2.2 實驗結果

2.2.1 準確率和損失值

PANNs-CNN模型在ESC-50數據集的訓練準確率(train_acc)、驗證準確率(val_acc),如圖2所示;訓練損失(train_loss)、驗證損失(val_loss),如圖3所示。

可以看到,PANNs-CNN 14經過大約20次的迭代,驗證集的準確率穩定在92.5%左右,損失值在0.29左右。其達到穩定準確率和損失值所需的迭代次數,明顯少于實驗中同類模型PANNs-CNN6、PANNs-CNN10所需的50次以上。

PANNs-CNN模型以及現有的部分同類環境聲音分類模型,在ESC-50數據集的準確率如表1所示。

可以看到,基于Log-Mel特征和PANNs-CNN 14的環境聲音分類算法在ESC-50數據集上的分類精度最高。這說明對于復雜環境聲音分類任務,選用預訓練且更深層的CNN模型可以提高ESC的預測性能。

2.2.2 特征提取方法對比

為了研究不同特征提取方法的模型效果,另一組實驗在相同的數據集和模型參數下,采用MFCC特征提取的方法微調PANNs-CNN 14模型。MFCC特征的維度是13維,加上一階、二階差分,得到39維的MFCC特征。不同特征提取方法的模型準確率曲線、損失曲線分別如圖4—5所示。

由圖可以看到,對于復雜環境聲音分類任務,采用Log-Mel特征提取方法的PANNs-CNN 14模型在驗證集的準確率和損失值上均優于采用MFCC特征提取方法的同種模型。這是因為MFCC特征舍棄了聲音部分高維度特征,更強調低頻部分的聲音特征,因而更適用于傳統的語音識別,而PANNs-CNN 14模型利用包含高維度特征及特征相關性的Log-Mel特征,對復雜環境聲音有更好的分類性能。

采用MFCC、Log-Mel特征提取方法訓練的PANNs-CNN 14模型在ESC-50數據集中進行訓練的準確率如表2所示。

3 模型應用

通過上述的實驗及分析,Log-Mel特征提取方法與PANNs-CNN 14模型組合的算法性能在公開數據集上得到驗證。此外,本文還采集了真實環境中的聲音片段,構建了樣本量為200、分類為車輛碰撞聲、人體摔倒聲、施工噪聲、水龍頭漏水聲的數據集。該聲音場景數據集樣本的梅爾語譜圖示例如圖6所示。

采用Log-Mel特征提取方法,將提取到的聲音特征微調PANNs-CNN 14模型,在樣本量為40的實驗中,驗證評估其分類準確率,得到的混淆矩陣,如圖7所示。

可以看到,在實際應用中模型對4種聲音場景的分類準確率約為90%。這說明在實際聲音分類應用中,采用Log-Mel特征的PANNs-CNN 14模型具有良好的性能表現。不難分析,除了場景頻域特征相似導致分類錯誤外,聲音樣本的噪聲也對分類效果產生了負面影響。

4 結語

本文研究了在大規模數據集預訓練的深度學習模型中解決環境聲音分類的問題。實驗結果表明,在與同類模型的對比中,選用預訓練且更深層的CNN" 模型可以提高ESC的預測性能;Log-Mel特征可以更好地保留聲音信號高維度特征及特征相關性,有助于提升模型分類準確率。相比于現有的一些CNN模型,結合Log-Mel特征提取方法的PANNs-CNN 14模型的分類性能得到明顯提升,并在實際采集的4種聲音場景中表現出良好的泛化能力。后續的研究方向,可以針對抗噪性能更強的模型結構進行研究和改進,以實現更優的聲音分類效果。

參考文獻

[1]PICZAK K J. 25th International Workshop on Machine Learning for Signal Processing,September 17-20,2015[C]. Boston:IEEE,2015.

[2]TOKOZUME Y,HARADA T. International Conference on Acoustics, Speech, and Signal Processing (ICASSP),March 05-09,2017[C]. New Orleans:IEEE,2017.

[3]ZHU B Q, WANG C J, LIU F, et al. International Joint Conference on Neural Networks(IJCNN),July 08-13,2018[C]. Rio de Janeiro:IEEE,2018.

[4]ZHANG X H, ZOU Y X, SHI W. 2017 22nd International Conference on Digital Signal Processing,August 23-25,2017[C]. London:IEEE,2017.

[5]PICZAK K J. Proceedings of the 23rd ACM International Conference on Multimedia,October 26-30,2015[C]. New York:SIGMM,2015.

(編輯 沈 強)

Research and application of environmental sound classification algorithm based on PANNs-CNN

GUAN" Zhiguang

(Nanning Vocational and Technical University, Nanning 530008, China)

Abstract: Environmental sound classification(ESC) technology mainly involves sound feature extraction and the selection of classifier algorithms. In order to explore the best feature extraction methods and classifier combinations, this article studies and analyzes the deep learning model PANNs-CNN, and compares different feature extraction methods through experiments. The experimental results show that compared with similar models, selecting pretrained and deeper CNN models can improve the predictive performance of ESC. Log-Mel features can better preserve high-dimensional features and feature correlations of sound signals,which helps improve the accuracy of model classification. The environmental sound classification algorithm based on Log-Mel feature extraction method and PANNs-CNN14 studied in the article has the best classification accuracy on the ESC-50 dataset,and its effectiveness has been verified in practical applications.

Key words: ESC; PANNs; CNN; Log-Mel; Mel frequency cepstrum coefficient

基金項目:廣西教育科學“十四五”規劃2023年度專項課題;項目名稱:新工科背景下人工智能類專業專創融合實踐教學研究;項目編號:2023ZJY1841。

作者簡介:關志廣(1988— ),男,講師,碩士;研究方向:人工智能及機器人技術。

主站蜘蛛池模板: 在线观看免费人成视频色快速| 2020国产在线视精品在| 国产精品精品视频| 福利视频一区| 欧美精品亚洲精品日韩专| 亚洲国产中文精品va在线播放| 99这里精品| 中国丰满人妻无码束缚啪啪| 国产主播在线一区| 99久久国产精品无码| 91在线免费公开视频| 手机精品视频在线观看免费| 国产一区二区三区在线观看视频| a级毛片在线免费观看| 国产综合色在线视频播放线视 | 国产精品丝袜视频| 欧美国产日韩在线观看| 5555国产在线观看| 亚洲无限乱码一二三四区| 精品久久久久无码| 亚洲一区毛片| 日本久久网站| 欧美一级在线播放| 亚洲综合九九| 欧美黄网站免费观看| 广东一级毛片| 欧美一级专区免费大片| 国产美女在线免费观看| 成人无码一区二区三区视频在线观看| 呦女亚洲一区精品| 国产香蕉在线| 91麻豆精品国产高清在线| 五月天丁香婷婷综合久久| 国产精品lululu在线观看| 热思思久久免费视频| 久久男人资源站| 2020国产在线视精品在| 国产噜噜噜| 欧美性色综合网| 麻豆精品在线播放| 国产女人水多毛片18| 一级毛片在线播放| 欧美日韩专区| 久久国产成人精品国产成人亚洲 | 91无码人妻精品一区| 婷婷综合色| 91久久精品日日躁夜夜躁欧美| 99色亚洲国产精品11p| 国产成人高清精品免费5388| 色综合中文| 色悠久久久| 亚洲第一成年网| 国产一区二区三区在线精品专区| 色婷婷在线播放| 亚洲AV色香蕉一区二区| 欧美精品导航| 欧美性天天| 欧美午夜性视频| 亚洲永久视频| 欧美精品H在线播放| 少妇精品久久久一区二区三区| 19国产精品麻豆免费观看| 99视频国产精品| 韩日无码在线不卡| 欧美一级黄色影院| 国产精品永久免费嫩草研究院| 热思思久久免费视频| 少妇极品熟妇人妻专区视频| 久久精品人人做人人综合试看| 亚洲最新网址| 久久久精品无码一区二区三区| 国产成人av一区二区三区| 色偷偷一区| 五月激情综合网| 亚洲第一视频免费在线| 嫩草国产在线| 欧美一区二区三区欧美日韩亚洲| 免费国产黄线在线观看| 免费 国产 无码久久久| 成人免费视频一区| 久久www视频| 国产簧片免费在线播放|