







摘要:環境聲音分類(ESC)技術主要涉及聲音特征提取和分類器算法的選擇。為了探索最佳的特征提取方法和分類器組合,文章對深度學習模型PANNs-CNN進行了研究和分析,對不同的特征提取方法進行了實驗對比。實驗結果表明,在與同類模型對比中,選用預訓練且更深層的CNN模型可以提高ESC的預測性能;Log-Mel特征可以更好地保留聲音信號高維度特征及特征相關性,有助于提升模型分類準確率。文章研究的基于Log-Mel特征提取方式和PANNs-CNN 14的環境聲音分類算法在ESC-50數據集上的分類準確率最好,并且在實際應用中驗證了該算法的有效性。
關鍵詞:環境聲音分類;預訓練音頻神經網絡;卷積神經網絡;Log-Mel;Mel頻率倒譜系數
中圖分類號:TP3-05" 文獻標志碼:A
0 引言
環境聲音分類(Environmental Sound Classifica-tion, ESC)技術已被廣泛應用于警報系統、野生動物監測、城市環境聲音檢測等領域,主要涉及聲音特征提取和分類器算法的選擇。在聲音特征提取方面,目前廣泛使用基于梅爾濾波器組和伽瑪通濾波器組的特征提取方法。在分類器方面,與傳統機器學習模型的手動特征提取方案相比,深度學習能夠從大型數據集中自動提取具有區分性的特征,并且在未見過的數據上具有良好的泛化能力。Piczak[1]采用了從Log-Mel(LM)特征中獲得的二維結構輸入具有2個全連接層和2個卷積層的深度學習模型,該模型的準確率達到了64.5%。Tokozume等[2]提出了一個由全連接層和一維卷積層組成的CNN模型,從原始波形中提取特征,達到了71.0%的準確率。Zhu等[3]研究了由6個卷積層組成的深度神經模型的預測性能,基于頻譜圖和原始波進行特征提取,獲得了79.1%的準確率。
然而,這些研究工作仍然存在明顯不足:(1)選用的特征提取算法很多是為語音、音樂等結構化聲音信號設計的,無法充分表征復雜的非結構化環境聲音;(2)對更深的神經網絡探索不足,訓練模型的泛化能力不強。為此,本文選用在AudioSet數據集預訓練的深度學習模型PANNs-CNN作為主干架構,使用公開數據集ESC-50進行模型微調(fine-tune),對基于梅爾濾波器組的Log-Mel特征和Mel頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)特征提取方法進行實驗對比,以探尋最佳的特征提取方法與分類器的組合。
1 研究對象與方法
1.1 ESC-50數據集
聲音檢測在研究領域取得了巨大進展,公開可用的帶標注數據集功不可沒。ESC-50是2000個環境聲音樣本的帶標注公開數據集,可以認為是環境聲音分類的基準數據集之一。該數據集包含了5大類聲音樣本,分別是動物聲音、自然界聲音、人類發出的非語言聲音、室內聲音以及城市噪聲。每個大類的聲音樣本又細分為10個小類,是單通道的.wav文件,采樣頻率為44.1 kHz,時長為5 s。
1.2 特征提取方法
1.2.1 Log-Mel特征
聲音信號首先經過預處理(包括預加重、分幀和加窗等)后進行短時傅里葉變換(Short-Time Fourier Transform,STFT),得到功率譜;然后通過一組三角形梅爾濾波器,對功率譜進行濾波得到梅爾頻譜。
Log-Mel特征是對梅爾頻譜進行對數運算得到的,其表達式滿足式(1)。
LogMel(m,j)=log(Sm(m,j)+ε)(1)
其中,Sm(m,j)是聲音信號的梅爾頻譜,ε是一個小常數,用于避免對數零值問題。對數運算考慮了人類聽覺系統的非線性特性,使提取的特征更加符合人類的聲音感知。
1.2.2 MFCC特征
MFCC特征是對Log-Mel特征進行離散余弦變換得到的,其表達式滿足式(2)。
MFCC(m,n)=∑J-1j=0LogMel(m,j)·cosπnJ(j+12)(2)
其中,n是MFCC系數的索引,J是MFCC的系數數量。為了壓縮數據,一般僅保留最有效(前12~20個)的MFCC特征,因此J通常取值為13。
1.3 PANNs-CNN模型
在大規模AudioSet數據集中,基于卷積神經網絡的預訓練音頻神經網絡(Pretrained Audio Neural Networks based Convolutional Neural Network,PANNs-CNN)分為6層、10層和14層結構,在本文分別記為PANNs-CNN6、PANNs-CNN10、PANNs-CNN14。6層結構由4個卷積層組成,卷積核大小為(5,5)。10層和14層結構分別由4個和6個卷積塊組成,每個卷積塊由2個卷積層組成,卷積核大小為(3,3)。PANNs-CNN在每個卷積層之間應用批量歸一化(Batch Normalization,BN),并使用ReLU激活函數。卷積模塊之后使用平均池化下采樣,池化核大小為(2,2)。PANNs-CNN14的模型結構,如圖1所示。
2 實驗及分析
2.1 實驗設置
2.1.1 數據集
本文使用ESC-50數據集對PANNs-CNN進行訓練和評估。聲音的采樣頻率為44.1 kHz,窗函數選擇漢寧窗,幀長為1024,幀移為320,梅爾頻率通道數為64。
本文采用5-fold交叉驗證的方法劃分數據集,以證明最終模型評估結果非隨機產生。即將整個數據樣本分成5等份,訓練過程每次選擇其中的一份作為驗證集,其余4份作為訓練集,最終以5次訓練在驗證集上的準確率均值作為該模型的最終評估結果。
2.1.2 模型參數
為適配ESC-50數據集,本文在PANNs-CNN模型的末尾添加了50個節點的全連接神經網絡,用以將提取的音頻特征映射到分類標簽的空間。每個模型的超參數均進行相同的設置,每次訓練的Epoch均為50次,優化函數為Adam,學習率為0.0001,batch size設置為16,dropout值為0.3,損失函數為交叉熵損失函數。
本文所有模型均基于paddlepaddle-gpu 2.6.1深度學習框架及Python 3.8進行訓練。用于程序運行的計算機操作系統為Ubantu18.04,內存為64 GB,處理器型號為Intel Xeon W-2223,顯卡型號為NVIDIA GeForce RTX 2080 Ti,顯卡內存為11 GB。
2.2 實驗結果
2.2.1 準確率和損失值
PANNs-CNN模型在ESC-50數據集的訓練準確率(train_acc)、驗證準確率(val_acc),如圖2所示;訓練損失(train_loss)、驗證損失(val_loss),如圖3所示。
可以看到,PANNs-CNN 14經過大約20次的迭代,驗證集的準確率穩定在92.5%左右,損失值在0.29左右。其達到穩定準確率和損失值所需的迭代次數,明顯少于實驗中同類模型PANNs-CNN6、PANNs-CNN10所需的50次以上。
PANNs-CNN模型以及現有的部分同類環境聲音分類模型,在ESC-50數據集的準確率如表1所示。
可以看到,基于Log-Mel特征和PANNs-CNN 14的環境聲音分類算法在ESC-50數據集上的分類精度最高。這說明對于復雜環境聲音分類任務,選用預訓練且更深層的CNN模型可以提高ESC的預測性能。
2.2.2 特征提取方法對比
為了研究不同特征提取方法的模型效果,另一組實驗在相同的數據集和模型參數下,采用MFCC特征提取的方法微調PANNs-CNN 14模型。MFCC特征的維度是13維,加上一階、二階差分,得到39維的MFCC特征。不同特征提取方法的模型準確率曲線、損失曲線分別如圖4—5所示。
由圖可以看到,對于復雜環境聲音分類任務,采用Log-Mel特征提取方法的PANNs-CNN 14模型在驗證集的準確率和損失值上均優于采用MFCC特征提取方法的同種模型。這是因為MFCC特征舍棄了聲音部分高維度特征,更強調低頻部分的聲音特征,因而更適用于傳統的語音識別,而PANNs-CNN 14模型利用包含高維度特征及特征相關性的Log-Mel特征,對復雜環境聲音有更好的分類性能。
采用MFCC、Log-Mel特征提取方法訓練的PANNs-CNN 14模型在ESC-50數據集中進行訓練的準確率如表2所示。
3 模型應用
通過上述的實驗及分析,Log-Mel特征提取方法與PANNs-CNN 14模型組合的算法性能在公開數據集上得到驗證。此外,本文還采集了真實環境中的聲音片段,構建了樣本量為200、分類為車輛碰撞聲、人體摔倒聲、施工噪聲、水龍頭漏水聲的數據集。該聲音場景數據集樣本的梅爾語譜圖示例如圖6所示。
采用Log-Mel特征提取方法,將提取到的聲音特征微調PANNs-CNN 14模型,在樣本量為40的實驗中,驗證評估其分類準確率,得到的混淆矩陣,如圖7所示。
可以看到,在實際應用中模型對4種聲音場景的分類準確率約為90%。這說明在實際聲音分類應用中,采用Log-Mel特征的PANNs-CNN 14模型具有良好的性能表現。不難分析,除了場景頻域特征相似導致分類錯誤外,聲音樣本的噪聲也對分類效果產生了負面影響。
4 結語
本文研究了在大規模數據集預訓練的深度學習模型中解決環境聲音分類的問題。實驗結果表明,在與同類模型的對比中,選用預訓練且更深層的CNN" 模型可以提高ESC的預測性能;Log-Mel特征可以更好地保留聲音信號高維度特征及特征相關性,有助于提升模型分類準確率。相比于現有的一些CNN模型,結合Log-Mel特征提取方法的PANNs-CNN 14模型的分類性能得到明顯提升,并在實際采集的4種聲音場景中表現出良好的泛化能力。后續的研究方向,可以針對抗噪性能更強的模型結構進行研究和改進,以實現更優的聲音分類效果。
參考文獻
[1]PICZAK K J. 25th International Workshop on Machine Learning for Signal Processing,September 17-20,2015[C]. Boston:IEEE,2015.
[2]TOKOZUME Y,HARADA T. International Conference on Acoustics, Speech, and Signal Processing (ICASSP),March 05-09,2017[C]. New Orleans:IEEE,2017.
[3]ZHU B Q, WANG C J, LIU F, et al. International Joint Conference on Neural Networks(IJCNN),July 08-13,2018[C]. Rio de Janeiro:IEEE,2018.
[4]ZHANG X H, ZOU Y X, SHI W. 2017 22nd International Conference on Digital Signal Processing,August 23-25,2017[C]. London:IEEE,2017.
[5]PICZAK K J. Proceedings of the 23rd ACM International Conference on Multimedia,October 26-30,2015[C]. New York:SIGMM,2015.
(編輯 沈 強)
Research and application of environmental sound classification algorithm based on PANNs-CNN
GUAN" Zhiguang
(Nanning Vocational and Technical University, Nanning 530008, China)
Abstract: Environmental sound classification(ESC) technology mainly involves sound feature extraction and the selection of classifier algorithms. In order to explore the best feature extraction methods and classifier combinations, this article studies and analyzes the deep learning model PANNs-CNN, and compares different feature extraction methods through experiments. The experimental results show that compared with similar models, selecting pretrained and deeper CNN models can improve the predictive performance of ESC. Log-Mel features can better preserve high-dimensional features and feature correlations of sound signals,which helps improve the accuracy of model classification. The environmental sound classification algorithm based on Log-Mel feature extraction method and PANNs-CNN14 studied in the article has the best classification accuracy on the ESC-50 dataset,and its effectiveness has been verified in practical applications.
Key words: ESC; PANNs; CNN; Log-Mel; Mel frequency cepstrum coefficient
基金項目:廣西教育科學“十四五”規劃2023年度專項課題;項目名稱:新工科背景下人工智能類專業專創融合實踐教學研究;項目編號:2023ZJY1841。
作者簡介:關志廣(1988— ),男,講師,碩士;研究方向:人工智能及機器人技術。