999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

DeepESC網絡的環境聲分類方法研究

2019-11-11 13:25:34陰法明王詩佳趙力
聲學技術 2019年5期
關鍵詞:分類特征環境

陰法明,王詩佳,趙力

DeepESC網絡的環境聲分類方法研究

陰法明1,王詩佳2,趙力2

(1. 南京信息職業技術學院通信學院,江蘇南京 210023;2. 東南大學信息科學與工程學院,江蘇南京 210096)

為進一步提升環境聲分類的識別率,提出了一種仿深度隱藏身份特征 (Deep Hidden Identity Feature, DeepID)網絡連接方式的卷積神經網絡——深度環境聲分類網絡(Deep Environment Sound Classification, DeepESC)。DeepESC網絡共有六層——三層卷積層、兩層全連層以及一層聚合層,為使網絡在自動抽取高層次特征的同時能有效地兼顧低層次特征,網絡將三層卷積層的輸出聚合為一層,該層充分包含不同層次的特征,提升了卷積神經網絡的特征表達能力。ESC-10和ESC-50數據集上的仿真結果表明:在相同的識別框架下,與隨機森林分類器相比,本文網絡識別率分別平均提升了7.6%和22.4%,與傳統的卷積神經網絡相比,識別率分別平均提升4%和2%,仿真實驗驗證了本文分類器的有效性。

卷積神經網絡;環境聲分類;DeepID網絡

0 引言

由于鏡頭角度固定、光線偏弱等原因,傳統的人工視覺系統領域的監控系統的性能受到較多限制,而基于環境聲的系統往往能夠穩定工作,彌補視覺監控系統的不足。在環境聲的系統中,環境聲識別是研究的重點,開展針對環境聲識別的研究具有較強的實際意義。

在環境聲分類中,分類器的選擇在一定程度上決定了系統的性能,因此,國內外學者針對該問題進行了大量的研究。在以往的研究中,通常以隨機森林(Random Forest)[1]、支持向量機(Support Vector Machine, SVM)[2]和高斯混合模型(Gaussian Mixed Model, GMM)[2]作為主流分類器進行識別。盡管這些傳統的分類器已經取得了一定的效果,但離人們的期望仍有一定的差距。

在環境聲識別領域,一些研究者嘗試卷積神經網絡算法(Convolutional Neural Networks, CNN)[3-5],并取得一定的成果。比如,具有獨特的網絡結構和特征提取算法的DeepID網絡[4],在人臉識別領域達到了99%的成功率。但環境聲分類問題不同于人臉識別,環境聲片段是一維的時間序列數據,而人臉圖像則是具有特殊拓撲結構的二維數據,因此,DeepID網絡并不能直接應用于環境聲分類問題。基于此,本文首先將一維的環境聲數據轉換為二維的梅爾倒譜系數(Mel-Frequency Cepstral Coefficients, MFCC)圖像,并使用卷積神經網絡作為分類器,采用DeepID特有的網絡連接方式組織網絡,從而構建了可以直接用于環境聲分類的DeepESC網絡。此外,傳統的聲音事件特征以MFCC為主[6-7],為進一步挖掘MFCC內在特征,發揮圖像的多通道優勢,本文在MFCC圖像的基礎上,提取出MFCC的1階至5階差分特征,再加上原MFCC圖像,總共形成6通道圖像特征,構成最終的輸入特征。數據集ESC-10和ESC-50上的仿真實驗驗證了本文模型的有效性。

1 相關理論

1.1 卷積神經網絡

一個典型的卷積神經網絡由輸入層、若干卷積層和池化層、少量的全連層和最后一層輸出層(分類器)組成。卷積層和池化層一般交替出現。卷積層的作用是提取圖像的特征;池化層的作用是對特征圖進行壓縮,降低計算復雜度,提高特征提取的魯棒性。卷積層和池化層一般交替出現在網絡中,全連接層負責把提取的特征圖連接起來,最后通過分類器得到最終的分類結果。一張特征圖中的所有元素都是通過一個卷積核計算得出的,也即一張特征圖共享了相同的權重和偏置項。這一結構使得卷積神經網絡能夠利用輸入數據的二維結構。與其他深度學習結構相比,卷積神經網絡在圖像和語音識別方面能夠給出更好的結果。

卷積神經網絡的低層卷積層所抽取的特征,往往是局部的,高層卷積層抽取的特征源于低層卷積層的輸出,層數越高學到的特征就越全局化。在實際應用中,往往使用多層卷積,然后再使用全連接層進行訓練[7]。

1.2 DeepID網絡

DeepID網絡包括8層網絡結構:4個卷積層,3個池化層,1個全連接層。全連接得到的是160特征向量,最后根據160維向量進行SVM或者Softmax分類。為了克服多層卷積導致的局部特征丟失的問題,DeepID網絡3個池化層的輸出與第4個卷積層的輸出連接后傳播至全連接層,使得網絡既能利用局部特征,又能利用全局特征。

2 環境聲分類網絡DeepESC

環境聲片段的MFCC圖像與傳統圖像相比,僅有單通道,像素級的信息相對較少,并且局部相關性強。傳統CNN的各卷積層在逐層細化提取圖像特征的同時,也在丟失粗粒度、低層次的特征,這使得原本像素信息相對較少的MFCC圖像在CNN網絡中最頂層的信息維度偏低。

通過把前三層卷積層所提取出的特征圖互相連接在一起,可以得到新的特征圖。但由于三層卷積層的特征圖具有不同的維度,因此按式(2)將特征圖展開為一維特征:

其中,,表示第層卷積核的尺寸,和分別表示像素索引,表示特征圖的通道數。

再將展平的各層特征圖連接,得到最終的融合特征圖:

從式(3)可知,所有卷積層提取所得的特征圖融合在一起獲得了,最終作為融合特征輸入DeepESC的全連層進行分類識別。DeepESC的網絡結構見圖1,各層參數如表1所示。

表1 DeepESC網絡結構參數

由于本文所用數據量較小,且DeepESC網絡層數較多,在訓練過程中產生了較強的過擬合現象。為對抗過擬合,本文采用Dropout算法[8],根據卷積層以及全連層的過擬合程度不同,分別對全連接層、DeepESC卷積層進行比例為0.5和0.2的Dropout算法處理。

3 實驗仿真

3.1 數據集

本文采用公開數據集ESC-10以及ESC-50[9]。ESC-50數據集是2 000個環境音頻樣本集合,每個樣本長度是5 s,共50類聲音,采樣率為44.1 kHz,適用于環境聲音分類算法測試。ESC-10數據集是ESC-50的子數據集,包含10個類別,每個類別40個樣本,共400個環境聲樣本,總時長為33 min。

神經網絡容易出現過擬合現象,因此需要更多的訓練數據。本文采用了文獻[10]和文獻[11]中的方法,根據環境聲數據的類別,對樣本進行不同程度的移調和時間伸縮,以此擴充數據集。由此,ESC-10數據集被擴大了10倍,ESC-50數據集被擴大了4倍。進行數據擴充后的ESC-10和ESC-50數據集被用于提取梅爾頻譜特征,并進行分段形成最終的樣本集合。ESC-10數據集最終共包含1500個樣本,ESC-50則含有7 200個樣本。

3.2 實驗相關參數設計

預處理及特征提取:為提高算法的有效性,首先通過端點檢測去除樣本語音的靜默片段。然后以22.050 kHz的頻率對樣本進行重采樣,對樣本分幀并計算快速傅里葉變換(Fast Fourier Transform, FFT),其中,FFT點數為512,幀重疊率為50%。之后,使用60個子帶濾波器組成梅爾濾波器組,計算得到梅爾頻譜,并將其分為等長的若干段,段重疊率為50%,以段作為單元進行識別。每段共41幀,時長約930 ms。在梅爾頻譜圖像基礎上,利用Librosa軟件包[12]提取其1階至5階的差分特征,最終構成6通道的圖像輸入特征。

訓練網絡:本文采用目前流行的深度學習框架Caffe搭建訓練網絡[13]。在深層神經網絡(Deep Neural Networks, DNN)中超參數的選擇對網絡的訓練乃至最后網絡的收斂狀態有著極大的影響[14]。目前,只能通過啟發式搜索來尋找一個較優解[15]的方式選擇網絡的超參數。通過多次實驗與比較,最終確定的網絡超參數見表2。

對比分類器及其參數:(1) 隨機森林分類器,最大深度為6,最大估計量為100[9];(2) CNN,兩層卷積層,卷積核尺寸分別為(57, 6)和(1, 3),后接池化層的池化核尺寸均為(2, 2),最后為兩層具有5 000個神經元的全連層[16];(3) DNN,共5層神經元數目為384的全連層,Dropout比率為0.5[17]

評估標準:環境聲識別中,以國際上通用的準確率作為評估指標。

表2 訓練超參數表

3.3 對比實驗

本文模型最終的分類準確率通過五折交叉驗證得到,其中,每份驗證集中均不包含擴充數據集中的音頻片段,只包含原始的音頻片段,擴充的環境聲片段只用于訓練網絡。

為使模型評估更具對比度,在相同特征的基礎上(MFCC),將DeepESC網絡與隨機森林(Random Forests)分類器以及傳統CNN分類器[16],在相同數據集ESC-10和ESC-50上進行了比較。此外,為了對比卷積層提取特征的作用,本文構建了一個5層深層神經網絡,并在ESC數據集上訓練測試。

表3給出了4種分類器在ESC-10數據集和ESC-50數據集上的實驗結果。與隨機森林分類器相比,在2個數據集上,DeepESC分別提升了7.6%,22.4%,卷積神經網絡在環境聲分類問題上所表現出的性能優于傳統分類器;與DNN相比,DeepESC網絡的識別率分別提升了17.5%,23.6%。由于具有卷積層,因此DeepESC網絡識別率屬于深層神經網絡CNN,卷積神經網絡由于具有局部區域連接、權值共享、降采樣的結構特點,使其在圖像處理和語音識別領域表現出色。與傳統CNN相比,DeepID網絡通過連接各個卷積層的輸出,融合了多個層次的特征,從而能更大程度上地保留特征信息[19]。而本文在DeepID網絡的基礎上增加兩層全連層構成DeepESC網絡,該結構能保留不同維度的信息,并增加Softmax層,使得DeepESC能直接對環境聲進行分類,改變了DeepID僅提取特征而不進行分類的模式。因此,DeepESC較傳統CNN識別率分別提高了4%和2%。

表3 不同分類器的識別率對比

從整體的計算復雜度和空間復雜度來看,DNN的空間復雜度約為106的量級,卷積網絡則為107,DeepESC也同樣為107。在同樣使用GPU計算的情況下,三種神經網絡的前向推理所耗費的時間基本相同,都為10 ms左右。可見,在犧牲了一定的存儲空間下,DeepESC通過增加網絡容量,提高了識別的精度。

4 結 語

本文嘗試利用卷積神經網絡解決環境聲分類問題,并取得了優于傳統模型的識別率,從而證明了卷積神經網絡對環境聲分類的可行性。此外,在傳統卷積神經網絡的基礎上,通過參考DeepID的特殊網絡連接方式,構建適用于環境聲分類的DeepESC網絡。實驗結果表明,DeepESC網絡以特殊的網絡連接方式獲取了更多層次的特征,并且由此達到比傳統卷積神經網絡更高的分類識別率,在環境聲分類問題上有較好的應用前景。

[1] PHAN H. Random regression forests for acoustic event detection and classification[J]. IEEEACM Transactions on Audio Speech & Language Processing, 2015, 23(1): 20-31.

[2] ZIEGER C, OMOLOGO M. Acoustic event classification using a distributed microphone network with a GMM/SVM combined algorithm[C]//INTERSPEECH 2008, Conference of the International Speech Communication Association, Brisbane, Australia, September. DBLP, 2008: 115-118.

[3] HAN Y, LEE K. Acoustic scene classification using convolutional neural network and multiple-width frequency-delta data augmentation[J]. ArXiv Preprint ArXiv, 2016: 1607.02383.

[4] ELIZALDE B, KUMAR A, SHAH A, et al. Experiments on the DCASE Challenge 2016: acoustic scene classification and sound event detection in real life recording[C]//Proceedings of the Detection and Classification of Acoustic Scenes and Events 2016 Workshop(DCASE2016). Budapest, Hungary, 2016: 20-24.

[5] Z?HRER M, PERNKOPF F. Gated recurrent networks applied to acoustic scene classification and acoustic event detection[C]// Presented at the Detection and Classification of Acoustic Scenes and Events 2016 (DCASE 2016), 2016: 115-119.

[6] VU, TOAN H., AND JIA-CHING WANG. Acoustic scene and event recognition using recurrent neural networks[C]//Detection and Classification of Acoustic Scenes and Events 2016, Budapest, Hungary, 2016.

[7] 陶銳, 孫彥景, 劉衛東. 多重水印快速加密技術在圖像深度傳感器中的應用[J]. 傳感技術學報, 2018, 31(12): 159-164.

TAO Rui,SUN Yanjing,LIU Weidong. Application of multi watermark fast encryption technology in image depth transduce[J]. Chinese Journal of Sensors And Actuators, 2018, 31(12): 159-164.

[8] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

[9] PICZAK K J. ESC: Dataset for environmental sound classification [C]//ACM International Conference on Multimedia, ACM, 2015:1015-1018.

[10] SUN Y, WANG X, TANG X. Deeply learned face representations are sparse, selective, and robust[C]//Computer Vision & Pattern Recognition. 2015: 2892–2900.

[11] Sylvia Frühwirth-Schnatter. Data augmentation and dynamic linear models[J]. Journal of Time Series Analysis, 1994, 15(2): 183-202.

[12] MCFEE B, RAFFEL C, LIANG D, et al. Librosa: Audio and music signal analysis in Python[C]//Proc. of the 14th Python in Science Conf. (SCIPY 2015), 2015: 18-24.

[13] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Acm International Conference on Multimedia, 2014: 675–678.

[14] POVEY D, ZHANG X , KHUDANPUR S . Parallel training of deep neural networks with natural gradient and parameter averaging[C]// Computing Research Repository(CoRR 2014), 2014: 1410-7455.

[15] BERGSTRA J, BENGIO Y. Random search for Hyper-Parameter optimization[J]. Journal of Machine Learning Research, 2012, 13(1): 281-305.

[16] PICZAK K J. Environmental sound classification with convolutional neural networks[C]//2015 IEEE 25th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2015: 1-6.

[17] HERTEL L, PHAN H, MERTINS A. Comparing time and frequency domain for audio event recognition using deep learning[C]//2016 International Joint Conference on Neural Networks (IJCNN). Vancouver, BC, 2016: 3407-3411.

[18] Diederik P. Kingma, Jimmy Ba. Adam: A method for stochastic optimization[J]. ArXiv Preprint ArXiv, 2014: 1412. 6980.

[19] 陶銳. 面向電子票據認證的數字水印加密算法研究[D]. 中國礦業大學, 2018.

TAO Rui. Research on digital watermarking encryption algorithm for electronic bill authentication[D]. China University of Mining and Technology, 2018.

Environmental sound classification using DeepESC convolutional neural networks

YIN Fa-ming1, WANG Shi-jia2, ZHAO Li2

(1.Nanjing College of Information Technology, Nanjing 210023, Jiangsu, China;2. School of Information Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China)

To improve the accuracy of environmental sound classification, a new convolutional neural network named DeepESC, which imitates the connection of DeepID network, is proposed. DeepESC is composed of three convolution layers, two fully connected layers and one concatenate layer. To extract both high-level features and low-level features effectively, a concatenate layer is designed to join all convolution layers’ output together, which comprises all features of different levels in the DeepESC network. Experimental results on ESC-10 and ESC-50 data sets show that, compared with random forest classification in same conditions, the accuracy of DeepESC is improved by 7.6% and 22.4% respectively, and by 4% and 2% respectively compared with the traditional convolutional neural network.

convolution networks; environmental sound classification; DeepID network

TB52+9

A

1000-3630(2019)-05-0590-04

10.16300/j.cnki.1000-3630.2019.05.018

2018-05-13;

2018-07-06

國家自然科學基金(61571106)

陰法明(1980-), 男, 山東肥城人, 碩士, 副教授, 研究方向為信號處理。

陰法明,E-mail: yinfm@njcit.cn

猜你喜歡
分類特征環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
分類算一算
孕期遠離容易致畸的環境
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
環境
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 91毛片网| 亚洲日韩Av中文字幕无码| 国产乱人伦AV在线A| 亚洲系列中文字幕一区二区| 亚洲欧美自拍中文| 久久无码av三级| 亚洲丝袜第一页| 专干老肥熟女视频网站| 日韩乱码免费一区二区三区| 国产亚洲精品资源在线26u| 最新亚洲人成无码网站欣赏网 | 91精品免费高清在线| 丰满人妻久久中文字幕| 好久久免费视频高清| 少妇精品网站| 69综合网| 香蕉久人久人青草青草| 人妻夜夜爽天天爽| 国产在线精品网址你懂的| 看你懂的巨臀中文字幕一区二区| 无码一区18禁| 中文字幕66页| 国产亚洲欧美日韩在线一区| 波多野结衣一区二区三区88| 国产美女精品一区二区| 伊人成人在线| 成人综合久久综合| jijzzizz老师出水喷水喷出| 五月婷婷丁香综合| 91亚洲国产视频| 国产99精品视频| 91网站国产| 99re经典视频在线| 91视频区| 久久性视频| 国产91特黄特色A级毛片| 亚洲三级影院| 国产精品一区二区不卡的视频| 久久婷婷五月综合色一区二区| 亚洲第一成年免费网站| 91国内外精品自在线播放| 人禽伦免费交视频网页播放| 欧美人与动牲交a欧美精品| 亚洲欧美h| 久久综合色天堂av| 一区二区三区精品视频在线观看| 精品视频第一页| 香蕉视频在线精品| 亚洲人在线| 欧美a在线| 久草视频一区| 日韩专区第一页| 国产亚洲欧美在线专区| 中文字幕久久精品波多野结| 精品国产免费观看一区| 97视频精品全国在线观看| 久久国产精品波多野结衣| 亚洲婷婷六月| 在线欧美a| 久久 午夜福利 张柏芝| 亚洲黄色激情网站| 亚洲综合九九| 国产日韩欧美在线视频免费观看| 91青青在线视频| 毛片网站在线看| 国产网站在线看| 日本道中文字幕久久一区| 亚洲人成影院在线观看| 国产精品一区二区久久精品无码| 亚洲成人在线免费| 亚洲美女高潮久久久久久久| 亚洲精品桃花岛av在线| 性色生活片在线观看| 亚洲啪啪网| 中国丰满人妻无码束缚啪啪| 欧美成人区| 国产精品.com| 免费AV在线播放观看18禁强制| www.亚洲国产| 日韩美女福利视频| 91综合色区亚洲熟妇p| 欧美亚洲香蕉|