999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合多維時頻特征的環境聲識別

2021-06-23 10:10:30李林樺王學淵李小霞
制造業自動化 2021年6期
關鍵詞:特征信號模型

李林樺,王學淵,李小霞

(西南科技大學 信息工程學院 特殊環境機器人技術四川省重點實驗室,綿陽 621010)

0 引言

近些年來,環境聲識別(Environmental Sound Recognition,ESR)展現出越來越廣泛的應用前景,例如輔助醫療診斷、異常聲信號識別以及物種調查 等[1~3],因此如何提升環境聲識別的識別率也受到越來越多的研究者關注。不同于語音識別以及說話人識別,環境聲來源廣泛且種類多樣,同時傳播途徑存在反射、混響以及其他噪聲源的干擾,導致聲源的聲紋特征在時頻域上是不斷演變的。而目前大多傳統的聲信號特征(如頻率的主成分分析、高階統計量和頻域的幅度等)難以表征聲信號在時頻域上的演變過程,從而導致大多環境聲識別方法(支持向量機、高斯混合模型和K最近鄰算法等)在ESR任務中的表現不佳[4~6]。

針對ESR任務,國內外學者開展了大量的研究。現階段提升ESR性能的方式主要分為兩種。第一種方式主要是改變聲信號特征提取的方法以及融合不同類別的聲信號特征,Piczak等人[7]立了目前使用范圍最為廣泛的ESR數據集:ESC-10和ESC-50,并提出將對數梅爾特征應用于ESR任務中,在這兩個數據集上取得了不錯的識別效果。Tokozume等人[8]提出了一種名為EnvNet的聲信號識別模型,采用一維卷積神經網絡(Convolutional Neural Network,CNN)直接提取聲信號時域波形的特征用于分類識別,在ESC-50數據集上能夠達64%的識別率。Li等人[9]采用DS(Dempster-Shafer,DS)證據理論的方式融合上述兩種方法的識別信息,提出了一種DSCNN模型,這種方法結合了聲信號在時域以及時頻域的不同特征,實驗結果表明,DS證據理論能夠有效地融合兩種不同特征的識別信息,達到結合不同類別的聲信號時頻特征優點的目的,進一步提升了ESR的準確率。第二種方式主要是通過改進模型結構的方式來達到提升識別性能的目的,Boddapati等人[10]嘗試使用一些在圖像分類任務中取得不錯效果的深度CNN來完成ESR任務,如AlexNet和GoogleNet,提取了聲信號的時頻特征作為圖像輸入,這些深度CNN都能在常用的聲信號數據集上取得較好的識別效果。Zhang等人[11]使用空洞卷積來構建ESR模型,由于空洞卷積能有效增加卷積核的感受野,以獲取更多的環境聲的特征信息,獲得了比傳統卷積更高的識別率。陰法明等[12]將一種仿深度隱藏身份特征網絡連接方式應用于ESR任務中,在模型提取高層次聲信號特征的同時兼顧了對應的低層次特征,并將不同層次的特征聚合在了一起,通過這種聚合方式提升了卷積神經網絡的特征提取能力,構建的模型在ESC-10與ESC-50數據集上分別取得了82.3%和65.7%的識別率。

以上研究表明對數梅爾特征圖能有效表征語音特征,并且提取豐富的聲信號特征更有利于提高網絡的識別率。因此,為了進一步提升環境聲識別模型的性能,本文不局限于單一的時頻特征,而是提出一種融合聲信號多維時頻特征的環境聲識別模型(Environment Sound Recognition based on Fusion of Multi-dimensional Timefrequency Features,FMTF-ESR)。首先,提取聲信號的時頻特征(對數梅爾特征和耳蝸特征[13]),通過求取聲信號時頻特征在時域以及頻域上的一階差分,獲取聲信號在時頻域上的能量變化信息;其次,建立CNN獲取兩種多維特征的識別信息;最后,通過DS(Dempster-Shafer,DS)證據理論融合兩種聲信號特征得到最終識別結果。在ESC-10和ESC-50數據集上驗證提出的FMTF-ESR模型的環境聲識別效果。

1 聲信號的多維時頻特征

提取環境聲信號時頻特征的方法可借鑒人耳的選擇性聽覺原理,就可實現某些特定的頻率分量的辨識。因此,需要在頻率坐標軸上低頻區域設置很多的濾波器,分布比較密集,但在高頻區域濾波器的數目設置較少,分布較為稀疏。通過這種模擬人耳選擇性聽覺原理的方式形成了對數梅爾特征與耳蝸特征。

不同類別的聲信號在時域以及頻域上具有不同時頻成分、能量分布以及能量變化的特點,因此,可以利用這些環境聲信號的差異性來進行分類識別。在通過時頻變換獲得聲信號的時頻成分以及能量分布的基礎上,進一步求取時頻特征沿時域與頻域方向上的一階差分特征,從而得到聲信號的能量在時域以及頻域中的動態變化特點。將聲信號的時頻特征及其各自的時域和頻域一階差分特征相結合,形成了一種融合聲信號時域、頻域、幅度以及梯度多維特征的環境聲表征方式。這種多維聲信號表征方式能夠更加有效地為ESR模型提供不同類別聲信號的差異信息,提升模型的識別率。聲信號的多維時頻特征提取過程如下。

首先,利用梅爾濾波器組與Gammatone濾波器組對聲信號進行處理,獲取具有人耳選擇性聽覺特點的時頻特征,對數梅爾時頻特征圖求取過程如式(1)所示。

其中,x(t)i表示第i幀聲信號,N為離散傅里葉變換點數,E(x(t)i)為第i幀聲信號的能量譜,Hm(k)為第m階梅爾濾波器的傳遞函數。耳蝸圖的計算過程如式(2)和式(3)所示。

其中,Gi(x(t),fc)為經Gammatone濾波器濾波后第i幀子帶信號,g(t,fc)為中心頻率為fc的Gammatone濾波器的脈沖響應,U(t)為單位階躍函數,L為幀長。其次,分別求取兩種時頻特征沿時域和頻域的一階差分特征,計算公式如式(4)所示。

其中TFi為第i幀或第i頻段的時頻特征,R的取值一般為2。最后,在原有的兩種時頻特征基礎上,將其對應的時域和頻域一階差分特征相結合,得到對數梅爾多維時頻特征(Log-Mel Multi-dimensional Time-frequency Features,LMMTF)與耳蝸多維時頻特征(Cochlear Multi-dimensional Time-frequency Features,CMTF)。

其中,Difft表示沿時域的一階差分,Difff表示沿頻域的一階差分。

圖1所示,是狗叫聲的LMMTF,可以看出狗叫聲屬于能量突變的聲信號,聲信號的能量在時域中主要集中在較短的一段時間內,頻域中主要分布在低頻段。聲信號產生的前后能量變化十分明顯,并且在頻域的變化主要集中在低頻段。因此,多維度聲紋特征不僅為ESR提供了聲信號能量在時頻域內的分布情況,還可以提供聲信號獨特的能量變化特點。聲信號的多維度時頻特征提取過程如圖2所示。

圖1 狗叫聲的LMMTF

圖2 多維時頻特征提取過程

2 卷積神經網絡與D S 證據理論結合的FMTF-ESR

2.1 卷積神經網絡結構

針對傳統的機器學習算法,如支持向量機、高斯混合模型和K最近鄰算法在ESR任務中存在識別性能低的缺點,采用CNN建立環境聲識別模型,ESR模型中的兩個CNN均包含六層卷積層、一層全連接層以及輸出識別信息的輸出層,CNN的總體結構如表1所示。

表1 卷積神經網絡結構

在模型訓練的過程中,采用Dropout算法來防止過擬合現象的發生,對全連接層進行比例為0.5的Dropout算法處理。除最后一層采用Softmax激活函數獲取識別信息外,其余層采用線性整流單元(Rectified Linear Unit,ReLU)[14]作為激活函數。選用Adam[15]優化器來對CNN進行優化,初始學習率為0.001。批處理的大小為32,選用交叉熵作為模型訓練的損失函數。

2.2 基于DS證據理論的特征融合

對數梅爾特征相對于傳統的低維度的聲信號時頻特征來說,其優點是對于聲信號的能量在時頻域的分布以及聲信號的周期性變化刻畫得更為細致,更加利于識別環境聲。相對于對數梅爾特征,耳蝸特征能夠更好地表征一些能量突變的環境聲信號(如腳步聲和狗叫聲等)[16],因此融合耳蝸圖與對數梅爾特征圖能夠有效提高模型識別的準確率。

DS證據理論基本的概念是建立在一個非空有限集合的識別框架Θ之上,表示可能發生的事件的集合,且識別框架中的每個事件都是相互獨立的。對于Θ中的任一事件A,其基本概率分布(Basic Probability Assignment,BPA)函數m滿足的條件如式(7)所示。

在ESR任務中,所使用的數據集中每一類聲音可以視為識別框架中的一個事件,且每個事件都是相互獨立的。與此同時,本文所提出的聲識別模型中的卷積神經網絡的輸出,則可看作在相同識別框架下的兩個BPA函數m1與m2,且m1與m2滿足式(7)的條件。采用DS證據理論中的Dempster組合規則來有效地融合模型的識別信息,對于,融合公式如下。

圖3 FMTF-ESR的總體結構

3 實驗分析

3.1 數據集

實驗中用以訓練和測試的兩個公共聲信號數據集分別為:ESC-10和ESC-50。ESC-50數據集是目前使用最廣泛的聲信號分類數據集,其中包含50類不同的聲信號,由2000個音頻文件組成,每個音頻文件的長度為5秒,主要分為5個大類:動物聲、自然環境聲、非語音的人聲信號、室內聲以及室外聲。ESC-10為ESC-50的子集,其中包含400個音頻,可分為10類:狗叫聲、雨聲、海浪聲、嬰兒哭泣聲、時鐘滴答聲、噴嚏聲、直升機聲、電鋸聲、公雞叫聲以及火焰燃燒的爆裂聲。

3.2 實驗設置

本文中的所有數據集均采用5折交叉驗證的方式來評估所建立的聲識別模型的性能,所有的音頻文件均轉換為單聲道的wav文件,采樣頻率為44.1kHz,輸入5s的聲信號數據用于特征提取,提取聲信號特征時采用的窗函數為漢寧窗,窗長為1024,重疊部分為512,所設定的梅爾濾波器組個數與Gammatone濾波器組個數均為64。由于采用數據集的單類音頻數據量較少,神經網絡模型在訓練的過程中容易出現過擬合的現象,因此采用音調變換與時間伸縮的方式進行數據增強[17]。

3.3 實驗結果與分析

表2給出了在ESC-10與ESC-50數據集上,傳統的聲信號時頻特征、聲信號的多維時頻特征以及本文所提出的FMTF-ESR的識別結果。與傳統的對數梅爾特征圖以及耳蝸圖相比,以LMMTF與CMTF為輸入的卷積神經網絡的識別率在ECS-10上分別提升了5.1%與6.3%,在ESC-50上分別提升了4.3%與3.9%。相對于傳統的聲信號時頻特征,在增加了聲信號的時域和頻域一階差分特征后,為模型進行聲信號識別提供了更多維度的信息,更加利于模型進行識別。從結果中可以看出,多維度時頻特征更加適用于處理聲信號分類問題。與此同時,通過DS證據理論結合兩種不同特征的優點,能夠進一步提升模型的識別效果。

表2 不同特征的識別結果

圖4為在ESC-10數據集上,FMTF-ESR識別結果的混淆矩陣。從圖中可以看出,本文所提出的FMTF-ESR除海浪聲和直升機聲以外,在其他類別聲信號的識別率均在90%以上,一些時頻特征在時域以及頻域變化極為顯著的聲信號,其識別率可達100%。造成海浪聲識別率較低的原因是海浪聲、直升機聲以及雨聲均為平穩的聲信號,時頻特征在時域以及頻域上的變化極為相似,從而導致三類聲信號難以進行區分。

圖4 ESC-10識別結果的混淆矩陣

表3展示了本文提出的模型與其他的聲信號識別模型,在兩個數據集上的結果比較。本文所提出的模型在ESC-10和ESC-50數據集上分別達到了96.4%和85.3%的識別率。相對于識別性能較好的DS-CNN[9]模型,本文所提出的FMTF-ESR模型識別率在兩個數據集上分別提升了3.8%和2.2%。FMTF-ESR模型的識別性能基本與人耳持平,在兩個數據集上分別提升了0.7%和4%,由此也證明了本文所提出的環境聲識別模型性能更好。

表3 不同ESR模型的識別結果

4 結語

本文提出的FMTF-ESR模型,從ESR任務中的特征提取角度,深入研究了傳統的聲信號時頻特征在時域和頻域上的能量變化關系,形成一種多維的聲信號時頻表征方式,更好地為ESR模型提供聲信號在時頻域上的演變信息。利用耳蝸圖與對數梅爾特征圖在識別效果上的互補特性,通過DS證據理論融合了兩種不同特征的識別信息,從而達到提升環境聲模型識別效果的目的。實驗結果表明,本文所提出的FMTF-ESR模型相較于之前的一些ESR模型取得了更好的識別效果。

猜你喜歡
特征信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成人综合在线视频| 中美日韩在线网免费毛片视频| 精品无码一区二区三区电影 | 日本不卡免费高清视频| 日本不卡在线播放| 亚洲一区二区三区国产精品 | 人妻丰满熟妇AV无码区| 国产对白刺激真实精品91| 国产精品9| 日本成人福利视频| 亚洲国产精品日韩av专区| 欧美啪啪网| 日韩人妻精品一区| 色综合网址| 国产特一级毛片| 精品小视频在线观看| 高清无码不卡视频| 国产午夜一级淫片| 国产午夜一级毛片| 国内精品自在欧美一区| 欧美精品xx| 99视频在线观看免费| 午夜爽爽视频| 日韩AV无码免费一二三区| 亚洲免费福利视频| 91青青视频| 她的性爱视频| 国产人在线成免费视频| 国产成人高清精品免费5388| 日本人妻丰满熟妇区| 国产精品久久久久久久久久久久| 精品国产一区二区三区在线观看| 日韩精品专区免费无码aⅴ| 欧美福利在线| 中文天堂在线视频| 人妻一区二区三区无码精品一区| 9啪在线视频| 国产幂在线无码精品| 国产精品亚洲一区二区在线观看| 狠狠综合久久久久综| 制服丝袜 91视频| 手机成人午夜在线视频| 中文字幕丝袜一区二区| 农村乱人伦一区二区| 一本综合久久| 人妻21p大胆| 伊人蕉久影院| 国产欧美日韩精品综合在线| 成人在线亚洲| 亚洲精品天堂在线观看| 先锋资源久久| 欧美精品二区| 久久婷婷综合色一区二区| 亚洲最新在线| 久久综合婷婷| 欧美精品亚洲二区| 亚洲福利片无码最新在线播放| 国产99视频精品免费观看9e| 欧美不卡二区| 国产亚洲精久久久久久无码AV| 欧美综合成人| 久久6免费视频| 一区二区三区四区精品视频 | 亚洲黄色成人| 在线欧美日韩国产| 中文毛片无遮挡播放免费| A级全黄试看30分钟小视频| 中文字幕在线观看日本| 亚洲丝袜第一页| 欧美中文字幕第一页线路一 | 国产久操视频| 欧美有码在线| 欧美激情福利| 久久久久88色偷偷| 国内精品免费| 日韩欧美色综合| 四虎永久免费地址| 日本黄色a视频| 亚洲无码在线午夜电影| 亚洲国产清纯| 亚洲成网站| 国产精品成人一区二区不卡|