999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的環(huán)境聲音識別

2018-10-20 11:01:44史秋瑩鄭鐵然
智能計算機與應用 2018年5期
關鍵詞:特征信號環(huán)境

史秋瑩 鄭鐵然

Abstract: Environment Sound Recognition(ESR) is an efficient way to perceive surrounding scenes, which is widely used in many application scenarios like robotic navigation, mobile robots, audio retrieval, audio forensics and other wearable, context-aware applications. Classifiers used in most ESR problems is too simple to express features and classify the environment sounds accurately. Deep Neural Network(DNN) is a multilayer, efficient neural network, which also can provide a better way for describing features and solving pattern recognition problems. In this paper, deep learning is used in ESR problem, and for sufficient using audio features, different audio features are fusioned by feature-fusion method. Based on the above, the paper classifies the environment sound by training the Deep Belief Network(DBN). Experimental results show that DBN and feature-fusion method could achieve better performance.

引言

第一次以文學形式記載下來的環(huán)境聲音識別的研究出現(xiàn)在1997年,具體是由來自麻省理工學院(Massachusetts Institute of Technology, MIT)的Sawhney和Maes首度提出并創(chuàng)建問世[1],該研究的數(shù)據(jù)庫使用包括人群、地鐵、交通、人聲和其它5種語料,而且利用循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN) 和K-近鄰(K-Nearest Neighbor, KNN) 方法分別進行5種環(huán)境聲音的分類,最終使用頻帶特征和RNN 分類器獲得68%的準確率。1998年,同樣來自MIT的研究者通過在去往超市途中和在超市內佩戴麥克風的方式獲取連續(xù)的語音流,并對獲取的語音流加以分割,得到不同的特征地點如街道、房間、超市等總共10類場景,為了進行環(huán)境場景的分類,研究選用了隱馬爾科夫(Hidden Markov Model, HMM)[2]。同時,實驗心理學領域的研究者著重研究人們理解和感知聲音場景的過程,Ballas 發(fā)現(xiàn)識別音頻場景的速度和準確率與自然聲音的刺激、發(fā)生頻率等因素直接密切相關[3]。Peltonen等人則發(fā)現(xiàn)人們識別音頻場景是受特定的聲音事件的效果影響的,如人類說話聲、汽車引擎轟鳴聲等,同時還在識別25類聲音場景中獲得70%的準確率,平均響應時間為20 s[4]。在心理聲學相關研究以及MIT研究者[1-2]的影響下,環(huán)境聲音識別受到了廣泛的關注。

目前在環(huán)境聲音識別問題中,已推出了一些成熟解決方法,如GMM、HMM、KNN 等,這些都屬于常用的機器學習方法。但是這些架構都是淺層結構,可以對簡單問題或者完全約束問題取得良好的效果。但是當處理復雜的自然信號如環(huán)境聲音、自然語言時,由于缺少對復雜信號的表達能力和建模能力,淺層模型往往無法滿足識別性能的要求。而從淺層學習到深度學習的過程則可以視作為機器學習的一條清晰發(fā)展脈絡。

1962年,由Rosenblatt 第一次引入感知器, 從此感知器作為神經(jīng)網(wǎng)絡中的一個分支概念[5] 而進入學界視野。在此基礎上,Raudys提出單層感知器[6],其中只包含輸入層和輸出層,且兩者直接相連,而單層感知器也是一種最簡單的神經(jīng)網(wǎng)絡。1989年提出的多層感知器[7],組成結構即是在單層感知器的設計上加入了一層隱藏層,多層感知器是最早具備深層結構的神經(jīng)網(wǎng)絡。在1986年,由Rumelhart等人提出誤差反向傳播算法(Error Back Propagation, BP)[8],給基于統(tǒng)計模型的機器學習帶來了發(fā)展契機,但是BP 算法并不適用于多個隱藏層的網(wǎng)絡,所以在20世紀80年代末期,雖然找到了求解神經(jīng)網(wǎng)絡權值的有效方法,但卻只能繼續(xù)應用在多層感知器上,并不能從本質上脫離淺層網(wǎng)絡。由于受到這一現(xiàn)實問題阻隔,神經(jīng)網(wǎng)絡的研究曾一度擱置,轉而研究支持向量機(Support Vector Machine, SVM) 和條件隨機場(Conditional Random Field, CRF) 理論等其它淺層機器學習方法,而這些淺層網(wǎng)絡及相關理論的研究為深度學習的研究提供了良好的理論依據(jù)和經(jīng)驗基礎。

玻爾茲曼機(Boltzmann Machine, BM) 由Hinton 和 Sejnowski 在1986年成功構建推出的[8],且是一種基于統(tǒng)計力學的隨機神經(jīng)網(wǎng)絡。同年,Sejnowski又進一步提出了RBM[9]。RBM 是包含有一個可見層、一個隱藏層的層間全連接、層內無連接的網(wǎng)絡,并具有許多優(yōu)良的性質,其中的重要成果即是文獻[10],從理論上證明了只要隱藏單元足夠多,RBM 可以擬合任意離散分布。而2002年提出的對比散度算法(Contrastive Divergence, CD)[11],也由此而吸引了研究者對RBM 以及CD 算法的研究矚目。直到2006年,深度學習才正式亮相,在學術領域占據(jù)一席之地。另外,Hinton的研究表明訓練一個全連接的深層網(wǎng)絡是完全可行的[12]。從2006年開始,深度學習作為一個新的機器學習領域受到了更多學者的青睞,也已開始陸續(xù)應用在語音處理、圖像處理等眾多研究領域中,而且均已取得了豐碩成果。

綜上研究可知,深度學習已經(jīng)具有完整的理論框架和豐厚的經(jīng)驗基礎,將其應用在環(huán)境聲音識別中即已成為呈現(xiàn)利好應用前景的研究嘗試。本文擬對此展開如下研究論述。

1說話人識別基本框架

基于深度學習的環(huán)境聲音識別流程如圖1所示。流程中包括音頻輸入、前端處理、DBN分類和分類結果4個部分。文中重點論述了前端處理和DBN分類這2部分內容。其中,前端處理包括梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)和能量譜密度(Power Spectral Density, PSD)的提取,并在提取后進行特征拼接。研究過程詳見如下。

1.1前端處理

聲音信號是帶有聲波頻率、幅度變化等信息的載體,聲音信號的前端處理過程主要是對音頻信號進行特征提取。聲音信號除了根本性的基頻、諧波、幅度等特征外,當特定對應于不同問題,也需要提取一些符合具體問題背景的音頻特征。特征提取的目的是為了去掉原始音頻數(shù)據(jù)中的冗余信息,減少實驗數(shù)據(jù)量,而在進行音頻特征提取時,往往可以從時域和頻域2個方面分別考慮。音頻信號在時域上的變化較為快速,不易觀察,而在頻域上通常可以假設音頻信號在一個較短時間內具有穩(wěn)定性,所以音頻信號的前端處理過程往往選擇在頻域上獲得實現(xiàn)。

在環(huán)境聲音識別問題中,MFCC 特征較其它音頻特征常常更顯研究優(yōu)勢,本文在MFCC 特征的基礎上,嘗試加入其它音頻特征以提升識別性能。在本文中即選擇使用了能量譜密度(Power Spectral Density, PSD) 特征與MFCC 特征融合。為此,在本節(jié)中將首先給出MFCC 特征和PSD 特征的研究闡釋,然后對音頻特征的拼接方法提供完整的設計表述與分析。

1.1.1梅爾倒譜系數(shù)

20世紀40年代,Stevens 和 Volkmann 的研究表明,人類對于不同頻率的聲音反應有不同的聽覺靈敏度。在1 KHz以下,聽覺系統(tǒng)所感知的聲音頻率(Mel)與該聲音的物理頻率(Hz)逼近于線性關系;而在1 KHz以上,聲音頻率與物理頻率不再遵循線性關系,而是接近于對數(shù)關系,且聲音頻率越高,人耳的聽覺靈敏度越差[13]。基于這一理論事實,1980年,文獻[14]全新提出了MFCC 特征,重點用于刻畫聲音在Mel 刻度頻率上提取得出的倒譜系數(shù),此外,MFCC 還可以對卷積信道產(chǎn)生的失真生成良好的補償能力。總地來說,MFCC就是將人耳的聽覺感知特性和語音的產(chǎn)生機制二者相結合。由此可知,人耳對于高頻率聲音的聽覺靈敏度較差,故而,在實際應用中,往往只保留低頻MFCC 特征,而舍棄高頻MFCC 特征。MFCC的提取過程如圖2所示。本文設計的主要流程包括6個部分,分別為:音頻預處理、快速傅里葉變換(Fast Fourier Transform, FFT)、取模平方、通過Mel 濾波器組、取對數(shù)能量和離散余弦變換(Discrete Consine Transform, DCT)。

猜你喜歡
特征信號環(huán)境
長期鍛煉創(chuàng)造體內抑癌環(huán)境
一種用于自主學習的虛擬仿真環(huán)境
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
孕期遠離容易致畸的環(huán)境
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
環(huán)境
基于FPGA的多功能信號發(fā)生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
主站蜘蛛池模板: 蜜芽一区二区国产精品| 日韩av在线直播| 国产成人免费| 强奷白丝美女在线观看| 亚洲美女视频一区| 99无码中文字幕视频| 国产精品lululu在线观看| 中文字幕日韩丝袜一区| 亚洲成人精品| 日韩国产亚洲一区二区在线观看| 色噜噜综合网| m男亚洲一区中文字幕| 嫩草在线视频| 欧美国产日本高清不卡| 一级毛片在线免费视频| 亚洲美女一级毛片| 欧美精品v日韩精品v国产精品| 久久中文字幕av不卡一区二区| 操国产美女| 成年人免费国产视频| 久久窝窝国产精品午夜看片| 又黄又爽视频好爽视频| 亚洲第一页在线观看| 国产一区二区三区夜色| 亚洲男人天堂2018| 亚洲区视频在线观看| 亚洲精品片911| 毛片免费在线视频| 又粗又硬又大又爽免费视频播放| 在线一级毛片| a级毛片一区二区免费视频| 午夜限制老子影院888| 第九色区aⅴ天堂久久香| 亚洲中文字幕23页在线| 宅男噜噜噜66国产在线观看| 无码AV日韩一二三区| 搞黄网站免费观看| 国产欧美视频一区二区三区| 色婷婷电影网| 亚洲va在线观看| 国产福利拍拍拍| 日韩精品无码不卡无码| 色婷婷亚洲综合五月| 亚洲Av激情网五月天| 国产丝袜第一页| 亚洲无码精品在线播放| 久久精品亚洲热综合一区二区| 综合社区亚洲熟妇p| 欧美精品在线免费| 国产一区二区人大臿蕉香蕉| 国产黄色片在线看| www.狠狠| 全色黄大色大片免费久久老太| 欧洲熟妇精品视频| 91日本在线观看亚洲精品| 欧美激情综合一区二区| 欧美一区二区三区欧美日韩亚洲| 精品国产欧美精品v| 亚洲一区二区日韩欧美gif| 国产青青草视频| 午夜在线不卡| 美女毛片在线| 亚欧成人无码AV在线播放| 欧美成人精品高清在线下载| 亚洲日韩Av中文字幕无码 | 91在线播放国产| 中文字幕日韩久久综合影院| 狠狠色成人综合首页| 无码一区二区波多野结衣播放搜索| 久久国产精品麻豆系列| www中文字幕在线观看| 欧美有码在线| 国产综合日韩另类一区二区| 91亚洲精选| 不卡视频国产| 久久久久国色AV免费观看性色| 亚洲国产天堂久久综合| 日本高清有码人妻| 欧美日韩在线亚洲国产人| 国产毛片不卡| 免费女人18毛片a级毛片视频| 无码'专区第一页|