999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)MFCC特征的語音識別算法*

2017-11-20 01:44:34邵明強(qiáng)徐志京
關(guān)鍵詞:特征提取信號

邵明強(qiáng),徐志京

(上海海事大學(xué) 信息工程學(xué)院,上海 201306)

基于改進(jìn)MFCC特征的語音識別算法*

邵明強(qiáng),徐志京

(上海海事大學(xué) 信息工程學(xué)院,上海201306)

為了優(yōu)化語音特征提取方法,文中提出了一種稱為MFCC_P的語音特征提取方法。對于語音識別來說,如何提取語音的特征向量至關(guān)重要。但是,現(xiàn)有的算法在去除噪聲時也同時損壞了聲音信號。MFCC_P在Mel濾波器上下工夫,使得濾波器組整齊排列,沒有重疊,噪聲被有效消除。

特征提??;噪聲;MFCC_P

0 引言

語音是人類生活中最重要的元素之一,人們平常說話交流、打電話等都是通過語音傳遞信息。語音識別,顧名思義,就是知道對方的語音內(nèi)容。千百年來,語音識別依靠的是人的發(fā)達(dá)的大腦,但是,隨著計算機(jī)電子科技的不斷發(fā)展,語音識別已經(jīng)成為了計算機(jī)領(lǐng)域的一大熱門,經(jīng)過數(shù)十年的研究,人們將聲學(xué)、數(shù)理統(tǒng)計、信息等多方面知識結(jié)合起來,推動了語音識別學(xué)科的發(fā)展,它方便了人們的生產(chǎn)生活,也將為人工智能時代添磚加瓦。語音識別,首先要進(jìn)行語音的獲取,但是,從自然界直接得到的語音含有噪聲,而且包含了大量的冗余信息,必須先對其進(jìn)行一系列的預(yù)處理,然后提取聲音的特征,基于有效性和可靠性兩個方面,特征參數(shù)一定要有很好的區(qū)分性,并且要具有較強(qiáng)的魯棒性。梅爾倒譜系數(shù)(MFCC)在很大程度上模擬了人耳對語音的處理特點,是被人們驗證符合上述各種條件的一種特征參數(shù)[1],并且被廣泛地應(yīng)用于各種語音識別系統(tǒng)。但是,筆者認(rèn)為,傳統(tǒng)MFCC在提取特征參數(shù)時不能有效地利用原始信號,有用信號被破壞,噪聲沒有有效去除。筆者通過對傳統(tǒng)MFCC算法進(jìn)行了大量的研究之后,提出了一種稱為MFCC_P的特征參數(shù)提取算法,本文將首先簡單闡述經(jīng)典語音識別基本流程,然后將重點講解改進(jìn)的語音特征參數(shù)提取算法。

1 語音識別的基本原理和流程

語音識別系統(tǒng)的流程圖如圖1所示,包含了語音信號預(yù)處理、特征參數(shù)提取、模式匹配、參考模板等基本要素,各類語音識別系統(tǒng)的流程基本如此。

圖1 語音識別的基本流程

1.1語音預(yù)處理

預(yù)處理模塊主要包括如下幾步:

(1)A/D轉(zhuǎn)換,即將初步獲取的模擬語音信號轉(zhuǎn)為易于處理的數(shù)字信號。

(2)預(yù)加重,由于人體構(gòu)造和發(fā)音特點等原因,頻率高于800 Hz的頻段會有6 dB的衰減,預(yù)加重就是來彌補(bǔ)這部分的損失,預(yù)加重過程采用傳遞函數(shù)為式(1)的數(shù)字濾波器進(jìn)行實現(xiàn)。

H(z)=1-μz-1

(1)

其中μ為常數(shù),通常取0.97。

(3)分幀加窗,由于語音信號有短時平穩(wěn)特性,可以把語音信號分為一些短段來進(jìn)行處理,這就是分幀,實現(xiàn)方法是采用不斷移動的有限長度的窗口與原始信號相乘,所得結(jié)果就是各個分幀數(shù)據(jù),一般窗函數(shù)選用漢明窗[2]。

(4)端點檢測,目的是從較復(fù)雜的噪聲信號中獲取到目標(biāo)信號的起始點和結(jié)束點,以此來減少大量的計算?;诟鞣矫婵紤],一般采用基于短時能量和短時平均過零率的端點檢測方法[3]。

1.2標(biāo)準(zhǔn)特征參數(shù)提取方法

特征提取的過程就是去冗余的過程,特征參數(shù)的選擇對整個系統(tǒng)具有舉足輕重的影響,它的最重要的兩個因素是有效性和可靠性,特征參數(shù)要將原數(shù)據(jù)中的最有用的數(shù)據(jù)提取出來。因此希望它有較強(qiáng)的區(qū)分性和魯棒性,另外,還要控制它的計算量。梅爾倒譜系數(shù)(MFCC)是目前最常用的特征參數(shù),它是基于人的生理特點創(chuàng)建的一種模型,對語音識別的性能具有重要的推動作用。計算MFCC時需要將頻率轉(zhuǎn)換成梅爾刻度,轉(zhuǎn)換關(guān)系如式(2):

(2)

MFCC參數(shù)的計算過程如圖2所示。

圖2 MFCC計算流程圖

由于聲音信號在時域上不穩(wěn)定并且變化迅速,一般需要將其轉(zhuǎn)換到頻域上來分析其特征參數(shù)。信號通過預(yù)處理模塊再通過快速傅里葉變換得到各幀數(shù)據(jù)的頻譜參數(shù),然后將其通過一組N(一般為20~40)個三角帶通濾波器構(gòu)成的Mel頻率濾波器做卷積運(yùn)算,然后對各個頻帶的輸出結(jié)果做對數(shù)運(yùn)算,依次得到對數(shù)能量S(m),m=1,2,3,…,N,最后對這些參數(shù)做離散余弦變換(DCT),得到梅爾倒譜系數(shù),也就是最終的聲音特征參數(shù),如式(3):

(3)

其中,n為MFCC個數(shù),Ci(n)為第i幀的第n個MFCC系數(shù),S(m)為log對數(shù)能量模塊的輸出,M為Mel濾波器的個數(shù)。

1.3語音識別的基本方法

隱馬爾科夫模型(HMM)算法在諸多的語音識別方法中脫穎而出,得到了廣泛的關(guān)注并被證明是最成功的統(tǒng)計模型之一。隱馬爾科夫鏈在馬爾科夫鏈的基礎(chǔ)上用一個觀察的概率分布與各個狀態(tài)相對應(yīng),它具有雙重隨機(jī)性,因此不能直接觀測它。當(dāng)利用隱馬爾科夫鏈來描述信息時,就稱之為隱馬爾科夫模型。在語音識別中,人們最感興趣的是隱藏在語音信號背后的字符序列,這種情況下,HMM就比馬爾科夫鏈更有優(yōu)勢,因為可以利用它對已經(jīng)看到的數(shù)據(jù)和隱藏在這個數(shù)據(jù)背后的數(shù)據(jù)進(jìn)行建模。

在語音識別系統(tǒng)中,建立聲音訓(xùn)練庫是不可或缺的過程,還有分類器,要用它訓(xùn)練聲音庫,進(jìn)而進(jìn)行預(yù)處理和特征參數(shù)提取。隱馬爾科夫模型中的狀態(tài)輸出概率函數(shù)至關(guān)重要,對系統(tǒng)的性能好壞有很大的影響。本文將選用研究中常用的高斯混合模型(GMM)對聲學(xué)模型進(jìn)行建模,它是多維概率密度函數(shù),由M個高斯成員組成,每個高斯權(quán)重為D維的模型可用式(4)表示[4]:

(4)

(5)

在式(5)中,μi為均值向量,Σi為協(xié)方差矩陣,共有M個高斯分布函數(shù)混合,每個高斯權(quán)重為wi,取和得到xi的概率分布。

這樣可以由均值向量、協(xié)方差矩陣、混合加權(quán)系數(shù)三個變量來描述一個特定的GMM,可以記作:

λ={wi,μi,Σi},i=1,2,…,M

將測試樣本中獲取的特征數(shù)據(jù)與GMM分類器結(jié)合,求得后驗概率的最大值,這樣就得到各個測試樣本對應(yīng)的識別結(jié)果,最后將編號相同的測試樣本結(jié)果相加,求出對應(yīng)聲音的總體識別率。

2 改進(jìn)算法

本文提出一種稱為MFCC_P的特征提取方法,主要改善環(huán)節(jié)在Mel濾波階段。在進(jìn)行特征提取之前,先給語音信號添加一個閾值函數(shù),將這個閾值設(shè)為x,即當(dāng)s(n)>x時,函數(shù)的輸出值即為原值;當(dāng)s(n)

(6)

漢明窗的作用是利用不斷移動的窗函數(shù)對語音進(jìn)行分幀,這個窗函數(shù)在MFCC_P中仍然要用到。

傳統(tǒng)Mel濾波器組的各個三角濾波頻域曲線中,到了高頻階段,頻帶寬度變寬,所以各個三角濾波出現(xiàn)了重疊。在改進(jìn)的算法中,避免了這種重疊。比如,假設(shè)上一個通帶為1 000~2 000 Hz,則下一個通帶應(yīng)被設(shè)置為2 000~4 000 Hz,這樣就不會出現(xiàn)重疊,在這種情況下,噪聲也會被有效消除,處理過程如下:

k=1,…,N

(7)

3 實驗結(jié)果

將MFCC_P算法應(yīng)用于語音識別系統(tǒng)中,總共選取5個語音內(nèi)容作為識別內(nèi)容。語音1為“你好”,語音2為“謝謝”,語音3為“再見”,語音4為“開心”,語音5為“高興”,每個聲音有100個樣本,采樣頻率設(shè)置為16 kHz,量化為16 bit。訓(xùn)練樣本設(shè)置為80個,測試樣本設(shè)置為20個。先用訓(xùn)練樣本對模型進(jìn)行訓(xùn)練。每組實驗做5次,求均值作為結(jié)果,最后識別率的均值作為各個語音的最終識別率。結(jié)果如表1。

4 結(jié)論

由于意識到語音特征提取的重要性,本文在語音識別的過程中,重點研究了特征提取的過程。傳統(tǒng)的特征提取過程有一些劣勢使得沒有最好地提煉有用信息。對于MFCC_P,在Mel濾波過程做了一些工作,對于各個三角濾波,消除了原本濾波器之間的重疊,并且有效地去除了噪聲。實驗結(jié)果表明,通過特征提取算法的改進(jìn),識別率有了2%~3%左右的提高,說明了改進(jìn)算法的有效性??梢钥吹?,整體的識別率還不是很理想,下階段將引入深度學(xué)習(xí)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的GMM-HMM進(jìn)行研究。

表1 兩種特征提取算法識別率比較 (%)

[1] BARUA P,AHMAD K,KHAN A A S,et al.Neural network based recognition of speech using MFCC features[C].International Conference on Informatics,Electronics & Vision.IEEE,2014:1-6.

[2] 程佩青.數(shù)字信號處理教程(第二版)[M].北京:清華大學(xué)出版社,2004.

[3] 張雪英.數(shù)字語音信號處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010.

[4] 王炳錫,屈丹,彭煊,等.實用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2005.

[5] SHAHIN M A,AHMED B,MCKECHNIE J,et al.A comparison of GMM-HMM and DNN-HMM based pronunciation verification techniques for use in the assessment of childhood apraxia of speech[C].INTERSPEECH,2014.

A speech recognition algorithm based on improved MFCC

Shao Mingqiang,Xu Zhijing

(College of Information Engineering,Shanghai Maritime University,Shanghai 201306,China)

In order to optimize the speech feature extraction method,this paper proposes a speech feature extraction method called MFCC_P.For speech recognition,it is very important to extract feature vector from original signal.However,when the existing algorithm removes the noise,it deteriorates the audio signal.MFCC_P does some work on filterbank,it makes the filters bulid up compactly and no overlap between the filters,also,the noise is removed effectively.

feature extraction; noise; MFCC_P

TP391.5

A

10.19358/j.issn.1674-7720.2017.21.015

邵明強(qiáng),徐志京.基于改進(jìn)MFCC特征的語音識別算法J.微型機(jī)與應(yīng)用,2017,36(21):48-50,53.

國家自然科學(xué)基金(61404083)

2017-04-11)

邵明強(qiáng)(1991-),通信作者,男,碩士研究生,主要研究方向:智能信息處理與模式識別。E-mail:1160013257@qq.com。

徐志京(1972-),男,工學(xué)博士,副教授,主要研究方向:無線通信,人工智能,深度學(xué)習(xí)。

猜你喜歡
特征提取信號
特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識別
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
孩子停止長個的信號
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 精品国产黑色丝袜高跟鞋| 国产超碰在线观看| 中文字幕伦视频| 欧美日韩国产在线观看一区二区三区 | 色精品视频| 91无码视频在线观看| 国产亚洲精品在天天在线麻豆| 中文字幕自拍偷拍| 五月六月伊人狠狠丁香网| 色悠久久久| 日本91视频| 欧美精品aⅴ在线视频| 国产超碰一区二区三区| 日本国产精品| 无码久看视频| 成人在线综合| 天天综合网色| 在线播放91| 九色91在线视频| 久久精品电影| 亚洲精品在线影院| 亚洲日韩AV无码一区二区三区人| 一级毛片在线免费视频| 波多野结衣视频网站| 99视频在线观看免费| 国产福利观看| 99久久精品国产麻豆婷婷| 91福利免费| 国产欧美日韩视频怡春院| 国精品91人妻无码一区二区三区| Jizz国产色系免费| 超清人妻系列无码专区| 亚洲精品福利网站| 女人一级毛片| 国产成人AV男人的天堂| 欧美日本二区| YW尤物AV无码国产在线观看| 亚洲精品另类| 欧美成人一区午夜福利在线| 青青草久久伊人| 尤物精品视频一区二区三区| 亚洲欧美在线综合一区二区三区| 亚洲天堂网2014| 国产手机在线ΑⅤ片无码观看| 久久免费看片| 国产特一级毛片| 欧美激情第一区| 国产一区二区免费播放| 成人免费网站在线观看| 久久久久无码国产精品不卡| 亚洲欧美日韩色图| 波多野结衣一二三| 波多野结衣国产精品| 亚洲av综合网| 国产精品专区第1页| 另类重口100页在线播放| 日本一本在线视频| 欧美日韩国产综合视频在线观看| 国产区免费| 亚洲视频欧美不卡| 九九这里只有精品视频| 欧美日韩va| 免费看的一级毛片| 亚洲综合网在线观看| 亚洲三级影院| 亚洲视频免费播放| 中文成人在线视频| 亚洲成aⅴ人在线观看| 一级毛片视频免费| 日韩国产精品无码一区二区三区| 亚洲精品天堂在线观看| 天堂在线www网亚洲| 国产美女免费网站| 在线色综合| lhav亚洲精品| 一本大道无码高清| 老司机精品99在线播放| 日韩人妻无码制服丝袜视频| 欧美影院久久| 国产精品污污在线观看网站| 九九热精品视频在线| 玖玖免费视频在线观看|