基于改進(jìn)MFCC特征的語音識別算法*

2017-11-20 01:44:34邵明強(qiáng)徐志京

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2017年21期

關(guān)鍵詞：特征提取信號

邵明強(qiáng)，徐志京

(上海海事大學(xué) 信息工程學(xué)院，上海 201306)

基于改進(jìn)MFCC特征的語音識別算法*

邵明強(qiáng)，徐志京

(上海海事大學(xué) 信息工程學(xué)院，上海201306)

為了優(yōu)化語音特征提取方法，文中提出了一種稱為MFCC_P的語音特征提取方法。對于語音識別來說，如何提取語音的特征向量至關(guān)重要。但是，現(xiàn)有的算法在去除噪聲時也同時損壞了聲音信號。MFCC_P在Mel濾波器上下工夫，使得濾波器組整齊排列，沒有重疊，噪聲被有效消除。

特征提??；噪聲；MFCC_P

0 引言

語音是人類生活中最重要的元素之一，人們平常說話交流、打電話等都是通過語音傳遞信息。語音識別，顧名思義，就是知道對方的語音內(nèi)容。千百年來，語音識別依靠的是人的發(fā)達(dá)的大腦，但是，隨著計算機(jī)電子科技的不斷發(fā)展，語音識別已經(jīng)成為了計算機(jī)領(lǐng)域的一大熱門，經(jīng)過數(shù)十年的研究，人們將聲學(xué)、數(shù)理統(tǒng)計、信息等多方面知識結(jié)合起來，推動了語音識別學(xué)科的發(fā)展，它方便了人們的生產(chǎn)生活，也將為人工智能時代添磚加瓦。語音識別，首先要進(jìn)行語音的獲取，但是，從自然界直接得到的語音含有噪聲，而且包含了大量的冗余信息，必須先對其進(jìn)行一系列的預(yù)處理，然后提取聲音的特征，基于有效性和可靠性兩個方面，特征參數(shù)一定要有很好的區(qū)分性，并且要具有較強(qiáng)的魯棒性。梅爾倒譜系數(shù)(MFCC)在很大程度上模擬了人耳對語音的處理特點，是被人們驗證符合上述各種條件的一種特征參數(shù)[1]，并且被廣泛地應(yīng)用于各種語音識別系統(tǒng)。但是，筆者認(rèn)為，傳統(tǒng)MFCC在提取特征參數(shù)時不能有效地利用原始信號，有用信號被破壞，噪聲沒有有效去除。筆者通過對傳統(tǒng)MFCC算法進(jìn)行了大量的研究之后，提出了一種稱為MFCC_P的特征參數(shù)提取算法，本文將首先簡單闡述經(jīng)典語音識別基本流程，然后將重點講解改進(jìn)的語音特征參數(shù)提取算法。

1 語音識別的基本原理和流程

語音識別系統(tǒng)的流程圖如圖1所示，包含了語音信號預(yù)處理、特征參數(shù)提取、模式匹配、參考模板等基本要素，各類語音識別系統(tǒng)的流程基本如此。

圖1 語音識別的基本流程

1.1語音預(yù)處理

預(yù)處理模塊主要包括如下幾步：

(1)A/D轉(zhuǎn)換，即將初步獲取的模擬語音信號轉(zhuǎn)為易于處理的數(shù)字信號。

(2)預(yù)加重，由于人體構(gòu)造和發(fā)音特點等原因，頻率高于800 Hz的頻段會有6 dB的衰減，預(yù)加重就是來彌補(bǔ)這部分的損失，預(yù)加重過程采用傳遞函數(shù)為式(1)的數(shù)字濾波器進(jìn)行實現(xiàn)。

H(z)=1-μz-1

(1)

其中μ為常數(shù)，通常取0.97。

(3)分幀加窗，由于語音信號有短時平穩(wěn)特性，可以把語音信號分為一些短段來進(jìn)行處理，這就是分幀，實現(xiàn)方法是采用不斷移動的有限長度的窗口與原始信號相乘，所得結(jié)果就是各個分幀數(shù)據(jù)，一般窗函數(shù)選用漢明窗[2]。

(4)端點檢測，目的是從較復(fù)雜的噪聲信號中獲取到目標(biāo)信號的起始點和結(jié)束點，以此來減少大量的計算?；诟鞣矫婵紤]，一般采用基于短時能量和短時平均過零率的端點檢測方法[3]。

1.2標(biāo)準(zhǔn)特征參數(shù)提取方法

特征提取的過程就是去冗余的過程，特征參數(shù)的選擇對整個系統(tǒng)具有舉足輕重的影響，它的最重要的兩個因素是有效性和可靠性，特征參數(shù)要將原數(shù)據(jù)中的最有用的數(shù)據(jù)提取出來。因此希望它有較強(qiáng)的區(qū)分性和魯棒性，另外，還要控制它的計算量。梅爾倒譜系數(shù)(MFCC)是目前最常用的特征參數(shù)，它是基于人的生理特點創(chuàng)建的一種模型，對語音識別的性能具有重要的推動作用。計算MFCC時需要將頻率轉(zhuǎn)換成梅爾刻度，轉(zhuǎn)換關(guān)系如式(2)：

(2)

MFCC參數(shù)的計算過程如圖2所示。

圖2 MFCC計算流程圖

由于聲音信號在時域上不穩(wěn)定并且變化迅速，一般需要將其轉(zhuǎn)換到頻域上來分析其特征參數(shù)。信號通過預(yù)處理模塊再通過快速傅里葉變換得到各幀數(shù)據(jù)的頻譜參數(shù)，然后將其通過一組N(一般為20～40)個三角帶通濾波器構(gòu)成的Mel頻率濾波器做卷積運(yùn)算，然后對各個頻帶的輸出結(jié)果做對數(shù)運(yùn)算，依次得到對數(shù)能量S(m),m=1,2,3,…,N，最后對這些參數(shù)做離散余弦變換(DCT)，得到梅爾倒譜系數(shù)，也就是最終的聲音特征參數(shù)，如式(3)：

(3)

其中，n為MFCC個數(shù)，Ci(n)為第i幀的第n個MFCC系數(shù)，S(m)為log對數(shù)能量模塊的輸出，M為Mel濾波器的個數(shù)。

1.3語音識別的基本方法

隱馬爾科夫模型(HMM)算法在諸多的語音識別方法中脫穎而出，得到了廣泛的關(guān)注并被證明是最成功的統(tǒng)計模型之一。隱馬爾科夫鏈在馬爾科夫鏈的基礎(chǔ)上用一個觀察的概率分布與各個狀態(tài)相對應(yīng)，它具有雙重隨機(jī)性，因此不能直接觀測它。當(dāng)利用隱馬爾科夫鏈來描述信息時，就稱之為隱馬爾科夫模型。在語音識別中，人們最感興趣的是隱藏在語音信號背后的字符序列，這種情況下，HMM就比馬爾科夫鏈更有優(yōu)勢，因為可以利用它對已經(jīng)看到的數(shù)據(jù)和隱藏在這個數(shù)據(jù)背后的數(shù)據(jù)進(jìn)行建模。

在語音識別系統(tǒng)中，建立聲音訓(xùn)練庫是不可或缺的過程，還有分類器，要用它訓(xùn)練聲音庫，進(jìn)而進(jìn)行預(yù)處理和特征參數(shù)提取。隱馬爾科夫模型中的狀態(tài)輸出概率函數(shù)至關(guān)重要，對系統(tǒng)的性能好壞有很大的影響。本文將選用研究中常用的高斯混合模型(GMM)對聲學(xué)模型進(jìn)行建模，它是多維概率密度函數(shù)，由M個高斯成員組成，每個高斯權(quán)重為D維的模型可用式(4)表示[4]：

(4)

(5)

在式(5)中，μi為均值向量，Σi為協(xié)方差矩陣，共有M個高斯分布函數(shù)混合，每個高斯權(quán)重為wi,取和得到xi的概率分布。

這樣可以由均值向量、協(xié)方差矩陣、混合加權(quán)系數(shù)三個變量來描述一個特定的GMM，可以記作：

λ={wi,μi,Σi}，i=1,2,…,M

將測試樣本中獲取的特征數(shù)據(jù)與GMM分類器結(jié)合，求得后驗概率的最大值，這樣就得到各個測試樣本對應(yīng)的識別結(jié)果，最后將編號相同的測試樣本結(jié)果相加，求出對應(yīng)聲音的總體識別率。

2 改進(jìn)算法

本文提出一種稱為MFCC_P的特征提取方法,主要改善環(huán)節(jié)在Mel濾波階段。在進(jìn)行特征提取之前，先給語音信號添加一個閾值函數(shù)，將這個閾值設(shè)為x,即當(dāng)s(n)>x時,函數(shù)的輸出值即為原值；當(dāng)s(n)

(6)

漢明窗的作用是利用不斷移動的窗函數(shù)對語音進(jìn)行分幀，這個窗函數(shù)在MFCC_P中仍然要用到。

傳統(tǒng)Mel濾波器組的各個三角濾波頻域曲線中，到了高頻階段，頻帶寬度變寬，所以各個三角濾波出現(xiàn)了重疊。在改進(jìn)的算法中，避免了這種重疊。比如，假設(shè)上一個通帶為1 000～2 000 Hz,則下一個通帶應(yīng)被設(shè)置為2 000～4 000 Hz,這樣就不會出現(xiàn)重疊，在這種情況下，噪聲也會被有效消除，處理過程如下：

k=1,…,N

(7)

3 實驗結(jié)果

將MFCC_P算法應(yīng)用于語音識別系統(tǒng)中，總共選取5個語音內(nèi)容作為識別內(nèi)容。語音1為“你好”，語音2為“謝謝”，語音3為“再見”，語音4為“開心”，語音5為“高興”，每個聲音有100個樣本，采樣頻率設(shè)置為16 kHz,量化為16 bit。訓(xùn)練樣本設(shè)置為80個，測試樣本設(shè)置為20個。先用訓(xùn)練樣本對模型進(jìn)行訓(xùn)練。每組實驗做5次，求均值作為結(jié)果，最后識別率的均值作為各個語音的最終識別率。結(jié)果如表1。

4 結(jié)論

由于意識到語音特征提取的重要性，本文在語音識別的過程中，重點研究了特征提取的過程。傳統(tǒng)的特征提取過程有一些劣勢使得沒有最好地提煉有用信息。對于MFCC_P，在Mel濾波過程做了一些工作，對于各個三角濾波，消除了原本濾波器之間的重疊，并且有效地去除了噪聲。實驗結(jié)果表明，通過特征提取算法的改進(jìn)，識別率有了2%～3%左右的提高，說明了改進(jìn)算法的有效性?？梢钥吹?，整體的識別率還不是很理想，下階段將引入深度學(xué)習(xí)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的GMM-HMM進(jìn)行研究。

表1 兩種特征提取算法識別率比較 (%)

[1] BARUA P，AHMAD K，KHAN A A S，et al.Neural network based recognition of speech using MFCC features[C].International Conference on Informatics，Electronics & Vision.IEEE，2014:1-6.

[2] 程佩青.數(shù)字信號處理教程(第二版)[M].北京：清華大學(xué)出版社，2004.

[3] 張雪英.數(shù)字語音信號處理及MATLAB仿真[M].北京：電子工業(yè)出版社，2010.

[4] 王炳錫，屈丹，彭煊，等.實用語音識別基礎(chǔ)[M].北京：國防工業(yè)出版社，2005.

[5] SHAHIN M A，AHMED B，MCKECHNIE J，et al.A comparison of GMM-HMM and DNN-HMM based pronunciation verification techniques for use in the assessment of childhood apraxia of speech[C].INTERSPEECH，2014.

A speech recognition algorithm based on improved MFCC

Shao Mingqiang，Xu Zhijing

(College of Information Engineering，Shanghai Maritime University，Shanghai 201306，China)

In order to optimize the speech feature extraction method，this paper proposes a speech feature extraction method called MFCC_P.For speech recognition,it is very important to extract feature vector from original signal.However,when the existing algorithm removes the noise,it deteriorates the audio signal.MFCC_P does some work on filterbank,it makes the filters bulid up compactly and no overlap between the filters,also,the noise is removed effectively.

feature extraction; noise; MFCC_P

TP391.5

10.19358/j.issn.1674-7720.2017.21.015

邵明強(qiáng)，徐志京.基于改進(jìn)MFCC特征的語音識別算法J.微型機(jī)與應(yīng)用，2017,36(21)：48-50,53.

國家自然科學(xué)基金(61404083)

2017-04-11)

邵明強(qiáng)(1991-)，通信作者，男，碩士研究生，主要研究方向：智能信息處理與模式識別。E-mail:1160013257@qq.com。

徐志京(1972-)，男，工學(xué)博士，副教授，主要研究方向：無線通信，人工智能，深度學(xué)習(xí)。