馮成立 程 雯
(武漢郵電科學(xué)研究院 武漢 430000)
語音識別技術(shù)是人工智能領(lǐng)域發(fā)展較為迅猛的方向。其目的是為了將人說話的聲音轉(zhuǎn)換為其對應(yīng)的語言文本信息。傳統(tǒng)語音識別由聲學(xué)模型和語言模型構(gòu)成。傳統(tǒng)的聲學(xué)建模采用高斯混合模型(Gaussian Mixture Model,GMM)來提取語音的聲學(xué)特征信息,語言模型則使用隱馬爾可夫模型[1](Hidden Markov Model,HMM),提取其對應(yīng)的語言特性。隨著深度學(xué)習(xí)發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的語音識別迅速發(fā)展起來,聲學(xué)模型漸漸發(fā)展為深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Network Network,RNN),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,Cnn)等。如,科大訊飛的DFCNN、百度的Deep Speech 等。文本以DFCNN 作為基礎(chǔ)模型進行研究,分析了其模型優(yōu)缺點,并基于此進行改進,對改進前后的準(zhǔn)確率效果進行對比。
文本采用的是16k 語音數(shù)據(jù),語音數(shù)據(jù)預(yù)處理通常兩種做法,提取MFCC和Filter bank特征。MFCC 是在Mel 標(biāo)度頻率域提取出來的倒譜參數(shù),是一種在語音識別領(lǐng)域與說話人識別領(lǐng)域中廣泛使用的特征。Mel 標(biāo)度模擬了人耳頻率的非線性特性,它與頻率的關(guān)系可用下式近似表示:
主要對音頻數(shù)據(jù)處理過程分為以下幾步驟:預(yù)加重,分幀,加窗,快速傅里葉變換(STFT),梅爾濾波,去均值,離散余弦變換(DCT)等。最后構(gòu)造成一個基于人耳頻率的語音特征頻譜圖。Fbank 和MFCC 基本類似,但是在最后一步?jīng)]有使用離散余弦變換,因此fbank包括更豐富的語音特征信息,在使用深度神經(jīng)網(wǎng)絡(luò)的時候,我們通常使用filter bank特征來作為網(wǎng)絡(luò)特征的輸入。
獲得MFCC 語音頻譜特征后,需要使用深度殘差CNN 提取音頻特征。……