基于神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)應(yīng)用研究

2018-04-12 10:06:04周春榮

中國科技縱橫 2018年6期

周春榮

摘要：語音識別技術(shù)能夠?qū)崿F(xiàn)人機對話，本文從神經(jīng)網(wǎng)絡(luò)角度出發(fā)對語音識別技術(shù)的應(yīng)用及優(yōu)化進行探究。文章首先概述了神經(jīng)網(wǎng)絡(luò)及語音識別技術(shù)的相關(guān)理論；其次對語音識別系統(tǒng)基本結(jié)構(gòu)設(shè)計進行了分析，主要包括語音信號處理、BP算法、BP網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計以及學(xué)習(xí)樣本的選取；最后對人工神經(jīng)網(wǎng)絡(luò)語音識別的應(yīng)用實例進行了論述，具體包括對于特定人的語音識別、對于非特定人的語音識別以及BP算法改進的進步一實驗三部分。

關(guān)鍵詞：神經(jīng)網(wǎng)絡(luò)；語音識別技術(shù)；應(yīng)用實踐

中圖分類號：TN912.34 文獻標(biāo)識碼：A 文章編號：1671-2064（2018）06-0018-02

在當(dāng)前信息時代之下，人們對計算機的智化要求日漸提升，語音識別技術(shù)便是計算機智化的重要表現(xiàn)之一，各學(xué)者對語音識別技術(shù)的研究也相當(dāng)多，并提出較多的識別方法，如模板匹配法、統(tǒng)計模式識別法等，這些方法存在一定的劣勢，本文從神經(jīng)網(wǎng)絡(luò)理論出發(fā)對語音識別技術(shù)進行探究，分析基于神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)的構(gòu)建與應(yīng)用實踐，以期為相關(guān)研究人員提供一定的參考。

1 神經(jīng)網(wǎng)絡(luò)及語音識別技術(shù)概述

1.1 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)分為生物神經(jīng)網(wǎng)絡(luò)及人工神經(jīng)網(wǎng)絡(luò)，本文所探討的為人工神經(jīng)網(wǎng)絡(luò)（ANNs，Artificial Neural Networks）。人工神經(jīng)網(wǎng)絡(luò)是一種鏈接模型，依照生物神經(jīng)網(wǎng)絡(luò)的特征所構(gòu)建的一種算法模型，其中最常用的一種模型為BP網(wǎng)絡(luò)模型，該種網(wǎng)絡(luò)模型能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系，可以解決大量復(fù)雜的問題。

1.2 語音識別技術(shù)

語音識別技術(shù)（ASR，Automatic Speech Recognition）即使計算機讀寫人類語音中的詞匯內(nèi)容的一種方式，通常通過將人類語音中的詞匯內(nèi)容轉(zhuǎn)化為二進制編碼或者是按鍵再或者是字符序列，使計算機能夠識別這些內(nèi)容，從而實現(xiàn)人機交互。在當(dāng)前全球化的背景下，實現(xiàn)人機交互，則能夠使語言不通的人相互交流，故而研究語音識別技術(shù)極為重要。

2 語音識別系統(tǒng)基本結(jié)構(gòu)設(shè)計

經(jīng)理論分析及實踐研究，語音識別系統(tǒng)的基本結(jié)構(gòu)應(yīng)如圖1所示。

2.1 語音信號處理

語音信號處理質(zhì)量直接影響著整個語音識別系統(tǒng)的質(zhì)量，所以在語音信號預(yù)處理、時域分析、語音信號的斷電檢測及特征提取方面，必須要極為嚴(yán)謹(jǐn)。

（1）語音信號預(yù)處理及時域分析。對于語音信號的預(yù)處理，主要的步驟是采集語音，并將語音進行放大等增益控制，必要情況下可以采取反混疊濾波以及預(yù)加重等措施，以確保所收集的語音的質(zhì)量。

（2）語音信號的端點檢測及特征提取。端點檢測主要的作用是對已經(jīng)進行預(yù)處理的語音信號的進一步檢測，因為簡單的預(yù)處理之后語音信號仍有一定的背景噪音，可能會對后續(xù)的語音檢測產(chǎn)生影響，所以需要通過語音信號進行起點檢測以及末尾檢測，并進行分幀，從而確保檢測結(jié)果質(zhì)量。

2.2 BP算法

因為語音信號轉(zhuǎn)化為計算機可識別的信息時會存在一定的誤差，而這種誤差又具有不規(guī)律性，所以需要應(yīng)用BP算法，通過推理及逆向推理來調(diào)整輸出層與輸入層權(quán)矩陣。BP算法主要分為兩個階段，分別是向前傳播階段以及向后傳播階段，其中向后傳播階段又被成為“誤差傳播階段”。

（1）向前傳播階段。該階段主要是確定輸出層的誤差。其具體算法為：

首先，判定隱含層的第i個神經(jīng)元的輸出，其輸出公式為：

其次，判定輸出層的低k個神經(jīng)元的輸出，其輸出公式為：

最后，結(jié)合具體的情況判定誤差函數(shù)，其函數(shù)公式為：

（2）向后傳播階段。該階段主要是將輸出層的誤差沿著與輸入信號相反的方向逐漸傳遞到輸入端。這一階段主要的算法為：

首先，確定依據(jù)性能指標(biāo)函數(shù)Ep，確定思路，具體為：

因為，故而若想使ω向著Ep減小方向移動時，△ω的取值在（-∞，0）之間，反之則應(yīng)當(dāng)取（0，+∞）。

其次，假設(shè)輸出層為r=2，得出公式：

再次，假設(shè)隱含層為r=1，再利用復(fù)合微分的相對規(guī)則，確定第j個隱層節(jié)點公式：

最后，得出誤差算法，其公式為：

2.3 BP網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計

BP網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計中，通常需要考慮的有五個方面，確保這五個層面的合理性，則能夠確保語音識別的質(zhì)量。

（1）網(wǎng)絡(luò)的層數(shù)。由以上公式可以看出一個線性輸出層與大于等于一個S型隱含層所構(gòu)成的網(wǎng)絡(luò)，這一網(wǎng)絡(luò)中的數(shù)據(jù)與有理函數(shù)相似，所以可以用有理函數(shù)公式進行代替，在層數(shù)不斷增加的時候，誤差會極大的降低，但是網(wǎng)絡(luò)會更加復(fù)雜，故而需要進行判定，選擇最合理的網(wǎng)絡(luò)層數(shù)。

（2）隱含層的神經(jīng)元數(shù)。為使數(shù)據(jù)進一步精確，還可以依據(jù)具體的情況來增加隱含層的神經(jīng)元數(shù)，從理論上來講，隱含層的神經(jīng)元數(shù)應(yīng)當(dāng)是越多越好。

（3）初始權(quán)值的選取。因為基于BP模型設(shè)計的系統(tǒng)結(jié)構(gòu)并不是線性的，所以必須要合理確定初始權(quán)值，這樣方能確保每一個神經(jīng)元的權(quán)值可以在激活函數(shù)變化最大處進行調(diào)節(jié)，使神經(jīng)元的輸出值與0盡可能的接近，通常情況下，初始值會在-1到1之間。

（4）學(xué)習(xí)速率。學(xué)習(xí)速率影響著系統(tǒng)的質(zhì)量以及效率，如果學(xué)習(xí)速率比較小，那么系統(tǒng)訓(xùn)練的時間便會加強，使效率降低，但是學(xué)習(xí)速率過大，則可能會影響到系統(tǒng)的穩(wěn)定性，從而使系統(tǒng)的質(zhì)量受到影響，經(jīng)過大量的實踐，筆者認(rèn)為學(xué)習(xí)速率的值應(yīng)當(dāng)在0.01到0.8之間，這樣方能在保障系統(tǒng)穩(wěn)定的基礎(chǔ)上確保其誤差值較小。

（5）期望誤差的選取。期望誤差的選擇應(yīng)當(dāng)依據(jù)具體的隱含層節(jié)點數(shù)確定，不過一般情況下是依靠調(diào)節(jié)隱含層節(jié)點以及調(diào)整學(xué)習(xí)時間兩種方式來確定。

2.4 學(xué)習(xí)樣本的選取

在確定了語音識別系統(tǒng)的整體結(jié)構(gòu)之后，還應(yīng)當(dāng)選擇合適的樣本，以確保效果。通常情況下是選擇相對較佳的特定人的語音樣本進行基本分析，接著再選擇非特定人的語音樣本進行處理。

3 人工神經(jīng)網(wǎng)絡(luò)語音識別的應(yīng)用實例

依據(jù)以上系統(tǒng)，進行實踐，先確定特定人的語音識別，再確定非特定人的語音識別，最后應(yīng)用BP算法進一步改進。

對于特定人的語音識別，主要是選擇某一個人的聲音，對其聲音樣本進行識別，通過調(diào)整神經(jīng)元數(shù)目進一步調(diào)整識別率。在實驗中，設(shè)計神經(jīng)元數(shù)為25、30、35、40時候，識別結(jié)果如表1所示。

接著對非特定人進行語音識別，所用的方法與對于特定人的語音識別方法一致，具體的測試數(shù)據(jù)如表2所示。

通過BP算法進行改進，最后的測試數(shù)據(jù)如表3所示。

由上可以得知，基于神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)在語音識別方向作用較大，且有巨大的潛力。

4 結(jié)語

本文是對基于神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)的應(yīng)用進行的探究，文章在概述了神經(jīng)網(wǎng)絡(luò)及語音識別技術(shù)的相關(guān)理論之后對語音識別系統(tǒng)的建構(gòu)及應(yīng)用實踐進行探究，以期為相應(yīng)研究人員提供一定的參考，同時拋磚引玉，希望有更多的學(xué)者參與其中進行探究，從而優(yōu)化語音識別技術(shù)，促進計算機的進一步智能化。

參考文獻

[1]朱錫祥.基于一維卷積神經(jīng)網(wǎng)絡(luò)的車載語音識別技術(shù)研究[D].安徽大學(xué)，2017.

[2]蔡偉建.人工神經(jīng)網(wǎng)絡(luò)理論在語音識別技術(shù)中的應(yīng)用[A].2016：4.

[3]田麗.基于小波神經(jīng)網(wǎng)絡(luò)的語音識別的研究[D].大慶石油學(xué)院，2015.

中國科技縱橫2018年6期

中國科技縱橫的其它文章: 城市道路交通設(shè)施存在的問題及對策; 烏魯木齊機場近40年降水統(tǒng)計分析; 新時期做好思想政治工作的創(chuàng)新途徑; 園林景觀設(shè)計中的地域文化解析; 農(nóng)戶需求視域下基層農(nóng)業(yè)技術(shù)推廣方式轉(zhuǎn)變探究; 民用機場大面積航班延誤問題預(yù)防及處置研究