文/冀瑞國
現階段智能終端與用戶之間的人機交互方式仍然是觸屏、鍵盤或鼠標,傳統操作式的人機交互已經無法滿足信息時代對信息快速交互的需求,創新式語音交互技術不僅提高了人機交互效率,而且屬于人類所習慣的交互方式。語音交互的核心技術為語音識別技術,語音識別技術優劣直接決定了語音交互方式是否可用。截止目前,關于語音識別技術的研究已有數十載,基于英語的語音識別技術的準確率已接近98%,而基于漢語的語音識別技術的準確率卻相對較低,主要是由于漢語的復雜度相對應用更廣,同音字較多且發音較短致使語音識別精度降低。神經網絡憑借其神經網絡拓撲結構在識別方面具有更好的識別效果,基于此,本文對神經網絡在語音識別的應用展開了研究。
語音識別系統是通過對語音信號進行分析,與詞匯語音進行匹配處理,使得計算機能理解語音信號所傳遞的信息。經典的語音識別系統結構主要包括信號預處理、特征提取、數據訓練、匹配計算、識別判決。
通過對語音識別系統的結構進行分析可知,可將其劃分為三個模塊,信號預處理模塊、語音特征提取模塊、訓練與識別模塊。
(1)信號預處理處于系統的前端,語音信號的預處理將便于語音的特征提取,主要包括采樣濾波、預加權、信號分幀、端點檢測。其中本文的采樣濾波的頻率為8KHz,并選擇預加權方式對高頻階段的語音進行加權處理,從而有效地提高其信噪比。在信號分幀方面,本文所采納的時間段為20ms,并通過端點檢測方法實現詞匯信號與噪聲信號的分割,從而完成語音信號的預處理。
(2)語音特征提取模塊主要是為語音數據訓練與識別提供分析數據,所以語音特征的合理選擇不僅能提升識別模型的訓練效率,而且能有效提高模型的識別精度。本文基于特征獨立性、信號有效表征和精簡計算的原則選擇的語音特征主要包括線性預測系數(LPC)、線性預測倒譜系數(LPCC)、美兒頻率倒譜系數(MFCC)、改進的混合MFCC。
(3)訓練與識別模塊作為語音識別系統的核心,主要是對特征進行分析得到信號歸屬詞匯。目前常用的識別模型主要有神經網絡、支持向量機、深度學習和人工智能,支持向量機的識別精度相對較低,深度學習與人工智能需要大量的訓練樣本且實時性較差。由于語音識別對識別精度和實時性要求較高,因此本文選擇神經網絡作為語音識別模型。
神經網絡由輸入層、隱層和輸出層構成,網絡基本單元為神經元,輸入層的神經元為所提取的語音信號特征,隱層的神經元通過樣本訓練構建,輸出層的神經元為語音識別詞匯。通過對神經網絡的結構分析可知,神經網絡具有很強的非線性映射能力、泛化能力和容錯能力。
神經網絡進行語音識別之前需要對模型進行科學的訓練,神經網絡的訓練流程如圖1所示,首先需要準備大量詞匯的語音特征,對詞匯進行編號,然后將準備的語音特征作為模型訓練的輸入,將特征對應的詞匯編號作為參考數據,最后檢查模型訓練的輸出數據與參考數據之間的誤差,當兩者之間的數據誤差低于所設置的閾值時停止訓練,保存隱層神經元的閾值,以及各個神經元之間的鏈接權值,從而實現神經網絡模型的建立。

圖1:BP神經網絡訓練流程
語音識別系統首先對語音信號的進行采樣濾波、預加權、信號分幀、端點檢測操作;其次提取預處理數據的LPC、LPCC、MFCC、改進MFCC值;最后訓練構建的神經網絡模型根據語音信號特征識別語音所對應的詞匯,至此實現語音信號的識別。
本文先對語音識別系統展開了研究,語音識別系統由信號預處理、語音特征提取、模型訓練與識別三個模塊構成,并分析了神經網絡相對于支持向量機、深度學習和人工智能的優勢,基于此設計了一套基于神經網絡的語音識別系統。識別系統首先借助大量詞匯的語音特征完成識別模型的訓練,再利用訓練合格的語音識別模型對從預處理數據中提取的LPC、LPCC、MFCC、改進MFCC的語音信號特征進行語音識別。