張添添,王 婧
(1. 上海師范大學天華學院,上海 201815;2. 武漢大學國際軟件學院,湖北 武漢 430072)
語音識別[1]作為交叉學科,近年來已成為計算機技術中人機接口的關鍵環節。語音識別技術就是通過機器將語音轉換成文本,有效幫助人們開展相關工作,縮減勞動成本。因此,在人體傷害較大的地下、深水輻射等復雜環境中被廣泛使用。由于微電子技術[2]的發展,將電子設備逐漸微型化,導致原有的語音識別方法無法有效地完成相關識別任務,因此,提出更加高效的語音識別方法就成為該領域目前急需解決的問題。
文獻[3]提出一種多尺度前向注意力模型的語音識別方法。該方法首先通過注意力模型獲取數據注意力得分;基于獲取的異常得分添加相關約束因子對模型實施優化;最后基于建立的模型確定語音級別,完成目標融合,實現語音的精確識別。文獻[4]提出基于卷積神經網絡的大容量漢語孤立字語音識別方法。該方法首先使用錄音設備對常用語音采集處理,建立非特定的語音樣本數據庫;再抽取語音的識別特征,構建語音識別模型;最后依據深度學習方法對模型展開訓練,依據訓練結果實現語音的精準識別。文獻[5]提出基于DL-T及遷移學習的語音識別方法。該方法首先依據采集的語音數據提取語音高維數據特征;基于RNN-T聲學原理以及LSTM網絡建立語音的聲學模型;最后通過DL-T方法對模型優化處理,提升模型的語音識別效果;最后依據模型的優化結果完成語音的識別。
上述方法中由于未能在語音識別前對語音數據去噪處理,導致上述方法在語音識別時,存在識別時間短、精準度不高的問題,并且語音中存在大量的噪聲點。為解決上述音/視頻雙流語音數據識別過程中存在的問題,提出基于注意力LSTM的音/視頻雙流語音識別算法。
在開展音/視頻雙流語音識別的[6]過程中,數據中存在的大量噪聲會影響語音的識別效果,因此,在語音識別前需要對音/視頻雙流語音數據實施去噪處理。
使用小波閾值去噪方法[7]在音/視頻雙流語音數據信號尺度上建立一個合理的閾值δ,辨識音/視頻雙流語音數據信號中的信號成分,實現音/視頻雙流語音數據信號的去噪處理,具體流程如下:
1)選取相應的小波函數以及信號分解層數,對數據信號分解處理,對分解后的含噪聲信號實施正交小波變換,獲取數據信號對應的尺度分解系數αj.l。

3)對信號分解后的低頻系數與高頻系數實施小波逆變換,獲取數據的去噪信號。
在上述數據信號的去噪過程中,閾值選取較為重要。由于現有的閾值函數去噪效果較差,因此,需要依據sqtwolog規則對閾值函數實施改進,實現音/視頻雙流語音數據信號的有效去噪。
設定音/視頻雙流語音數據信號的輸入信號序列為M,小波分解尺度為j,以此獲取信號的去噪閾值,結果如下式所示

(1)
式中,語音數據信號的噪聲標準差用ε表述,獲取的信號去噪閾值為δj,對數函數為In。
基于上述獲取的去噪閾值,建立語音數據信號的閾值去噪函數,硬閾值函數獲取過程如下式所示

(2)
由于硬閾值函數[8]在信號去噪時會影響到信號中的正常信息,導致重構后的語音信號出現振動噪聲,降低信號去噪效果,因此,需要在硬閾值基礎上,基于信號的光滑性理論建立信號的軟閾值函數,結果如下式所示

(3)
式中,符號函數為sgn(αj,l)。


(4)
基于上述建立的閾值函數完成語音數據信號的去噪。
語音數據噪聲去除[9]后,對語音數據矢量量化處理,在信息損傷較小的情況下完成語音數據的壓縮處理。
設定語音數據有n個維度,運用歐幾里德原理將語音數據集Rn劃分成m個不相交的子空間,過程中需要滿足如下條件

(5)
式中,數據劃分子空間數量為Rm,i為常數。
基于上述獲取的數據子空間,設定空間內數據的代表矢量為Xm,M個代表矢量組成的矢量集合標記X形式,當數據存在β個n維特征向量Y={Y1,Y2,…,Yn},數據的矢量量化過程就是Xm代表Yn的過程,結果如下式所示
XM=P(Xi),1≤M≤m,1≤i≤N
(6)
式中,i、j皆為常數,量化器函數為P(Xi)。
依據上述計算結果,完成音/視頻雙流語音數據的矢量量化處理[10]。
基于上述語音數據的矢量量化處理結果,建立音/視頻雙流語音數據的語義關系抽取模型,通過模型的求解結果實現語音數據分類,完成音/視頻雙流語音數據的語音識別。具體模型結構如圖1所示。
根據圖1可知,該模型首先依據數據的矢量量化結果對數據語義實施分詞處理,提取數據的相關實體特征,并將其轉換成詞向量,完成語音局部特征的抽取。再將獲取的特征輸入到LSTM模型[11]中,通過注意力機制對語音數據的注意力概率展開計算,獲取模型輸入、輸出的相關性分析結果,輸出特征;最后通過特征的融合結果進行語音分類分類,最終實現語音識別。

圖1 語義關系抽取模型結構圖
3.2.1 生成語音詞向量
基于語音數據的矢量量化結果,設定語音數據的詞向量矩陣為Cword,語音數據的one-hot形式為χω,以此獲取語音中各個數據的文本特征詞向量,過程如下式所示

(7)

3.2.2 建立At-LSTM模型
At-LSTM模型建立的主要流程包括建立LSTM模型和引入注意力機制[12]兩部分。
1)構建LSTM模型
LSTM模型是由若干LSTM單元組成的,而LSTM單元又是由輸入門λ、輸出門γ以及遺忘門h、記憶單元d組成。基于上述獲取的語音數據的局部特征值,激活模型記憶單元,獲取數據在LSTM單元的狀態特征,過程如下式所示

(8)
式中,模型激活函數為g,偏置項用p標記,sigmoid函數用ε表述,模型LSTM單元的狀態特征標記為it、ht、dt、ut、ft,模型狀態為t,正切函數為tan 。
2)引入注意力機制
獲取模型狀態特征后,在模型中引入注意力機制,計算語音數據的注意力概率[13],過程如下式所示

(9)
式中,注意力機制權值矩陣為Ya、Yb、Yc,注意力機制偏置項為pa,指數函數為exp ,模型輸出特征為fMi,語音數據中樣本數據fi的注意力概率為aMi。根據上述計算結果,獲取語音數據的模型輸出特征,建立模型的輸出特征集ηt。
3.2.3 語音識別
對模型的輸出特征實施統計計算,依據最大池化法對語音數據的對應輸出特征實施池化處理[14],過程如下式所示
k=max(ηt)
(10)
式中,語音數據的整體特征為k,最大池化特征為max(ηt)。語音數據池化完成后,即可解決語音數據長度不一的問題。
語音數據整體特征提取完成后,需要將獲取的數據局部特征與數據整體特征實施融合處理,獲取新的音/視頻雙流語音數據特征,完成語音數據的特征分類,實現音/視頻雙流語音數據的精準識別,過程如下式所示

(11)
式中,數據特征的融合結果為η,局部特征為s,數據的分類結果為v(x),向量拼接符號用?表示,分類器偏置為pv,分類權值為Mv,分類器二值向量系數為Cv,分類器選取系數為?。
最后依據音/視頻雙流語音數據的分類結果,完成語音數據的精確識別[15]。
為了驗證基于注意力LSTM的音/視頻雙流語音識別算法的整體有效性,進行實驗分析。分別采用基于注意力LSTM的音/視頻雙流語音識別算法(所提方法)、一種多尺度前向注意力模型的語音識別方法(文獻[3]方法)、基于卷積神經網絡的大容量漢語孤立字語音識別方法(文獻[4]方法)進行測試。
在CHIME數據集中音/視頻雙流語音片段作為實驗對象,該數據集包含真實、仿真等不同類型的錄音。其中,真實錄音由4個揚聲器在4個嘈雜位置的近9000個錄音組成。實驗中將音/視頻雙流語音輸入至MATLAB軟件中,輸出界面如圖2所示。

圖2 仿真輸出界面
為測試音/視頻雙流語音識別方法的識別有效性,選取語音識別準確率、識別時間以及抗噪性能3個測試指標,測試所提方法、文獻[3]方法以及文獻[4]方法的音/視頻雙流語音識別性能。
1)識別準確率
在實驗數據集中選取10個音/視頻雙流語音片段,采用所提方法、文獻[3]方法以及文獻[4]方法開展音/視頻雙流語音識別,測試3種方法的識別準確率,測試結果如圖3所示。
在開展音/視頻雙流語音識別的過程中,識別的準確率越高,說明識別的效果越好,準確率越低,說明識別的效果越差。分析圖3中的實驗結果可知,所提方法在語音識別時,識別準確率是三種方法中最高的,這主要是因為所提方法在語音識別前,對語音數據實施了去噪處理,所以該方法在語音識別時的識別準確率更高。

圖3 不同方法的語音識別準確率測試結果
2)識別時間
采用所提方法、文獻[3]方法以及文獻[4]方法開展音/視頻雙流語音識別時,識別時間的長短同樣是檢測識別性能的關鍵,因此,還要對上述3種方法的識別時間進行測試,測試結果如表1所示。

表1 不同識別方法的識別時間測試結果
語音識別過程中,識別時間越長,說明識別方法的識別效果越差,反之則越好。分析表1的實驗數據可知,隨著語音片段數量的增加,3種方法的識別時間呈現不同程度的增長趨勢。其中,所提方法的檢測結果是3種方法中最低的,說明該方法在語音識別時具備高效性。
3)去噪性能
采用所提方法、文獻[3]方法以及文獻[4]方法開展音/視頻雙流語音識別時,在數據集選取一個語音片段,其原始波形圖如圖4所示。采用3種方法對語音片段實施去噪處理測試結果如圖5所示。

圖4 原始波形圖
分析圖5可知,經過所提方法去噪后,語音的波形更加平滑,且波形較為穩定,沒有明顯的波動。而文獻[3]方法和文獻[4]方法雖然也在一定程度上達到了去噪的效果,但是波形仍然存在一定的波動,不夠穩定,說明所提方法的去噪效果更好。

圖5 去噪后的波形圖
綜上所述,所提方法的識別準確率與識別時間均優于其它方法,且能夠有效去除語音判斷中的噪聲,證明所提方法在語音識別時的抗噪性能好。
隨著計算機技術的不斷發展,音視頻雙流語音的精準識別,能夠有效降低人工成本。針對傳統語音識別方法中存在的問題,提出基于注意力LSTM的音/視頻雙流語音識別算法。該方法依據數據的去噪結果,對語音數據實施矢量量化處理;再通過量化處理結果構建建立At-LSTM模型,通過模型求解完成數據分類,實現音視頻雙流語音的精準識別。