劉尚旺,王培哲,張翰林,涂婉宇
(1.河南師范大學計算機與信息工程學院,河南 新鄉 453002;2.河南師范大學軟件學院,河南 新鄉 453002)
人機交互技術作為社會最有效的交流方式之一,語音在人機交互領域中具有重要地位。語音在日常生活和工作中包含了說話人的大部分信息,屬于一種較為復雜的信號,大多數語音信息識別方法在現階段只能識別單一的信息,無法識別說話人感情、性別、內容和年齡等多維信息,導致人機交互系統忽略了人類的表達能力和情感的理解,智能化水平較低,因此需要對語音信息識別方法進行分析和研究[1-2]。
王瑋蔚等人[3]提出基于變分模態分解的語音信息識別方法,該方法利用變分模態分解方法在系統中獲取語音信息,并對固有模態函數進行計算,結合希爾伯特邊際譜和梅爾倒譜系數,實現語音信息的識別,該方法沒有對多維語音信息進行預加重處理,存在識別率低的問題。姜芃旭等人[4]提出基于卷積神經網絡特征表征的語音信息識別方法,該方法在Lenet-5模型中引入池化層和卷基層,用一維卷積核代替二維卷積核,并對一維特征進行處理,在模型中輸入一維特征,對特征進行變換表征,在SoftMax分類中輸入特征,實現語音信息的識別,該方法在識別之前沒有對多維語音信息進行分幀加窗處理,導致識別結果與實際不符,存在識別準確率低的問題。繆裕青等人[5]提出基于參數遷移的語音信息識別方法,將參數遷移引入神經網絡中,建立多維語音信號識別模型,并將語圖譜輸入識別模型中,在語音識別模型中引入AlexNet網絡模型,在LSTM網絡中訓練特征圖,實現語音信息的識別,該方法沒有對多維語音信號進行分幀加窗處理,存在識別效率低的問題。
為了解決上述方法中存在的問題,提出人機交互系統多維語音信息識別方法。
人機交互系統多維語音信息識別方法為了避免多維語音信號識別過程中受到外界因素的影響,需要對人機交互系統多維語音信息進行預處理,對人機交互系統多維語音信息分別進行預加重預處理、分幀加窗預處理和端點檢測預處理。
1)預加重
語音信號由于口鼻輻射等因素會導致功率過高,隨著頻率的增加信號越弱,為了增強語音多維語音信號中存在的高頻部分,將預加重處理作為數字濾波器對多維語音信號進行處理[5]。
通過下述公式描述濾波器對應的傳遞函數
H(z)=1-αz-1
(1)
式中,α代表的是預加重系數。
設y(n)代表的是n時刻利用預加重高通濾波器處理后獲得的語音信號,可通過下式進行描述
y(n)=x(n)-αx(n-1)
(2)
式中,x(n)代表的是n時刻的語音信號。
2)音信號的短時平穩性進行考慮,將語音信號劃分成多個短時幀進行處理[6]。人機交互系統多維語音信息識別方法采用交疊分幀法對語音信息進行分幀處理。為了增強樣本點附近存在的語音波形,減弱剩余的波形,需要對分幀處理后的語音信號進行加窗處理[7]。
設sw(n)代表的是經過窗函數處理后的語音片段
sw(n)=s(n)*w(n)
(3)
式中,s(n)代表的是一幀語音片段,w(n)代表的是矩形窗。
3)端點檢測
在噪聲條件下獲取多維語音信號中的起始和終止點是語音處理環境中端點檢測的主要目的,去除語音信號中存在的靜音成分,獲得有效語音信號[8]。第n幀語音信號用xn(m)進行描述,設En代表的是一幀語音信號對應的短時能量,可通過下式進行計算

(4)
每個語音信號中都存在很多幀,每個幀對應的短時能量都不相同,非噪聲幀段和噪聲幀段之間的短時能量存在差異,濁音幀段與清音幀段對應的短時能量都是不一樣的[9]。人機交互系統多維語音信息識別方法為了在多維語音信號中獲得語音終止點和語音起始點,在處理過程中設置兩個不同的短時能量門限,通過短時過零率實現上述過程,設Zn代表的是語音信號xn(m)對應的短時過零率,可通過下式計算得到

(5)
式中,N代表的是幀長。人機交互系統多維語音信息識別方法具體流程如圖1所示。

圖1 識別流程圖
人機交互系統多維語音信息識別方法提取語音信號的i-vector作為特征參數。
通過下式分解語句特征的高維均值超矢量M
M=Tω+m
(6)
式中,ω表示全差異因子;矩陣T表示全差異空間;m表示超矢量。人機交互系統多維語音信息識別方法提取語音信息特征向量的過程如下


(7)
式中,Ck代表的是第k個混合高斯系數;N(y;mk,Rk)描述的是高斯分布,其角協方差矩陣為Rk、均值為mk。
設Ω={ck,mk,Rk}代表的是GMM-UBM參數,通過(D·K)維隨機超矢量M(i)對給定語音數據Yi中說話人之間的差異進行描述
M(i)=M0+Tw(i)
(8)
式中,矩陣T可以對總體變化進行描述,是(D·K)×F維的;w(i)代表的是符合標準正態分布的低維隨機矢量。通過上述過程獲得的i-vector、Ω和Yi求解下述問題

(9)

對上式進行求解,提出多維語音的特征參數i-vector,并整理,獲得下述特征參數

(10)
式中,Γy(i)代表的是低維超矢量;Γ(i)代表的是(D·K)×(D·K)維度的塊對角陣。
人機交互系統多維語音信息識別方法通過融合多維語音信息特征參數,獲得人機交互系統多維語音信息特征,利用神經網絡分類識別方法根據提取的多維語音信息特征完成人機交互系統多維語音信息的識別[10]。
人機交互系統多維語音信息識別方法在關聯規則重組的基礎上融合多維語音信息特征,用P=|STFT(t,q)|2描述上述過程獲得的語音信息特征參數,其中STFT(t,q)代表的是短時傅里葉變換函數,對數據塊進行劃分,獲得若干個基函數,通過多種相位因子分析方法融合特征參數,在人機交互系統多維語音特征參數融合的基礎上獲得線性疊加輸出Y

(11)
式中,α代表的是統計調制參數,通常情況下為大于零的常數;x(t)代表的是特征參數;β代表的是相位因子搜索函數;c代表的是雙層優化的調頻參數。
采用多維尺度分析方法對人機交互系統多維語音信號的背景噪聲強度進行分解時[11],分量是固定的,分解結果可通過下式進行描述

(12)
式中,a(t)代表的是多維語音信號對應的檢測幅值;u(t)代表的是多維語音信號對應的相位旋轉約束量;φ(t)代表的是語音信息中數據塊對應的相位分布信息。
對第1個陣元對應的載波頻率進行計算,獲得多維語音信號對應的頻率增量r(t)
r(t)=a(t)exp{[fe1tln(t-t0)-fe2tlnφ(t)]}
(13)
式中,fe1、fe2代表的是多維語音信號對應的初始頻率和截止頻率。
設G代表的是多維語音信號中存在的低頻成分,其表達式如下
G=Wr(t)+W(a,b)
(14)
式中,W代表的是語音信號對應的頻譜特征量;b代表的是沖激響應函數。
在多維語音信息頻譜特征的分離結果的基礎上計算干擾方差h

(15)
式中,τ′代表的是時延參數;t0代表的是每段信號對應的峰值。
在尺度控制下,根據時間尺度分解結果獲得多維語音信號的濾波輸出ψ

(16)
通過信息融合跟蹤檢測方法獲得完整的多維語音信號對應的多維特征量。
每個數據塊在人機交互系統中的采樣平衡點是等間隔的,設∏代表的是采樣干擾信號對應的幅度,其表達式如下

(17)
式中,q代表的是調制信號對應的模。
構建信號分類器E

(18)
式中,F(η)代表的是特征分類函數,對特征分類函數進行加權求和,獲得多維語音信號。
針對人機交互系統中存在多維語音信號通過改進神經網絡法進行特征分類,對分類狀態檢測度U進行計算

(19)
針對人機交互系統多維語音信息特征,在模糊分類約束條件下對神經網絡分類參數進行分析[12],采用改進神經網絡構建多維語音信息識別模型

(20)
式中,g(t)代表的是多維語音信號對應的部分傳輸序列;S代表的是信息融合輸出;M代表的是語音映射符號的數量;θ(t)代表的是模糊控制函數。
為了驗證人機交互系統多維語音信息識別方法的整體有效性,需要對驗證人機交互系統多維語音信息識別方法進行測試,本次測試在Visual C++開發的平臺中進行,操作系統為Windows。分別采用人機交互系統多維語音信息識別方法(方法1)、基于變分模態分解的語音信息識別方法(方法2)和基于卷積神經網絡特征表征的語音信息識別方法(方法3)進行測試,對比不同方法的語音識別率,測試結果如圖2所示。

圖2 語音識別率測試結果
分析圖2中的數據可知,方法1對多維語音信息進行識別時獲得的識別率均在90%以上,遠遠高于方法2和方法3對多維語音信息進行識別時獲得的識別率,因為方法1對多維語音信息進行了預加重處理,提高了語音信號的高頻部分,進而提高了方法1的語音識別率。
分別采用方法1、方法2和方法3對人機交互多維語音信息進行識別,對比不同方法識別多維語音信息所用的時間,測試結果可通過圖3進行描述。

圖3 語音識別時間測試結果
對圖3中的數據進行分析可知,隨著多維語音信息數量的增加,方法1、方法2和方法3所用的識別時間都不斷增加,但在相同語音信息數量下,方法1所用的識別時間低于方法2和方法3所用的識別時間,因為方法1對多維語音信號進行了端點檢測,在背景噪聲中尋找語音的終止點和開始點,去除語音信號中存在的靜音成分,獲得有效語音信號,縮短了多維語音信息識別所用的時間,提高了方法1的識別效率。
將識別準確率作為測試指標,對方法1、方法2和方法3進行測試,測試結果如圖4所示。

圖4 識別準確率測試結果
據圖4可知,方法1、方法2和方法3的識別準確率隨著語音信息數量的增加有所下降,但方法1在測試過程中的識別準確率保持在90%以上,因為方法1對語音信號的短時平穩性進行考慮,將語音信號劃分成多個短時幀進行處理,采用神經網絡分類識別方法對預處理后的多維語音信息進行識別,提高了識別結果的準確率。
語音客服的應用場景較為廣泛,多維語音信息在人機交互系統中屬于混合信號。目前大部分多維語音識別方法無法同時識別說話的背景聲、所講內容、情感狀態、身份、性別和年齡等多維信息,無法達到實用化和商品化的要求,在此背景下需要對多維語音信息識別方法進行研究。提出人機交互系統多維語音信息識別方法,首先對多維語音信息進行預處理,融合多維特征,通過神經網絡分類識別方法完成多維語音信息的識別,有效的提高了識別率、識別效率和識別準確率,解決了目前方法中存在的問題,為人機交互系統的運行和發展提供了保障。