一種抗噪聲的語音識別方法研究

2021-07-24 10:00:26任麗娜

電子測試 2021年13期

關(guān)鍵詞：信號模型

任麗娜

(山西職業(yè)技術(shù)學(xué)院，山西太原，030006)

0 引言

語音識別系統(tǒng)可接受人類并理解人的樂音，并根部語音指令執(zhí)行命令，該技術(shù)基于聲學(xué)、語言學(xué)、計算機(jī)、信息處理、人工智能等多項技術(shù)，廣泛適用信息處理、通信、自動控制等諸多領(lǐng)域[1]。語音數(shù)字信號處理的關(guān)鍵是端點檢測，端點從強(qiáng)噪語音信號識別出有效語音，噪音信號越復(fù)雜度識別難度也會增加?，F(xiàn)有端點檢測算法基于采集短時能量、連續(xù)時間、基頻信息、過零率的語音特征參數(shù)分析，但在強(qiáng)噪音環(huán)境檢測性能較差[2]。近年來，越來越多的學(xué)者采用改進(jìn)型的信噪比計算的方法，極大提高了強(qiáng)噪音環(huán)境中的端點檢測效果。

1 語音信號識別難點和基本原理

語音識別技術(shù)涉及聲學(xué)、測量技術(shù)和信息處理等多個學(xué)科，檢測端子從眾多聲音中識別目標(biāo)人的語音特征信息，進(jìn)行識別出是某人的語音[3]?；谌斯ぶ悄茴I(lǐng)域的聲音自動識別系統(tǒng)，比其他生物特征技術(shù)更具優(yōu)勢，基于聲音的識別技術(shù)重復(fù)性好、操作簡單，也不會涉及被識別者隱私，用戶接受程度高，不同場合適用性好，生活中大部分物體都充當(dāng)聲音傳遞的媒介，且不受聲波衍射作用和光照強(qiáng)度的影響。

但是，各地方言是識別系統(tǒng)準(zhǔn)確性的一大障礙，識別系統(tǒng)基本采取標(biāo)準(zhǔn)普通話信號為基礎(chǔ)，但方言各地差距較大，尤其是國內(nèi)8種方言的發(fā)音差距特別大，語音識別系統(tǒng)準(zhǔn)確度會大幅下降。隨著移動無線互聯(lián)網(wǎng)的推廣，信道種類越來越多，尤其是移動電話、手機(jī)、無線發(fā)射器、移動網(wǎng)絡(luò)系統(tǒng)，語音識別系統(tǒng)必須適應(yīng)不同信道，不同信道差異較大，跨信道識別問題是語音信號識別的一個障礙[4]。背景噪音是影響語音識別系統(tǒng)的一大難題，背景噪音的頻譜很容易和原始語音頻譜重合，會將原始語音掩蓋在噪音頻譜范圍內(nèi)，導(dǎo)致識別系統(tǒng)不能準(zhǔn)確分離出來原聲音。音識識別就是模式識別，基本結(jié)構(gòu)原理如圖1所示，主要包括信號預(yù)處理、特征提取、特征匹配等基本功能模塊，后處理模塊作為輸出部分直接面向用戶。

圖1 語音識別基本框圖

2 語音信號特征及處理方法

發(fā)音器官主體為肺、喉、鼻和口，發(fā)生器官整體為形狀復(fù)雜的管道，喉部、口和鼻子為聲道，聲道形狀變化產(chǎn)生了發(fā)聲的不同；聲門產(chǎn)生語音的能量起到閥門和振動的雙重作用，氣流由肺部壓力變化產(chǎn)生沖擊，聲帶將沖擊轉(zhuǎn)化為不同頻率振動，由聲道響應(yīng)轉(zhuǎn)換成語音。不同的發(fā)音聲道形狀也相應(yīng)變化，最終將不同的聲音信息傳遞給周圍環(huán)境。聲帶是人類發(fā)音系統(tǒng)的關(guān)鍵器官，聲帶是語音的激勵源，聲帶振動形成基本聲源，聲帶的開啟和閉合形成氣流脈沖，開啟和閉合一次時間為一個基音周期，基音周期的倒數(shù)為基音頻率，簡稱基頻。聲帶發(fā)出基音決定聲音頻率，頻率高則音調(diào)高，頻率低則音調(diào)低，人類基音范圍在70-350Hz，但人類的性別、年齡影響基音頻率，整體趨勢為年齡高頻率偏低。語音發(fā)出后，聲波以空氣為載體進(jìn)行傳播，聲波是振動方向和傳播方向相同的一種縱波。聲波是通過頻率和振幅進(jìn)行描述。聲波頻率決定了音高，聲波振幅決定了響度，頻率越高聲音越高，振幅大則響度大，但是頻率和振幅無直接聯(lián)系。

分折處理前需要將語音信號從輸入信號中分離，將語音轉(zhuǎn)化成數(shù)字化信號經(jīng)過放大器、增益控制、反混疊濾波，采樣，A/D轉(zhuǎn)換多個過程，預(yù)處理信號經(jīng)過預(yù)加重、加窗、分幀處理。圖2為語音信號處理簡圖。

圖2 語音信號預(yù)處理簡圖

3 語音識別模型及算法

模型是對信號本質(zhì)的數(shù)學(xué)描述，語音信號是非平穩(wěn)隨機(jī)信號，無法用確定性函數(shù)方程描述，因此必須分析多種語音識別數(shù)學(xué)模型，求解結(jié)果逼近實際值，因此要建立分類模型。目前可用模型有兩種：高斯混合模型和隱馬爾可夫模型。高斯混合模型的階數(shù)必須足夠大，才能全面體現(xiàn)特征空間的分布，采用的協(xié)方差矩陣類型為對角陣，高維特征空間計算量小，優(yōu)勢明顯。模型初值初始條件不同，局部極值差距較大，模型初值必須修正均值。訓(xùn)練數(shù)據(jù)少或背景噪聲過大時，方差幅度變小導(dǎo)致函數(shù)出現(xiàn)奇異性，只能通過方差限定提高計算精度。

隱馬爾可夫模型有全連結(jié)和從左到右兩種結(jié)構(gòu)，從左到右的模型根據(jù)其結(jié)構(gòu)特點有可以進(jìn)一步細(xì)分。全連結(jié)模型允許由一個狀態(tài)向其它任一狀態(tài)轉(zhuǎn)移，原理如圖3所示。由左到右模型某一狀態(tài)僅可向左/右側(cè)狀態(tài)轉(zhuǎn)移。高斯混合模型和隱馬爾可夫模型可適用不同場合的語音識別，但隱馬爾可夫模型應(yīng)用范圍更大。

圖3 全連接隱馬爾模型示意圖

4 語音識別的效果評定

利用兩種模型建立不同說話人識別模型階段，并在實驗條件下測試不同因素對辨認(rèn)率和確認(rèn)率的影響，語音長短對特征參數(shù)提取影響很大，因此對多人進(jìn)行錄音后進(jìn)行語音識別，檢測結(jié)果如圖4所示，辨認(rèn)率和確認(rèn)率都隨著識別語音和訓(xùn)練語音時長增長而增加，但信息量達(dá)到一定量時，識別率緩慢增加。

圖4 不同采集時間對識別率的影響

高斯混合模型采用單高斯密度函數(shù)線性的加權(quán)值調(diào)整實驗表明，適當(dāng)增加權(quán)值可增加結(jié)果的真實分布程度；改進(jìn)卡爾曼濾波算法可以減少噪聲的影響，提高抗干擾能力，提取說話人的特征準(zhǔn)確度更高。

5 結(jié)論

針對傳統(tǒng)語音識別系統(tǒng)在噪音環(huán)境適應(yīng)性差的問題，分析了人類語音特征和信號處理策略，研究高斯混合數(shù)學(xué)模型和隱馬爾可夫數(shù)學(xué)模型在噪音環(huán)境中語音識別效果，適當(dāng)增加采集時長，可有效提高語音的識別率，改進(jìn)算法也可提高數(shù)學(xué)模型在噪音環(huán)境的準(zhǔn)確度，對語音識別系統(tǒng)在信息化中應(yīng)用具有很好的指導(dǎo)意義。