任麗娜
(山西職業(yè)技術(shù)學(xué)院,山西太原,030006)
語音識別系統(tǒng)可接受人類并理解人的樂音,并根部語音指令執(zhí)行命令,該技術(shù)基于聲學(xué)、語言學(xué)、計算機(jī)、信息處理、人工智能等多項技術(shù),廣泛適用信息處理、通信、自動控制等諸多領(lǐng)域[1]。語音數(shù)字信號處理的關(guān)鍵是端點檢測,端點從強(qiáng)噪語音信號識別出有效語音,噪音信號越復(fù)雜度識別難度也會增加?,F(xiàn)有端點檢測算法基于采集短時能量、連續(xù)時間、基頻信息、過零率的語音特征參數(shù)分析,但在強(qiáng)噪音環(huán)境檢測性能較差[2]。近年來,越來越多的學(xué)者采用改進(jìn)型的信噪比計算的方法,極大提高了強(qiáng)噪音環(huán)境中的端點檢測效果。
語音識別技術(shù)涉及聲學(xué)、測量技術(shù)和信息處理等多個學(xué)科,檢測端子從眾多聲音中識別目標(biāo)人的語音特征信息,進(jìn)行識別出是某人的語音[3]?;谌斯ぶ悄茴I(lǐng)域的聲音自動識別系統(tǒng),比其他生物特征技術(shù)更具優(yōu)勢,基于聲音的識別技術(shù)重復(fù)性好、操作簡單,也不會涉及被識別者隱私,用戶接受程度高,不同場合適用性好,生活中大部分物體都充當(dāng)聲音傳遞的媒介,且不受聲波衍射作用和光照強(qiáng)度的影響。
但是,各地方言是識別系統(tǒng)準(zhǔn)確性的一大障礙,識別系統(tǒng)基本采取標(biāo)準(zhǔn)普通話信號為基礎(chǔ),但方言各地差距較大,尤其是國內(nèi)8種方言的發(fā)音差距特別大,語音識別系統(tǒng)準(zhǔn)確度會大幅下降。隨著移動無線互聯(lián)網(wǎng)的推廣,信道種類越來越多,尤其是移動電話、手機(jī)、無線發(fā)射器、移動網(wǎng)絡(luò)系統(tǒng),語音識別系統(tǒng)必須適應(yīng)不同信道,不同信道差異較大,跨信道識別問題是語音信號識別的一個障礙[4]。背景噪音是影響語音識別系統(tǒng)的一大難題,背景噪音的頻譜很容易和原始語音頻譜重合,會將原始語音掩蓋在噪音頻譜范圍內(nèi),導(dǎo)致識別系統(tǒng)不能準(zhǔn)確分離出來原聲音。音識識別就是模式識別,基本結(jié)構(gòu)原理如圖1所示,主要包括信號預(yù)處理、特征提取、特征匹配等基本功能模塊,后處理模塊作為輸出部分直接面向用戶。

圖1 語音識別基本框圖
發(fā)音器官主體為肺、喉、鼻和口,發(fā)生器官整體為形狀復(fù)雜的管道,喉部、口和鼻子為聲道,聲道形狀變化產(chǎn)生了發(fā)聲的不同;聲門產(chǎn)生語音的能量起到閥門和振動的雙重作用,氣流由肺部壓力變化產(chǎn)生沖擊,聲帶將沖擊轉(zhuǎn)化為不同頻率振動,由聲道響應(yīng)轉(zhuǎn)換成語音。不同的發(fā)音聲道形狀也相應(yīng)變化,最終將不同的聲音信息傳遞給周圍環(huán)境。聲帶是人類發(fā)音系統(tǒng)的關(guān)鍵器官,聲帶是語音的激勵源,聲帶振動形成基本聲源,聲帶的開啟和閉合形成氣流脈沖,開啟和閉合一次時間為一個基音周期,基音周期的倒數(shù)為基音頻率,簡稱基頻。聲帶發(fā)出基音決定聲音頻率,頻率高則音調(diào)高,頻率低則音調(diào)低,人類基音范圍在70-350Hz,但人類的性別、年齡影響基音頻率,整體趨勢為年齡高頻率偏低。語音發(fā)出后,聲波以空氣為載體進(jìn)行傳播,聲波是振動方向和傳播方向相同的一種縱波。聲波是通過頻率和振幅進(jìn)行描述。聲波頻率決定了音高,聲波振幅決定了響度,頻率越高聲音越高,振幅大則響度大,但是頻率和振幅無直接聯(lián)系。
分折處理前需要將語音信號從輸入信號中分離,將語音轉(zhuǎn)化成數(shù)字化信號經(jīng)過放大器、增益控制、反混疊濾波,采樣,A/D轉(zhuǎn)換多個過程,預(yù)處理信號經(jīng)過預(yù)加重、加窗、分幀處理。圖2為語音信號處理簡圖。

圖2 語音信號預(yù)處理簡圖
模型是對信號本質(zhì)的數(shù)學(xué)描述,語音信號是非平穩(wěn)隨機(jī)信號,無法用確定性函數(shù)方程描述,因此必須分析多種語音識別數(shù)學(xué)模型,求解結(jié)果逼近實際值,因此要建立分類模型。目前可用模型有兩種:高斯混合模型和隱馬爾可夫模型。高斯混合模型的階數(shù)必須足夠大,才能全面體現(xiàn)特征空間的分布,采用的協(xié)方差矩陣類型為對角陣,高維特征空間計算量小,優(yōu)勢明顯。模型初值初始條件不同,局部極值差距較大,模型初值必須修正均值。訓(xùn)練數(shù)據(jù)少或背景噪聲過大時,方差幅度變小導(dǎo)致函數(shù)出現(xiàn)奇異性,只能通過方差限定提高計算精度。
隱馬爾可夫模型有全連結(jié)和從左到右兩種結(jié)構(gòu),從左到右的模型根據(jù)其結(jié)構(gòu)特點有可以進(jìn)一步細(xì)分。全連結(jié)模型允許由一個狀態(tài)向其它任一狀態(tài)轉(zhuǎn)移,原理如圖3所示。由左到右模型某一狀態(tài)僅可向左/右側(cè)狀態(tài)轉(zhuǎn)移。高斯混合模型和隱馬爾可夫模型可適用不同場合的語音識別,但隱馬爾可夫模型應(yīng)用范圍更大。

圖3 全連接隱馬爾模型示意圖
利用兩種模型建立不同說話人識別模型階段,并在實驗條件下測試不同因素對辨認(rèn)率和確認(rèn)率的影響,語音長短對特征參數(shù)提取影響很大,因此對多人進(jìn)行錄音后進(jìn)行語音識別,檢測結(jié)果如圖4所示,辨認(rèn)率和確認(rèn)率都隨著識別語音和訓(xùn)練語音時長增長而增加,但信息量達(dá)到一定量時,識別率緩慢增加。

圖4 不同采集時間對識別率的影響
高斯混合模型采用單高斯密度函數(shù)線性的加權(quán)值調(diào)整實驗表明,適當(dāng)增加權(quán)值可增加結(jié)果的真實分布程度;改進(jìn)卡爾曼濾波算法可以減少噪聲的影響,提高抗干擾能力,提取說話人的特征準(zhǔn)確度更高。
針對傳統(tǒng)語音識別系統(tǒng)在噪音環(huán)境適應(yīng)性差的問題,分析了人類語音特征和信號處理策略,研究高斯混合數(shù)學(xué)模型和隱馬爾可夫數(shù)學(xué)模型在噪音環(huán)境中語音識別效果,適當(dāng)增加采集時長,可有效提高語音的識別率,改進(jìn)算法也可提高數(shù)學(xué)模型在噪音環(huán)境的準(zhǔn)確度,對語音識別系統(tǒng)在信息化中應(yīng)用具有很好的指導(dǎo)意義。