

摘 要: 語(yǔ)音控制是智能化設(shè)備的重要控制手段,而語(yǔ)音識(shí)別是實(shí)現(xiàn)語(yǔ)音控制的關(guān)鍵技術(shù)。為了設(shè)計(jì)一種可靠的、抗干擾性強(qiáng)的產(chǎn)品,提出了一種基于雙麥克風(fēng)降噪技術(shù)的語(yǔ)音識(shí)別系統(tǒng)。該設(shè)計(jì)運(yùn)用ROHM公司的BU8332KV芯片作為語(yǔ)音識(shí)別前端處理的核心,利用其雙麥克風(fēng)降噪技術(shù)來(lái)解決語(yǔ)音識(shí)別中的噪聲問(wèn)題,結(jié)合單片機(jī)和語(yǔ)音識(shí)別芯片,應(yīng)用于按摩椅的語(yǔ)音控制系統(tǒng)中。經(jīng)過(guò)非特定人的語(yǔ)音識(shí)別系統(tǒng)的靜態(tài)和噪聲環(huán)境下測(cè)試,結(jié)果表明在噪聲環(huán)境下,該系統(tǒng)有較高的識(shí)別率,適用于按摩椅的應(yīng)用環(huán)境,也適合在其他有環(huán)境噪聲干擾的語(yǔ)音識(shí)別系統(tǒng)中推廣應(yīng)用。
關(guān)鍵詞: 語(yǔ)音識(shí)別; 語(yǔ)音控制; 雙麥克風(fēng)降噪; BU8332KV
中圖分類(lèi)號(hào): TN912?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)02?0137?03
Speech recognition system based on dual?microphone noise reduction technology
PAN Lijie, XU Benliang, ZHU Qi, WANG Lifeng, MIAO Huigen
(Yangtze Delta Region Institute of Tsinghua University, Jiaxing 314000, China)
Abstract: With the speech control as an important control means of intelligent device, and speech recognition as a key technology to realize the speech control, a speech recognition system based on double?microphone noise reduction technology is proposed for the design of a reliable, strong anti?interference product. In the design of a voice control system in massage chair, BU8332KV chip of ROHM Company is taken as the core of speech recognition front?end processing, the dual?microphone noise reduction technology is adopted to solve the problem of noise in speech recognition, and MCU and speech recognition chip are combined. The testing result of speaker independent speech recognition system in static and noise environment test proves that the system has a high recognition rate, and is suitable for the application environment of massage chair. It is also suitable for popularization and application to other speech recognition systems working in environmental noise interference.
Keywords: speech recognition; speech control; dual?microphone noise reduction; BU8332KV
0 引 言
近年來(lái),隨著語(yǔ)音識(shí)別技術(shù)的日益發(fā)展,語(yǔ)音輸入系統(tǒng)廣泛應(yīng)用于以汽車(chē)導(dǎo)航儀及智能手機(jī)為首的移動(dòng)設(shè)備上,今后還將要擴(kuò)展到其他智能電氣產(chǎn)品。語(yǔ)言是人類(lèi)傳遞信息的主要手段,語(yǔ)音識(shí)別技術(shù)是目前世界上最熱門(mén)和最具發(fā)展前景的新型信息技術(shù)之一[1?2]。采用語(yǔ)音識(shí)別作為人機(jī)接口的設(shè)備能夠具有簡(jiǎn)便、快捷、靈活的優(yōu)點(diǎn),其在軍事、民用和商業(yè)領(lǐng)域都發(fā)揮了巨大的作用,在未來(lái)會(huì)成為新一代操作系統(tǒng)的接口[3?5]。
在語(yǔ)音識(shí)別過(guò)程中,不可避免會(huì)受到其他噪聲影響,比如周?chē)h(huán)境中的噪聲,別人講話(huà)的聲音等,這樣,最終接收到的已經(jīng)不是純凈的語(yǔ)音信號(hào),而是有干擾的帶噪語(yǔ)音,常規(guī)的做法就是通過(guò)增強(qiáng)、增大語(yǔ)音信號(hào)來(lái)解決,比如提高嗓門(mén),或近距離說(shuō)話(huà),這樣極大地影響了使用效果。所以在前端對(duì)語(yǔ)音進(jìn)行降噪處理非常必要,也是語(yǔ)音識(shí)別的最重要部分,能夠?yàn)檎麄€(gè)語(yǔ)音識(shí)別系統(tǒng)提供可靠的穩(wěn)定性,提高其識(shí)別率。
本文以ROHM公司的BU8332KV芯片作為語(yǔ)音識(shí)別前端處理的核心,利用其雙麥克風(fēng)降噪技術(shù)來(lái)解決語(yǔ)音識(shí)別中的噪聲問(wèn)題。
1 雙麥克風(fēng)降噪技術(shù)
1.1 技術(shù)原理
BU8332KV芯片采用波束賦形技術(shù)形成指向性,因?yàn)閷⒅赶蜉S轉(zhuǎn)向聲源的方向,所以大大降低了環(huán)境噪音。這里的波束賦形技術(shù)是利用多個(gè)麥克風(fēng)的相位差,降低目標(biāo)方向以外的語(yǔ)音的技術(shù)。其降低了環(huán)境噪音,提高了目標(biāo)聲源的清晰度。通過(guò)噪音抑制的功能,進(jìn)一步降低殘留在指向軸方向的固定噪音。這個(gè)技術(shù)和僅僅使用噪音消除的技術(shù)不同,可以更加強(qiáng)調(diào)聲源。而且,由于它能夠在僅僅10 mm的窄間距上安裝2個(gè)麥克風(fēng),所以能夠內(nèi)置于以智能手機(jī)為代表的各種小型設(shè)備上。通過(guò)最優(yōu)化處理,波束賦形技術(shù)可以將使用時(shí)的處理延遲時(shí)間控制在10 ms以下,使得將其他應(yīng)用程序的影響控制在最小限度內(nèi)。通過(guò)這些措施,有助于提高各種設(shè)備的語(yǔ)音識(shí)別率和改善免提的通話(huà)質(zhì)量,雙麥克風(fēng)降噪工作示意圖如圖1所示。
圖1 雙麥克風(fēng)降噪工作示意圖
使用兩個(gè)麥克風(fēng)形成指向性的技術(shù)早已被應(yīng)用,但現(xiàn)有技術(shù)為了提高指向性,必須拉長(zhǎng)麥克風(fēng)間距,所以不能適應(yīng)小型便攜式設(shè)備的搭載要求。另外,數(shù)字信號(hào)處理的延遲時(shí)間及音質(zhì)劣化,也是今后繼續(xù)要攻克的研究課題。而如今,利用波束賦形技術(shù)形成指向性,并且通過(guò)把指向軸轉(zhuǎn)向聲源方向,從而衰減了聲源以外的語(yǔ)音。在指向軸方向殘留的固定噪音通過(guò)噪音抑制的功能得以降低,因而使得聲源變得清晰。其結(jié)果是使得背面方向的衰減量較傳統(tǒng)的麥克風(fēng)改善30 dB以上。
1.2 技術(shù)特點(diǎn)
(1) 敏銳指向性可以更加清晰地拾取聲源。獨(dú)有的信號(hào)處理技術(shù)與以往麥克風(fēng)比較,實(shí)現(xiàn)了敏銳的指向性,進(jìn)行聲音的清晰度處理。聲源方向(0°)對(duì)于背面方向(180°)的衰減量與以往的麥克風(fēng)比較大幅度改善30 dB以上。此外,還可以實(shí)現(xiàn)10 mm安裝間距,如圖2所示。
圖2 BU8332KV?M與以往麥克風(fēng)指向性特點(diǎn)的比較
(2) 大幅度提高語(yǔ)音識(shí)別率。可以使語(yǔ)音不劣化,能降低環(huán)境噪音。因此,提高在環(huán)境噪音條件下的語(yǔ)音識(shí)別率。通過(guò)檢測(cè),在環(huán)境噪音等級(jí)55 dBSPL的環(huán)境下的語(yǔ)音識(shí)別精度從5%提高到90%。未使用時(shí),噪音等級(jí)為55 dBSPL,識(shí)別率急劇下降;使用時(shí),即使噪音等級(jí)為65 dBSPL,也可以實(shí)現(xiàn)45%的識(shí)別率。
圖3 使用BU8332KV?M時(shí)的語(yǔ)音識(shí)別精度
2 硬件電路設(shè)計(jì)
2.1 總體結(jié)構(gòu)設(shè)計(jì)
整個(gè)系統(tǒng)的硬件電路主要包括語(yǔ)音處理和語(yǔ)音識(shí)別兩個(gè)模塊。語(yǔ)音處理模塊主要為BU8332KV芯片電路,語(yǔ)音識(shí)別模塊主要為STC10L08XE單片機(jī)和LD3320語(yǔ)音識(shí)別芯片電路。系統(tǒng)的實(shí)現(xiàn)方框圖如圖4所示。
圖4 系統(tǒng)總體結(jié)構(gòu)框圖
2.2 語(yǔ)音處理部分
該部分采用ROHM公司的BU8332KV芯片。 該芯片采用波束賦形技術(shù)形成指向性,因?yàn)閷⒅赶蜉S轉(zhuǎn)向聲源的方向,所以大大降低了環(huán)境噪音。通過(guò)噪音抑制的功能,進(jìn)一步降低殘留在指向軸方向的固定噪音。這個(gè)技術(shù)和僅僅使用噪音消除的技術(shù)不同,可以更加強(qiáng)調(diào)聲源,通過(guò)最優(yōu)化處理,然后將降噪后的語(yǔ)音輸入到LD3320中。該技術(shù)的其他功能如下:使用波束賦形技術(shù)功能時(shí)的處理延遲時(shí)間為10 ms以下;搭載降低殘留在軸向指向方向的固定噪音的噪音抑制功能;模擬輸出(LINEOUT)或者數(shù)字輸出(PCM接口);可用3.3 V的單系統(tǒng)工作(內(nèi)置核心電源調(diào)節(jié)器);內(nèi)置有麥克風(fēng)用偏壓、前置放大器的電路;雙線(xiàn)主機(jī)接口;可以單機(jī)工作(內(nèi)置E2PROM用SPI接口)。
2.3 語(yǔ)音識(shí)別模塊
LD3320內(nèi)部通過(guò)快速而穩(wěn)定的優(yōu)化算法,完成非特定人語(yǔ)音識(shí)別,不需要用戶(hù)事先訓(xùn)練和錄音,不需要外接任何輔助的FLASH芯片,RAM芯片和A/D芯片[6?7],就可以完成語(yǔ)音識(shí)別功能;因此LD3320的語(yǔ)音識(shí)別率準(zhǔn)確率比較高,也比較穩(wěn)定。LD3320芯片內(nèi)部的語(yǔ)音識(shí)別原理框圖[5?6]如圖5中的圓角矩形框內(nèi)所示。
圖5 語(yǔ)音識(shí)別原理框圖
LD3320芯片與STC10L08XE單片機(jī)采用并行方式相接,單片機(jī)先將關(guān)鍵詞列表發(fā)送給LD3320。語(yǔ)音識(shí)別的過(guò)程也是語(yǔ)音識(shí)別芯片完成的工作:把通過(guò)語(yǔ)音處理模塊的語(yǔ)音流進(jìn)行頻譜分析,提取其中的語(yǔ)音特征,再和列表中的關(guān)鍵詞語(yǔ)進(jìn)行匹配,找出得分最高的關(guān)鍵詞語(yǔ)作為識(shí)別結(jié)果輸給單片機(jī),單片機(jī)播放對(duì)應(yīng)的提示音。
3 性能測(cè)試與應(yīng)用
本文所設(shè)計(jì)的語(yǔ)音識(shí)別系統(tǒng)主要用在語(yǔ)音控制按摩椅,在應(yīng)用中最主要關(guān)注的是識(shí)別率以及實(shí)時(shí)性。為了檢測(cè)識(shí)別效果,實(shí)驗(yàn)中選取幾個(gè)不同音色的人在實(shí)驗(yàn)室安靜環(huán)境下和加60 dB噪音環(huán)境下分別進(jìn)行多組詞語(yǔ)測(cè)試,每個(gè)測(cè)試50遍。兩種環(huán)境下部分語(yǔ)音命令測(cè)試的正確識(shí)別數(shù)據(jù)比例如表1、表2所示。
由表1、表2可知在實(shí)驗(yàn)室安靜環(huán)境下,對(duì)于測(cè)試的語(yǔ)音命令平均識(shí)別率可達(dá)91.5%,在噪音環(huán)境下可達(dá)68%。兩種環(huán)境下對(duì)單個(gè)語(yǔ)音命令處理后的波形如圖6、圖7所示。
4 結(jié) 語(yǔ)
噪聲環(huán)境中的語(yǔ)音識(shí)別是當(dāng)前語(yǔ)音信號(hào)處理領(lǐng)域的研究難點(diǎn)。本設(shè)計(jì)運(yùn)用ROHM公司的BU8332KV芯片作為語(yǔ)音識(shí)別前端處理的核心;利用其雙麥克風(fēng)降噪技術(shù)來(lái)解決語(yǔ)音識(shí)別中的噪聲問(wèn)題;運(yùn)用單片機(jī)和非特定人語(yǔ)音識(shí)識(shí)別芯片LD3320,完成了語(yǔ)音控制系統(tǒng)的語(yǔ)音識(shí)別模塊的軟硬件設(shè)汁。實(shí)驗(yàn)結(jié)果表明,基于雙麥克風(fēng)降噪技術(shù)的語(yǔ)音識(shí)別系統(tǒng),對(duì)于語(yǔ)音命令的平均識(shí)別率可達(dá)90%,在噪音干擾下也有著65%以上的識(shí)別率。本系統(tǒng)抗噪聲能力強(qiáng),其雙麥克風(fēng)可以近距離安裝,可以使系統(tǒng)小型化,通用化,隨著智能產(chǎn)品的普及,該系統(tǒng)將有廣泛的應(yīng)用前景。
表1 安靜環(huán)境下正確識(shí)別數(shù)據(jù)表
表2 60 dB噪音環(huán)境下正確識(shí)別數(shù)據(jù)表
圖6 安靜環(huán)境下語(yǔ)音處理后輸出的語(yǔ)音波形
(上接第139頁(yè))
圖7 60 dB噪音環(huán)境下語(yǔ)音處理后輸出的語(yǔ)音波形
參考文獻(xiàn)
[1] 劉幺和,宋庭新.語(yǔ)音識(shí)別與控制應(yīng)用技術(shù)[M].北京:科學(xué)出版社,2008.
[2] 趙力.語(yǔ)音信號(hào)處理[M].2版.北京:機(jī)械工業(yè)出版社,2009.
[3] 張晨燕,孫成立.非特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)的片上實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(13):194?196.
[4] 關(guān)勝平,何培宇,劉珂含,等.基于TMS320VC5509A的語(yǔ)音識(shí)別與控制系統(tǒng)[J].電子技術(shù)應(yīng)用,2007,33(7):36?39.
[5] 孫兵.基于單片機(jī)的機(jī)械手聲控系統(tǒng)設(shè)計(jì)[J].機(jī)械工程與自動(dòng)化,2007(6):113?114.
[6] 佚名.LD332X語(yǔ)音識(shí)別芯片[EB/OL].[2010?07?01].http://www.icroute.com/web_cn/LD332X.html.
[7] 佚名.LD3320芯片簡(jiǎn)明調(diào)試步驟[EB/OL].[2010?07?01].http://www.icroute.com/web_cn/LD332X_DebugProcess.html.