石喬林,韋 凱,吳 輝
(中國電子科技集團公司第58研究所,江蘇 無錫 214035)
隨著通信、計算機網(wǎng)絡(luò)等技術(shù)的飛速發(fā)展,語音壓縮編碼技術(shù)得到了廣泛應(yīng)用。近年來隨著低速率聲碼器在軍事和衛(wèi)星通信中的成功運用,使得低于2.4kbps語音編碼算法越來越受到關(guān)注。混合激勵線線性預(yù)測編碼(MELP)在二元激勵LPC模型基礎(chǔ)上,采用了混合激勵、非周期脈沖、自適應(yīng)增強、脈沖整形濾波等技術(shù),使語音質(zhì)量得到極大改善,在1996年,該算法被美國國防部語音信號處理協(xié)會(DDVPC)選定為新一代的2.4kbps聲碼器標(biāo)準(zhǔn);隨后其增強型算法(MELPe)被北大西洋公約組織(NATO)選為語音編碼標(biāo)準(zhǔn)STANAG-4591;目前國內(nèi)外很多研究機構(gòu)基于該算法的改進型正在進行更低速率語音編碼算法的研究[1~4]。
本文以增強型MELP算法為基礎(chǔ),將三個連續(xù)語音幀構(gòu)成一個超幀(每個語音幀幀長25ms),利用幀間參數(shù)的相關(guān)性,采用多模式預(yù)測多級矩陣量化方法對LSF參數(shù)進行量化[5];在增益量化中,將增益量化分為超幀增益平均值量化和各增益值與增益均值之差值量化相結(jié)合,并將增益差值量化與基因周期量化聯(lián)合到一起,通過聯(lián)合量化的方法提高量化性能。
在編碼過程(見圖1)中通過線性預(yù)測分析、增益計算、基音估計和多帶分析方法從語音信號中提取線性預(yù)測系數(shù)、增益均值、增益差值、基音周期和子帶清濁判決等參數(shù),然后通過量化進入信道。

圖1 編碼過程
譯碼過程(見圖2)是通過將脈沖信號和噪聲信號根據(jù)子帶清濁判決結(jié)果,將其疊加在一起作為激勵信號,然后通過自適應(yīng)譜增強、LPC合成濾波、增益校正、脈沖整形濾波處理,從而充分反映了語音信號的本質(zhì)特征,極大地提高了合成語音的質(zhì)量。

圖2 譯碼過程
在基于線性預(yù)測的語音編碼算法中,線性預(yù)測系數(shù)的量化精度對于語音合成質(zhì)量具有舉足輕重的影響。本算法將在線性預(yù)測(LPC)系數(shù)轉(zhuǎn)化為線譜頻率(LSF)系數(shù)后,LSF矢量通過多級預(yù)測矩陣量化(predictive multistage matrix quantization)方法進行量化。首先,通過碼本訓(xùn)練獲得LSF矩陣的平均值矩陣,而需要量化的矩陣由轉(zhuǎn)化得到的LSF矩陣與LSF平均矩陣的差值組成。然后,通過線性預(yù)測的方法來獲得殘差的LSF矩陣消除連續(xù)超幀之間的相關(guān)性。預(yù)測系數(shù)與超幀中語音幀的清濁分布有關(guān)。對剩余的LSF矩陣進行多級矩陣量化,量化分為3級,每級碼本分別都含有256個碼矩陣。量化結(jié)果見表1。

表1 LSF失真測度對比表
從這組參數(shù)對比可以看出,本文采用的量化方式其量化效率得到了有效的提高。
MELP算法中包含5個子帶(0~500Hz,500Hz~1 000Hz,1000Hz~2 000Hz,2 000Hz~3 000Hz,3 000Hz~4 000Hz),子帶清濁音對合成語音的自然度有重要影響。當(dāng)子帶清濁音判清音過多,合成的語音比較沙啞;當(dāng)子帶清濁音判濁音過多,合成的語音機械音比較重,并影響合成語音的可懂度。
本算法根據(jù)子帶清濁音的統(tǒng)計規(guī)律,采用加權(quán)的歐氏距離作為量化距離測度。

式中:M表示一個超幀中包含的語音幀幀數(shù),分別表示超幀中第i個語音幀第j子帶清濁判決,ωj為各個子帶的量化權(quán)值,根據(jù)每個子帶的重要性設(shè)置,低頻子帶的量化權(quán)值最高,高頻子帶權(quán)值最小。本文設(shè)置的權(quán)值
每個語音幀中提取2個增益參數(shù)。這樣3個連續(xù)語音幀組成的一個超幀得到的一個6維的增益矢量G={G1,G2,G3,…,G6},然后用5bit來均勻量化量化得到的量化值為Gavg。
基音是語音信號中最重要的參數(shù)之一,因此基音周期的提取和估計是語音信號處理中一個重要環(huán)節(jié)。本算法中基音周期估計的計算方法參照MELP。一個超幀有3個語音幀,能提取3個基音周期,基音周期的量化是在周期的對數(shù)值中進行的,對于單獨量化的基音周期,其量化失真測度采用加權(quán)的歐氏距離算法:

式中:M表示一個超幀中包含的語音幀幀數(shù),分別表示超幀中的第i個語音幀的基音周期及其量化值。
增益差值是增益參數(shù)與增益平均值之間的差值gi=Gi-Gavg,若是單獨對增益差值進行量化,失真測度為
其中M表示一個超幀中包含的語音幀幀數(shù),gi、分別表示超幀中第i個語音幀的增益差值及其量化值。
我們利用一個系數(shù)α將基音周期和增益差值聯(lián)合在一起進行聯(lián)合量化,聯(lián)合量化的失真測度為:

權(quán)重因子α在聯(lián)合量化中可以顯示出基音周期和增益差值兩個參數(shù)在聯(lián)合量化失真測度計算中的重要程度。α是通過自適應(yīng)過程得到的,首先分別用公式(2)和公式(3)作為基音周期和增益差值單獨量化時的碼書設(shè)計失真距離公式,用GLA算法做碼書設(shè)計。用它們的失真距離初始化α,初始化值與它們成反比例。然后再用初始化后的權(quán)重因子α用公式(4)作為聯(lián)合量化時碼書設(shè)計失真距離公式,用GLA算法做碼書設(shè)計,再用分別得到的基音周期和增益差值的失真距離來更新α,再進行下一次碼書設(shè)計。最后取得到的最小失真距離時的值作為權(quán)重因子α和聯(lián)合量化的碼書。
表2列出600bps語音算法超幀的比特分配情況。每一超幀持續(xù)時間為75ms,量化45bit,即速率為600bit/s。

表2 量化比特分布表
選擇診斷押韻測試(DRT)和診斷可接受度測試(DAM)來做語音質(zhì)量主觀聽覺測試。DRT主要用來評價合成語音的可懂度,DAM則用來評價語音質(zhì)量。實驗室條件下錄制的相對純凈語音作為測試語音,其中男生5名,女生 4名。在1%隨機誤碼信道的仿真條件下做了仿真測試,表3給出了其在非正式主觀聽覺測試的結(jié)果。

表3 主觀聽覺測試結(jié)果
從測試結(jié)果可以看出,通過將連續(xù)語音幀組成超級幀進行聯(lián)合量化,利用幀間參數(shù)的相關(guān)性,在大幅度壓縮編碼速率的條件下,獲得了較高質(zhì)量的合成語音。
超低速語音編碼是當(dāng)前語音編碼的熱點和難點。本文依據(jù)MELP語音編碼模型,采用多幀聯(lián)合結(jié)構(gòu),根據(jù)連續(xù)幀的幀間冗余,用多模式預(yù)測多級矩陣量化和基音周期與增益聯(lián)合量化算法,提高了量化效率和合成語音質(zhì)量。當(dāng)然在極低速率下實現(xiàn)高質(zhì)量語音編碼仍存在很多問題有待解決,需要我們長期而深入的研究。
[1] A McCree, K Brady, T F Quatieri. Multisensor very low bit rate speech coding using segment quantization[C].Proc.IEEE Int. Conf. Acoustic, Speech, Signal Processing, Las Vegas, NV, 2008.3997-4000.
[2] J W Zhang, T H Huo, J L Li, H J Cui, K Tang. High quality 0.6kb/s speech coding algorithm[J]. J. Tsinghua Univ. of Sci.&Tech. (Chinese), 2003,43(4) : 449-452.
[3] X Zou, X W Zhang. High Quality 0.6/1.2/2.4kbps Multi-Band LPC Speech Coding Algorithm[C].IEE International Conference on Wireless, Mobile & Multimedia Networks,Hangzhou, China, 2006.1061-1064.
[4] M W Chamberlain. A 600 bps MELP vocoder for use on HF channels[C].IEEE Military Communications Conference,2001. 447- 453.
[5] X Zou, X W Zhang. Efficient coding of LSF parameters using multi-mode predictive multistage matrix quantization[C]. IEEE International Conference on Signal Processing, Beijing, China, 2008. 542-545.
[6] Xia Zou, ChuanHua Wen, XiongWei Zhang, YaFei Zhang.An Improved 600bps Speech Codiing on Joint Quantization of pitch and Gain Shape[C].IEEE International Conference,2010.1303-1306.