999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于二階隱馬爾可夫模型的清濁音恢復算法?

2011-04-02 21:09:50何洪華徐敬德崔慧娟唐昆
電訊技術 2011年6期
關鍵詞:模型

何洪華,徐敬德,計 哲,崔慧娟,唐昆

(清華大學電子工程系清華信息科學與技術國家實驗室,北京100084)

基于二階隱馬爾可夫模型的清濁音恢復算法?

何洪華,徐敬德,計 哲,崔慧娟,唐昆

(清華大學電子工程系清華信息科學與技術國家實驗室,北京100084)

為了解決低速率語音編碼中比特受限的問題,提出了一種基于二階隱馬爾可夫模型的清濁音參數恢復算法。該算法采用二階隱馬爾可夫模型,通過歸一化的能量參數和LPC倒譜系數估計出序列中的全帶清濁音判決和各個子帶的清濁音度。解碼器實現該算法后,編碼器就無需對清濁音參數進行量化傳輸,從而節約了比特數。實驗結果表明,該算法比基于GMM模型的算法能更好地恢復出清濁音信息,全帶清濁音誤判率減少了5%~20%,合成語音的MOS分比用5 bit的矢量量化(VQ)算法提高了0.03左右,達到了在節約比特數的同時也提高了語音質量的效果。

低速率語音編碼;二階隱馬爾可夫模型;全帶V/U判決;BPVC恢復

1 引言

隨著現代通信技術的不斷進步,特別是光纖通信的發展使得通信的能力大幅提高。但是在信道價格昂貴的衛星通信、信道帶寬極其有限的水聲通信和信道環境惡劣的短波通信中,仍然存在著對超低速率的聲碼器的強烈需求。因此,有必要進一步研究300 bit/s甚至更低速率的語音編碼器。

在低速率語音參數編碼算法中,一般在編碼端對原始語音信號進行分析,提取各種能夠表征語音信號的參數,如清濁音參數、線性預測系數(Linear Prediction Coding,LPC)、基音周期參數、能量參數等,對這些參數進行量化傳輸,然后在解碼端使用反量化后的這些參數來合成語音信號[1]。因此,各個參數的量化性能直接影響著合成語音的質量。傳統的低速率聲碼器通過衡量各個參數對語音質量的影響程度,然后給各個參數分配合理的比特數進行量化傳輸。然而在超低速率聲碼器中,分配給各個參數的比特數極其有限,各個參數的量化性能受到嚴重影響,從而影響了合成語音的質量。文獻[2]提出了一種基于GMM(Gaussian Mixture Models)模型的清濁音解碼端恢復算法,使得濁音度參數無需傳輸,從而節約原本用于濁音度參數量化傳輸的比特。這樣,節約出的比特數就可以分配給線性預測系數和基音周期等其它參數進行量化,使得其它參數的量化性能得到提高,從而使合成語音的整體性能也得到提高。但是文獻[2]中的GMM模型忽略了語音信號參數具有時間相關性的事實。實際上,人的發音習慣相對穩定,相鄰幀的清濁音參數之間相關性很大。為了更好地利用相鄰幀的清濁音參數的相關性及其與能量參數、LPC倒譜系數之間的統計相關性,本文提出了一種基于二階隱馬爾可夫模型的清濁音恢復算法。算法假定離散的清濁音為隱狀態,歸一化的能量參數和LPC倒譜系數組成的聯合矢量為可觀測狀態,采用二階隱馬爾可夫模型估計出序列中的清濁音處于濁音狀態的概率,將該值作為子帶的清濁音模糊值。由于目前低速率聲碼器如SELP[1]和MELP[3]都是將語音信號按頻率分為(0,0.5 kHz)、(0.5,1 kHz)、(1,2 kHz)、(2,3 kHz)、(3,4 kHz)5個子帶,分別在各個子帶內判斷濁音度(BPVC),全帶的V/U判決與第1子帶的BPVC信息保持一致。因此,本文算法在恢復出各個子帶的BPVC模糊值后,給第1子帶的BPVC值設定一個門限即可以得到全帶的V/U判決。

2 清濁音參數恢復算法

隱馬爾可夫模型作為一種有效的語音信號統計模型,在語音識別和說話人識別研究中得到了廣泛的應用[4-6]。本文假設每連續N個子幀組成一個超幀,超幀中的BPVC參數序列滿足馬爾可夫性,其中歸一化能量參數和LPC倒譜系數(LPCC)為該馬爾可夫鏈的可觀測狀態,BPVC參數為隱狀態,根據隱馬爾可夫模型,通過歸一化的能量參數和LPC系數來估計BPVC的狀態。為了更好地利用BPVC參數的幀間相關性,算法采用二階隱馬爾可夫模型(HMM2)。

2.1 清濁音參數的HMM2模型

首先將帶通濁音度的值分為兩個狀態,分別標記為V(濁音)和U(清音),當BPVC的值大于某個門限時就標記其為V,否則為U。假設N個子幀組成一個超幀,第n子幀第b個子帶的清濁音參數的狀態為,若BPVC狀態滿足二階隱馬爾可夫性,則有:

然后將十維的LPC系數轉換成12維的LPC倒譜系數矢量l,并將其與歸一化能量參數ˉg組成一個聯合矢量

式中,歸一化能量參數ˉg=g/g0,g為當前子幀的能量,g0為當前子幀的長時能量。當前子幀的長時能量的更新方式為g0=αg+(1-α)g0,α為自適應修正的權重因子。

N個子幀的聯合矢量組成了馬爾可夫鏈中的可觀測序列,則p(z|Sb=i)表示當第b個子帶的清濁音參數處于狀態i時出現觀測矢量z的概率。在隱馬爾可夫模型當中,觀測矢量的概率密度通常由多個正態概率密度函數的線性疊加來逼近[7],即:

2.2 清濁音參數恢復算法

根據上一節的假設,在已知上一超幀最后一子幀的清濁音狀態和當前超幀各子幀觀測矢量的條件下,算法采用HMM2模型通過以下動態規劃過程估計當前子幀各子帶的清濁音狀態。

令前向概率αb(i,j,n)表示第n-1子幀第b子帶的濁音度處于狀態i,第n子幀第b子帶濁音度處于狀態j,且觀測矢量從第1幀到第n幀分別為z1到zn的概率,則有:

式中,n=1,2,…,N。假設上一超幀的最后一子幀為第0幀,則初始化

式中,n=2,3,…,N;r=2為狀態數。

令后向概率βb(i,j,n)表示已知第子n-1幀第b子帶的濁音度狀態為i,第n子幀第b子帶的濁音度狀態為j的條件下,觀測矢量從第n+1子幀到第N子幀分別為zn+1到zN的概率,則有:

式中,n=1,2,…,N。由初始條件βb(i,j,N)=1,通過以下公式迭代計算βb(i,j,n):

式中,n=2,3,…,N;r=2為狀態數。

在通過動態規劃迭代得到αb(i,j,n)與βb(i,j,n)后,按下式可以計算出超幀中的第n子幀第b子帶的濁音度狀態分布:

當j的狀態為V時上式即為該語音幀的第b子帶的BPVC參數處于狀態V時的概率,該值即為第n子幀第b子帶的模糊BPVC值。

一般認為全帶清濁音判決與低子帶的清濁音信息保持一致,因此可以根據第1子帶的BPVC值直接判決全帶的清濁音,如果下式成立則認為該語音幀為濁音,否則判決該語音幀為清音。

式中,Tuv為預設的判決門限。這樣通過本文算法既可以恢復出子帶的BPVC模糊值,也可以得到全帶的清濁音判決。

3 仿真實驗

本文使用一段114 min的中文語音作訓練庫來訓練狀態轉移矩陣和正態分布的各個參數,該數據庫包含不同性別不同方言的說話人的不同語句。觀測矢量逼近為M個正態分布的線性組合,一般來說,M越大,逼近得越好,性能也就越好,但是復雜度也相應增加,而且隨著M的增加,性能的提高會變得越來越不明顯[2]。基于實際考慮選擇M=8進行模型訓練。

3.1 清濁音參數恢復性能

為了去除LSF和能量的量化對恢復效果的影響,首先采用未量化的值來恢復U/V參數,計算算法對U/V參數的恢復效果,測試指標包括全帶V/U判決的準確率以及5個子帶的BPVC參數恢復誤差,恢復誤差的計算采用以下的加權失真:

全帶V/U判決的測試語音采用帶有全帶V/U標注信息的Keele語音庫,包括10個男女聲說話人的話音內容,總時長為5 min 36 s[2]。改變門限Tuv,得到清音誤判為濁音的概率Peu和濁音誤判為清音的概率Pev的相應變化曲線如圖1所示。本文也實現了文獻[2]的GMM算法,曲線越靠近左下方,錯誤率越低,性能越好。

當Pev≈1%時,兩種算法的Peu如表1所示,由于濁音被誤判對語音的影響遠大于清音被誤判的影響,所以通常在實際應用調整Tuv,使得Pev<1%。由圖1和表1可知,當Pev<1%時,本文算法比GMM算法的Peu減小了5%~20%,性能提高了20%~30%。

為了計算算法對各個子帶BPVC參數的恢復性能,按式(11)計算BPVC參數的失真。表2列出了本文算法與GMM算法的失真結果,測試語句采用了4段長度約為3 min的訓練集外標準測試語音。

2018年9月18日下午,2018年中國技能大賽——第六屆全國職工職業技能大賽中建七局杯砌筑工決賽在河南鄭州舉行。

由表2可知,本文算法相比GMM算法,BPVC的失真減少了12.7%。

由以上測試可知,本文算法相比于GMM算法能更好地恢復出全帶V/U判決和子帶BPVC參數。

3.2 對合成語音質量的影響

為了測試算法對整體語音性能的影響,在一種SELP聲碼器上進行了測試。該聲碼器以25 ms為一幀,采用12幀聯合矢量量化的方式對LSF參數、能量參數(Gain)進行量化,由于在SELP聲碼器模型中,BPVC要被用來輔助量化基音周期參數(Pitch),為了更客觀地比較,基音周期參數采用直通方式,無量化失真,不同算法的各個參數的比特分配方式如表3所示。其中,VQ算法采用5 bit對BPVC參數進行矢量量化(Vector Quantization)后傳輸;而GMM算法和HMM2算法不傳輸BPVC參數,只需在解碼端根據量化后的LSF參數和能量參數分別采用GMM模型和HMM2模型對V/U參數進行恢復,并利用恢復的V/U參數對語音信號進行合成。

測試語音采用4段長度約為3 min的訓練集外標準測試語音。測試指標采用平均意見得分(Mean Opinion Score,MOS),測試過程采用國際電信聯盟建議的P.862 MOS測試軟件,對應于表3中不同的算法,相應的測試結果見表4。

表4的測試結果表明,相較于5 bit的粗糙量化,采用GMM算法和本文算法后,客觀MOS分都有不同程度的提高,且節省了5 bit,而本文算法的MOS分比GMM算法又提高了0.03,有效地提高了合成語音的質量。

4 結論

在超低速率語音參數編碼算法中,極其有限的比特數給各個參數的量化增加了困難。為此,本文提出了一種基于二階隱馬爾可夫模型的BPVC恢復算法,算法充分利用子帶清濁音參數自身的時間相關性及其與能量、線性預測系數之間的統計相關性,采用二階隱馬爾可夫模型,用歸一化能量參數和LSF參數來恢復BPVC參數,節省了原本用于BPVC參數量化傳輸的比特。實驗結果表明,相比于GMM算法,本文算法能使全帶清濁音誤判率減少了5%~20%,使合成語音的平均MOS分提高了0.03左右。因此,在超低速率語音參數編碼算法中,利用參數自身的時間相關性和各參數之間的統計相關性來進一步改善算法性能是下一步的研究方向。

參考文獻:

LI Ye.Research on low bit rate speech coding techniques and algorithm[D].Beijing:Tsinghua University,2009.(in Chinese)

[2] Wei X,Dang X,Cui H,et al.Voiced/Unvoiced Classification Recovery in the Speech Decoder Based on GMM[C]//Proceedings of ICSP.Beijing:IEEE,2008:546-548.

[3] McCree V,Barnwell T.A mixed excitation LPC vocoder model for low bit rate speech coding[J].IEEE Transactions on Speech Audio Processing,1995,3(4):242-250.

[4] Rabiner L,Juang B H.Fundamentals of Speech Recognition[M].New Jersey:Prentice-Hall,1993:321-386.

[5] Ismail Shahin.Using Second-Order Hidden Markov Model to Improve Speaker Identification Recognition Performance under Neutral Condition[C]//Proceedings of the 10th IEEE ICECS. Sharjah,United Arab Emirates:IEEE,2003:124-127.

[6] Jean-Francois Mari,Jean-Paul Haton,Abdelaziz kriouile. Automatic wordrecognition based on second-order hidden Markov models[J].IEEE Transactions on Speech and Audio Processing,1997(5):22-25.

[7]楊行峻,遲惠生.語音信號數字處理[M].北京:電子工業出版社,1995:141-144.

YANG Xing-jun,CHI Hui-sheng.Voice digital signal processing[M].Beijing:Publishing House of Electronics Industry,1995:141-144(in Chinese)

[8]李曄,洪侃,王童,等.正弦激勵線性預測聲碼器子帶清濁音模糊判決[J].清華大學學報(自然科學版),2008,48(7):1101-1103.

LI Ye,HONG Kan.WANG Tong,et al.Fuzzy unvoiced/voiced decision-making for sub-bands for SELP vocoder[J].Journal of Tsinghua University(Science& Technology Edition),2008,48(7):1101-1103.(in Chinese)

HE Hong-hua was born in Chenzhou,Hunan Province,in 1985.He received the B.S.degree in 2008.He is now a graduate student.His research direction is low-bit rate speech coding.

Email:hhonghua@gmail.com

徐敬德(1985—),男,福建安南人,2007年獲學士學位,現為博士研究生,主要研究方向為低速率語音編碼;

XU Jing-de was born in Annan,Fujian Province,in 1985. He received the B.S.degree in 2007.He is currently working toward the Ph.D.degree.His research direction is low-bit rate speech coding.

計哲(1984—),女,黑龍江大慶人,2006年獲學士學位,現為博士研究生,主要研究方向為低速率語音編碼;

JI Zhe was born in Daqing,Heilongjiang Province,in 1984. She received the B.S.degree in 2006.She is currently working toward the Ph.D.degree.Her research direction is low-bit rate speech coding.

崔慧娟(1945—),女,遼寧沈陽人,清華大學電子工程系教授,主要研究方向為信源編碼、多媒體通信系統等;

CUI Hui-juan was born in Shenyang,Liaoning Province,in 1945.She is now a professor.Her research interests include signal source coding and multimedia communication system.

唐昆(1945—),男,江蘇宜興人,清華大學電子工程系教授,主要研究方向為數字通信、語音編碼等領域。

TANG Kun was born in Yixing,Jiangsu Province,in 1945. He is now a professor.His research interests include communication,speech coding.

Voiced/Unvoiced Parameters Recovery Based on Second-Order Hidden Markov Model

HE Hong-hua,XU Jing-de,JI Zhe,CUI Hui-juan,TANG Kun
(Tsinghua National Laboratory for Information Science and Technology,Department of Electronic Engineering,Tsinghua University,Beijing 100084,China)

In order to solve the problem of limited number of bits in low bit rate speech coding,an algorithm using second-order Hidden Markov Model(HMM2)to recover the voiced/unvoiced parameters is proposed in this paper.The algorithm uses the normalized energy and linear prediction coding(LPC)coefficients to estimate the full-band V/U classification and the sub-band BPVC value.The algorithm can be implemented in the decoder,saving the bits originally used by V/U parameters and reducing the bit rate of speech coding.Experimental results show that the algorithm proposed can reduce the V/U classification error rate by 5%~20%compared with the GMM algorithm,and improve the mean opinion score(MOS)of the synthesized speech signal by about 0.03 compared with the 5bit vector quantization(VQ),thereby greatly improves the estimation performance of the V/U parameters.

low-bit rate speech coding;second-order HMM;V/U classification;BPVC recovery

The National Natural Science Foundation of China(No.60572081)

TN912.32

A

10.3969/j.issn.1001-893x.2011.06.013

何洪華(1985—),男,湖南郴州人,2008年獲學士學位,現為碩士研究生,主要研究方向為低速率語音編碼;

1001-893X(2011)06-0056-05

2011-01-30;

2011-04-14

國家自然科學基金資助項目(60572081)

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲无码免费黄色网址| 国产综合另类小说色区色噜噜 | 91色老久久精品偷偷蜜臀| 亚洲最新在线| 这里只有精品在线| 国产成人精品一区二区秒拍1o| 亚洲色大成网站www国产| 亚洲最大情网站在线观看| 国产精品七七在线播放| 欧洲精品视频在线观看| 成人午夜视频免费看欧美| 亚洲国产理论片在线播放| 99精品国产高清一区二区| jizz亚洲高清在线观看| 免费又黄又爽又猛大片午夜| 亚洲国产av无码综合原创国产| 九九热视频精品在线| 国模私拍一区二区| 天堂成人av| 色婷婷电影网| 免费国产高清精品一区在线| 五月婷婷伊人网| 无码久看视频| 亚洲无码在线午夜电影| 色网在线视频| 免费xxxxx在线观看网站| 波多野结衣二区| 欧美在线导航| 欧美yw精品日本国产精品| 欧美色99| 伊人查蕉在线观看国产精品| 亚洲三级a| 日韩成人高清无码| 97人妻精品专区久久久久| 久久久久亚洲av成人网人人软件| 日韩最新中文字幕| 97国内精品久久久久不卡| jizz亚洲高清在线观看| 91久久偷偷做嫩草影院免费看| 成人福利在线看| 欧洲精品视频在线观看| 91久久精品日日躁夜夜躁欧美| 99久久精品国产麻豆婷婷| 亚洲va欧美ⅴa国产va影院| 日本黄色不卡视频| 国产一区二区三区在线观看视频 | 日韩专区欧美| 国产福利小视频在线播放观看| 久久性视频| 亚洲不卡网| 毛片视频网| 亚洲国产综合精品一区| 色欲色欲久久综合网| 老司国产精品视频| 欧美日韩第二页| 在线看免费无码av天堂的| av天堂最新版在线| 中字无码精油按摩中出视频| 国产国语一级毛片在线视频| 日韩第一页在线| 亚洲性日韩精品一区二区| 中文字幕欧美日韩| 日韩在线网址| 国产视频自拍一区| 亚洲人成影院午夜网站| 亚洲中久无码永久在线观看软件 | 无码国产伊人| 国产福利2021最新在线观看| 亚洲性影院| 欧美一级黄片一区2区| 亚洲欧美日韩成人在线| 男女猛烈无遮挡午夜视频| 久久免费观看视频| 日日噜噜夜夜狠狠视频| 欧美国产精品不卡在线观看 | 亚洲第一福利视频导航| 成年免费在线观看| 国产精品xxx| 青青国产成人免费精品视频| 99ri精品视频在线观看播放| 91啪在线| 亚洲资源站av无码网址|