孫廣武,戴永,喻世東,李璇
湘潭大學智能計算與信息處理教育部重點實驗室,湖南湘潭 411105
音素關聯的多文種語音融合編碼方法
孫廣武,戴永,喻世東,李璇
湘潭大學智能計算與信息處理教育部重點實驗室,湖南湘潭 411105
多文種兼容是多文種信息處理的發展方向[1-6],多文種語音融合編碼成為這類系統能否具有實用性的重要研究內容,如文獻[3]利用嵌入式技術發明的多文種文字書寫教學系統,主要受眾是低齡用戶,多文種語音表達指導意見是必備功能。迄今的語音編碼研究集中在單文種,涉及方法主要有小波變換和矢量量化[7]、SPIHT[8]、多頻帶編碼[9]、ADPCM、MELPC、PSELP等。將單文種語音編碼方法直接用于多文種系統,不僅導致語音庫容量膨脹,索引邏輯復雜,而且不利于系統性能優化。本文以漢語、英語等文種為例,依據語種內部和語種間基本字詞音素數據關聯特性,提出多文種語音融合編碼方法。音素關聯分析過程為:根據異類文種音素數據存在的相同段塊結構,按段塊模板截取語音樣本序列,對序列進行小波變換,提取變換序列的特征,生成共享模板序列集合;基于音素關聯分析的語音庫構建規則為:任意字音或語句音串均依據共享模板序列集合元素進行編碼與解碼,相應的語音記錄庫由(音節、音素)進行二級檢索。實驗表明,本文方法在單字語音數據壓縮比、語音數據存儲量、語音還原分段信噪比等方面均明顯優于已有方法,語音還原質量達到實用要求。
圖1線框所圍為漢字“書”中“u”和英語音標“u:”的發音音譜,“書”和“u:”的語音數據長度分別為8 664字節和8 544字節,在數據開始部分和結尾部分,二者均有一定長度的無聲樣本點,“書”和“u:”中發音相似的樣本點序列(框中所示)長度分別為4 740字節和4 696字節;圖2線框中為漢語韻母“a(阿)”與英文音標“?”的音譜,“a”、“?”發音相似的音頻段塊長度分別為3 976字節與3 465字節。

圖1 “書”與“u:”的音譜(x軸:0~10 000)

圖2 “a”與“?”的音譜(x軸:0~6 000)
字詞語音數據結構表明,同語種內不同字音之間、不同語種字詞之間,音頻段塊發音相似現象較為普遍。在語言學中,相同、相似的語音段塊往往以一個特定發音基元表征。以聲韻母作為漢語語音分析基元,稱為漢語音素;以英語音標發音作為英文分析基元,稱為英文音素。
用P表示音素,s表示語音樣本點,P為相關s的有序集合,即P={s1,s2,…}。
基于音素數據結構進行多文種語音融合編碼,關鍵在于建立多文種通用的音素數據鏈接結構模板序列集合,簡稱為共享模板集,被編碼語音是共享模板集中相關元素的數據序列。
3.1 截取語音樣本序列


式(1)、(2)分別計算語音幀ν的短時能量E(ν)和短時過零率Z(ν):


f為幀內變量,以maxCorr(ν)表示幀ν自相關函數的峰值。
由語音幀能零比、能零積、自相關函數峰值3個參量組合進行清濁音音素的判別。
依據濁音音素在濁音段的時長比例和濁音段的總幀數計算第d個濁音音素的幀數:

PT(0)=0,T為濁音段幀數,T=νfe-νfs+1,νfs、νfe表示濁音段的起、止幀號,D和d為濁音音素個數與編號,PhoneT(d)為d音素的相對時長。

算法1單字音素樣本序列截取


任意Pi對于所選mi個訓練字,算法1執行mi次,分別獲得Pi1,Pi2,…,Pimi。
3.2 序列小波變換與特征矢量提取
基于聲音信號的非平穩時變特點,對Pi1,Pi2,…,Pimi分別進行小波變換[10-11],相應變換模型為:

xJ(η)、yJ(η)分別為第J層的尺度系數和細節系數;h、g為低通和高通分解濾波器;H、G為低通和高通重構濾波器。小波變換后生成的系數序列記為由于低頻系數對信號還原影響較大且不同尺度間系數具有相關性,分別提取的低頻成分和跨頻帶成分,構成Pi的兩類特征矢量集VAi1[p]和VAi2[q],包含矢量個數分別為VNi1、VNi2。
算法2Pi特征矢量提取

3.3 共享模板集生成
從矢量總體中,劃分出若干類,每一類生成適當的矢量作為這一類的代表,稱之為共享矢量,所有的共享矢量構成共享矢量集。對于Pi,記VBi1為與VAi1對應的p維共享矢量集,VBi1中矢量個數為Ni1,VAi1生成VBi1算法的主要步驟如下所示。

(2)初始化:Yt=Xr(r=t·(Mi1/Ni1)),為初始共享矢量,設置迭代次數最大值Max_Round,初始失真值d′,迭代結束的閾值e。
(3)計算VAi1中矢量與VBi1中所有矢量的失真度,公式為:

3.4 編碼與解碼
任意字音及語句音串均依據共享模板集T(i)的元素進行編碼與解碼,字音編碼分解為字音中若干音素的編碼,語句音串可看做單個字音的拼接。編碼語音數據特征集VA中輸入矢量X與共享集VB中Yt(t=1,2,…,N)以式(8)比較失真度,輸出與X失真度最小的矢量Yf′的編號f′作為X的編碼值。
解碼是編碼的逆過程。首先,讀取字音中第一個音素的編碼結果,根據T(i)生成該音素的兩類矢量;其次,把兩類矢量組合成初始小波系數形式;然后,進行與編碼過程同級的小波逆變換,截取準確長度的數據序列作為該音素的還原音素,對字音包含的音素都執行上述解碼過程,得到全部解碼音素;最后,將各音素依次組合,加入格式與長度信息,形成可播放的字音文件。
4.1 整體結構設計
被練習字的描述字[3]根據教材按(文種號、學期號、課號、課內字號)保存,4個字段組合構成被練習文字的檢索碼。由(音節、音素)構成的語音記錄庫索引是描述字的字段之一。
語音體系由音素記錄庫與(音節、音素)記錄庫組成,系統通過檢索碼在(音節、音素)記錄庫中查詢(音節、音素),由(音節、音素)查詢音素記錄庫中相關音素模板串記錄進行相應的語音重構。此機理從根本上擺脫文種、文字、語句等差異的影響。
4.2 檢索碼與音節、音素碼的映射關系
檢索碼與(音節、音素)的映射邏輯關系,有多種方法實現,查表法是基本方法之一。表1是針對人民教育出版社新版小學語文教材部分被練習文字的檢索碼與(音節、音素)映射結構示例。檢索碼(L00,1,4,2)中,L00表示大陸漢語文種,其余3項解讀為第1學期第4課的第2個字,被練習字為“入”。通過(L00,1,4,2)得到“入”的語音庫索引碼為(ru4,(31,124,r)(83,332,u)),其中音素用于索引音素庫中的音素數據段塊進行拼接實現語音重構;音素碼的三元結構對應(VA1編碼長度,VA2編碼長度,音素名)。

表1 檢索碼與音節、音素碼映射關系
實驗平臺為嵌入式開發系統YC2440,設備SDRAM為36.76 MB,NandFlash容量為30.8 MB。
漢語中聲韻母音素個數為47個,英語中音標音素個數為48個,綜合后音素集合中保留的音素個數為55個,即“b,p,m,f,…,ai,uw,jh,….in,ang”,其中,“uw”音素代表了漢語聲母“w”,韻母“u”與英語音標“w”、“v”、“u:”、“u”。以“ai”為例進行模板訓練,“ai”在音素序列中排序為25,記為P25;以“zai4.wav(在)”為例進行語音編碼,“zai4.wav”的原始語音數據長度為8 358 Byte。
訓練過程:挑選含有“ai”發音的字音,共66個,為“埃,挨,……,債,寨,ai,e,?”(最后3個訓練字為英文音標),即m25=66,設置CA[m25],CB[m25]分別保存每個訓練字的A值和相應的β值,m25個訓練字均執行算法1后,得到樣本序列P25,1,P25,2,…,P25,66,以算法2對樣本序列提取特征矢量,其中waνname=“bior1.5”,W=4,p=4,q=15,執行后VN25,1=3 022,VN25,2=12 088;共享模板集T(25)= {VB25,1,VB25,2}生成,N25,1=N25,2=256。
編碼過程:對于算法1,A=2,β=2,執行后得到音素“z”和“ai”的起止區間分別為[1,2 400],[2 241,8 358];以算法2中方法對“z”進行特征矢量提取,waνname,W,p,q取值與訓練過程相同,算法執行后,“z”的VN1=38,VN2=152,其編碼后的數據長度為190 Byte,同理,對“ai”進行矢量提取后,其VN1=96,VN2=384,編碼后數據長度為480 Byte。在編碼文件“zai4.dev”中,先加入音素位置信息(1,2 400,“z”),(2 241,8 358,“ai”),然后依次存儲音素編碼數據,編碼文件總長度為694 Byte,原始數據與編碼數據的壓縮比例為8 358∶694=12.04∶1。
本文方法與文獻[7]和文獻[8]方法的編碼結果的比較分析,見表2。實驗1和2分別為文獻[7-8]的運行效果;實驗3為本文方法運行效果。表2表明本文方法在數據編碼的三項重要指標上均優勢明顯。

表2 文字語音編碼效果分析例表
以“在”字讀音為例,圖3為其原始與還原音譜,圖4為原始與還原頻譜;圖5是第11條語音串“S11”(“筆畫的起始書寫方向出錯”)的自然與拼接還原音譜。

圖3 “在”字原始音譜與還原音譜

圖5 語音串“S11”的自然音譜與拼接還原音譜
圖3、4、5說明本文方法有著高質量的語音還原效果。
本文方法已實用于文獻[3]系統,使得35.9 MB的原始語音數據降為3.04 MB。
多文種共處的相關系統越來越多,如何實現異類文種數據的融合,減輕系統容量壓力以避免系統性能受影響是必須面對的重要問題。數據段塊處理技術是當前研究熱點[12],本文對具有代表性的數據段塊拼接技術進行研究,具體實現了漢語、英文等文種的語音融合編碼、融匯建庫,其機理適用于進一步擴展文種,也可借鑒于其他多文種語音的融合;本文方法不僅適用于多文種文字書寫教學系統語音數據結構優化,也可推廣到多種類圖形識別[13-14】、圖形繪制等指導系統,或其他含語音庫系統的語音庫記錄及其記錄數據結構優化。面向低齡用戶的嵌入式多文種文字書寫教學系統,在研究語音數據結構優化的同時,MC/OS改進及主成分時間序列等的研究[15-17]需進一步跟進。
[1]Herve B,John D,Mathew M,et al.Current trends in multilingual speech processing[J].Sadhana,2011,36(5):885-915.
[2]王心覺,戴永,張維靜,等.面向指導的自由式英文字母書寫跟蹤[J].湘潭大學自然科學學報,2012,34(2):85-89.
[3]戴永.可聯網交互的多功能規定格式習字系統及方法:中國,ZL201010149767.2[P].2010-09-01.
[4]Fung P,Schultz T.Multilingual spoken language processing[J]. IEEE Signal Processing Magazine,2008,25(3):89-97.
[5]Polyákova T,Bonafonte A.Introducing nativization to Spanish TTS systems[J].Speech Communication,2011,53(8):1025-1041.
[6]Bojan I,Zdravko K,Bogomir H,et al.Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones[J].Speech Communication,2003,39(3/4):353-366.
[7]李淑紅,桑恩方.基于小波變換和矢量量化的語音壓縮編碼方案[J].聲學學報,2000,25(1):50-55.
[8]趙丹,馬勝前,鄭杰.基于SPIHT編碼的語音信號壓縮算法[J].計算機工程與應用,2011,47(9):142-145.
[9]Kulkarni P N,Pandey P C,Jangamashetti D S.Multi-band frequency compression for improving speech perception by listeners with moderate sensorineural hearing loss[J].Speech Communication,2012,54(3):341-350.
[10]Joseph S M,Anto P B.Speech compression using wavelet transform[C]//Proceedings of the International Conferenceon Recent Trends in Information Technology,2011:754-758.
[11]Hamid R T,Seyyed A S,Hossein B,et al.A new representationforspeechframerecognitionbasedonredundant wavelet filter banks[J].Speech Communication,2012,54(2):256-271.
[12]徐友武,吳云.P_skip模式提前判決的幀間編碼算法優化[J].湘潭大學自然科學學報,2011,33(3):119-122.
[13]倪問尹,王建新.多媒體數據內容檢測系統關鍵技術研究[J].湘潭大學自然科學學報,2012,34(2):107-110.
[14]戴永,曾艷艷.基于RBF神經網絡的手繪電氣草圖分類研究[J].湘潭大學自然科學學報,2010,32(4):102-107.
[15]簡巖,許道云.實時操作系統μC/OS—II子任務擴展的一種改進方法[J].湘潭大學自然科學學報,2009,31(1):121-124.
[16]彭景斌,姜小奇.一種基于主成分分析的時間序列趨勢預測方法[J].湘潭大學自然科學學報,2010,32(2):123-126.
[17]張欣,梁宗保.多分類器融合算法研究與應用[J].湘潭大學自然科學學報,2011,33(2):99-103.
SUN Guangwu,DAI Yong,YU Shidong,LI Xuan
Key Laboratory of Intelligent Computing and Information Processing,Ministry of Education,Xiangtan University,Xiangtan, Hunan 411105,China
Multilingual speech data fusion coding method is proposed according to the phoneme data correlation properties, which exist among heterogeneous languages and different words in the same language.Voice sample sequences of the same phoneme data segment in different languages are intercepted according to the segment templates,wavelet transform is done to those sequences,then feature vectors is extracted to generate shared template sets.Speech data of any word or sentence are coded or decoded according to the template sets.The speech record database made up of template phoneme sets is indexed according to(syllable,phoneme)structure.The single word compression ratio,speech data size,segmental signal-to-noise ratio(SNRS)and score of subjective evaluation(MOS)are significantly better than existing methods,also the voice restoration is of good quality. Key wards:speech;phoneme;correlation;multilingual;fusion coding
依據異類文種之間、同類文種不同語音之間存在音素數據關聯的特性,提出多文種語音數據融合編碼方法。將不同文種存在的相同音素數據段塊按段塊模板截取語音樣本序列,小波變換,提取特征矢量,生成共享模板集;任意字音或語句音串均按共享模板集提供的元素進行編碼與解碼;以模板音素串構成的語音記錄庫按(音節、音素)索引。實驗結果表明,單字語音數據壓縮比、語音數據存儲量、語音還原分段信噪比、主觀評價得分等參數均明顯優于已有方法,語音還原質量良好。
語音;音素;關聯;多文種;融合編碼
A
TP391
10.3778/j.issn.1002-8331.1302-0065
SUN Guangwu,DAI Yong,YU Shidong,et al.Phonemes associated multilingual speech fusion coding method.Computer Engineering and Applications,2013,49(19):217-221.
湖南省高校創新平臺開放基金(No.09K040);湖南省“十二五”重點學科建設項目。
孫廣武(1988—),男,碩士研究生,主要研究方向為模式識別,信號處理;戴永(1956—),男,教授,主要研究方向為人工智能,信號處理;喻世東(1989—),男,碩士研究生,主要研究方向為知識處理與智能系統;李璇(1989—),女,碩士研究生,主要研究方向為信號處理。E-mail:sunguangwu123@163.com
2013-02-09
2013-04-11
1002-8331(2013)19-0217-05
CNKI出版日期:2013-04-26http://www.cnki.net/kcms/detail/11.2127.TP.20130426.1018.002.html