999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語言發音模型研究綜述

2018-06-26 10:19:28張金光
計算機工程與應用 2018年12期
關鍵詞:信號模型

張金光

北京大學 中國語言文學系,北京 100871

1 引言

傳統觀點認為語音是離散的線性的序列,是由最小語音單位(音素或音段)按照時間順序排列組合而成的。然而發音音系學(Articulatory Phonology)卻認為言語信號是連續的非線性的語音聚合群,是由交叉重疊的發音器官姿勢(音姿)協同變化產生的[1]。

到底語音是如何產生的?能不能建立模型,模擬語音的產生過程?研究者們做過哪些嘗試?成功和失敗的原因是什么?本文嘗試梳理各種有較大影響的語言發音模型的文獻資料,概括已有的研究成果,探索這些問題的答案。

很早以前,人們就對語言發音的原理產生了濃厚的興趣,并嘗試利用機械手段模擬語言發音過程。在中國,唐朝小說家張鷟所著的《朝野僉載》卷六,有木和尚說話化緣的記載:將作大匠楊務廉,甚有巧思,常于沁州市內刻木作僧,手執一椀,自能行乞,椀中錢滿,關鍵忽發,自然作聲云“布施”,市人競觀,欲其作聲,施者日盈數千矣。在外國,18世紀80年代匈牙利人Wolfgang von Kempelen發明了一個講話機,用風箱模仿肺,用笛子模仿聲帶,用管子模仿口腔,不僅能產生一些元音和輔音,而且能發出完整的詞和短語[2]。第一個基于電子技術的廣為人知的語言發音模型是1939年在紐約世界博覽會上展出的Voder,這個模型用脈沖發生器作為濁音聲源,用噪聲發生器作為清音聲源,用濾波器產生共鳴效果。

語言發音模型的理論基礎是言語產生的聲學理論。根據Stevens的觀點,聲門把氣流通道分成了上下兩部分,對于大多數語音的產生過程而言,聲門以下的系統提供了氣流能量,喉部和聲門以上的結構對氣流進行調制,產生可以聽到的聲音[3]。經過對語音進行深入研究,學者們普遍認為:(1)由聲帶震動產生周期信號,通過聲道共鳴,形成濁音;(2)由氣流爆破或者摩擦產生非周期噪聲,形成清音;(3)清音和濁音經過唇、鼻輻射,在空間進行傳播,形成語音。根據這種理論,只要掌握了聲源、共鳴、輻射的聲學規律,就可以模擬語音的產生過程。

2 發音模型分類

Klatt把語音合成器分成了兩類:(1)第一類是生理合成器,企圖忠實地模擬發音器官的機械運動,以及由此產生的肺部、咽喉、口腔和鼻腔里的體積速度和聲壓的分布情況;(2)第二類是共振峰合成器,利用聲學描述的簡單規則集,構造語音波形[4]。Sondhi和Schroeter把語音合成器分成了3類:共振峰合成器、線性預測系數合成器和生理合成器[5]。

Theobald把可視化語音合成系統分成了3類:生理合成、基于規則的合成和拼接合成[6]。Birkholz和Jackel用兩個標準對聲道模型進行了分類,他們認為,一方面,聲道模型可以分為二維模型和三維模型,二維模型用發音器官輪廓描述中矢面聲道形狀,而三維模型卻生成真實的聲道三維形狀;另一方面,聲道模型可以分為幾何模型、統計模型和生物機能模型,幾何模型基于先驗經驗描述發音器官的幾何形狀,統計模型利用統計分析方法建立發音器官形狀的變化規則,生物機能模型通常利用有限元方法研究發音器官的肌肉動作[7]。

借鑒以上分類方法,本文把語言發音模型分為言語聲音模型和言語動作模型,針對言語聲音模型,重點討論基于頻譜分析原理的Vocoder語碼器,基于共振峰原理的Klatt合成器,以及基于生理發音模型的ASY合成器;針對言語動作模型,將討論幾何特征模型、統計參數模型和生理機能模型。

3 言語聲音模型

言語聲音模型研究語言發音的聲學原理,利用聲音信號處理技術重構語音信號波形。由于對聲源和共鳴之間的關系的認識不同,以及對共鳴的分析方法的不同,產生了3種不同的語言發音模型,第一種是頻譜分析模型,第二種是共振峰模型;第三種是生理發音模型。

頻譜分析模型把語音信號從時域變到頻域,以基頻信號作為聲門激勵,以頻譜包絡作為聲道響應,經過信號處理之后,重構語音信號波形。共振峰模型利用周期信號作為濁音聲源,利用噪聲信號作為清音聲源,利用共鳴器(濾波器)在特定頻率位置構造極點和零點,模擬共鳴和反共鳴,聲源信號經過濾波產生具有特定共鳴特征的語音信號。生理發音模型反對聲源-濾波的線性模型,認為聲源和共鳴之間有耦合,提出直接解聲學方程的方法,嘗試建立符合發音生理過程的語言發音模型。

3.1 頻譜分析模型

所有基于頻譜分析的語言發音模型的根本特征都在于解卷積。語音信號是聲門激勵、聲道響應和唇鼻輻射的卷積。通過解卷積,把聲門激勵和聲道響應分離開。Channel Vocoder、LPC分析和倒譜分析是3種解卷積的方法。

第一種頻譜分析模型是Channel Vocoder。Dudley的Voder是第一個成功的Channel Vocoder,在分析階段,首先用10個模擬帶通濾波器對輸入信號進行頻率分離,然后通過積分電路獲得每個頻帶的幅度包絡。在合成階段,用振蕩器產生基頻信號,作為濁音聲源,用“s”噪聲作為清音聲源,通過10個帶通濾波器分別進行濾波,然后疊加,生成語音信號。因為每個通道只保留了幅度丟失了相位,所以叫Channel Vocoder,后來增加了對相位的處理,叫Phase Vocoder。在同態濾波器的基礎上,Opennheim提出了Homomorphic Vocoder[8-9],這種方法利用倒譜算法,對聲源和共鳴進行分離,經過處理之后,再進行合成,產生語音波形,Homomorphic Vocoder是現在很多HMM TTS合成器的基礎。

第二種頻譜分析模型稱為LPC分析,用線性預測編碼(LPC)技術,對語音信號的聲源和共鳴進行分離。這種技術最初用在圖像處理領域,由于聲音信號和圖像信號有類似的變化規律,才被引入語音信號處理領域。從時域來看,相鄰時刻的語音信號有很大的相似性,如果把前一個信號作為當前信號的預測值,通常情況下預測誤差很小。假設一幀內的所有樣本各自乘以系數ai,把得到的樣本序列的前p個樣本之和,作為當前樣本的預測值,運用最小二乘法,計算使得殘差平方和最小的ai系數矩陣,這就是LPC系數,預測誤差稱為LPC殘差。如果把一幀LPC系數按照固定比例(比如乘以15 000)放大幅值,并在前后添加0,構成512個樣本,對這組樣本做傅里葉變換,就可以得到平滑的頻譜包絡[10],因此,從頻域來看,LPC系數體現了頻譜包絡變化規律,代表的是聲道響應特征;LPC殘差包含的是基頻信息,代表的是聲門激勵狀態。用LPC系數和聲門信號可以重構語音波形。如果聲門信號用記錄的LPC殘差,合成出來的語音與原始語音幾乎沒有差別,但是這只是記錄和回放而已,LPC處理失去了建立語言發音模型的意義。

第三種頻譜分析模型是倒譜分析模型,利用倒譜分析技術分離聲門激勵和聲道響應。先對語音信號進行快速傅里葉變換,把信號從時域變到頻域,如果把這個頻域信號當成時域信號,不難看出這是一個抑制了副半周期的調幅波,原始信號的基頻相當于載波,原始信號的頻譜包絡相當于調制信號,對這個信號再進行傅里葉變換(稱為inverse FFT),輸出信號的低“頻”區是原始信號的頻譜包絡,高“頻”區是原始信號的基頻載波[9-10],此時,聲源和共鳴已經分開了,通常在傅里葉逆變換之前對信號取對數,取對數之后的信號只保留實部,然后進行傅里葉逆變換,就得到了倒譜。之所以“頻”字加引號,是因為實際上信號已經回到時域了。在基于HMM的語音合成中,經常采用美爾(Mel)倒譜分析模型。所謂美爾倒譜,是對傅里葉變換的結果經過美爾濾波之后,取對數,然后再求倒譜。所謂美爾濾波,是符合人耳生理特征的濾波,在人耳基底膜上,頻譜成分是一組一組疊加在一起進行感知的,每一組形成一個臨界帶,頻率越高臨界帶的帶寬越寬,可以設計濾波器組模擬基底膜的工作過程,這就是美爾濾波器。之所以取對數有兩個原因,其一,振幅和音強,基頻和音高,都不是線性關系,通常呈現對數關系;其二,語音信號可以近似表示為聲門激勵和聲道響應的卷積,二者不是線性關系,無法進行加法運算,但是取對數之后,可以變成線性疊加關系,這叫同態處理[9]。對語音信號進行預加重,提升高頻成分,然后進行快速傅里葉變換,計算譜線能量,計算通過美爾濾波器的能量,取對數,用離散余弦變換(DCT)求倒譜,這樣就得到了MFCC系數[11-12]。

頻譜分析模型的共同問題都在于聲源信號的有效控制,如果用L-F Model等周期性聲門脈沖作為聲源信號,合成的語音存在無法消除的金屬聲,另外,聲源和共鳴無法徹底分離[13]。

3.2 共振峰模型

共振峰模型是在頻域上特定位置構造極點和零點,模擬共鳴和反共鳴。共振峰合成器有3種類型,共鳴器并聯組合的PAT合成器,共鳴器串聯組合的OVE合成器,共鳴器串并聯組合的 Klatt合成器[2,4,14],Klatt合成器的DECTalk版本是最成功的共振峰合成器。

Klatt合成器的濁音聲源可以是自然聲源(聲帶震動)的采樣信號(語音波形逆濾波),也可以是理想聲源信號(如L-F Model),Klatt合成器的清音聲源是由隨機數產生的噪聲聲源。共鳴效果用數字共鳴器(濾波器)實現。Klatt合成器的數字共鳴器通過輸入信號、前一個時刻的輸出信號、前兩個時刻的輸出信號,三者相加來實現,如公式(1)所示,其中,A、B、C 系數由Gold和Rabiner給出的公式來計算,如公式(3)~(5)所示,PI是常數π,BW是帶寬,F是共振頻率,T是每個樣本的時長[15]。其傳遞函數如公式(2),根據 A、B、C 的值,可以畫出共鳴器的頻率響應曲線。

Klatt合成器可以單獨用并聯共鳴器組,也可以用串并聯共鳴器組,共鳴效果取決于預先設置的共振頻率、帶寬和增益,這些特征值以參數的形式傳遞給程序。根據讀入的每幀參數數據,按照公式(3)~(5)計算各個共鳴器的A、B、C系數值,然后,這些A、B、C系數值分別被送入各個共鳴器,根據公式(1)進行計算,產生樣本數據。一般情況下,語音信號在10 ms時間內頻譜穩定,因此每幀參數通常持續10 ms,如果采樣頻率設置為16 000 Hz,那么每組參數要產生(16 000/1 000)×10=160個樣本,也就是說,需要循環160次進行共鳴運算。各個共鳴器的輸出信號進行疊加產生的樣本就是合成出來的語音波形數據[16]。

共振峰發音模型的優點在于語音學意義非常清晰,各個語音學特征值可以自由調整,并且可以合成出理論上存在而現實中沒有的語音。其缺點在于合成的語音不夠自然,與真實語音存在無法消除的差別,另外,參數的準確提取非常困難,參數設置非常復雜,通常需要手動反復嘗試。

3.3 生理發音模型

生理發音模型認為傳統聲源-濾波模型是一種線性模型,這種線性模型把聲源的發聲和聲道的調音當成了兩個獨立的系統,在某種程度上,這種假設限制了共振峰合成器的語音質量。因此,生理發音模型反對頻域分離方法,提出了時域模擬思想,嘗試建立符合發音生理過程的語言發音模型。

早在1959年,Flanagan就提到了一種基于生理發音原理的聲道合成器[17]。1962年,Kelly和Lochbaum提出了Kelly-Lochbaum聲道計算模型[18]。1969年,言語產生的生理發音模型基本形成,Flanagan提出了用聲門下壓(subglottal pressure)、聲帶張力(vocal-cord tension)和聲道形狀(vocal-tract shape)三個生理因素,合成所有語音的目標[19]。1960年代到1980年代,Coker、Mermelstein、Rubin、Maeda等人加入了生理發音模型研究的行列。生理發音模型的早期語言發音理論框架主要體現在Maeda和Rubin的研究論文當中。

根據Maeda的描述[20-21],生理發音模型包含一個氣流恒壓源,一個時變聲門,兩個管子,一個代表口腔,一個代表鼻腔。有兩個規則,一個是空間矩形規則,是指某個變量在一個空間段內的積分值等價于空間中點的積分值乘以空間長度,一個是時間梯形規則,是指某個變量在一個時間段內的積分值等價于下限積分值和上限積分值的平均值乘以時間長度,通過這兩個規則,制約聲波產生和傳播的原理,被轉換成了離散變量表征的聲學方程。由于頻率曲變(frequency warping),這種離散化處理引起了頻譜變形,頻率曲變程度取決于采樣頻率和空間取樣間隔。Maeda以20 kHz的采樣頻率和1 cm的空間取樣間隔,合成了11個法語元音。盡管頻譜的第三共振峰有明顯變形,這些元音聽起來還是很自然,很清晰。當采樣頻率等于40 kHz的時候,4 kHz以下的頻譜變形幾乎可以忽略。在Maeda的發音模型中,沒有獨立的聲帶模型,而是把聲門面積變化的時間函數看作聲道面積函數的一部分。在Maeda的發音模型中,也沒有考慮聲道中噪聲的產生方式,而是通過平均體積速度和截面積,估計特定位置噪聲信號的大小。

根據Rubin的描述[22],ASY生理發音模型的聲道傳遞函數的計算方法來自于Kelly-Lochbaum模型。利用ASY的言語動作模型,把聲道近似等間距(缺省模式0.25 cm)分段,每一段作為一個均勻聲管,中線的長度代表聲道的長度,然后根據文獻所提供的每段聲道的形狀,計算聲管截面積。根據Kelly-Lochbaum模型,利用聲管截面積計算聲道傳遞函數。用特定波形信號作為聲源激勵,激勵信號輸入到聲道傳遞函數,就可以產生語音信號波形。

圖1[22]是聲道等效電路。

圖1 聲道等效電路

圖1中的(a)圖是濁音和送氣音的等效電路模型,經過諾頓等效變換之后,可以看出其傳遞函數是:

這個公式反映了濁音和送氣音的輸出聲壓pm+pn和聲門激勵Ug之間的關系。圖1中的(b)圖是擦音的等效電路模型,其傳遞函數是:

這個公式反映了擦音的輸出聲壓pm和擦音聲源的聲壓之間的關系。根據前面兩個公式,只要計算出相應的阻抗Z和增益G,就可以根據聲源信號波形,計算輸出信號聲壓。每段聲管n的阻抗為:

這是聲道截面積A的函數,增益為:

其中,α1/2=1-0.007/是傳輸損耗

也是聲道截面積A的函數。根據聲源阻抗和輻射阻抗,利用如下公式:

逐段迭代,計算各段聲管的阻抗和增益,利用傳遞函數,就可以得到輸出信號聲壓。

Kelly-Lochbaum模型經過Liljencrants的發展,在生理語音合成領域被廣泛應用,稱為RTLA(Reflection Type Line Analog)模型,這個模型的特點是在時域逐段聲管計算聲波前后傳遞的聲壓和氣流,其缺點在于計算過程中聲管長度必須固定,無法處理那些引起聲管長度改變的語音序列,如從[u]到[i],從[a]到[u]等[23]。

1987年,Sondhi和Schroeter提出了時域和頻域混合的生理發音模型。用非線性聲帶振蕩器模型作為激勵信號,這個信號依賴于聲門上壓,體現了聲道和聲源的耦合,這是與聲源-濾波模型的根本不同之處。用噪聲信號作為送氣音和擦音聲源,信號強度取決于雷諾數。利用頻域模型分析聲道(包括口腔和鼻腔),利用時域方法處理聲門。文中提到了生理發音模型的兩種計算聲道傳遞函數的方法,Flanagan和Maeda用的是第一種方法,利用微分方程對聲門和聲道進行建模,這種方法需要求解大量線性或非線性方程,計算量太大;第二種方法是Kelly-Lochbaum模型,這種方法把聲道當成數字傳輸線,分析聲波的前后傳播,計算速度較快。然而,時域和頻域混合方法卻不同于這兩種方法,而是把頻域聲道信號通過傅里葉逆變換轉變到時域,然后和時域聲門信號進行數字卷積。這個發音模型把聲道分成了4個區域:KG從聲門到軟腭,KN從軟腭到鼻孔,KC從軟腭到收緊點,KL從收緊點到雙唇,每個區域對應一個包含A、B、C、D函數的頻域矩陣。這種方法的優勢在于可以利用發音器官形狀碼本[5]。

1988年,出現了一種簡化聲道計算的有爭議的Distinctive Regions and Modes(DRM)理論[24-26]。該理論把聲道分成了8個對稱的區域,各區域占整個聲道長度的比例分別為:1/10,1/15,2/15,2/10,2/10,2/15,1/15,1/10。在每個區域中,對應于聲道截面積的增大(或減小),共振峰 F1、F2、F3增大(或減小),并且與敏感函數成比例,所謂敏感函數是指均勻聲管中聲波的動能減去勢能,其原理如圖2[26]所示。

盡管DRM有爭議,生理語音合成器的商業化軟件GNUSpeech的聲道模型卻基于DRM。HILL等人運用聲管共鳴原理和DRM理論設計了一個生理發音模型,并用于GNUSpeech。這個模型把口腔和咽腔分成10段等長均勻聲管,中間的第4和第5段連在一起對應于DRM的第4區,第6和第7段連在一起對應于DRM的第5區,鼻腔分成6段[27]。這個模型利用聲管共鳴模型TRM(Tube Resonance Model)[28]和特異區域模式DRM,并借助雙向延遲線,分析聲音在聲道中的傳播過程,實現了聲道形狀和波形輸出的精確控制。

圖2 DRM模型

4 言語動作模型

言語動作模型研究發音的生理過程,利用圖像信號處理技術重構發音器官的發音動作。言語動作模型主要研究主動發音器官的動作,如雙唇、下頜、舌頭、軟腭、聲帶等。舌頭、軟腭和聲帶通常無法直接觀察,需要借助X光成像、磁共振成像、超聲、腭位照相、動態腭位記錄、光纖維喉鏡等技術,捕捉它們的運動過程。

根據建模方法的不同,言語動作模型可以分為3類:生理機能模型、幾何特征模型、統計參數模型。

4.1 生理機能模型

生理機能模型利用生理結構分析的方法,研究發音器官的組織結構形式和肌肉運動過程,通常運用3D建模技術,構造三維動態模型。

最早建立生理機能模型的是Perkell。在博士論文中,他描述了一個舌頭動態生理調音模型,這是一個中矢面二維功能性模型,輸入和輸出都是可以測量的生理變量,這個模型包括16個相互連接的承載質量的fleshpoints模型,這些fleshpoints通過38個主動拉力元素,47個被動拉力元素,連接到骨質成分上。張力、體積守恒力、滑動摩擦力和硬結構抗穿透力作用到fleshpoints模型上,決定它們的運動方式[29]。

Wilhelms-Tricarico利用有限元方法建立了三維生理發音模型。他在1995年的論文中提到:用有限元方法,建立雙唇、舌頭等軟組織在言語產生中的生物力學模型,通過求解拉格朗日運動方程的方法,計算這些軟組織的位移和形變,他預期中的生理發音模型包括6個部分:下頜、舌體、舌葉、雙唇、軟腭咽腔接口、咽腔,但是最終只用8條肌肉建立了一個舌頭模型[30-31]。

Honda等構造了一個雙唇發音模型通過唇肌肉收縮模式到唇輪廓形變過程的線性映射建立模型,用多元線性回歸分析,估計唇輪廓上7個點的x、y坐標。肌電信號分析表明存在唇型的肌肉群組選擇模式,閉唇是中性唇形,唇輪匝肌OOI和降下唇肌DLI的共同收縮產生了圓唇的各種形變,OOI有兩層,分別是邊緣層(marginal layer)和周圍層(peripheral layer),在突唇動作中,OOI的周圍層活動增強[32]。

Dang等人建立了一個三維生理發音模型(如圖3[33]),包括下頜、舌頭、雙唇、牙齒、硬腭、軟腭、咽腔壁、喉等器官。對雙唇和軟腭沒有進行生理建模,而是用一個可變長度和截面的短管代表雙唇,用鼻腔和咽腔接口面積大小表示軟腭的運動。用粘彈圓柱代替彈簧振子對舌頭進行建模,用基于分布的有限元方法提高建模的準確性。研究表明發音器官的空間位置和肌肉拉力存在唯一不變映射關系,主動肌和拮抗肌的協同收縮,可以控制舌尖和舌背到達各自的目標位置[33-34]。

圖3 Dang的聲道模型

Wu等人采用計算機仿真的方法對言語產生過程中控制發音器官運動的肌肉協同工作方式進行了探索,用有限元方法(Finite Element Method),建立了一個可以模仿人類發音器官動作的生理模型,該模型包括舌頭、下頜骨、舌骨、聲道壁等發音器官,以及控制發音器官運動的肌肉組織,此外,他們還建立了一套模型的自動控制方法,使模型可以用于探索人類言語產生的生理機制。自動地找到一組肌肉激活模式,并控制模型達到目標位置,這是設計的難點,Wu等人已經研究出一套自動控制的方法,可以對模型進行有效控制[35]。

Steiner等人運用多重線性形狀空間模型,開發了一個端到端的系統,在這個系統中,發音人參數決定了舌頭的解剖特征,姿勢參數代表了發音動作相關的形狀特征,解剖特征和形狀特征映射到多邊形網格,形成三維舌頭結構。該系統首先應用傳統HTS(隱馬語音合成)方法融合語音和動作兩個模態,然后把兩個模態分離,調整多重線性舌頭模型,使其適應TTS過程,從而直接從文本合成出語音和三維舌頭發音動作[36]。

生理機能模型模擬了發音器官的肌肉活動方式,但是由于模型的生理解剖參數難以獲得,并且控制方式過于復雜,這種模型產生的發音動作準確度并不高。

4.2 幾何特征模型

幾何特征模型不注重發音器官內在的生理組織結構,而是更關注發音器官外在的形狀輪廓,以及這些形狀輪廓之間的變化關系,嘗試用簡約的線條描述發音器官的運動方式。

1971年,Lindblom等建立了一個幾何特征模型,通過指令控制發音器官動作產生元音,這個模型包括5個發音器官:雙唇、下頜、舌尖、舌體和咽喉,在這個模型中,下頜是區分不同元音的主要因素,語音動作通過發音省力原則進行優化,語音音質運用最大感知對立算法進行優化[29,37]。

Coker建立的調音模型包括4部分:(1)接近真實發音的調音系統;(2)發音狀態之間插值的器官動作約束系統;(3)聲源激勵系統,包括:聲門下壓、聲帶夾角、聲帶張力3個子成分;(4)發音指令轉化為發音動作的控制系統。這個模型的發音器官動作方式如圖4[38]所示。

圖4 Coker的聲道模型

這個模型的舌體輪廓是一段圓弧,用兩個坐標控制發元音時舌體的位置,以及下頜轉動角度,用一個參數控制快速運動的輔音發音時舌頭的位置,用5個參數控制其他輔音發音時舌頭的位置,用兩個參數控制舌尖的抬升和卷舌,還有兩個參數控制閉唇和圓唇。這個模型有兩種合成語音的算法,一種是用Flanagan-Ishizaka發音模型直接計算聲壓,一種是用迭代算法通過聲道形狀計算共振頻率,然后驅動共振峰合成器產生語音[38-39]。

Mermelstein建立了聲道調音模型ASY,這個模型和Coker的模型大同小異,Coker的模型強調基于規則的合成,而ASY更強調對咽喉以上調音器官的配置,以及交互式的系統性控制。這個模型的發音器官動作方式如圖5[40]所示。

圖5 Mermelstein的聲道模型

ASY有6個發音器官:舌體、軟腭、舌尖、下頜、雙唇、舌根骨,這些器官分成了兩組,一組能夠獨立運動,包括:下頜、軟腭和舌根骨;另一組不能獨立運動,包括舌體、舌尖和雙唇,這3個器官的位置都依賴于下頜,舌尖的位置依賴于舌體。下頜和軟腭的運動只有一個自由度,其他器官的運動都有兩個自由度。軟腭的運動既可以改變口腔聲道的形狀,也可以影響鼻咽耦合的程度。通過拼接準靜態聲道沖激響應的方式合成語音,元音依賴于下頜、舌體、雙唇、軟腭的位置,輔音取決于發音器官狀態變化,這種變化是由底層元音為了滿足發音位置約束而引起的,ASY用一段圓弧代表舌體輪廓[22,40]。其改進版本是CASY,用一條二次曲線代表舌體輪廓[41]。Birkholz等人對這個模型進行了改進,嘗試在二維中矢面模型基礎上,建立三維模型[7]。

幾何特征模型的發音器官形狀由簡單的幾何圖形構成,并非真實的發音動作,盡管便于調整,但是經常出現超越生理極限的動作。

4.3 統計參數模型

統計參數模型通常用主成分分析、線性成分分析、回歸分析、多層神經網絡等統計方法建立發音器官模型,聲道形狀和控制參數都依賴于統計結果。

基于Maeda發音模型的VTDemo,是介于幾何特征模型和統計參數模型之間的類型,雖然這個模型對聲道參數進行了因子分析統計建模,但是整個聲道形狀依然是幾何線條結構。Maeda建立發音動作模型的方法是用固定的半極坐標網格從聲道中選取樣本點,然后做因子分析,得到統計參數,如圖6[42]所示。

圖6 Maeda模型的聲道樣本選擇方法

在Maeda的模型中,舌頭選了25個樣本點,雙唇選了4個樣本點,咽喉選了5個樣本點,經過因子分析之后,舌頭有3個因子,雙唇有2個因子,咽喉有1個因子。另外,下頜選了1個樣本點,聲道壁選了25個樣本點,這些點沒有做因子分析。這個模型有10個參數,分別控制下頜高度、舌體位置、舌頭形狀、舌尖前后、開口程度、突唇程度、喉頭高度、聲門面積、基頻大小、鼻咽接口。Maeda的模型是靜態發音模型,在應用過程中,可以靈活調整參數,然后根據因子分析的結果,用回歸方程計算參數調整之后的聲道的形狀分布,各個樣本點的回歸算法如下:參數和對應的因子載荷相乘,再累加,然后再乘以標準差,最后加上樣本點的平均值。這個模型的研究結果表明,在代償發音中,為了得到相同的F1-F2模式,發前元音時下頜高度僅能通過舌體位置代償,發后元音時下頜高度僅能通過開口程度代償[21,42]。

Laprie和Busset用主成分分析法對X-ray和MRI圖像進行了分析,建立了二維發音模型。對比Maeda模型而言,這個模型更接近統計參數模型。這個模型和Maeda模型的不同之處在于發音器官形狀完全來自于統計參數,Maeda模型只有3個舌頭因子,這個模型卻有6個控制舌頭的線性成分,能夠精確匹配各種元音和輔音的原始X-ray和MRI圖像。舌頭輪廓取樣的參照標準和Maeda模型也不同,不是半極坐標網格,而是曲線坐標。另外,這個模型建立了旋轉算法,能夠適應不同發音人的聲道圖像[43-44]。

Badin等人用主成分分析法[45]和線性成分分析法[46],對X-ray和MRI圖像中的聲道進行了建模。這個模型的2D版本用3個參數(LH、LP、LV)控制突唇、圓唇、翹唇等動作;用4個參數(JH、TB、TD、TT)控制下頜位置和舌頭形狀;喉頭高度和唇參數有相關性,可以用一個參數(LY)控制喉頭高度;舌根骨的水平位置和下頜高度有很強的相關性,然而舌根骨的豎直位置和喉頭高度有更強的相關性,因此用一個參數(TA)就可以控制舌根骨[47]。這個模型還有一個3D版本,是先前2D中矢面模型的擴展,是同一個發音人的聲道模型。利用這些模型,研究者分析了原始語音的共振峰,2D聲道模型計算的共振峰,以及3D聲道模型計算的共振峰,結果發現三者之間差別很小。優化的2D模型對聲道面積函數的計算相當準確。另外,研究者發現用2D中矢面生理發音模型的命令參數可以驅動3D生理發音模型[45]。

統計參數模型針對真實的發音器官動作進行建模,符合發音器官的運動規律,但是建模樣本特征點的自動提取技術很復雜,通常需要手工測量,限制了樣本的數量,另外發音器官動作通常無法靈活調整。

5 結束語

語言發音模型研究非常重要,因為語言發音模型不僅可以用于發音過程研究,揭示發音規律,促進語音合成技術的發展;而且還可以用于語言教學,無論是針對聽障兒童,還是針對二語習得,發音器官動作示范,對于學習語言的重要性,已經反復被各種實驗所證實。

言語聲音模型研究曾經是語音合成技術的必要基礎。然而,隨著波形拼接語音合成技術的發展,言語聲音模型研究逐漸退出了工程實踐領域。近年來,情感語音合成受到關注,逐漸暴露了波形拼接技術的內在缺陷,言語聲音模型研究再次引起普遍重視,共振峰語音合成和生理語音合成有望突破技術瓶頸,達到情感語音合成的目標。

言語動作模型研究由于技術條件的限制進展緩慢。近年來,由于核磁共振成像技術飛速發展,拍攝清晰的連續的發音器官動作圖像,逐漸變得可行,舌頭和軟腭等發音器官的發音動作研究在未來幾年將取得重大突破。

語音的個性特征,以及情感特征,與聲門波形和頻譜包絡的關系,及有效控制,是未來研究的重點和難點。統計建模、規則控制和深度學習相結合,是未來發展的趨勢。

[1]Goldstein L,Fowler C A.Articulatory phonology:A phonology for public language use[C]//Schiller N O,Meyer A S.Phonetics and Phonology in Language Comprehension and Production,2003:159-207.

[2]呂士楠.漢語語音合成:原理和技術[M].北京:科學出版社,2012:4-6.

[3]Stevens K N.Acoustic phonetics[D].Massachusetts Institute of Technology,1998.

[4]Klatt D H.Software for a cascade/parallel formant synthesizer[J].Journal of the Acoustical Society of America,1980,67(3):971-995.

[5]Sondhi M M,Schroeter J.A hybrid time-frequency domain articulatory speech synthesizer[J].IEEE Transactions on Acoustics Speech&Signal Processing,1987,35(7):955-967.

[6]Theobald B.Audiovisual speech synthesis[C]//International Congress on Phonetic Sciences,2007:285-290.

[7]Birkholz P,Jackel D,Kroger B J.Construction and control of a three-dimensional vocal tract model[C]//Proceedings of the International Conference on Acoustics,Speech,and Signal Processing,Toulouse,2006:873-876.

[8]Oppenheim A V,Schafer R W.Homomorphic analysis of speech[J].IEEE Transactions on Audio&Electroacoustics,1968,16(2):221-226.

[9]Oppenheim A V.Speech analysis-synthesis system based on homomorphic filtering[J].Journal of the Acoustical Society of America,1969,45(2):458.

[10]Coleman J.Introducing speech and language processing[M].Cambridge:Cambridge University Press,2005:79-83.

[11]Pols L C W.Spectral analysis and identification of Dutch vowels in monosyllabic words[D].Amsterdam The Netherlands:Free University,1977.

[12]Zheng Fang.Comparison of different implementations of MFCC[J].Journal of Computer Science and Technology,2001,16(6):582-589.

[13]Taylor P.Text-to-speech synthesis[M].Cambridge:Cambridge University Press,2009:408-409.

[14]Klatt D H,Klatt L C.Analysis,synthesis,and perception of voice quality variations among female and male talkers[J].Journal of the Acoustical Society of America,1990,87(2):820-857.

[15]Gold B,Rabiner L R.Analysis of digital and analog formant synthesizers[J].IEEE Transactions on Audio&Electroacoustics,1968,16(8):81-94.

[16]張金光.視聽言語合成技術綜述[J].電聲技術,2017,41(z2):103-107.

[17]Flanagan J L.Estimates of intraglottal pressure during phonation[J].Journal of Speech& Hearing Research,1959,2(2):168-172.

[18]Kelly J L,Lochbaum C.Speech synthesis[C]//Proceedings of the Stockholm Speech Communications,Stockholm,1962:1-4.

[19]Flanagan J L,Cherry L.Excitation of vocal-tract synthesizers[J].Journal of the Acoustical Society of America,1969,45(3):764-769.

[20]Maeda S.A digital simulation method of the vocal-tract system[J].Speech Communication,1982,1(3):199-229.

[21]Maeda S.Improved articulatory models[J].Journal of the Acoustical Society of America,1988,84(S1):146.

[22]Rubin P,Baer T,Mermelstein P.An articulatory synthesizer for perceptual research[J].Journal of the Acoustical Society of America,1981,70(2):321-328.

[23]Kroger B J,Birkholz P.Articulatory synthesis of speech and singing:state of the art and suggestions for future research[C]//Multimodal Signals:Cognitive and Algorithmic Issues,2009:306-319.

[24]Mrayati M,Carre R,Guerin B.Distinctive regions and modes:A new theory of speech production[J].Speech Communication,1988,7(3):257-286.

[25]Mrayati M,Carre R,Guerin B.Distinctive regions and modes:Articulatory-acoustic-phonetic aspects:A reply to Boe¨and Perrier’s comments[J].Speech Communication,1990,9(3):231-238.

[26]Boe L J,Perrier P.Comments on“distinctive regions and modes:A new theory of speech production” by M Mrayati,R Carre and B Guerin[J].Speech Communication,1990,9(3):217-230.

[27]Hill D R,Taubeschock C R,Manzara L.Low-level articulatory synthesis:A working text-to-speech solution and a linguistic tool[J].Canadian Journal of Linguistics,2017,62(3):1-40.

[28]Manzara L C.The tube resonance model speech synthesizer[J].Journal of the Acoustical Society of America,2009,117(4):2541.

[29]Perkell J S.A physiologically-oriented model of tongue activity in speech production[D].Massachusetts:Massachusetts Institute of Technology,1974.

[30]Wilhelms-Tricarico R.Physiological modeling of speech production:Methods for modeling soft tissue articulators[J].Journal of the Acoustical Society of America,1995,97(1):3085-3098.

[31]Gerard J M,Wilhelms-Tricarico R,Perrier P,et al.A 3D dynamical biomechanical tongue model to study speech motor control[J].Physics,2006,1:49-64.

[32]Honda K,Kurita T,Kakita Y,et al.Physiology of the lips and modelingof lip gestures[J].Journal of Phonetics,1995,23(1):243-254.

[33]Fang Q,Dang J.Speech synthesis based on a physiologicalarticulatory model[C]//Chinese Spoken Language Processing.Berlin Heidelberg:Springer,2006:211-222.

[34]Dang J,Honda K.Construction and control of a physiological articulatory model[J].Journal of the Acoustical Society of America,2004,115(2):853-870.

[35]Wu X,Dang J,Stavness I.Iterative method to estimate muscle activation with a physiological articulatory model[J].The Acoustic Society of Japan,2014,35(4):201-212.

[36]Steiner I,Maguer S L,Hewer A.Synthesis of tongue motion and acoustics from text using a multimodal articulatory database[J].IEEE/ACM Transactions on Audio Speech&Language Processing,2016,25(12).

[37]Lindblom B E,Sundberg J E.Acoustical consequences of lip,tongue,jaw,and larynx movement[J].Journal of the Acoustical Society of America,1971,50(4):1166.

[38]Coker C H.A model of articulatory dynamics and control[J].Proceedings of the IEEE,1976,64(4):452-460.

[39]Coker C H,Fujimura O.Model for Specification of the Vocal Tract Area Function[J].Journal of the Acoustical Society of America,1966,40(5):63-75.

[40]Mermelstein P.Articulatory model for the study of speech production[J].Journal of the Acoustical Society of America,1973,53(4):1070-1082.

[41]Iskarous K,Goldstein L M,Whalen D H,et al.CASY:The haskins configurable articulatory synthesizer[C]//15th ICPhS Barcelona,2003.

[42]Maeda S.Compensatory articulation in speech:Analysis of x-ray data with an articulatory model[C]//European Conference on Speech Communication and Technology(Eurospeech 1989),Paris,France,1989:2441-2445.

[43]Laprie Y,Busset J.Construction and evaluation of an articulatory model of the vocal tract[C]//European IEEE Signal Processing Conference,2011:466-470.

[44]Laprie Y,Vaxelaire B,Cadot M.Geometric articulatory model adapted to the production of consonants[C]//International Seminar on Speech Production,2014.

[45]Badin P,Bailly G,Raybaudi M,et al.A three-dimensional linear articulatory model based on MRI data[C]//The International Conference on Spoken Language Processing,Incorporating the Australian International Speech Science and Technology Conference,Sydney Convention Centre,Sydney,Australia,1998:533-553.

[46]Badin P,Elisei F,Bailly G,et al.An audiovisual talking head foraugmented speech generation:Models and animations based on a real speaker’s articulatory data[J].Articulated Motion&Deformable Objects,2008:132-143.

[47]Beautemps D,Badin P,Bailly G.Linear degrees of freedom in speech production:Analysis of cineradio-and labiofilm data and articulatory-acoustic modeling[J].Journal of the Acoustical Society of America,2001,109(5):2165-2180.

猜你喜歡
信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
孩子停止長個的信號
3D打印中的模型分割與打包
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久人人妻人人爽人人卡片av| 亚洲精品国产成人7777| 国产精品亚洲精品爽爽| 成人福利一区二区视频在线| 第九色区aⅴ天堂久久香| 99国产在线视频| 亚洲看片网| 有专无码视频| 99精品福利视频| 成人在线观看一区| 久久77777| 亚洲视频色图| 欧美精品在线观看视频| 亚洲啪啪网| 婷婷综合在线观看丁香| 亚洲伊人久久精品影院| 国产人前露出系列视频| 久久a级片| 国产精品高清国产三级囯产AV| 久久这里只精品国产99热8| 日韩无码一二三区| 天天躁夜夜躁狠狠躁图片| 性69交片免费看| 国产精品美人久久久久久AV| 国产精品思思热在线| 亚洲专区一区二区在线观看| 亚洲国内精品自在自线官| 久久综合丝袜长腿丝袜| 欧美自慰一级看片免费| 午夜福利亚洲精品| 亚洲精品无码不卡在线播放| 国产午夜福利亚洲第一| 免费在线a视频| 美女无遮挡免费网站| 亚洲天堂网在线观看视频| 久久国产毛片| 亚洲综合色在线| 亚洲人成日本在线观看| 国产永久无码观看在线| 国产成人高清亚洲一区久久| 九九九国产| 成人久久精品一区二区三区| 亚洲第一区欧美国产综合| 成人在线观看不卡| 亚洲六月丁香六月婷婷蜜芽| 欧美激情第一区| 精品国产成人三级在线观看| 婷婷激情五月网| 国产av色站网站| 日韩欧美中文字幕在线精品| 亚洲香蕉久久| 国产精品香蕉在线观看不卡| 亚洲国产欧美国产综合久久 | 国产99视频在线| 毛片免费在线视频| 国产午夜在线观看视频| 久99久热只有精品国产15| 亚洲国产午夜精华无码福利| 亚洲手机在线| 国产成人一级| 91成人在线观看| 亚洲欧美日韩成人高清在线一区| 精品一区二区三区波多野结衣 | 欧美日韩国产成人在线观看| www.亚洲一区| 欧美亚洲国产精品第一页| 99久久国产精品无码| 福利国产微拍广场一区视频在线| 国产激情无码一区二区APP| 麻豆精品在线视频| 呦女精品网站| 无码中文AⅤ在线观看| 美女被操91视频| 99热线精品大全在线观看| 国产后式a一视频| 国产成人高清精品免费5388| 国内老司机精品视频在线播出| 欧美一级在线| 国产精品视频免费网站| 国产精品女在线观看| 91九色国产在线| 国产迷奸在线看|