基于小樣本數(shù)據(jù)統(tǒng)計(jì)的雙階段舌位建模研究*

2023-10-24 06:25:26徐正麗肖素芳楊明浩

廣西科學(xué) 2023年4期

關(guān)鍵詞：模型

徐正麗,肖素芳**,簡(jiǎn) 敏,楊明浩

(1.桂林電子科技大學(xué),廣西桂林 541004;2.中國科學(xué)院自動(dòng)化研究所,北京 100190)

舌頭是人類重要的發(fā)音器官,其形變是人類能夠發(fā)音的關(guān)鍵,對(duì)舌頭形狀的分析及建模是語音生成領(lǐng)域中的一項(xiàng)重要工作[1-4]。舌頭屬軟組織結(jié)構(gòu),發(fā)音過程中舌頭會(huì)產(chǎn)生較大變形,從而產(chǎn)生復(fù)雜的聲道結(jié)構(gòu)。但舌頭主要隱藏在口腔內(nèi),致使人們難以直接觀察舌頭發(fā)音形狀(即舌位),因此對(duì)舌位輪廓分析及建模一直是語音分析中的難點(diǎn)之一。在傳統(tǒng)的實(shí)驗(yàn)語音學(xué)領(lǐng)域,人們提出了多種舌位模型來研究舌運(yùn)動(dòng)導(dǎo)致的聲道結(jié)構(gòu)變化和語音之間的關(guān)系。20世紀(jì)70年代初,語言學(xué)家和言語病理學(xué)家從X光片中手動(dòng)標(biāo)記舌頭輪廓,并使用主成分分析(Principal Component Analysis,PCA)方法獲得舌頭運(yùn)動(dòng)模式[5,6],發(fā)現(xiàn)在元音生成中前兩個(gè)主要成分所占比重為90%以上,即元音對(duì)應(yīng)的舌頭變形可通過前兩個(gè)維度參數(shù)進(jìn)行描述。平行因子分析(PARAFAC)也是一種廣泛應(yīng)用的舌位輪廓分析工具[7-11]。通過分析10個(gè)英語元音的13個(gè)橫截面平行因子,研究者發(fā)現(xiàn)發(fā)出10個(gè)英語元音時(shí)舌位變化可分解為兩個(gè)主要運(yùn)動(dòng)因素:一是舌根向前運(yùn)動(dòng)的同時(shí)伴隨著舌頭前部的向上運(yùn)動(dòng);二是整個(gè)舌體的向上和向后運(yùn)動(dòng)。然而,PARAFAC并不具備從低維數(shù)據(jù)分布中重建舌位輪廓的能力[11,12]。此外,與舌頭運(yùn)動(dòng)建模相關(guān)的研究還包括基于元音的流形表示[13]、舌頭軌跡的可視化[14-16]、基于語音驅(qū)動(dòng)的舌面[2,17,18]和基于徑向基函數(shù)(Radial Basis Function,RBF)的B樣條擬合[19],基于機(jī)器學(xué)習(xí)的復(fù)雜三維有限元生物力學(xué)模型[20],基于集總元件模型的舌尖、舌外側(cè)下側(cè)和軟腭前側(cè)的平均感知方法[21]、舌苔瘀點(diǎn)的檢測(cè)方法[22]等,這些方法側(cè)重于從文本、語音記錄、舌位受到刺激的反應(yīng)以及舌噪聲圖像等方面對(duì)舌頭運(yùn)動(dòng)軌跡和病理進(jìn)行研究,但并未研究重建舌形以及建立舌位與語音之間的對(duì)應(yīng)關(guān)系。

隨著深度學(xué)習(xí)技術(shù)的興起,研究人員將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到舌位圖像分析以及輪廓提取工作中,如Ruan等[23]提出了基于U-Net的舌頭分割模型,從整個(gè)舌頭圖像中準(zhǔn)確地分割出舌頭主體;Ploumpis等[24]提出了生成3D舌面的新型生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN),將舌位3D模型生成與面部細(xì)節(jié)重建進(jìn)行關(guān)聯(lián);Mansour等[25]提出了基于深度神經(jīng)網(wǎng)絡(luò)的人類舌頭圖像疾病分類模型。雖然這些方法在舌頭圖像邊緣提取、舌頭表面紋理細(xì)節(jié)處理等方面取得了較好效果,但未能很好地對(duì)舌位輪廓進(jìn)行壓縮、重建和分析等[26-28]。

近年來,基于深度學(xué)習(xí)的自動(dòng)編碼器(Autoencoder)在數(shù)據(jù)降維和模式挖掘等方面表現(xiàn)良好[29],如面向圖像的深度卷積網(wǎng)絡(luò)自編碼器能有效提取低維圖像特征[30],降噪自編碼器(Denoising Auto Encoder,DAE)在序列數(shù)據(jù)處理和模式發(fā)現(xiàn)等方面表現(xiàn)出良好性能[31-33]等。然而,目前還未見將基于深度學(xué)習(xí)的自動(dòng)編碼器用于舌位分析的研究,這主要是因?yàn)榛谏疃葘W(xué)習(xí)的自動(dòng)編碼器在訓(xùn)練中需大量數(shù)據(jù),但由于舌頭在口腔中的隱蔽性,真實(shí)舌位數(shù)據(jù)難以大量獲得。一些學(xué)者通過添加噪聲數(shù)據(jù)或使用Dropout技術(shù)來增加數(shù)據(jù)樣本的方式提高小樣本深度學(xué)習(xí)DAE的性能[29,31,32],這兩種方法由于能生成更多有效的訓(xùn)練數(shù)據(jù),因此能夠提升網(wǎng)絡(luò)從少量真實(shí)數(shù)據(jù)中提取特征的能力[31,34,35]。一般來說,舌頭運(yùn)動(dòng)的前部較后部對(duì)發(fā)音過程的影響更大,因此基于平均隨機(jī)理念的Dropout技術(shù)并不適用于舌位數(shù)據(jù)增強(qiáng)。

描述舌位運(yùn)動(dòng)的高性能模型既要維度低又要準(zhǔn)確性高[26-28]。低維度表示有利于揭示舌頭運(yùn)動(dòng)模式以及精準(zhǔn)確定舌頭運(yùn)動(dòng)模式與發(fā)音結(jié)構(gòu)間的映射關(guān)系。為建立高性能且保持深度結(jié)構(gòu)特征的舌位模型,本文提出一種雙階段自編碼器舌位模型,其第一階段首先利用符合生理特征的舌位變形數(shù)據(jù)構(gòu)建大規(guī)模的形變舌位輪廓樣本,再訓(xùn)練一個(gè)n層堆疊的舌位輪廓自編碼器;第二階段在舌位輪廓自編碼器的基礎(chǔ)上添加具有少量隱藏單元的第(n+1)層組成最終的自編碼器。

1 研究方法

1.1 舌位輪廓標(biāo)準(zhǔn)化

本文采取傳統(tǒng)方法對(duì)舌位輪廓進(jìn)行標(biāo)準(zhǔn)化處理。圖1(a)中有18條網(wǎng)格線(即圖中序號(hào)為1-18的線條),主要舌形區(qū)域?qū)?yīng)著網(wǎng)格4-17的橫截面段,因此使用網(wǎng)格線4-17(共13條橫截面)來描述聲道結(jié)構(gòu)。首先確定上齒和上腭的尖端,然后將從齒尖點(diǎn)沿腭到會(huì)厭的輪廓作為不同聲道結(jié)構(gòu)的參考截面,最后將舌頭表面和腭之間的歸一化橫截面范圍作為編碼器網(wǎng)絡(luò)的輸入。這13條網(wǎng)格線從參考截面到舌片表面(與背景正交)的線段長(zhǎng)度可用于舌位分析。

圖1 舌位輪廓標(biāo)準(zhǔn)化

本文使用網(wǎng)格線長(zhǎng)度的歸一化值用于編碼器網(wǎng)絡(luò)訓(xùn)練。歸一化函數(shù)如式(1)所示,

(1)

式中,Γifj=(Gifj/Vifj)η,i∈{1,2,…,13}表示第i個(gè)舌位輪廓線;f和j是舌位輪廓數(shù)據(jù)集中第j個(gè)音素發(fā)音階段的第f幀;V是中矢狀面上聲道的最寬橫截面距離(根據(jù)前人研究,本研究將V設(shè)置為45 mm),ζifj和Γifj分別表示歸一化和非歸一化網(wǎng)格線長(zhǎng)度,η是從舌尖到舌根的實(shí)際舌長(zhǎng)。通常成年男性的舌長(zhǎng)約175 mm,女性約140 mm。Gifj和Vifj是以像素為單位的網(wǎng)格線長(zhǎng)度和舌位長(zhǎng)度,可直接從X射線圖片中獲取[36]。

以元音“a”為例,圖1(b)顯示了其發(fā)音第32幀對(duì)應(yīng)的13個(gè)橫截面長(zhǎng)度分布;圖1(c)則以管狀模型形式顯示了從舌尖到舌根的形狀,即舌頭運(yùn)動(dòng)時(shí)對(duì)應(yīng)的聲道側(cè)面結(jié)構(gòu);圖1(d)給出了從舌尖到舌根的13條網(wǎng)格線ζi,32,a,i∈{1,…,13}所對(duì)應(yīng)的歸一化長(zhǎng)度值。

1.2 舌位輪廓形變

由于舌頭的隱蔽性,舌位數(shù)據(jù)通常難以大量獲取,其真實(shí)數(shù)據(jù)的樣本量較小,但本文算法模型需采集大規(guī)模舌位輪廓數(shù)據(jù)才能進(jìn)行有效訓(xùn)練。為此,本文通過添加噪聲到原始的小規(guī)模真實(shí)舌形數(shù)據(jù)集來構(gòu)建大規(guī)模的舌位輪廓數(shù)據(jù)集。考慮到人類發(fā)音的舌位不能隨機(jī)改變,本文采取主動(dòng)形狀模式(Active Shape Mode,ASM)[37,38]來產(chǎn)生可能存在于用來訓(xùn)練第一階段舌位輪廓自編碼器的舌位輪廓數(shù)據(jù)的生理變形,如式(2)所示。

(2)

圖2 舌位控制點(diǎn)形變示例

1.3 本文算法模型

本文將第一階段網(wǎng)絡(luò)結(jié)構(gòu)定義為舌位輪廓自編碼器(Tongue Shapes Denoising Auto Encoder,TS-DAE) [圖3(a)],第二階段定義為舌位輪廓降維編碼器(Tongue Shape Dimensionality Reduction AutoEncoder,TSDR-AE) [圖3(b)]。為提升TS-DAE所需的樣本數(shù)量,本文采用符合生理特征的舌頭形變數(shù)據(jù)構(gòu)造大量的舌位輪廓數(shù)據(jù),從而擴(kuò)充第一階段n層網(wǎng)絡(luò)結(jié)構(gòu)所需的樣本,然后再使用真實(shí)舌位運(yùn)動(dòng)輪廓數(shù)據(jù)微調(diào)TSDR-AE網(wǎng)絡(luò)的第(n+1)層。

1.4 舌位輪廓自編碼器(TS-DAE)

基于ASM對(duì)舌頭輪廓的變形能夠產(chǎn)生大規(guī)模且保持一定生理特征的舌位輪廓數(shù)據(jù)。如圖3(a)所示,其最底部為真實(shí)舌位發(fā)音輪廓,在其上方矩形框中的輪廓為ASM所產(chǎn)生的變形舌位輪廓。基于這些變形舌位輪廓,TS-DAE可對(duì)舌位輪廓進(jìn)行有效的自動(dòng)編碼。首先,增強(qiáng)的舌位輪廓通過TS-DAE編碼器[圖3(a)中的淺橙色框A]可以獲得指定維度的特征表示。然后,將TS-DAE編碼器連接與之完全對(duì)稱的TS-DAE解碼器[圖3(a)中的虛線框A′],對(duì)輸入的舌位進(jìn)行重建。TS-DAE的舌位輪廓重建性能由生成的舌位重建輪廓[圖3(a)頂部的虛線輪廓]與原始舌位輪廓[圖3(a)下方實(shí)線輪廓]的差異值來評(píng)估,差異值越小說明TS-DAE的舌位輪廓重建性能越好。

1.5 舌位輪廓降維編碼器(TSDR-AE)

由于TS-DAE輸出數(shù)據(jù)維度較高,為實(shí)現(xiàn)舌位輪廓壓縮,本文將具有少量隱藏單元的網(wǎng)絡(luò)層堆疊到TS-DAE頂部,進(jìn)而形成總共有(n+1)層的TSDR-AE。TSDR-AE對(duì)舌位輪廓的編碼和解碼過程如圖3(b)所示。同TS-DAE一樣,TSDR-AE也由結(jié)構(gòu)對(duì)稱的編碼器和解碼器構(gòu)成。TSDR-AE的編碼器[圖3(b)中的淺藍(lán)色實(shí)線框B]包含了TS-DAE的編碼器,其解碼器[圖3(b)中的虛線框B′]也包含了TS-DAE的解碼器。TSDR-AE的最上層添加了維度較小的節(jié)點(diǎn)[圖3(b)中灰色部分],并用TSDR-AE解碼器解碼舌位輪廓低維度的特征表示,最終獲得重建的舌位輪廓數(shù)據(jù)。TSDR-AE的舌位輪廓重建性能由所生成的舌位重建輪廓[圖3(b)上方虛線輪廓]與原始舌位輪廓[圖3(b)下方實(shí)線輪廓]之間的差異來評(píng)估,差異值越小,TSDR-AE的舌位輪廓重建性能越好。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)準(zhǔn)備

X光片發(fā)音數(shù)據(jù)在發(fā)音觀測(cè)上具有較好的時(shí)間分辨率[37,38],目前被廣泛用于語音生成領(lǐng)域。本研究的舌頭形狀取自中國女性發(fā)音X光片視頻所獲得的舌位輪廓視頻,包含20個(gè)音素(包括普通話元音)和181個(gè)音節(jié)。X射線圖像分辨率為640×480。發(fā)音者舌頭形狀用公式(1)進(jìn)行歸一化處理。每個(gè)元音持續(xù)35-50幀,每幀時(shí)長(zhǎng)約30 ms。本研究以5個(gè)典型元音(“a”、“i”、“u”、“e”、“o”)為對(duì)象,選取了對(duì)應(yīng)的240個(gè)真實(shí)舌形及6 000個(gè)生成的形變輪廓作為訓(xùn)練和測(cè)試數(shù)據(jù)來驗(yàn)證所提出的雙階段自動(dòng)編碼器方法的性能。

由于發(fā)音過程中前舌較舌頭后部會(huì)發(fā)生更大形變,本研究的舌位形變單元更多產(chǎn)生在上述13個(gè)節(jié)段的前6個(gè)。本文通過120個(gè)真實(shí)舌頭形狀構(gòu)建了6 000個(gè)變形輪廓,其中5 000個(gè)用于第一階段TS-DAE神經(jīng)網(wǎng)絡(luò)訓(xùn)練,1 000個(gè)用于第一階段TS-DAE網(wǎng)絡(luò)性能評(píng)估。在舌位輪廓降維編碼階段,從240個(gè)真實(shí)的舌位輪廓中隨機(jī)抽取120個(gè)舌形用于微調(diào)TSDR-AE,其余的120個(gè)舌形則用于TSDR-AE網(wǎng)絡(luò)性能評(píng)估。

2.2 自編碼器舌位模型網(wǎng)絡(luò)結(jié)構(gòu)

為實(shí)現(xiàn)TS-DAE和TSDR-AE兩階段在結(jié)構(gòu)及性能等方面的均衡分布,本文還對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了優(yōu)化。通常,隱藏層在獲得足夠單元輸入的前提下,自動(dòng)編碼器能夠擬合任意數(shù)據(jù)分布。在實(shí)踐中,隱藏單元數(shù)為輸入單元數(shù)的10倍左右時(shí),自編碼器即能產(chǎn)生較好結(jié)果。由于輸入矢量包含了13個(gè)單元節(jié)段,且TSDR-AE輸出層要求節(jié)點(diǎn)數(shù)較少,因此,TS-DAE可被構(gòu)建為“13-15”、“13-150-15”、“13-150-30-15”以及“13-150-60-24-15”等層級(jí)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)使用原始舌形與模型重建的舌形間的皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PCC)和均方誤差(Root Mean Square Error,RMSE)來評(píng)估模型的性能(圖4),其中PCC的值越大越好,RMSE的值越小越好。從圖4可見,“13-150-15”網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)于其他3個(gè)網(wǎng)絡(luò)結(jié)構(gòu)能獲得較理想的PCC和RMSE,尤其是RMSE明顯更優(yōu)。因此,本文將進(jìn)一步使用該網(wǎng)絡(luò)構(gòu)建(n+1)層的TSDR-AE網(wǎng)絡(luò)結(jié)構(gòu)。

圖4 4種網(wǎng)絡(luò)結(jié)構(gòu)的PCC和RMSE的平均值、最大值、最小值和方差范圍比較結(jié)果

實(shí)驗(yàn)將舌位輪廓壓縮在2個(gè)因子內(nèi)(即TSDR-AE的輸出層單元為2)進(jìn)行分析和比較。因此,本文在第一階段TS-DAE的頂部附加了“15-2”自動(dòng)編碼器,構(gòu)建了“13-150-15-2”堆疊的TSDR-AE。為驗(yàn)證本文模型[13-150-15-2 (the proposed)]性能,將其與標(biāo)準(zhǔn)的2層“13-2”自編碼器模型(13-2 AE)、采用Dropout技術(shù)進(jìn)行數(shù)據(jù)增強(qiáng)的“13-150-15-2”DAE模型[13-150-15-2 DAE (DRPT)]、使用形變進(jìn)行舌位增強(qiáng)數(shù)據(jù)訓(xùn)練的“13-150-15-2”DAE模型[13-150-15-2 (DFRM)]進(jìn)行實(shí)驗(yàn)比較。其中,將13-2 AE模型和13-150-15-2 DAE (DRPT)模型在120個(gè)真實(shí)舌位輪廓上進(jìn)行Dropout訓(xùn)練;對(duì)13-150-15-2 DAE (DFRM)模型使用了5 000個(gè)變形舌位輪廓進(jìn)行訓(xùn)練。本文所提出的TSDR-AE模型訓(xùn)練過程與上述13-150-15-2 DAE (DFRM)類似,但額外隨機(jī)抽取了120個(gè)真實(shí)舌形數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練及微調(diào)。

本文采取上述4種模型來驗(yàn)證120個(gè)原始舌形與重建舌形間的PCC和RMSE,圖5是對(duì)比結(jié)果的箱線圖。由圖5(a)可知,13-150-15-2 (the proposed)模型的PCC值高于其他3種模型。同時(shí),由圖5(b)可知,13-150-15-2 (the proposed)的RMSE比其他3種模型更小,說明其誤差更小。以上結(jié)果充分表明13-150-15-2 (the proposed)模型所重建的舌位輪廓與真實(shí)舌位輪廓更為接近,說明該模型具有更好的舌位輪廓重建性能。

2.3 與PCA的重建性能比較

PCA是語音學(xué)領(lǐng)域用于舌位輪廓壓縮和重建的常見降維工具[5,37,38]。這里進(jìn)一步比較13-150-15-2 (TSDR-AE)網(wǎng)絡(luò)結(jié)構(gòu)和PCA對(duì)真實(shí)舌位輪廓的重建性能。根據(jù)多名學(xué)者利用PCA模型在舌位輪廓上的分析結(jié)果[5,37,38],PCA舌位模型的前2-4個(gè)主成分通常占所有成分的95%以上。圖6為120個(gè)測(cè)試舌形上PCA和13-150-15-2 (TSDR-AE)模型的PCC和RMSE的結(jié)果,其中PCA_iD項(xiàng)中的i表示采用前i個(gè)分量的PCA重建結(jié)果。

圖6 PCA (2D,3D)模型和13-150-15-2 (TSDR-AE)模型在120個(gè)測(cè)試舌位輪廓上重建與原始舌位的PCC和RMSE的平均值、最大值、最小值和方差范圍比較結(jié)果

從圖6(a)可以看到,13-150-15-2 (TSDR-AE)模型重建的舌位輪廓與原舌位輪廓的PCC平均值為0.83。相對(duì)于PCA_2D的0.77以及PCA_3D的0.81,13-150-15-2 (TSDR-AE)模型的PCC值比PCA_2D和PCA_3D的更高。這說明與PCA相比,該文模型把舌位輪廓壓縮到二維后重建的舌位輪廓與原舌位輪廓更相似。

由圖6(b)可知,13-150-15-2 (TSDR-AE)模型重建的舌位輪廓與原舌位輪廓的RMSE平均值為0.05。相對(duì)于PCA_2D的0.06以及PCA_3D的0.05,該模型并不遜色,這說明該模型在把舌位輪廓壓縮到二維然后重建的舌位輪廓與原舌位輪廓的誤差更小。綜上,13-150-15-2 (TS-DAE)模型將舌位輪廓壓縮到二維后重建的舌位輪廓比PCA壓縮舌位輪廓到二維和三維后重建的舌位輪廓更好。

2.4 元音二維發(fā)音圖譜分布性能比較

為更直觀地驗(yàn)證所提模型性能,實(shí)驗(yàn)分別使用PCA_2D模型和本文模型將240個(gè)舌位輪廓壓縮為二維變量并投影到2D坐標(biāo)系,相應(yīng)投影點(diǎn)分布如圖7(a)、圖7(b)所示。其中的不同元音投影點(diǎn)分別采用不同顏色符號(hào)進(jìn)行標(biāo)識(shí),元音“i”用綠色方塊標(biāo)識(shí)、元音“e”用紅色加號(hào)標(biāo)識(shí)、元音“u”用深藍(lán)色五角星符號(hào)標(biāo)識(shí)、元音“o”用紫色圓形符號(hào)標(biāo)識(shí)、元音“a”用淺藍(lán)色三角形符號(hào)標(biāo)識(shí)。

圖7 漢語元音發(fā)音舌位輪廓降維到二維的可視化結(jié)果

由圖7(a)可知,不同元音間的二維投影點(diǎn)存在較多重疊,“u”(藍(lán)色區(qū)域)和“e”(紅色區(qū)域)重疊較多,“a”(淺藍(lán)色區(qū)域)與“o”(紫色區(qū)域)重疊也非常明顯,這意味著PCA_2D模型所獲得的不同元音舌形并不利于區(qū)分。

由圖7(b)可知,5個(gè)元音的發(fā)音被13-150-15-2 (TSDR-AE)劃分為5個(gè)簇,其中“i”與“a”的簇間距離比圖7(a)中的“i”與“a”更遠(yuǎn),僅有“u”與“e”、“o”存在少量的邊界點(diǎn)相鄰。因此,13-150-15-2 (TSDR-AE)模型和PCA_2D將漢語元音的舌位發(fā)音輪廓同時(shí)壓縮到二維,并將結(jié)果在2D坐標(biāo)系進(jìn)行可視化,前者比后者能獲得更好的舌位區(qū)分結(jié)果,這說明所提出模型相對(duì)于被廣泛使用的PCA方法在二維壓縮維度上能更好獲得元音的發(fā)音分布特征。

3 討論

將基于舌位形變的13-150-15-2 (DFRM)模型與標(biāo)準(zhǔn)的兩層13-2 AE模型、采用Dropout技術(shù)進(jìn)行數(shù)據(jù)增強(qiáng)的13-150-15-2 DAE (DRPT)模型進(jìn)行比較可以得知,13-150-15-2 (DFRM)模型相對(duì)于其他2個(gè)模型,其PCC值分別提高了0.09和0.05,同時(shí)RMSE值分別降低了0.007和0.013。這表明基于ASM的形變技術(shù)能生成更多符合一定發(fā)音規(guī)律的舌位輪廓數(shù)據(jù),使得模型的第一階段TS-DAE (舌位輪廓自編碼器)受輸入數(shù)據(jù)影響較小,具有更強(qiáng)的魯棒性,進(jìn)而有效提高了模型的性能。

模型的第二階段TSDR-AE通過引入帶有少量隱藏單元的附加網(wǎng)絡(luò)層進(jìn)行微調(diào)。該附加網(wǎng)絡(luò)層能進(jìn)一步提高對(duì)真實(shí)舌位輪廓的擬合度,使得本文模型比13-150-15-2 (DFRM)模型具有更好的舌位重建性能。從圖5可見,本文模型較13-150-15-2 (DFRM)模型的PCC值提高0.07,同時(shí)其RMSE值降低0.01,表明該模型所提出的第二階段TSDR-AE能進(jìn)一步改進(jìn)舌位輪廓自編碼器整體性能。

將所提方法與PCA方法在舌位壓縮重建后的效果進(jìn)行比較,通過對(duì)120個(gè)真實(shí)測(cè)試舌形壓縮和重建的實(shí)驗(yàn)結(jié)果表明,采用13-150-15-2 (TSDR-AE) 將舌位輪廓壓縮到二維,其重建的舌位輪廓明顯優(yōu)于采用PCA壓縮舌位輪廓到二維重建的舌位輪廓,甚至更優(yōu)于通過PCA壓縮到三維所獲得的重建結(jié)果。

將舌位輪廓壓縮為二維變量并投影到2D坐標(biāo)系中。由圖7可知,本文模型在二維坐標(biāo)系中的元音舌形壓縮和可視化方面均優(yōu)于傳統(tǒng)的PCA_2D模型,其所獲得的二維點(diǎn)分布呈現(xiàn)出更好的分類效果,即擁有更好的元音舌位識(shí)別能力。究其原因,主要是因?yàn)門SDR-AE具有較高的重建性能和良好的降維能力,確保了TSDR-AE模型較傳統(tǒng)PCA方法能更直觀建立舌關(guān)節(jié)結(jié)構(gòu)和低維參數(shù)之間的雙向映射關(guān)系。

綜上,雖然舌位因其隱蔽性等生理特征而無法產(chǎn)生大量真實(shí)樣本數(shù)據(jù),但本文基于ASM產(chǎn)生的舌位形變數(shù)據(jù)所提出的兩階段自動(dòng)編碼器舌位模型比PCA舌位模型具有更強(qiáng)的舌位輪廓壓縮能力、降維能力以及元音舌位區(qū)分能力。

4 結(jié)論

針對(duì)傳統(tǒng)深度學(xué)習(xí)自動(dòng)編碼器難以直接用于舌位輪廓分析的問題,本文提出了一種基于小樣本真實(shí)舌位數(shù)據(jù)統(tǒng)計(jì)分析的雙階段自動(dòng)編碼器方法。第一階段通過引入具有生理特征的大規(guī)模變形方法,構(gòu)建通用輪廓重建模型;第二階段在前階段的基礎(chǔ)上添加隱藏單元,構(gòu)建與降維目標(biāo)維度相等的附加網(wǎng)絡(luò)層對(duì)舌位數(shù)據(jù)進(jìn)行壓縮。實(shí)驗(yàn)在人類真實(shí)的小規(guī)模元音舌形數(shù)據(jù)上進(jìn)行驗(yàn)證,并與傳統(tǒng)PCA方法比較了降維、重建性能。實(shí)驗(yàn)結(jié)果表明,本文所提舌位輪廓重建模型比PCA方法的重建性能更優(yōu),所生成的元音舌位圖譜在二維平面上也呈現(xiàn)出更好的區(qū)分度。