楊淑瑩,田 迪,郭楊楊,趙 敏
(天津理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,天津 300384)
隨著網(wǎng)絡(luò)視頻和電視媒體的不斷發(fā)展,人民日常生活中的信息和休閑娛樂(lè)越來(lái)越離不開(kāi)它們,但對(duì)于聽(tīng)障人群而言視頻和電視卻可望不可“及”。據(jù)相關(guān)數(shù)據(jù)顯示,全國(guó)約120個(gè)頻道的1000多個(gè)電視欄目中配有字幕的實(shí)屬少數(shù)其中配有實(shí)時(shí)手語(yǔ)翻譯的更是寥寥無(wú)幾[1],而作為最受全國(guó)電視觀眾歡迎且關(guān)注度極高的節(jié)目《新聞聯(lián)播》也并未加配字幕或手語(yǔ)翻譯。如此一來(lái)聽(tīng)障人群空對(duì)電視難“聽(tīng)”其聞,對(duì)于各種國(guó)家實(shí)事的了解也只是只言片語(yǔ)與社會(huì)嚴(yán)重脫節(jié)。
目前我國(guó)大陸現(xiàn)有聽(tīng)力殘障人總數(shù)約為2054萬(wàn)人,占全國(guó)人口總數(shù)的1.46%[2]。但我國(guó)現(xiàn)有高水平手語(yǔ)翻譯人員嚴(yán)重不足,國(guó)內(nèi)擁有國(guó)家資質(zhì)認(rèn)證的手語(yǔ)翻譯員人數(shù)不足百人[3],從事手語(yǔ)翻譯工作的專職人員更是少之又少。想要為全部視頻及電視節(jié)目字幕或是手語(yǔ)翻譯工作量極大且手語(yǔ)翻譯人力資源嚴(yán)重短缺,對(duì)于《新聞聯(lián)播》這類的直播節(jié)目更是要求手語(yǔ)翻譯迅速、嚴(yán)謹(jǐn)、準(zhǔn)確。鑒于以上提及的各問(wèn)題,開(kāi)發(fā)一個(gè)能夠被廣泛應(yīng)用的實(shí)時(shí)手語(yǔ)翻譯系統(tǒng)是非常有意義且極具價(jià)值的。
對(duì)于手語(yǔ)翻譯系統(tǒng)的研究,國(guó)內(nèi)外學(xué)者都在不斷的進(jìn)行探索。早些年間微軟亞洲研究院和中科院計(jì)算所就已經(jīng)合作開(kāi)發(fā)出了基于Kinect的手語(yǔ)翻譯系統(tǒng),能夠完成手語(yǔ)翻譯;由日本東芝公司開(kāi)發(fā)的人形手語(yǔ)機(jī)器人也已經(jīng)可以實(shí)現(xiàn)手語(yǔ)交流[4]。及至后來(lái)普遍興起的基于傳感器等相關(guān)設(shè)備的手語(yǔ)翻譯研究,如基于傳感機(jī)械設(shè)備或數(shù)據(jù)手套的手語(yǔ)翻譯系統(tǒng)等[5-6]。但綜合來(lái)看,以上手語(yǔ)翻譯系統(tǒng)或設(shè)備雖為手語(yǔ)翻譯領(lǐng)域帶來(lái)了新的技術(shù)和理念,在其真正應(yīng)用過(guò)程中卻存在著諸多問(wèn)題,如設(shè)備價(jià)格昂貴無(wú)法普遍推廣、設(shè)備操作復(fù)雜易用性差等。而且現(xiàn)有較多研究都集中于識(shí)別手語(yǔ)即手語(yǔ)向語(yǔ)音的翻譯,如基于Leap Motion深度傳感器的手語(yǔ)手勢(shì)識(shí)別[7]等,而進(jìn)行語(yǔ)言向手語(yǔ)進(jìn)行翻譯的則為數(shù)不多,且現(xiàn)有技術(shù)多為視頻合成或視頻拼接[8]等方式,缺少了手語(yǔ)輸出的直觀現(xiàn)實(shí)性。
所以,本文依照中國(guó)手語(yǔ)標(biāo)準(zhǔn),設(shè)計(jì)實(shí)現(xiàn)了仿真手語(yǔ)翻譯系統(tǒng),通過(guò)B/S模式實(shí)現(xiàn)前端頁(yè)面和后臺(tái)運(yùn)行的互聯(lián),使用WebGL技術(shù)進(jìn)行虛擬人加載和場(chǎng)景渲染;JavaScript語(yǔ)言進(jìn)行虛擬人運(yùn)動(dòng)控制,實(shí)現(xiàn)虛擬仿真手語(yǔ)翻譯;以HTML和CSS語(yǔ)言開(kāi)發(fā)前端用戶界面,集成各功能模塊;以深度學(xué)習(xí)為根本算法實(shí)現(xiàn)快速語(yǔ)音識(shí)別。此仿真手語(yǔ)翻譯系統(tǒng)以虛擬人代替?zhèn)鹘y(tǒng)翻譯專員實(shí)現(xiàn)仿真手語(yǔ)翻譯,較現(xiàn)有手語(yǔ)翻譯系統(tǒng),在實(shí)用性、直觀現(xiàn)實(shí)和可推廣程度等方面均有所提升。
為實(shí)現(xiàn)識(shí)別語(yǔ)音并將其翻譯成仿真手語(yǔ)的功能,本手語(yǔ)翻譯系統(tǒng)設(shè)計(jì)了如圖1所示的系統(tǒng)結(jié)構(gòu)共包含三大模塊,分別為語(yǔ)音識(shí)別模塊、文本處理模塊和虛擬人控制模塊。語(yǔ)音識(shí)別模塊通過(guò)前端交互界面采集語(yǔ)音進(jìn)行識(shí)別得到文本信息;文本分詞模塊負(fù)責(zé)把識(shí)別得到的文本進(jìn)行處理,將文本轉(zhuǎn)化成字詞序列并傳送至虛擬人控制模塊;虛擬人控制模塊則根據(jù)接收到的字詞序列順次調(diào)用文本對(duì)應(yīng)的手語(yǔ)動(dòng)作,將手語(yǔ)信息以虛擬人仿真手語(yǔ)動(dòng)作的方式呈現(xiàn)在用戶眼前,從而實(shí)現(xiàn)語(yǔ)音到手語(yǔ)的仿真翻譯過(guò)程。模塊之間通過(guò)網(wǎng)頁(yè)端和后臺(tái)服務(wù)器端互聯(lián)實(shí)現(xiàn)數(shù)據(jù)信息傳遞,并結(jié)合WebGL的第三方圖形庫(kù)Three.js實(shí)現(xiàn)手語(yǔ)動(dòng)作調(diào)用。

圖1 系統(tǒng)總體結(jié)構(gòu)圖
本文設(shè)計(jì)實(shí)現(xiàn)的手語(yǔ)翻譯系統(tǒng)是將語(yǔ)音向手語(yǔ)的翻譯過(guò)程,系統(tǒng)實(shí)現(xiàn)流程如圖2所示。此系統(tǒng)有兩種使用模式供用戶選擇,分別是網(wǎng)絡(luò)視頻手語(yǔ)翻譯和說(shuō)話人手語(yǔ)翻譯。網(wǎng)絡(luò)視頻手語(yǔ)翻譯模式類似于同聲傳譯軟件,對(duì)視頻中的聲音進(jìn)行識(shí)別并輸出仿真手語(yǔ),說(shuō)話人手語(yǔ)翻譯模式則適用于車站或一些公共場(chǎng)所,以仿真手語(yǔ)作為信息載體通過(guò)屏幕傳遞給聽(tīng)障人士。采集到的語(yǔ)音信號(hào)要先經(jīng)過(guò)語(yǔ)音識(shí)別模塊進(jìn)行預(yù)處理和特征提取,之后使用深度學(xué)習(xí)算法對(duì)其進(jìn)行識(shí)別,并將語(yǔ)音信號(hào)對(duì)應(yīng)的文本輸出。語(yǔ)音識(shí)別得到的文本信息經(jīng)過(guò)文本分詞處理輸出字詞序列,最后將序列傳遞至虛擬人控制模塊進(jìn)行相應(yīng)的仿真手語(yǔ)動(dòng)作調(diào)用播放演示,從而實(shí)現(xiàn)語(yǔ)音到手語(yǔ)的翻譯。為保證手語(yǔ)動(dòng)作完整且準(zhǔn)確的輸出,在文本分詞后會(huì)對(duì)手語(yǔ)動(dòng)作庫(kù)進(jìn)行檢索。當(dāng)序列中出現(xiàn)沒(méi)有對(duì)應(yīng)手語(yǔ)動(dòng)作的詞時(shí),會(huì)將此詞登記在待補(bǔ)列表中,同時(shí)依次讀取該詞中所含文字,并將其保存成字序列進(jìn)行手語(yǔ)動(dòng)作調(diào)用嘗試,即將詞語(yǔ)中包含的所有字成分依次進(jìn)行手語(yǔ)表示。后期及時(shí)對(duì)待補(bǔ)列表中的字詞手語(yǔ)動(dòng)作進(jìn)行補(bǔ)充。

圖2 系統(tǒng)實(shí)現(xiàn)流程圖
近年來(lái)深度學(xué)習(xí)快速發(fā)展,CNN(Convolutional Neural Network,CNN)在圖像識(shí)別和分類中的表現(xiàn)近乎完美[9-10],其在語(yǔ)音識(shí)別領(lǐng)域中的表現(xiàn)也毫不遜色,識(shí)別技術(shù)也逐漸趨于成熟[11-12]。本文將聲學(xué)特征轉(zhuǎn)換成圖片,用CNN直接對(duì)特征圖進(jìn)行模型訓(xùn)練和識(shí)別,相較于傳統(tǒng)方法,減少了語(yǔ)音信號(hào)在時(shí)域和頻域上的信息損失[13],極大限度的保留了完整的聲學(xué)特征更易于網(wǎng)絡(luò)的訓(xùn)練和識(shí)別[14],取得了良好的語(yǔ)音識(shí)別效果。文中所設(shè)計(jì)的手語(yǔ)翻譯系統(tǒng)在進(jìn)行翻譯時(shí),先使用語(yǔ)音識(shí)別模塊對(duì)輸入的語(yǔ)音進(jìn)行預(yù)處理和特征提取,再將其存儲(chǔ)為語(yǔ)音特征圖像,使用這些語(yǔ)音特征圖像進(jìn)行CNN訓(xùn)練和識(shí)別。語(yǔ)音識(shí)別流程如圖3所示。

圖3 語(yǔ)音識(shí)別流程圖
為了提取到準(zhǔn)確且具有代表性的語(yǔ)音信號(hào)特征,需要先對(duì)采集到的語(yǔ)音信號(hào)進(jìn)行預(yù)處理:將語(yǔ)音信號(hào)通過(guò)一個(gè)高通濾波器執(zhí)行預(yù)加重操作,之后執(zhí)行分幀加漢明窗操作并使用能量結(jié)合過(guò)零率方法進(jìn)行端點(diǎn)檢測(cè)。預(yù)處理過(guò)后即可對(duì)其進(jìn)行特征提取操作。手語(yǔ)翻譯系統(tǒng)主要語(yǔ)音信號(hào)來(lái)源均為人聲,所以本文使用符合人類聽(tīng)覺(jué)機(jī)制的梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)作為語(yǔ)音識(shí)別特征參數(shù)[15]。同時(shí)用小波包分解代替?zhèn)鹘y(tǒng)聲學(xué)特征提取過(guò)程中的快速傅里葉變換,以Mel尺度的頻率范圍劃分語(yǔ)音信號(hào)頻段,保證了語(yǔ)音信號(hào)特征的完整性[16]。基于MFCC子帶頻譜的小波包分解特征參數(shù)提取流程如圖4所示。

圖4 基于MFCC子帶頻譜的小波包分解系數(shù)提取流程圖
基于MFCC子帶頻譜的小波包分解特征參數(shù)提取過(guò)程:
1)對(duì)經(jīng)過(guò)預(yù)處理的各幀語(yǔ)音信號(hào)進(jìn)行小波包分解求得各子頻帶系WPKk,m,其中WPKk,m,為第k個(gè)子帶的第m個(gè)小波系數(shù)。
2)計(jì)算各子頻帶能量

(1)
其中Nk為第k個(gè)子帶的小波系數(shù)的個(gè)數(shù)k=1,2,3,……,K為所選頻帶的索引編號(hào)。
3)得到各子頻帶能量后對(duì)其進(jìn)行歸一化處理并執(zhí)行對(duì)數(shù)運(yùn)算
(2)
4)對(duì)Sk離散余弦變換得到MFCC特征:
(3)
式中,n=1,2,……,P,P為特征參數(shù)的維數(shù)。
5)提取MFCC特征后,使用矩陣可視化函數(shù)matshow()將系數(shù)矩陣轉(zhuǎn)換為圖像以便于后期CNN模型的訓(xùn)練和識(shí)別。圖5為一條語(yǔ)音信號(hào)的特征系數(shù)矩陣轉(zhuǎn)換得到的特征圖。

圖5 語(yǔ)音信號(hào)特征圖
在CNN模型搭建方面,本文手語(yǔ)翻譯系統(tǒng)使用包含十三層網(wǎng)絡(luò)的CNN,由卷積層、池化層、全連接層組成。網(wǎng)絡(luò)包含三個(gè)卷積段,每個(gè)卷積段有三層卷積層并有一層池化層作為結(jié)尾,完成圖片特征局部感知和下采樣。其中每一卷積層均取3*3卷積核,步長(zhǎng)取1。并使用BatchNorm2d函數(shù)進(jìn)行歸一化操作,后用激活函數(shù)ReLU進(jìn)行激活。池化層則均使用核大小為2*2的MaxPool2d函數(shù)取最大值。最后一層全連接層負(fù)責(zé)根據(jù)已提取的特征來(lái)實(shí)現(xiàn)特征圖像的分類。
本次實(shí)驗(yàn)中為得到足夠規(guī)模的訓(xùn)練集,以提升CNN的分類效果,征集了100名學(xué)生志愿者對(duì)選定的20條常用語(yǔ)句進(jìn)行語(yǔ)音錄制,每名同學(xué)對(duì)同一條語(yǔ)句重復(fù)5遍,共得到了1000條語(yǔ)音文件。選擇其中800條語(yǔ)音作為訓(xùn)練集,剩余200條作為測(cè)試集對(duì)識(shí)別最終效果進(jìn)行檢測(cè),在學(xué)習(xí)率設(shè)定為0.001的條件下進(jìn)行了1500次訓(xùn)練,最終模型識(shí)別準(zhǔn)確率為95%。
jieba中文分詞是自然語(yǔ)言處理領(lǐng)域中非常受歡迎的一種開(kāi)源分詞工具[17],以其使用方便、分詞快速準(zhǔn)確而備受推崇。jieba分詞有三種分詞模式,分別是精確模式、全模式和搜索引擎模式。其中精確模式對(duì)句子的分割最為準(zhǔn)確,適合文本分析;全模式則將句子中所有的可以成詞的詞語(yǔ)進(jìn)行掃描分割;搜索引擎模式則是在精確模式的基礎(chǔ)上對(duì)較長(zhǎng)詞進(jìn)一步切分,提高召回率。
本文使用jieba的精確模式作為默認(rèn)分詞模式,對(duì)語(yǔ)音識(shí)別得到的文本進(jìn)行分詞,經(jīng)過(guò)分詞得到的字詞序列傳送至虛擬人控制模塊按順序依次調(diào)用對(duì)應(yīng)的仿真手語(yǔ)動(dòng)作。如果出現(xiàn)沒(méi)有對(duì)應(yīng)手語(yǔ)動(dòng)作的詞時(shí),依次讀取該詞中所含文字,并將其保存成字序列進(jìn)行手語(yǔ)動(dòng)作調(diào)用嘗試,即將詞語(yǔ)中包含的所有字成分依次進(jìn)行手語(yǔ)表示。例如,句子“我是天津理工大學(xué)開(kāi)發(fā)的手語(yǔ)翻譯員”的分詞結(jié)果為“我/是/天津/理工大學(xué)/開(kāi)發(fā)/的/手語(yǔ)/翻譯員”,但其中“理工大學(xué)”并沒(méi)有對(duì)應(yīng)的手語(yǔ)動(dòng)作,所以對(duì)該詞依次讀取其中文字按字序列進(jìn)行手語(yǔ)動(dòng)作調(diào)用。通過(guò)字候補(bǔ)的字詞序列調(diào)用方式最大程度的保證了仿真手語(yǔ)輸出的完整性。
3.3.1 虛擬人制作
本文使用建模動(dòng)畫(huà)軟件Maya進(jìn)行模型制作和關(guān)鍵幀動(dòng)畫(huà)制作,先通過(guò)多邊形建模[20]的方式建立大體輪廓模型,再分別從“面”、“線”、“點(diǎn)”各層次逐級(jí)完善3D模型,并為其身體各部分添加材質(zhì)[17],如衣服、皮膚、頭發(fā)等。之后為模型創(chuàng)建骨骼并進(jìn)行蒙皮,本文中的模型為類人型動(dòng)畫(huà)模型所以可以直接使用HumanIK[20]插件生成一副骨架,然后依次調(diào)整各關(guān)節(jié)的位置使其與文的人物模型相匹配。同時(shí)選中骨架及模型文件點(diǎn)擊“裝備中的”“蒙皮”選項(xiàng)完成蒙皮綁定。完成骨骼及綁定后使用權(quán)重繪制工具對(duì)各部分關(guān)節(jié)的蒙皮權(quán)重進(jìn)行繪制[17],使各部分關(guān)節(jié)合理帶動(dòng)相應(yīng)部位的蒙皮。為方便后邊動(dòng)畫(huà)的制作,可在HumanIK插件中點(diǎn)擊“一鍵生成控制器”為各部分關(guān)節(jié)建立控制器。帶有骨骼的虛擬人模型及模型控制器如圖6所示。

圖6 帶有骨骼的虛擬模型及模型控制器
本文采用關(guān)鍵幀動(dòng)畫(huà)技術(shù)[21]來(lái)為模型創(chuàng)建動(dòng)畫(huà),選中需要添加動(dòng)作的控制器并調(diào)整其位置達(dá)到最終效果即完成此關(guān)鍵幀。表示“你好”的仿真手語(yǔ)關(guān)鍵幀如圖7所示。為使手語(yǔ)動(dòng)作的播放效果更貼近于人工手語(yǔ)動(dòng)作,本文設(shè)置幀頻率為24,每個(gè)關(guān)鍵幀的間隔為20幀,即先后動(dòng)作間隔約為一秒的時(shí)間。完成關(guān)鍵幀動(dòng)畫(huà)之后使用Maya中的Babylon插件對(duì)模型中的動(dòng)作進(jìn)行分組,記錄每個(gè)動(dòng)作的起止幀設(shè)為模型的動(dòng)畫(huà)序列,并以手語(yǔ)動(dòng)作表示的含義對(duì)動(dòng)作命名。最后,導(dǎo)出模型文件。

圖7 表示“你好”的仿真手語(yǔ)關(guān)鍵幀
3.3.2 手語(yǔ)動(dòng)作庫(kù)
為實(shí)現(xiàn)手語(yǔ)翻譯系統(tǒng)的手語(yǔ)展示功能,還需要建立一個(gè)完整的手語(yǔ)動(dòng)作庫(kù)。本文使用先進(jìn)的三維動(dòng)畫(huà)制作軟件Maya來(lái)實(shí)現(xiàn)動(dòng)畫(huà)制作過(guò)程,按手語(yǔ)的種類劃分動(dòng)畫(huà)動(dòng)作組,完成手語(yǔ)動(dòng)作庫(kù)的建立。此種建庫(kù)方式,相較于使用數(shù)據(jù)手套采集手語(yǔ)動(dòng)作軌跡信息方法省去了購(gòu)買高昂設(shè)備的成本,也隨之省去了復(fù)雜的設(shè)備及技術(shù)操作流程;相較于北京工業(yè)大學(xué)朱婷婷[22]等人手語(yǔ)視頻合成的方式,在提高手語(yǔ)動(dòng)作現(xiàn)實(shí)性、增強(qiáng)直觀動(dòng)作傳輸方面都有很多提升。因此結(jié)合Maya制作三維立體模型并創(chuàng)建手語(yǔ)動(dòng)作庫(kù)最后通過(guò)WebGL的相關(guān)技術(shù)實(shí)現(xiàn)網(wǎng)頁(yè)端直觀顯示3D模型實(shí)現(xiàn)手語(yǔ)翻譯的方式是十分可行且非常有效的。
本次實(shí)驗(yàn)中以手語(yǔ)翻譯系統(tǒng)的應(yīng)用場(chǎng)所作為劃分標(biāo)準(zhǔn),共制作了16組不同主題的手語(yǔ)動(dòng)作庫(kù)。主題主要涉及存在聽(tīng)障人溝通障礙的生活場(chǎng)所,如醫(yī)院、車站、餐廳等。每個(gè)主題中包含200個(gè)詞語(yǔ)手語(yǔ)動(dòng)作,覆蓋大部分常用語(yǔ)句。每個(gè)手語(yǔ)動(dòng)作以詞作為主要分割標(biāo)準(zhǔn)同時(shí)輔以單字,即對(duì)于“天氣”和“天”這一類會(huì)同時(shí)對(duì)詞和字進(jìn)行動(dòng)作設(shè)定,保證手語(yǔ)動(dòng)作的完整性。
3.3.3 虛擬人交互設(shè)計(jì)
為此手語(yǔ)翻譯系統(tǒng)通過(guò)使用WebGL的第三方圖形庫(kù)Three.js[23]來(lái)實(shí)現(xiàn)虛擬人三維模型的網(wǎng)頁(yè)端可視化展示,通過(guò)Three.js的相關(guān)操作實(shí)現(xiàn)指定手語(yǔ)動(dòng)作控制。首先要設(shè)置模型展示環(huán)境,對(duì)要展示模型的環(huán)境進(jìn)行初始化。通過(guò)初始化相機(jī)、添加場(chǎng)景并為其設(shè)置背景和霧化效果、添加燈光來(lái)構(gòu)成展示模型的基本環(huán)境,之后通過(guò)Three.js的WebGLRenderer()方法來(lái)為環(huán)境進(jìn)行渲染,以實(shí)現(xiàn)理想的三維立體環(huán)境效果。完成模型展示環(huán)境設(shè)置以后即可加載虛擬人模型。對(duì)于本系統(tǒng)使用的glTF模型首先要添加模型加載器,然后為模型實(shí)例化一個(gè)指定加載器,之后通過(guò)loader.load()函數(shù)將虛擬人模型加載到對(duì)應(yīng)頁(yè)面。完成虛擬人配置之后,便可以結(jié)合其他模塊調(diào)用相關(guān).js語(yǔ)句實(shí)現(xiàn)虛擬人手語(yǔ)動(dòng)作展示。
本文使用Python3.7語(yǔ)言開(kāi)發(fā)后臺(tái)語(yǔ)音識(shí)別和其它系統(tǒng)結(jié)構(gòu),使用PyTorch深度學(xué)習(xí)框架搭建神經(jīng)網(wǎng)絡(luò)。仿真手語(yǔ)翻譯系統(tǒng)界面如圖8所示,其中包含:功能演示、功能模式選擇、虛擬人視窗和識(shí)別結(jié)果文本框。在說(shuō)話人手語(yǔ)翻譯模式中,通過(guò)界面上方的控制按鈕進(jìn)行語(yǔ)音采集和識(shí)別,識(shí)別完成后虛擬人將以仿真手語(yǔ)的形式展示語(yǔ)音所表示的手語(yǔ)動(dòng)作。

圖8 翻譯系統(tǒng)界面圖
作為系統(tǒng)測(cè)試,隨機(jī)輸入一段語(yǔ)音進(jìn)行實(shí)驗(yàn)并對(duì)其結(jié)果進(jìn)行分析。以“我愛(ài)天津理工大學(xué)”作為語(yǔ)音輸入。得到的仿真手語(yǔ)呈現(xiàn)在虛擬人框中,同時(shí)識(shí)別得到的對(duì)應(yīng)文本將在文本框中顯示。“我愛(ài)天津理工大學(xué)”對(duì)應(yīng)的仿真手語(yǔ)動(dòng)作連續(xù)截圖如圖9所示。

圖9 表示“我愛(ài)天津理工大學(xué)”的仿真手語(yǔ)圖
在視頻手語(yǔ)翻譯模式中,在視頻框中選擇要進(jìn)行手語(yǔ)翻譯的視頻并打開(kāi),在此以隨機(jī)一期新聞聯(lián)播節(jié)目作為測(cè)試,在視頻開(kāi)始播放后系統(tǒng)將會(huì)自動(dòng)進(jìn)行識(shí)別并輸出對(duì)應(yīng)的仿真手語(yǔ)和文本內(nèi)容。

圖10 翻譯系統(tǒng)界面圖
本文設(shè)計(jì)開(kāi)發(fā)了仿真手語(yǔ)翻譯系統(tǒng),實(shí)現(xiàn)了語(yǔ)音到仿真手語(yǔ)的翻譯過(guò)程,以仿真虛擬人取代一些現(xiàn)有翻譯設(shè)備中價(jià)格昂貴的機(jī)械手語(yǔ)翻譯設(shè)備,可推廣性和實(shí)用性優(yōu)勢(shì)明顯;同時(shí)其特有的虛擬仿真效果使其能夠媲美手語(yǔ)翻譯專員,較現(xiàn)有的一些視頻合成手語(yǔ)系統(tǒng)在手語(yǔ)展示翻譯效果方面也有很大的優(yōu)勢(shì)。此系統(tǒng)有效的解決了翻譯人員短缺的問(wèn)題,且系統(tǒng)使用成本低、操作方便簡(jiǎn)單,是可惠及所有聽(tīng)障人的實(shí)用性翻譯系統(tǒng)。
此仿真手語(yǔ)翻譯系統(tǒng)雖使用簡(jiǎn)單、手語(yǔ)翻譯反應(yīng)迅速,但對(duì)于虛擬人的手語(yǔ)動(dòng)作含量(即手語(yǔ)動(dòng)作庫(kù)容量)要求較為嚴(yán)格。本次實(shí)驗(yàn)中制作的3200個(gè)手語(yǔ)動(dòng)作在日常交流對(duì)話使用中表現(xiàn)良好,但在包含內(nèi)容較多涉及場(chǎng)景廣泛的視頻翻譯中手語(yǔ)動(dòng)作庫(kù)則略顯不足。所以接下來(lái)將開(kāi)發(fā)基于根手語(yǔ)動(dòng)作的可合成類手語(yǔ)翻譯系統(tǒng),以根手語(yǔ)動(dòng)作為基礎(chǔ),結(jié)合驅(qū)動(dòng)引擎來(lái)完成手語(yǔ)合成,將其建設(shè)成一個(gè)完整且實(shí)用的仿真手語(yǔ)翻譯系統(tǒng)。