999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合人臉表情的手語到漢藏雙語情感語音轉換

2018-10-10 12:53:04宋南吳沛文楊鴻武
聲學技術 2018年4期
關鍵詞:情感模型

宋南,吳沛文,楊鴻武

?

融合人臉表情的手語到漢藏雙語情感語音轉換

宋南,吳沛文,楊鴻武

(西北師范大學物理與電子工程學院,甘肅蘭州 730070)

針對聾啞人與正常人之間存在的交流障礙問題,提出了一種融合人臉表情的手語到漢藏雙語情感語音轉換的方法。首先使用深度置信網絡模型得到手勢圖像的特征信息,并通過深度神經網絡模型得到人臉信息的表情特征。其次采用支持向量機對手勢特征和人臉表情特征分別進行相應模型的訓練及分類,根據識別出的手勢信息和人臉表情信息分別獲得手勢文本及相應的情感標簽。同時,利用普通話情感訓練語料,采用說話人自適應訓練方法,實現了一個基于隱Markov模型的情感語音合成系統。最后,利用識別獲得的手勢文本和情感標簽,將手勢及人臉表情轉換為普通話或藏語的情感語音。客觀評測表明,靜態手勢的識別率為92.8%,在擴充的Cohn-Kanade數據庫和日本女性面部表情(Japanese Female Facial Expression, JAFFE)數據庫上的人臉表情識別率為94.6%及80.3%。主觀評測表明,轉換獲得的情感語音平均情感主觀評定得分4.0分,利用三維情緒模型(Pleasure-Arousal-Dominance, PAD)分別評測人臉表情和合成的情感語音的PAD值,兩者具有很高的相似度,表明合成的情感語音能夠表達人臉表情的情感。

手勢識別;表情識別;深度神經網絡;漢藏雙語情感語音合成;手語到語音轉換

0 引言

手語是目前言語障礙者與正常人之間最重要的一種溝通方式,手語識別研究一直受到廣泛的關注[1],手勢識別技術逐漸成為人機交互系統方面的研究熱點。早期,利用穿戴技術通過數據手套進行手語識別[2]。近年來,模式識別技術中的隱Markov模型(Hidden Markov Model, HMM)[3]、反向傳播(Back Propagation, BP)神經網絡[4]及支持向量機(Support Vector Machine, SVM)[5]等算法應用在手勢識別上,獲得了一定的效果。目前,隨著深度學習技術的發展,深度學習也應用到手語識別中[6],使得手語識別率獲得了較大提高。同時,在日常生活交往中,面部表情在言語障礙者的交流中也起到很重要的作用,表情可以讓交流的信息傳達得更加準確?,F有的表情識別技術發展迅速,基于SVM[7]、Adaboost[8]、局部二值模式(Local Binary Pattern, LBP)、主成分分析(Principal Components Analysis, PCA)[9]以及深度學習的人臉表情識別[10]都已經得到了實現。手語信息與人臉表情信息的融合將會讓信息表達更加明確。目前基于HMM的語音合成方法廣泛應用在情感語音合成領域[11-12],通過該方法可將文本信息轉換成情感語音。但現有的研究方向大都是分別對手勢、人臉表情及情感語音合成進行研究。一些學者采用信息融合的方法,將人臉表情、肢體語言及語音信息進行融合,實現了多模式融合下的情感識別[13];將手勢識別與語音信息融合,實現了對機器人的指揮[14];將面部表情信息與語音信息融合,實現了對機器人輪椅導航的控制[15];這些研究表明,多模式信息融合逐漸成為一種趨勢。前期的研究[16-17]雖然實現了手語到語音的轉換,但合成出的語音并沒有包含感情和情緒的變化,忽視了聾啞人情感的語音表達,容易使聽者的理解產生歧義。

將手語和人臉表情的識別技術與情感語音合成方法相結合,實現融合人臉表情的手語到情感語音的轉換,對言語障礙者的日常交流具有重要作用。本文首先利用靜態手勢識別獲得手勢表達的文本,利用人臉表情識別獲得表達的情感信息。同時以聲韻母作為語音合成基元,實現了一個基于HMM的漢藏雙語情感語音合成,將識別獲得的手勢文本和情感信息轉換為相應的普通話或藏語情感語音。

1 系統框架

融合人臉表情的手語到漢藏雙語情感語音轉換系統框架如圖1所示。為了實現轉換系統,將系統設計為三部分:手勢和人臉表情的識別、情感語音聲學模型訓練及情感語音合成。在識別階段,將輸入的手勢圖像進行預處理,再通過深度置信網絡(Deep Belief Network, DBN)模型進行特征提取得到手勢特征,利用SVM識別得到手勢種類;將輸入的人臉表情圖像進行預處理,再通過深度神經網絡(Deep Neural Network, DNN)模型進行特征提取得到表情特征,利用SVM識別得到情感標簽。在訓練階段,將語料庫中的語音和文本分別進行參數提取與文本分析,得到聲學參數和標注信息,再通過情感語音的合成平臺進行HMM訓練,得到不同情感的語音聲學模型。在合成階段,將獲得的手勢種類利用定義好的手勢文本字典得到手勢文本,通過文本分析得到情感語音合成所需的上下文相關的標注信息,同時利用情感標簽選擇情感語音聲學模型,最終將上下文相關的標注信息和情感語音聲學模型,通過情感語音合成系統合成出情感語音。

2 融合人臉表情的手語到情感語音合成

2.1 手勢識別

手勢識別主要包括3個部分:預處理、特征提取以及SVM識別。圖像的預處理過程通過對手勢信息進行數據整合,把采集到的手勢圖像轉化為灰度圖像,并將其格式從28×28變換為784×1。針對所有圖像構成一個二維矩陣,然后構建數據立方體。(軸坐標表示一個小組內不同樣本的編號,軸坐標表示一個小組中特定一個樣本的維度,軸表示小組的個數),把其作為DBN模型統一讀入數據的格式。手勢特征采用5層的DBN模型進行提取,其過程包括受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)調節和反饋微調,利用RBM來調節相鄰兩層之間的權值[18],RBM在隱藏層到可見層之間有連接,每層內部都沒有連接,其隱藏層與可見層之間的關系可以用能量函數表示為

圖1 面向言語障礙者的手語到情感語音轉換系統框架

可見層與隱藏層之間的條件概率計算如下:

其中,是函數,是一種神經元非線性函數。RBM模型的更新權重能夠通過導數概率的對數得到。

在調節過程中,通過逐層訓練的方式得到每層的權值,完成可見層與隱藏層之間的反復三次轉換,分別得到相應的重構目標,并利用縮小原對象同重構對象之間的差異,實現對RBM參數的調節。

微調是把全部的經過初始化后的RBM按訓練的順序串聯起來,組成一個深度置信網絡,通過深度模型的反饋微調可以得到手勢圖像的特征信息。SVM識別過程是把獲得的手勢圖像的特征信息進行分類識別得到手勢種類,其過程如圖2所示。

2.2 人臉表情識別

人臉表情識別過程如圖3所示,包括預處理、特征提取和SVM識別3個階段。預處理階段對原始圖像中可能會影響到特征提取結果的一些不重要的背景信息進行處理。首先對原始的輸入圖像使用具有68個面部地標點的檢測器進行檢測,然后再將圖像調整到地標邊緣,在保留完整表情信息的前提下對圖像進行裁剪,剪裁后刪除圖像的一些沒有特定信息的部分,使神經網絡模型的輸入圖像大小為96×96。在特征提取階段,利用一個22層的DNN模型進行特征提取,從輸入的每張表情圖像中得到128維的特征。在SVM識別階段,將得到的表情特征利用一個訓練好的SVM分類器進行分類識別,從而得到人臉表情對應的情感標簽。

圖2 手勢識別

圖3 人臉表情識別

2.3 情感語音聲學模型訓練

本文以普通話和藏語的聲母和韻母為語音合成的基本單元,利用說話人自適應訓練(Speaker Adaptive Training, SAT)獲得了情感的語音聲學模型,情感語音聲學模型的訓練過程如圖4所示。

圖4 情感語音聲學模型訓練過程

首先,利用一個普通話中性大語料庫(多說話人)和一個藏語中性小語料庫(1個說話人)中的語音和文本分別進行聲學參數提取與文本分析,得到聲學特征對數基頻(Log-fundamental Frequency, logF0)和廣義梅爾倒譜系數(Mel-generalized Cepstral, MGC)以及文本的標注信息(上下文相關標注和單音素標注);然后利用聲學特征和標注信息進行說話人自適應訓練,得到混合語言平均聲學模型。

最后將從多說話人普通話情感語料庫中提取的情感語音聲學特征和相應文本的標注信息,與獲得的平均聲學模型一起通過說話人自適應變換得到目標情感的說話人相關聲學模型,以合成普通話或藏語的情感語音。

本文采用基于半隱馬爾可夫模型(Hidden Semi-Markov Model, HSMM)[19]的說話人自適應訓練算法訓練聲學模型,以減少不同說話人之間的差異對合成語音音質的影響。時長分布與狀態輸出分布的線性回歸方程分別為

本文采用約束最大似然線性回歸(Constrained Maximum Likelihood Linear Regression, CMMLR)[20]訓練得到平均聲學模型,進而獲得上下文相關的多空間分布半隱馬爾科夫模型(Multi-Space Hidden semi-Markov models, MSD-HSMM)。訓練平均聲學模型后,將基于MSD-HSMM的CMMLR自適應算法應用于多說話人普通話情感語料庫,得到用來合成普通話情感語音和藏語情感語音的說話人相關混合語言目標情感聲學模型。狀態下狀態時長和特征向量的變換方程如式(7)、(8)所示:

MAP估計為

2.4 手語到情感語音轉換

為了獲得手勢文本,根據《中國手語》[22]中定義的手勢種類的含義,設計了一個手勢字典,該字典給出了每個手勢對應的語義文本。在手語到情感語音的轉換過程中,首先通過手勢識別獲得手勢類別,然后查找手勢字典,獲得手勢文本,最后對手勢文本進行文本分析,獲得文本的聲韻母信息以及聲韻母的上下文信息,從而能夠利用決策樹選擇出最優的聲韻母的聲學模型。聲韻母的上下文信息以上下文相關標注的形式給出,包括普通話或藏語的聲韻母信息、音節信息、詞信息[23]、韻律詞信息[24]、短語信息和語句信息。同時,采用人臉表情識別獲得情感標簽,利用情感標簽選擇相應情感的語音聲學模型,從而能夠利用文本的上下文相關標注信息合成出普通話或藏語的情感語音。手語到情感語音轉換流程如圖5所示。

圖5 手語到情感語音轉換框圖

3 實驗結果

3.1 手勢識別

3.1.1 手勢數據

在實驗中構造的手勢樣本集合主要來自2位測試人所生成的樣本,每位測試人打30種手勢,每種手勢的樣本個數均為1 000,以此來生成30個深度學習模型。預定義的30種靜態手勢如圖6所示。

圖6 預定義的30種手勢

3.1.2 手勢識別率

為了驗證DBN模型在手勢識別上的有效性,本文從圖6所示的30種手勢庫中隨機挑選了4 000個樣本,分別利用DBN模型和PCA方法進行了5次交叉實驗,每次實驗的訓練集和測試集樣本數分別為3 200和800,并將這五次實驗分別進行編號(集1到集5);最終利用SVM識別得到如表1所示的識別率。從表1中可以看出,在5次交叉驗證中,利用DBN模型進行特征提取的手勢識別率優于PCA方法,表明通過DBN模型提取到的特征能更好地反映出手勢的本質特征。

表1 5次交叉驗證識別率(%)

3.2 人臉表情識別

3.2.1 人臉表情庫數據

本文采用擴充的Cohn-Kanade數據庫(the extended Cohn-Kanade database, CK+)[25]和日本女性面部表情(Japanese Female Facial Expression, JAFFE)數據庫[26]進行人臉表情的訓練和測試。CK+數據庫中每個序列圖像都是以中性表達式開始到情感峰值結束。實驗數據庫中包含8種情感類別的表情圖像,但在實驗中,蔑視和中性表情圖像沒有被使用,并且只選取了一些具有明顯表情特征信息的圖像來作為樣本集使用。將JAFFE數據庫中7種表情中的6種表情進行了實驗,沒有使用中性表情圖像,其中每人的一種表情圖像大小均為256×256。數據庫中圖像的一些例子如圖7所示。

3.2.2 DNN模型

本文采用了nn4.small2的神經網絡模型[27]去提取表情圖像特征,圖8展示了一張裁剪后的圖像經過該模型的第一層卷積后輸出的特征圖,該圖顯示了輸入圖像的第一個卷積層的64個全部濾鏡。網絡模型定義如表2所示。其中包含了8個Inception的模塊。池化層可以有效地縮小矩陣的尺寸,而最大池化表示對鄰域內特征點取最大,平均池化表示對鄰域內特征點只求平均。池項目表示嵌入的最大池化之后的投影層中1×1過濾器的個數,池項目中最大池化用表示,降維后的池化用表示。

圖7 數據庫示例

圖8 卷積層可視化示例

表2 網絡模型定義

3.2.3 表情識別率

在CK+數據庫上進行5次交叉驗證的實驗,得到6種表情相應的識別率。在JAFFE數據庫上進行3次交叉驗證的實驗,得到6種表情相應的識別率。如表3所示。

從表3可以看出,JAFFE的數據庫上的識別率要低于CK+數據庫上的識別率,主要原因是在實驗中JAFFE數據庫的表情圖片數量少于CK+數據庫的表情圖片數量。

表3 不同數據庫上的人臉表情識別率(%)

3.3 情感語音合成

3.3.1 語料

普通話語料庫選用7個女性說話人的中性語料,每個說話人的語料各包含169句,共計1 183句(7×169句)語料。普通話情感語料庫,是本研究設置特定的場景采用激發引導方式錄制的9個女性說話人 11 種情感的普通話情感語音庫,每個說話人的每種情感語料各包含100句,錄音人不是專業演員,實驗中選取了其中的6種情感語料(9人×6種情感×100句)。藏語語料庫是本研究錄制的一個藏語女性說話人的800句語料。所有實驗的語音均采用16 bit量化、16 kHz采樣、單通道的WAV文件格式。采用5狀態的上下文相關的一階MSD-HSMM模型來建立聲學模型。

3.3.2 情感相似度評測

通過情感平均意見得分(Emotional Mean Opinion Score, EMOS),對合成的普通話情感語音以及藏語情感語音分別進行情感相似度評測。給10名普通話評測者播放100句原始普通話情感語音作為參考,然后按照情感順序依次播放6種情感的普通話情感語音。同時給10名藏語評測者播放100句合成的中性藏語語音,作為中性參考語音,之后按照6種情感順序播放藏語情感語音。在評測打分過程中是按照播放語音的先后順序來進行的,要求評測者參照現實生活中的情感表達經驗,給每句合成出的語音,按5分制進行情感相似度打分,結果如圖9所示。

圖9 合成普通話和藏語的情感語音EMOS得分

從圖9中可以看出,利用普通話情感語料訓練的情感聲學模型合成出的藏語情感語音的EMOS評分,要低于合成出的普通話情感語音的EMOS評分。

3.3.3 客觀評測

由于只有普通話情感語料庫,所以僅對合成的普通話情感語音進行了客觀評測。本文計算了原始語音與合成語音在時長、基頻及譜質心上的均方根誤差(Root Mean Square Error, RMSE),結果如表4所示。從表4可以看出,時長、基頻及譜質心的均方根誤差值較小,說明合成的普通話情感語音與原始的普通話情感語音比較接近,合成的情感語音音質較好。

表4 普通話合成情感語音與原始情感語音在時長、基頻及譜質心 上的均方根誤差

3.4 表情圖片與情感語音的PAD評測

為了進一步評測合成語音對原始人臉表情的情感表達程度,本文采用PAD三維情緒模型,對比了表情圖片的PAD值與合成語音的PAD值的差異。本文采用簡化版本的PAD情感量化表[28],對人臉表情圖片及其對應的情感語音在PAD的3個情緒維度上進行評分。首先隨機播放所有人臉表情圖片,評測者根據觀測到圖片時感受到的心理情緒狀態,完成PAD情緒量表。然后隨機播放合成的情感語音,同樣要求評測者根據聽情感語音時感受到的心理情緒狀態,完成PAD情緒量表。由于藏語評測人不足,所以本文只對合成的普通話情感語音進行了PAD評測。最后,計算出在同一種情感狀態下表情圖片的PAD值與情感語音的PAD值的歐氏距離。評測結果如表5所示。從表5可以看出,表情圖片和情感語音的PAD值在同一情感狀態下的歐氏距離較小,表明合成的情感語音能夠較為準確地再現人臉表情的情感狀態。

表5 PAD的評測結果

4 結 論

本文提出了一種融合人臉表情的手語到漢藏雙語情感語音轉換的實現方法。首先,將手勢庫中的手勢圖像通過DBN模型進行特征提取,同時對人臉表情數據庫(CK+和JAFFE)中的表情圖像利用DNN模型進行特征提取,把獲得的手勢特征與表情特征進行SVM識別,并分別轉換為手勢文本的上下文相關標注及相應的情感標簽。再利用情感語料庫以及中性語料庫(普通話中性大語料庫和藏語中性小語料庫),訓練了一個基于HMM的普通話/藏語的情感語音合成器。最后,根據識別獲得的情感標簽選擇的情感語音聲學模型和手勢文本的上下文相關標注進行情感語音合成,從而實現手勢到情感語音的轉換。實驗結果表明,轉換獲得的漢藏雙語情感語音的平均EMOS得分為4.0分;同時,利用PAD三維情緒模型對表情圖片以及合成出的情感語音進行PAD評定后發現,表情圖片與合成出的情感語音在PAD值上的歐式距離較小,表明合成的情感語音能夠表達人臉表情的情感狀態。進一步的工作將結合深度學習優化手勢識別、人臉表情識別及漢藏雙語情感語音合成的算法結構,提高識別率和合成情感語音的音質。

[1] KALSH E A, GAREWAL N S. Sign language recognition system[J]. International Journal of Computational Engineering Research, 2013, 3(6): 15-21.

[2] ASSALEH K, SHANABLEH T, ZOUROB M. Low complexity classification system for glove-based arabic sign language recognition[C]//Neural Information Processing. Springer Berlin/Heidelberg, 2012: 262-268.

[3] GODOY V, BRITTO A S, KOERICH A, et al. An HMM-based gesture recognition method trained on few samples[C]// 2014 IEEE 26th International Conference on Tools with Artificial Intelligence (ICTAI). IEEE, 2014: 640-646.

[4] YANG Z Q, SUN G. Gesture recognition based on quantum-behaved particle swarm optimization of back propagation neural network[J]. Computer application, 2014, 34(S1): 137-140.

[5] GHOSH D K, ARI S. Static Hand Gesture Recognition using Mixture of Features and SVM Classifier[C]// 2015 Fifth International Conference on Communication Systems and Network Technologies (CSNT). IEEE, 2015: 1094-1099.

[6] OYEDOTUN O K, KHASHMAN A. Deep learning in vision-based static hand gesture recognition[J]. Neural Computing and Applications, 2017, 28(12): 3941-3951.

[7] HSIEH C C, HSIH M H, JIANG M K, et al. Effective semantic features for facial expressions recognition using svm[J]. Multimedia Tools and Applications, 2016, 75(11): 6663-6682.

[8] PRABHAKAR S, SHARMA J, GUPTA S. Facial Expression Recognition in Video using Adaboost and SVM[J]. Polish Journal of Natural Sciences, 2014, 3613(1): 672-675.

[9] ABDULRAHMAN M, GWADABE T R, ABDU F J, et al. Gabor wavelet transform based facial expression recognition using PCA and LBP[C]//Signal Processing and Communications Applications Conference (SIU), 2014 22nd. IEEE, 2014: 2265-2268.

[10] ZHAO X, SHI X, ZHANG S. Facial expression recognition via deep learning[J]. IETE Technical Review, 2015, 32(5): 347-355.

[11] BARRA-CHICOTE R, YAMAGISHI J, KING S, et al. Analysis of statistical parametric and unit selection speech synthesis systems applied to emotional speech[J]. Speech Communication, 2010, 52(5): 394-404.

[12] WU P, YANG H, GAN Z. Towards realizing mandarin-tibetan bi-lingual emotional speech synthesis with mandarin emotional training corpus[C]//International Conference of Pioneering Computer Scientists, Engineers and Educators. Springer, Singapore, 2017: 126-137.

[13] CARIDAKIS G, CASTELLANO G, KESSOUS L, et al. Multimodal emotion recognition from expressive faces, body gestures and speech[C]// IFIP International Conference on Artificial Intelligence Applications and Innovations. Springer, Boston, MA, 2007: 375-388

[14] BURGER B, FERRANé I, LERASLE F, et al. Two-handed gesture recognition and fusion with speech to command a robot[J]. Autonomous Robots, 2012, 32(2): 129-147.

[15] SINYUKOV D A, LI R, OTERO N W, et al. Augmenting a voice and facial expression control of a robotic wheelchair with assistive navigation[C]// 2014 IEEE International Conference on Systems, Man and Cybernetics (SMC). IEEE, 2014: 1088-1094.

[16] YANG H, AN X, PEI D, et al. Towards realizing gesture-to-speech conversion with a HMM-based bilingual speech synthesis system[C]// 2014 IEEE International Conference on Orange Technologies (ICOT). IEEE, 2014: 97-100.

[17] AN X, YANG H, GAN Z. Towards realizing sign language-to-speech conversion by combining deep learning and statistical parametric speech synthesis[C]// International Conference of Young Computer Scientists, Engineers and Educators. Springer Singapore, 2016:678-690.

[18] FENG F, LI R, WANG X. Deep correspondence restricted Boltzmann machine for cross-modal retrieval[J]. Neurocomputing, 2015, 154: 50-60.

[19] ZEN H, TOKUDA K, BLACK A W. Statistical parametric speech synthesis[J]. Speech Communication, 2009, 51(11): 1039-1064.

[20] YAMAGISHI J, KOBAYASHI T, NAKANO Y, et al. Analysis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adaptation algorithm[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17(1): 66-83.

[21] SIOHAN O, MYRVOLL T A, LEE C H. Structural maximum a posteriori linear regression for fast HMM adaptation[J]. Computer Speech & Language, 2002, 16(1): 5-24.

[22] 中國聾人協會. 中國手語[M]. 北京:華夏出版社, 2003.

China Association of the Deaf and Hard of Hearing. Chinese Sign Language[M]. Beijing: Huaxia Publishing House, 2003.

[23] YANG H, OURA K, WANG H, et al. Using speaker adaptive training to realize Mandarin-Tibetan cross-lingual speech synthesis[J]. Multimedia Tools & Applications, 2015, 74(22): 9927-9942.

[24] 楊鴻武, 朱玲. 基于句法特征的漢語韻律邊界預測[J].西北師范大學學報(自然科學版), 2013, 49(1): 41-45.

YANG Hongwu, ZHU Ling. Predicting Chinese prosodic boundary based on syntactic features[J]. Journal of Northwest Normal University (Natural Science Edition), 2013, 49(1): 41-45.

[25] LUCEY P, COHN J F, KANADE T, et al. The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression[C]// Computer Vision and Pattern Recognition Workshops. IEEE, 2010:94-101.

[26] LYONS M, AKAMATSU S, KAMACHI M, et al. Coding facial expressions with gabor wavelets[C]// Third IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 1998: 200-205.

[27] AMOS B, LUDWICZUK B, SATYANARAYANAN M. OpenFace: A general-purpose face recognition library with mobile applications[R]. Technical report, CMU-CS-16-118, CMU School of Computer Science, 2016.

[28] LI X M, FU X L, DENG G F. Preliminary application of the abbreviated PAD emotion scale to Chinese undergraduates[J]. Chinese Mental Health Journal, 2008, 22(5): 327-329.

Gesture-to-emotional speech conversion based on gesture recognigion and facial expression recognition

SONG Nan, WU Pei-wen, YANG Hong-wu

(College of Physics and Electronic Engineering, Northwest Normal University, Lanzhou 730070, Gansu, China)

This paper proposes a face expression integrated gesture-to-emotional speech conversion method to solve the communication problems between healthy people and speech disorders. Firstly, the feature information of gesture image are obtained by using the model of the deep belief network (DBN) and the features of facial expression are extracted by a deep neural network (DNN) model. Secondly, a set of support vector machines (SVM) are trained to classify the gesture and facial expression for recognizing the text of gestures and emotional tags of facial expression. At the same time, a hidden Markov model-based Mandarin-Tibetan bilingual emotional speech synthesis is trained by speaker adaptive training with a Mandarin emotional speech corpus. Finally, the Mandarin or Tibetan emotional speech is synthesized from the recognized text of gestures and emotional tags. The objective tests show that the recognition rate for static gestures is 92.8%. The recognition rate of facial expression achieves 94.6% on the extended Cohn-Kanade database (CK+) and 80.3% on the JAFFE database respectively. Subjective evaluation demonstrates that synthesized emotional speech can get 4.0 of the emotional mean opinion score. The pleasure-arousal-dominance (PAD) tree dimensional emotion model is employed to evaluate the PAD values for both facial expression and synthesized emotional speech. Results show that the PAD values of facial expression are close to the PAD values of synthesized emotional speech. This means that the synthesized emotional speech can express the emotion of facial expression.

gesture recognition;facial expression recognition; deep neural network; Mandarin-Tibetan bilingual emotional speech synthesis; gesture to speech conversion

TP391

A

1000-3630(2018)-04-0372-08

10.16300/j.cnki.1000-3630.2018.04.014

2017-10-09;

2017-12-17

國家自然科學基金(11664036、61263036、61262055)、甘肅省高等學??萍紕撔聢F隊項目(2017C-03)資助。

宋南(1990-), 男, 河北遷安人, 碩士研究生, 研究方向為信號與信息處理。

楊鴻武,E-mail: yanghw@nwnu.edu.cn

猜你喜歡
情感模型
一半模型
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
如何在情感中自我成長,保持獨立
3D打印中的模型分割與打包
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
主站蜘蛛池模板: 久久香蕉国产线看精品| 亚洲欧美在线看片AI| 亚洲国产日韩一区| 久综合日韩| 色综合五月| 呦视频在线一区二区三区| 99热这里只有精品免费| 国产高清在线观看| 精品久久久久久成人AV| 动漫精品啪啪一区二区三区| 色AV色 综合网站| 国产精品天干天干在线观看| 人妻丰满熟妇av五码区| 国内精品免费| 久久91精品牛牛| 亚洲美女视频一区| 99精品视频在线观看免费播放| 日韩毛片免费| 欧美在线三级| 欧美午夜视频在线| 国产福利一区二区在线观看| 亚洲中字无码AV电影在线观看| 亚洲AⅤ无码日韩AV无码网站| 亚洲 日韩 激情 无码 中出| 18禁不卡免费网站| 国产精品私拍在线爆乳| 国产毛片片精品天天看视频| 欧美成a人片在线观看| 成人福利在线视频免费观看| 国产欧美精品午夜在线播放| 久久这里只有精品8| 久久99久久无码毛片一区二区| 精品国产自在现线看久久| 免费不卡在线观看av| 国产视频入口| 亚洲中文字幕97久久精品少妇| 欧美日韩国产精品综合| 国产无码高清视频不卡| 国产成人精品一区二区三区| 成人一区在线| 国产精品久久久久久久久kt| 亚洲福利视频一区二区| 四虎成人在线视频| 无码电影在线观看| 国产亚洲精品自在久久不卡| 国产小视频免费| 91色爱欧美精品www| 91福利一区二区三区| 免费日韩在线视频| 亚洲制服丝袜第一页| 欧美激情视频一区二区三区免费| 久久久波多野结衣av一区二区| 精品视频一区在线观看| 日韩中文无码av超清| 婷婷色中文| 99精品高清在线播放| 亚洲黄色视频在线观看一区| 国产手机在线ΑⅤ片无码观看| 日本午夜在线视频| 亚洲综合在线网| 国产91丝袜在线播放动漫 | 亚洲AⅤ无码日韩AV无码网站| 欧美人在线一区二区三区| 91亚瑟视频| 自拍偷拍欧美日韩| 亚洲人成影院午夜网站| 午夜三级在线| 妇女自拍偷自拍亚洲精品| 色播五月婷婷| 国产精品欧美激情| 国产粉嫩粉嫩的18在线播放91| 欲色天天综合网| 亚洲精品在线91| 很黄的网站在线观看| 欧美a在线看| 青青草原偷拍视频| 亚洲69视频| 国内精品视频| 亚洲精品爱草草视频在线| 91免费在线看| 亚洲va欧美ⅴa国产va影院| 亚洲无线视频|