999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隱式情緒導(dǎo)向的語音驅(qū)動(dòng)仿生機(jī)器人說話方法

2025-09-02 00:00:00徐康袁野付軍秀傅柯婷任欽澤劉娜

關(guān)鍵詞:仿生機(jī)器人;音頻驅(qū)動(dòng);情緒導(dǎo)向;卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)08-007-2297-07

doi:10.19734/j.issn.1001-3695.2025.01.0011

Implicit emotion-oriented approach to speech-driven bionic robot facial expressions

XuKang,Yuan Ye,F(xiàn)u Junxiu,F(xiàn)uKeting,RenQinze,Liu Na? (InstituteofMachineInteligence,UniversityofShanghaiforScienceamp;Technology,Shanghai2Ooo93,China)

Abstract:Thisstudyproposedaninovativeimplicitemotion-orientedspeech-drivenmethodforgeneratingfacialexpressions andhead movements inbionicrobots.Traditional methodsrelyonpre-programmedrandomactionsequences,whichare insufficient for precise emotional expresion.Basedondeep leaing,thisstudyintroducedneck servocontrolcoeffcients inadition to facial expresions,achieving precise mappng fromaudiosignals tonatural expressions.Furthermore,thisstudydesignedanimplicitemotion-oriented featurefusionautoencoderframework thatcouldinferemotionalfeaturesimplicitlyfromaudio withoutrequiring explicit emotionparameters.Itenabledthegenerationof richfacialexpresions andneck movements that matchedtheaudiocontentandemotionalnuances.Experiments demonstrate thatthe proposed methodsignificantlyoutperforms existingtechnologies onmultiple datasets.Aditionall,through lightweight design,the proposedmethodeficientlyadapts to mobile devices with limited resources.

Key Words:biomimeticrobots;speech-driven;emotion-oriented;convolutional long short-term memory network

0 引言

隨著人工智能技術(shù)的不斷進(jìn)步,仿生機(jī)器人在模擬人類行為和表情方面的能力日益增強(qiáng),為多個(gè)領(lǐng)域帶來了革命性的應(yīng)用前景,尤其是在主動(dòng)健康、社交互動(dòng)、教育娛樂等方面。主動(dòng)健康強(qiáng)調(diào)通過個(gè)體的主動(dòng)參與和健康管理,提升整體健康水平[1],特別是在幫助聽力殘疾人、老年人和自閉癥譜系障礙(ASD)兒童[2]等弱勢(shì)群體方面具有重要意義。盡管運(yùn)動(dòng)科學(xué)是主動(dòng)健康的重要組成部分,但面對(duì)主動(dòng)健康醫(yī)學(xué)的要求和未來科技發(fā)展的趨勢(shì),運(yùn)動(dòng)科學(xué)亟需基于復(fù)雜系統(tǒng)、大數(shù)據(jù)和人工智能技術(shù)進(jìn)行基礎(chǔ)理論創(chuàng)新[1,3]。研究表明,利用機(jī)器人幫助ASD兒童發(fā)展社交和情感技能,以克服社交障礙,已被證明具有積極作用[4]。語音驅(qū)動(dòng)的仿生機(jī)器人面部表情和頭部姿態(tài)生成技術(shù),作為實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵,正逐漸成為研究的熱點(diǎn)。

仿生機(jī)器人的面部表情與頭部動(dòng)作不僅是進(jìn)行情感交流的重要媒介,也是理解人類意圖的重要線索。研究顯示,在人類交流過程中,有超過 60% 的信息通過非言語行為傳遞,其中面部表情和頭部動(dòng)作占據(jù)了重要比重[5]。因此,使機(jī)器人表達(dá)出準(zhǔn)確的自然表情,對(duì)于提升人機(jī)交互的親和力至關(guān)重要[6~8] C

以往的研究多側(cè)重于利用人臉關(guān)鍵點(diǎn)檢測(cè)技術(shù),賦予表情機(jī)器人模擬人類面部表情及頭部動(dòng)作的能力[9]。同時(shí),也有研究通過音頻來驅(qū)動(dòng)面部表情,該技術(shù)主要應(yīng)用于動(dòng)畫領(lǐng)域[10]。盡管在音頻驅(qū)動(dòng)的面部表情生成技術(shù)上已有所突破,但在提高表情生成的準(zhǔn)確性、自然性和實(shí)時(shí)性方面,尤其是在考慮到伺服系統(tǒng)的限制和硬件條件時(shí),仍然存在重大挑戰(zhàn)[11]。本文旨在探討如何將音頻信號(hào)轉(zhuǎn)換為面部表情與頭部動(dòng)作,通過深人分析語音特征及面部表情變化構(gòu)建高效模型,利用音頻輸人來精準(zhǔn)控制仿生機(jī)器人頭部的舵機(jī)運(yùn)動(dòng),合成自然的面部表情。

本文的主要貢獻(xiàn)包括:a)提出了一種基于深度學(xué)習(xí)的機(jī)器人舵機(jī)驅(qū)動(dòng)新方法,從語音特征中預(yù)測(cè)包含頸部舵機(jī)的運(yùn)動(dòng)控制系數(shù),實(shí)現(xiàn)從音頻信號(hào)到機(jī)器人表情的精確控制;b)設(shè)計(jì)了一種隱式情緒導(dǎo)向特征融合自編碼器框架,無須將情緒參數(shù)作為顯式輸入,從而合成具有豐富情緒特征的面部表情和頸部運(yùn)動(dòng);c構(gòu)建了一系列與舵機(jī)對(duì)應(yīng)的機(jī)器人頭部運(yùn)動(dòng)模板,通過伺服技術(shù)實(shí)現(xiàn)仿生機(jī)器人的表情與頭部姿態(tài)的重建。

1相關(guān)工作

1.1最優(yōu)伺服位移映射

當(dāng)前在虛擬場(chǎng)景下的說話人臉生成技術(shù)主要圍繞兩種核心方法展開:a)通過將語音信號(hào)直接映射到人臉網(wǎng)格的頂點(diǎn)坐標(biāo)[12,13],實(shí)現(xiàn)面部表情的生成;b)側(cè)重于預(yù)測(cè)與面部網(wǎng)格相關(guān)的系數(shù),以較少的參數(shù)高效捕捉面部的關(guān)鍵變形[14,15]。

Blendshape[16]面部模型作為一種流行的線性模型,使用52個(gè)參數(shù)表示人臉表情的關(guān)鍵變形,被廣泛用于模擬各種3D面部結(jié)構(gòu)。Blendshape系數(shù)通常與特定模板網(wǎng)格無關(guān),這意味著它們可以在不同面部模型上復(fù)用,以展現(xiàn)一致的面部表情。模板網(wǎng)格代表一種標(biāo)準(zhǔn)的中性表情狀態(tài),而Blendshape系數(shù)通過控制少量參數(shù)來精確驅(qū)動(dòng)面部動(dòng)作,如下巴的張開或眼睛的閉合等。

在實(shí)體表情機(jī)器人的控制領(lǐng)域,傳統(tǒng)方法主要依賴于一組固定的預(yù)編程動(dòng)作[17,18],例如,文獻(xiàn)[19]呈現(xiàn)了一張以眼睛和嘴巴為特征的數(shù)字臉,以表達(dá)不同的情緒。Cohen等人[20]創(chuàng)造并驗(yàn)證了動(dòng)態(tài)身體姿勢(shì)來表達(dá)恐懼、快樂、憤怒、悲傷和驚訝的表情。近期的一項(xiàng)研究[9通過面部關(guān)鍵點(diǎn)映射到舵機(jī)的伺服位移來精確地驅(qū)動(dòng)面部的運(yùn)動(dòng),表現(xiàn)出比傳統(tǒng)方法更加豐富的面部表情和動(dòng)作細(xì)節(jié)。

本文提出一種將音頻信號(hào)情感特征與運(yùn)動(dòng)特征映射至機(jī)器人的舵機(jī)控制參數(shù)的驅(qū)動(dòng)方法。本文創(chuàng)新性地關(guān)注到了頸部運(yùn)動(dòng)的控制系數(shù),實(shí)現(xiàn)音頻控制機(jī)器人的面部表情與頸部運(yùn)動(dòng)。通過計(jì)算每個(gè)舵機(jī)之間的伺服位移誤差,將舵機(jī)與控制系數(shù)之間的映射關(guān)系轉(zhuǎn)換為一個(gè)優(yōu)化問題,并與專業(yè)的動(dòng)畫師合作,將控制系數(shù)直接映射為舵機(jī)的伺服位移。這種通過專家優(yōu)化得到的伺服驅(qū)動(dòng)方法,類似于人類肌肉的控制機(jī)制,能夠有效地復(fù)現(xiàn)面部細(xì)節(jié)的微妙變化,為實(shí)體表情機(jī)器人的面部表情生成提供了一種可行的技術(shù)路徑。

1.2 音頻驅(qū)動(dòng)面部表情與頭部姿態(tài)

在語音驅(qū)動(dòng)的面部表情研究領(lǐng)域,早期的研究者們采用了隱馬爾可夫模型(hiddenMarkovmodel,HMM)并取得了一定的成果[21,22]。盡管這些方法能夠從音頻信號(hào)中提取出具有一定效果的面部表情,但它們?cè)诓蹲秸Z音與嘴唇運(yùn)動(dòng)之間的復(fù)雜關(guān)系方面存在局限性。此外,這些方法在編輯生成的面部動(dòng)畫時(shí),往往需要大量的人工干預(yù)。

近年來,深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)在語音合成[23,24]和面部動(dòng)畫[25~27]等領(lǐng)域取得了顯著的進(jìn)展。Taylor等人[28]提出了一種基于DNN的系統(tǒng)。該系統(tǒng)能夠從輸入音素中估計(jì)主動(dòng)外觀模型(activeappearancemodel,AAM)系數(shù),并且能夠適應(yīng)不同的語音和語言環(huán)境,從而驅(qū)動(dòng)3D面部模型。Suwajanakorn等人[29]利用長(zhǎng)短期記憶(longshort-termmemory,LSTM)遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork,RNN)從聲學(xué)特征中預(yù)測(cè)2D嘴唇標(biāo)志,進(jìn)而用于合成嘴唇運(yùn)動(dòng)。Fan等人[26]結(jié)合聲學(xué)和文本特征來估計(jì)嘴部區(qū)域的AAM系數(shù),并將這些系數(shù)應(yīng)用到實(shí)際圖像上,以生成逼真的說話頭。Karras等人[30]提出了一種深度卷積神經(jīng)網(wǎng)絡(luò)(deepconvolu-tionalneuralnetwork,CNN),能夠結(jié)合音頻自相關(guān)系數(shù)和情緒狀態(tài)輸出完整的3D臉型。Chung等人[31]直接從語音中使用深度網(wǎng)絡(luò)生成說話臉。Vougioukas等人[32]進(jìn)一步利用生成對(duì)抗網(wǎng)絡(luò)(generativeadversarialnetwork,GAN)提高了說話頭生成的質(zhì)量。

在這些合成的說話人臉視頻中,頭部姿勢(shì)通常是固定的。然而,本文中引人了三維幾何信息,使得模型能夠同時(shí)生成個(gè)性化的頭部姿勢(shì)、表情和嘴唇動(dòng)作。本文方法基于音頻信號(hào),隱含地推斷情緒表征,無須將情緒作為顯式輸人參數(shù),也無須在后期處理中添加情緒元素,從而合成具有豐富情緒特征的面部表情。此外,該方法還保留了3D模型在音頻重建三維人臉過程中的可編輯特征,可以更靈活地調(diào)整不同場(chǎng)景下面部表情動(dòng)作的強(qiáng)度。

2方法

本文使用一款自主研發(fā)的25自由度表情機(jī)器人,用于演示面部表情和頭部運(yùn)動(dòng)。圖1展示了本文方法的流程概述。音頻數(shù)據(jù)被輸人至 speech2head(speech to facial expressionsandheadmotion)深度學(xué)習(xí)模型,該模型能夠輸出3D面部單元控制系數(shù)。這些運(yùn)動(dòng)控制系數(shù)不僅能夠控制基于Blendshape綁定數(shù)字人的面部表情,還能夠通過預(yù)先設(shè)定的映射策略轉(zhuǎn)換為仿生機(jī)器人的舵機(jī)控制指令。

圖1speech2head 流程概述

Fig.1speech2head model flow overview

2.1仿生機(jī)器人頭部平臺(tái)

1)機(jī)器人頭部平臺(tái)硬件

機(jī)器人頭部平臺(tái)憑借其柔軟的皮膚、微處理器、先進(jìn)的伺服控制系統(tǒng)和精密的機(jī)械結(jié)構(gòu),可以還原人類面部肌肉動(dòng)作和頸部姿勢(shì),顯示各種面部表情和頭部動(dòng)作。語音驅(qū)動(dòng)仿生機(jī)器人工作流程概覽如圖2所示。

圖2語音驅(qū)動(dòng)仿生機(jī)器人工作流程Fig.2Audio drives the bionic robot workflow

機(jī)器人頭部平臺(tái)由頭部框架、內(nèi)部模塊和頸部模塊組成。頭部框架是根據(jù)真實(shí)人臉3D打印而成,外部緊密貼合軟質(zhì)皮膚,以賦予其類似人類的外表。頭部?jī)?nèi)部的空腔用于放置機(jī)械控制結(jié)構(gòu)。機(jī)械控制結(jié)構(gòu)采用連桿結(jié)構(gòu)與半球結(jié)構(gòu)設(shè)計(jì)。一對(duì)半球機(jī)制用于控制眼瞼的開合,上下眼瞼相互遠(yuǎn)離的角度為50°~80° 。眉毛的上下運(yùn)動(dòng)、面頰的凹陷和凸起都是通過連桿結(jié)構(gòu)來實(shí)現(xiàn)的,這些動(dòng)作的最大位移均達(dá)到了 5mm 。在頸部模塊的設(shè)計(jì)上,采用了三個(gè)高性能伺服舵機(jī),通過它們的協(xié)調(diào)工作,實(shí)現(xiàn)頸部三個(gè)自由度旋轉(zhuǎn),這種設(shè)計(jì)使得機(jī)器人頭部平臺(tái)能夠精確地還原人類的面部表情和頭部動(dòng)作,為進(jìn)一步的人機(jī)交互和機(jī)器人應(yīng)用提供了技術(shù)基礎(chǔ)。

2)機(jī)器人頭部平臺(tái)的控制

機(jī)器人頭部部署的STM32微處理器通過串口與服務(wù)端通信,微處理器從服務(wù)端獲取標(biāo)準(zhǔn)化的最優(yōu)伺服位移數(shù)據(jù)。由于舵機(jī)的旋轉(zhuǎn)角度是由高電平脈沖寬度決定的,微處理器會(huì)將標(biāo)準(zhǔn)化位移數(shù)據(jù)的值對(duì)應(yīng)到高電平脈沖寬度以驅(qū)動(dòng)舵機(jī),從而實(shí)現(xiàn)從標(biāo)準(zhǔn)化位移數(shù)據(jù)到伺服位移的映射關(guān)系。機(jī)器人頭部平臺(tái)配備了25個(gè)高性能舵機(jī),每個(gè)舵機(jī)都有特定的功能和自由度(DOF),支持包括控制嘴巴、面頰、眼瞼、眉毛以及頸部在內(nèi)的自由旋轉(zhuǎn)。此外,左右眼瞼、眉毛和面頰可以單獨(dú)控制。

2.2 特征提取

在音頻處理任務(wù)中,Mel-frequency cepstral coefficients(MFCC)[33]是一種廣泛使用的特征表示方法,夠有效捕捉音頻信號(hào)中的關(guān)鍵信息。給定一個(gè)音頻信號(hào) x(t) ,首先通過預(yù)加重、分幀和加窗將其分割為一系列幀 {xn}n=1T ,其中 T 表示時(shí)間步長(zhǎng),對(duì) xn 提取MFCC特征向量 Fn∈RD ,其中 D 為特征維度,在本文研究中設(shè)定為39維。

為了捕捉語音信號(hào)的動(dòng)態(tài)特性,MFCC的差分特征(Delta)和二階差分特征(Delta-Delta)被廣泛使用。差分特征描述了特征向量在時(shí)間上的變化,能夠反映語音信號(hào)的動(dòng)態(tài)變化。差分參數(shù)的計(jì)算公式如下:

其中: dt 表示第 χt 個(gè)一階差分; Cι 表示第 χt 個(gè)倒譜系數(shù); Q 表示倒譜系數(shù)的階數(shù); K 表示一階導(dǎo)數(shù)的時(shí)間差。將一階差分的結(jié)果再代入就可以得到二階差分的參數(shù)。

2.3 模型方法

speech2head模型框架如圖3所示,其中特征融合模塊包含以下子網(wǎng)絡(luò):內(nèi)容編碼器和情緒編碼器。特征融合模塊的整體組成部分如式(2)所示。

Ffusion=fconcat(Econ,Eemo

其中: Econ 表示內(nèi)容編碼器的輸出; Eemo 表示情緒編碼器的輸出 σ:fconcat 是一個(gè)融合函數(shù),用于將兩個(gè)編碼器的輸出拼接并統(tǒng)一表示為 Ffusion 張量。

將預(yù)處理后的整個(gè)音頻信號(hào)特征表示為一個(gè)特征矩陣(204號(hào) Fn∈RN×D 。把每幀特征 xt∈RD 經(jīng)過多次卷積處理后,按時(shí)間順序堆疊,其表達(dá)式如下:

zt(i)=ReLU(xt*W(i)+b(i)

Z=[z1,z2,…,zT]∈RT×D′

其中 zt(i) 是第 χt 幀經(jīng)過第 i 次卷積后的特征; W(i) 是第 i 次卷積權(quán)重; b(i) 是偏置項(xiàng),最后一次卷積得到的特征表示為 Zt∈ R”。

將卷積后的特征圖 z 按時(shí)間步長(zhǎng)展開為 Xseq∈RT×D 輸人到mLSTM模塊,計(jì)算最后一時(shí)刻的隱狀態(tài)作為本模塊的最終輸出 Econ ,隱狀態(tài)更新公式如下:

nt=ftnt-1+itkt

其中 :xt 是時(shí)間步長(zhǎng) χt 的輸入向量; W? 是權(quán)重矩陣; w 是權(quán)重向量: σ 是激活函數(shù)ReLU; max 函數(shù)使得分母不為零。

音頻信號(hào)提取的特征同步輸?shù)竭M(jìn)情感編碼模塊,該模塊由四層mLSTM組成,輸出的最后一時(shí)刻的隱狀態(tài) hT∈RD′ 作為線性層的輸入,從而得到情緒編碼的最終輸出向量Eemo。

在特征融合階段,情緒特征向量和內(nèi)容特征向量被拼接為融合特征,經(jīng)過多層卷積和池化操作之后,應(yīng)用批量歸一化(BN),在BN之后使用線性矯正(ReLU)激活函數(shù),這一過程允許模型同時(shí)考慮音頻信號(hào)的情感和內(nèi)容信息,從而在面部表情合成中實(shí)現(xiàn)更自然、更真實(shí)的效果。最終,融合后的特征向量被用于驅(qū)動(dòng)面部表情重建網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠根據(jù)音頻特征生成相應(yīng)的運(yùn)動(dòng)控制系數(shù),實(shí)現(xiàn)從音頻到視覺表情的轉(zhuǎn)換。

圖3speech2head 模型框架 Fig.3speech2head model framework

2.4 損失函數(shù)

在構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的過程中,為了優(yōu)化面部表情的動(dòng)態(tài)生成,使用了一個(gè)綜合性的損失函數(shù),該函數(shù)融合了自重建損失與速度損失兩個(gè)關(guān)鍵維度。自重建損失的引入,旨在確保網(wǎng)絡(luò)輸出能夠高保真地映射到實(shí)際的面部表情控制系數(shù)。鑒于單獨(dú)依賴自重建損失可能導(dǎo)致生成的輸出幀出現(xiàn)不穩(wěn)定性,即視覺上的抖動(dòng)現(xiàn)象,通過引人了速度損失來抑制異常的幀間跳躍,同時(shí)促進(jìn)模型學(xué)習(xí)到更加自然和逼真的表情變化模式。整體損失函數(shù)的表達(dá)式如下:

L=λ1Lself2Lvelocity

其中: Lself 和 Lvelocity 分別代表自重建損失、速度損失; λ1 和 λ2 是對(duì)應(yīng)的權(quán)重系數(shù),用于平衡不同損失的重要性; bt 表示在時(shí)間幀 Φt 的真實(shí)值和預(yù)測(cè)值。

2.5硬件平臺(tái)舵機(jī)控制參數(shù)映射策略

為了實(shí)現(xiàn)硬件平臺(tái)的舵機(jī)控制,本文中與專業(yè)動(dòng)畫師合作創(chuàng)建了25個(gè)語義上有意義的機(jī)器人頭部運(yùn)動(dòng)模板,圖4展示了機(jī)器人單個(gè)舵機(jī)的面部表情運(yùn)動(dòng)模板。通過這些模板的組合使用能夠獲得與Blendshape相對(duì)應(yīng)的面部舵機(jī)控制參數(shù)。

圖4機(jī)器人面部表情運(yùn)動(dòng)模板Fig.4Robot facial expression movement template

具體來說,每個(gè)舵機(jī)的伺服位移由Blendshape系數(shù)線性組合產(chǎn)生,通過對(duì)每個(gè)舵機(jī)在最小化面部表情控制系數(shù)組合與機(jī)器人舵機(jī)之間的差異,并由專業(yè)動(dòng)畫師對(duì)有意義的機(jī)器人頭部模板在硬件限制下設(shè)定幅值或是微調(diào)系數(shù)。可以將表情機(jī)器人最優(yōu)伺服位移映射問題的公式表示為

s.t.wij?0?i,?j

sjmin?sj?sjmax?j

其中: s1,s2,…,s25 表示25個(gè)舵機(jī)的運(yùn)動(dòng)狀態(tài);面部表情控制系數(shù)表示為 x1,x2,…,x52 ;第 i 個(gè)面部表情控制系數(shù)對(duì)第 j 個(gè)舵機(jī)伺服位移的貢獻(xiàn)權(quán)重表示為 wij W 是一個(gè)權(quán)重矩陣,包含了所有 wij 權(quán)重。

3實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文采用RAVDESS[33]和 HDTF[34] 兩個(gè)被廣泛使用的開源二維視聽數(shù)據(jù)集。

a)RAVDESS(Ryerson audio-visual database of emotionalspeechandsong)是一個(gè)多模態(tài)情感識(shí)別數(shù)據(jù)集,由24名演員(12名男性和12名女性)的1440個(gè)短視頻片段組成,數(shù)據(jù)集使用高質(zhì)量的音頻和視頻錄音捕獲,演員們被指示表達(dá)特定的情緒,包括中性、平靜、快樂、悲傷、憤怒、恐懼、厭惡和驚訝。

b)HDTF(highdefinitiontalkingface)數(shù)據(jù)集是一個(gè)專注于高分辨率音頻視覺數(shù)據(jù)集驅(qū)動(dòng)的單人臉談話項(xiàng)目。該數(shù)據(jù)集包含了從YouTube收集的大約 16h 的 720P~1080P 視頻,涵蓋了300多個(gè)主題和10000個(gè)不同的句子。

原始的二維視聽數(shù)據(jù)集中不包含人臉面部的三維信息,通過對(duì)2D人臉逐幀計(jì)算面部關(guān)鍵點(diǎn)坐標(biāo)所對(duì)應(yīng)的Blendshape,能夠從2D圖像中重建可信的3D面部。Peng等人[15]曾經(jīng)做過相關(guān)工作并提出了一個(gè)大型3D情感說話臉(3D-ETF)數(shù)據(jù)集,然而過往的研究?jī)H關(guān)注到人臉面部表情,缺少了頸部運(yùn)動(dòng)的控制系數(shù)。為了補(bǔ)充頸部的動(dòng)作,采用與文獻(xiàn)[15]相似的方法,通過2D人臉的關(guān)鍵點(diǎn)坐標(biāo)獲取Blendshape系數(shù)以及頭部俯仰角,將運(yùn)動(dòng)控制系數(shù)遷移到仿生機(jī)器人。如圖5所示,從2D圖像中輸出在時(shí)間維度上對(duì)齊的人臉表情以及頸部運(yùn)動(dòng)的控制系數(shù),以實(shí)現(xiàn)從2D圖像中重建包含頸部動(dòng)作的3D面部信息。處理后的數(shù)據(jù)集被劃分為 80% 用于訓(xùn)練, 10% 用于驗(yàn)證, 10% 用于測(cè)試。

圖5面部表情與頭部運(yùn)動(dòng)控制系數(shù)重建 Fig.5Reconstruction of facial expression and head movement control coefficient

3.2 實(shí)驗(yàn)設(shè)置

本文基于RAVDESS多模態(tài)數(shù)據(jù)集構(gòu)建訓(xùn)練框架,采用動(dòng)態(tài)批處理策略(每個(gè)mini-batch包含4個(gè)樣本)以適配NVIDIA2090GPU(12GB顯存)的硬件配置。每個(gè)樣本均由一系列隨機(jī)截取的運(yùn)動(dòng)控制系數(shù)和相應(yīng)的語音波形構(gòu)成。通過實(shí)施音頻增強(qiáng)策略來增強(qiáng)模型的泛化能力,即在 1/30 s的時(shí)間內(nèi),以50% 的概率對(duì)語音波形進(jìn)行位移操作。

訓(xùn)練過程在配備有NVIDIA2090GPU(12GB顯存)的設(shè)備上進(jìn)行,采用AdamW優(yōu)化器進(jìn)行500個(gè)epoch的參數(shù)優(yōu)化。實(shí)驗(yàn)中設(shè)定超參數(shù)初始學(xué)習(xí)率為 10-5 以及權(quán)重衰減 10-2 ,以促進(jìn)模型的收斂速度與泛化能力通過指數(shù)移動(dòng)平均(EMA)策略平滑參數(shù)更新軌跡,設(shè)置衰減因子為0.9999,最終選取驗(yàn)證集損失最小的模型作為最優(yōu)解,以確保其在未見數(shù)據(jù)上的最佳表現(xiàn)。

3.3 對(duì)比實(shí)驗(yàn)

3.3.1 對(duì)比模型

對(duì)speech2head進(jìn)行音頻驅(qū)動(dòng)表情實(shí)驗(yàn),并與當(dāng)前主流的模型進(jìn)行比較。考慮到公開的語音驅(qū)動(dòng)混合形狀面部動(dòng)畫模型有限,本文選擇 SAiD[14] 和EmoTalk[15]作為對(duì)比模型,以評(píng)估本文方法的性能表現(xiàn)。

a)SAiD。該模型通過輕量級(jí)Transformer架構(gòu)結(jié)合預(yù)訓(xùn)練語音編碼器,利用絕對(duì)誤差和噪聲級(jí)速度損失進(jìn)行訓(xùn)練,以合成Blendshape。SAiD在BlendVOCA數(shù)據(jù)集[14」上進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含12名說話者的語音音頻和對(duì)應(yīng)的Blendshape系數(shù)序列,可實(shí)現(xiàn)高質(zhì)量的唇形同步和面部動(dòng)畫編輯。

b)EmoTalk。該模型是一個(gè)端到端的神經(jīng)網(wǎng)絡(luò),用于語音驅(qū)動(dòng)的情感增強(qiáng)3D面部動(dòng)畫。它通過情感解糾纏編碼器分離語音信號(hào)中的情感特征和內(nèi)容特征,并利用情感引導(dǎo)的特征融合解碼器生成Blendshape。EmoTalk在3D-ETF數(shù)據(jù)集上訓(xùn)練,由RAVDESS和HDTF數(shù)據(jù)集處理得到,包含高質(zhì)量的語音音頻和對(duì)應(yīng)的Blendshape系數(shù)序列。

3.3.2對(duì)比實(shí)驗(yàn)與分析

為量化唇部動(dòng)作與語音的同步精度,本文采用主流的唇部同步誤差(lipsyncerror,LSE)作為核心評(píng)估指標(biāo)。該指標(biāo)通過計(jì)算測(cè)試集樣本中唇部運(yùn)動(dòng)控制系數(shù)的L2范數(shù)誤差均值,量化生成唇部動(dòng)作與真實(shí)語音的同步精度。然而,LSE無法反映面部情感表達(dá)的連貫性,本文進(jìn)一步提出情感同步誤差(emotionsyncerror,ESE),ESE聚焦于頭部整體運(yùn)動(dòng)(如眉毛、臉頰、眼球)與情感語義的匹配度,而非單一唇部區(qū)域。LSE與ESE數(shù)值越低,表示表情同步性越優(yōu)。

在RAVDESS和HDTF數(shù)據(jù)集上對(duì)比SAiD、EmoTalk及本文方法的性能。其中,HDTF為本文方法的未見數(shù)據(jù)集,用于驗(yàn)證泛化能力。

如表1定量評(píng)估結(jié)果所示,本文方法在兩項(xiàng)指標(biāo)上均展現(xiàn)出顯著優(yōu)勢(shì),本文方法計(jì)算得到的ESE優(yōu)于對(duì)比方法,LSE雖略高于EmoTalk,但仍在可接受范圍內(nèi)。實(shí)驗(yàn)結(jié)果表明,本文方法針對(duì)完整頭部運(yùn)動(dòng)的合成在多個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)越,驗(yàn)證了模型的有效性和魯棒性。

表1定量評(píng)價(jià)結(jié)果Tab.1 Quantitativeevaluation result

表2模型評(píng)價(jià)結(jié)果

為適配資源受限的移動(dòng)端部署場(chǎng)景,本文通過輕量化設(shè)計(jì)降低了模型計(jì)算開銷。如表2所示,相較于SAiD( 1 288.8MB 10.05s)與EmoTalk( 835.9MB/0.076s) ,本文方法規(guī)模僅8.3MB(降低 99.0%~99.4% ),在測(cè)試樣本中平均推理耗時(shí)為0.324s(滿足實(shí)時(shí)交互閾值 ?0.5s ),雖略慢于EmoTalk,但其功能局限于局部表情生成,而本文引入了頸部運(yùn)動(dòng)合成機(jī)制,在保證頭部姿態(tài)自然性的同時(shí),完整覆蓋眼、眉、嘴等情感表達(dá)關(guān)鍵區(qū)域,顯著提升了機(jī)器人的表現(xiàn)力。實(shí)驗(yàn)表明,本文方法在逼真度與資源效率間實(shí)現(xiàn)均衡,可穩(wěn)定部署于主流移動(dòng)平臺(tái),為人機(jī)交互提供低延遲、高仿生的表情反饋。

3.4 損失函數(shù)評(píng)估

為評(píng)估新引入的速度損失函數(shù)的有效性,本文在RAVDESS數(shù)據(jù)集上對(duì)模型進(jìn)行了重新訓(xùn)練,去除了速度損失項(xiàng),并對(duì)比分析了預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)的擬合程度。如圖6所示,兩項(xiàng)實(shí)驗(yàn)中分別針對(duì)下顫開合與眉毛內(nèi)收進(jìn)行了擬合,實(shí)驗(yàn)結(jié)果分析表明,引入速度損失函數(shù)能夠有效地抑制幀間跳躍和增強(qiáng)面部表情合成穩(wěn)定性。

3.5 消融實(shí)驗(yàn)

為了驗(yàn)證本文提出的隱式情緒導(dǎo)向語音驅(qū)動(dòng)仿生機(jī)器人說話方法中各個(gè)模塊的有效性,本文設(shè)計(jì)了一項(xiàng)消融實(shí)驗(yàn),旨在探究模型中各個(gè)子模塊對(duì)表情合成的貢獻(xiàn)。在實(shí)驗(yàn)中控制其他參數(shù)保持不變,僅去除指定的子模塊,從而確保結(jié)果的可比性和可靠性。具體實(shí)驗(yàn)配置如下:a)w/omLSTM。除原模型中的mLSTM模塊,僅使用內(nèi)容編碼模塊;b)w/oCDE。去除原模型中的內(nèi)容編碼模塊,僅使用基于mLSTM的情緒編碼模塊。

分別在數(shù)據(jù)集RAVDESS與HDTF上進(jìn)行消融實(shí)驗(yàn)得到的唇部同步誤差與情感同步誤差如表3所示。通過對(duì)表3中第1~3行的實(shí)驗(yàn)結(jié)果進(jìn)行比較,可以得出以下結(jié)論:在去除子模塊后,情感表達(dá)與唇部動(dòng)作的合成質(zhì)量都會(huì)不同程度地降低,這印證了本文方法中各個(gè)模塊的有效性。

表3消融實(shí)驗(yàn)結(jié)果對(duì)比Tab.3Comparison of ablation experiment results

圖6速度損失函數(shù)對(duì)表情合成的影響

Fig.6Effect of velocity loss function on expression synthesis

3.6 方法評(píng)估

本文方法相較于現(xiàn)有研究所合成的運(yùn)動(dòng)控制系數(shù)更加精準(zhǔn)。為了全面展示該方法的工作流程,從RAVDESS數(shù)據(jù)集中選取了包含快樂、悲傷、驚訝、厭惡、恐懼和憤怒等情緒標(biāo)簽的樣本,使用不同情緒的音頻驅(qū)動(dòng)仿生機(jī)器人的面部電機(jī)執(zhí)行相應(yīng)的表情。如圖7所示,其中每種情緒標(biāo)簽樣本的第一行圖像對(duì)應(yīng)于原始音頻中的人臉面部表情與頭部姿態(tài)。第二行則展示了仿生機(jī)器人對(duì)原始音頻的表情還原效果。

為了驗(yàn)證生成的動(dòng)作控制系數(shù)中的情緒表達(dá),本文使用RAVDESS數(shù)據(jù)集訓(xùn)練了一個(gè)基于Blendshape的情感識(shí)別網(wǎng)絡(luò),然后,利用該模型對(duì)本文方法推理產(chǎn)生的Blendshape序列進(jìn)行情緒分類,結(jié)果如表4所示。基于真實(shí)數(shù)據(jù)集的七類情感分類平均準(zhǔn)確率為 57.30% ,推理產(chǎn)生的七類情感分類平均準(zhǔn)確率為 50.49% ,表明本文方法在合成富含情緒的面部表情控制系數(shù)上的有效性。

表4七類情感識(shí)別結(jié)果

Tab.4Results of seven-category emotion recognition /%

通過從不同情緒的音頻中提取舵機(jī)控制指令,機(jī)器人能夠成功復(fù)現(xiàn)多種自然表情,表現(xiàn)出較高的運(yùn)動(dòng)準(zhǔn)確性。然而,由于物理限制(如鼻子運(yùn)動(dòng)、露齒笑的表達(dá)受限,以及嘴巴自由度不足),部分面部表情的重建仍存在挑戰(zhàn)。此外,從表4的情緒分類結(jié)果來看,盡管厭惡情緒的分類準(zhǔn)確率達(dá)到了82.73% ,顯示出較高的表達(dá)精度,但悲傷、恐懼和驚訝等情緒的分類準(zhǔn)確率相對(duì)較低。這可能是由于分類模型本身的準(zhǔn)確度有限,導(dǎo)致對(duì)這些情緒的識(shí)別和表達(dá)不夠精準(zhǔn)。

本文的評(píng)估結(jié)果表明,基于深度學(xué)習(xí)提取音頻中表情控制系數(shù)的方法在生成豐富且自然的表情方面具有顯著潛力。盡管物理約束限制了特定面部表情的完整表達(dá),但該方法對(duì)于提升情感人機(jī)交互的效果仍具有重要意義,并為未來機(jī)器人表情生成技術(shù)的發(fā)展提供了新的方向。

3.7 應(yīng)用分析

1)應(yīng)用場(chǎng)景分析

本文基于仿生機(jī)器人頭部平臺(tái)進(jìn)行開發(fā)應(yīng)用,在主動(dòng)健康領(lǐng)域仿生機(jī)器人可被視作交流伙伴,通過接人大模型實(shí)現(xiàn)與用戶之間的互動(dòng)對(duì)話,為其提供心理支持與陪伴。本文通過精心設(shè)計(jì)的實(shí)驗(yàn),預(yù)先設(shè)定好對(duì)話場(chǎng)景,并利用語音合成技術(shù)生成機(jī)器人響應(yīng)音頻,通過用戶與機(jī)器人之間的模擬對(duì)話交流,分析其在實(shí)際應(yīng)用中的表現(xiàn)。具體對(duì)話文本內(nèi)容如表5所示。

表5模擬對(duì)話實(shí)驗(yàn)文本內(nèi)容Tab.5Simulated dialogue experiment text content

2)應(yīng)用結(jié)果評(píng)價(jià)

為了客觀評(píng)估仿生機(jī)器人作為陪伴角色的有效性,本文設(shè)計(jì)了一項(xiàng)實(shí)驗(yàn),隨機(jī)邀請(qǐng)了10名參與者與仿生機(jī)器人進(jìn)行標(biāo)準(zhǔn)化的互動(dòng)對(duì)話,實(shí)驗(yàn)結(jié)果通過對(duì)四個(gè)關(guān)鍵因素進(jìn)行評(píng)價(jià)來體現(xiàn),并從好、較好、中、較差四個(gè)評(píng)語等級(jí)進(jìn)行投票,四項(xiàng)評(píng)語等級(jí)投票分布如表6所示。

表6評(píng)語等級(jí)投票分布統(tǒng)計(jì)

Tab.6Distribution statistics of comment grade voting

對(duì)投票結(jié)果進(jìn)行分析發(fā)現(xiàn),仿生機(jī)器人在對(duì)話反應(yīng)靈敏度和表情動(dòng)作流暢度方面表現(xiàn)較好,但在情感表達(dá)準(zhǔn)確度和人機(jī)對(duì)話逼真度方面仍有待優(yōu)化。通過進(jìn)一步改進(jìn),以增強(qiáng)仿生機(jī)器人在陪伴角色中的應(yīng)用效果,仿生機(jī)器人有望在主動(dòng)健康領(lǐng)域更好地發(fā)揮陪伴作用。

4結(jié)束語

本文提出了一種基于語音驅(qū)動(dòng)的仿生機(jī)器人頭部舵機(jī)控制的新方法。與以往的方法相比,該方法不僅關(guān)注面部表情,還考慮了機(jī)器人頸部的運(yùn)動(dòng)控制,從而能夠生成更為逼真的頭部動(dòng)作。首先,開發(fā)了一個(gè)具有25個(gè)自由度的仿生機(jī)器人頭部平臺(tái),從服務(wù)端獲取標(biāo)準(zhǔn)化的最優(yōu)伺服位移數(shù)據(jù),以實(shí)現(xiàn)與音頻信號(hào)相匹配的面部表情還原。此外,本文設(shè)計(jì)了一種隱式情緒導(dǎo)向型特征融合自編碼器框架,將音頻信號(hào)中的情感特征與運(yùn)動(dòng)特征映射至機(jī)器人的舵機(jī)控制參數(shù)。通過實(shí)驗(yàn)結(jié)果分析,本文方法在性能上優(yōu)于當(dāng)前最先進(jìn)的技術(shù),能夠更有效地驅(qū)動(dòng)機(jī)器人實(shí)現(xiàn)更為生動(dòng)自然的表情。

本文方法雖然取得了一定的成果,但仍存在一些限制,計(jì)劃在未來的研究中加以解決。首先,當(dāng)前方法依賴于大量音頻的預(yù)訓(xùn)練模型,無法實(shí)現(xiàn)流式推理,這對(duì)實(shí)時(shí)應(yīng)用構(gòu)成了障礙;其次,訓(xùn)練數(shù)據(jù)來源于二維圖像,這導(dǎo)致生成的偽三維數(shù)據(jù)在精確度上不及三維掃描數(shù)據(jù),并不能準(zhǔn)確代表人臉微表情;此外,由于硬件結(jié)構(gòu)限制,目前產(chǎn)生的面部表情動(dòng)作無法還原如吐舌等特定的人臉表情。因此,未來工作將圍繞這三個(gè)方向繼續(xù)開展。

參考文獻(xiàn):

[1]孫璨,唐尚鋒,陳超億,等.主動(dòng)健康內(nèi)涵分析[J].中國(guó)公共衛(wèi) 生,2023,39(1):68-72.(Sun Can,Tang Shangfeng,Chen Chaoyi,et al.Connotation of activehealth:a literature analysis[J]. Chinese Journal of Public Health,2023,39(1):68-72.)

[2]Halkowski M. Socially assistive robotic instruction for children with autism spectrum disorder[C]//Proc of IEEE International WIE Conferenceon Electrical and Computer Engineering.Piscataway,NJ: IEEEPress,2019:1-4.

[3]李祥臣,俞夢(mèng)孫.主動(dòng)健康:從理念到模式[J].體育科學(xué), 2020,40(2):83-89.(Li Xiangchen,Yu Mengsun. Proactive health:fromidea tomodel[J].ChinaSportScience,2O20,40 (2):83-89.)

[4」Erol D,Bart-Pokorny K D,Kose H,et al. Challenges in observing the emotions of childrenwith autism interacting with a social robot [J].International Journal of Social Robotics,2024,16(11): 2261-2276.

[5]Krauss RM,ChenY,Chawla P. Nonverbal behavior and nonverbal communication:what do conversational hand gestures tellus?[J]. Advances in Experimental Social Psychology,1996,28:389- 450.

[6]Alnajjar F,Cappuccio M L,Mubin O,et al.Humanoid robots and autistic children: a review on technological tools to assess social attention and engagement[J]. International Journal of Humanoid Robotics,2020,17(6):2030001.

[7]Chevalier P, Kompatsiari K, Ciardo F,et al. Examining joint attention with the use of humanoid robots-a new approach to study fundamental mechanisms of social cognition[J]. Psychonomic Bulletin amp; Review,2020,27(2):217-236.

[8]Kanda T,Ishiguro H,Ono T,et al.Development and evaluation of an interactive humanoid robot“Robovie”[C]//Proc of IEEE International Conference on Roboticsand Automation.Piscataway,NJ: IEEE Press ,2002:1848-1855.

[9]Liu Xiaofeng,Chen Yizhou,Li Jie,et al.Real-time robotic mirrored behavior of facial expressions and head motions based on lightweight networks[J]. IEEE Internet of Things Journal,2023,10(2): 1401-1413.

[10]Zhang Wenxuan,Cun Xiaodong,Wang Xuan,et al.SadTalker: learning realistic 3D motion coefficients for stylized audio-driven single image talking face animation[C]//Procof IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023: 8652-8661.

[11]Tong Yan,Liao Wenhui,Ji Qiang.Facial action unit recognition by exploiting their dynamic and semantic relationships[J].IEEETrans on Pattern Analysis and Machine Intelligence,20o7,29(10): 1683-1699.

[12]Wang Tingchun,Liu Mingyu, Zhu Junyan,et al. Video-to-video synthesis[EB/OL]. (2018-08- 20).https://arxiv.org/abs/1808. 06601.

[13]李帥帥,何向真,張躍洲,等.融合多情感的語音驅(qū)動(dòng)虛擬說話 人生成方法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(8):2546-2553. (Li Shuaishuai,He Xiangzhen,Zhang Yuezhou,et al.Multiemotion driven virtual speaker generation method integrating multiple emotions[J].Application Research of Computers,2024,41 (8) :2546-2553.)

[14]Park I,Cho J. SAiD:speech-driven blendshape facial animation with difusion[EB/OL].(2023-11-25).https://arxiv.org/abs/2401. 08655.

[15]Peng Ziqiao,Wu Haoyu,Song Zhenbo,et al.EmoTalk:speechdriven emotional disentanglement for 3D face animation [C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2023:20630-20640.

[16]Lewis JP,Anjyo K,Rhee T,et al.Practice and theory of blendshape facial models [EB/OL]. (2014). htps://doi.org/10.2312/ egst. 20141042.

[17]Hess U,Kappas A,McHugo G J,et al. The facilitative effct of facial expression on the self-generation of emotion [J]. International Journal of Psychophysiology,1992,12(3):251-265.

[18]Sheu JS,Hsieh T S,Shou HN. Automatic generation of facial explied Research and Technology,2014,12(6):115-1130.

[19]Abaza A,Harrison MA,Bourlai T,et al.Design and evaluation of photometric image quality measures for effective face recognition[J]. IET Biometrics,2014,3(4):314-324.

[20]Cohen I,LooijeR,Neerincx MA.Child’s recognition of emotions in robot's face and body[C]//Proc of the 6th ACM/IEEE International Conference on Human-Robot Interaction.Piscataway,NJ:IEEE Press,2011:123-124.

[21]Wang Lijuan,Han Wei,Soong F K,et al. Text driven 3D photorealistic talking head[C]//Proc of the 12thAnnual Conference of the International Speech Communication Association.[S.1.]:International Speech Communication Association,2011:3307-3308.

[22]Wang Lijuan,Qian Xiaojun,Han Wei,et al.Synthesizing photo-real talking head via trajectory-guided sample selection[C]//Proc of the 11th Annual Conference of the International Speech Communication Association. 2010:446-449.

[23]Qian Yao,F(xiàn)an Yuchen,Hu Wenping,et al. On the training aspects of deep neural network(DNN) for parametric TTS synthesis [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2014:3829-3833.

[24] Zen Heiga,Senior A,Schuster M . Statistical parametric speech synthesis using deep neural networks [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway, NJ:IEEE Press,2013: 7962-7966.

[25]Ding Chuang,Xie Lei, Zhu Pengcheng. Head motion synthesis from speech using deep neural networks [J]. Multimedia Tools and Applications,2015,74(22) :9871-9888.

[26]Fan Bo,Xie Lei,Yang Shan,et al.A deep bidirectional LSTM approach for video-realistic talking head[J]. Multimedia Tools and Applications,2016,75(9):5287-5309.

[27]Zhang Xinjian,Wang Lijuan,Li Gang,et al.Anew language independent,photo-realistic talking head drivenby voice only[C]// Proc of the 14th Annual Conference of the International Speech Communication Association. [S.1.]: ISCA,2013:2743-2747.

[28]Taylor S,Kim T,Yue Yisong,et al.A deep learning approach for generalized speech animation[J].ACM Trans on Graphics, 2017,36(4) : 1-11.

[29]Suwajanakorn S,Seitz S M, Kemelmacher-Shlizerman I. Synthesizing Obama[J].ACM Trans on Graphics,2017,36(4):1-13.

[30]KarrasT,Aila Timo,LaineS,etal.Audio-driven facial animation by joint end-to-end learning of pose and emotion[J].ACM Trans onGraphics,2017,36(4):1-12.

[31]ChungJS,Jamaludin A, Zisserman A,et al.You said that?[EB/ OL].(2017-05-08).https://arxiv.org/abs/1705.02966.

[32]VougioukasK,PetridisS,Pantic M. Realistic speech-driven facial animation with GANs[J]. International Journal of Computer Vision,2020,128(5):1398-1413.

[33]Livingstone SR,Russo FA. The Ryerson audio-visual database of emotional speech and song(RAVDESS):a dynamic,multimodal set of facial and vocal expressions in North American English[J].PLS One,2018,13(5):e0196391.

[34]Zhang Zhimeng,Li Lincheng,Ding Yu,et al.Flow-guided one-shot talking face generation with a high-resolution audio-visual dataset [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,,2021:3660-3669.

主站蜘蛛池模板: 日本人妻一区二区三区不卡影院 | 夜夜高潮夜夜爽国产伦精品| 国产精品尤物在线| 亚洲精品高清视频| 国产成人a在线观看视频| 欧美国产日韩在线播放| 国模私拍一区二区| 久久这里只有精品66| 日韩精品亚洲人旧成在线| 国产理论一区| 国产日韩精品一区在线不卡| 美美女高清毛片视频免费观看| 亚洲视频二| 在线亚洲天堂| 亚洲人视频在线观看| 青青草一区二区免费精品| 夜夜拍夜夜爽| 97国产在线观看| 天天综合网在线| 制服丝袜国产精品| 国产成人无码AV在线播放动漫| 亚洲国产精品一区二区高清无码久久| 亚洲码在线中文在线观看| 国产麻豆精品手机在线观看| 99精品热视频这里只有精品7| 日韩精品高清自在线| 日本午夜视频在线观看| 亚洲国产亚洲综合在线尤物| 亚洲色偷偷偷鲁综合| 国产主播福利在线观看| 国产精品美人久久久久久AV| 欧美曰批视频免费播放免费| 久久福利网| 男女精品视频| 亚洲欧美成人网| 欧美一区国产| 老司机精品久久| 九九热精品免费视频| 香蕉综合在线视频91| 亚洲欧美日韩高清综合678| 91精品国产情侣高潮露脸| 久久成人18免费| 亚洲精品成人7777在线观看| 国产精品熟女亚洲AV麻豆| 无码一区中文字幕| 啊嗯不日本网站| 自拍偷拍欧美日韩| 亚洲v日韩v欧美在线观看| 亚洲第一区欧美国产综合 | 看你懂的巨臀中文字幕一区二区| 成年人免费国产视频| 国产成人三级| 五月婷婷导航| 亚洲精品在线观看91| 欧美日韩国产系列在线观看| 91久久国产热精品免费| 亚洲国产综合精品中文第一| 五月婷婷丁香综合| 欧美日韩国产在线播放| 中文国产成人精品久久一| 激情六月丁香婷婷四房播| 欧美性久久久久| 免费人成视频在线观看网站| 欧美一级高清片久久99| 国产精品v欧美| 久操中文在线| 亚洲欧美日韩中文字幕一区二区三区 | 亚洲 欧美 中文 AⅤ在线视频| 国产哺乳奶水91在线播放| 在线视频一区二区三区不卡| 自慰高潮喷白浆在线观看| 国产亚洲成AⅤ人片在线观看| 国产精品丝袜在线| 国产人免费人成免费视频| 欧洲极品无码一区二区三区| 不卡的在线视频免费观看| h视频在线播放| 精品国产www| 国产人前露出系列视频| 中文字幕在线免费看| 日韩少妇激情一区二区| 国模沟沟一区二区三区|