999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

臉由音生:語音驅動的靜動態人臉生成方法

2022-09-21 05:37:46趙璐璐陳雁翔趙鵬鋮朱玉鵬盛振濤
計算機工程與應用 2022年18期
關鍵詞:模型

趙璐璐,陳雁翔,趙鵬鋮,朱玉鵬,盛振濤

合肥工業大學 計算機與信息學院,合肥230009

人類所發出的聲音總是與其本身的諸多特性相關聯,例如性別、年齡以及嘴唇開合等,而最能反映這些特性的就是人的臉部。因此,語音驅動人臉生成逐漸成為一個熱門的研究課題,其研究目的是挖掘語音與人臉之間的關聯性,進而能夠由給定的任意語音片段生成相對應的人臉圖像。然而語音和人臉之間存在著多維復雜關聯,其與單張靜態人臉圖像之間存在著多重屬性關聯(性別、年齡等),同時與多張動態人臉序列之間又存在嘴唇同步關聯。因此語音驅動人臉生成模型需要綜合考慮這兩方面的因素,從而能夠更好地將其應用于實際生產生活中。

無論是生成靜態人臉圖像,還是生成動態人臉序列,都面臨著巨大的挑戰。首先,由于語音信號和人臉圖像在數據特征層面存在異質性,因此在沒有確切先驗信息的前提下,模型需要捕捉到特定的語音特征來編碼得到與之對應的人臉圖像。其次,動態人臉序列的生成要在時間維度上保持人臉屬性特征的不變性,同時所生成的人臉序列應保證語音片段和嘴唇運動之間的同步性。

目前大多數工作在研究這種語音驅動的跨模態人臉生成時,都只考慮了其中一種的關聯性來生成相對應的人臉圖像,缺乏對語音和人臉圖像對應關系的綜合研究。例如,Speech2Face[1]通過利用視頻中人臉圖像和聲音在時間和語義這兩個維度上的雙重相關性,將語音聲譜圖的特征與預訓練的真實人臉的特征在高維空間中相對齊,進而實現由語音生成靜態人臉圖像。但該模型依賴語音和人臉圖像之間嚴格時序對齊的數據集進行訓練,而在實際中由于時間維度的影響,只有很少的數據集標記了這種時間對齊信息,進而導致模型不具有廣泛應用性。而本文考慮使用屬性對齊(性別、年齡)的語音-人臉圖像數據集對模型進行訓練,以此來生成屬性對應的靜態人臉圖像。對于語音驅動動態人臉序列生成的研究,Jamaludin等人[2]設計了一種基于編碼器-解碼器結構的卷積神經網絡模型Speech2Vid,該模型以一種自監督的方式使用靜態人臉圖像和語音片段的聯合嵌入來合成說話者的人臉視頻幀,但是其將序列生成變換成與時間無關的圖像生成,因此容易造成像素抖動。Suwajanakorn等人[3]通過循環神經網絡學習原始語音特征到嘴唇區域的映射,進而定位到匹配度最佳的嘴唇區域圖像,并將檢索出的嘴唇區域圖像與原始的人臉圖像進行合成以得到最終的目標視頻。雖然此方法可以獲得高真實感的生成效果,但是其只適用于特定身份的人,缺乏泛化能力。

本文所提出的方法與之前的語音驅動人臉生成模型不同,其綜合研究了語音驅動的靜態人臉圖像生成和動態人臉序列生成,并基于條件生成對抗網絡構建了系統模型SDVF-GAN。為了更好地依托該模型生成屬性對齊的靜態人臉圖像,依據現有數據集建立了一個涵蓋性別和年齡兩種屬性的Voice-Face數據集,實現語音與靜態人臉之間屬性信息的精準對應。同時該模型還利用注意力思想定位到人臉圖像中的嘴唇區域,以此細節信息為條件,進一步從給定的語音和身份人臉圖像中生成嘴唇同步的動態人臉序列。為了驗證本文所提出方法的有效性,對其進行了一系列針對性實驗。實驗結果表明,SDVF-GAN 不僅可以生成屬性對應的高質量靜態人臉圖像,同時還可生成嘴唇運動與輸入語音同步的動態人臉序列。綜上所述,本文的主要貢獻如下:

(1)本文提出了一種基于條件生成對抗網絡的語音驅動靜動態人臉生成模型SDVF-GAN,該模型能由給定的語音信號生成屬性一致(年齡、性別)的靜態人臉圖像并在身份人臉圖像的條件下生成嘴唇同步的動態人臉序列。

(2)本文基于現有數據構建了一個新的包含語音和人臉圖像的數據集Voice-Face,其中語音和人臉圖像在性別和年齡上具有屬性一致性。

(3)本文在動態人臉生成模型中設計了一個基于注意力思想的嘴唇判別器,通過將嘴唇區域信息與身份相關信息分離,來降低不準確的嘴唇運動所造成的影響,實現在生成高質量的人臉序列的同時進一步提高嘴唇同步的準確性。

1 相關工作

1.1 視聽覺跨模態生成

視聽覺數據是現實世界中自然共存的兩種信號,并且二者都可為對方提供豐富的監督信息,利用視聽覺數據進行跨模態學習的研究也因此而取得了很多突破性的成就。Aytar 等人[4]利用視頻中音頻數據和視覺數據自然同步的特性,通過已建立的視覺識別網絡和未標記的視頻數據對音頻特征提取網絡進行訓練,進而學習到音頻的有效表示。Chen 等人[5]使用條件生成對抗網絡來實現視聽覺跨模態雙向生成,并在多模態數據集Sub-URMP 上實現面向樂器類別和面向演奏姿勢這兩種不同的訓練場景下的視聽覺跨模態生成。Hu 等人[6]提出了兩種分別針對不同情況盲人的視聽跨模態生成模型,實現從編碼后的聲音生成相應的視覺圖像,其目的是驗證機器模型可快速高效地評估為幫助盲人而構建的視覺到聽覺編碼方案的性能與質量。文獻[7-8]進一步實現了基于GAN 的語音到人臉圖像的跨模態生成,也即在給定語音波形的情況下生成相對應的人臉圖像,并保留說話者的身份信息。而本文提出的靜態人臉生成模型研究的是如何生成與輸入語音信號屬性關聯(年齡、性別)的靜態人臉圖像,可使用屬性對齊的數據集對模型進行訓練,其在實際中的應用范圍更加廣泛。

1.2 動態人臉生成

動態人臉生成研究在給定目標人臉圖像和語音片段的情況下,生成嘴唇運動與輸入語音準確同步的說話者人臉序列。近年來,隨著生成式模型的不斷發展,對于任意人臉序列的生成涌現出眾多優秀的模型。X2Face[9]提出一種能夠控制給定人臉的姿態和表情的深度神經網絡,它是以語音信號(或是另一張人臉圖像)作為條件實現任意說話者對應的人臉生成,但是該方法以不受身份信息約束的形式對網絡進行訓練,使得模型無法針對身份信息生成相應的人臉,并且基于語音生成的人臉圖像質量相對不高。Zhou 等人[10]利用對抗訓練的思想,通過解耦一張人臉圖像中的主體相關信息和語言相關信息來實現任意主體說話者對應的人臉生成,然而該方法主要關注圖像在模態內部的一致性,缺乏對跨模態一致性的探索,從而導致生成人臉序列的嘴唇運動與輸入語音之間的同步性不夠準確。Chen 等人[11]利用面部標志作為中間信息來拉近兩種不同模態數據之間的距離,從而實現了說話者對應的人臉序列生成,但是該方法缺乏對視聽跨模態的同步性進行建模,因此會出現嘴唇運動不同步的現象。

1.3 注意力機制

注意力機制模仿了生物觀察行為的內部過程,是一種將內部經驗和外部感覺對齊從而增加部分區域的觀察精細度的機制。注意力機制可以快速提取到稀疏數據的重要特征,其最初提出的目的是解決機器翻譯研究領域中的文本序列問題。注意力機制本質上源自于人類視覺注意機制,其核心目標是從眾多信息中選擇出對當前任務目標更關鍵的信息并聚焦到這些重要信息上,因此注意力機制逐漸發展成計算機視覺領域的重要工具之一。例如Zhang 等人[12]將自注意力機制與GAN[13]相結合,提出了一種新的圖像生成模型SAGAN。本文通過將自注意力機制添加到語音編碼器網絡中以提取出更準確的聽覺特征。同時在動態人臉生成模型中,還利用注意力思想捕捉嘴唇區域的特征,進而將身份人臉圖像中的身份屬性信息與嘴唇運動信息進行分離,以實現在任意身份下生成嘴唇同步的動態人臉序列。

2 Voice-Face數據集

為了滿足靜態人臉生成網絡的訓練需求,本文構建了“性別+年齡”屬性對齊的數據集Voice-Face。該數據集中包含大量的語音片段和人臉圖像,并滿足屬性一致性。為了切合本次研究的目的,選擇了aidatatang_1505zh數據集中的語音片段和CACD2000 數據集[14]中的人臉圖像。對于這兩個模態的數據,對其按年齡段(11~20、21~30、31~40、41~50)和性別(男、女)進行組合,同時清除了一些質量不佳和不符合要求的語音片段和人臉圖像,使得各種組合的數量處于相對平衡狀態,最終將得到的語音和人臉圖像數據整合成屬性關聯的Voice-Face數據集。此外,為了更好地利用該數據集對靜態生成模型進行訓練,還將對其中的數據進行一定的預處理操作,具體步驟如下:

語音預處理:原始的語音信號是由16 kHz的單聲道進行采樣而得到,在本文的模型中需要將其轉換成聲譜圖作為系統的原始輸入。將語音分別轉換成短時傅里葉變換(STFT)、梅爾頻率倒譜系數(MFCC)和對數振幅梅爾頻譜(LMS)這三種聲譜圖,并對比三者分別作為模型輸入時的生成效果,根據模型實際的性能表現,最終選擇將語音信號的MFCC特征作為語音編碼器網絡的輸入。

人臉圖像裁剪:為了去除人臉圖像中多余的背景信息,采用人臉檢測器[15]來檢測圖像中相應的人臉部分區域,進而從整幅圖像中裁剪出人臉區域,最后將裁剪后的人臉圖像統一縮放為相同的尺寸大小。

最終,經過上述數據預處理操作之后,得到了8 種屬性組合下的48 000個語音-人臉圖像對,并將其按5∶1的比率劃分為訓練集和測試集。

3 方法

本文綜合考慮語音和人臉之間的靜態屬性和動態變化關系,在條件生成對抗網絡的基礎上構建了語音驅動的靜動態人臉生成模型(SDVF-GAN)。該模型以給定的語音片段作為輸入,能夠生成屬性一致(性別、年齡)的靜態人臉圖像,同時能夠基于身份人臉圖像生成嘴唇同步的動態人臉序列。

3.1 網絡架構

SDVF-GAN模型的網絡架構如圖1所示,其包含編碼器、生成器和判別器這三個部分。

圖1 語音驅動的靜動態人臉生成模型(SDVF-GAN)的框架結構Fig.1 Frame structure of voice-driven static and dynamic face generation model(SDVF-GAN)

3.1.1 編碼器

本文使用基于深度卷積網絡構建的語音編碼器VE來提取語音信號的聽覺特征向量。初始的語音信號是一維波形V,鑒于梅爾頻率倒譜系數(MFCC)特征能夠很好地表示語音的相關信息,因此將語音信號轉換成MFCC特征M以作為語音編碼器的輸入。由于MFCC特征在某一維度上對應了時序信息,因此對于時間間隔較長的MFCC特征,語音編碼器在特征的提取過程中要能夠捕捉到它們之間的時間依賴關系。自注意力機制[16]可以模擬圖像區域中長距離、多級別的依賴關系,進而可以使得遠距離依賴特征之間的距離極大地縮短。因此,在語音編碼器VE 中引入自注意力機制可以學習到MFCC中的時序信息,進而提取出更準確的聽覺特征向量zv=VE(M)。最后將得到的聽覺特征向量作為靜態人臉生成網絡和動態人臉生成網絡的輸入,以實現靜態和動態的人臉生成。

在動態人臉生成網絡中,是將聽覺特征和圖像特征相串聯得到的混合特征作為網絡的輸入以確保生成的人臉序列中的多張人臉圖像在身份信息上的一致性。基于此,構建了圖像編碼器IE,以提取相應的圖像特征向量zI=VE(I),網絡參數如表1。

表1 編碼器網絡架構Table 1 Encoder network architecture

3.1.2 生成器

SDVF-GAN模型是基于條件生成對抗網絡(CGANs)[17]的結構而構建。因此,在獲取聽覺特征向量和圖像特征向量后,以聽覺特征向量zv與使用標準正態分布采樣的噪聲向量zn~N(0,1)相串聯而得到的高維特征向量作為靜態人臉生成器SFG 的輸入,進而合成出屬性一致(年齡和性別)的靜態人臉圖像Is=SFG(zv,zn);以聽覺特征向量zv與圖像特征向量zI串聯得到的混合特征向量作為動態人臉生成器DFG 的輸入,通過分別考慮語音相關信息和身份相關信息來生成嘴唇同步的動態人臉序列Id=DFG(zv,zI),網絡參數如表2。

表2 生成器網絡架構Table 2 Generator network architecture

3.1.3 判別器

圖像判別器以真實圖像或生成圖像作為輸入,輸出相應的概率分數,以判別輸入圖像的真偽。靜態人臉生成模型針對的是屬性對齊條件下的視聽覺跨模態人臉生成,需要在生成高質量的真實圖像的同時確保屬性的一致性。為了生成符合要求的靜態人臉圖像,在原始圖像判別器的倒數第二層后加入投影層(Projection)[18],以獲得一個表示語音片段與人臉圖像屬性匹配程度的概率分數。具體而言,本文使用x表示輸入特征向量,y表示條件信息,同時用D(x,y)=A(f(x,y))表示CGANs的圖像判別器,A表示激活函數。pt和pg分別表示真實樣本分布和生成樣本分布。當使用Sigmoid作為最后卷積層的激活函數時,由CGANs的損失函數可知,最優判別器:

在多分類問題中,一般使用Softmax 函數來計算輸入x屬于某一類別y=c的概率,則有:

其中,(x)表示全連接層的輸出,?為去除最后一層的傳統判別器網絡。同時令矩陣V表示行向量,并將其看作條件信息y的嵌入層,ψ表示判別器的最后一層,則此時最優判別器可化簡為:

對上式進行分析可知,ψ(?(x))起到了原始CGANs中圖像判別器的作用,用于判斷輸入數據x的真實性;而yTV?(x)表示投影層的判別結果,其相當于卷積網絡的輸出V?(x)與條件y進行點乘得到的對應目標組合的概率值,其值越大表示屬性匹配越準確。因此,添加投影模塊的圖像判別器的輸出既表示了圖像的真偽,又表示了圖像與語音之間的屬性匹配度,可更好地推動靜態人臉生成器生成與輸入語音屬性一致的高質量的靜態人臉圖像。

動態人臉生成網絡的目的是生成嘴唇同步的人臉序列。由于圖像判別器以人臉圖像的整個區域為判別標準來更新動態生成器網絡的參數,所以僅利用圖像判別器不足以在訓練時捕獲到精準的嘴唇運動。為了能夠在人臉圖像中捕獲嘴唇相關的變化信息,基于注意力的思想構建了一個嘴唇判別器Dl,通過僅關注嘴唇區域的變化來去除身份相關信息及面部表情的干擾,并將其與圖像判別器相結合,二者共同以對抗訓練的方式更新動態人臉生成器,以生成嘴唇同步的高質量的動態人臉序列,判別器網絡架構如表3。

表3 判別器網絡架構Table 3 Discriminator network architecture

3.2 損失函數

為防止傳統GAN中出現的梯度消失和模式崩潰的問題,SDVF-GAN模型采用了WGAN-GP形式的對抗損失函數。此時,對抗損失函數如下:

其中,I表示真實圖像,I表示生成圖像,其在靜態人臉生成網絡和動態人臉生成網絡中分別表示靜態人臉圖像Is=SFG(zv,zn)和動態人臉圖像Id=DFG(zv,zI),而I是沿真實圖像和生成圖像對之間的直線均勻采樣得到的圖像。D表示圖像判別器,其在靜態人臉生成網絡中嵌入了投影(projection)模塊。

為使得靜態人臉生成模型能夠生成屬性一致的人臉圖像,為其構建如下所示的屬性損失函數:

為了在動態人臉生成過程中保持身份的不變性,將重建損失應用于動態人臉生成模型中,公式化如下:

如前所述,通過構建嘴唇判別器Dl來確保生成的動態人臉序列具有準確的嘴唇運動,其目標函數:

此時,靜態人臉生成模型和動態人臉生成模型的總損失函數分別如式(8)和式(9)所示:

其中,λatt、λrec和λlip是模型中的超參數,它們分別控制模型的屬性損失、重建損失和嘴唇損失的相對重要程度,進而更好地對網絡模型進行訓練。

4 實驗

4.1 實驗設置

4.1.1 數據集

分別利用自己構建的Voice-Face 數據集和現有的LRW 數據集[19]對靜態人臉生成模型和動態人臉生成模型進行訓練。對于Voice-Face 數據集,按照兩種性別(男性和女性)和四個年齡段(11~20、21~30、31~40、41~50)將其組合成8 種屬性類別。而LRW 數據集是目前最大規模的單詞級唇讀數據集,其包含數百個不同的說話者讀單詞的視頻,每個視頻的持續時間很短,只有1 s左右。從LRW 數據集中分別提取音頻流和視頻幀,并使兩者相互匹配。對于音頻流,以16 kHz 的采樣率提取出(Mel frequency cepstrum coefficient)MFCC 特征;對于視頻幀,使用人臉檢測器裁剪出相應的人臉區域,然后將人臉區域的圖像維度調整為128×128。

4.1.2 實現細節

SDVF-GAN 中的語音編碼器、圖像編碼器、生成器和判別器都是由卷積層或反卷積層搭建而成。對于語音編碼器網絡,在最后兩個卷積層之前都添加了一個自注意力層來捕獲語音中的長距離依賴信息,并在最后一層卷積層后添加了兩個全連接層來得到聽覺特征向量。動態人臉生成器中借鑒了U-Net[20]的思想,其將圖像編碼器中各卷積層的圖像特征分別饋送到生成器網絡中,以更好地保持生成的動態人臉序列身份信息的一致性。在實驗中,使用Pytorch 框架來實現整個系統模型。訓練時的參數細節如下:選用ADAM 優化器[21],其中α=0.5,β=0.999,并將學習率固定為1E-4;WGANGP 中的梯度懲罰參數λgp設置為10,同時將λatt、λrec和λlip分別設置為10、10和1。算法1和算法2分別說明了本文中所提出的靜態人臉生成網絡和動態人臉生成網絡的優化訓練過程。

算法1 靜態人臉生成模型的訓練流程

算法2 動態人臉生成模型的訓練流程

4.2 評價標準

在實驗中,選用幾個常見的評價指標來定量評估SDVF-GAN 模型的生成效果。對于靜態人臉生成模型,其通過跨模態準確率(cross-modal accuracy)來定量評估屬性組合的跨模態人臉生成是否成功。此外,Fréchet inception distance(FID)通過計算真實圖像和生成圖像在特征向量上的距離來定量評估生成的靜態人臉圖像質量的好壞,具體公式如下:

其中,μr和μg分別表示真實圖像和生成圖像特征的均值,Σr和Σg分別表示真實圖像和生成圖像特征的協方差矩陣。FID值越小,表明生成數據與真實數據之間的分布越接近,生成的靜態人臉圖像質量越高、多樣性越豐富。

對于動態人臉生成模型,使用常用的度量指標peak signal-to-noise ratio(PSNR)和structural SIMilarity(SSIM)[22]來評估生成的視頻幀質量的好壞,兩者的值越大,說明生成人臉序列的質量越好。此外,采用landmarks distance(LMD)[23]來評估生成人臉序列中嘴唇同步的準確性。LMD通過計算真實序列和生成序列之間的關鍵點距離來度量嘴唇同步準確率,其值越小,表明合成人臉序列的嘴唇運動與輸入語音片段的匹配程度越高。

4.3 靜態人臉生成實驗

靜態人臉生成模型的目的是實現屬性一致(性別、年齡)的視聽覺跨模態人臉生成,因此,使用自己構建的基于性別和年齡屬性對齊的Voice-Face 數據集對模型進行訓練和測試。為了驗證模型所生成的靜態人臉圖像具有一定的優越性,本文從定性和定量角度對實驗結果進行分析,并將其與最近的方法進行定量對比,同時針對自身模型架構及損失函數進行了消融研究實驗。

定性結果。圖2顯示了8種不同屬性組合下的語音片段分別作為靜態人臉生成模型的輸入時,所生成的相應組合下的靜態人臉圖像。從中可以觀察到,SDVFGAN 能夠學習到聲音和人臉之間的潛在聯系,其生成的人臉圖像和真實的人臉圖像對應的屬性信息(年齡、性別)是一致的。此外,還為每個組合選取多個不同的語音片段分別送入靜態網絡模型中來進行相應的實驗,實驗結果如圖3所示,可以觀察到SDVF-GAN在生成屬性一致的靜態人臉圖像的同時還可以保持生成圖像的多樣性。

圖2 靜態人臉生成模型合成的靜態人臉圖像Fig.2 Static face image synthesized by static face generation model

圖3 選取不同語音片段所生成的靜態人臉圖像Fig.3 Static face image generated by selecting different voices fragments

定量結果。使用Voice-Face數據集對Wen等人[7]提出的模型進行訓練和測試,并將其與本文提出的靜態人臉生成模型進行定量比較,具體實驗結果如表4 所示。結果顯示SDVF-GAN在兩個常用的評價指標下均明顯優于Wen 等人的方法,表明了SDVF-GAN 模型不僅可以生成高質量的靜態人臉圖像,而且在8種屬性組合下的跨模態分類準確率也相對更高。

表4 Voice-Face數據集中不同方法的定量結果Table 4 Quantitative results of different methods in Voice-Face dataset

消融研究。為了定量評估靜態人臉生成模型中各組成部分(自注意力機制(SA)、投影模塊(Pro)以及屬性損失Latt)對生成效果的影響,通過逐一移除模型中的某個組件來進行相應的消融研究實驗,實驗結果如表5所示。由表中的數據可以看出,當僅去除網絡模型中的自注意力機制時,跨模態準確率下降了將近3.1 個百分點;僅去除投影模塊時,FID 的值相比提高了5.2 左右,也即生成圖像的質量有所下降;而當同時去除這兩個組件時,跨模態準確率和FID 更是都朝著變壞的方向發展。這表明模型中加入這兩種組件不僅有助于降低FID值以提升人臉圖像的生成質量,同時還可使得模型生成出的人臉圖像與輸入語音具有更好的屬性一致性。此外,表5 中的結果還反映出添加屬性損失Latt可進一步提高跨模態準確率,定量表明了屬性損失的添加對靜態人臉生成模型的性能具有一定的提升。

表5 靜態人臉生成模型的消融研究Table 5 Ablation research of static face generation model

4.4 動態人臉生成實驗

使用現有的LRW數據集來訓練和測試SDVF-GAN中的動態人臉生成模型,以實現嘴唇同步的動態人臉序列生成。

定性結果。為了驗證本文所提出動態人臉生成模型的先進性,在相同的實驗設定下,將其與ATVGnet 模型進行定性對比,具體實驗結果如圖4所示。可以直觀地看到,相較于ATVGnet模型來說,SDVF-GAN所生成的人臉序列與真實人臉序列在嘴唇運動方面的同步性更好,并且生成的人臉圖像更加清晰。因此,無論從圖像質量還是嘴唇同步來說,SDVF-GAN 模型的生成結果與先前的方法相比均有一定程度的提升。

圖4 動態人臉生成模型以及ATVGnet模型的生成結果Fig.4 Synthesis result of dynamic face generation model and ATVGnet model

定量結果。將本文的動態人臉生成模型與ATVGnet[11]和Speech2Vid[2]模型進行定量比較,具體實驗結果如表6所示。結果表明SDVF-GAN模型相比于其他的方法雖然在評價指標PSNR上略低于ATVGnet模型,但其同時取得了最高的SSIM 和最低的LMD。這也定量說明了SDVF-GAN 可以在保證生成較高質量圖像的同時實現嘴唇運動與輸入語音片段之間的精準同步。

表6 LRW數據集中不同方法的定量結果Table 6 Quantitative results of different methods in LRW dataset

消融研究。為了驗證動態人臉生成模型中的自注意力機制(SA)和嘴唇判別器Dl對于模型性能提升的重要性,同樣進行了相應的消融研究實驗來量化這兩個組件對模型性能的影響,具體實驗結果如表7所示。實驗結果表明,SA和Dl兩個組件逐一添加到模型中都可進一步提高所有評價指標的性能,兩者聯合作用下更是使模型達到了最優的生成效果。這也定量說明了自注意力機制和嘴唇判別器對動態人臉生成模型生成高質量的嘴唇同步的動態人臉序列有著至關重要的作用。

表7 動態人臉生成模型的消融研究Table 7 Ablation research of dynamic face generation model

5 結束語

本文研究了語音與人臉之間靜態和動態的關聯性,提出了一種可生成靜態人臉圖像和動態人臉序列的語音驅動人臉生成模型SDVF-GAN。模型的語音編碼器在自注意力機制的作用下捕獲語音數據的全局聽覺特征,在靜態人臉生成網絡中通過將投影模塊加入到圖像判別器中以約束靜態生成器生成出屬性一致(性別、年齡)的靜態人臉圖像。同時,本文設計了一種基于注意力思想的嘴唇判別器,用于實現嘴唇區域與身份信息的分離,以在動態人臉生成網絡中校正不準確的嘴唇運動,進一步提高生成的動態人臉序列的嘴唇運動與輸入語音片段之間的同步準確率。

實驗結果表明,SDVF-GAN 模型生成的靜態人臉圖像具有高質量、多樣化以及屬性一致(性別、年齡)的特點,生成的動態人臉序列的嘴唇運動與輸入語音片段具有高同步性的特點。此外,與現有方法對比發現,SDVF-GAN 在跨模態準確率和嘴唇同步準確率方面均取得了更優異的表現。

在現有的工作基礎之上,本文認為后續的工作可以從以下兩個方面進行。首先,對于訓練靜態人臉生成網絡的Voice-Face數據集,本文只考慮了性別和年齡兩種屬性,使得屬性組合相對較少。未來的工作中可進一步添加人的情感屬性,更深層次的挖掘語音和人臉的屬性關系,提高靜態人臉生成網絡的應用范圍。其次,未來可在動態人臉生成網絡中實現生成的面部序列具有與輸入語音同步的表情變化,從而獲得更加逼真的視覺效果。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 在线视频亚洲色图| 亚洲天堂区| 欧美亚洲日韩不卡在线在线观看| 在线毛片网站| 香港一级毛片免费看| 玖玖精品在线| 国产精品999在线| 亚洲人成网线在线播放va| 亚洲天堂久久| 国内精品免费| 欧美久久网| 欧美午夜在线播放| 极品私人尤物在线精品首页| 久操线在视频在线观看| 亚洲中文字幕无码爆乳| 午夜色综合| 国产亚洲欧美在线人成aaaa| 色婷婷亚洲十月十月色天| 精品视频在线观看你懂的一区| 干中文字幕| 亚洲男人天堂久久| 国产精品污视频| 成AV人片一区二区三区久久| 欧美人人干| 人人看人人鲁狠狠高清| 亚洲精品亚洲人成在线| 久久黄色一级片| 免费a级毛片18以上观看精品| 午夜不卡视频| 中文字幕无码制服中字| 92精品国产自产在线观看| 日本高清成本人视频一区| 综合色天天| 人妻无码中文字幕一区二区三区| 美女国产在线| 国产三级韩国三级理| 亚洲欧美日韩成人高清在线一区| 国产男女XX00免费观看| 日韩成人在线网站| 国产丝袜无码一区二区视频| 热思思久久免费视频| 免费毛片a| 欧美区国产区| 国产无人区一区二区三区 | AV不卡在线永久免费观看| 97在线公开视频| 91成人精品视频| 午夜视频日本| 97国产成人无码精品久久久| 久久99精品国产麻豆宅宅| 国产精品成人免费视频99| 国产精品视频公开费视频| 最新无码专区超级碰碰碰| 国产精品专区第一页在线观看| 国产一区二区三区在线无码| 91蝌蚪视频在线观看| 秘书高跟黑色丝袜国产91在线| 亚洲三级色| 色国产视频| 国产成人调教在线视频| 国产精品分类视频分类一区| 四虎永久免费地址| 亚洲国产成人精品一二区| 毛片最新网址| 亚洲乱强伦| 国产最新无码专区在线| 伊人91在线| 日韩精品毛片| 久久亚洲欧美综合| 色哟哟色院91精品网站| 精品无码人妻一区二区| 一区二区理伦视频| 久久青草视频| 九色最新网址| 久久伊人久久亚洲综合| 午夜爽爽视频| 91成人在线免费观看| 中文字幕欧美日韩高清| 青青热久免费精品视频6| 亚洲高清国产拍精品26u| 99久久亚洲综合精品TS| 激情亚洲天堂|