


由于缺乏語言環境和專業外教,在學外語時我們往往會遇到很多困難,即便經過了努力的訓練,最終練就的總是看得懂、寫得了但是卻說不出的啞巴外語。而微軟亞洲研究院開發的新技術則改善了這一問題,將免費外教帶到了我們身邊。
被稱為3D Photo-Realistic Talking Head的技術可以為用戶生成虛擬3D頭像,該3D頭像可以讀出輸入的文本,而且口型與語音能夠與原用戶十分近似。更為神奇的是,該3D頭像不僅可以讀出原用戶從未說過的母語,通過與跨語言的TTS語音合成技術結合,該3D頭像甚至還能精準地說外語。在前段時間微軟研究院成立20周年的慶祝活動中,微軟亞洲研究院首次展示了微軟首席研究與戰略官克雷格#8226;蒙迪的3D頭像,在現場演示中該3D頭像不僅用英文與我們打招呼,還用中文與我們“聊”了一段。
尋找基本音素
Talking Head的核心技術在于實現口型合成及語音合成,并將合成的語音與口型相互匹配,即可生成最終的虛擬影像。
口型和語音合成的前提條件是數據庫中包含了一種語言可能發出的各種音調和口型,即便是讓Talking Head模型去說全新的一段話,只要借助數據庫中預先錄制的基本音素和口型,同樣可以拼接出十分真實的語音和口型。事實上,基本的音素數據庫遠沒有想象中大,比如在錄制必應詞典英文的口模視頻時,被選中的口模只是在攝像機前錄制了幾百個句子,就完成了數據庫的建立,該數據庫將包括幾乎所有英語會用到的口型、發音以及大部分音與音的起承轉合。
在對數據庫進行建模時,微軟亞洲研究院的研究員們采用了原來廣泛用于語音識別的隱馬爾可夫模型,這是一個基于統計的模型,并且允許數據在時間上具備延展性,這種延展性可以幫助我們忽略兩次相同內容發音的差異,并進而抓取出兩次發音的共同特征。在隱馬爾可夫模型中一個音將被分為3段,比如發出“啊”音時,在模型中會被分為與前一個音銜接的階段、聲音穩定階段、與下一個音的銜接階段。無論這個“啊”聲音調和長短如何變化,這3個階段的特征總是不會改變的。使用這個模型分析之前錄制的數據庫,統計所有發音音素特征的方差和均值,最終也就構建出了包含所有音素發音可能的隱馬爾可夫模型。
將隱馬爾可夫模型反向應用,即可用來預測一個文本的語音應該怎么被讀出來,簡單地理解為同一個音素不管是什么人來讀,在該模型中的數學均值和方差都是在一定范圍內變化的,在這個變化范圍中取出相對比較穩定的均值和方差數值,使用這些數值反向合成的語音能夠被人們聽懂。
口型拼接
當然,除了使用隱馬爾可夫模型外,要實現語音和口型的匹配還需要借助很多技術,例如強制對齊。在制作必應詞典的口模視頻時,實際上同時獲取了視頻、音頻以及對應的文本信息,借助這些素材和語音算法,可以實現這些元素的強制對齊。借助這種方式,系統可以知道文本發出的每一個音在時間上的起始點和結束點。有了對齊的數據,隱馬爾可夫模型在應用時會更加準確,效果也會更好。
在實現口型拼接時,我們看到拼接視頻中的每一幀實際上都是從之前錄制幾百句基本音素的視頻幀中抽取出來的。但如果只是簡單地進行幀拼接,畫面中人的頭部會快速抖動。為了解決這個問題,微軟亞洲研究院的研究員使用了面部特征分析技術,通過分析眼睛和嘴部的關鍵特征點的位置變化來判斷頭部的移動量,并根據移動量進行每一幀的圖片校正,之后再按照一個固定形狀單獨把嘴的部分提取出來,進而獲得所有嘴型的變化。
2D向3D邁進
通過上面的方法已經可以生成十分自然的口模視頻,但是這個視頻中的口模是2D的,如果想讓口模按照語音的韻律自然地擺頭幾乎是不可能的,為了解決這個問題,微軟亞洲研究院的研究員們最終開發出了3D Photo-Realistic Talking Head。
首先,微軟亞洲研究院的研究員們根據一個公共數據庫中激光掃描的人頭3D數據生成了一個標準的3D模型,這個模型可以被理解成是這個數據庫中所有3D模型數據的均值,即一張平均臉。通過適當地改變平均臉幾個關鍵維度的參數,能夠讓這個平均臉更好地去適應現實中某個人的臉。借助這種方法就可以獲得與某個特定人近似的3D頭像模型,之后再將從2D合成視頻得到的人臉2D圖像通過投影的方式投射到這個3D頭像模型上。這項新技術解決了傳統3D人臉動畫中的幾個難題。首先是借助2D圖像大大提高了3D模型對眉毛、眼睛、嘴等部分渲染的逼真度。另外,用物理建模的方式渲染并再現舌頭的動作非常困難,因為舌頭在口腔中的動作有的時候看不見。而原始圖片可以十分出色地再現這些細節,使3D模型看起來更加自然。
此外,這種3D模型生成的成本也很低,以往將一個真實人物的頭部轉換成一個虛擬的3D模型往往要用到昂貴和復雜的設備。而3D Photo-Realistic Talking Head只需要借助一段預先錄制的視頻,就可以生成一個虛擬的3D模型。研究員們希望在不遠的將來,每個人都能擁有自己的3D頭像,這將在虛擬數字世界里給我們帶來更加豐富的人生體驗。
以前人們用雕塑記住一個人,后來演變為繪畫,再到后來演變為拍照,我們希望未來能用虛擬的3D模型來記住每個人的音容笑貌,讓即使相隔幾個世紀的人們也可以對話聊天。
——王麗娟 微軟亞洲研究院語音組研究員
經過角度校正的嘴部圖片會被整理成一個口型庫,在合成某個語音時,系統會從庫中挑出合適的圖片用于口模的口型合成。
將3D“平均臉”與2D視頻中的畫面結合在一起,即可得到3D頭像,而且眼睛、嘴等關鍵部位細節豐富。
隱馬爾可夫模型廣泛用于語音識別領域,將它應用于圖像和音頻合成同樣有效。