都保杰
如何得到一個人的高精度面部三維模型?通常情況下,對某個人的臉進(jìn)行精確的三維重建需要昂貴的設(shè)備和專業(yè)知識技能,比如要用攝影棚、相機(jī)、3D掃描儀等等,各種各樣的工作都集中在使用光度學(xué)立體或多視圖立體技術(shù)來進(jìn)行面部結(jié)構(gòu)重建。
現(xiàn)在,卡內(nèi)基梅隆大學(xué)(CMU)的研究人員使用普通智能手機(jī)錄制的視頻完成了這項(xiàng)壯舉。用智能手機(jī)拍攝臉部正面和側(cè)面的連續(xù)視頻,在深度學(xué)習(xí)算法的幫助下分析這些數(shù)據(jù),成功對多個面部進(jìn)行了數(shù)字重建,實(shí)驗(yàn)結(jié)果表明,他們的方法可以達(dá)到亞毫米精度,堪比專業(yè)化的處理。
本研究項(xiàng)目的成員之一、CMU機(jī)器人研究所副研究員西蒙·露西(Simon Lucey)表示,面部的三維重建一直是計算機(jī)視覺和圖形領(lǐng)域的一個公開問題,因?yàn)槿藗儗γ娌刻卣鞯耐庥^非常敏感,即使重建過程中出現(xiàn)輕微異常,也可能使最終結(jié)果看起來與現(xiàn)實(shí)差別較大,高水平的細(xì)節(jié)是個難點(diǎn),也是栩栩如生的關(guān)鍵。
如今,數(shù)字臉可以用來構(gòu)建游戲角色或AR、VR的化身,也可以用于動畫、影視制作、社交、生物識別甚至醫(yī)療等領(lǐng)域,商業(yè)空間可謂十分廣泛,而整個制作過程或許會越來越便捷。

CMU的方法(c)與傳統(tǒng)最先進(jìn)的方法(d)效果對比
研究人員在慢動作拍攝中使用了iPhonex,高幀速率的慢動作是原始數(shù)據(jù)采集的關(guān)鍵之一,視頻以120幀/秒的速度拍攝,每段時長15秒~20秒,背景條件是無約束的,但需要是靜態(tài)的場景,拍攝對象最好保持一種靜態(tài)的表情。錄像可以由拍攝對象自己錄制,也可以由助手錄制,之后視頻會分為3個關(guān)鍵步驟進(jìn)行處理:攝像機(jī)姿態(tài)估計;使用多視圖立體生成點(diǎn)云;使用約束組合進(jìn)行網(wǎng)格擬合。
傳統(tǒng)而言,大多數(shù)多視點(diǎn)人臉重建方法依賴于預(yù)先校準(zhǔn)的攝像機(jī)或使用地標(biāo)跟蹤器來估計相對于幾何對象的攝像機(jī)姿態(tài)。CMU團(tuán)隊(duì)利用視覺同步定位和映射(SLAM)的直接方法,一方面視覺SLAM可以對曲面上的點(diǎn)進(jìn)行三角剖分以計算其形狀,另一方面可實(shí)現(xiàn)亞像素精度的相機(jī)姿態(tài)估計。這種檢測方法特別適用于特征點(diǎn)檢測和匹配中不存在大量拐角點(diǎn)的人臉。
因此,研究人員利用這個事實(shí),輸入一個單一的連續(xù)視頻序列,對于一個典型的序列,可以得到50個~80個具有精確已知攝像機(jī)姿態(tài)的關(guān)鍵幀,經(jīng)過這一步能創(chuàng)建出一個人臉的初始幾何圖形,略顯粗糙,丟失的數(shù)據(jù)也會在模型中留下一些“空隙”。

? 初步掃描得到的模型效果
如上圖所示,點(diǎn)云生成階段結(jié)束時生成的具有和不具有紋理的點(diǎn)云數(shù)據(jù),這些點(diǎn)云精確地捕捉了整個面部的幾何特征、眼睛、嘴唇等區(qū)域的輪廓細(xì)節(jié),使每個部分都能被識別。然而,由于非理想照明、缺少紋理和智能手機(jī)的傳感器噪聲等因素,點(diǎn)云會有丟失的數(shù)據(jù)和噪聲,接下來就需要一個強(qiáng)力的網(wǎng)格擬合方法進(jìn)行彌補(bǔ),研究人員采用了非剛性網(wǎng)格擬合算法,利用點(diǎn)云約束、地標(biāo)約束、網(wǎng)格剛度約束和邊緣約束的組合,對模板進(jìn)行變形修復(fù),最終需要30分鐘~40分鐘的處理時間完成一個人臉模型的精確修復(fù)。
雖然這個過程耗時有點(diǎn)兒長,但結(jié)果卻是值得的,最終構(gòu)建出的面部三維模型中位數(shù)精度約為0.95毫米,在精度和完成度方面優(yōu)于當(dāng)前一些主流的單視圖和多視圖重建方法,在精細(xì)細(xì)節(jié)方面得到增強(qiáng),這也是三維人臉重建研究的一個最新趨勢:將精細(xì)的高頻細(xì)節(jié)壓印到重建模型之中。
不過,目前這項(xiàng)研究對場景中的動態(tài)運(yùn)動不具有魯棒性,團(tuán)隊(duì)會在接下來進(jìn)一步深化研究。另外一點(diǎn)值得關(guān)注的是,該團(tuán)隊(duì)還建立了一個包含100位受試者的數(shù)據(jù)集,每個受試者在不同的光線和背景條件下記錄了2個視頻序列。對于每個視頻,研究人員都提供一組50個~80個他們使用的關(guān)鍵幀和重建方式(網(wǎng)格、點(diǎn)云和表面法線貼圖)作為參考,希望這一數(shù)據(jù)集有助于進(jìn)一步研究和評估無約束的、既準(zhǔn)確又一致的多視圖和單視圖重建算法。

各種主流單視圖和多視圖重建方法的結(jié)果比較,正面和剖面相應(yīng)的誤差熱圖
在這項(xiàng)工作中,我們看到了一個普適性的解決方案,這種方法當(dāng)下不一定很快,但整個過程可以在智能手機(jī)上完成,而隨著智能手機(jī)的計算處理能力越來越強(qiáng)大,最終用戶有望在不使用任何專用傳感器掃描儀的情況下捕獲高精準(zhǔn)度的面部三維模型。
西蒙·露西表示,除了面部重建,CMU團(tuán)隊(duì)的方法也可以用來捕捉幾乎任何物體的幾何結(jié)構(gòu),然后,這些對象的數(shù)字重建可以合并到動畫中,或者通過互聯(lián)網(wǎng)傳輸?shù)娇梢允褂?D打印機(jī)復(fù)制這些對象的站點(diǎn)。(摘自美《深科技》)(編輯/多洛米)