武海玲 譚景瑜 谷忠偉 支環宇 金 騰
(央視國際網絡有限公司,北京 100142)
2021年兩會,中央廣播電視總臺央視網推出了兩會特別節目“C+ 真探”,總臺數字虛擬小編小C(以下簡稱“小C”)首次亮相,以新鮮、獨特兼具趣味性的兩會報道方式快速出圈。[1]2022年,央視網繼續對數字人技術成果升級并擴大創新應用范圍,通過融合數字人系統、實時面捕/動捕系統、虛擬演播室系統等多個系統,推出虛擬世界的小C與演播室的真人嘉賓、前方兩會代表三方同框的兩會融媒直播節目《兩會C+時刻》,真正讓3D超寫實數字人技術在主流思想的表達中發揮關鍵作用。

圖1 2022年《兩會C+時刻》直播畫面
本次直播需將數字人小C、兩地嘉賓、虛擬場景、虛擬演播室等多方融合,復雜的直播場景涉及到數據采集、實時渲染、連線播出等多個直播環節,如何實現上下游數據流暢對接實時傳輸,是本次直播面臨的技術難點和挑戰。為確保直播畫面逼真立體、流暢清晰,在技術層面也需攻關解決數字人面部及動作的實時驅動、與虛擬三維場景等融合實時渲染等多個問題。央視國際網絡有限公司通過在UE工程融合、燈光融合、數據融合、驅動效果等多個層面進行針對性調優,對每一個直播環節進行逐項優化,實現多個部分的有效聯接,最終確保了直播效果和直播安全。

圖2 系統架構圖
在直播中,小C需要基于演播室嘉賓、云連線嘉賓的現場表現,及時做出個性化反饋。數字人的面部表情與口型實時驅動技術是核心也是難點。為提高直播中小C面部表情驅動的真實性與靈活性,小C面部建模采用了4D掃描+高保真3D數字人像綁定技術,參見圖3。具體分為兩個步驟:首先,對靜態臉和FACS表情進行掃描建模,并以此為基準,對人像面部進行初步blendshape綁定;其次,基于前期采集的高精頂點流數據和多階段頂點流解算算法,在控制亞毫米級誤差表情重建的同時,實現準確的跨人像表情語義遷移,并針對實時場景優化人像面部綁定效果。

圖3 人像綁定優化與4D掃描數據采集、解算
在口型驅動方面,依托前期積累的大量口型數據和人臉數據標注,通過輕量級的深度神經網絡模型進行人像驅動綁定并反復迭代調優,實現端到端的口型還原及表情實時控制,參見圖4。同時,加入詞匹配、停頓位置匹配、拼音模糊字匹配等功能,降低匹配錯誤率,小C目前的逐字口型準確率均大于98.5%,且驅動渲染性能優異、連線延遲低。

圖4 語音預測口型/表情參數
在動作驅動上,小C采用低時延、高精度、高穩定的專業慣性捕捉方案,把集成了加速度計、陀螺儀和磁力計的IMU 綁在人體的特定骨骼節點上,通過算法對測量數值進行計算實現動作捕捉。該方案采用先進的微型慣性傳感器、生物力學模型以及傳感器融合算法,精準捕捉人體上的細微動作,對采集的傳感數據經過校準、誤差檢測和補償、數據融合后,統一進行三維運動分析。該方案的優勢在于實時捕獲的空間位移數據不受磁性失真的影響,解決了過去慣性捕捉系統漂移、滑腳以及高度跟蹤扭曲等缺陷,在做雙腳同時離地、跳躍、爬樓等動作時均不會產生數據漂移現象。同時,輸出的動作捕捉數據可靠、純凈、完整,不需要進行后處理即可直接使用。
在實際執行中,借助上述傳感器融合技術和動作捕捉引擎,精準采集人的骨骼三維運動數據并分發至虛擬演播室的多個直播機位,平滑連接MotionBuilder、UE4等三維引擎系統,成功將穩定、精準又具備個性化特征的運動數據實時映射至小C模型(參見圖5),準確還原每個動作,實現在直播中與真人嘉賓的實時流暢互動。

圖5 實時動捕參數配置界面
本次直播的主題是“兩會+科技”,小C和現場嘉賓共同置身于一個科技感、未來感超強的虛擬空間進行對話,決定虛擬場景效果的主要因素是燈光。在燈光設計中,使用了基于PBR光照模型中的全局光照算法和光學模型來模擬環境整體光線效果,對反照率紋理、法線貼圖紋理、金屬貼圖、粗糙度貼圖、環境光遮蔽貼圖進行參數化建模(參見圖6),盡量還原現實世界的光照效果。由于場景中的人物和物體對光照的需求不同,在燈光配置時,對場景中的小C和虛擬場景利用不同通道進行燈光配置,減少人物光和環境光的相互干擾,并將照向小C的燈光與人物的位置關系綁定,避免人物在移動時光源隨之移動的問題。燈光的資源消耗是影響直播效果的因素之一。通過對大量光線——物理進行相交測試,進一步提升3D空間中路徑“采樣”的效率,使光線盡可能直接到達觀測點或經過單次反射到達觀測點,從而減少由于多個燈光重疊而產生的復雜光影對計算資源的消耗。同時,采用BRDF對光照反射進行建模,提高渲染效率,有效減少畫面噪點。

圖6 參數化建模截圖
虛擬演播室技術將虛擬場景與攝像機現場拍攝的活動圖像進行數字化實時合成,使得虛擬元素和畫面的三維透視關系完全一致,同步變化,達到逼真、立體的節目效果。本節目使用高精度、可自動跟蹤的攝像機,虛擬渲染主機根據攝像機獲取的跟蹤數據對三維虛擬演播室模型進行位置定位,基于亞像素細節的實時摳像技術,將攝像機信號和虛擬演播室模型進行摳像合成,并將非綠箱部分進行遮罩處理。3DTrackMaker軟件根據跟蹤信息制作鏡頭文件,1:1還原虛擬物體與人物比例,最終輸出逼真豐富的畫面。在直播中,還將虛擬場景的相機與現實相機的推拉搖移實時關聯驅動,為用戶呈現無縫融合的光影效果,實現了高質量的節目播出效果。
連線播出系統以超高清切換臺為核心,前端可實現攝像機、4K多通道錄放機、手機、筆記本、VR、4G/5G背包等多種信號源的輸入、處理和分發,具備字幕編輯制作、IP流信號接入、網絡推流、多通道多碼率錄制等功能。信號輸出通過4K多通道錄放機以及可編輯延時器實現超高清節目錄制和超高清信號網絡延時直播功能。
在實際直播中,連線播出系統在接入端接入虛擬演播室主備信號、小C主備信號、連線嘉賓主備信號等6套信號源,由導播臺進行鏡頭切換。小C、現場嘉賓、連線嘉賓的聲音收錄后均輸入調音臺,經EQ及音頻壓縮處理器進行降噪、混音、聲畫同步處理后,推送至收錄設備將處理好的聲音與畫面合成,最后推流到播出端。在播出端可利用可編輯延時器將直播信號延遲,并推至下游內容分發系統進行多渠道分發播出。
本次直播準備時間緊,直播活動的上下流鏈條較多,需要一套相對完整且安全的網絡環境,服務于虛擬場景、動作捕捉、面部捕捉等多個應用數據分發系統。本次直播網絡上采用了扁平化結構,可快速部署、輕維護,并在通訊傳輸及物理鏈路上充分考慮備份方案,確保當主路出現問題時可以快速切換到備路,確保安全播出。由于數字人、虛擬場景渲染碼率要求高,對網絡流量需求較大,故采用高性能網絡交換機進行網絡連接及數據分發,不同需求的業務通過交換機設置VLAN實現網絡隔離和多種數據類型交換和傳輸。參見圖7。

圖7 網絡部署示意圖
內容安全涉及數據采集、實時渲染、播出畫面等多個環節。在數據采集上制定了多臺手機面捕備播方案,將多臺面捕手機添加至同一局域網中,直播中若主手機出現問題,可自動切換至備用手機。實時渲染層面小C特寫畫面和虛擬演播室均采用主備方案,利用4臺攝像機和6臺渲染引擎同時拍攝、渲染,互相作為備份,一旦有一臺渲染引擎出現故障,迅速切換其他機位進行節目直播。播出層面則由導播臺配置好6臺渲染機畫面和一條備片,提前演練畫面切換,在直播中配置專人審核畫面效果和畫面內容,確保內容安全。
數字人的面部驅動通常采用捕捉技術采集真人演員的動作和面部表情數據,之后將這些數據遷移合成到虛擬數字人身上,再由動畫師手K方式處理異常數據,整個流程時間長、成本高。為滿足直播低延時、低成本要求,在應用層基于手機自帶的ARKit框架開發了一套無穿戴式的低成本實時面捕應用。利用手機的景深攝像頭采集真人的表情參數和人臉位姿,生成面部3D點陣云圖,通過表情重定向、位姿校正與映射等處理后,輸出3D人像的表情參數、人臉位姿(參見圖8),一次采集的數據可以同時發送到四套UE(主備數字人工程、主備虛擬演播室工程)工程中,實時驅動小C做出各種表情,確保多畫面輸出時小C面部效果的一致性,且表情和動作延遲控制在秒級。

圖8 目標人像表情參數、人臉位姿生成
現有虛擬演播室系統大多是基于(或兼容)Epic Games公司的UE4系統做深度研發,能夠兼容標準UE4工程,但在實際使用中因工程個性化開發、多系統協同等原因,往往會出現融合失敗現象。本次活動中,在虛擬演播室工程中嵌入小C和虛擬場景時,出現了工程遷移不成功的情況,原因是小C的UE工程既有動畫藍圖也有角色藍圖,但虛擬演播室系統一般只兼容動畫藍圖。經技術人員多次嘗試探索,最終制定了兩種可行的解決方案,一是將小C工程和虛擬場景融合后,再將虛擬演播室工程遷入融合。二是將小C工程與虛擬場景工程融合后獨立運行,虛擬演播室系統設置為獨立運行模式,最后再將兩者合成。最終兩套方案在本次直播中均加以應用,實現了虛擬場景、小C、現場嘉賓在同一畫面下的實時動態聯動。
節目播出過程中需呈現多個鏡頭切換效果,包括小C和現場嘉賓的大全景、小C特寫、嘉賓特寫等,為提升整體畫面的自然逼真程度,確保用戶視覺體驗,必須保持多鏡頭下燈光效果的一致性。UE4系統擁有完整的虛擬燈光系統,直接影響小C和虛擬場景的亮度、色彩以及光影效果。虛擬演播室系統要調整實景環境專業燈光設備對面光、逆光、側面光、背景光等打光效果,并通過自身的整套燈光控制系統來實現虛實場景燈光融合。兩套系統燈光融合效果的好壞,直接影響燈光的輸出效果。在聯調中,燈光師在最終渲染界面對UE4和虛擬演播室燈光的配置參數反復調優,確保畫面輸出效果統一。此外,過度強調虛擬燈光效果會占用大量的計算資源,影響渲染效果,降低畫面質量,所以利用減少燈光數量、調整燈光位置、強化人物燈光等手段,在有限的計算資源范圍內對燈光性能調優,在確保高質量燈光的同時盡量減少計算資源消耗。
虛擬引擎實時渲染的質量控制,本質是分配計算資源、管控性能損耗的過程。小C作為3D超寫實數字人,僅面部面數就接近10萬面,而面數越多就意味著需要越多的計算資源。同時,虛擬場景的靜態及動態燈光、動態陰影、著色器、虛擬演播室的實時摳像合成等都需要大量的計算資源。如何在功能、品質、性能三者中取得平衡,并在直播安全的前提下達到畫面的逼真、精細、流暢,這都需要反復測試與驗證。經過多天聯調測試,在小C發型和服裝上采用對渲染性能消耗更少的面片頭發和較緊身西裝,將小C獨立工程的直播幀率提升至80FPS以上;進一步優化虛擬場景和半透明物體控制,去掉較為消耗性能的粒子特效,并將場景燈光聚焦于大全景和小C特寫,對非核心區域的元素和燈光做減化處理;優化虛擬演播室合成畫面,在測試播出畫面時發現全景下小C出現局部模糊和畫面錯位問題。問題出在UE4系統自身邏輯及系統插件的使用上,通過拉近相機、關掉動態模糊和發質增強、調整燈光設置、調整深度學習超級采樣(DLSS)設置等方式,進一步優化了小C面部質量和大全景畫面效果,參見圖9。通過多種優化舉措,最終在直播安全穩定的前提下,實現了畫面質量、渲染速度、系統穩定三者的平衡。

圖9 DLSS高級質量功能打開前后對比圖
近期虛擬人呈現井噴式發展,并被廣泛應用于媒體場景,而真正將3D超寫實數字人技術與虛擬演播室技術相結合,并應用于融媒體直播的案例還較少。央視網在《兩會C+時刻》節目實踐中,綜合運用實時面部/動作捕捉、實時渲染、深度學習等多種技術,構建了“3D超寫實數字人+虛擬演播室+直播”虛實結合的直播節目形態,實現了“技術+藝術+思想”的創新表達。加大3D超寫實數字人技術應用力度也是業界探索的方向之一,未來將加大3D超寫實數字人的技術攻關力度,進一步探索將3D超寫實數字人落地更多應用場景。