999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計算技術的虛擬數字人算法研究

2024-05-25 06:29:04鐘政黃琳舒曾炎麟黎雪黃馳
電子元器件與信息技術 2024年2期
關鍵詞:模型

鐘政,黃琳舒,曾炎麟,黎雪,黃馳

廣州城市理工學院計算機工程學院,廣東廣州,510850

0 引言

在數字媒體時代,虛擬數字人在廣播、娛樂和教育等領域已嶄露頭角。它們不僅在網絡上娛樂觀眾,為學生提供個性化教育,還能作為智能助手為日常生活帶來便利。但制作和部署這些虛擬數字人仍面臨諸多挑戰。

1 虛擬數字人技術

1.1 背景與意義

目前,虛擬數字人的制作和部署方式眾多,且驅動系統各異,導致移植和部署過程中出現許多問題。為應對這一挑戰,本文研究了一種云端的輕量、高效且靈活的虛擬數字人部署架構。

1.2 研究問題

本文著重關注了兩項核心技術:算法的容器化和無服務器計算。容器化技術提供了一種高度靈活和可移植的虛擬數字人算法部署方式。無論虛擬數字人的制作者使用何種云計算平臺,算法都可以在容器中穩定運行,實現快速部署和高度的可移植性。

對普通用戶和大多數創作者而言,虛擬數字人既熟悉又陌生。熟悉的是其形象和聲音,而陌生的是背后的技術實現,因為虛擬數字人技術的學習和使用成本相對較高。但在本項目的架構中,算法函數在容器中運行,使得用戶無需關心服務器相關技術,可以專注于內容創作。高級用戶還可以用自己的算法替換原有算法。因此,云計算架構和容器技術使虛擬數字人技術更為便捷和靈活。

與此同時,計算模型(云函數)提供了一種創新的虛擬數字人部署范式。這種模型使得虛擬數字人視頻的制作具有靈活性和便利性。通過結合容器化技術和云計算,構建了一種前沿的虛擬數字人輕量且高效的云上架構,這一架構將推動虛擬數字人技術的普及,更好地服務于觀眾、學生和用戶。虛擬數字人不再僅限于特定平臺或場景,而是能在云端高效運行,為各行業創造更多機會。

1.3 研究目標

本文將聚焦于使用現有的目標檢測算法、二維坐標與三維坐標轉換算法,以及語音生成算法,基于云函數計算和容器化計算,在云端部署一套易復現、高擴展性的虛擬數字人視頻生成系統。

2 虛擬數字人技術

2.1 虛擬數字人建模

虛擬數字人形象建模有許多不同的方法。其中五種常見的方法包括:掃描技術、手動建模、基于圖像的建模、基于物理仿真的建模和混合方法[1]。本文利用blender 3D建模軟件對虛擬數字人形象進行手動建模,這種建模方式可以使得虛擬數字人模型更富有可塑性,在細節方面更具有精準度,在對模型的調整方面更加靈活,也使得模型更加具有設計者的獨特風格[2]。本文成功打造了具有青春活力的大學生形象的虛擬數字人模型,并讓虛擬數字人形象順利完成一些新聞播報視頻的制作。虛擬形象如圖1所示。

圖1 虛擬數字人建模

2.2 人物關節點檢測

人物關節點檢測是虛擬數字人技術的核心環節。其目的是從圖像或視頻中精確定位和識別人體的關鍵部位,例如:頭部、手部和腳部。在這方面,YOLO系列技術備受矚目。特別是YOLO3,它采納了實時目標檢測和識別的方法,以其高效和迅速的特性脫穎而出。本研究參考了YOLO3的方法,能夠從視頻中準確地檢測出人體的17個關鍵節點的二維坐標,如圖2所示,為虛擬數字人的姿態估計提供了堅實的數據基礎。

圖2 人體關節點識別標注

2.3 3D骨骼動畫生成

VideoTo3dPoseAndBvh算法融合了YOLO3模型,能夠將YOLO3逐幀識別的關節點二維坐標轉化為三維坐標。由于人體骨骼、經絡和肌肉之間存在緊密的聯系,基于二維視頻關節點坐標,可以推導出指定坐標系下的三維坐標。獲取三維坐標后,進行坐標轉換,將關節點坐標移至坐標系中心,然后將每幀的三維坐標寫入指定格式的Bvh骨骼動畫文件。最終,在Blender等3D建模軟件中將骨骼動畫與人物模型結合,通過相機記錄動作,生成動作文件,達到驅動虛擬數字人的效果,如圖3所示。

圖3 人物姿態動畫骨架

2.4 語音合成

在虛擬數字人技術中,賦予其說話能力的關鍵是語音合成。雖然存在眾多相關算法,但此處選擇了MockingBird算法,其核心基于Transformer架構。在語音合成的過程中,Mockingbird的工作機制如下。

①文本到語音的轉換:在預訓練階段,Mockingbird利用大量語音數據學習文本到語音的轉換規則。它嘗試預測輸入文本的下一個音頻幀,通過這種填空方式來掌握文本與語音的關聯。

②模型的重新訓練:在此階段,需要為模型加入更多的中文訓練數據,使得模型對中文語音的合成有更好的魯棒性,MockingBird通過大量的音頻學習,掌握了如何從中文文本映射至相應的中文語音。

③模型的微調:在此階段,Mockingbird使用標注的文本數據,例如句子及其對應的語音,來微調預訓練的模型參數,確保輸出的語音與輸入文本高度匹配。

④WaveNet聲碼器的輸出:為了產生高品質的語音輸出,Mockingbird結合了WaveNet聲碼器。WaveNet是一種能夠產生自然語音波形的先進聲碼器。

⑤文本語音的合成:通過結合Transformer與WaveNet,Mockingbird能夠生成文本合成的語音波形,為虛擬數字人提供了逼真的語音輸出,并確??谛团c語音同步。

系統的核心目標是生成高品質的動畫和語音,使得虛擬數字人能夠逼真地展現其動作和語音。通過整合VideoTo3dPoseAndBvh算法與Mockingbird算法,構建了一個強大的系統,適用于虛擬演員、虛擬主播、游戲角色等多種應用場景。這一基于容器技術和云函數集群的無服務器架構,優雅地應對了多模型應用場景的挑戰,允許虛擬數字人的驅動流程與語音合成流程并行運行,為虛擬數字人技術的應用和部署開辟了新的路徑。

2.5 視頻處理算法

在視頻處理過程中,采用了VideoTo3dPose AndBvh算法,其核心步驟如下。

①人物關節點識別:利用YOLO3對視頻中的人物關節點進行識別,從而提取出二維關節點坐標。這些二維坐標為后續推導出三維關節點坐標提供了基礎。

②2D坐標標準化:為了確保數據的一致性和方便后續計算,對提取的2D坐標進行標準化處理,使其均勻分布在-1到1的范圍內。這一步驟確保了來自不同視頻源的數據具有一致性。

③3D坐標生成:基于標準化的2D坐標,VideoTo3dPoseAndBvh算法將其映射到三維空間,生成對應的3D關節點坐標。這些三維坐標包括x、y和z軸的位置信息,為接下來的骨骼動畫文件生成提供了關鍵數據。

④坐標軸轉化:在合成和渲染視頻的過程中調用了blender SDK的相關接口,由于blender等不同3D渲染軟件可能存在參考系差異,因此,在視頻合成腳本中加入了可選的坐標軸轉化。

⑤模型骨骼綁定:在驅動虛擬數字人模型時,需要將模型與骨骼進行綁定,而模型尺寸與骨骼尺寸很可能不匹配,因此在綁定前需要根據模型尺寸比例對骨骼尺寸進行調整,使得模型尺寸與骨骼尺寸相吻合,如圖4所示。

圖4 調整前后示例

⑥視頻合成:在模型骨骼綁定以后,視頻合成腳本將會把預制視頻環境載入,隨后調用3D渲染軟件的視頻制作接口,導出動畫視頻,最后將音頻與視頻進行結合,導出視頻片段文件至指定區域,在最后部分視頻片段完成以后,調用流處理腳本,將多個小的視頻片段文件整合成完整視頻存儲。

3 云上架構

遵循云原生理念,構建了如圖5所示架構,并通過容器技術將算法部署在云函數中。

圖5 云上架構(以亞馬遜云為例)

3.1 云函數計算

無服務器計算是一種新興的云計算范例,它旨在簡化應用程序的部署和管理。云函數允許開發者將代碼片段上傳到云平臺,而無需擔心底層服務器的配置和維護。這種計算方式具有自動化、事件觸發、高度可伸縮性等特點,非常適合響應性事件驅動的需求。在系統中,云函數集群構建在無服務器架構上,這使得系統具有高度的靈活性,能夠根據工作負載的需要自動擴展或縮減,以響應不同的流量需求[3]。

3.2 云函數集群架構

由于視頻數據可以進行幀級別并發,為了盡可能滿足不同視頻多任務并發和視頻內幀級別并發的需求,系統的部署使用容器映像來創建云函數,這種方式可以保證不同任務間和同一任務內部的計算資源隔離,以及云函數的快速啟動,實現快速拉起算力,完成多層次的并發處理。

在部署階段,用戶首先使用云資源監測服務來進行負載測試。通過在單個云函數中對模型進行單幀或小時間片段的負載測試,用戶可以根據實時性需求計算出單個模型所需要的并發云函數需求量。這個過程的目的是通過云監控服務獲取單個云函數對算法的處理能力,根據客戶期望的處理速度,計算出相應時間內需要拉取的云函數數量,并最終配置云函數倉庫中的云函數參數。根據測試數據來獲取合適的云函數并發量,系統可以對云函數觸發數量進行配置,從而滿足用戶對任務處理速度的需求。在使用階段,用戶只需要將數據流上傳至云端,并通過云廠商提供的流處理服務觸發云函數[4]。云函數會對數據流進行處理,并將處理結果返回給參數服務器,最終將整合完成后的數據流保存到對象存儲服務中。這一過程實現了數據流的處理和存儲的自動化,大大提高了數據處理的效率和靈活性[5]。

云函數計算在處理大規模數據流時具有很大的優勢。通過合理配置云函數并發量,可以靈活地處理不同規模和實時性需求的任務。將各種算法分別編排為云函數集群,根據云函數數據吞吐率定義集群中單次任務響應云函數數量,如圖6所示。云函數計算的使用還能減少資源的浪費,因為,用戶可以根據實際需求動態調整云函數的數量和并發量,避免了資源浪費。

圖6 云函數并發處理結構

4 總結

云上架構的成功應用:本文成功構建了一個基于云端的架構,通過容器技術部署了Video To3dPoseAndBvh和Mockingbird兩大算法和視頻合成腳本三部分云函數集群。這一架構為虛擬數字人的動作和語音合成提供了高效且靈活的解決路徑。

YOLO3的表現:YOLO3在人物關節點檢測上有著出色的表現,能夠準確地檢測出17個關鍵節點。但在某些遮擋情況下,該算法可能會遇到錯檢、漏檢或關節點扭曲的問題。為了進一步提高算法的穩定性,未來的研究方向可以集中在增強算法的魯棒性。

VideoTo3dPoseAndBvh算法的效果:該算法成功地將2D關節點坐標映射到3D空間,并生成了高品質的骨骼動畫。但在處理低幀率視頻時,可能會出現動畫不流暢的現象,這提示我們在未來的優化中考慮動態調整幀率。

Mockingbird算法的應用:Mockingbird為虛擬數字人提供了高度逼真的語音合成效果,極大地增強了虛擬數字人的真實感和吸引力。但在部分語音合成任務中,合成的語音存在著部分噪聲,在優化語音合成效果方面,需要進一步提高訓練數據的質量,在進行模型訓練前需要對訓練數據進行降噪處理,降低噪聲干擾。

視頻合成腳本:視頻合成腳本可完成虛擬數字人模型和骨骼動畫的綁定,并調用3D動畫制作接口渲染出虛擬數字人視頻,最后完成視頻和音軌合并等一系列任務。但腳本中的模型骨骼綁定算法需要提前輸入模型尺寸數據,這部分往往需要手動測量,在虛擬數字人模型更換時較為復雜。在系統改進方案中,可進一步調用YOLO3算法,對虛擬數字人標準T型姿勢下各部分軀體數據進行監測,在虛擬數字人模型更換時自動完成模型尺寸數據的更新。

5 結論

經過本次項目的深入探討與實證分析,在虛擬數字人領域的云計算技術應用上取得了顯著的研究成果。基于云端的架構在實現虛擬數字人驅動時表現卓越,實現了視頻到3D姿態及動畫的高效轉換,并利用Mockingbird算法為數字人帶來了高度真實的語音效果。但當前模型尺寸的手動輸入過程繁瑣,未來計劃集成更智能的算法,如利用YOLO3自動檢測并更新模型尺寸數據,從而優化用戶體驗。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美伦理一区| 97国产在线播放| 国产区人妖精品人妖精品视频| 91精品免费高清在线| a欧美在线| 美美女高清毛片视频免费观看| 久久综合九色综合97婷婷| 国产办公室秘书无码精品| 国产精品欧美激情| 中国特黄美女一级视频| 久久国产香蕉| 成人年鲁鲁在线观看视频| 无码内射中文字幕岛国片| 欧美人人干| 国产va免费精品观看| 久久久受www免费人成| 欧洲亚洲一区| 国产尤物在线播放| 久久久91人妻无码精品蜜桃HD| 国产在线小视频| 国产精品嫩草影院视频| 久久人人爽人人爽人人片aV东京热| 亚洲中文无码h在线观看| 日韩无码黄色| 中文字幕人成人乱码亚洲电影| 色妺妺在线视频喷水| 中文字幕久久亚洲一区| 四虎免费视频网站| 亚洲欧美日本国产专区一区| 国产农村妇女精品一二区| 精品视频在线观看你懂的一区| 国产精品对白刺激| 亚洲床戏一区| 日本国产在线| 欧美日韩一区二区三区在线视频| 欧美午夜一区| 九九视频在线免费观看| 青青青视频91在线 | 国产性生大片免费观看性欧美| 欧美午夜小视频| 日本人又色又爽的视频| 黄色污网站在线观看| 国产天天射| 日韩免费成人| 亚洲无码91视频| 亚洲精品片911| 72种姿势欧美久久久久大黄蕉| 精品91在线| 国产亚洲视频中文字幕视频 | 国产美女91视频| 五月丁香在线视频| 国产精品深爱在线| 国产白浆在线观看| 91福利片| 亚洲精品少妇熟女| 欧美成人看片一区二区三区| 亚洲激情区| 久久综合色视频| 精品日韩亚洲欧美高清a| 无码专区在线观看| 91一级片| 在线视频精品一区| 亚洲成人精品久久| 欧美综合区自拍亚洲综合绿色| 免费人成黄页在线观看国产| 91免费在线看| 国产第四页| 色婷婷天天综合在线| 91久久夜色精品国产网站| 她的性爱视频| 亚洲无码一区在线观看| 亚洲狼网站狼狼鲁亚洲下载| 情侣午夜国产在线一区无码| 欧美a级在线| 99久久精品免费看国产电影| 日韩小视频网站hq| 日本精品一在线观看视频| 高清欧美性猛交XXXX黑人猛交| 国产乱人乱偷精品视频a人人澡| 一级做a爰片久久毛片毛片| 成人午夜视频网站| 亚洲三级片在线看|