□郭全中 黃武鋒
虛擬主播從發軔到現在經歷了虛擬主持人、虛擬主播到AI 合成主播三大階段,而背后的驅動力量則是AI 技術的發展和演進,不同階段的虛擬主播不斷拓展應用場景。
2000年,互聯網泡沫開始破裂,互聯網遭遇了第一次重大挫折。而傳媒業為了更好地、更快地報道新聞,需要加快新聞生產速度、提升新聞生產數量,以及提高新聞報道的準確性,虛擬主持人成為一項不錯的選項和探索。英國PA New Media 公司于2001年推出了阿娜諾娃(Ananova),并將其作為英國傳媒業與美聯社對抗的“秘密武器”。CNN 更是將其描述為“一個可播報新聞、體育、天氣預報等(節目)的虛擬播音員,堪比一個真實的有血有肉的主播”。當時的阿娜諾娃,可以根據新聞腳本快速制作視頻,并可24 小時連續播報,即使其智能化水平很低,只是只有頭部動畫、表情也略顯僵硬的2D 虛擬人物,也引起了全世界傳媒業的借鑒和學習。中國推出了GoGirl、麗麗(Lili)、阿拉娜(Alana)、伊妹兒、妹妹(Meimei)、小龍、福老太等,韓國推出了露西雅(Lusia),日本推出了寺井有紀(Yuki),美國推出了薇薇安(Vivian)。而且虛擬主播的形象也在不斷完善,從2D虛擬人物到3D 虛擬人物,從只有頭部到擁有全部身體,從只有虛擬人物播報到擁有演播室進行播報。
但是由于AI 能力水平的嚴重不足,誕生4年后的2004年,阿娜諾娃就徹底告別了歷史舞臺,很多媒體又重新回歸真人主持。虛擬主持人之所以遭遇滑鐵盧,深層次原因是AI 能力嚴重不足,具體表現為:一是由于AI 能力不足導致成本高昂,制作效率低下。AI 能力引入的目的是降本提效,但是由于AI 技術遠未成熟,導致虛擬主持人的制作成本遠超真實主持人,而效率卻遠低于真實主持人。二是語音識別和自然語言處理能力難以達到對虛擬主持人的基本要求。對主持人來說口才要求極高,相應的,對虛擬主持人語音、表情、肢體等要求也都很高,但是由于語音等AI 能力的嚴重不足,導致虛擬主持人的“音”“容”“笑”“貌”都不夠自然,且時效性不夠。
2016年是毫無疑問的人工智能元年,誕生于1956年的人工智能于這一年突破了全面商業化的臨界點,基于深度學習技術的AlphaGo 以4:1 打敗圍棋世界冠軍李世石,微軟人工智能的語言理解能力超過人類,科大訊飛、搜狗、百度先后召開發布會,對外公布語音識別準確率均達到97%。
在語音識別等AI 能力得到本質性突破的情況下,虛擬主播熱潮再起,而首先體現在虛擬偶像上。2016年,全球第一位虛擬主播(Virtual YouTuber)絆愛(Kizunaai)在YouTube 上線,注冊頻道名為A.I.Channel。角色形象由森倉圓設計,3D 模型由Tda 制作。絆愛由真人扮演而成,即在絆愛的3D 模型后,由真人穿上動捕設備,在背后控制絆愛的面部動態表情及動作,并由聲優去配音及對口型,進而進行直播或錄制視頻。絆愛與早期的虛擬主持人存在的主要區別在于:一是絆愛背后有真人扮演,而虛擬主持人背后沒有;二是絆愛采取的二次元形象,而不是虛擬主持人的“像真人”形象;三是絆愛的智能化水平遠遠超越虛擬主持人,體現在3D 形象、語音、動作、表情上等;四是制作質量、效率和體驗感得到了質的提升,得到了市場的高度認可,絆愛也成為全民偶像。
虛擬形象的生成與打造,尤其是語音技術的突破性進展,為虛擬主播的大規模應用奠定了堅實基礎,虛擬主播如雨后春筍般出現,截至2018年底,全球各大平臺上的虛擬主播已經超過了6000 個。2018年,科大訊飛攜手相芯科技打造了虛擬主播 “康曉輝”,“康曉輝”有著與真人康輝相似的外貌,成功主持了相關節目并在現場進行了實時互動。虛擬主播“康曉輝” 的最大優勢是背后的虛擬形象生成技術(PTA),該技術只需普通攝像頭和一張自拍,就可實時生成與自己相似且更美觀的3D 虛擬形象,而不再需要3D 虛擬形象定制高昂成本。①
隨著大數據、人工智能技術的快速進步,AI 能力得到了顯著提升。2018年,搜狗和新華社聯合推出了全球首個AI 合成主播;2019年央視網絡春晚推出AI 虛擬主播團隊;2019年全國“兩會”期間,新華社推出AI 虛擬主播“新小萌”,《人民日報》推出AI 虛擬主播“小晴”,AI 合成主播呈遍地開花的狀況。
在電影《西蒙妮》中,人們理想中的AI 虛擬主播,是一個由計算機虛擬合成的、高度逼真的三維動畫人物。其不僅言行與真人無異,且可以完成所有的表演、播報等工作,她外形美麗、極具魅力但又沒有任何緋聞,并且能夠翻越“恐怖谷”,是徹徹底底的AI合成主播的“完美代言人”。2019年《阿麗塔:守護天使》中的阿麗塔就滿足了上述條件,并成為世界上第一個翻越“恐怖谷”的虛擬人物。當然,阿麗塔的成本很高,而要真正實現AI 合成主播的大規模使用,必須低成本地實現CG(計算機動畫)技術從影視級到消費級的大幅度下降。
結合AI 合成主播的業界實踐,主要有三類模式。一是來源于影視業的“真人操作”模式。這種模式需要真人配合演繹,前期需要進行大量的數據采集,中期需要動捕設備來配合播報,后期需要對視頻制作進行再加工。這種模式的成本很高,僅限于一些大企業和大媒體,很難進行大規模推廣。二是來源于全息投影的“AR+AI”模式。該模式嚴重依賴于增強現實技術,需要提前設置好AI 虛擬主播的回答、動作、表情等,并通過其與真人主播的互動來制造真實感;并且AI 虛擬主播是后期做上去的,現場真人主持與其互動時就需要靠“演”,這種方式對真人主持和后期制作的要求都極高,也難以實現大范圍推廣。三是專注于AI 能力的全AI 化模式。該模式分為定制AI虛擬主播和使用視頻制作后臺兩個步驟,并專注于用AI 來替代人力,將虛擬主播的語音、情緒、動作,乃至后期視頻制作需要的圖片、視頻等都集成到后臺編輯系統中。②該模式的自動化程度高,制作成本較低,且效率能得到大幅度提升,未來的應用前景廣闊。
從虛擬主播的三個發展階段來看,快速躍升的AI 能力至關重要,而核心是能夠改善人機交互的自然語言處理技術和讓虛擬主播更鮮活的語音動畫合成技術。
所謂虛擬主播尤其是AI 合成主播,是指存在于虛擬世界中,基于計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等技術打造的,具有外貌特征、表演能力、交互能力等人類特征的主播。虛擬主播發展的關鍵是AI 能力,目前已經處于初級發展階段的爆發期。
虛擬主播發展的關鍵是技術能力尤其是AI 能力,主要體現在兩個方面:一是各種先進技術的技術集合體,集成了計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等技術;二是具有人類人設的數字化形象,即具有類似于人類特征以及人類的相關能力,而這需要極其強大的AI 能力。
虛擬主播及其產業發展的影響因素主要有技術、用戶、參與企業、政策、資本五大方面。
第一,技術是核心驅動力。互聯網及其相關產業的發展中,技術居于驅動性力量的基礎地位,虛擬主播作為新的技術集合體,技術在其中更是起著根本性作用。具體來說,虛擬主播的人物形象已經從2D轉變為3D;人物表達、合成顯示、識別感知、分析決策的AI 能力都顯著提升。
第二,二次元用戶是堅實基礎。虛擬主播的前期用戶和忠誠用戶主要是二次元用戶,此后不斷破圈向其他圈層快速發展。艾瑞咨詢發布的《2021年中國二次元產業研究報告》 顯示,泛二次元用戶規模在2020年突破4 億,2023年有望突破5 億。
第三,數量眾多、類型豐富的參與企業促進虛擬主播在更多的場景落地。騰訊、字節跳動、網易、科大訊飛等無疑是虛擬主播產業的主導,而芒果超媒、藍色光標、奧飛娛樂、天舟文化等上市公司也在各個領域廣泛布局。尤其隨著直播電商的高速發展以及企業品牌營銷的需要,虛擬主播在更多的場景、更多的企業、更大的范圍內得到應用。天眼查數據顯示,我國現有“虛擬人”“數字人”的相關企業28.8 萬余家。2016-2020年,5年新增注冊企業增速復合增長率近60%,行業進入爆發期。[1]
第四,利好政策助推虛擬主播高速發展。互聯網產業尤其是我國的互聯網產業對政策高度敏感,利好政策將為相關產業提供良好的保障環境。2020年10月20日,國家廣電總局出臺的《廣播電視和網絡視聽“十四五”科技發展規劃》中明確指出,推動虛擬主播、動畫手語廣泛應用于新聞播報、天氣預報、綜藝科教等節目生產。這不僅有利于虛擬主播在傳媒業的廣泛應用,而且有利于虛擬主播向直播電商等領域的拓展。
第五,巨量資本融入極大地縮短成長周期。除了互聯網巨頭廣泛布局虛擬主播之外,各類基金也在大力投資虛擬主播賽道。根據天眼查數據,2021年,虛擬數字人相關投資有16 筆,數量同比翻番,紅杉資本、GGV 紀源資本、峰瑞資本等知名投資機構都名列其中。截至2022年4月20日,虛擬數字人領域投資已有9 起,投資總額超百億元。
虛擬主播屬于虛擬數字人的重要組成部分。虛擬數字人包括虛擬偶像(洛天依、柳夜熙、翎Ling、梅澀甜等,類似于真人偶像)、虛擬主播(央視網小C、新華社小諍、《人民日報》果果、湖南衛視小漾等,除了新聞主播、視頻平臺主播外,還包括各種帶貨主播等)、虛擬員工(百信銀行AIYA、哈爾濱啤酒哈醬、OPPO 小布等,企業形象代言人、智能客服等)。發展到今天,虛擬主播處于高速成長期,但是依然處于初級發展階段。
第一,虛擬偶像(主播)市場需求大。艾媒咨詢發布的《2021 中國虛擬偶像行業發展及網民調查研究報告》 顯示,2020年中國虛擬偶像核心產業規模為34.6 億元,同比增長70.3%,預計從2021年到2023年將分別達到62.2 億元、120.8 億元、205.2 億元;虛擬偶像帶動產業規模2020年為645.6 億元,同比增長69.3%,預計從2021年到2023年分別為1074.9 億元、1866.1 億元、3334.7 億元。此外,超過八成網民有日常追星的習慣,其中63.6%的網民支持和關注虛擬偶像的相關動態。同時,有八成網民為虛擬偶像每月花費在1000 元以內,且37.6%的網民表示愿意花更多的錢支持虛擬偶像,手辦、唱片等周邊產品已經成為虛擬偶像流量變現的重要渠道。有88.5%的偶像愛好者加入社群交流,并通常加入2-3 個社群。
第二,互聯網平臺企業積極拓展虛擬主播業務。B 站得益于二次元文化,很早布局虛擬主播業務并取得了顯著成績。B 站早在2018年就開通了虛擬主播板塊,同年還與日本游戲廠商GREE 合資成立bG Games 公司,共同開展面向中國和日本地區的手機游戲以及Vtuber(虛擬主播)業務。根據陳睿在B 站12周年慶上的演講,截至2021年6月,B 站有32412 名虛擬主播,同比增長40%。此外,騰訊、阿里巴巴等其他互聯網平臺也高度重視虛擬主播,并投入巨資開發和運營虛擬主播。
第三,企業紛紛開發虛擬主播進行品牌營銷。隨著“Z 時代受眾”群體的崛起,以二次元用戶為核心用戶的虛擬主播迎來快速發展期。在虛擬主播1.0 時代,虛擬主播官方主動權更大,且由于互聯網發展所限,虛擬主播與粉絲關系多為粉絲單向崇拜;在虛擬主播2.0 時代,虛擬主播與粉絲的關系不再是單向崇拜,而是虛擬主播—粉絲群體的雙向建構;而在虛擬主播3.0 時代,隨著圖形渲染、圖像識別、動作捕捉、深度學習等技術的成熟,虛擬主播正不斷滲透和參與到現實生活中。[2]
媒體深度融合轉型面臨多重難題: 一是受制于內容生產能力尤其是短視頻內容生產能力不足,難以有充足的內容吸引足夠規模的用戶;二是AI 能力的不足導致難以與用戶進行有機交互,用戶體驗性不好。進而導致難以建立起緊密的用戶連接,而虛擬主播可以在一定程度上解決上述難題。
1.虛擬主播是人工智能時代媒體轉型的必然選擇
在人工智能時代,傳媒業被徹底重構和顛覆,大數據和人工智能技術進入到傳媒業的每一個環節并徹底重構,從新聞內容生產、發布,新聞內容的數據化,到用戶畫像以及與用戶的互動、及時反饋。而虛擬主播在降低內容生產成本、全天候服務和生產海量的短視頻方面都有突出作用。
第一,虛擬主播能夠大幅度降低新聞內容生產成本。虛擬主播是在之前的新聞機器人基礎上迭代創新而成的,除了具備新聞機器人的海量、快速、高效的優勢之外,且能夠大范圍覆蓋長尾市場和利基市場,極大地減少了人工成本和內容生產成本。
第二,虛擬主播可以全天候服務并分身多個應用場景。虛擬主播作為機器人,不僅可以不知疲倦地24 小時不間斷全天候服務,而且可以同時分身服務到多個應用場景,尤其是在重大突發事件主持人難以到場時。
第三,虛擬主播可以提供海量的短視頻內容,彌補傳統媒體短視頻內容生產能力的不足。海量的、多元化內容是互聯網轉型的必要條件,否則難以吸引足夠數量的用戶。互聯網平臺媒體一方面通過平臺上的數量龐大的自媒體來提供海量的、多元化的內容,另一方面利用人工智能技術生產大量的短視頻。傳統媒體囿于人才、技術、資金等各種制約,難以生產出海量的短視頻內容,而基于人工智能技術的虛擬主播則提供了一種可能性,可以為傳統媒體的互聯網轉型提供海量的短視頻內容,彌補傳統媒體創辦的互聯網媒體的內容短板。
2.媒體轉型中的虛擬主播絕大多數尚未實現智能化、個性化
在媒體融合進程中,傳統媒體高度重視大數據和人工智能技術,一些技術較為領先的媒體推出自己的新聞機器人,如封面新聞的“小封”等。而在媒體深度融合的過程中,傳統媒體高度重視虛擬主播的作用,紛紛和互聯網公司或技術公司合作推出各種各樣的虛擬主播,但是從實踐應用來看,虛擬主播基本上只是實現了“形似”,部分實現了“神似”,遠遠沒有達到智能化和個性化。
第一,部分虛擬主播實現了“神似”。媒體深度融合轉型過程中,傳統媒體推出了數量眾多的虛擬主播形象,基本上實現了“形似”,并且有部分已經達到了“神似”水平,即除了外表及其細節相似之外,借助于自然語言處理技術和語音動畫合成技術等新技術,實現了語言、聲音及其細節的逼真,虛擬主播的播報更為自然、鮮活。
第二,絕大多數虛擬主播尚未實現智能化和個性化。真正智能化的虛擬主播需要先進的人工智能技術為支撐,以及規模不小的資金投入,并需要長時間的迭代進化。例如,在2019年動畫電影《阿麗塔:守護天使》中虛擬卡通人物阿麗塔,就是世界電影史上首次CG 和真人結合的類人類角色,導演卡梅隆組建了800 人的特效團隊,當時用于渲染畫面的電腦多達3 萬臺,綜合運算時間長達4.32 億個小時。為了達到細節上的逼真,肢體動作、面部表情都屬于基本操作,單單是阿麗塔的皮膚,就做了1000 萬根頭發和500 萬個毛孔,還有毛孔里的絨毛。③但是囿于技術能力欠缺和投入不足等原因的制約,傳統媒體打造的絕大多數虛擬主播難以實現智能化和個性化。喻國明認為,虛擬人的第一階段技術(形似階段)已經比較成熟,目前已經處在批量推出的階段,但是一個突出的問題是,虛擬人的個性化程度還遠遠不夠。也就是說,現在的虛擬主播還是“肉喇叭”,只是后臺內容簡單的傳達者。[3]
虛擬主播能夠成為現實世界和虛擬世界之間溝通的有效橋梁,但發展中也面臨諸多難題,而短期引爆點除了傳媒業之外,面向B 端的各類服務將是主要引爆點。
目前,雖然虛擬主播及其產業已經開始加速,但是要實現大規模商業化,仍面臨技術門檻高、周期長、成本高、人才稀缺等難題。正如前文所述,虛擬主播是先進技術集合體,具有較高的技術門檻。真正智能化、個性化的虛擬主播更需要較長周期的迭代創新,尤其是打造一個高精度、高保真的非特異型虛擬主播,動輒就需要百萬元甚至上千萬元的資金投入,這不是一般的小企業或者小媒體能夠承受的。此外,我國虛擬主播產業的人才短缺現象極為明顯,不僅相關領域的軟硬件工程師極為熱門,而且與此相關的技術美術人才如動畫師、三維角色綁定師、特效設計師等也出現了巨大的缺口。
目前來看,虛擬主播主要應用場景是面向B 端的媒體服務、品牌營銷服務。尤其在企業品牌營銷方面,虛擬主播有著巨大的潛力和發展空間,重點體現在直播帶貨領域。具體來說,一方面,基于文本共創模式,KOL 粉絲與虛擬主播形成切實利益共同體,更有助于抓住粉絲注意力;另一方面,與粉絲形成強關系鏈接,提升虛擬主播跨平臺牽引力和帶貨能力,大幅弱化直播帶貨領域對真人主播的依賴。而未來則可以通過如下兩種方式來進一步提升虛擬主播在品牌營銷中的應用:一是粉絲共創+私域營銷,強化品牌認知。與虛擬主播跨界聯合,為粉絲提供廣闊的文本生產空間,品牌將獲得大量曝光和UGC 內容,強化其在Z 時代受眾中的認知和知名度、好感度,為后續轉化進行鋪墊。二是垂直領域主播+電商平臺,刺激消費轉化。虛擬主播在社交平臺上吸引因一致性趣緣而聚在一起的粉絲,并使之形成粉絲社群,這種模式天然具有分眾化趨勢,深耕垂直領域成為虛擬主播的不二之選。
注 釋:
①②③均參見相芯科技微信公眾號《AI 虛擬主播簡史,帶你走進虛擬主播的前世今生》,2019-05-28。