茍尤釗,季雪庭,葉盈如,武 強,呂琳媛*
(1. 杭州師范大學阿里巴巴商學院 杭州 311121;2. 杭州師范大學數字經濟研究院 杭州 311121;3. 電子科技大學基礎與前沿研究院 成都 610054)
元宇宙(Metaverse)一詞由前綴meta(意為超越、元)和詞根verse(源于universe,意為宇宙)組成,直譯就是“元宇宙”,是建立在網絡、算力和算法之上的平行于現實世界的數字化世界,可以看作是現實世界的延伸,預示著互聯網未來的發展方向。元宇宙利用虛擬現實(virtual reality, VR)、增強現實(augmented reality, AR)和互聯網(internet)等技術,將現實世界投射到數字世界中。人們可以通過虛擬形象在元宇宙中搭建社交、生活、甚至經濟系統,實現現實世界和虛擬世界的融合。
在過去很長一段時間內,元宇宙主要流行于科幻小說中,對于大多數人而言,這完全是個生僻詞。然而,這個早在30 年前就出現的概念卻在2021 年受到極大關注,并掀起了一股討論元宇宙的熱潮。首先是2021 年3 月號稱“元宇宙第一股”的Roblox 公司上市。隨后,英偉達等科技公司陸續宣布進軍元宇宙。10 月全球最大的社交網站臉書更是將公司名改為“Meta”。11 月,韓國首爾市政府宣布,啟動“元宇宙首爾”計劃,打造元宇宙城市。我國上海、杭州等城市也陸續提出發展元宇宙的計劃。元宇宙重新走進大眾視野,2021 年也因此被稱為“元宇宙”元年。
在智能時代,技術進步成為推動元宇宙發展的關鍵動力。當元宇宙概念重新進入人類視野后,我們需要“拋開現象看本質”,針對元宇宙的技術體系的形成與演化進行歸納和分析。這些原本各自發展的技術,在元宇宙的體系下進行交叉疊加發展,演進到當前的階段[1]。本文將元宇宙相關的人機交互、人工智能等多種技術歸納在一個技術體系下,對認識元宇宙發展的歷史脈絡和未來趨勢具有重要意義。
作家尼爾·斯蒂芬森1992 年出版的科幻小說《雪崩》中描寫了一個命名為“元界”的世界,其平行于現實世界。元宇宙的最初概念就來自于“元界”,一般理解為“超越現實世界之外的世界”(如圖1 所示)。

圖1 元宇宙的概念
元宇宙基于人工智能、區塊鏈等技術,將現實世界的經濟、社會映射到虛擬世界,構建了一套新的經濟、社會系統。元宇宙作為“新的經濟、社會和文明形態”[2],將徹底改變我們與時空交互的方式,形成在虛實兩個維度上的新型生活方式。現在,元宇宙正處于不斷演化、發展的階段,還沒有一個統一的表述形式。因此,不同的參與方針對元宇宙存在多種表述,如表1 所示。

表1 元宇宙的相關定義描述
現實世界存在兩大關鍵要素:生產資料和生產關系。實際上,盡管存在不同的認識和定義,元宇宙中的世界也是對生產資料和生產關系改造和重構。因此,和現實世界類似,元宇宙中的發展也符合人類社會的發展規律。在元宇宙中,復雜和多樣化的人際關系也出現在虛擬數字人中,并能產生基于數字商品交換為基礎的社會經濟活動。
元宇宙的發展首先聚焦生產資料(人、信息與技術)的突破,然后通過生產關系(人與人、信息、物品的交互)的協作進行進一步發展。但是,在現階段,元宇宙在內容生產、數字貨幣、交易規則等,有待進一步完善,真正元宇宙時代的來臨仍有待時日。
在對元宇宙的理解中,不同的機構突出了對某一種或幾種技術的重視性。如臉書公司強調虛擬現實(VR)技術的重要性,而英偉達公司特別重視數字孿生技術(digital twins)。雖然這些技術對于元宇宙的形成和發展很重要,但是并不能孤立地看待某種技術和元宇宙之間的關系,認為只要某個技術取得了突破,就能進入元宇宙,顯然有失偏駁。
一方面,元宇宙的發展是一個過程,在某一時刻,構建元宇宙所需要的技術并不是特定的。如目前VR 被認為是元宇宙相關技術中的重要技術,但被公認為目前最具有元宇宙特征的Roblox 公司的產品中并沒有用到VR。另一方面,從功能的實現來看,元宇宙需要多種技術的交叉融合。如現在VR 技術發展的一大難題就是降低眩暈感,這就需要5G 或者更好的通訊技術作為支撐。
實際上,人們的合理想象如何在元宇宙中實現和運行,會受到技術條件和各種物質環境的約束[3]。反觀,這些技術究竟會被以怎樣的方式應用到元宇宙,同時又會怎樣促進技術本身的發展,卻是取決于我們對元宇宙的正確“想象”。
因此,從這個角度看,元宇宙并不是一個靜止的概念,而是一個想象和技術相互反應、相互交叉、聚合的過程。在不同的技術條件下,人們認識到的元宇宙是不同的,如表2 所示。

表2 不同技術基礎上的元宇宙
元宇宙技術由多種數字技術融合構成。在查閱與元宇宙相關的各種報道時,發現交互技術、人工智能、高性能計算等充滿科技感的詞匯都和元宇宙存在交集。在相關研究基礎上,本文將其中的關鍵技術分為8 類:1) 區塊鏈技術(blockchain technology);2) 交 互 技 術(interaction technology);3) 通訊技術(5G、6G,communication technology);4) 云和邊緣計算(cloud and edge computing);5) 高性能計算(high-performance computing);6) 物聯網(internet of things, IoT);7) 網 絡 技 術(network);8) 人工智能技術(artificial intelligence)。
基于以上8 類技術的首字母縮寫,本文提出了BIGCHINA 技術體系。當利用Web of Science的文獻引用信息繪制和元宇宙相關的技術詞云時,借用中國地圖形態呈現該詞云。因此,也將其稱為支撐元宇宙發展的“大中國”技術體系[4]。中國自古以來“以天下為己任”的世界觀,也符合元宇宙作為全球數字一體化背景下人類所共享的跨邊界、去中心化的開放互通平臺的特征,預示著其未來可能的一種理想形態。元宇宙集成和整合了之前很多的技術,其未來的想象空間巨大,潛力得到更全面的釋放[5]。
BIGCHINA 技術體系如圖2 所示,接下來將逐一對這8 類技術的基本狀況進行介紹,分析順序并不嚴格按照“BIGCHINA”的字母順序。

圖2 BIGCHINA 技術體系
從技術角度看,元宇宙是由計算機生成的,因此計算機成為進入元宇宙的必要途徑。并且,一個人在元宇宙內的所有行為,也都是通過計算機來實現的。因此,當需要找到一個現實世界通向元宇宙的“大門”時,人機交互就是打開這個大門的“鑰匙”。
雖然計算機是人類發明的工具,但自它發明以來,卻一直處在“主體”的位置,人們要根據機器的特征去調整與它的交互方式。在這種條件下,人的創造性和能動性受到束縛。因此,實現人機交互的根本變革,實現從“機器是主體”到“人是主體”的轉變就十分重要[6]。元宇宙把人們從過去通過文字、代碼等方式進行人機交流的情境中解脫出來,轉而在一個虛擬環境下,用更為自然的方式來達成人機交互。而要做到這一點,就需要有多種技術進行支撐。
與元宇宙相關的交互技術主要分為兩類:擴展現實技術(extended reality, ER)和輸入技術。前者又包括了虛擬現實(VR)、增強現實(AR)以及混合現實(mixed reality, MR)。
1) 擴展現實技術:如果說VR 是用計算機模擬出虛擬的世界,那么AR 則是要將圖形、聲音、觸覺等要素添加到現實世界中,MR 是把AR 和VR相結合,徹底達到虛實結合、虛實交互。
嚴格來說,AR 和MR 是有區別的:虛擬和現實是可分的,就是AR。反之,如果虛擬位置的相對位置會隨著設備變動,并且虛實之間融為一體,那么就是MR。當然,在實踐中人們經常混用這兩個詞,很多本應稱為MR 的產品,都被稱為AR。考慮到這種習慣上的混用,在后文中也不對AR和MR 進行詳細區分,都統稱為AR。
① 虛擬現實(VR)。人們對場景的感知往往是通過視覺、聽覺等感官來實現。因此在模擬一個虛擬環境時,也必須從這些感官入手來進行。在所有感官的刺激當中,視覺刺激最重要,應用也最廣泛,因此,以下主要以視覺為例進行分析。
目前,視覺VR 技術廣泛應用,但其技術瓶頸依然存在。如很多用戶戴上VR 頭盔會感到頭暈,其原因是人的反應和圖像變化之間的延遲比較嚴重。在元宇宙環境下,信息傳輸量巨大,相應的延遲會更嚴重。此外,VR 設備的重量也是問題,人們長時間攜帶這么笨重的設備,難以在元宇宙中獲得好的體驗感。因此,要迎接元宇宙時代的到來,VR 技術仍需進一步突破。
② 增強現實(AR)。和視覺VR 的純虛擬圖像不同,AR 實現了現實圖像和虛擬圖像的結合。在實踐中,一個視覺AR 系統通常會先通過攝像頭或傳感器來對真實場景進行采集,并將其圖像傳入后臺進行分析,從而得出現實場景的相關坐標。然后,系統會根據這個坐標,對虛擬場景和現實場景進行匹配,生成虛實結合的場景。
在上述工作中,對現實場景進行有效的定位極為關鍵。主要的定位模式有兩種,一種是基于圖像的定位,一種是基于“即時定位與地圖構建”(simultaneously localization and mapping, SLAM)的定位技術。前者是先對某個具體的圖像進行分析,確定其坐標,然后用這些坐標來進行定位。如用手機上的修圖應用給一個人的正面照加上一副眼鏡特效,手機就會先對照片進行分析定位五官,然后確認出應該把虛擬的眼鏡放在什么地方。而基于SLAM 的定位通過攝像頭采集周圍的信息,再把這些信息和數據庫中的信息進行比對,就可以給出相應的定位,找到確切的坐標。
此外,在沉浸式設備的技術性能上,用戶沉浸感受到視野的限制。頭盔設備有限的視場遠小于人類視覺。如在谷歌眼鏡等低規格頭盔設備上,視場可以相當于離用戶視線240 cm 的25 英寸顯示屏。隨著顯示技術的進步,未來視野受限的問題會得到解決。
元宇宙的虛擬顯示方式是另一個重要課題。一個常用的設計策略是利用用戶的周邊視野[7],該方案最初旨在識別障礙物,避免危險事故,并在廣泛的活動中測量腳的位置,如行走、駕駛等活動。用戶可以專注于物理世界中的其他任務,而不受到來自元宇宙中的虛擬實體的干擾。當在用戶的視野中呈現虛擬覆蓋時,顏色、內容的合法性、可讀性、視覺疲勞、運動抖動等因素也需一并考慮。
擴展現實技術是近年來綜合多學科的計算機領域的一門新技術,涉及航天、軍事、通信、醫療、商業等研究和應用領域。目前在傳感和感知機理、幾何與物理建模、高速圖形圖像處理等方面均存在技術難點。因此,進一步提升現有VR 系統的交互性和沉浸感仍存挑戰。
2) 輸入技術:無論是VR 還是AR,如果沒有解決人機交互過程中的輸入問題,就無法讓用戶在元宇宙當中自由遨游。在傳統的鍵盤、鼠標、麥克風等輸入設備基礎上,新的更加自然的輸入方式被引入。關于元宇宙中的輸入問題存在不同的解決方案。
① 徒手交互(freehand interaction)[8]。如短視頻就使用了這種交互方式。這種交互非常直觀,但它的局限也較為明顯。當面對更為復雜的情況時,徒手交互無法僅依賴屏幕實現更復雜的交互手勢,因此必須引入計算機視覺技術。此外,包括光學、熱釋電紅外等方式被引入以支持更復雜的用戶交互。
② 采用“身體交互”(on-body user interaction)[9],通過附著在用戶前臂上的傳感器,可以將用戶的身體變成輸入載體。這樣,用戶可以像電影中的“蜘蛛俠”一樣,通過在身體上輕擊,實現與各種數字實體的通信。最新的身體交互技術具有設備小型化趨勢,從手掌區域到指尖。
③ “數字紡織品”。該技術在普通織物中集成新型材料和導線的交互設備,支持用戶與2D、3D界面的交互。谷歌推出的“雅卡爾計劃”(project Jacquard),專門從事低成本的數字紡織品的研發和生產[10]。可以想象,不久的將來,融合了智能編織技術的服裝將會成為人類暢游元宇宙時最重要的輸入設備之一。
④ “腦 機 接 口”(brain computer interface,BCI)[11]。人或動物的大腦信號與外部數字設備之間創建連接通道,從而實現大腦信號與外部信息的交換。現階段已經實現了使用“意念”即腦電圖(electroencephalogram, EEG),通過腦機接口打字等人機交互行為。
如果說交互技術是人們進入元宇宙的門戶,那么人工智能就是讓虛擬世界運轉起來的發動機。人工智能是指讓機器能夠從經驗中學習并執行各種任務的理論和技術。近年來,它在各種應用場景中廣泛應用,包括自然語言處理系統、計算機視覺系統和自動識別系統等。現階段,人工智能在元宇宙的應用主要體現在3 個方面:數字克隆體制造、虛擬人的智能化以及數字化身的個性化。
1) 實時場景和數字孿生體制造。在元宇宙中,用戶的位置隨時變換。與之對應,虛擬場景也要隨之變換,以保證其與用戶的互動。在這個過程中,大量的圖形、陰影變化,都需要人工智能實時作出判斷。
數字孿生(digital twins)的概念是創建數字克隆體,并保持與物理世界的相互作用[12]。因此,在工業領域,數字孿生技術正在助力產品設計、測試等關鍵過程。在元宇宙中,如何讓數字克隆體與現實世界的物體保持一直,并實時交互?深度學習技術(deep learning)發揮了重要作用。數據的異構性使得深度學習驅動的數字孿生必不可少[13]。航空航天以及軍工技術等離不開數字孿生的支持。發達國家目前一直在關注與利用數字孿生技術來構建未來戰場,不僅是利用數字孿生技術來幫助技術的研發,而是借助于數字孿生技術來構建與開展戰場的訓練與管理。
2) 虛擬人的智能化。如果物理世界的人類以國家、種族、皮膚顏色來劃分,那元宇宙中的數字人的劃分又是另外一種形式,如有身份的虛擬人——虛擬化身和虛擬IP,沒有身份的虛擬人——各式各樣、承擔不同角色和功能的“NPC”虛擬人(nonplayer character, NPC)。在不同的游戲中每個人擁有不同的虛擬化身,還能根據個性特點購買相應的服裝(皮膚)和道具。慢慢地,虛擬化身從游戲逐漸滲透到別的領域。除了游戲領域外,對虛擬化身這個物種最敏感的是手機廠商,還有一些大家熟悉的社交軟件。自蘋果手機后,目前虛擬化身的能力對手機廠商來說已經是標配,社交軟件也在逐步疊加虛擬化身的功能,慢慢也會成為社交標配型產品。
在元宇宙中,不管是實現人的數字化身,還是作為“氣氛組”存在的虛擬人(NPC)的智能化,都需要人工智能。為了大幅提升虛擬人NPC 的訓練效果,經常會用到強化學習(reinforcement learning)[14]。強化學習的學習過程其實是算法(智能體)在環境中進行不斷嘗試和試錯的過程,智能體根據試錯過程中得到環境反饋的“獎勵”或者“懲罰”信號,不斷優化策略,從而在短時間內提升智能決策能力。
3) 數字化身的個性化。目前,雖然元宇宙中的玩家數字化身是個性化的,但是只能提供發型、眼睛、眉毛、鼻子等少數特征模型供玩家選擇。這導致了很多玩家的形象區別性不明顯,從而一定程度上降低了玩家在元宇宙中沉浸體驗的樂趣。針對該問題,如果僅僅通過從人體特征庫中隨機抽取并組合一個數字化身,很有可能會組合出一張審美完全不符合玩家預期的數字化身形象。
為了克服以上缺陷,“生成對抗網絡”(generative adversarial network, GAN)[15]派上了用場。生成對抗網絡是一種先進的深度學習模型,用于學習訓練樣本的分布,并生成遵循相同分布的數據[16]。其核心思想是生成器網絡和鑒別器網絡之間的較量。具體來說,生成器網絡輸出具有學習數據分布的“偽圖像”(fake images),而鑒別器則輸入“偽圖像”并判斷其真實性。以服裝設計圖片生成為例,生成器會在概率密度分布函數下,生成一張服裝圖片,然后把這張圖片交給鑒別器,讓其判斷是不是一張服裝圖片。起初,鑒別器有一定的服裝圖片鑒別能力。因此,生成器會在鑒別器的“指導”下不斷訓練,一直到生成器生成的圖片被鑒別器網絡鑒別為真后,對鑒別器進行訓練,進一步提高其鑒別能力。這樣,生成器和鑒別器的交替訓練,最后形成一個具有較強服裝設計能力的生成器。目前,包括英偉達在內的一些企業已經開始提供基于GAN 的數字化身生成。
游戲《堡壘之夜》玩家同時在線的峰值有1 070 萬,但這只是100 000 個不同的一百人游戲。最終能否將它們全部放在一個共享的世界中?那將會是什么樣的體驗?要實現這個愿景,高性能計算必不可少。提到高性能計算,哪怕是初次接觸這個領域的讀者可能也能想到廣為人知的超級計算機。這些超級計算機由于擁有極強的計算能力,被廣泛應用于諸多領域的復雜計算中。
元宇宙可能是繼互聯網和移動互聯網之后的下一個計算平臺。然而,今天的計算、存儲和網絡基礎設施還不足以實現這一愿景。想要真正擁抱元宇宙,就必須努力突破這一瓶頸。從目前看,突破算力瓶頸存在多種可能的技術路徑。
高性能計算:使用多處理器或多個設備來完成大規模密集型數據的計算。其中,最為關鍵的核心技術是并行計算(parallel computing)[17]。與串行計算相比,在并行計算中,任務被分解并交給多個計算資源進行處理。而前者不會對計算任務進行拆分,一個任務的執行會固定占有一塊計算資源。串行計算和并行計算的對比如圖3 所示。

圖3 串行計算和并行計算
在元宇宙領域,很多大型企業給出的計算解決方案的優勢都是基于異構并行。英偉達在很早的時候就開始探索圖形處理單元(graphics processing unit, GPU)和 中 央 處 理 器(central processing unit,CPU)之間的協同,并取得了很好的效果。
完全沉浸式的虛擬環境需要高性能計算作為底層基礎設施支撐,在元宇宙需求的推動下,數據中心作為計算和存儲的重要硬件設施將有望保持10%以上增速。如果想要參與構建元宇宙,在規模化的體系下必須要有兩大基礎資源支撐:計算和存儲。
Meta(前身為Facebook)正在建造新的超級計算機來訓練龐大的機器學習算法。雖然只是部分完成,但人工智能研究超集群(research supercluster,RSC)已經躋身全球最強大的機器之一。Meta 希望RSC 可以通過訓練更好的算法來改進產品。進一步來講,這些算法可以在數以萬計的在線用戶之間實現實時語言翻譯,可以從不同的輸入(包括文本、圖像和視頻)中學習和泛化。在元宇宙中,用戶要獲得3D 多感官體驗,就需要在環境中創建與個人相關的人工智能代理。
雖然Meta 沒有給出RSC 當前最高速度的數據,但就原始處理能力而言,它似乎與世界排名第五的 Perlmutter 超級計算機相當。目前,RSC 運行在6 800 個英偉達A100 GPU 上,處理計算機視覺工作流程的速度已提高20 倍,大型語言模型(如GPT-3)的處理速度提高了3 倍。
除了純粹的速度,RSC 還將賦予Meta 在其海量用戶數據上訓練算法的能力。因此,RSC 將使用來自Meta 生產服務器的真實世界的用戶數據。為了容納Meta 龐大的訓練數據集并進一步提高訓練速度,不久的將來,RSC 將擴容到包括16 000 個GPU 和1 EB(109)的存儲空間,RSC 將以16 TB/s 的速度提供訓練數據,并以5×1018次/s 浮點計算最高速度運行。
迄今為止,應用最廣泛的元宇宙應用是移動和可穿戴設備,如AR 眼鏡和智能手機。然而,對于移動設備來說,元宇宙所需的密集計算通常過于繁重。因此,為了保證及時提升用戶體驗性,減少延遲性,特別是在需要實時數據處理的場景中,保證用戶身臨其境的體驗至關重要。
1) 云計算。如果高性能計算和量子計算都不能完全解決元宇宙帶來的算力挑戰,那么還有一種解決思路就是應用云計算。可以用一個通俗的比喻來對其進行理解。傳統上,用戶主要是通過調用自有的單一信息技術(information technology, IT)資源,這就好比每家每戶自己發電供自己用;而云計算則是建了一個大型的發電站,然后將“電力”(IT 資源)輸出給所有的用戶。換一種直觀的表述方式,如果進行IT 領域的創業工作,自己無需購買物理的服務器設備和機房設施,云計算服務商都會提供在線服務,只需要關注如何設計好程序。
2) 邊緣計算。從理論上看,盡管云計算可以很好地滿足元宇宙產生的巨大運算和存儲需求,但是其缺陷也很明顯。比較重要的一點是,在執行云計算時,有大量的數據要在本地和云端之間進行交換,這可能會造成明顯的延遲。對于元宇宙的用戶來說,這會對其使用體驗產生負面效果。
“邊緣計算”(edge computing)是一種在靠近物或數據源頭的網絡邊緣提供智能服務的新型計算模型,它能夠節省網絡流量、提高響應速度和保護用戶隱私,在物聯網應用中顯示出了優于云計算的性能,受到工業界、學術界的高度關注和認可。
邊緣計算是元宇宙中補充當前云解決方案的一個有希望的技術路徑,與云計算相比,它可以有效減少用戶體驗的延遲[18]。由于邊緣平臺靠近用戶,因而其與用戶的數據交換更加及時,延遲問題可以得到較好解決。可以把元計算和邊緣計算類比為大腦和神經元的關系。研究表明,借助邊緣計算,延遲可以降低60%以上[19]。利用邊緣計算的延時優勢,研究人員提出了一些解決方案來提高邊緣計算的效率。如邊緣計算技術EdgeXAR 針對AR 服務提供了一個移動AR 框架,利用邊緣卸載的優點提供輕量級跟蹤,并對用戶的感知隱藏了卸載延遲[20]。
元宇宙基于人機交互技術實現互動體驗,將數據傳輸至云端、邊緣端計算再反饋至設備。然而,如今的技術難點在于實現低延遲的連接,這對通訊技術提出了更高的要求。可以將通訊技術視為元宇宙的數字“高速公路”,如圖4 所示。

圖4 5G 通訊技術特點和應用場景
在元宇宙中,多媒體應用的吞吐量需求呈指數級增長。5G 的增強能力將為依賴于大量數據實時傳輸(AR、VR)的應用打開大門。元宇宙不僅需要大量的可用帶寬,而且可能與其他應用程序產生競爭。因此,有學者預計元宇宙所需求的帶寬將超過5G 的可用帶寬[21]。在高度交互的應用程序中,如在線云游戲,130 ms 通常被認為是較高的閾值[22],而一些研究顯示,當延遲低至23 ms 時,用戶性能會下降[23]。
此外,元宇宙強調以用戶為中心。因此,在網絡設計方面,需要采取多種形式,從將用戶體驗置于流量管理的核心,到支持以用戶為中心的感知和通信。5G 使許多以用戶為中心的應用搬到了云端,如云游戲、實時視頻流。這些應用廣泛依賴于視頻流的實時傳輸。現在,5G 技術已經逐漸開始普及。應該說,相對于4G 或者更早的無線通訊技術,其傳輸速度高了幾個數量級,要滿足現有的互聯網信息傳輸可以說是綽綽有余。即便如此,5G的傳輸速度依然難以和有線傳輸相比肩。如果與前面說到的有線傳輸極限速度相比,5G 的傳輸速度大致上只有其1/16 000。不僅如此,由于5G 需要建立大量的基站,其成本將十分高昂。
隨著技術水平的更新,未來內容的沉浸式體驗有望進一步升級,但是如何在這些沉浸式設備大規模接入的同時,實現高同步低延遲的通信將是元宇宙發展的基本問題。設想一下,你正在元宇宙中欣賞瑰麗壯美的風景,當你轉頭時,由于噪聲和延遲導致畫面瞬間變模糊,并在幾秒之后才逐漸將清晰的畫面刷新出來。過高的網絡延遲會導致虛擬物體滯后于預期的位置,造成眩暈感,這些顯然是極度糟糕的體驗。通感互聯也對網絡時延提出了極高的要求,例如人類大腦對觸覺的反應時間約為1 ms,而現有的5G 端到端時延大概在10 ms 左右,還有不小的提升空間。網絡延遲的程度將直接影響元宇宙用戶的全方位體驗,低延遲穩定的高速通信網絡將成為元宇宙的必需品。
現實世界和元宇宙,需要網絡技術進行溝通。除了通訊技術之外,元宇宙對于網絡的設計也提出了很多新的要求。在元宇宙中,內容傳輸量會比現在暴漲幾十甚至上百倍,但對于延遲的忍耐力卻更低。如何才能滿足這種高吞吐、低延時的挑戰?
以城市貨運的場景為例。為了滿足貨運增加的需要,第一反應就是增加數量更多、速度更快的車。這就好像在考慮傳輸時,會先從通訊技術層面找突破一樣。但是,對于貨運來講,只增加車的數量顯然是不夠的。如果不對道路進行相應的規劃、管制和改建,那么這些飛奔的貨車就會撞在一起,造成一片混亂。同樣的,如果不對網絡加以相應的設計,那么僅靠通訊能力的提升也無法很好適應元宇宙的挑戰。
面對擁堵的交通局面,一般來說,會采用宏微觀兩個層面的方法來對交通進行疏導。在宏觀層面,把道路進行分類,讓不同的車走不同的道。在微觀層面,在各個路口安排交警進行協調。交警就會讓有特殊情況的車輛先行通過,而對于其他的司機,則需要進行更多等待。在網絡設計上,類似的思路依然適用。
交通上的分道行駛,在網絡設計上被稱為“網絡切片”。網絡切片為元宇宙中的應用程序提供吞吐量、抖動和延遲保證。簡而言之,它就是把一個整體的網絡切分成幾個層,讓不同的應用在不同的層次進行傳輸。這樣,就可以在總傳輸能力有限的情況下,優先保證那些對網絡要求較高的需求。
可以想見,當元宇宙的需求被真正激活后,傳輸總量、傳輸種類會出現暴增。在這種情況下,要對網絡的資源進行更好的宏觀配置,勢必要對網絡進行更為科學、精細的切片。交警對于道路的微觀疏導對應到網絡領域,可以類比為服務質量管理(quality of service, QoS)。當道路通過量有限時,就必須決定誰先行、誰等待。類似的,當網絡傳輸擁堵時,就必定會發生數據包的丟失。這時到底丟棄誰的數據包就成為一個問題。QoS 管理的邏輯就是按照服務對傳輸質量的要求來決定優先級,先丟棄那些對于傳輸要求不高的服務數據,以盡可能保住那些對傳輸要求高的服務數據。而究竟哪些服務對于傳輸的要求更高,依靠的主要是一套技術上的客觀標準。
這個邏輯本身沒有問題。但是,在元宇宙條件下,人的主觀體驗可能會越來越重要,用體驗質量管理(quality of experience, QoE)取代QoS 管理的訴求也變得越來越強。舉例來說,如果從純技術的角度看,對一個機器指令的傳輸可能要比一個游戲信號的傳輸更為重要,因此基于QoS 的標準,應該先讓對機器的指令通過。但對于用戶來講,這可能并不正確。事實上,對于很多人來講,一個機器早執行、晚執行一個任務幾分鐘并沒有什么問題,而如果一個游戲的信號晚了幾毫秒,他的體驗就會大幅下降。因此,基于QoE 的思路應該先讓游戲信號通過。
當然,元宇宙的應用場景很多,QoS 和QoE管理都有其市場。至于如何根據場景的變化,隨時切換兩種管理模式,這或許會成為元宇宙條件下網絡設計需要考慮的一個重要問題。
站在網絡空間基礎設施的視角,個人電腦、智能手機和VR/AR 眼鏡都可歸為一大類接入終端,即“通信型”終端。這些終端本質上解決的是人的通信需求。除了“通信型”終端,在網絡空間還有兩大類接入終端,分別為計算型終端和功能型終端。計算型終端指的是一直在執行計算任務的終端,主要是各類服務器或者參與網絡計算的節點,它們與人的通信需求無關,主要工作是完成各類分布式計算任務。通信型和計算型終端一樣,如果不需要執行計算或通信操作時,就進入休眠狀態。功能型終端則與以上兩種終端不同,它們本身就具備特殊功能,最典型的就是智能汽車、工控終端、物聯網終端等。智能汽車本質上是一個高速移動的高質量運載體,同時工控終端本身的功能是生成制造,當這兩種終端大規模接入互聯網之后,也會產生許多新的互聯網應用,也就是常說的“車聯網”和“工業互聯網”。
綜上所述,站在網絡接入終端的角度理解元宇宙,它是通信型終端發展的下一個里程碑,是從以個人電腦和手機為基礎的二維顯示和交互發展到以VR/AR 為基礎的三維顯示和交互之后產生的互聯網應用新形態。
現在討論元宇宙,大多將其視為一個與現實世界相對的虛擬世界。無論是虛擬現實,還是人工智能,都圍繞著這個虛擬世界在討論。然而,這種虛實之間的分離敘事顯然難以令人滿意。這時,物聯網、機器人等技術就顯示出重要作用。伴隨著新技術的發展,虛實之間的互動變得更加容易[24]。
物聯網,就是通過各種信息傳感器、射頻識別等裝置與技術,實時采集關于物體的各種信息,并通過各類可能的網絡接入,達成物與物、人與物的互聯,實現對物品和過程的識別和管理。物聯網技術可以嵌入到受控物體的內部,讓物品在接收相關指令之后,采取對應的行動。物聯網技術,再加上通信網絡、云等基礎設施,就可以在人與人互聯的基礎上,進一步實現萬物互聯。人們與互聯網交互的方式將不局限于移動手機和電腦,各種穿戴設備、汽車、家居等都將接入網絡中,滿足以多元化方式接入元宇宙的需求。
如果物聯網得到充分的普及,那么當人們在元宇宙里看到了想吃的美食之后,就可以通過物聯網將烹調美食的指令發送到附近的機器人。機器人可以根據程序,制作出對應的美食再送到我們的身邊。如果能夠達成這樣的虛實互動,那么元宇宙對人們來講就不再是一個虛擬世界,而將成為生活世界的一部分。
AR、VR 等虛擬環境以其突出的內容可視化的特點,成為打通機器人與虛擬環境之間溝通渠道的解決方案。集成了虛擬環境的工業實例也使人類用戶能夠理解機器人的操作,如任務場景分析等。因此,人類用戶與機器人建立信任,促進了人類—機器人協作的范式轉變[25]。目前的研究主要集中于機器人的感知以及虛擬環境中的界面設計方面。
目前,新興的MR 技術以工作空間作為通信接口,機器人可以充當我們的朋友、家庭守護者等,人類可以與機器人和無人機進行自然交互。不難想象,未來機器人將積極主動地為社會服務,并自發地參與各種各樣的應用和服務。通過物理和虛擬世界中無所不在的接口,元宇宙包含了現實—虛擬連續體,并允許用戶在兩者之間無縫體驗[26]。其中,Meta 公司開發了一種超薄的且可更換的機器人皮膚,可以讓機器人通過感受物體和環境在現實與元宇宙之間進行互動。這個機器人的皮膚是橡膠(不到3 mm 厚)和磁性粒子的組合,并與人工智能技術相結合,幫助機器人通過觸覺來感受。在機器人皮膚接觸任何表面后,就會產生變形并改變磁場。
區塊鏈是一個共享的、不可篡改的賬本,旨在促進業務網絡中的交易記錄和資產跟蹤流程。幾乎任何有價值的東西都可以在區塊鏈網絡上進行跟蹤和交易,從而降低各方面的風險和成本。在元宇宙中,區塊鏈是一種重要的技術。包括Sandbox 等在內的眾多元宇宙公司均采用區塊鏈來作為它們的經濟和治理系統的技術基礎。
嚴格地說,區塊鏈并不是一種單一的技術,而是由多種技術組成的集合體,它的思想可以追溯到中本聰(Satoshi Nakamoto)于2008 年發表的奠基性論文[27]。現在,區塊鏈通常被用來指一種去中心化的基礎架構和計算范式。它利用加密鏈式區塊結構來驗證與存儲數據、利用分布式節點共識算法來生成和更新數據、利用智能合約來對數據進行編程和操作。
元宇宙產生了難以估量的海量數據,有限的網絡資源無法將如此龐大的數據上傳到云服務器。區塊鏈技術的迅速發展使人們看到,將區塊鏈應用到數據存儲系統中可以保證元宇宙服務器的去中心化和安全性[28]。區塊鏈是由一系列區塊串接而成的鏈。這些區塊按照生成時間為順序排列,每一個數據區塊由包含元數據的區塊頭(header)和區塊體(body)組成。其中,區塊頭保存的是各種時間戳的信息;而區塊體保存的則是主要的交易和連接上一區塊的信息、各種用來驗證區塊信息的信息。換言之,區塊頭是用來對“鏈”進行串接的,而區塊體則是保存信息的主要載體[29]。
在早期的元宇宙項目中,經濟和治理系統通常是基于中心化的體系來構建的。以著名的早期元宇宙產品《第二人生》為例,經濟和治理系統都是由其運營商林登實驗室來構建的。如在整個虛擬世界中究竟有多少貨幣流通、每個道具值多少錢、用戶違規會被怎樣處理等問題,都由林登實驗室掌握最終的解釋權。不僅如此,從根本上看,用戶在《第二人生》創造的虛擬世界中擁有的所有物品(包括他們自己創造的內容)的所有權最終都掌握在林登實驗室手中。如果林登實驗室愿意,就可以隨時剝奪任何一個用戶在虛擬世界當中的一切。
顯然,對于更為強調自主性的用戶而言,這種霸道的中心化經濟和治理系統是很難接受的。因而,為了吸引更多用戶,新近的各種元宇宙項目通常都采用了區塊鏈來作為底層架構。這樣,用戶就可以基于區塊鏈對這些項目進行自治化的管理,自己決定這個項目的經濟如何運作、治理如何運行。與此同時,元宇宙中的各種數字資產還可以被制成非同質化通證(non-fungible Token, NFT),用戶可以通過持有NFT 來擁有它們,對它們主張權益,還可以在項目內外自由地交易它們。
從性質上看,區塊鏈的運作并不依賴于一個中心化的協調者,可以實現人與人之間的點對點交互,可以在人們互不相熟的條件下保證交互的安全,盡可能保證用戶的隱私。所有這些性質,都使得它非常適合元宇宙中“人與人的自由聯合”的組織方式。因此,現在很多元宇宙項目都開始使用區塊鏈作為其經濟系統和治理系統的底層架構。如Decentraland 就是基于以太坊區塊鏈的完全去中心化的虛擬世界,它最大的價值在于虛擬土地的數字資產化,玩家可通過區塊鏈平臺購買虛擬地塊(LAND,以太坊智能合約維護的NFT)自由展開建設,真正擁有數字資產的所有權。
在元宇宙中,人們匯聚在一起,彼此交流、彼此協作,形成各種新的組織。作為與現實世界對應的虛擬世界,一個完整的元宇宙也必然會像現實世界一樣擁有自己的經濟系統,而這個經濟系統未來也將會對元宇宙的發展起到重要作用。
元宇宙是虛擬的世界,因此其價值也主要體現在虛擬而非現實的層面。但事實上,元宇宙雖然源于虛擬,但其對現實世界卻能產生重要影響。作為虛擬世界,元宇宙并不完全與真實世界隔離,技術的演進使得兩個世界之間的經濟聯系呈現出逐漸強化的態勢[22]。
這種推動表現在很多方面。在人類交往方面,元宇宙降低了人與人、人與信息的交互成本,越來越多的工作開始“在線完成”;在工業生產方面,對于機器的操作,可以借由“數字孿生”技術來保持元宇宙和現實世界的同步;在娛樂方面,不少明星在元宇宙里舉行演唱會,這種高自由度的設定很大程度上復刻了線下音樂會的沉浸性和互動性,讓觀看效果大幅提升。
未來幾年,元宇宙將進入成長期,各類應用和場景創新將層出不窮。這意味著,要洞悉元宇宙未來可能發展的方向,就必須進一步對有關的技術有深刻的認識。元宇宙作為想象與技術之間的耦合,在不同的技術條件下,其未來形態和實現方式將呈現百花齊放的局面。
當然,本文總結的技術發展還只是其中的很小一部分。隨著技術自身的演進以及社會發展的帶動效應,更多的新技術、新應用、新場景將會出現在我們身邊,而在不同的虛擬場景和真實場景之間的穿梭也會徹底改變人們的生產和生活。