鄭慶國,劉 雅
(中國移動通信集團公司研究院,北京 100032)
虛擬現實(VR, Virtual Reality)是一種計算機仿真系統,是通過對三維世界的模擬創造出的一種交互系統。它利用計算機生成一種多源信息融合的交互式三維動態視景和實體行為系統仿真的模擬環境,并使用戶沉浸到該環境中[1]。
早在20世紀60年代和70年代就已經出現了基于頭戴式(head-mounted)設備和基于投影(projectbased)的虛擬現實技術,并在軍事領域得到了應用,如飛機VR模擬駕駛、VR模擬戰場等。近幾年,手機終端的計算能力提高,手機逐漸能成為VR設備的計算平臺,這拓寬了VR在游戲、影視等民用領域的市場。當手機可作為VR設備平臺時,VR計算與蜂窩通信技術相結合成為可能,則VR應用將不再受特定場地限制,網絡新業務應用空間得到極大拓展。
本文聚焦于VR承載在蜂窩通信網絡上的時間延遲分析和VR終端數據帶寬需求估算,分析VR在網絡環境的計算模式,提出基于云端(Cloud)的VR模式和基于客戶端(Client)的VR模式,并對5G網絡承載VR業務進行了初步探討(本文涉及的VR終端是基于手機平臺的終端,不是專業VR設備終端)。
(1)VR技術介紹
VR主要能實現模擬環境、感知等方面的體驗。模擬環境是由計算機生成的、實時動態的三維立體逼真圖像。感知是指VR應能實現人所具有的感知。除計算機圖形技術所生成的視覺(vision)感知外,還包括觸覺(touch and force perception)、聽覺(hearing)、嗅覺(smell)、味覺(taste)等。
◆可視感知(Visual Perception):人看周圍的世界時,由于兩只眼睛的位置不同,獲取到的圖像略有不同,這些圖像在腦子里融合起來,就形成了周圍世界的整體景象,這個景象中包括了距離遠近的信息。距離信息也可以通過眼睛焦距的遠近、物體大小的比較等其他方法獲得。
◆聲音感知(Sound Perception):人能夠很好地判定聲源的方向。在水平方向上,靠聲音的相位差及強度的差別可確定聲音的方向,因為聲音到達兩只耳朵的時間或距離有所不同,常見的立體聲效果就是靠左右耳聽到在不同位置錄制的不同聲音來實現的。所以人們對聲音會形成一種方向感。
◆觸覺感知(Touch and Force Perception):觸覺感知是指人通過觸碰獲得環境信息的方式。皮膚感應器和肌肉等其他身體部位的受體將信號傳送到大腦加以解釋,可形成能讓人理解的環境表示,使人能識別壓力等感覺。
◆嗅覺感知(Olfactory Perception):嗅覺是一種由感官感受的知覺,它由兩個感覺系統:嗅神經系統和鼻三叉神經系統參與,嗅覺和味覺會整合和互相作用。嗅覺是外激素通訊實現的前提。嗅覺是一種遠感,即為通過長距離感受化學刺激的感覺。
◆味覺感知(Taste):是指食物在人的口腔內對味覺器官化學感受系統的刺激并產生的一種感覺。從味覺的生理角度分類,傳統上有4種基本味覺:酸、甜、苦、咸。
(2)VR時間延遲要求
在VR系統中,雙目立體視覺起了很大作用。用戶的兩只眼睛看到的不同圖像是分別產生的,顯示在不同的顯示器上。有的系統采用單個顯示器,但用戶帶上特殊的眼鏡后,一只眼睛只能看到奇數幀圖像,另一只眼睛只能看到偶數幀圖像,奇、偶幀之間的不同產生了視差,則形成了立體感。
在模擬環境中,每個物體相對于系統的坐標系都有一個位置與姿態,而人體也是如此。人所看到的景象是由用戶的位置和頭(眼)的方向來確定的,VR系統需要對人體位置和頭、眼的方向進行跟蹤,根據所處的位置相關信息計算出人所看到的景象。
VR時延(motion-to-photons latency)指VR設備頭部運動與視覺感知的匹配程度。人類生物研究表明,人類頭部轉動和視野回傳的延遲須低于20 ms,否則將因視覺和位置差異導致強烈眩暈[2-3]。
(1)VR時間延遲分類
單機版VR是指其整個VR系統沒有通過外部通信網絡承載,而是直接通過內部線纜連接而構成系統。
單機版VR時延=位置跟蹤時延(Position Tracking Sensor Report Time)+圖像處理計算時延(Picture Rendering time)+可視屏幕刷新時延(Refresh Rate Time)+屏幕顯示延時(Pixel Switching Time) (1)
VR單機版時間延遲分析示意圖如圖1所示:

圖1 單機版VR時間延遲分析示意圖
網絡版VR:相關VR圖像的形成被集中控制在服務器端中進行。VR客戶端把傳感器信息上傳給服務器,根據上傳的信息服務器計算出新的控制信息,并把控制信息下發給客戶端,其中對VR圖像的計算處理可在服務器端或用戶端進行。
網絡版本VR時延=位置跟蹤時延+上行網絡傳輸時延(無線網絡時間延遲+固定網絡時間延遲)+圖像處理計算時延(Picture Rendering Time)+下行網絡傳輸時延(固定網絡時間延遲+無線網絡時間延遲)+可視屏幕刷新時延(Refresh Rate Time)+屏幕顯示時延(Pixel Switching Time) (2)
VR網絡版時間延遲分析示意圖如圖2所示。
(2)網絡承載VR時間延遲分析
關于網絡承載VR的業務架構,根據進行VR圖像計算時的位置,將其分成兩種模式:1)基于云(Cloud)模式:VR圖像計算和控制管理都在云端(Cloud)集中處理;2)基于客戶端(Client)模式:VR圖像計算放在終端(Client)集中處理,云端服務器主要做集中控制邏輯方面的處理。
◆基于云(Cloud)模式的VR時間延遲估算
VR圖像的相關計算均由服務器端處理,VR終端把傳感器信息上傳至位于云端的VR圖像計算程序,VR圖像在計算完成后再被下傳到VR終端,并在終端屏幕側顯示出來。基于云端(Cloud)的VR模式如圖3所示。
VR時延=上行總時延(傳感器信息上傳)+下行總時延(圖像計算及下傳) (3)
VR終端的上行時間延遲=位置跟蹤時延+發送時延+傳輸時延+接收時延 (4)
VR終端的下行時間延遲=圖像計算時延+圖像編碼時延+發送時延+網絡傳輸時延+接收時延+解碼時延+顯示時延(可視屏幕刷新時延+屏幕延時) (5)
基于云端(Cloud)模式的VR時延分析如圖4所示。
◆基于客戶端(Client)模式的VR時間延遲估算
VR圖像相關計算都放在客戶端,VR終端把傳感器信息上傳給位于云端的VR控制程序,服務器側將計算后的新控制信息下傳到客戶端,最終客戶端將計算出的VR圖像顯示到屏幕上。若VR業務是多用戶版,則對于多個用戶相互之間需要協調控制的VR業務,要在云端服務器上做總體控制邏輯計算;如果VR業務是單用戶版,則不需要做集中控制,在終端側就可以完成VR業務,不需要連接到云端服務器。基于客戶端(Client)的VR模式如圖5所示。

圖2 網絡版VR時間延遲分析示意圖
VR時延=上行總時延(傳感器信息上傳)+下行總時延(控制信息下傳+圖像計算及顯示) (6)

圖3 基于云端(Cloud)的VR模式

圖4 基于云端(Cloud)模式的VR時延分析

圖5 基于客戶端(Client)的VR模式
上行總時延=位置跟蹤時延+發送時延+傳輸時延+接收時延(7)
下行總時延=控制計算時延+網絡傳輸時延+發送接收時延+接收時延+圖像計算時延+顯示時延(可視屏幕刷新時延+屏幕顯示延時) (8)
基于客戶端(Client)的VR模式時間延遲分析如圖6所示。
(3)網絡承載VR時間延遲估算
LTE網絡非預調度模式下數據面單向時延可達到10 ms左右,往返時延則超過20 ms,在預調度的模式下小區好點、極好點往返時延可控制在17 ms左右,小區中點、差點的用戶面往返時延在20 ms左右,所以基于LTE網絡很難滿足承載VR時延20 ms的要求。5G網絡用戶面時延在eMBB場景中的目標要達到4 ms[6],更短的網絡時延使5G承載VR業務成為可能。
下文將對基于云端(Cloud)和基于客戶端(Client)的VR業務進行時延分析,參考文獻[8-10]中的相關數據估算時延。
1)基于云(Cloud)的VR模式時間延遲估算
◆上行總時延=位置跟蹤時延+發送時延+傳輸時延+接收時延=1~2 ms+2~5 ms+1 ms=4~8 ms
◆下行總時延=計算時延(5~10 ms)+編碼時延(10~20 ms)+發送時延(1~2 ms)+網絡傳輸時延(2~5 ms)+接收時延(1~2 ms)+解碼時延(5~15 ms)+顯示時延(可視屏幕刷新時延11.11 ms +屏幕延時1~2 ms)=5~10 ms+10~20 ms+1~2 ms+2~5 ms+1~2 ms+5~15 ms+11.11 ms+1~2 ms=36.11~67.11 ms
注:屏幕幀率90FPS,1080p。
◆總響應時延=上行總時延+下行總時延=4~8 ms+36.11~67.11 ms =40.11~75.11 ms
由以上的分析可知,目前要實現基于云端的VR難度較大,主要瓶頸在于圖像處理計算的占用時延。故可以將云端計算進一步下沉,采用邊緣計算方式,隨著圖像處理計算硬件能力的提升,云端VR模式值得期待。
2)基于客戶端(client)的VR模式時間延遲估算
◆上行總時延=位置跟蹤時延+發送時延+傳輸時延+接收時延=1~2 ms+2~5 ms+1 ms(發送時延+接收時延)=4~8 ms
◆下行總時延=控制計算時延(1 ms)+網絡傳輸時延(2~5 ms)+(發送接收時延+接收時延)(1 ms)+圖像計算時延(5~10 ms)+顯示時延(可視屏幕刷新時延11.11 ms +屏幕延時1~2 ms)=1 ms+2~5 ms+1 ms+5~10 ms+11.11 ms+1~2 ms=21.11~30.11 ms
注:屏幕幀率90FPS,1080p。
3)總響應時延=上行總時延+下行總時延=4~8 ms+21.11~30.11 ms =25.11~38.11 ms
根據目前的分析,基于客戶端的VR模式基本可行,隨著手機終端硬件能力的進一步提升,基本可達到目前VR時延20 ms的要求。

圖6 基于客戶端(Client)的VR模式時間延遲分析
(1)VR屏幕分辨率分析
人眼睛的角度分辨率大約是1/60度(即1個弧分,one arcminute),這主要取決人瞳孔、背景光和被觀測物體的顏色。人眼睛的角分辨率示意圖如圖7所示:

圖7 人眼睛的角分辨率
根據圖7中的三角關系,可以得出如下公式:
tan(α/2)=(d/2)÷D (9)其中,D為眼睛到屏幕的距離;α為角分辯率(angle resolution),是眼睛可看清楚的最小角度;d為兩個像素之間的距離。
根據公式(9)可以計算出:
d=2Dtan(α/2) (10)
智能手機屏幕與眼睛之間的距離一般為D=12英寸(30.48 cm),而α=1/60,則可計算出d=0.003 5英寸,即PPI=286.5,也就是手機屏幕每英寸有286.5像素點,是人眼睛在30.48 cm處所能看清楚的最小分辨率。不同場景要求的屏幕最小分辨率如表1所示(注:1英寸=2.54 cm;像素密度(PPI, Pixels Per Inch)所表示的是每英寸所擁有的像素數量):

表1 不同場景要求屏幕的最小分辨率
手機屏幕PPI的計算公式如下:

根據公式得出計算結果如表2所示:

表2 不同屏幕分辨率對應的PPI值
由上文分析可得出初步結論:
D=4英寸的頭戴式設備,需要其屏幕像素密度達859.4 PPI,目前4K(3 840×2 160)分辨率的屏幕(5英寸)為881 PPI,可滿足VR分辨率要求。
(2)VR承載帶寬分析
根據終端屏幕分辨率和像素點色彩的位數可以計算出一幀的數據量(bit),按終端支持幀率可計算出數據帶寬。網絡傳輸需要對圖像數據進行編碼,根據編碼壓縮比可估算出數據帶寬大小,公式整理如下:
數據未壓縮帶寬=屏幕分辨率×色彩位數×幀率(12)
數據編碼后的帶寬=屏幕分辨率×色彩位數×幀率/編碼壓縮比 (13)
由上述計算公式及下文的典型參數取值,可估算出典型屏幕采用H.264和H.265編碼時對應的帶寬需求,具體如表3所示(幀率:120幀/s、75幀/s、60幀/s;色彩:3×8 bit)。
圖像壓縮標準以H.265和H.264為準,H.264壓縮比率按經驗值[113.9, 142.38]計算,H.265壓縮比率按經驗值[350, 1000]計算。
終端屏幕分辨率4K,幀率75幀/s,采用H.265和H.264編碼實現VR需要的帶寬如下:
◆采用H.265編碼標準,傳輸帶寬的需求
1個屏幕對應兩個眼睛(通過分割)需要帶寬范圍:[14.93, 42.66] Mbit/s;2個屏幕分別對應兩個眼睛需要總帶寬范圍:[29.86, 85.32] Mbit/s。
◆采用H.264編碼標準,傳輸帶寬的需求
1個屏幕對應兩個眼睛(通過分割)需要帶寬范圍:[104.86, 131.08] Mbit/s;2個屏幕分別對應兩個眼睛需要總帶寬范圍:[209.72, 262.16] Mbit/s。

表3 不同屏幕分辨率對應的估算數據帶寬值
未來的5G網絡預計將滿足承載VR業務所需的低時延和高速率。針對基于手機平臺的頭帶式VR終端,客戶端(Client)VR模式是基本可行的方式。隨著終端硬件能力的進一步提升,VR 20 ms的時延要求將能得到滿足,但對于云端(Cloud)VR模式來說,時延挑戰仍非常大,主要瓶頸在于目前對圖像處理計算需要的時間較長,隨著圖像處理方面硬件能力的提升及邊緣計算等新技術的采用,云端模式VR值得期待。
目前手機終端4K(3840×2160)分辨率的5英寸屏幕可滿足頭帶式(VR設備屏幕與面部的距離為5英寸)VR設備的分辨率要求。在屏幕分辨率為4K,VR圖像幀率為75幀/s,采用H.265編碼標準,估算傳輸數據帶寬范圍為[30, 100] Mbit/s,這遠小于5G終端要求支持單用戶的最大峰值速率[6]。
隨著5G網絡技術的發展和相關硬件處理技術能力的提高,VR業務將能實現更好的網絡承載,VR業務或將成為推動5G發展的重要動力之一。
[1] 中國電子技術標準化研究院. 虛擬現實產業發展白皮書[Z]. 2016.
[2] S M LaValle, A Yershova, M Katsev, et al. Head tracking for the Oculus Rift[C]//IEEE International Conference on Robotics & Automation. 2014: 187-194.
[3] B Iribe. Virtual Reality-A New Frontier in Computing[Z].2013.
[4] R S Allison, L R Harris, M Jenkin, et al. Tolerance of temporal delay in virtual environments[C]//Virtual Reality,IEEE. 2001: 247-254.
[5] 中國網. VR產業三大硬件技術標準 深度解析[EB/OL]. (2016-04-21)[2017-06-15]. http://www.csdn.net/article/a/2016-04-21/15837649.
[6] 3GPP TR 38.913 V14.0.0. Study on Scenarios and Requirements for Next Generation Access Technologies[S]. 2016.
[7] Ivan Lin, Brian Jeff, Ian Rickard. ARM Platform for Performance and Power Efベciency -Hardware and Software Perspectives[Z]. 2016.
[8] M U Yaseen, M S Zarfa, R Hill. High Performance Video Processing in Cloud Data Centres[C]//IEEE Symposium on Service-Oriented System Engineering. 2016: 152-161.
[9] W Pasman, S Persa, F W Jansen. Realistic lowlatency mobile AR rendering[C]//Virtual and Augmented Architecture (VAA’01). 2001: 81-92.★