許宇彤
基于人眼視覺系統的虛擬現實視頻傳輸策略研究
許宇彤
(武漢理工大學 信息工程學院,湖北 武漢 430070)
近年來,隨著移動通信網絡速度和容量的提升,基于互聯網的視頻應用的數量和種類不斷上升。隨著網絡容量的迅速發展和廣泛的高特異化,越來越多的消費者使用實時流虛擬現實(VR)視頻設備。然而,VR視頻的高帶寬要求給視頻服務帶來了新的挑戰,從編碼和傳輸兩方面出發,提出適應VR特性的自適應流媒體傳輸優化方法是當下研究的熱門方向。為了研究適應VR的自適應流媒體傳輸方法,合理的評價機制和數學模型是必不可少的。從人類視覺系統HVS出發,使用人類視覺模型,針對劃分分辨率區域的VR流媒體傳輸策略,選擇一種適合該策略的QoE評價方法并提出一種分辨率劃分標準。
虛擬現實;流媒體傳輸;人類視覺系統;用戶體驗質量
本文從STEFANO[1]提出的自適應VR流媒體傳輸方法入手,該方法的目的是減少數據流所需的帶寬,提高視頻流暢度,降低時延。視頻的每幀畫面采用了平鋪結構,其視頻流不僅在時間段中被分割,而且還在空間上被分割成不同的質量區域。一個VR視頻可以用一組個區域={1,…,k}劃分,使得∩?kk=?。同一視頻在時間上被分割成一個離散的段={1,…,m} ,并且∪?mm=。每個區域k由一組區域∈k組成。區域被時間分割成塊={t1,…,tm},并且可以在上設定不同的比特率(質量)。傳輸策略如圖1所示,圖中劃分圖像為={1,2,3},其中1為視線中心區域,包含28、29、36、37;2為視線中心的邊緣區域,包含19、20、21、22、27、30、35、38、43、44、45、46;3為剩余區域。

圖1 傳輸策略示意圖
該傳輸方法的工作流程如下:在獲得當前網絡帶寬后,在視線集中范圍1中優先加載最高可能比特率的畫面,并嘗試增加該區域的比特率,始終保證在視線集中區域視頻分辨率最高,同時在帶寬允許范圍內,在保證視頻流暢度條件下,在視線外圍區域2、3中盡可能保證分辨率,如有帶寬的限制,則適當降低2、3的分辨率,因為其不在視線集中范圍,從而保證視頻的流暢度和低時延。但此方法對于兩區域分辨率允許的差值沒有做出規定,如果兩區域分辨率相差過大,易造成人眼的暈眩以及視頻質量的下降,使得降低。為了解決這一問題,本文在之后提出一種基于人眼視覺系統模型的區域分辨率的優化標準。
流媒體VR視頻不同于傳統的2D視頻使用傳統的多媒體業務評價方法——服務質量(Quality of Service,QoS),而是圍繞時延、丟包、抖動等傳輸指標業務的質量來評價業務的質量。QoS只關注網絡層與傳輸層的客觀參數,而無法反饋用戶的主管觀看感受。為了進一步評估用戶在多媒體業務中的主觀體驗,ITU-T在Rec P.10/G100 標準中提出了體驗質量(Quality of Experience,QoE)的概念,定義為“終端用戶主觀感受到的應用或服務的整體可接受程度”。對于視頻流媒體業務而言,QoE是對端到端視頻編碼、傳輸和播放過程的總體評價,能準確反映當前傳輸方案下的用戶觀看體驗,并能作為視頻傳輸的反饋指標。
但是,為得到視頻QoE,常常需要進行主觀人群測試,受測人員觀看后再按主觀印象打分,最終對所有打分進行綜合,得出QoE,這種方法需耗費大量人力和時間,且結果帶有較大的主觀性,不適用于實時的流媒體傳輸過程。為了避免主觀測試,又要得出較為可靠的QoE預測,提出客觀質量模型,利用視頻相關特性建立與視頻之間的聯系,得到客觀參數到主觀質量的映射模型,其成本會大大降低,同時也有更好的指導價值。目前,研究人員已經提出了一些客觀質量模型。針對上文的傳輸方法,如何在當前帶寬預算下選擇最高的可用質量,是需考慮的重要因素,因此本文針對劃分區域的VR傳輸策略采用PIAMRAT等人[2]提出的QoE模型,其中給出了比特率()、延遲時間stall、轉換質量switch和啟動時間startup的不同系數,以平衡它們對整個VR視頻QoE的影響,以及考慮三個分辨率區域的QoE表達式,該QoE模型表示為:
=()-·stall-·switch-·startup(1)
=1·zone1+2·zone2+3·zone3(2)
人眼類似于一個光學系統,但不是普通意義上的光學系統,還受到神經系統的調節。探究人類視覺系統(Human Visual System,HVS)的感知特性并模擬其感知過程成為圖像處理領域研究的熱點。本文基于HVS對于人眼的研究,根據其對人眼視覺特性的建模和分析來對本文研究的QoE評價方法及分辨率劃分標準。HVS主要研究以下幾點因素。
對比靈敏度。人眼對亮度光強變化的響應是非線性的,在本文研究的QoE評價方法以及分辨率優化標準中,VR顯示器的亮度默認為保持不變,所以該特性不作為主要的考慮因素。
分辨率。當空間平面上兩個黑點相互靠攏到一定程度時,離開黑點一定距離的觀察者就無法區別它們,這意味著人眼分辨景物細節的能力是有限的,這個極限值就是人眼分辨率。當照度太強或太弱、視覺目標運動速度加快時,人眼分辨率降低。本文主要研究兩分辨率不同區域交界處的人眼分辨能力,通過光學中愛里斑的相關理論來研究人眼對于兩個分辨率不同的像素區域的分辨能力,在下面章節會詳細介紹。
馬赫效應。當亮度發生躍變時,會有一種邊緣增強的感覺,視覺上會感到亮側更亮,暗側更暗,從而導致局部閾值效應,本文主要研究的是分辨率因素,亮度因素作為無關變量,與上文的對比靈敏度一起不作為考慮的因素。
綜合上述因素,人眼的分辨能力是研究分辨率允許差值的主要影響因素。
基于HVS模型的數字影像質量評價,針對人眼分辨率這一指標,根據光學基本原理,將愛里斑和瑞利判據的概念引入本文介紹的VR流媒體傳輸策略評價中,通過分析人眼分辨能力來給出劃分不同分辨率區域而不明顯影響區域邊緣圖像質量以及用戶質量體驗的分辨率劃分標準,即若網絡帶寬不允許,使得兩區域分辨率存在差值,則差值不大于多少時,不會造成用戶體驗明顯降低或被人眼明顯察覺到從而造成暈眩。
在實際應用中,光學系統都存在一個入射光瞳作為光孔的限制,因而會造成衍射效應,造成人眼分辨能力降低,進而影響到人眼對數字影像的觀察質量。如果兩個衍射圖樣中間相距過近,且愛里斑半徑較大,人眼將無法將其區分,在視覺上造成模糊的感覺[3]。
瑞利判據指出,滿足兩個衍射圖樣恰好分開的臨界條件是,第二個光強度曲線恰好落在第一個光強度曲線的第一最小值上,這里假定一個視力正常的人眼虹膜直徑=5 mm,光波平均波長=550 nm,人眼的最小角分辨度為:

本文涉及的分區塊分辨率的傳輸策略,其分辨率的改變集中于區域邊緣,這也是本文研究的主要問題。為了簡化模型,對于VR顯示器,我們研究平面顯示屏,假設顯示屏尺寸為,屏幕分辨率為、(像素),顯示屏長寬為、,一般顯示屏的長寬有一定的比例,如16∶9、4∶3等,可以根據實際情況代入運算。此時可以計算出屏幕的每英寸像素數(Pixels Per Inch)為:

根據公式(3),用最小分辨角乘以人眼距顯示器的距離即可得到人眼可分辨的最大距離,根據公式(4)可得到人眼對數字影像的最小分辨距離min,數學關系如下:

此時可以通過屏幕的長寬數據與分辨率計算出屏幕單個像素點的物理尺寸,如圖2所示像素點模型中右側小矩形的長寬所示,這些屏幕像素點位于上文不同分辨率區域1、2交界處,右側小矩形位于1,為屏幕最小的像素點。左側大矩形位于2,是為了保證畫面流暢度而降低流暢度后畫面的像素點,由若干個屏幕像素點組成為一個圖像像素,尺寸大于屏幕能顯示的最小像素點。

圖2 像素點模型

考慮到VR視頻播放器從Web服務器(Apache2,2.4.18-2)請求和處理基于分辨率區域的VR視頻。網絡條件由Linux流量控制(TC)機制根據真實的網絡性能輸入執 行。實驗建立在Linux Ubuntu14.04操作系統的基礎上,每個服務器由一個四核E3-1220v3(3.1 GHz)處理器組成,具有16 GB的RAM和2個10千兆網絡接口。使用MobaXterm進行外部操控以及仿真數據的讀取,代入公式(1)(2)中計算QoE。
[1]STEFANO P,VISWANATHAN S,MOHAMMAD H,et al.An HTTP/2-Based adaptive streaming framework for 360 virtual reality videos[C]//In Proceedings of the 2017 ACM on Multimedia Conference(MM’17), 2017:306-314.
[2]PIAMRAT K,VIHO C,BONNIN J M,et al.Quality of experience measurements for video streaming over wireless networks[C]//In International Conference on Information Technology:New Generations,2009:1184-1189.
[3]何凱.基于人眼視覺分辨力的數字影像質量評價方法研究[C]//2005年信息與通信領域博士后學術會議論文集,2005:131-135.
TP391.41
A
10.15913/j.cnki.kjycx.2020.14.019
2095-6835(2020)14-0055-02
許宇彤(1999—),男,通信工程專業本科在讀,主要從事數字通信以及自動控制學習與研究。
〔編輯:王霞〕