錢鵬飛,王甯琪,張冬冬
(同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201800)
隨著近年來信息技術(shù)的發(fā)展以及VR設(shè)備的普及,使得消費(fèi)者對(duì)于觀看360°全景視頻也有了更為迫切的需求。而現(xiàn)在流行的360°全景視頻與傳統(tǒng)的二維視頻有很大的不同。以現(xiàn)在比較通用的矩形球面投影(EquiRectangular Projection,ERP)[1]格式為例:其分辨率和幀率和普通視頻相比較高而且還具有特殊的投影格式。這些特性都使得HEVC在編碼360°全景視頻時(shí)顯得力不從心,難以取得較好的效果。因此現(xiàn)有的視頻編碼標(biāo)準(zhǔn)已經(jīng)無法滿足需求,所以現(xiàn)在迫切需要開發(fā)出下一代的視頻編碼技術(shù)來解決這一問題。針對(duì)這一問題,ITU-T視頻編碼專家組(Video Coding Experts Group,VCEG)以及動(dòng)態(tài)圖像專家組(Moving Picture Experts Group,MPEG) 正在研究新的面向未來的下一代編碼技術(shù),并成立了聯(lián)合視頻探索專家組(Joint Video Exploration Team,JVET)[2]來完成相關(guān)算法的研究以及標(biāo)準(zhǔn)的制定,期望可以獲得遠(yuǎn)超HEVC的編碼性能。到目前為止,JVET已經(jīng)開發(fā)出了下一代視頻編碼技術(shù),并公布了相關(guān)的開源算法性能評(píng)估的測(cè)試平臺(tái):聯(lián)合探索模型(Joint Exploration Model,JEM)[3]。本文中所有的實(shí)驗(yàn)數(shù)據(jù)均是在JEM7.0平臺(tái)上獲取的并和標(biāo)準(zhǔn)算法進(jìn)行對(duì)比。截至目前來看,VVC比HEVC高出約40%的壓縮性能,同時(shí)也引入了更高的計(jì)算復(fù)雜度。相對(duì)于HEVC來說,在幀內(nèi)編碼方面VVC并未增加特別的編碼技術(shù)。所有性能的增加均來自于對(duì)HEVC中技術(shù)的優(yōu)化。包括更大的編碼單元,多一倍的編碼預(yù)測(cè)模式以及使用了更加復(fù)雜的濾波器,這些都使得幀內(nèi)編碼復(fù)雜度升高[4]。在此之前已有相關(guān)的文獻(xiàn)對(duì)JEM7.0的編碼時(shí)間進(jìn)行分析,文獻(xiàn)[5]指出,其編碼的時(shí)間主要耗費(fèi)在幀內(nèi)編碼相關(guān)的處理上,實(shí)驗(yàn)結(jié)果表明JEM7.0的計(jì)算耗時(shí)約為HM16.6[6]的20倍。在文獻(xiàn)[7]中提出了新的基于案例的多候選列表方法來更好地利用相鄰塊信息求出MPM,從而優(yōu)化幀內(nèi)編碼的時(shí)間復(fù)雜度。在文獻(xiàn)[8]中,提出了一種優(yōu)化后的QTBT編碼結(jié)構(gòu)。雖然現(xiàn)在已經(jīng)針對(duì)VVC做了很多的優(yōu)化工作,也取得了一些進(jìn)展,但是其算法的時(shí)間復(fù)雜度還很高,仍需要繼續(xù)優(yōu)化。
本文針對(duì)360°全景視頻的特性進(jìn)行了統(tǒng)計(jì)分析,利用圖像塊經(jīng)過DCT變換后的系數(shù)呈現(xiàn)的特性來對(duì)編碼算法進(jìn)行優(yōu)化:圖像經(jīng)過DCT變換后的系數(shù)可以在一定程度上反映出視頻塊的紋理復(fù)雜度以及方向性。在本文中,首先對(duì)各種待編碼的視頻進(jìn)行統(tǒng)計(jì)分析,得到各種圖像類型的最優(yōu)預(yù)測(cè)模式的分布情況和DCT變換后非0系數(shù)的關(guān)系。然后對(duì)視頻的原始像素塊的紋理方向進(jìn)行判斷,根據(jù)判斷的結(jié)果得到最終縮減后的候選幀內(nèi)編碼預(yù)測(cè)模式,加快幀內(nèi)編碼預(yù)測(cè)模式的選擇過程。
在VVC中也采用了和HEVC中相同的幀內(nèi)模式選擇算法,名為粗模式選擇(Rough Mode Decision,RMD)。該算法為了降低計(jì)算復(fù)雜度采用兩輪選擇的方式。首先使用較低復(fù)雜度的代價(jià)選擇算法選出包含最優(yōu)模式的若干種候選預(yù)測(cè)模式,然后從候選預(yù)測(cè)模式中選擇最優(yōu)的預(yù)測(cè)模式進(jìn)行幀內(nèi)編碼。大家都知道,對(duì)二維圖像做DCT變換,是一個(gè)從空間域到頻率域的變換過程。變換以后可以發(fā)現(xiàn),左上角的系數(shù)一般較大,而右下角的系數(shù)一般都趨近于0。這是因?yàn)樽笊辖堑氖堑皖l分量,右下角的則是高頻分量。低頻分量體現(xiàn)的是圖像中目標(biāo)的輪廓和灰度分布特性,而高頻分量則體現(xiàn)的是目標(biāo)形狀的細(xì)節(jié)信息。在經(jīng)過DCT變換以后,能量主要集中在低頻分量處。如果對(duì)一個(gè)圖像塊做完DCT變換以后得到的DCT系數(shù)中,非0系數(shù)的個(gè)數(shù)比較少,那么該圖像塊紋理的細(xì)節(jié)信息不豐富,也就是其紋理復(fù)雜度較低。所以可以依據(jù)該特性對(duì)圖像塊的紋理復(fù)雜度進(jìn)行分析,找出其紋理復(fù)雜度和幀內(nèi)編碼的最優(yōu)模式之間的關(guān)系。
為了驗(yàn)證上文中的分析,進(jìn)行了一個(gè)實(shí)驗(yàn),統(tǒng)計(jì)和分析了在不同數(shù)量的非0系數(shù)下最優(yōu)模式的分布情況。通過對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析,發(fā)現(xiàn)了一個(gè)規(guī)律:當(dāng)圖像經(jīng)過DCT變換后非0系數(shù)的數(shù)量小于某一個(gè)閾值的時(shí)候,其幀內(nèi)編碼的最優(yōu)模式分布呈現(xiàn)了較為集中的現(xiàn)象,主要分布在Planar、DC、模式18以及模式50。從圖1可以看出,當(dāng)待編碼像素塊的DCT非0系數(shù)個(gè)數(shù)為1的時(shí)候,幾乎所有的像素塊的最優(yōu)的模式都集中在:Planar、DC、水平模式18或垂直模式50。

圖1 幀內(nèi)編碼最優(yōu)模式分布情況
這說明了當(dāng)像素塊的DCT變換后的非0系數(shù)較小時(shí),其最優(yōu)模式的分布呈現(xiàn)一定的規(guī)律。進(jìn)一步利用文獻(xiàn)[4]中的算法對(duì)像素塊進(jìn)行分析,以Cat_4k視頻序列(3 840×1 920)為例。圖2為實(shí)驗(yàn)結(jié)果,從中可以看出,當(dāng)判斷出圖像紋理為水平或垂直方向時(shí),其最終的編碼模式也屬于水平或垂直模式的概率,準(zhǔn)確率均超過91%。因此當(dāng)判斷出像素塊的紋理方向?yàn)樗交虼怪睍r(shí),相應(yīng)地其最優(yōu)模式也有很大概率為18或50。根據(jù)這一統(tǒng)計(jì)分析的結(jié)果,可以快速地得出RMD中的模式,從而加快模式選擇的過程。

圖2 各個(gè)尺度下紋理方向預(yù)測(cè)準(zhǔn)確度
從前文的統(tǒng)計(jì)信息可以看出,對(duì)于所有的測(cè)試視頻來說,當(dāng)原始像素值進(jìn)過DCT變換后的非0系數(shù)個(gè)數(shù)較少的時(shí)候,幀內(nèi)編碼的最優(yōu)模式有較大概率為Planar或DC模式。同時(shí)可以看出當(dāng)圖像呈現(xiàn)出一定的紋理方向特征的時(shí)候,也會(huì)出現(xiàn)大量的水平18或垂直50模式。所以,可以進(jìn)一步地挖掘圖像紋理方向和幀內(nèi)編碼的最優(yōu)模式之間的關(guān)系。算法具體描述如下:首先對(duì)待編碼像素塊進(jìn)行一次DCT變換,然后得到變換后的系數(shù)。統(tǒng)計(jì)其中的非0系數(shù)的個(gè)數(shù),記為NDCT。如果NDCT小于預(yù)設(shè)的閾值NThreshold(對(duì)于32×32以及16×16大小的編碼塊,NThreshold=11;其余尺寸編碼塊為NThreshold=2),則跳過預(yù)測(cè)模式的粗選擇過程,將幀內(nèi)預(yù)測(cè)候選模式直接設(shè)為0(Planar)和1(DC)。否則,按照J(rèn)EM7.0標(biāo)準(zhǔn)流程繼續(xù)。如果前面的條件滿足,接著利用文獻(xiàn)[9]中的算法得到像素塊的紋理方向,記為BlockType(1、2或其他)。如果BlockType為1,表示當(dāng)前圖像紋理方向?yàn)樗剑瑒t將代表水平預(yù)測(cè)模式的18加入候選預(yù)測(cè)模式;如果BolckType為2,表示當(dāng)前圖像的紋理方向?yàn)榇怪保瑒t將代表垂直預(yù)測(cè)模式的50加入候選預(yù)測(cè)模式。算法流程圖如圖3所示。

圖3 幀內(nèi)預(yù)測(cè)模式快速?zèng)Q策算法流程圖

(1)
實(shí)驗(yàn)結(jié)果如表1所示。從中可以看出,本文提出的快速算法平均可以節(jié)省24.08%的編碼時(shí)間,最高為34.80%,最低為13.62%,同時(shí)損失了0.80%的BD-Rate。

表1 實(shí)驗(yàn)結(jié)果(%)
在本文中提出了一種針對(duì)360°全景視頻的幀內(nèi)預(yù)測(cè)模式快速?zèng)Q策算法。通過分析圖像紋理的復(fù)雜度以及方向性來提前預(yù)測(cè)幀內(nèi)編碼的最優(yōu)模式以縮減其候選模式數(shù)量,減少冗余計(jì)算來降低其算法復(fù)雜度。實(shí)驗(yàn)結(jié)果表明,在幾乎不影響編碼質(zhì)量的前提下,平均可以節(jié)省24.08%的編碼時(shí)間,具有較大的實(shí)用價(jià)值,利用本文所提出的快速算法能夠?qū)?60°全景視頻的編碼時(shí)間大幅降低。現(xiàn)在很多的VR設(shè)備都以360°全景視頻作為視頻源,因此可以將該算法應(yīng)用在對(duì)相關(guān)全景視頻的壓縮中,以提高壓縮效率。