周建同,楊海濤,劉東,馬祥,王田
(1. 華為技術有限公司,廣東 深圳 518129;2. 中國科學技術大學,安徽 合肥 230026)
視頻編碼的技術基礎及發展方向
周建同1,楊海濤1,劉東2,馬祥1,王田1
(1. 華為技術有限公司,廣東 深圳 518129;2. 中國科學技術大學,安徽 合肥 230026)
現有視頻編碼采用基于塊的混合編碼架構,利用預測、變換、量化和熵編碼技術實現對視頻信號的高效壓縮。在現有架構基礎上進一步優化,提供針對視頻圖像信號局部特性的更加靈活的處理和編碼。基于機器學習的視頻編碼技術有望部分或全面地改變現有的混合編碼框架,給視頻編碼帶來新的研究思路。未來視頻除了現有的二維平面視頻,還需要編碼面向AR/VR應用的球面視頻數據和體視頻數據,這些新的視頻源數據格式也給視頻編碼技術研究帶來新的機會和挑戰。
視頻編碼;機器學習;虛擬現實;球面視頻;體視頻
視頻編碼技術是數字媒體應用的關鍵基礎性技術,從ITU在1984年發布業界第一個數字視頻編碼標準H.120至今,經過近30年的發展,產生一代代視頻編碼技術,支撐了DVD、數字電視和IPTV[1]、互聯網視頻服務[2,3]、視頻監控、AR/VR等視頻相關產業和應用的發展。
視頻編碼技術的主要目的是解決大數據量視頻信息的高效存儲和傳輸,在有限資源的情況下,保證盡可能地提高用戶視覺體驗。而隨著視頻采集和顯示設備的更新換代,視頻體驗在過去30年持續提升和變革,視頻產業也空前繁榮。目前空間分辨率達到4K(4 096×2 160像素)、時間分辨率超過 50幀/s的超高清視頻已經開始商用。而新興的虛擬現實和增強現實等浸入式視頻應用更是牽引視頻從過去 30年平面視頻提供的零自由度體驗向三自由度全景視頻(球面數據)和六自由度視頻(體數據)發展,如圖1所示。對于三自由度全景視頻空間分辨率4K只是“起步價”,未來空間分辨率將達到8K、16K乃至更高,時間分辨率要求也隨之提升,90幀/s乃至更高的幀率能提供更好的用戶體驗。而六自由度視頻更是顛覆了人們的傳統視頻體驗,提供視頻信息呈現空間內的漫游體驗,具備多視點和多視角的特點。這些新的浸入式視頻體驗和應用給視頻編碼技術提出了更高的要求,也對現有的存儲和傳輸系統提出了很大的挑戰。即便使用目前最新最高效的通用視頻編碼國際標準高性能視頻編碼HEVC技術,由于壓縮效率不夠,碼流的速率仍遠遠超出現有網絡的承載能力,極大地限制了相關業務的發展。因此進一步提高視頻編碼的壓縮效率、提供面向三自由度視頻和六自由度視頻的高效編碼方案有迫切的需求。本文將從以下3個方面,對視頻編碼的技術發展進行初步探討:現有混合編碼架構的持續演進;基于機器學習理論的視頻編碼技術突破;六自由度視頻體數據的技術探索。

圖1 浸入式視頻發展趨勢
基于混合編碼框架的現有視頻編碼的技術仍在不斷演進。現有視頻編碼技術的基本框架即所謂混合編碼框架在30年來沒有發生大的變化,仍然沿襲了圖像分塊結構,配合預測—變換—量化—熵編碼的流程,只是每項具體方法,如預測方法、變換方法等,不斷演進,提供更為精細的局部信號自適應能力,通過幾百種處理算法的靈活組合模式,提升視頻的壓縮效率,然后在摩爾定律的幫助下,解決復雜度提升帶來的問題。其理論思路主要是從信號處理理論出發,推導和設計不同的預測方法、變換方法等,再利用率失真優化理論來進行編碼模式選擇,從一組編碼方法或參數中根據率失真代價最小的準則選擇最優的方法或參數。
混合編碼架構作為業界主流的視頻編碼技術架構體系,其技術研究和標準化主要由兩個國際標準組織——ISO/IEC WG11運動圖像專家組 MPEG和 ITU-T SG16的視頻編碼專家組VCEG聯合推動。最新一代的視頻編碼標準HEVC/H.265在2013年發布一年后,MPEG組織于 2014年 10月在法國斯特拉斯堡召開了第一屆未來視頻編碼(FVC)技術論壇[4]。谷歌、華為、高通和Netflix等公司受邀做專題報告,結合各自產品與服務,從不同角度闡述工業界對視頻壓縮編碼技術發展的觀點,并提出更高壓縮效率的訴求。2015年 2月會議中,MPEG啟動面向未來視頻壓縮編碼的相關標準工作,包括制定工作計劃[5]、進一步匯總和梳理工業界需求[6]、征集潛在應用于未來視頻壓縮編碼的技術方案[7,8]。2015年10月,MPEG與VCEG兩個組織宣布建立聯合視頻探索組(Joint Video Exploration Team,JVET)開展面向FVC的技術研究探索[6]。2017年4月,JVET確定未來視頻編碼標準時間表,于2017年10月公開征集標準候選技術方案,2018年4月啟動正式標準化工作流程,2020年完成標準化并發布。FVC針對業界熱點應用,將更好地滿足 4K/8K超高清視頻、高動態范圍HDR視頻和VR全景視頻的應用需求。其中,HDR視頻編碼和VR全景視頻編碼會基于 4K/8K超高清視頻編碼算法架構,疊加個性化編碼工具以及系統層適配參數,滿足各自特殊需求。從2015年至今,FVC通過建立聯合探索模型(joint exploration test model,JEM),吸引了業界諸多公司和研究機構的力量,高通[10]、三星、華為、聯發科、英特爾、微軟等公司以及德國的HHI研究所等都在積極投入。截至目前,FVC的編碼性能已經比HEVC/H.265在超高清視頻[11]上提升 32%以上[12],其性能結果如圖2所示,標志著面向下一代視頻壓縮標準的技術儲備已趨成熟。

圖2 FVC在超高清視頻序列上的編碼性能
當前FVC編碼模型引入多項編碼技術,涵蓋超高清視頻圖像塊劃分、幀內預測、幀間預測、空間變換、環路濾波和熵編碼等視頻編/解碼器(如 codec)關鍵模塊。和之前的視頻編碼標準技術相比,如下4項關鍵技術對現有編碼架構改變較大,并帶來顯著的性能提升。
2.1 靈活的圖像塊劃分技術
HEVC/H.265使用基于四叉樹的塊劃分方法[13],將一個圖像區域CTU作為四叉樹的根節點,按照節點一分為四的方式(如圖3(a)所示),將CTU遞歸劃分成若干個葉節點,每個葉節點為基本的編碼單元。
FVC在QT劃分樹的基礎上加入了4種基于二叉樹[14]和三叉樹[15]的劃分方式,如圖3(b)、圖3(c)、圖3(d)、圖3(e)所示;相應地,劃分樹也擴展為兩級:首先,CTU作為第一級劃分樹的根節點,第一級劃分樹上的節點僅可使用QT劃分方式繼續劃分,此與HEVC相同;然后,第一級劃分樹葉節點上“生長出”第二級劃分樹,即第一級劃分樹葉節點為第二級劃分樹的根節點,第二級劃分樹上的節點可使用兩種 BT劃分方式和兩種TT劃分方式之一繼續劃分。
上述劃分方式可稱為QT-BT/TT方式,即一種QT級聯BT/TT的二級劃分樹結構;與單一QT相比,它不但使得劃分產生的 CU形狀多樣,能夠更加靈活地適配圖像內容,而且解決了四叉樹一分為四導致劃分過于細碎、CU數目較多的弊端,從而提高編碼效率約10%。
2.2 解碼端運動矢量推導
目前編碼過程中,運動矢量(motion vector,MV)信息耗費較多的編碼比特。如果能夠減少運動矢量傳輸的比特消耗,則可以有效提升視頻編碼效率。因此在傳統視頻編碼技術中引入解碼端運動矢量推動(decoder side motion vector derivation,DMVD)技術,可以有效降低MV信息的編碼開銷。在2010年DMVD概念首次被引入視頻編碼標準研究中[16],解碼端推導的兩個思路原理分別如下。
基于空間相關性的模板匹配MV導出方案。在當前塊的周圍已重建的相鄰區域中確定一個L形模板(圖4中灰色區域),并在參考圖像中找到與模板相匹配的位置,將其MV作為當前塊的MV或者MV預測值[17,18]。圖4中W為L形模板的尺寸。

圖3 3種圖像塊劃分示意

圖4 當前塊的模板示意

圖5 基于幀率上采樣的MV導出方法
基于時間相關性的幀率上采樣的MV導出方案[19],對當前塊基于鏡像搜索的方法,在相鄰兩幀中找到兩個匹配誤差最小的塊的位置(如圖 5所示),從而導出當前塊的 MV。通過將這兩種理論的有效結合,FVC的解碼端運動矢量導出技術其性能達到6%[20]。
2.3 基于仿射變換模型幀間預測技術
現有視頻編碼標準中的運動補償模型均基于傳統的平動模型理論,但其并不能有效編碼包含復雜運動內容的序列,如旋轉(如圖6(a)所示)和縮放(如圖6(b)所示)等,其中為每個角點位置的運動矢量。仿射運動模型可以有效描述此類復雜運動,從而提高預測的準確度,進而提高編碼效率。傳統的仿射運動模型使用較為復雜,2015年基于放射變換運動模型的幀間預測技術被提出并成為 FVC參考中的基礎算法[21-23]。通過使用當前塊上方兩個角點位置的運動矢量(如圖7(a)所示),基于4點仿射模型推導出當前塊中每個像素或者每個子塊的運動矢量(如圖7(b)所示)。使用這種方法可以有效地提高含有復雜運動內容的視頻序列的編碼效率,平均可以提高編碼性能約3%以上,對于某些復雜運動序列,編碼效率提升甚至可以達到30%。

圖6 旋轉運動和縮放運動示意

圖7 利用仿射運動模型導出MV
2.4 基于維納濾波器的自適應環路濾波
維納濾波器是一種基于最小均方誤差的線性濾波器,可以有效地應用于去噪等應用場景。而視頻編碼引入的模糊等失真可看作一種疊加在原始視頻信號上的噪聲信號。因此,維納濾波也可以用于最小化編碼失真視頻信號與原始視頻信號之間的均方誤差,使得濾波后的視頻信號盡量接近原始信號。在2007年,維納濾波器作為一種后處理濾波器引入編碼標準領域[24],對解碼之后的視頻信號進行恢復。2008年,參考文獻[25,26]提出一種塊級的自適應環路濾波器,將維納濾波引入編碼環內,并且進入 H.265的 KTA模型。在H.265標準化過程中得到了持續的改進[27],但是由于解碼端復雜度較高的原因,最終并未進入H.265的標準。目前,ALF由于其優秀的編碼性能,又進入FVC的編碼參考軟件JEM中,并成為FVC的關鍵技術之一。其編碼性能平均約為6%。
除了以上主要技術,FVC在幀內預測、變換等相關模塊均有進一步優化改進,使得整體性能較前一代視頻編碼技術得到大幅度提升。但從近幾年的研究和標準化工作來看,在傳統編碼框架基礎上的優化難度也越來越大,整個編碼系統的復雜度也越來越高,給實際應用帶來了一定的難度。面對不斷增長的視頻數據量和編碼技術發展需求,尋找和研究更好的編碼理論,尋求算法和性能突破就變得尤為重要。
回顧現有視頻編碼方法的兩個問題:(1)其理論假設常常是理想的平穩信號,而自然視頻的特性十分復雜,一般不滿足理想信號的假設。能否基于自然視頻的自身特性設計優化的編碼方法?如何“自動”地設計這些編碼方法而不是依賴人工調整參數?(2)在現有的編碼算法設計中,衡量失真所用的指標是均方誤差,等價于優化重建視頻的信號保真度(如峰值信噪比(peak signal to noise ratio,PSNR)),但是信號保真與重建視頻的視覺質量并非一一對應,有時甚至倒掛。能否在率失真優化時使用視覺失真度量?如何面向視覺質量優化來設計編碼方法?
近年來蓬勃發展的深度學習技術為解決上述問題提供了可能的方案。深度學習脫胎于仿生的人工神經網絡,借力大數據和高性能計算,在各種機器學習問題特別是涉及語音、自然語言、圖像、視頻等類型數據的問題中表現出色,在一大批任務中取得了目前最好的結果。將深度學習引入視頻編碼,針對上述問題有兩個潛在的優勢。
使用神經網絡進行圖像視頻編碼早在20世紀八九十年代就有研究[28],但其性能一直未能在大量測試數據上穩定地超越 JPEG 和視頻編碼標準,因此這類方法沉寂了相當長一段時間。從深度學習興起后,將深度學習用于圖像視頻編碼的研究又逐漸興起。
Toderici 等人[29,30]提出了基于深度網絡特別是遞歸神經網絡(recurrent neural network,RNN)的圖像壓縮方法。該方法的3個主要特點:采用類似自編碼器(auto-encoder)的網絡結構,并在其中插入二值量化層,直接得到二進制碼流;采用多層次殘差學習網絡結構,第一層對原始塊進行逼近,第二層對原始塊和第一層輸出結果之間的殘差進行逼近,第三層對原始塊和第一、第二層輸出結果之和之間的殘差進行逼近;對二進制碼流又設計了基于RNN的熵編碼方法,進一步提高壓縮效率。實驗結果顯示,該方法在SSIM等視覺質量評價準則下顯著優于JPEG。該方法可以視作一種可伸縮編碼方案(因其具有多層次結構),也可以視作一種變換量化+熵編碼的方案。Dumas等人[31]對自編碼器進行改進,提出了一種隨機“贏者全得”自編碼器,用于圖像壓縮獲得與 JPEG 相當的性能。Prakash等人[32]使用CNN 檢測圖像的感興趣區域,然后基于檢測結果調整不同區域的量化參數,但是量化參數是手動設定的,沒有率失真優化過程。Ballé等人[33,34]在網絡中使用近似熵實現了圖像編碼率失真優化,其失真度量函數是 MSE或經過簡單變換的MSE。具體來說,以參考文獻[34]為例,其思路如圖8所示。

圖8 Ballé等提出的基于非線性變換的編碼框架[34]
圖8中,x是輸入圖像,ga是編碼所用的正變換,也可以稱為分析模塊,通過這個分析模塊把原始圖像x映射到碼字空間y,即:

其中,Φ表示這個分析模塊里面的參數,這些參數需要通過訓練獲得。
之后,碼字空間通過量化得到離散的符號,即圖8中所示的q。為了重建出輸入圖像,q首先經過反量化得到 ?y,接著通過一個反變換模塊(也可以稱為合成模塊)gs,最終得到輸入圖像的重建圖像?x。值得一提的是,參考文獻[34]還實現了筆者前文所提的面向視覺質量優化的編碼,即整個編碼系統的失真度量并不是在原始的數據空間,而是利用了基于感知的變換 gp將圖像信號變換到感知域之后再計算失真。這樣,整個編碼系統可以看成一個面向視覺質量優化的深度學習圖像編碼系統,在上述系統中發揮重要作用的是分析和合成這兩個模塊,其網絡結構如圖9所示。

圖9 編碼框架中的分析和合成模塊結構
從圖 9不難看出,分析與合成網絡均可分為 3個階段,每個階段均包含卷積、下/上采樣和GDN/IGDN激活3種類型操作,執行每種類型操作的網絡參數的數量在各操作模塊下標出。圖9中各卷積操作網絡模塊中列出了卷積濾波器大小(N×N)和輸入輸出特征數量(輸出特征數×輸入特征數)。這個分析與合成網絡的特色之處在于使用了GDN和IGDN這兩個新型的激活函數。關于更多技術細節,感興趣讀者可以參考文獻[33]。
由于CNN已被用于去除JPEG壓縮帶來的人工痕跡[35],也可以類似地用于視頻編碼中的后處理。韓國 KAIST 的 Park 等[36]提出了一種基于CNN 的視頻編碼后處理方案,并報告了顯著的碼率節省,但是訓練CNN和使用CNN進行編碼的是同一組序列,這可能由于過擬合而無法證實CNN方案的普適性。中國科學技術大學的Dai等人[37]研究了基于CNN的幀內編碼后處理方案,提出了一種新的網絡結構,并通過合理的實驗驗證了該方案的普適性。該方案取代去塊效應(deblocking)濾波和像素自適應偏移(sample adaptive offset, SAO),用于HEVC 幀內編碼獲得了平均4.6%的碼率節省。圖10是Dai等人提出的用于視頻幀內后處理的網絡結構。

圖10 Dai等人提出的用于視頻幀內后處理的網絡結構[37]
該網絡把經過幀內壓縮之后的圖(未進行任何后處理)作為輸入,對應的原始圖像作為標簽進行訓練。網絡共有4層,第二、三層使用了多尺度的卷積核,并且網絡采用了殘差訓練。注意到原來HEVC的后處理操作包含了去塊效應濾波和像素自適應偏移這兩個步驟,且兩個步驟均基于信號處理相關理論人工設計了一些濾波參數,而Dai等人把幀內后處理操作直接形式化成了一個端到端的映射問題進行優化,并且取得了更好的性能。
目前國內外都有一些研究者正在進行基于深度學習的其他視頻編碼方法的研究,例如幀內預測方法[38]、亞像素插值方法、碼率控制方法、基于深度學習超分辨率的編碼方法、熵編碼方法等。總體來說,基于深度學習的圖像視頻編碼研究正處在起步階段,幾乎所有的現有工作都是以信號保真度作為優化目標,即網絡訓練時使用MSE作為損失函數。面向視覺質量優化的深度學習視頻編碼目前仍是空白,在未來,通過深度學習聯合發展視覺質量評價方法和面向視覺質量優化的視頻編碼方法,可能是比較有前景的研究課題。
全浸入式視覺體驗能夠在視場內漫游,要求視頻數據提供 6個自由度的數據信息,即數據需要支持在三維坐標空間中,沿x、y、z 3個坐標軸方向移動和圍繞這3個坐標軸轉動的6個運動情況下的視覺信息呈現。由于視覺信號采集、處理和呈現的難度,今天比較普及的是三自由度視頻,即圍繞x、y、z 3個坐標軸轉動情況下的視覺信息呈現。VR 360°視頻就是這種視頻數據的典型應用。如上文所述,其原始數據呈現為球面數據形態,相比于平面視頻數據,球面視頻數據在實際應用中要求更高的分辨率,比如8K、16K。由于球面數據可以通過簡單的映射運算轉化為傳統的平面視頻數據,因此可以基于平面視頻編碼技術進行處理,取得不錯的編碼效果,其壓縮性能也隨著平面視頻編碼技術的提升而提升。但六自由度視頻則具有完全不同的數據形態,一般稱之為體視頻數據[39]。
體視頻數據一般有3種方式表達: 三維網格表達、點云表達和超多視點表達。三維網格和點云都是計算機圖形學的經典技術原理,隨著視頻體驗向六自由度發展,視頻信號處理技術和計算機圖形技術正逐漸融合,成為未來體視頻數據發展的技術理論基礎。
利用三維網絡(3D mesh)來描述三維空間內的對象,對于一個視覺空間內的三維對象,使用記錄對象表面的幾何信息、拓撲信息和紋理信息來表達。幾何信息用來記錄對象表面每個網格頂點的坐標位置,拓撲信息用來記錄這些頂點之間的鏈接關系。通過幾何信息和拓撲信息,可以有效表達三維對象的空間形狀,再結合對每個網格內的紋理數據信息,即可以表達一個三維空間內的體視頻數據。因此對于三維網格數據的編碼,需要全面考慮幾何數據、拓撲數據和紋理數據的聯合高效編碼。三維網格的編碼在計算機圖形學中已經多有研究,而如何利用三維網格高效表達體視頻數據以及其高效編碼,還需要進一步的研究。
點云是三維空間中一組離散點數據的組合,每個點數據包含該點的空間位置信息、顏色信息、光學反射信息等[40]。因此一個用點云描述的體視頻數據就是一組時間上連續采樣的空間點云數據序列。點云數據的編碼還是一個全新的問題,其數據表達方式、編碼架構等還需要結合應用場景的需求進行深入研究[41]。
超多視點表達是基于傳統二維視頻數據表達方式最直接的擴展到體視頻數據的表達方式,即用二維視頻數據記錄體視頻數據各個視角方向的二維視頻信息。這樣得到的視頻數據就是一組二維視頻數據。每一個二維視頻數據可以采用現有的視頻編碼技術進行編碼,再借助相鄰視角方向視頻數據之間的相關性,采用多視角編碼技術進一步編碼,從而得到更高的編碼效率[42]。
由于六自由度體視頻技術目前還處在相當早期的階段,因此關于體視頻數據的采集、處理、編碼、傳輸和呈現還需要大量的研究工作。國際運動圖像專家組 MPEG在2016年已經開始了面向浸入式六自由度視頻的長期標準研究工作,該項目稱為 MPEG-I(immersive)。MPEG-I也提出了從三自由度到六自由度的技術演進路標,希望在2022年前后,能夠完成業界第一個面向六自由度體視頻數據的視頻編碼技術標準。
盡管視頻編碼理論、技術和標準已經經過幾十年的發展,但隨著新視頻采集和呈現技術以及新應用的不斷涌現,仍然面臨強烈的技術發展需求。一方面,針對傳統的二維視頻數據,基于現有混合編碼架構的視頻編碼技術仍呈現出不斷改進的空間,通過對視頻圖像更加靈活的塊劃分技術、更加精準的運動模型表達和運動信息編碼技術等,視頻的編碼效率可以得到顯著的提升。而基于機器學習的全新編碼思路和架構正得到越來越多的探索和研究,有望在不遠的將來,部分或全部改變現有的視頻編碼架構和設計原理,從而給視頻編碼領域帶來更大的突破。另一方面,在視頻數據源方面,三自由度球面視頻數據和六自由度體視頻數據給視頻編碼技術的研究帶來更多的挑戰和機會,也給人們帶來全新的視頻體驗和應用。視頻編碼技術的發展需要新的應用牽引,而新視頻應用的繁榮也需要視頻編碼技術不斷的突破和創新。
[1]施唯佳, 蔣力, 賈立鼎. OTT TV和IPTV的技術比較分析[J].電信科學, 2014, 30(5): 15-19,26. SHI W J, JIANG L, JIA L D. Technique comparative analysis of OTT TV and IPTV[J]. Telecommunications Science, 2014, 30(5): 15-19,26.
[2]魏崢, 施唯佳, 祝谷喬. 互聯網視頻中多屏互動技術的應用[J].電信科學, 2014, 30(5): 27-32, 39. WEI Z, SHI W J, ZHU G Q. Multi-screen interaction technologies on internet streaming video[J]. Telecommunications Science, 2014, 30(5): 27-32, 39.
[3]張敏, 宋杰, 劉曉峰. 電信運營商面對 OTT的戰略選擇[J].電信科學, 2014, 30(2): 142-146,151. ZHANG M, SONG J, LIU X F. Strategic selection of telecom operators to counter OTT[J]. Telecommunications Science, 2014, 30(2): 142-146, 151.
[4]MPEG. Presentations of the brainstorming session of the future of video coding standardization: MPEG-w15050[S]. 2014.
[5]MPEG. Steps towards a future video compression standard:MPEG-w15272[S]. 2015.
[6]MPEG. Requirements for a future video coding standard: MPEG-w15090[S]. 2015.
[7]MPEG. Request for contributions on future video compression technology: MPEG-w15273[S]. 2015.
[8]JVET. Joint call for evidence on video compression with capability beyond HEVC: JVET-F1002[S]. 2017.
[9]MPEG. Joint group on future video coding technology exploration (JVET): MPEG-w15897[S]. 2015.
[10]ITU. Coding tools investigation for next generation video coding: ITU-T SG16-C806[S]. 2015.
[11]JVET. JVET common test conditions and software reference configurations: JVET-B1010[S]. 2016.
[12]JVET. Algorithm description of joint exploration test model 6: JVET-F1001[S]. 2017.
[13]YUAN Y, KIM I K, ZHENG X, et al. Quadtree based nonsquare block structure for inter frame coding in high efficiency video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1707-1719.
[14]AN J, CHEN Y W, ZHANG K, et al. Block partitioning structure for next generation video coding: COM 16– C966[S]. 2015.
[15]JVET. Multi-type-tree: JVET-D0117[S]. 2016.
[16]YANG H, FU J, LIN S, et al. Description of video coding technology proposal by Huawei Technologies & Hisilicon Technologies[C]//ISO/IEC JTC1/SC29/WG11, JCTVC-A111, April 15-23, 2010, Dresden, Germany.[S.1.:s.n.], 2010.
[17]KAMP S, WIEN M. Description of video coding technology proposal by RWTH Aachen University[C]//JVT on Video Coding of ITU-T VCEG and ISO/IEC MPEG 1st Meeting, JCTVC, JCTVC-A112, April 15-23, 2010, Dresden, Germany.[S.1.:s.n.], 2010.
[18]KAMP S, WIEN M. Decoder-side motion vector derivation for block-based video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1732-1745.
[19]CHIU Y, XU L, ZHANG W, et al. Description of video coding technology proposal: self derivation of motion estimation and adaptive (Wiener) loop filtering[C]//JCT-VC 1st Meeting, JCTVC-A106, April 15-23, 2010, Dresden, Germany.[S.1.:s.n.], 2010.
[20]CHEN J, CHIEN W J, KARCZEWICZ M, et al. Further improvements to HMKTA-1.0[J]. Doc VECG-AZO7, 2015.
[21]LIN S, CHEN H, ZHANG H, et al. Affine transform prediction for next generation video coding[J]. ITU-T SG16 Doc COM16-C1016, 2015.
[22]CHEN H, LIANG F, LIN S. Affine SKIP and MERGE modes for video coding[C]//2015 IEEE 17th International Workshop on Multimedia Signal Processing (MMSP), Oct 19-21, 2015, Xiamen, China. New Jersey: IEEE Press, 2015: 1-5.
[23]LI L, LI H, LIU D, et al. An efficient four-parameter affine motion model for video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017.
[24]WITTMANN S, WEDI T. Transmission of post-filter hints for video coding schemes[C]//2007 IEEE International Conference on Image Processing, Sept 16-Oct 19, San Antonio, TX, USA. New Jersey: IEEE Press, 2007: 81-84.
[25]ITU. Adaptive (Wiener) filter for video compression:ITU-T SG16 Contribution C, VCEG-C437[S]. 2008.
[26]ITU. Adaptive loop filter for improving coding efficiency: ITU-T SG16 Contribution C, VCEG-C402[S]. 2008.
[27]TSAI C Y, CHEN C Y, YAMAKAGE T, et al. Adaptive loop filtering for video coding[J]. IEEE Journal of Selected Topics in Signal Processing, 2013, 7(6): 934-945.
[28]JIANG J. Image compression with neural networks–a survey[J]. Signal Processing: Image Communication, 1999, 14(9): 737-760.
[29]TODERICI G, O'MALLEY S M, HWANG S J, et al. Variable rate image compression with recurrent neural networks[J]. ar-Xiv preprint arXiv:1511.06085, 2015.
[30]TODERICI G, VINCENT D, JOHNSTON N, et al. Full resolution image compression with recurrent neural networks[J]. ar-Xiv preprint arXiv:1608.05148, 2016.
[31]DUMAS T, ROUMY A, GUILLEMOT C. Image compression with stochastic winner-take-all auto-encoder[C]//2017 IEEE International Conference on Acoustics (ICASSP 2017), March 5-9, 2017, New Orleans, USA. New Jersey: IEEE Press, 2017: 1512-1516.
[32]PRAKASH A, MORAN N, GARBER S, et al. Semantic perceptual image compression using deep convolution networks[J]. arXiv preprint arXiv:1612.08712, 2016.
[33]BALLé J, LAPARRA V, SIMONCELLI E P. End-to-end optimization of nonlinear transform codes for perceptual quality[J]. arXiv preprint arXiv:1607.05006, 2016.
[34]BALLé J, LAPARRA V, SIMONCELLI E P. End-to-end optimized image compression[J]. arXiv preprint arXiv:1611.01704, 2016.
[35]DONG C, DENG Y, CHANGE Loy C, et al. Compression artifacts reduction by a deep convolutional network[C]//2017 IEEE International Conference on Computer Vision (ICCV 2015), Dec 7-13, 2015, Santiago, Chile. New Jersey: IEEE Press, 2017: 576-584.
[36]PARK W S, KIM M. CNN-based in-loop filtering for coding efficiency improvement[C]//2016 IEEE Image, Video, and Multi-dimensional Signal Processing Workshop (IVMSP), July 11-12, 2016, Bordeaux, France. New Jersey: IEEE Press, 2016: 1-5.
[37]DAI Y, LIU D, WU F. A convolutional neural network approach for post-processing in HEVC intra coding[C]//2017 International Conference on Multimedia Modeling (MMM 2017), January 4-6, 2017, Reykjavik, Iceland. Heidelberg: Springer, 2017: 28-39.
[38]LIU Z, YU X, CHEN S, et al. CNN oriented fast HEVC intra CU mode decision[C]//2016 IEEE International Symposium on Circuits and Systems (ISCAS 2016), May 22-25, 2016, Montreal, Canada. New Jersey: IEEE Press, 2016: 2270-2273.
[39]LAFRUIT G, QUACKENBUSH S, FOESSEL S, et al. Technical report of the joint ad hoc group for digital representations of light/sound fields for immersive media applications[R]. 2016.
[40]TULVAN C, MEKURIA R, LI Z, et al. Use cases for point cloud compression[R]. 2016.
[41]MEKURIA R, LI Z, TULVAN C. Call for proposals for point cloud compression[R]. 2017.
[42]PALOMO C M. Interactive image-based rendering for virtual view synthesis from depth image[D]. Rio de Janeiro: Pontífícia Universidade Católica do Rio de Janeiro, 2009.
Trends and technologies of video coding
ZHOU Jiantong1, YANG Haitao1, LIU Dong2, MA Xiang1, WANG Tian1
1. Huawei Technologies Co., Ltd., Shenzhen 518129, China 2. University of Science and Technology of China, Heifei 230026, China
The current video coding uses block based hybrid architecture, which uses predictive, transform, quantization and entropy coding techniques to efficiently compress video signals. Further optimizations on current architectures provide more flexible processing and coding for local characteristics of video image signals. Video coding based on machine learning was expected to change the existing hybrid coding framework partially or comprehensively, and bring new research ideas to video coding. In addition to existing 2D video signal, the future of video also needs to spherical video coding and volumetric video coding for AR/VR applications, the new video source data format of the video encoding technology has brought new opportunities and challenges.
video coding, machine learning, virtual reality, spherical video, volumetric video
TP393
A
10.11959/j.issn.1000?0801.2017248

周建同(1980?),男,華為技術有限公司主任工程師,主要研究方向為多媒體應用系統和視頻通信。

楊海濤(1983?),男,華為技術有限公司主任工程師,主要研究方向為圖像視頻處理、壓縮和通信。

劉東(1983?),男,中國科學技術大學副教授,主要研究方向為圖像視頻壓縮和多媒體數據挖掘。

馬祥(1987?),男,華為技術有限公司工程師,主要研究方向為視頻壓縮。

王田(1967?),男,華為技術有限公司媒體技術實驗室主任,主要研究方向為多媒體通信系統、虛擬/增強現實和計算機視覺。
2017?07?15;
2017?08?08