吳海燕 金智鵬



摘 要為了降低編碼復雜度,提升編碼速度,快速編碼算法成為當下研究熱點,以此為背景提出基于CNN的編碼單元快速選擇算法框架,將QTBT編碼單元選擇問題轉化為多分類問題,直接從編碼單元中學習和提取分類特征,而不需要手動去設計和提取特征;也不需要時域和空域的相關性信息,有助于提高幀內編碼的并行運算和獨立解碼性能。本方法還設計了一個目標函數,包括Hingeloss和類別懲罰項,能有效提高分類準確。
關鍵詞快速編碼;分類特征;幀內編碼;目標函數
1 研究背景
視頻編碼技術是有效存儲和傳輸多媒體信息的關鍵技術之一,是現代信息技術中不可或缺的重要組成部分。視頻編碼技術已有30多年的發展歷史,視頻編碼標準的發展歷程如圖1所示。當前,視頻技術的發展趨勢之一是追求更高的分辨率和清晰度[1],以實現對自然景物更加真實、清晰的表征。例如,日本放送協會(NHK)一直致力于4K(3840×2160像素)甚至8K(7680×4320像素)超高清視頻節目的壓縮和傳輸技術研究。但是,超高分辨率帶來了視頻數據的急劇增加,使得視頻數據的儲存和傳輸變得十分困難[2]。當前最新的視頻編碼國際標準HEVC主要面向高清(720P,1080i,1080P)視頻編碼[3],對于當前超高清、高動態范圍、360°VR等新興視頻編碼需求已經有些力不從心。因此,下一代超高清視頻編碼技術的研究與標準制定已顯得十分迫切。
為此,2015年10月,聯合視頻探索工作組(Joint Video Exploration Team,JVET)[4]在日內瓦召開了第一次會議,確定探索面向超高清視頻的編碼技術和下一代視頻編碼標準的制作工作;并成立了Ad Hoc小組,分領域搜集和審閱技術提案。JVET沿用了傳統的預測+變換的混合編碼框架[5],同時又創新性地引入了多項關鍵技術,如:四叉樹+二叉樹(Quadtree plus binary tree,QTBT)編碼單元結構65種幀內角度預測模式,位置相關的幀內預測組合(Position dependent intra prediction combination,PDPC),4抽頭插值濾波,交叉分量線性預測(Cross-component linear model,CCLM),改進的環路濾波等,顯著提高了壓縮效率。
圖2展示了JVET相對于HEVC的率失真性能和編碼復雜度對比情況。但是,當前JVET的編碼效率距離BD-Rate降低50%的預期目標還有較大差距,且當前JVET編碼效率的提升是以極高的計算復雜度為代價的。因此,JVET工作組當前的工作重點在于提高編碼質量和降低編碼復雜度等兩大領域。
編碼質量和計算復雜度之間的平衡是視頻編碼領域的核心技術。本研究將借鑒當前在計算視覺領域獲得廣泛成功的深度學習技術,重點研究提高JVET幀內預測編碼效率,具有重要的學術價值、應用價值和社會效益。
2 國內外研究現狀
從視頻編碼技術的發展歷程來看,如何在復雜度和時延受限的條件下,獲得最優率失真性能,是視頻編碼技術的核心問題。傳統的快速編碼研究主要是基于統計特征建模和基于機器學習特征分析的方法。例如,Shen等人探索了編碼單元的RD Cost與空間相鄰塊的相關性,據此跳過使用概率低的劃分模式的RD Cost計算。JVET-F0063提出跳過第二個BT子塊的RD Cost計算,如果父塊和第一個BT子塊的RD Cost符合特定的約束條件。Zhang等人依據編碼單元尺寸設計了三類SVM分類器,逐層判斷是否需要把編碼單元劃分為子塊。實驗顯示,這些算法都大幅降低了編碼復雜度且保持了較好的率失真性能。但是這些算法的性能都依賴于手工設計的特征,對于復雜情況的處理能力相對較弱。
目前,基于深度學習的快速視頻編碼技術是快速編碼領域的新興研究方向之一。Liu等人首次將CNN引入到編碼模式快速判決算法中,提出了一種基于深度學習的端到端的快速編碼算法框架。該算法把每個編碼單元下采樣到統一尺寸的8*8矩陣,再送入CNN網絡進行特征提取和分類判決,以確定當前編碼單元是否需要進一步分割為子塊。但是由于下采樣和網絡較淺等原因,該算法的BD-Rate損失高達4.79%。Li等人則為各個尺寸的編碼單元都訓練不同的CNN網絡,各個QP下的網絡模型也分開訓練;再加上該算法采用了較深較寬的CNN網絡,分類準確率有了提升,BD-Rate損失平均為2.12%。雖然該類基于深度學習的算法為視頻快速編碼研究打開新的視角,但是現有算法的應用靈活性較差,尤其是率失真性能損失太大。
3 基于CNN多分類的幀內編碼單元快速選擇方法研究
JVET采用了許多新技術用以提高幀內編碼質量,其中影響最大的技術就是四叉樹+二叉樹(quad-tree plus binary-tree, QTBT)編碼單元劃分方法。相比于HEVC的HM16.9,JEM 5.0的幀內編碼可以在同等質量下降低20%的碼率。另一方面,編碼單元的QTBT結構劃分導致了編碼復雜度的大幅增加,約增加523%[5]。因此,研究JVET的快速編碼算法,尤其是幀內編碼單元快速選擇方法,是當前的一個研究熱點。
在各種基于學習的快速編碼算法中,分類器的分類準確率和魯棒性對于編碼性能有非常大的影響。深度學習系統相比于以往的機器學習算法,可以實現端到端的學習,無須再手動設計和提取分類特征。但是,深度學習系統的分類準確率受到分類類別、訓練樣本、網絡結構、網絡寬度和深度、訓練的目標函數等因素的綜合影響。所以,需要根據編碼單元QTBT劃分結構特性,從QTBT多分類類別設置、訓練樣本提取、網絡結構和目標函數優化等方面,系統地研究基于CNN多分類的幀內編碼單元快速選擇算法。在基于CNN多分類的幀內編碼單元快速選擇方法研究中,我們將重點考慮解決以下幾個問題:
3.1 研究QTBT多分類類別設置及其對分類性能的影響
JVET的編碼單元采用四叉樹+二叉樹圖的QTBT劃分結構,如圖3所示。編碼單元的QTBT劃分結構具有高度的靈活性和寬闊的尺寸跨度,再加之JVET有67幀內預測模式,這給快速編碼算法的設計帶來了挑戰。
本課題將QTBT劃分結構優化問題建模為多分類問題,依據32×32塊中子塊的最大劃分深度設置分類類別,如公式(1)。
鑒于JVET幀內編碼中BT最大劃分尺寸為32×32像素[4],因此以32×32塊作為分類基礎,既可以覆蓋所有的BT劃分范圍,也可以直接擴展以適應更大尺寸的QT劃分。
3.2 訓練樣本的收集、制作、篩選,及其對分類性能的影響
本課題將通過默認參數設置的JVET幀內編碼來收集訓練樣本。但是最佳QTBT劃分結構是根據RD cost確定的,有些類別之間的差異非常小,這給分類訓練帶了困擾,甚至導致訓練失敗。鑒于此,本課題將研究確立分類類別之間的RD cost間隔及其對分類性能的影響,摒棄RD cost差異非常小的樣本,如公式(2)。
3.3 深度學習網絡的結構探索,網絡結構計算復雜度和分類性能、編碼性能的平衡
視頻編碼領域,編碼單元的劃分結構很大程度上受到量化參數QP的影響,它們之間呈現一種復雜的非線性關系。現有的基于機器學習的快速分類算法都是為不同的QP訓練不同分類器,這限制了該類算法的實際應用。
本課題將構建一種CNN網絡,使其能提取圖像高層特征,并結合QP進行非線性分類,網絡結構如圖4所示。網絡的前半部分是基于ResNets結構,主要功能是提取輸入圖像的高層特征用于后面的分類工作。網絡的后半部分是基于MLP結構,主要功能是將QP與圖像高層特征的非線性融合,以實現多分類預測。
3.4 深度學習目標函數的設計,及其對分類性能的影響
現有的深度學習分類器大多采用softmax算法結合cross-entropy損失函數來訓練和優化網絡參數。但是不同于Cifar、Imagenet等普通的自然物體分類,編碼單元QTBT劃分結構的錯誤分類預測將導致嚴重的編碼率失真性能損失。
本課題將為QTBT多分類問題設計一個帶有類別懲罰項的目標函數,擬采用L2正則化的Hingeloss結合一個類別懲罰項來優化網絡訓練,提高網絡分類準確。
這里,‖H‖表示L2正則化的Hingeloss,用于探索QTBT類別之間的最大分類間隔;P表示錯誤分類預測的懲罰項,它反映了編碼單元劃分結構的率失真性能影響和本課題的類別設置特點,有利于提高網絡的分類準確率。
4 結論
本項目提出基于CNN的編碼單元快速選擇算法框架,將QTBT編碼單元選擇問題轉化為多分類問題,直接從編碼單元中學習和提取分類特征,而不需要手動去設計和提取特征;也不需要時域和空域的相關性信息,有助于提高幀內編碼的并行運算和獨立解碼性能。本方法還設計了一個目標函數,包括Hingeloss和類別懲罰項,能有效提高分類準確。針對4K以上超高清視頻編碼的迫切需求,本項目也可為基于深度學習的視頻編碼技術研究提供新思路和理論依據。
參考文獻
[1]Y. Ye, Y. He, and X. Xiu, "Manipulating Ultra-High Definition Video Traffic," IEEE Multimedia, vol. 22, pp. 1-1, 2015.
[2]G. J. Sullivan, J. R. Ohm, W. J. Han, and T. Wiegand, "Overview of the High Efficiency Video Coding (HEVC) Standard," IEEE Transactions on Circuits & Systems for Video Technology, vol. 22, pp. 1649-1668, 2013.
[3]T. K. Tan, R. Weerakkody, M. Mrak, N. Ramzan, V. Baroncini, J. R. Ohm, et al., "Video Quality Evaluation Methodology and Verification Testing of HEVC Compression Performance," IEEE Transactions on Circuits & Systems for Video Technology, vol. 26, pp. 76-90, 2016.
[4]WG11, "Joint Group on Future Video Coding Technology Exploration (JVET)," MPEG 113th meeting, N15897, Oct. 2015.
[5]J. Chen, E. Alshina, and G. J. Sullivan, "Algorithm Description of Joint Exploration Test Model 1," JVET-A1001, 2015.