王苫社 趙德斌 高文
摘 要:基于HEVC (High Efficiency Video Coding) 新的編碼結構,本文提出了一種基于視覺特性的率失真優化方法。首先基于分歧歸一化與量化之間的關系,提出了一種適合HEVC編碼結構的視覺因子的計算方法,并提出使用非線性模型對視覺因子進行縮放,進而用于對量化參數的調整。其次,基于視覺因子和HEVC的四叉樹結構,提出一種基于視覺特性的率失真代價模型用于模式決策,以提升視頻編碼的主觀性能。實驗結果表明,本文算法可以有效提升重構視頻的主觀質量,在RA和LDP配置下,平均主觀性能提升為7.21%和11.46%。
關鍵詞:HEVC;率失真;視覺優化
中圖分類號:TP391.41 文獻標識號:A 文章編號:2095-2163(2014)05-
A Perceptual Characteristic Based Optimization Scheme for High Efficiency Video Coding
WANG Shanshe1 ,ZHAO Debin1 ,GAO Wen2
(1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001, China;
2 Institute of Digital Media, Peking University, Beijing 100871, China)
Abstract:Based on the new coding structure of (High Efficiency Video Coding) HEVC, this paper proposed a perceptual rate distortion optimization scheme. Firstly, based on the correlation between the divisive normalization and quantization, a non-linear zooming scheme for the perceptual factor is proposed for the adjustment of the quantization parameter. Secondly, based on the perceptual factor and quad tree coding structure, a perceptual calculation scheme of rate distortion cost is proposed for the mode decision in order to improve the subjective performance. The experimental results show that the proposed scheme can improve the subjective performance efficiently. The performance gain can be up to 7.21% and 11.46% on average for RA and LDP respectively.
Key Words: High Efficiency Video Coding(HEVC);Rate Distortion;Perceptual Optimization
0 引言
2013年,新一代視頻編碼標準High efficiency video coding (HEVC)[1] 正式發布。和前一代視頻編碼標準H.264/AVC[2]相比,新標準的視頻編碼性能在主觀和客觀兩個方面都取得了較大幅度的提升[3]。由于視頻的最終接受者為人眼,因此對于視頻編碼進行主觀優化,進一步提升視頻編碼的主觀性能,以更加符合人眼的視覺特性,即具有重要的研究價值和現實意義。
目前,盡管人們對人眼視覺特性的認知還無法使用具體的數學模型進行精確的描述,但在圖像處理、質量評價等領域中,研究者通過對人眼視覺系統的一些簡單特性實現了模型化并進一步應用于視頻編碼優化,則有效提升了視頻編碼的主觀性能。早期的視頻編碼標準中,已然可見視覺模型[4]在編碼的率失真優化中的多次應用,而且也取得了不錯的視覺效果。
近年來,基于視覺特性的率失真優化更加傾向于使用能夠體現視覺特性的失真模型來進行視覺率失真優化。基于HVS系統的時空特征,Wang[5]等人提出了一個用于衡量壓縮視頻序列的主觀失真度量模型——結構相似性(Structure Similarity, SSIM),已由研究界認定是一種較為準確的主觀失真的衡量方法,并廣泛用于對視頻編碼質量的主觀評價[6-7]。而基于SSIM,Li等[8]在假定殘差系數服從拉普拉斯分布的情況下,更進一步地提出了基于SSIM的視覺率失真優化模型;隨之Wang[9]更對文獻[8]中的方法實行了優化改進。尤其是,文獻[10]基于分歧歸一化理論,研究了基于視覺的量化矩陣的設計方法。方法中,通過基于預測信息的方法對DC系數和AC系數分別計算了歸一化因子,又根據變換域各頻帶的系數服從拉普拉斯分布的假設,利用拉普拉斯分布的參數調整了AC系數的量化權值以體現不同系數對于主觀質量的貢獻,由此在H.264/AVC中,視頻編碼的主觀質量即得到了較大提升。
1 分歧歸一化的基本理論與視覺優化
分歧歸一化(Divisive Normalization)的理論本質是對矩陣的某種變換,主要目的是使得矩陣中的數據可以反映某種特性并適合于特定的應用,其基本思想可以用來解釋神經系統的某些行為,因而能夠在一定程度上反映人眼視覺系統的某些特性[11]。在時下的圖像處理領域中,分歧歸一化方法的應用已經相當廣泛[12]。但在不同的應用中,分歧歸一化因子(Divisive Normalization Factor, DNF)的計算方法卻有所不同,例如基于數據局部特征的計算方法[13],基于數據分布模型的計算方法[11]等。
基于視覺特性的分歧歸一化可以理解為定義一個DNF對變換的殘差系數通過歸一化處理,并實現相應的量化,從而可以反映出圖像的主觀特性,即視覺優化因子(Perceptual Optimization Factor, POF)。編碼實現中,該過程可以等價地注釋為根據POF對量化參數進行調整,即:
(1)
其中, 表示調整后的量化步長。因此,基于視覺的率失真優化的核心關鍵即在于給出能夠反映主觀視覺POF的合理定力,并使用該因子對視頻編碼進行率失真優化。
依據DCT域的SSIM定義,在文獻[14]中,基于分歧歸一化的基本理論,則給出了POF的一種計算方法,具體計算如公式(2)和(3)所示,可分別用于實現DC系數和AC系數的歸一化。
(2)
(3)
其中,E表示數學期望,fac和fdc分別表示AC系數和DC系數的POF。
實際計算過程中,文獻[14]通過預測值和補償因子解決了編碼中的“蛋雞”問題,同時也完成了POF的精確計算。
2 改進的視覺因子計算與非線性縮放
文獻[14]中,POF計算方法的不足之處在于,首先會帶來解碼端復雜度的增加,其次計算得到的POF波動較大,綜合作用下就可能造成相鄰編碼單元的主觀質量差異較大。為此,針對解決解碼端的復雜度提升問題,本文則基于對不同頻帶變換系數有關分布的深入分析,提出使用一個POF表示AC和DC系數的視覺特性,從而避免對解碼端帶來額外解碼開銷。圖1即給出了對8x8的編碼單元進行DCT變換后所得變換系數在每個頻帶的分布情況。從中可以看出,不同頻帶的系數分布均服從一種均值近似為零的拉普拉斯分布。具體地,對于DC系數,分布較為平滑;而對于AC系數,分布就較為集中,并且大部分AC系數均位于“死區”內。
圖1 8x8 DCT變換系數分布
Fig. 1 Distribution of 8x8 transformed coefficients
在此,設某個頻帶的概率密度函數為:
(4)
其中,λ為模型參數,取值和函數的形狀相關,取值越小,其分布越平滑。對于給定的量化參數,“死區”的量化失真可以表示為:
(5)
結合(4)式,能夠得到:
(6)
從公式(6)中可以看出,對于相同的量化參數,失真的大小和λ的取值正相關,因此對于AC系數使用DC系數的視覺因子,AC系數的失真增大,而AC系數又包含了較多的細節信息,對主觀質量影響也相應較大。基于以上分析,本文的POF擬定使用AC系數進行計算。即:
對于文獻[14]中POF的取值范圍波動較大,本文將從兩個方面解決。首先使用高斯低通濾波方法對編碼單元進行濾波,如(7)式,而后再計算相應的視覺因子POF。
(7)
高斯濾波之后,視覺因子的具體計算就可以表示為:
(8)
其中, 表示高斯濾波之后的系數。
為了進一步平滑視覺因子,同時基于視覺特性的考慮,本文提出使用非線性的Sigmoid函數對高斯濾波后計算得到的POF進行非線性收縮,具體則如(9)式。
(9)
經過縮放之后的POF取值范圍在[0.5, 1.5]。此后,POF將用于對量化步長的調整,其實現可如式(10):
(10)
3 基于視覺特性的率失真代價模型
率失真優化的基本原理是通過計算每種模式的率失真代價,從而對編碼模式進行決策,傳統的率失真代價的計算方法為:
(11)
其中,J表示率失真代價,λ表示拉格朗日乘數,D表示編碼的客觀失真,通常的表現形式為SSE或MSE,R則表示編碼所需的碼率。該方法的不足之處即在于不能表示視覺失真特性。考慮視覺特性的率失真代價的計算則需要考慮基于視覺的失真,因此可將其表示為:
(12)
其中,Dp表示視覺失真。
利用POF進行歸一化后,產生的視覺失真即可表述為:
(13)
因此,基于視覺的率失真代價的計算則可如式(14)所示:
(14)
HEVC中,對于Rate-GOP中不同深度的各幀,拉格朗日乘子亦有不同,因此單純對失真進行調整將會造成模式決策的失誤。對公式(14)進行等價變形,可得:
(15)
研究可知,由于對于同一個編碼單元,f不會發生改變,因此模式決策只需要比較右側的取值大小即可。而在右側的表達式中,則可等價理解為對拉格朗日常數的調整,使得R-D曲線能夠趨向于表達主觀特性。最終本文提出,對于一個編碼單元,率失真代價的計算模型為:
(16)
上述率失真代價計算可以理解為對于POF較小的區域,分配更多的比特,以實現主觀質量的提升。由于本文提出的視覺率失真代價以CU為單位,考慮到HEVC采用了基于四叉樹劃分的結構,這就使得對于每個CU相應的四個Sub-CU,計算得到的拉格朗日常數可能并不相同,因此本文算法在比較相鄰深度的率失真代價時,就需采用上層的拉格朗日乘數重新計算當前深度下的率失真代價,從而對是否進行四叉樹劃分做出最終有效決策。
4 實驗結果與分析
為了驗證本文算法的有效性,將本文算法在HEVC的參考軟件HM10.0上進行相關實驗,測試條件為通用的兩種測試條件RA和LDP,主觀性能使用SSIM值進行衡量。表1和表2分別給出了在兩種不同配置下的實驗結果,并和相關文獻的結果進行了對比。在RA和LDP下本文算法的平均主觀性能提升分別為7.21%和11.46%。同時,本文也將實驗結果和文獻[15][16]中的算法相比,如表1和表2所示,從中可以看出本文算法能夠有效地提高視頻編碼的主觀性能,而且又保持了較小的客觀性能損失。
5 結束語
基于HEVC新的編碼特性,本文提出了一種基于視覺特性的優化算法。該算法引入了一種非線性收縮方式用于計算視覺因子,進而基于視覺因子提出了一種基于視覺特性的率失真代價計算方法用于模式決策,從而實現基于視覺特性的率失真優化。實驗結果表明,本文算法的主觀性能得到了較大幅度的提升。
參考文獻:
[1] SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the High Efficiency Video Coding (HEVC) Standard[J].IEEE Trans. on Circuits and Systems for Video Technology, 2012, 22(12):1649-1668.
[2] WIEGAND T, SULLIVAN G J, BJONTEGAARD G, et al. Overview of the H.264/AVC video coding standard[J].IEEE Trans. on Circuits Syst. Video Technol., 2003, 13(7):560-576.
[3] OHM J R, SULLIVAN G J, SCHWARZ H, et al. Comparison of the coding efficiency of video coding standards–including high efficiency Video Coding (HEVC) [J].IEEE Transactions on Circuits and Systems for Video Technology , 2012,22(12):1669-1684.
[4] WEBSTER A A, JONES C T, PINSON M H, et al. An objective video quality assessment system based on human perception[C]//Proc. SPIE VInt. Soc. Opt. Eng., 1993,1913:15–26.
[5] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J].IEEE Trans.on Image Processing, 2004,13(4):600–612.
[6] YANG C, WANG H, PO L. Improved inter prediction based on structural similarity in H.264[C]//IEEE International Conference on Signal Processing and Communications, 2007,2:340–343.
[7] HUANG Y H, OU T S, SU P Y, et al. Perceptual rate-distortion optimization using structural similarity index as quality metric[J].IEEE Trans. on Circuits and Systems for Video Technology, 2010,20: 1614–1624.
[8] LI X, OERTEL N, HUTTER A, et al. Laplace distribution based Lagrangian rate distortion optimization for hybrid video coding[J]. IEEE Trans. Circuits Syst. Video Technol., 2009,19(2):193-205.
[9] WANG S, REHMAN A, WANG Z, et al. SSIM-motivated rate-distortion optimization for video coding[J]. IEEE Trans. on Circuits and Systems for Video Technology, 2012, 22(4):516-529.
[10] WANG S, MA S, GAO W. SSIM based perceptual distortion rate optimization coding[C]//Proc. SPIE: Vis. Commun. Image Process.,2010,77(44):1–10.
[11] HEEGER D J. Normalization of cell responses in cat striate cortex[J]. Visual Neuroscience, 1992,9(2):181-197.
[12] LYU S, SIMONCELLI E P. Statistically and perceptually motivated nonlinear image representation[C]//Proc. SPIE Conf. Human Vision Electron. Imaging XII, 2007,6492:1-15.
[13] WAINWRIGHT M J, SIMONCELLI E P. Scale mixtures of gaussians and the statistics of natural images[J]. Adv. Neural Inf. Process. Syst., 2000,12:855–861.
[14] WANG S, REHMAN A, WANG Z, et al. Perceptual video coding based on SSIM-inspired divisive normalization[J].IEEE Transactions on Image Processing, 2013,22(4):1418-1429.
[15] YEO C, TAN H, TAN Y. SSIM-based adaptive quantization in HEVC[C]//IEEE International Conference on Speech and Signal Processing (ICASSP), 2013:1690-1694.
[16] 王詩淇.基于視覺特性的視頻編碼技術研究[D].北京:北京大學,2014.