李雪晴,何小海,吳小強,林宏偉
(四川大學 電子信息學院圖像信息研究所,四川 成都 610064)
?
結合模式對應與機器學習的HEVC降分辨率轉碼
李雪晴,何小海,吳小強,林宏偉
(四川大學 電子信息學院圖像信息研究所,四川 成都610064)
摘要:HEVC是ITU-T VCEG 繼H.264之后所制定的新一代視頻編碼標準,它提高了視頻的編碼效率,在保證相同視頻質量的前提下,壓縮比與H.264相比提高了一倍。另外,隨著4G網絡的興起和智能手機的普及,移動終端成為人們觀看網上視頻的一大主流平臺。但是,網絡中存儲的視頻分辨率普遍要大于移動終端的屏幕分辨率,為解決這個問題,開展了針對HEVC的降分辨率轉碼研究工作,利用高分辨率視頻的編碼信息,通過模式對應來簡化低分辨率視頻的編碼模式的計算過程,并采用機器學習的方法來確定降分辨率時的組塊閾值,以提高模式對應的準確性。實驗結果表明,提出的算法與Trivial transcoder相比,在保持PSNR和比特率幾乎不變的同時,編碼時間平均節省了60%左右。
關鍵詞:降分辨率轉碼;HEVC;機器學習;模式對應
1HEVC簡介
高效視頻編碼(High Efficiency Video Coding,HEVC)是由ISO/IEC Moving Picture Experts Group(MPEG)和ITU-T Video Coding Experts Group(VCEG)聯合制定的新一代視頻編碼標準。作為H.264的繼任者, HEVC克服了H.264的宏塊機制在處理高清視頻上的缺陷,它更適合處理高清視頻,是未來很長一段時間內的主流編碼標準,并將在視頻電話、視頻會議和網絡流媒體視頻點播方面有著廣泛的應用前景。
隨著科學技術的進步,網絡視頻播放平臺已經不局限于傳統的個人計算機,手機、iPad等移動終端也占據很大的比重,再加上近年來4G網絡的興起,這一比重將會越來越大,因此移動終端上的網絡視頻播放具有廣闊的市場前景。然而,移動終端設備的屏幕分辨率普遍比網絡中存儲的視頻分辨率小很多,同時還要受限于移動終端接入的無線網絡的帶寬,因此需要對高分辨率視頻進行降分辨率轉碼,使其適合于移動終端設備的播放。
顧名思義,降視頻分辨率轉碼就是將高分辨率的視頻轉換為低分辨率的視頻。降分辨率轉碼在使視頻分辨率降低的同時,也會相應地減少碼流,在很大程度上降低了對網絡帶寬的需求,這對視頻在無線網絡中的傳輸十分有利。最簡單的HEVC降分辨率轉碼方法便是對輸入的HEVC碼流進行全解碼得到解碼視頻,并對解碼視頻再進行相應的全編碼,這個過程被稱為Trivial transcoder,如圖1所示。Trivial transcoder在率失真方面可以取得最好的效果,但是其花費的時間代價卻是巨大的。為了降低轉碼的計算復雜度,可以將原始視頻碼流中的編碼信息例如預測模式、運動信息和編碼殘差等用于視頻的再次編碼當中。此種加速在對高比特率視頻的轉碼中尤為關鍵,主要是其中涉及的數據量相當大的原因。
2相關研究工作
降視頻空間分辨率轉碼屬于視頻的轉碼范疇,由于轉碼應用十分廣泛,因此它一直是眾多學者研究的熱點問題。由于HEVC是最新提出的視頻編碼標準,相關的降空間分辨率轉碼文獻較少,但是針對H.264的降分辨率轉碼研究十分成熟,相關的研究成果值得借鑒。湖南大學的雷靖[7]和武漢理工大學的袁衛軍[8]等人分別提出一種MPEG-2到H.264/AVC的空間分辨率轉碼算法,利用MPEG-2解碼過程中得到的信息選擇H.264/AVC的編碼模式,從而節省編碼時間,這兩種方法對視頻質量的影響都較小;北京郵電大學的王曉楠等提出分辨率轉碼中模式選擇與模式映射算法以及運動重估計算法[10];湖南大學的陳步真等提出基于H.264/AVC的分辨率轉碼方法,利用輸入碼流中的宏塊模式信息并結合梯度,確定下采樣后宏塊幀內編碼可能的模式和預測方向,從而減小計算量[11]。
目前隨著大數據和機器學習領域的飛速發展,很多研究者利用機器學習開展了一系列關于HEVC的轉碼研究工作:文獻[19] 提取H.264碼流中前10幀的數據,并通過對提取的數據進行機器學習并建立預測模型,利用已知的H.264碼流信息來預測轉碼成HEVC碼流時的編碼模式,大大降低了H.264到HEVC轉碼的計算復雜度并保證了視頻的質量;文獻[20]提出了基于功率譜的率失真優化方法(PS-RDO),在該轉碼方法中,通過運動矢量的變化和預測信號的功率譜估計運動矢量的計算代價,PS-RDO被用于HEVC中編碼單元(CU)的劃分以及預測單元(PU)的運動估計中。
通過分析上述研究成果可知,如何有效地將高分辨率視頻的編碼信息應用到低分辨率視頻的編碼當中,成為降分辨率轉碼研究的關鍵。在此思想的指導下,本文開展了基于機器學習和模式對應的HEVC降分辨率快速幀間轉碼研究。
3本文提出的算法
3.1模式對應
本文提出了基于機器學習與模式對應的HEVC降視頻分辨率快速幀間轉碼算法,在對下采樣得到的低分辨率視頻進行編碼時,利用從HEVC解碼端獲取的相應的高分辨率視頻的編碼信息來快速確定低分辨視頻的CU尺寸及其PU預測模式,這可大大降低幀間編碼過程中預測模式判決的計算復雜度,從而達到減少編碼時間的目的。
本文以2倍下采樣得到的視頻為例開展了研究工作。在HEVC中,編碼的基本單位是最大編碼單元(LCU),大小為64×64,原始碼流解碼后得到的視頻通過二倍下采樣后,寬和高均為原始視頻的一半,那么原先的LCU的大小便變成32×32,如果直接進行模式對應,那么在低分辨率視頻的編碼當中最大的編碼單元尺寸是32×32,不符合HEVC處理的要求,因此不能簡單地直接進行編碼模式的對應。通過分析高分辨率視頻在HEVC中編碼模式和對應的低分辨率視頻的編碼模式,發現在高分辨率視頻的4個相鄰的均為2N×2N的LCU,其運動矢量各自之間的關系影響著對應下采樣后視頻中對應的LCU的編碼模式,但是不同視頻的運動情況是不同的,鑒于此本文提出了基于機器學習與模式對應的HEVC降空間分辨率幀間快速轉碼算法,具體內容如下:

2)若臨近的4個LCU不滿足組合的條件,則不予組塊。CU尺寸為64×64,PU模式為2N×2N,對應下采樣后CU尺寸為32×32,PU模式為2N×2N,初始運動矢量取對應位置運動矢量的一半;CU 尺寸為64×64,PU模式為2N×N,對應下采樣后CU尺寸為32×32,PU模式為2N×N、2N×nU或者2N×nD(由于64×64的CU沒有非對稱的PU模式,故下采樣后需考慮非對稱模式下的預測是否更準確),上邊塊的初始運動矢量取原MV0的一半, 下邊塊的初始運動矢量取原MV1的一半;CU尺寸為64×64,PU模式為N×2N,對應下采樣后CU為32×32,PU模式為N×2N、nL×2N或者nR×2N,左邊塊的初始運動矢量取原MV0的一半, 右邊塊的初始運動矢量取原MV1的一半,如圖3所示。
3)在CU尺寸為32×32的情況下,由于CU尺寸為32×32下的PU模式與CU尺寸為16×16下的PU模式相同,都是7種,因此可以將CU尺寸改小為16×16,PU模式一一對應,初始運動矢量取對應運動矢量的一半。
4)CU尺寸為16×16,PU模式分別為2N×2N、2N×N、N×2N,對應下采樣后CU為8×8,PU模式分別為2N×2N、2N×N、N×2N,初始運動矢量取對應位置運動矢量的一半;而非對稱的PU模式中,2N×nU和2N×nD對應下采樣后PU模式2N×N,nL×2N和nR×2N對應下采樣后PU模式N×2N,初始運動矢量分別取對應區域運動矢量平均值的一半,如圖4所示。
5)CU尺寸為8×8時,由于8×8已經是HEVC中最小尺寸的編碼單元,下采樣后,沒有相應的模式對應。因此,4個8×8的CU,無論其PU模式是什么,下采樣后編碼測試CU尺寸為8×8下的全部3種PU模式,即2N×2N、2N×N、N×2N,初始運動矢量則取對應區域運動矢量的面積加權平均值的一半,如圖5所示。
3.2利用機器學習確定組塊閾值θ
鑒于不同視頻序列其運動的劇烈程度是不同的,組塊閾值θ的精確度成為決定組塊方案有效性重要因素。在HEVC幀間預測編碼中,滿足4個相鄰的編碼模式均為2N×2N的情況很多,通過分析滿足組塊條件的4個LCU的運動矢量和對應下采樣后的LCU的編碼模式之間的關系,采用機器學習的方法可以從中挖掘出特定視頻序列的組塊閾值θ。本文采用的機器學習軟件是懷卡托智能分析環境(WaikatoEnvironmentforKnowledgeAnalysis,WEKA),這是一款基于JAVA環境下開源的機器學習以及數據挖掘軟件,本文在WEKA平臺上,通過采用C4.5分類決策算法進行組塊閾值的確定,算法流程如圖6所示。
首先是將HEVC高分辨率視頻碼流在HEVC解碼端進行解碼并提取編碼信息,包括CU尺寸,PU模式、運動矢量等;將解碼完成后獲得的解碼視頻進行雙3次2倍下采樣獲得低分辨率視頻,然后將低分辨率視頻在HEVC編碼端編碼前20幀,并獲得每個LCU的編碼模式。
其次從上述操作中獲得的數據提取前20幀中所有的的4個相鄰的且編碼模式均為的LCU的運動矢量之差以及對應的低分辨率視頻中LCU的編碼模式寫入ARFF文件。
將完成的ARFF文件在WEKA中進行采用C4.5進行訓練并生成決策樹,并將生成的決策樹用于預測該視頻20幀后的組塊情況。
4實驗結果
為了驗證所提算法的性能,本文在HM16.0上進行實驗,對9個HEVC標準測試視頻序列的100幀進行了實驗,并與Trivialtranscoder在編碼時間、比特率和PSNR三個方面進行了比較,對比實驗結果分別如表1~表3所示。其中,鑒于篇幅的原因,對于比特率和PSNR僅僅列出5個序列。
5小結
上述實驗結果表明,本文所提算法與Trivialtranscoder相比,PSNR平均損失了0.09dB,平均編碼比特率上升了1.4%,而編碼時間卻大大降低,平均節省了63.51%。以上實驗結果證明所提算法大大降低了低分辨率視頻編碼的編碼復雜度,表明所提算法效果明顯。本文對于機器學習的使用目前主要著眼于組塊閾值的確定上,在未來的研究中,還可以把機器學習使用在模式判決上,通過對原始碼流的相關信息和轉碼后視頻的編碼模式進行機器學習,建立決策樹,從而進一步降低轉碼的復雜度。
參考文獻:
[1]SULLIVANGJ,OHMJR,HANWJ,etal.Overviewofthehighefficiencyvideocoding(HEVC)standard[J].IEEEtranactionsoncircuitsandsystemsforvideotechnology, 2012, 22(12): 1649-1668.
表1本文算法和Trivialtranscoder在時間上的比較
[2]OKUBOS.VideocodecstandardizationinCCITTstudygroupXV[J].Signalprocessing:imagecommunication,1989,1(1):45-54.
[3]OSTERMANNJ,BORMANSJ,LISTP,etal.VideocodingwithH. 264/AVC:tools,performance,andcomplexity[J].IEEEtransactionsoncircuitsandsystemsmagazine,2004,4(1):7-28.
[4]BROSSB,HANWJ,OHMJR,etal.Highefficiencyvideocoding(HEVC)textspecificationdraft8[S].2012.
[5]PEIXOTOE,SHANABLEHT,IZQUIERDOE.H.264/AVCtoHEVCvideotranscoderbasedondynamicthresholdingandcontentmodeling[J].IEEEtransactionsoncircuitsandsystemsforvideotechnology,2014,24(1):99-112.
[6]王宇,張彩明.一種基于H.264的任意比例空間分辨率轉碼中的快速宏塊類型選擇方案倡[J].計算機應用研究,2010,27(6):2359-2363.
[7]雷靖.H.264空間分辨率轉碼研究[D].長沙:湖南大學,2008.
表2本文算法和Trivialtranscoder在編碼比特率上的比較
表3本文算法和Trivialtranscoder在PSNR上的比較
[8]袁衛軍.MPEG-2到H.264降空間分辨率轉碼算法研究[D].武漢:武漢理工大學,2010.
[9]程大功.基于H.264/AVC的視頻空間分辨率轉碼研究[D].武漢:華中科技大學,2009.
[10]王曉楠.H. 264 碼率/分辨率下采樣轉碼的設計與實現[D].北京:北京郵電大學,2009.
[11]陳步真.基于碼率轉換與分辨率轉換的視頻轉碼技術研究[D].長沙:湖南大學,2010.
[12]張宏波.空間降分辨率視頻轉碼技術的研究[D].濟南:山東大學,2008.
[13]向永生,傅明.H.264視頻流分辨率縮減轉碼的快速宏塊模式選擇算法[J].計算機應用,2008,28(11):2890-2892.
[14]呂卓逸,賈克斌,蕭允治.低復雜度的快速降尺寸視頻轉碼算法[J]. 通信學報,2012,33(1):160-166.
[15]夏中超.面向移動視頻終端的視頻轉換編碼技術研究[D]. 長沙:湖南大學, 2010.
[16]韓鎮,胡瑞敏,陳皓,等.一種基于精確度的降分辨率視頻轉碼運動矢量合成算法[J].中國圖象圖形學報,2010(1):7-14.
[17]劉娟,鐘國韻,王蕾,等.基于時域相關性的快速HEVC幀間模式判決方法[J].電視技術,2014,38(13):1-6.
[18]李元,何小海,鐘國韻,等.基于時域相關性的HEVC快速幀內預測算法[J].電視技術,2012,36(9):1-4.
[19]PEIXOTOE,MACCHIAVELLOB,HUNGEM,etal.AnH.264/AVCtoHEVCvideotranscoderbasedonmodemapping[C]//Proc. 2013 20thIEEEInternationalConferenceonImageProcessing(ICIP). [S.l.]:IEEEPress, 2013: 1972-1976.
[20]ZHANGD,LIB,XUJ,etal.FasttranscodingfromH.264/AVCtohighefficiencyvideocoding[C]//Proc. 2012IEEEInternationalConferenceonMultimediaandExpo(ICME). [S.l.]:IEEEPress,2012: 651-656.
李雪晴(1990— ),女,碩士生,主研視頻圖像壓縮編碼;
何小海(1964— ),博士生導師,主研圖像處理與網絡通信、機器視覺與智能系統;
吳小強(1969— ),高級工程師,主研圖像處理和模式識別;
林宏偉(1983— ),博士生,主研視頻圖像壓縮編碼。
責任編輯:時雯
Resolution reduction transcoder based on machine learning and mode mapping for HEVC
LI Xueqing, HE Xiaohai,WU Xiaoqiang, LIN Hongwei
(InstituteofImageInformation,CollegeofEletronicsandInformationEngineering,SichuanUniversity,Chengdu610064,China)
Key words:resolution reduction transcoding; HEVC; machine learning; mode mapping
Abstract:As the successor of H.264, HEVC is the newest video coding standard developed by ITU-T VCEG. It obtains tremendous progress on video coding efficiency. Compared with H.264, it can maintain the same video quality while the compression ratio is doubled. In addition, with the rise of 4G networks and the popularity of smart phones, mobile terminal has become a mainstream platform on which people watch online video. However, the resolution of the video stored in the network is larger than that of the mobile terminal. In order to address the problems described above, in this paper the resolution reduction transcoder for HEVC is proposed. By using the proposed transcoding scheme, the computational complexity of the resolution reduction transcoder is reduced through mode mapping on the coding modes between the high resolution video and the low one, and machine learning is utilized to determine the chunking threshold so as to improve the accuracy of the mode mapping. Experimental results show that compared with the trivial transcoder, with the bit rate and PSNR remain almost unchanged, the encoding time is saved by 60% averagely by using the proposed method .
中圖分類號:TN919.8
文獻標志碼:A
DOI:10.16280/j.videoe.2016.01.001
基金項目:國家自然科學基金項目(61471248);四川省教育廳2014年研究生教育改革創新項目(2014-教-034)
作者簡介:
收稿日期:2015-06-28
文獻引用格式:李雪晴,何小海,吳小強,等.結合模式對應與機器學習的HEVC降分辨率轉碼[J].電視技術,2016,40(1):1-6.
LI X Q, HE X H,WU X Q, et al. Resolution reduction transcoder based on machine learning and mode mapping for HEVC[J].Video engineering,2016,40(1):1-6.
