?
基于模式識別的質量可分級視頻編碼算法
引文格式: 艾新宇,黎洪松.基于模式識別的質量可分級視頻編碼算法[J].桂林電子科技大學學報,2016,36(1): 19-22.
艾新宇,黎洪松
(桂林電子科技大學 信息與通信學院,廣西 桂林541004)
摘要:為了降低質量可分級視頻編碼算法的復雜度,提出一種基于模式識別的質量可分級視頻編碼算法。該算法將自組織神經網絡用于可分級視頻編碼,利用較粗糙的特征模式庫對圖像編碼生成基本質量層,通過精細的特征模式庫對重建圖像質量較差的部分區域編碼生成質量增強層,從而實現質量可分級編碼。仿真實驗結果表明,該算法具有較好的質量可分級編碼性能,在高壓縮比情況下,其壓縮性能優于傳統的粗粒度質量可分級編碼算法。
關鍵詞:視頻編碼;模式識別;質量可分級;SOM
隨著互聯網、智能終端和無線寬帶通信技術的發展,視頻應用越來越普及,同時也對視頻編碼技術提出了新的挑戰。不同的智能終端具有不同的分辨率和解碼能力,各種無線網絡傳輸帶寬也不盡相同。為了應對這些挑戰,視頻編碼需要引入可分級技術。可分級視頻編碼(scalable video coding,簡稱SVC)作為H.264/AVC視頻編碼標準的擴展部分,是為了滿足這些新的視頻應用需求。SVC提供了時間可分級、空間可分級以及質量可分級3種可分級視頻編碼方式。2014年制定的基于新一代視頻編碼標準HEVC(high efficient video coding)的可分級編碼擴展標準SHVC,除了支持時間、空間和質量可分級外,還支持混合編碼可分級、比特深度可分級和彩色gamut可分級[1-6],其中,質量可分級編碼主要包括粗粒度質量可分級(CGS)[7]、中間粒度質量可分級(MGS)[8]和精細粒度質量可分級(FGS)[9]。但這些可分級視頻編碼方法的不足是算法越來越復雜,對處理速度的要求越來越高。
自組織特征映射(self-organizing feature maps,簡稱SOM)是一種高效的聚類方法,它模擬了人腦對新事物的學習歸納推理過程,通過對大量訓練樣本的學習,可得到最佳匹配的特征模式匹配。目前SOM廣泛應用于故障檢測[10]、大數據分析[11]、醫學檢驗[12]、圖像以及視頻處理[13-17]等領域。Murguia等[15]提出一種基于SOM的背景減除算法用于視頻運動對象的檢測和分割,該算法優于傳統算法。Quintana等[16]將SOM與細胞神經網絡(CNN)相結合,提出了一種新的視頻運動對象分割算法,比傳統算法具有更好的自適應性。Pagel[17]在視頻監控中引入SOM算法,實現了事件檢測。為了降低可分級視頻編碼算法的復雜度和提高編碼性能,提出一種基于模式識別的質量可分級視頻編碼(PR-QSVC)算法。
1編碼方案

圖1 基于模式識別的質量可分級視頻編碼算法Fig.1 Quality scalable video coding algorithm based on pattern recognition
基于模式識別的質量可分級視頻編碼的基本思想是:利用模式矢量大小不同對重建圖像質量的影響,對于不同質量層采用具有不同大小模式矢量的模式庫進行編碼,從而實現視頻的質量可分級?;谀J阶R別的質量可分級視頻編碼算法如圖1所示。
基于模式識別的質量可分級視頻編碼步驟如下:
1)對編碼視頻的所有圖像采用較大尺寸進行分塊,分割后的圖像塊作為訓練矢量集,采用SOM算法訓練學習,得到基本層特征模式庫。重復上述步驟,分別采用中等尺寸和較小尺寸對視頻圖像進行分塊,并利用SOM算法訓練得到增強層1特征模式庫和增強層2特征模式庫。
2)基本層編碼。對每幀圖像以較大尺寸分塊,使用基本層特征模式庫對每個圖像塊進行模式匹配,得到最佳匹配的模式矢量,并將與之對應的索引進行編碼作為基本層碼流。
3)增強層1編碼。通過已編碼的基本層索引對基本層圖像塊進行預測,并計算該預測圖像塊與原圖像塊的均方差,與預設的增強層1的均方差閾值對比,若小于該閾值,對該圖像塊進一步細分,并使用增強層1特征模式庫對細分后的圖像塊進行匹配編碼作為增強層1碼流。
4)增強層2編碼。對已編碼的基本層圖像塊和增強層1圖像塊重復步驟3),并使用增強層2特征模式庫對再次細分后的圖像塊進行匹配編碼作為增強層2碼流。
當只接收到基本層碼流時,可解碼出較低質量的視頻;當同時接收到基本層和增強層1碼流時,可解碼出中等質量的視頻;當接收到全部的碼流時才能解碼出最高質量的視頻。
2特征模式庫生成
使用SOM算法訓練特征模式庫的步驟如下:
1)設自組織神經網絡為(N,M),N為模式庫大小,M為模式矢量的大小。
2)對所有視頻圖像分塊,將所有的圖像塊組成訓練矢量集X(n),n=1,2,…,L,其中L為訓練矢量個數。
3)將訓練矢量按照均方差從小到大排序,然后分為2個訓練矢量集X1(n)和X2(n),其中X1(n)為低頻部分,X2(n)為高頻部分,分別從X1(n)和X2(n)中以間隔i1和i2(i1=L1/N1,i2=L2/N2,N1+N2=N,L1+L2=L)抽取模式矢量,組成初始模式庫W(n)。
4)以均方差為失真準則,分別計算輸入的訓練矢量與初始模式庫中各模式矢量的失真D(j),選擇具有最小失真的模式矢量j*為獲勝模式矢量,
(1)
5)對獲勝模式矢量j*及其領域范圍內的模式矢量進行調整,
(2)
其中:a(t)為學習函數,用于調整模式矢量的幅度;N(t)為鄰域函數,用于調整模式矢量的范圍。
6)重復步驟2)~5),直至訓練完L個訓練矢量。
3實驗結果與分析
實驗中的特征模式庫訓練和視頻編碼均采用標準視頻測試序列foreman,每幀圖像分辨率為352×288×24,共20幀。為了客觀評估算法的性能,采用視頻圖像亮度分量的峰值信噪比(PSNR)作為測量標準,
(3)
其中:Y為視頻圖像的亮度分量;Y′為重建的亮度分量;EMS為原始圖像與重建圖像的均方差。對于可分級視頻編碼算法性能的測度采用壓縮比CR=BI/BO,BI為原始視頻文件的比特數,BO為編碼后視頻文件的比特數。對比算法分別為非可分級的single-layer算法和基于H.264的CGS算法,測試平臺為可分級編碼標準測試模型JSVM9.19。
為了便于對比,PR-QSVC算法和CGS算法都設置為一個基本層和2個增強層。圖2為2種算法解碼后基本層圖像質量。從圖2可看出,CGS算法解碼后圖像的質量較為穩定,但PR-QSVC算法解碼后圖像的整體質量優于CGS算法,而此時PR-QSVC算法的壓縮性能僅略遜于CGS算法(見表1)。

圖2 PR-QSVC算法和CGS算法解碼后基本層圖像質量Fig.2 The quality of base layer decodedby PR-QSVC and CGS

質量層PR-QSVC算法CGS算法Ry,PSN/dBCRRy,PSN/dBCR基本層34.0406155.323932.5687166.3993增強層135.216499.458934.877574.6308增強層236.656336.068237.373536.7362
圖3為視頻原圖像和PR-QSVC算法解碼后各質量層圖像。從圖3可看出,采用PR-QSVC算法的基本層圖像質量較差,增強層1的圖像質量明顯好于基本層的圖像質量,而增強層2的圖像質量與原圖像相差很小,表明PR-QSVC算法能實現對視頻的質量可分級編碼。圖4為PR-QSVC算法、CGS算法和single-layer算法的編碼性能。從圖4可看出,PR-QSVC算法可實現較平緩的質量可分級視頻編碼,壓縮比較小時,該算法稍遜于CGS算法,壓縮比較大時,PR-QSVC算法則優于CGS算法。

圖3 原圖像與PR-QSVC算法解碼后各質量層圖像Fig.3 The quality of original image and decoding images

圖4 PR-QSVC算法、CGS算法和single-layer算法編碼性能Fig.4 The coding performance of PR-QSVC, CGS and single-layer algorithm
4結束語
提出了一種基于模式識別的質量可分級視頻編碼算法,采用基于SOM算法代替傳統的基于DCT系數的質量可分級編碼方案。實驗結果表明,PR-QSVC算法在壓縮比較大的情況下具有較好的編碼性能。下一步的工作是研究如何將SOM算法與時間可分級、空間可分級相結合,以取得更好的可分級視頻編碼性能。
參考文獻:
[1]朱秀昌,王國剛,陳杰,等.HEVC標準的多層視頻編碼擴展[J].南京郵電大學學報(自然科學版),2015,35(3):1-10.
[2]YEY,ANDRIVONP.ThescalableextensionsofHEVCforultra-high-definitionvideodelivery[J].MultimediaIEEE,2014,21(3):58-64.
[3]嚴燁.可伸縮高性能視頻編碼的擴展技術研究[D].合肥:中國科學技術大學,2015:14-19.
[4]路洪運.基于HEVC的質量可伸縮視頻編碼研究[D].北京:北方工業大學,2014:5-8.
[5]TOHIDYPOURHR,POURAZADMT,NASIOPOULOSP,etal.AnewmodeforcodingresidualinscalableHEVC(SHVC)[C]//2015IEEEInternationalConferenceonConsumerElectronics,2015:372-373.
[6]LIX,CHENJ,KARCZEWICZM,etal.Asymmetric3DlookuptablebasedcolorgamutscalabilityinSHVC[C]//DataCompressionConference,2015:3-12.
[7]SHIZ,SUNX,XUJ.CGSqualityscalabilityforHEVC[C]//2011IEEE13thInternationalWorkshoponMultimediaSignalProcessing,2011:1-6.
[8]KAIZ,HUIJUANC,KUNT.OptimizedbitextractionofH.264-SVCMGSstreamovererror-pronechannels[C]//2014IEEEComputingCommunicationsandITApplicationsConference,2014:56-61.
[9]洪佳慶.基于HEVC的FGS視頻編碼算法研究[D].泉州:華僑大學,2014:14-19:7-16.
[10]MINHOEK,SOUHWANJ,MINHOP.Adistributedself-organizingmapforDoSattackdetection[C]//2015IEEESeventhInternationalConferenceonUbiquitousandFutureNetworks,2015:19-22.
[11]SANGHVIY,GUPTAH,DOSHIH,etal.ComparisonofselforganizingmapsandSammon'smappingonagriculturaldatasetsforprecisionagriculture[C]//2015IEEEInternationalConferenceonInnovationsinInformation,EmbeddedandCommunicationSystems,2015:1-5.
[12]MITTALD,GAURAVD,SEKHARRS.Aneffectivehybridizedclassifierforbreastcancerdiagnosis[C]//2015IEEEInternationalConferenceonAdvancedIntelligentMechatronics,2015:1026-1031.
[13]HIKAWAH,KAIDAK.NovelFPGAimplementationofhandsignrecognitionsystemwithSOM-Hebbclassifier[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2015,25(1):153-166.
[14]BENHAM,AMIRIH.Content-basedimageretrievalinthetopicspaceusingSOMandLDA[C]//2015IEEE3rdInternationalConferenceonControl,EngineeringandInformationTechnology,2015:1-6.
[15]CHACON-MURGUIAM,RAMIREZ-ALONSOG,Gonzalez-DuarteS.Improvementofaneural-fuzzymotiondetectionvisionmodelforcomplexscenarioconditions[C]//The2013IEEEInternationalJointConferenceonNeuralNetworks,2013:1-8.
[16]RAMIREZ-QUINTANAJA,CHACON-MURGUIAMI.Self-adaptiveSOM-CNNneuralsystemfordynamicobjectdetectioninnormalandcomplexscenarios[J].PatternRecognition,2015,48(4):1137-1149.
[17]PAGELF.Unsupervisedclassificationandvisualrepresentationofsituationsinsurveillancevideosusingslowfeatureanalysisforsituationretrievalapplications[C]//IS&T/SPIEElectronicImaging.InternationalSocietyforOpticsandPhotonics,2015:94070H-1-94070H-9.
編輯:翁史振
A novel quality scalable video coding algorithm based on pattern recognition
AI Xinyu, LI Hongsong
(School of Information and Communication Engineering, Guilin University of Electronic Technology, Guilin 541004, China)
Abstract:In order to reduce the complexity of quality scalability, a novel quality scalable video coding algorithm based on pattern recognition is proposed. The self-organizing neural network is used for scalable video coding in the proposed scheme. A coarse pattern library is used for coding the base layer and two fine pattern libraries are used for recoding the area of the picture which has a bad reconstructed quality. Experimental results show that this algorithm has a better performance than the traditional coarse-grain quality scalable coding algorithm.
Key words:video coding; pattern recognition; quality scalability; SOM
中圖分類號:TP37
文獻標志碼:A
文章編號:1673-808X(2016)01-0019-04
通信作者:黎洪松(1963-),男,湖北監利人,教授,博士,研究方向為智能信息檢測、處理和控制。E-mail:hongsongli@guet.edu.cn
基金項目:國家自然科學基金(61261035);桂林電子科技大學研究生教育創新計劃(GDYCSZ201451)
收稿日期:2015-12-02