廖小僮,馬 然,安 平,張兆楊
(上海大學 通信與信息工程學院;新型顯示技術及應用集成教育部重點實驗室,上海 200072)
多視點視頻體現了下一代多媒體應用網絡化、交互性和真實感的發展方向,目前對于多視點視頻的研究受到越來越多的國內外學者的廣泛關注。一方面,與傳統的單視點視頻(即二維視頻)相比,多視點視頻傳輸數據量極大,必須進行有效的壓縮編碼。目前,關于多視點視頻的壓縮方法已有很多,例如,HHI(Fraunhofer Heinrich Hertz Institute)提出的分層B幀的視點/時間域混合預測結構[1],因具有較高的壓縮效率已被聯合視頻組 (Joint Video Team,JVT)建議為參考預測結構。另一方面,多視點及立體視頻通信中的差錯控制也變得更加重要,因為通過不可靠的信道如無線網絡、因特網傳輸視頻流正逐漸成為主流。而且由于其壓縮特點,一個視點發生比特錯誤或者出現丟包錯誤,不僅會引起錯誤在該視點時間和空間方向上的傳播與擴散,而且由于采用了視點間預測,還會在視點間產生錯誤蔓延,人眼對幾種錯誤的混合也更加敏感,看到的影像一片混亂,不具深度感。所以研究多視點及立體視頻的差錯控制具有更大的挑戰性和重要性。筆者主要針對多視點編碼的3種主流的編碼結構探討其差錯控制技術。
HHI提出的分層B幀的視點/時間域混合預測結構,如圖1所示。

圖1 MVC參考預測結構示意圖
每個視點采用分層B幀預測結構,有效去除時間方向上的冗余;在視點間采用IBPBP預測結構有效去除視點間的冗余。為了簡單起見,圖1只給出了3個視點(S0,S1和S2)的示意圖,其中S0是基本視點,S1和S2是非基本視點。基本視點S0相對其他視點獨立編解碼。非基本視點按視點間預測關系可分為P視點(S2)和B視點(S1)。編碼時,基本視點S0優先級最高,其次是P視點(S2),最后是B視點(S1)。
對于最簡單的多視點視頻,即立體視頻,可采用文獻[2]中提到的預測結構,如圖2所示。

圖2 雙目視差預測結構
圖2中立體視頻由左、右雙目視點構成。其中,左視點的序列僅采用運動補償預測去除時間方向上的冗余,右視點的序列采用運動補償預測(Motion Compensation Prediction,MCP)加視差補償預測(Disparity Compensation Prediction,DCP)有效去除時間與視點間的冗余。
除了圖2的雙目視差預測編碼框架,立體視頻還可以采用二維視頻(即單視點彩色圖)加深度圖的形式進行編碼[3],而且這種表示形式已經被MPEG組織標準化,由于其相比雙目視差傳輸方式具有更好的靈活性及相對較低的碼率,日益引起了學者的廣泛研究,因此探索單視點加深度圖編碼結構的差錯控制技術也是十分必要的。
為了提高視頻傳輸的穩健性,差錯控制技術可在信源端、信宿端及信道的各個環節進行,大致可分為3類:信源端差錯復原編碼、解碼端錯誤隱藏及編解碼交互差錯控制。
一般說來,差錯復原編碼的基本思想是在編碼時加入一定的冗余信息使得編碼碼流具有抗差錯的能力。圖1所示的MVC參考預測結構太過復雜,編碼端復雜度高,數據量龐大;如果再采用基于信源端差錯復原編碼技術會進一步增加編碼復雜和冗余度,很不適用多視點視頻。錯誤隱藏是一種解碼端的后處理技術,其優點是不需要增加編碼端的負擔,充分利用時空域和視點間的高度相關性恢復受損的視頻,更適合這種編碼復雜度高的編碼模式。
文獻[4-6]討論了多視點視頻錯誤隱藏的情況。其中文獻[4]介紹的方法在于得到受損區域運動矢量,而文獻[5-6]旨在直接恢復受損區域紋理信息。文獻[4]研究了在整幀丟失情況下的一種快速隱藏算法,它首先將常用的六參數多視點視頻圖像的全局視差模型簡化到2個參數,得出2個視點相應塊具有一致的運動場,然后根據全局視差找到丟失宏塊在所依賴視點中的相應宏塊,并將此相應宏塊的運動矢量和模式照搬于丟失宏塊進行恢復。
文獻[5-6]都是為了直接得到丟失區域紋理理信息,但方法不同。文獻[5]通過對丟失塊在時間和視點方向的最優匹配塊進行加權恢復出丟失塊。首先引用解碼端運動矢量估計[7]找出丟失塊的運動矢量,并與預先設定的門限比較,從而判定丟失塊是快速或慢速運動塊。若為快速運動塊,視點間隱藏效果要比時間隱藏效果好,因此來自視點間的最優匹配塊比時間最優匹配塊應分配更大的權值,反之亦然。而文獻[6]介紹的4-D頻率選擇性外插算法是一種適合多視點視頻的錯誤隱藏算法,同時利用丟失區域空間上的鄰域像素值、時域方向的前后幀及相鄰攝像機視點的信息來恢復丟失塊。此算法需要建立一個四維函數模型,這個函數模型是相互正交的四維基礎函數的加權線性組合。通常,一組四維基礎函數可由4-D離散傅立葉變換組成的函數構成,通過選擇4-D離散傅立葉變換基礎函數及擴展系數使建立的四維函數模型覆蓋受損區域,即可恢復受損的視頻區域。
圖2所示預測框架的雙目序列作為最簡單的多視點視頻,其差錯控制方案是多視點視頻中研究得相對較多的。下面分別從編碼端差錯復原編碼、解碼端錯誤隱藏2個不同角度介紹基于這種框架下的立體視頻差錯控制技術。
在編碼端,常見的視頻差錯復原編碼有分層編碼和多描述編碼。分層編碼是可分級編碼的一種特殊情況,將視頻分成基本層和若干個增強層來適應網絡帶寬的波動性以及不同的終端用戶需要,并與傳輸中的不平等差錯保護相結合。文獻[8]根據優先級將立體視頻分為3層。優先級指的是不同的幀對整個立體視頻視覺質量的影響程度。根據圖2所示的預測關系,如果丟失左視點的I幀,會導致錯誤在其后由運動補償和視差補償而生成的左視點和右視點序列中擴散,因此左視點序列的I幀相對來說最重要;其次,左視點的P幀獨立于右視點進行編碼,且供右視點幀進行視差預測,所以左視點的P幀重要性排第二;優先級最差的是右視點的P幀。然后,將不同優先級的立體視頻與不平等差錯保護策略相結合,進而提升了錯誤保護能力。
抵抗傳輸錯誤的另一種方法是多描述編碼。目前,關于立體視頻的多描述編碼的研究比較少,其中以文獻[9]提出的兩種方案最有代表性。方案一基于空間可分級生成兩個描述:在描述1中包括以原始空間分辨力編碼的左幀和經過空間下采樣后的右幀;描述2則由以原始空間分辨力編碼的右幀和經過空間下采樣后的左幀構成。這種方案適合視點間相關度較低的序列,此時冗余度低于10%。方案二則基于文獻[10]中提到的多狀態思想,將左、右序列的奇數幀作為描述1,而左、右序列的偶數幀作為描述2。這種方案適合于視點間相關度比較高的立體視頻序列。
在解碼端,除了可利用空間和時間的相關性外,基于雙目序列的錯誤隱藏技術能否充分利用視點間的相關性來提高錯誤隱藏性能是關鍵,因為利用一個正確的視差矢量比用一個錯誤的運動矢量甚至一個正確的運動矢量來重建丟失塊的效果都要好[11],這是因為左、右雙目(人眼的距離為62~76 mm)視頻的差別極小。文獻[11]利用重疊塊補償修復右視點中發生錯誤的塊。首先根據塊匹配準則[12]從受損宏塊周圍的正確傳輸宏塊中選擇一個最優的矢量,為由最優矢量所確定的替代塊分配最高的權值,同時根據這個矢量是運動或視差矢量確定一個最優視點,為來自最優視點的替代塊分配比來自其他視點的塊較大的權值;然后對這些侯選替代塊的每個像素值進行加權平均得到一個新的替代塊,這種錯誤隱藏方法也較容易推廣到基于圖1預測結構的情況。
然而當傳輸錯誤導致一個片或一整幀不能正確解碼時,文獻[11]的方法則不能運用于這種情況下的錯誤隱藏。文獻[13]討論了右幀整幀丟失的情況,此時可根據視差矢量的時間相關性、預測模式的時間和空間相關性進行恢復。
深度圖實際上是一幅灰度圖,與相對應的單視點彩色圖具有相同的空間分辨力,它的每一個像素表示彩色圖中對應的像素在三維場景中的位置。正是基于深度圖和彩色圖之間這種關聯性,這兩種圖具有大致相同的運動矢量[14]。因此,在某些特定的碼流限制場合下,可以采用運動矢量共享的原理進行壓縮,即不編碼深度圖的運動矢量,在解碼時直接由彩色圖的運動矢量替代深度圖的運動矢量。文獻[15]將運動矢量共享這種思路移植到差錯隱藏中:當深度圖的運動矢量在傳輸中丟失時,將相應正確接收到的彩色視頻幀的運動矢量作為深度圖的運動矢量進行修復;文獻[16]進一步將這種方法與邊界匹配準則結合,當彩色圖的運動矢量丟失時,將深度圖中對應塊與丟失區域鄰域塊及參考幀對應塊的運動矢量、零運動矢量及中值/均值運動矢量一并作為丟失彩色圖的侯選運動矢量,然后按照邊界匹配準則選取最優的運動矢量,實驗證明這種方法是有效的。
除了可充分利用深度圖與彩色圖的運動矢量之間的相關性來恢復丟失塊,文獻[17]將基于可分級的多描述編碼方法運用于此編碼結構,將彩色圖作為基本層,將經空間下采樣后的深度圖和原始空間分辨力的彩色圖分別作為增強層1和增強層2,然后每層都利用文獻[10]中提到的多狀態的思想分成兩個描述,分別經不同網絡路徑傳輸。這種可分級的多描述編碼方案不僅可以對抵抗包丟失等差錯有較好的穩健性,且對網絡帶寬波動及用戶終端接收設備特性有較好的適應性。
隨著多視點視頻的商業用途越來越廣泛,對多視點視頻的差錯控制技術的研究也日益受到重視。對于多視點視頻,錯誤隱藏也許會更加普遍和適用,因為多視點提供了除時間和空間相關性之外的視點間相關性。差錯復原編碼(分層編碼、多描述編碼)雖然降低了編碼效率,但對于在帶寬波動比較劇烈、噪聲比較大或是丟包率比較高的信道上傳輸時是一種較優的選擇方式,仍是未來有價值的研究鄰域之一。
[1]MERKLEP,SMOLICA,MULLERK,etal.Efficientpredictionstructures for multiview video coding[J].IEEE Trans.Circuits and Systems for Video Technology,2007,17(11):1461-1473.
[2]FEHN C.Depth-Image-Based Rendering(DIBR),compression and transmission for a new approach on 3DTV[J].Proceedings of SPIE Stereoscopic Displays and Virtual Reality Systems XI,2004(1):93-104.
[3]FEHN C,DE R,BARRE L,et al.Interactive 3-D TV∶Concepts and key technologies[J].Proceedings of the IEEE,2006(94): 524-538.
[4]LIU Shujie,CHEN Ying,WANG Ye-kui,et al.Frame loss error concealment for multiview video coding[C]//Proc.IEEE International Symposium on Circuits and Systems,2008.[S.l.]:IEEE Press,2008:3470-3473.
[5]CHUNG T,SONG K,KIM C-S.Error concealment techniques for multi-view video sequences[M]//Advances in Multimedia Information Processing-PCM 2007:Volume 4810.[S.l.]:Springer Berlin/Heidelberg,2007:619-627.
[6]FECKER U,SEILER J,KAUP A.4-D frequency selective extrapolation for error concealment in multi-view video[C]//Proc.2008 IEEE 10th Workshop on Multimedia Signal Processing.[S.l.]:IEEE Press,2008:267-272.
[7]ZHANG J,ARNOLD J F,FRATER M R.A cell-loss concealment technique for MPEG-2 coded video[J].IEEE Trans.Circuit Syst.Video Technol.,2000,6(10): 659-665.
[8]TAN A S,AKSAY A,BILEN C,et al.Error resilient layered stereoscopic video streaming[C]//Proceedings of the International Conference on True Vision Capture,Transmission and Display of 3D Video(3DTV′07).Kos Island,Greece:[s.n.],2007.
[9]NORKIN A,AKSAY A,BILEN C,et al.Schemes for multiple description coding of stereoscopic video[M]//Multimedia Content Representation,Classification and Security:Volume 4105.[S.l.]:Springer Berlin/Heidelberg,2006:730-737.
[10]APOSTOLOPOULOS J G.Error-resilient video compression via multiple state streams[C]//Proc.of Int.Workshop on Very Low Bit rate Video Coding,1999.Kyoto,Japan:[s.n.],1999:168-171.
[11]XIANG Xinguang,ZHAO Debin, WANG Qiang,et al.A novel error concealment method for stereoscopic video coding[C]//Proc.2007 IEEE International Conference on Image Processing:Volume 5.[S.l.]:IEEE Press,2007:101-104.
[12]CHEN T,ZHANG X,SHI Y Q.Error concealment using refined boundary matching algorithm[C]//Proc.IEEE Int.Conf.Inf.Technol.Res.Educat.[S.l.]:IEEE Press,2003:55-59.
[13]PANG Linjuan,YU Mei,JIANG Gangyi,et al.An approach to error concealment for entire right frame loss in stereoscopic video transmission[C]//Proc.2006 International Conference on Computational Intelligence and Security.[S.l.]:IEEE Press,2006:1665-1670.
[14]GREWATSCH S,MULLER E.Sharing of motion vectors in 3D video coding [C]//International conference on Image processing(ICIP),2004.[S.l.]:IEEE Press,2004:3271-3274.
[15]HEWAGE C T E R,WORRALL S T,DOGAN S,et al.A novel frame concealment method for depth maps using corresponding colour motion vectors[C]//3DTV Conference 2008.Istanbul,Turkey:[s.n.],2008:149-152.
[16]YAN Bo.A novel H.264 based motion vector recovery method for 3D video transmission[J].IEEE Trans.Consumer Electronics,2007,11(53):1546-1552.
[17]KARIM H A,HEWAGE C T E R,WORRALL S,et al.Scalable multiple description video coding for stereoscopic 3D [J].IEEE Trans.Consumer Electronics,2008,5(54): 745-752.