桑愛軍,崔海廷,王墨林,陳賀新
(吉林大學通信工程學院,長春130022)
隨著計算機圖形學和計算機視覺技術的發展,人們對多媒體系統的要求不斷提高,由原來的二維平面場景到任意角度的動態場景,從而多視角視頻的研究已經成為發展的必然趨勢[1]。
普通的視頻是一臺攝像機拍攝得到的,而多視角視頻序列則是對同一場景,在同一時間,不同位置,圍繞有一定夾角的一系列攝像機拍攝得到的。簡單地說,人們平時看到的電影是單視角視頻,立體電影就是兩個視角的視頻,但多視角視頻中含有大量的重復信息。目前國內外研究多視角視頻編碼多采用兩種方法:(1)基于MPEG-4或H.264結合運動補償預測和差值補償預測[2],該方法利用主視角和輔助視角的關系,能處理兩個視角的立體視頻,但其并不適合處理更多視角的視頻;(2)用深度圖[3]對多視角視頻進行編碼,缺點是會受三維物體的形狀、光線和視角等因素的影響而產生幾何形變[4-5]。因此,為多視角視頻的多維數據尋找一種更為有效的多維模型以及開發一種更為實用的壓縮方法已經成為多視角視頻壓縮編碼系統的關鍵。
本文以多維矢量矩陣理論[6]為基礎,理論上推導并實驗證明了多視角視頻在FT域和DCT域的系數集中規律,以及如何根據檢測到的主能量體的位置來計算運動矢量的位置和方向。
定義1 F上的M×N數據排列(ai1i2)稱為二維矩陣,其全體組成的集合記為MM×N,F上的I1×I2×…×In多維數據排列表(ai1i2…in)稱為多維矩陣,其全體組成的集合記為MI1×I2×…×In。

以4D矢量矩陣為例介紹正交變換。設4D矢量fIJ矩陣,則IJ有三種組合形式,分別為


僅以第(2)種情況為例,定義4D矢量矩陣fIJ正交變換與反變換分別為

式中:fIJ為待變換的4D矢量矩陣,FIJ為變換后的4D矢量矩陣,CII和CJJ為4D矢量矩陣正交變換DCT操作算子(即4D矢量變換核矩陣)。
4D矢量DCT操作算子的形式為

式中:

基于多維矢量矩陣理論,定義C的轉置矩陣為

令u0(x,y,z)表示連續空間坐標(x,y,z)構成的一個場景的連續函數。同理,令u(x,y,z,m)表示一個隨攝像機旋轉變化的圖像的連續函數,其中m表示旋轉角度的個數。用α表示逆時針旋轉攝像機的角度。由空間坐標點繞y軸旋轉的旋轉矩陣

可得場景u0在所有空間坐標生成的隨攝像機繞y軸旋轉變換后的函數為

圖1給出一個成像過程的幾何模型示意圖[7],攝像機坐標系統xyz中的圖像平面與xy平面重合而光學軸沿z軸。從而使得圖像平面的中心位于原點,鏡頭的中心坐標是(0,0,s),s為鏡頭的焦距,對于給定的攝像機,s是常量。假設攝像機坐標系統xyz中的各坐標軸分別與世界坐標系統XYZ中的各坐標軸平行。那么,由相似三角形可以得到空間任意一點(X,Y,Z)投影后的圖像平面坐標為

式(4)投影到xoy平面上,代入式(5),同時令z=0,可得

假設轉換角度α很小,則sin(mα)趨近于零,式(6)變為

文獻[8]已表明,均勻平移圖像的頻譜受限于折疊平面,因而我們構造均勻平移的多視角視頻序列(即理想情況下的多視角視頻)。令u(x,y,m,t)表示一個隨時間變化的圖像的不同角度的連續函數,其中 t表示時間坐標。用常矢量(v1,v2)T均勻平移的場景u0在所有空間坐標生成的隨時間變化的函數為

在FT域的情況下,假設圖像u0有無限長,則u0可以直接表示成

式中:“*”表示連續的卷積運算;δ(·)是Dirac沖激函數,對式(9)中卷積的每部分分別應用連續空間FT,可以得到

因此,

從式(10)可以明顯看到,場景經過固定角度的旋轉后,得到均勻平移的多視角視頻序列的傅里葉頻譜表現為一系列沿視角軸fm-(2n+1)α =0,(n=0,1,…,∞)折疊的平面fxv1+fyv2+ft= 0。式(10)也給出了場景旋轉的角度以及運動的大小和方向。

圖1 投影變換成像示意圖Fig.1 Projection transforms imaging diagram
根據FT與DCT的關系,以及DCT的對稱性,同時結合多維矢量矩陣理論,希望推導出的MVM-DCT同樣具有能量頻譜折疊的特性。因此,與推導FT域的情況相似,我們構造一個寬為n1,高為n2,幀數為n3,攝像機個數為n4,每相鄰兩臺攝像機之間的夾角為α,每兩個連續幀之間的位移為(d1,d2)T的多視角視頻序列

同樣將式(11)表示成卷積形式:

式中:“*”表示對稱卷積運算,該運算可以認為是一般卷積運算對輸入信號的對稱性和周期性的擴展。設N1=N2=N3=N4=N,用k1,k2,k3,k4取代FT域中的f1,f2,f3,f4,用MDCT[·]表示輸入函數的MVM-DCT,對式(12)卷積的第一部分應用4D MVM-DCT,化簡后可得


對式(12)卷積的第二部分應用4D MVMDCT,化簡后可得



圖2 二維情況下的衰減示意圖Fig.2 2D case attenuation image
考慮到理想的多視角視頻圖像序列的MVMDCT域內系數頻譜能量集中在由運動矢量所決定的折疊平面體內,因而可以通過檢測頻譜占有體主能量體的位置計算運動矢量的方向和幅度。適用于主能量面匹配的最小化補充準則[8]如下

式中:d(φ,k)為點 k=(k1,k2,k3,k4)T的MVM-DCT的系數與用二維矢量參數 φ描述主能量面方向之間的距離;U(k)為在距離d (φ,k)上的能量大小。最小化補充準則表明,離主能量面越近,能量越大;反之,離主能量面越遠,能量越小。該準則將為系統的進一步研究提供理論指導。
通過仿真實驗驗證了式(13),式(14)中的均勻平移圖像序列(n4=0)以及多視角視頻序列(n4≠0)經過MVM-DCT后系數集中分布的理論推導。
圖3為3D(n4=0)情況下的結果。圖3(a)為一幅靜止圖像u0(n1,n2)在每兩個連續的位置n3上經過運動矢量(d1,d2)T=(3,0)T均勻平移得到的圖像序列的前8幀;圖3(b)為對得到的均勻平移圖像序列應用3D MVM-DCT后系數的分布圖(N=64,由(d1,d2)T=(3,0)T和DCT的對稱性得知,頻譜會出現兩個折痕,下同)。從圖3中可以看出,變換后的系數能量不是分布在整個頻域內,而是集中分布在一個折疊平面上,并能明顯地看到是沿k1軸折疊的。

圖3 三維結果Fig.3 3D result
本文選取的多視角視頻圖像序列為采用3DMAX構造的32個視角的.yuv格式的視頻,即以一場景為中心,均勻擺放32個攝像機,每兩臺攝像機之間的夾角α為0.4°,記錄一組多視角圖片,然后以運動矢量(d1,d2)T=(3,0)T移動得到理想的多視角視頻圖像序列。圖4表示多視角視頻經過4D MVM-DCT變換后的系數(為提高可視化,已對系數閾值進行處理)分布示意圖。用k1表示橫軸,k2表示縱軸,k3表示幀維,k4表示視角維。從圖4可以看出,變換后的系數分布是沿視角維度衰減的一系列折疊面。具體地說就是,沿k1軸折疊,并且幅度隨著k3,k4的增加而減少,符合理論推導。

圖4 四維MVM-DCT后的閾值系數示意圖Fig.4 Diagram of threshold coefficients after 4D MVMDCT
圖5(a)、(b)表示在仰角相同的情況下,分別從-15°和15°的方位角度看到的視角維度疊加后的閾值系數分布圖。從圖5中可以看出系數分布是沿k1軸折疊的平面體,并且隨著k3的增加,系數能量的數量在減少,也符合理論推導。

圖5 視角維疊加后的閾值系數:仰角相同,方位角Fig.5 Threshold coefficients of view dimension superposition:the same elevation,and azimuth
本文先闡述了多維矢量矩陣的相關理論;然后推導了理想情況下多視角視頻FT域的頻譜性質和MVM-DCT域的特性,重點分析了運動矢量及角度變量對高維變換域中系數集中分布的影響;用實驗驗證了變換后的系數集中在一個沿時間維度和視角維度衰減的折疊平面體;最后簡單研究了運動分析和適用于主平面匹配的最小化補充準則。這些將為多視角視頻壓縮編碼系統的下一步研究奠定了理論基礎。
[1]Zhou Yuan,Hou Chun-ping,Cui Han,et al.Analysis of transmission-induved distortion for multi-view video[J].The True Vision-Capture,Transmission and Display of 3D Video,2010:1-4.
[2]Wang Shi-gang,Wang Xue-jun,Chen He-xin.Stereoscopic video compression coding based on H.264[J]. Chinese Journal of Stereology and Image Analysis,2008,3(13):11-16.
[3]Peng Zong-ju,Yu Mei,Jiang Gang-yi,et al.Fastmacroblock mode selection algorithm for multiview depth video coding[J].Chinese Optics Letters,2010,8(2):151-154.
[4]Merkle P,Morvan Y,Smolic A,et al.The effects ofmultiview depth video compression on multiview rendering[J].Signal Processing:Image Communication,2009,1 (24):73-88.
[5]Sang Heon Lee,Sang Hwa Lee,Jeong Hyu Yang,et al. A motion vector prediction method formulti-view video coding[C]//International Conference on Intelligent Information Hiding and Multimedia Signal Processing,2008:1247-1250.
[6]Sang Ai-jun,Chen Mian-shu,Chen He-xin,et al.Multidimensional vector matrix theory and its application in color image coding[J].Imaging Science Journal,2010,58(3):171-176.
[7]Lowe D G.Three-dimensional object recognition from single two-dimensional images[J].Artificial Intelligence,1987,31(7):355-395.
[8]Nikola Bo?inovié,Janusz Konrad.Motion analysis in 3D DCT domain and its application to video coding[J]. Signal Processing:Image Communication,2005,20 (6):510-528.