張曉媛,于 洋,王新蕊
(1.南開大學濱海學院 計算機科學系,天津 300270;2.天津大學智能與計算學部,天津 300350;3.北京郵電大學世紀學院,北京 100000)
人們生活在一個立體環境中,眼部與腦部的協同可以令人們感受到事物的立體性。而二維圖像技術對人的感知范圍有所限制,導致真實環境下的信息無法完整顯示,因此立體顯示技術應運而生。該技術需要利用硬件設備對環境信息進行采集,由于受到場景和設備限制,無法獲取全部視點下的三維信息,故虛擬視點生成已經成為該領域研究熱點。該技術通過采集樣本信息,恢復場景中的位置信息,提高景物再現效果,滿足立體顯示需求。隨著多媒體技術的進步,視頻會議、3D影院等系統已經走向成熟,對圖像虛擬視點生成效果有了更高要求。
文獻[1]提出改進的3D Warping虛擬視點生成方法。考慮3D Warping的整體過程,將此過程劃分為兩個步驟,無需進行三維建模;其中第一步是在變換矩陣中加入可調節系數實現對三維參數的改進;第二步則是針對重采樣問題,進行改進,提高虛擬視點圖像效果。文獻[2]提出基于深度圖預處理與圖像修復的虛擬視點生成算法。結合虛擬視點變換方向完成深度圖像的預處理,減少背景變化,將較大的空洞劃分為小空洞;結合深度信息選擇背景紋理,并通過相關軟件完成虛擬點繪制。
但上述兩種方法均會受到光照強度的影響,當光線較暗時,虛擬視點生成效果不佳,會有偽影出現,降低圖像立體顯示效果。基于此,本文通過幾何建模方式實現立體圖像虛擬視點生成。幾何模型代表真實環境中的物體在計算機中的幾何表示,近年來被應用在醫療、游戲與電影制作等多個行業中。本文使用基于橫向曲率與縱向曲率的圖像幾何建模技術,采集二維圖像信息,結合圖像中的視覺信息通過成像逆過程,獲取物體三維幾何信息,為虛擬視點的生成奠定良好基礎。
雙邊濾波[3]屬于非線性去噪算法,是對圖像鄰近度與像素相似度的折中考慮。此外,也會分析灰度相似性,實現保邊去噪,具有簡便、局部性去噪能力強等特征。雙邊濾波器的最大優勢是能保留邊緣,傳統高斯濾波器會造成邊緣模糊,不能完全保存細節。而雙邊濾波器增加了高斯方差,距離較遠的像素對邊緣像素值影響較小,因此保證了邊緣像素值被很好保存。此外,濾波器由兩個函數組成,這兩個函數分別受到空間距離[4]與像素差值[5]影響。
在雙邊濾波器中,得到的輸出像素結果g(i,j)與鄰域像素f(k,l)的加權組合相關,利用公式表示為:

(1)
公式中,權重系數w(i,j,k,l)與如下定義域核[6]、值域核以及他們倆的乘積相關,表達式分別如下:

(2)

(3)
w(i,j,k,l)=

(4)
雙邊濾波綜合分析了空間域與值域的區別,其主要受到參數σd與σr的影響,這兩個參數能夠對空間鄰近度因子[7]與亮度相似性因子[8]的衰減性進行調節。利用公式(1)即可獲得濾波器輸出的像素值,該像素值即為濾波后的結果。
在構建幾何模型時,需采集相同場景的不同角度圖像,再通過相機定標得到相機的內部與外部參數,最后獲得立體物體的幾何模型。
現有的幾何建模技術通過對不同視角的二維圖像做相機定標,獲取三維空間內所有像素與二維圖像之間存在的幾何映射關系,確定完每個投影點后,需檢驗這些點的亮度是否相同。若像素值相等,則表明此體素在物體表面,對其保留且賦予相對色彩;反之則表明此體素被遮擋,刪除體素。對立體空間內全部體素均進行上述處理,以此得到幾何模型。但是因為受到圖像分辨率的制約,圖像分辨率同樣受到影響。
1)橫向與縱向曲率計算
為改善幾何模型的分辨率,本文利用基于圖像橫向曲率與縱向曲率的幾何模型構建技術對上述方法進行改進。在立體空間坐標系中,假設圖像邊緣點為P,其切平面和橫截面存在的相交線即為橫向曲率的矢量LP。計算LP的過程為:首先將立體圖像邊緣點P的一階導數MP在橫向平面(rr,ry)上做投影處理,獲得:
WP=[rr(P)ry(P)0]
(5)
再將矢量WP繞Z軸旋轉90°,得到:
LP=RZWP
(6)
則縱向切矢量VP的計算公式如下:
VP=LP·WP
(7)
將矢量LP與VP進行正規化處理,即可獲取準確的橫向與縱向曲率。
2)物體橫向分割
橫向分割的主要目的是從物體橫向輪廓序列中選出能夠體現物體縱向變化的輪廓,本文將輪廓中任意一點縱向曲率與平均值當作輪廓選取的特征參數,表達式如下:

(8)
公式中,j為初始橫向輪廓序號,j=1,2,…,CN,CN為最大輪廓序號,t表示任意邊緣點序號,Njt描述第j個輪廓中邊緣點的數量。
KAV(j)值的大小可體現出橫截面的縱向彎曲程度。為合理確定輪廓數量,設置輪廓之間最小與最大距離兩個參數,分別表示為MinD、MaxD。
在橫向初始輪廓序列內挑選理想輪廓的主要過程如下:
步驟一:計算物體輪廓序列中全部橫向輪廓的縱向曲率KAV(j);
步驟二:假設初始序列內起始的橫向輪廓被選取,則j=1;
步驟三:設置輪廓篩選范圍,假設現階段選出的輪廓排列在第j位,則接下來被選出的輪廓范圍表示為Range[j+MinD,j+MaxD];
步驟四:從確定的范圍中確定平均縱向曲率的最大值;
步驟五:若(j+MaxD) 3)頂點選擇 在上述確定的橫向輪廓中選擇具有實際意義的頂點,確保幾何模型的結構不變,以此提高分辨率。在第j個橫向輪廓(gx,gy)中第i個邊緣點的橫向矢量Lji表達式如下: Lji=[gy(j)(i)-gx(j)(i)0] (9) 則與其相對的橫向曲率表示為: (10) 利用公式(10)計算橫向曲率后,將取值較高的點作為頂點H。經過上述過程后,即可構建立體圖像的幾何模型,在該模型中,通過下述方法完成虛擬視點生成。 LM(Levenberg-Marquardt)是一種迭代優化方法,結合了高斯牛頓與梯度下降兩種算法的觀點。其最大優勢為收斂速度較快,具備較優的全局搜索性能,同時它還能克服上述兩種算法存在的對原始點設定不合理、與最終解的精確度相差較大等缺陷。 LM方法的全部過程可描述為對射影矩陣中參數進行持續優化,因此其實質可轉化為非線性最小二乘問題。該方法不會受到任何條件的約束,根據對應點距離平方和確定目標函數,當該值收斂到最小值時即為矩陣參數的最優解。 將立體圖像中左視圖當作參考圖像,每個分割區域均與某個射影矩陣M′相互對應。通常情況下,在圖像幾何模型中該矩陣中存在八個參數,確定此矩陣后,則參考圖像與目標圖像內相同區域的轉換關系也會確定。如果參考圖像內某坐標點表示為(Xi′,Yi′),則目標圖像內該點坐標是(xi′,yi′),兩個坐標之間存在下述聯系: (11) 式中,m0、m1、m3與m4表示旋轉量,m2與m5則為平移量,m6與m7分別是水平與豎直方向上描述變形的量。利用該矩陣能夠找到(xi′,yi′)點在參考視圖中對應的位置(Xi′,Yi′),然后再將點(Xi′,Yi′)處的像素值顏色引入到(xi′,yi′)點。通過公式(11)可以得到: (12) (13) 假設誤差函數是對應點距離之間的平方和,則有: (14) 公式中,N*代表點數量,此處取值等于4。其次需要計算ei′(M′)的Jacobian矩陣J(M′): (15) 如果M′代表一個列向量,則存在如下關系式: M′(k+1)=M′(k)+ΔM′ (16) ΔM′=[J(M′)J(M′)+μI]-1J(M′)e(M′) (17) 公式中,ΔM′代表M′的偏移量,I屬于單位矩陣,μ則是某大于0的試探參數,如果該參數能夠縮小誤差函數E(M′),此時μ值為下降趨勢;若該參數可增大誤差函數,此時μ值呈現出上升趨勢。 綜上所述,利用LM方法實現立體圖像虛擬視點生成的主要步驟如下: 步驟一:設置合理的誤差允許值ε,同時將初始向量計作M′(k),此處的k為0; 步驟二:根據初始向量M′(k)獲取目標區域中各特征點在參考區域內的新坐標與誤差函數; 步驟三:構建Jacobian矩陣J(M′); 步驟四:計算M′存在的偏移量,結合該值對誤差函數進行運算,若誤差結果小于ε,則算法結束;反之獲取M′(k+1)與E(M′(k+1))的值; 步驟五:若有E(M′(k+1)) 步驟六:算法結束,生成虛擬視點。 在上述操作過程中,因設置誤差允許值時較為困難,所以將迭代次數設置為800次,將使誤差函數值最小的第k次迭代得出的結果當作最后結構,并將此時的M′矩陣當作目標與參考兩個區域之間具有的射影變換矩陣。經過對立體圖像的遍歷,得到全部虛擬視點。 仿真實驗采用交互視覺多媒體測試序列,該序列由六臺攝像機陣列組成,所有視點信息均為以10幀每秒的速度,獲取的分辨率為1024×255的初始圖像,再根據攝像機標定準則確定機器內外部參數。所有攝像機的擺放位置如圖1所示,任意攝像機之間的距離設置為10厘米,攝像機3的坐標系和世界坐標系完全吻合,并將該點當作虛擬視點攝像機,其左右攝像機為參考視點。 圖1 相機陣列圖像采集系統示意圖 采用本文所提的幾何建模方法與3D Warping方法、深度圖預處理與修復方法生成的虛擬視點結果分別如圖2所示。 圖2 不同方法虛擬點生成圖 由圖2能夠看出,所提方法生成的虛擬點數量不僅多,而且位置分布較為均勻,而Warping方法生成的虛擬點大多集中在圖像中心部分,邊緣部分基本沒有,深度圖預處理方法則生成了較多沒有實際意義的虛擬點。 虛擬點生成的主要作用就是方便圖像重構,進一步提高圖像質量。因此利用上述得到的三種虛擬點生成結果對立體圖像進行重構,重構后的效果分別如圖3所示。 圖3 不同方法圖像重構效果圖 由圖3能夠看出,利用本文方法生成的虛擬視點對圖像進行重構,獲得的圖像十分清晰,無論是邊緣部分還是圖像中心區域,能夠保證完成細節。而其他兩種方法有的會出現邊緣模糊現象,且圖像紋理特征并不十分清楚。因此,所提方法生成的虛擬視點可獲得較好的圖像重構效果。 上述是對三種虛擬視點生成方法的主觀評價,為了更加客觀地突出幾何建模方法的優勢,選取峰值信噪比指標進行對比。 在峰值信噪比(PSNR)的計算過程中,首先需使用公式(18)將圖像從RGB格式變換為YUV格式(Y表示亮度,U描述圖像色彩,V為飽和度): Y′(U′,V′)=0.299R′(U′,V′)+0.587G′(U′,V′) +0.114B′(U′,V′) (18) 再通過下述公式獲取Y′分量中的峰值信噪比: PSNR (19) 公式中,W′與H′分別代表圖像的寬度與高度,Y′和′為參考圖像與虛擬視點圖像中的分量。峰值信噪比值越大說明虛擬視點圖像的質量越佳。三種方法的虛擬視點生成圖像的峰值信噪比如圖4所示。 圖4 不同方法峰值信噪比對比圖 由圖4可知,由于攝像機位置因素影響,導致圖像不同幀的峰值信噪比會有所波動。但幾何建模方法生成的虛擬視點用于圖像重構時,圖像的峰值信噪比較高,與主觀實驗對比得出的結果一致,進一步證明了所提方法的優勢。 虛擬視點生成技術可有效促進多媒體技術發展,本文通過構建立體場景的幾何模型,根據該模型采用一種迭代優化算法完成虛擬視點生成。仿真實驗表明,本文方法生成的虛擬視點會更加全面,且利用這些視點對圖像進行重構,得到的圖像信噪比會更高。這樣的結果能夠滿足普通計算機需求,但針對實際立體顯示依然還有進步空間,隨著研究的深入進行,虛擬視點技術必定會逐漸走向成熟。
4 基于LM算法的虛擬視點生成





5 仿真實驗數據分析與研究





6 結論