趙全宜,張 澤
(1.湖北工業大學,湖北 武漢 430068;2.湖北工業大學工業設計學院,湖北 武漢 430068)
相關調查結果顯示,人類所獲取的大部分信息都是通過視覺信息得到的。隨著多媒體技術的飛速發展,圖像、視頻等技術受到了人們的廣泛關注。人們對于信息的獲取、描述、發送等方面都發生了較大的變化,信息中的內容并不是單一的,它主要是由聲音、圖像等部分組成,豐富的信息內容促使傳統信息變得更加豐富多彩[1-2]。多視點視頻圖像陣列在此過程中發揮重要作用,信息的全部操作過程都采用“數字化”進行處理,傳統的模擬信號需要進行轉換,需要將其轉換為數字信號以方便后續的操作。在多媒體信息中,視覺信息中包含最直觀以及最生動的形象,它是人類獲取信息的主要途徑[3]。
文獻[4]提出了一種基于深度學習神經網絡和圖像分塊聚類的圖像和視頻一維統一編碼框架。首先,采用一種改進的K均值聚類算法對圖像塊進行聚類,得到深度人工神經網絡的緊輸入。其次,為了更好地重建原始圖像塊,引入了經典的深度非線性自動編碼器的線性化版本。最后將不同類別的視頻加入到分塊聚類算法的輸入中,建立了一個統一的圖像、幀內、幀間、多視點視頻、三維視頻和多視點三維視頻的一維編碼。文獻[5]提出基于多尺度局部特征編碼與多通道特征融合的圖像場景分類,首先在場景分類中獲取圖像的局部信息,同時將編碼特征與多通道特征融合處理,最后獲取更清晰的多視點視頻圖像的列陣自編碼。文獻[6]提出基于深度自編碼學習的視頻圖像超分辨率重建算法。超分辨率圖像重建技術從低分辨率圖像中重建出高分辨率圖像。深度學習在多媒體處理領域得到了迅速發展,基于深度學習的圖像超分辨率復原技術逐漸成為主流技術。針對現有圖像超分辨率算法存在的參數較多、計算量大、訓練時間長、圖像紋理模糊等問題,采用深度自編碼學習方法對圖像超分辨率算法進行改進。從網絡類型、網絡結構、培訓方法等方面分析了現有技術的優缺點,并對現有技術的發展進行了梳理。
雖然上述研究取得一定進展,信息技術需求不斷增加,但是仍然無法滿足社會的發展需求,為了滿足現階段的技術發展需求,本文設計并提出基于串匹配的多視點視頻圖像陣列自編碼方法。相關研究結果表明,所提方法能夠快速完成多視點視頻圖像陣列自編碼。
幀內預測主要是指多視點視頻圖像陣列自編碼宏塊對已經編碼且重建后的數據進行編碼預測的過程。目前,主要通過幀間預測的相關數據進行參考對比,同時將運動估計以及補償相結合,有效實現預測編碼[7]。在進行預測的過程中,最為核心的技術就是運動矢量以及樹狀結構補償。
在進行幀間預測編碼的過程中,各個宏塊以及子塊都能夠獲取對應的運動矢量。將亮度成分中運動矢量的百分之二十五像素精度設定為單位,同時將色度成分中運動矢量的百分之一像素也設定為對應的單位。其中亞像素的亮度像素以及色度像素在實際操作過程中并不是真實存在的,所以在后續操作的過程中,通過鄰近像素進行內插得到,結合上述分析,獲取以下的權重計算式

(1)
式中,Ro表示多幀鄰近像素點,E表示多幀鄰近基本層低頻信息,F表示多幀鄰近基本層高頻信息。
以下給出鄰近像素內插方法獲取半像素點,具體的計算式如下

(2)
式中,G表示鄰近像素內的值域。不同的子宏塊以及分割塊中都含有單一的運動矢量,不同的運動矢量以及分割尺寸都需要選用編碼壓縮的方式進行信息傳輸。其中,宏塊的分割尺寸越大,則說明運動矢量需要選取較少的比特,但是在實際操作的過程中運動補償殘差會有一定程度的提高。
幀間預測是根據多視點視頻圖像陣列現階段已有的幀,將已經編碼的重建幀設定為參考幀,同時結合相關的理論知識對其進行準確預測。在具體操作的過程中,需要通過參考幀來獲取目前編碼塊的最佳匹配塊,具體的計算式如下
J=MV+λM×R(a+b)
(3)
式中,MV代表候選的運動矢量;λM代表拉格朗日常數;R代表運動矢量差分編碼所消耗的比特數量。
其中絕對差值SAD的計算式具體如下所示
SAD=s(x,y)-c[x-MV,y-MY]
(4)
式中,s代表現階段需要進行編碼的初始數據;c代表編碼重建過程中的參考幀數據,MY代表選定的運動矢量。
多視點視頻圖像陣列自編碼的室內預測主要是指在單視點視頻內的預測流程,通常情況下需要通過視點內幀預測以及幀間預測兩者相結合來實現[8]。攝像機在實際拍攝的過程中,會設定具體的時間間隔進行物體拍攝,在拍攝的過程中能夠形成最佳視頻序列[9]。
視頻圖像主觀質量評價主要在事先設定好的約束條件下觀察得到對應的圖像,對各個圖像的優劣進行對比,然后再對視頻質量的評估,大致能夠劃分以下兩類:
1)直觀質量評價;
2)客觀質量評價。
視頻圖像的主觀質量評定通常情況下采用平均判分方法,觀察者通過給定的視頻圖像序列和另外的圖像序列進行質量對比。
在客觀質量評價中一般選用峰值信號以及噪聲之比作為測試標準[10],通過取值大小能夠在一定程度上準確反映視頻質量的好壞,以下給出具體的計算式

(5)
式中,X代表圖像的寬度;Y代表圖像的高度;o(x,y)代表初始圖像在坐標為(x,y)的像素點采樣值;r(x,y)代表恢復圖像中坐標為(x,y)的像素點采樣值。
在計算機中進行圖像處理大部分是以像素為單位,如果設定坐標系φ中的點m的坐標為(u,v),該點在坐標系ψ中對應點的坐標為(x,y),坐標系的ψ原點在φ中的坐標為(u0,v0),不同像素在坐標系ψ的兩個坐標軸方向上的物理尺寸為(dx,dy),則(u,v)和(x,y)之間的轉換能夠通過以下公式進行計算

(6)
選用齊次坐標以及矩陣的形式,能夠將式(6)轉換為以下的形式

(7)
將上述的變換過程稱為透視投影,它主要是指圖像從三維到二維之間的轉換,整個轉換過程也是相機成像過程中最為重要的轉換。通過相似三角的相關成像原理,能夠獲取以下的推理計算式

(8)
根據齊次坐標以及矩陣的形式,則能夠將式(8)轉換為以下的形式

(9)
其中,世界坐標系是一個基準坐標系,它能夠用來描述場景中任何物體坐標位置以及相機的準確位置[11-12],各個坐標之間的轉換能夠通過變換矩陣T來表示,也就是從世界坐標系到相機坐標系的變換矩陣。
設定基礎矩陣用F表示,其中通過不同的參數的變化情況決定矩陣取值的大小。
其中矩陣F主要包含以下幾方面的性質:
1)F矩陣是一個3×3,并且秩為2的矩陣,設定自由度的取值,在設定的研究范圍,它的取值是唯一的。
2)對極線能夠選用基礎矩陣表示。
點m在另外一幅圖像中的對極線能夠表示為以下的形式
l′=F×m
(10)
點m′在另外一幅圖像上的對極線能夠表示以下的形式
l=FT×m
(11)
假設攝像機投影矩陣并沒有明確給出,則需要恢復基礎矩陣F,此時需要組建兩幅圖像特征點之間的對應關系,實際就是組建符合要求的匹配點集。在得到最佳的匹配點集后,則需要利用上述匹配點開計算矩陣F。
特征點是圖像灰度在x、y兩個方向上都存在較大的變化,它通常情況下是角點或者平滑的圖像區域內的孤立點,具體的操作步驟如下:
使用現階段使用較為廣泛的特征點——角點。通過兩條或者多條直線之間的交點或者結合點,能夠獲取圖像上不同方向的梯度值,通過矩陣M獲取以下的計算式

(12)

以下給出角點函數的表達式
R=M-k(Mtrace)2
(13)
式中,Mtrace代表圖像的亮度值,本文選用灰度值表示,則會出現四個節點A、B、C、D。
令

(14)

(15)

(16)

(17)
則矩陣能夠表示為以下的形式

(18)
為了得到不同尺度空間的極值點,不同采樣點和相鄰近的點之間進行對比,以下需要對比不同圖像的圖像域以及尺度域之間的相鄰極值點取值大小。
在上述分析的基礎上,能夠利用擬合三維二次函數確定不同關鍵點的具體坐標位置以及尺度,同時刪除無用的響應點,增強匹配穩定性,同時進一步提升整個算法的抗噪能力。
在得到匹配點以后,能夠通過描述子來準確描述這些特征點,匹配不同的描述子信息,獲取符合標準的匹配點集。
在上述分析的基礎上,需要利用尺度空間獲取極值點進行方向匹配,通過關鍵點鄰域像素的梯度方向分布特性為各個關鍵點指定對應的方向參數。
在實際應用的過程中,需要設定關鍵點為中心商務鄰域窗口,在該窗口內完成數據采樣,同時通過直方圖統計各個鄰域內像素的梯度值方向。
在得到關鍵點在尺度空間的位置以及方向需要提取多個尺度,獲取各個尺度的主方向,同時計算在設定范圍內的水平梯度以及垂直梯度。
計算輸入圖像中H個梯度方向圖Gi,不同的梯度方向對應一個量化方向;G0(u,v)代表圖像(u,v)在方向o上的梯度模值,則能夠將梯度方向圖寫成以下的形式

(19)
式中,I代表輸入圖像;o代表方向導數的具體方向。
在上述分析的基礎上,需要對各個梯度方向圖進行不同的高斯核函數卷積,則能夠獲取以下的計算式

(20)
將原有的視差搜索從二維降到一維,以達到多視點視頻圖像陣列自編碼的目的。
綜上所述,完成了基于串匹配的多視點視頻圖像陣列自編碼。
為了驗證所提基于串匹配的多視點視頻圖像陣列自編碼方法的綜合有效性,需要進行仿真,仿真環境為:普通臺式機,處理器為Intel(R)Core(TM)i7-4590CPU,3.30GHz,16G內存,64位Windows7操作系統。
1)編碼效率/%
以下將文獻[4]方法、文獻[5]方法和文獻[6]方法以及本文所提方法的編碼效率對比結果,具體如圖1所示。

圖1 不同編碼方法的編碼效率對比結果
分析圖1的實驗數據可知,不同編碼方法的編碼效率會隨著樣本數量的變化而變化,其中本文方法的編碼效率一直呈直線上升趨勢;文獻[4]方法的編碼效率呈直線下降趨勢;文獻[5]方法的編碼效率一直處于較為平穩的狀態;文獻[6]方法的編碼效率波動明顯;相比文獻[4]方法、文獻[5]方法以及文獻[6]方法,本文方法的編碼效率有了較為明顯的上升趨勢。其原因是本文方法在進行編碼效率檢驗是通過視點內幀預測以及幀間預測兩者相結合來實現。
2)響應時間/ms
為了進一步驗證所提方法的有效性,不同編碼方法的響應時間設定為衡量指標,以下分別給出本文方法、文獻[4]方法、文獻[5]方法以及文獻[6]方法的對比結果,具體結果如表1所示。

表1 不同方法的響應時間變化情況
由表1可知,本文方法所需響應時間在四種編碼方法中最少,本文所提方法在傳統方法的基礎上引入了串匹配算法,通過該算法能夠有效提升整個方法的性能,同時減少所提方法的響應時間。
視頻技術迅速發展,在人們日常生活中得到廣泛應用以及普及。現階段已有的多視點視頻圖像陣列自編碼方法主要傾向于真實以及清晰的表述自然景物特征。針對傳統的多視點視頻圖像陣列自編碼方法存在響應時間較長、編碼效率較低等問題,本文設計并提出基于串匹配的多視點視頻圖像陣列自編碼方法。仿真結果表明,所提方法能夠有效減少響應時間,提升編碼效率。
未來階段,將重點針對以下幾方面展開研究:
1)由于受到時間的限制,本文并沒有對多個視點之間的視覺幾何關系進行搜索范圍約束,后續將展開該方面的研究。
2)所提編碼方法現階段仍然存在一定的不足之處,后續將進一步提升圖像的質量以及綜合性能。