999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義導向的光場圖像深度估計

2022-08-19 02:54:48鄧慧萍盛志超
電子與信息學報 2022年8期
關鍵詞:語義深度特征

鄧慧萍 盛志超 向 森 吳 謹

(武漢科技大學信息科學與工程學院 武漢 430081)

(武漢科技大學冶金自動化與檢測技術教育部工程研究中心 武漢 430081)

1 引言

在計算機視覺領域中,深度反映了場景的3維空間信息,是3維重建[1]、顯著性檢測[2]、語義分割[3]等計算機視覺任務的基礎。因此,精確的深度估計對計算機視覺領域的發展具有重要的意義。傳統相機在某一視角采集場景的信息,生成的圖像只能記錄光線的位置信息,丟失了與場景深度有關的角度信息。與傳統相機結構不同,光場相機[4]在主透鏡和傳感器之間放置了一個微透鏡陣列。得益于這種特殊的光學結構,光場相機不僅記錄了輸入光線的強度,同時也捕捉了光線的方向。通過整合這些角度信息可以生成不同性質的圖像,如多視角和極平面圖像(Epipolar Plane Image, EPI)等。這些成像形式包含了豐富的信息,為精確的光場深度估計提供了可能。

盡管光場圖像在深度估計方面有著特殊的優勢,但目前仍然面臨著巨大的挑戰。由于光場子孔徑圖像之間的基線較窄,在受限的圖像傳感器中存在空間分辨率和角度分辨率之間的權衡。在之前的工作中[5–11],已經提出了很多方法來克服這些限制。Jeon等人[5]提出了基于相移的亞像素多視角立體匹配算法,該算法需要為每個子視角構建代價函數,時間復雜度較高。Chen等人[6]引入了雙邊一致性度量用于光場深度估計以處理顯著的遮擋問題。Wanner和Goldluecke[7]提出了一種全局一致性標記算法,采用結構張量提取EPI圖像中的斜率。隨后Zhang等人[8]提出了一種平行四邊形算子,通過距離計算EPI中斜線的斜率,該方法對噪聲和遮擋具有很好的魯棒性,但提取EPI的過程中工作量較大,實時性較差。Tao等人[9]從焦堆棧出發提出將散焦線索、一致性線索和陰影線索相融合獲取局部深度圖。Wang等人[10]為了更好地處理遮擋問題,提出了一種遮擋感知的深度估計算法。隨后,Williem等人[11]在此研究的基礎上,采用角度熵和自適應散焦相應地提高算法對遮擋的魯棒性和噪聲的敏感性。以上這些傳統方法在一定程度上提高了深度估計的準確性,但是由于計算量較大,在得到精度的同時失去了速度方面的優勢。

近年來,卷積神經網絡(Convolutional Neural Networks, CNN)被用于深度估計,在精度和時間復雜度上都有了顯著的提升。Heber等人[12]提出了U型網絡的結構框架和基于編解碼結構的深層端到端網絡結構,該方法在低計算量的前提下獲得了精確的結果,但是對于數據的預處理不夠精確。Luo等人[13]以十字EPI為卷積神經網絡的輸入,并采用圖割法全局優化策略對結果進行優化。在此基礎上,Shin等人[14]引入了左右對角線輸入,并設計了一種將子孔徑圖像以EPI結構作為輸入的卷積神經網絡,該網絡的預處理方式加強了視角信息的相關性,但未對復雜區域作出合理有效的處理,在融合信息時也沒有對不同通道的信息進行整合。隨后,Tsai等人[15]將全部的子孔徑圖像作為輸入,并設計了一個基于注意力的視圖選擇網絡來消除視圖間信息的冗余,該網絡輸入量較大,訓練成本較高。Zhou等人[16]提出了一個從焦點堆棧中學習深度語義特征和局部結構信息的光場深度估計網絡。Shi等人[17]引入了3D深度估計中的光流法,并提出一個用于稀疏光場的深度估計方法。Guo等人[18]考慮到遮擋的問題,設計一個遮擋預測網絡得到遮擋掩模,通過遮擋掩模對初始深度圖進行細化得到最終的深度圖。早期的基于學習的方法[12,14]將深度預測看作一個數據傳輸的黑盒,忽略了光場圖像之間的幾何特征,在邊緣、遮擋、弱紋理等區域無法得到精確的深度估計結果。針對這些困難區域,本文利用上下文信息來增強網絡的魯棒性,通過注意力機制來獲取有效的上下文信息,以提高深度圖邊緣的質量。

上下文信息是像素與其周圍環境交互的語義特征信息。語義分割具有捕獲圖像中不同對象邊緣信息的能力,而深度估計最容易產生錯誤的區域是容易發生遮擋的邊緣區域,這與語義分割問題存在很大的空間和強度相關性。因此,本文考慮到豐富的語義信息可以幫助糾正對象邊界的視差值,為復雜區域提供了更多的視差細節,提出了一個基于語義信息導向的光場深度估計網絡框架,該網絡學習到充分的上下文信息,解決了深度估計中難以優化的不適定區域問題。實驗結果表明,本文算法在實驗精度和速度上均優于大部分的算法,且保留較好的深度圖邊緣。該深度學習網絡具有以下特點:

(1)設計了語義感知模塊(Semantic Perception module, SP_module)用于復雜信息的特征提取,其中空洞金字塔池化(Atrous Spatial Pyramids Pooling, ASPP)可以引入多尺度信息,通過增大感受野來捕捉層次上下文信息,編解碼結構通過逐步恢復空間信息來捕獲更清晰的對象邊界。通過將ASPP和編解碼結構結合,可以獲得更加清晰的深度圖邊緣。

(2)由于光場相機的特殊結構,光場的子孔徑圖像之間具有很強的相關性,導致在獲取充分的光場圖像特征信息的同時會造成大量的信息冗余。本文通過加入一個輕量化的特征注意力模塊(Feature Attention module, FA_module),用于學習特征交互時每個特征的重要性,該模塊用較少的參數可以帶來了較大的性能提升。

(3)大部分網絡在聚合特征時只使用網絡的最后一層,導致了部分信息的丟失。本文使用堆疊沙漏模塊(Stacked Hourglass module, SH_module)來聚合特征,其編解碼結構可以更好地學習上下文信息,跳躍連接可以將淺層信息和深層信息結合起來,細化低紋理的模糊度和遮擋部分。串聯的沙漏模型通過復用的方式提高捕獲重要特征的精度。

2 光場深度估計算法

2.1 網絡結構

深度估計的核心思想是計算視差。對于4D光場圖像L(x,y,u,v),其中心子孔徑視圖L(x,y,0,0)與相鄰視圖之間的關系可以表示為

其中,(x,y)代表空間坐標,(u,v)代表角度坐標,d(x,y)是中心視點像素與其相鄰視點中相應像素的視差。為了獲得中心視角的深度圖,需要在其它視角中尋找對應像素點的偏移量d(x,y)。

4D光場圖像可以表示為陣列的子孔徑圖像,相比于傳統圖像包含更加豐富的信息,但是由于光場圖像子孔徑之間的基線較窄,包含了大量相同的信息,這些龐大的數據量會增大訓練的難度,給網絡增加不必要的計算。因此,在光場的輸入形式上既要去除信息的冗余,又要避免信息的丟失。

考慮到光場圖像的幾何特征,有效的方式是采用水平、垂直和左右對角線4個具有一致基線視點的EPI結構作為輸入。多個方向的EPI輸入在降低信息冗余、減少有效信息丟失的同時,能夠解決部分遮擋問題,獲取更加精確的深度圖。本文的網絡結構如圖1所示,4路輸入分別被送到語義感知模塊SP_module來提取每條分支的特征信息,該模塊在引入多尺度信息的同時能夠細化邊緣細節,因此可以提取場景的語義信息和多尺度上下文信息;然后,將4條支路的特征進行融合,考慮到每一路特征的重要性不同,設計了特征注意力模塊FA_module為每個特征賦予不同的權重;最后,將融合后的特征塊送到一個堆疊沙漏模塊SH_module,以編解碼的方式重復處理特征,進一步將全局多尺度上下文信息聚合得到精確的深度圖。

圖1 網絡結構圖

2.2 特征提取和語義感知模塊SP_module

圖像的邊緣信息被解釋為高頻信息,為了獲得清晰的深度圖邊緣,必須保持高頻細節的完整性。為了提高深度圖的精確度,本文設計了一個語義感知模塊SP_module用于提取每條通道的特征,結構及參數如圖2所示。編碼模塊通過減少特征圖的分辨率捕獲高級語義信息,解碼模塊通過恢復空間信息細化物體邊緣,因此本文設計的編解碼結構可以捕捉清晰的目標邊界。考慮到光場圖像存在窄基線的問題,需要采用2×2的小卷積核來捕捉圖像間的差異信息。然而卷積核過小會導致感受野不足的問題,從而影響深度圖的精度。為了解決該問題,本文使用空洞金字塔池化ASPP來增大感受野,通過在不同的分支采樣不同的空洞率獲得多尺度圖像表征,以多個比例來捕捉不同尺度和位置的上下文信息。這種將編解碼結構和ASPP模塊相結合的方式,既可以捕獲豐富的上下文信息,又可以獲得清晰的物體邊界。

圖2 語義感知模塊SP_module的網絡結構

為保留網絡的底層特征,首先用兩個“Conv-ReLU-Conv-BN-ReLU”結構的卷積塊獲取淺層信息。接著,用步長為2的卷積下采樣進行特征編碼提取深層語義信息。ASPP模塊由4個不同采樣率rate={1, 2, 4, 8}的空洞卷積和1個全局平均池化組成,不同采樣率的卷積層可以應對不同大小的物體及細節區域。我們將各級特征圖連接起來,通過1個1×1的卷積來壓縮特征,并使用雙線性插值來恢復特征的尺寸,進行特征的解碼。最后,將淺層信息通過1個1×1的卷積來壓縮特征,融合低級結構信息和高級語義信息,實現信息的交互。

2.3 特征融合和注意力模塊FA_module

在經過多路特征提取后,需要將特征進行融合。目前在光場深度估計中有兩種方式進行特征融合:(1)構建匹配代價塊,將特征圖在視差的范圍內進行平移,但這種方法受限于在單幅視圖中進行特征提取,且需要擴大張量維度,在4D光場中會導致計算量過大的問題;(2)將特征圖直接拼接,這種方法結構簡單,無需引入額外的參數,但缺點是忽略了光場圖像之間存在的相關性問題,沒有引入特征圖之間關系的表述,造成了大量信息的冗余。

考慮到光場的輸入形式,本文采用了將特征圖進行直接拼接的方法,并針對信息冗余問題,設計了一個局部跨通道交互的特征注意力模塊FA_module,用于在尋找有效特征的同時抑制無用信息。FA_block學習每個特征的重要性,為每一個特征賦予從0-1的不同權重,表示每個特征的重要程度。與以往的注意力機制SENet[19]不同,FA_module采用無降維的方式進行通道間的交互,提高了注意力機制的學習能力。

FA_block的網絡結構如圖3所示。在不降低通道維數的情況下,執行全局平均池化以整合全局信息,執行全局最大池化以細化邊緣信息,通過兩種池化方式的結合進一步提高捕捉有效信息的能力。在每一個池化層后接一個1×1×k的一維卷積,其中卷積核大小為k的1維卷積是用來計算每個通道與其k個鄰域間的相互作用,表示局部跨通道間的覆蓋范圍。k的大小是通過一個與特征通道數相關的函數自適應確定,具體的形式如下:

圖3 特征注意力模塊FA_module的網絡結構

2.4 特征聚合和堆疊沙漏模塊SH_module

多路信息融合之后,需要對已經賦予不同權重的特征塊進行高階特征提取以獲得視差。高/低層之間存在信息差異,具體表現為低層特征分辨率更高,主要包含了位置、細節等信息,但是語義性較低,噪聲更多;而高層特征分辨率較低,具有更強的語義信息,但細節、紋理信息較少[20]。以前的工作[13,14]大都采用堆疊多個卷積塊的方式來進一步提取特征,實現多路信息的特征聚合。然而這種方法會導致信息在網絡傳遞中有少量的丟失,從而造成部分細節的缺失。因此,本文設計如圖4所示的堆疊沙漏模塊SH_module用于多路信息的特征聚合,它對不同層的特征進行整合實現信息互補,有效緩解了卷積層數增加所造成的信息丟失問題,帶來了網絡性能的提升。

圖4 堆疊沙漏模塊SH_module的網絡結構

SH_module包含1個預處理結構和3個串聯的沙漏結構,以捕獲不同尺度的上下文信息。預處理結構由卷積塊和殘差塊組成,用于提取低級特征,為最終的視差預測提供細節信息。沙漏結構被設計為自上而下-自下而上的編解碼形式,在細化低紋理模糊度的同時可以解決部分遮擋問題。在編碼部分,用卷積核為3×3、步長為2的卷積層進行下采樣操作,降低特征圖分辨率的同時將通道數翻倍。接著,在后面接一個卷積核大小為2×2、步長為1的卷積層。由于在編碼部分進行兩次的下采樣操作,在解碼部分相應地執行兩次上采樣操作,即用卷積核為3×3,步長為2的反卷積層恢復特征圖分辨率,同時將特征通道數減半。此外,每一次反卷積操作后,將恢復的特征與編碼器中同分辨率的特征級聯,使得淺層信息和深層信息結合,避免有效信息的丟失。最后,通過將多個沙漏結構串聯復用先前的信息進一步提高了預測結果的精度。

3 實驗結果及分析

3.1 訓練細節

為了驗證本文算法的效果,在4D光場數據集new HCI[21]上進行實驗。光場數據集new HCI共有28組視差在(–4, 4)之間的數據,共分為4類:Training, Test, Stratified, Additional。使用Additional中的16個場景進行訓練,對Training和Stratified中的7個場景進行算法的驗證,每個場景都包含9×9個子視角和中心視角的真實深度圖(Ground Truth, GT),其中,每個子視角圖像的空間分辨率為512×512,Test由于沒有真值并未參與訓練和測試。實驗在NVIDIA GTX2070Ti GPU上運行,使用TensorFlow框架作為后端,Keras庫搭建網絡,訓練大約花了7 d的時間。

深度學習需要大量的訓練樣本,而new HCI中16個訓練場景所包含的訓練樣本滿足不了需求,這可能會給網絡帶來過擬合的問題。為了解決數據不足的問題,本文從訓練數據集中隨機分割32×32的塊進行批量訓練,并對塊進行了數據增強,包括旋轉、縮放、翻轉、視角平移、色彩增強以及隨機顏色變換。

本文使用的卷積核大小大部分是2×2的,這在之前的工作[14]中已經被驗證更適合處理光場相鄰視角間的窄基線問題。本文訓練時使用小批量隨機梯度下降,批次大小設為16,這樣的訓練方式有利于更魯棒性收斂,避免局部最優,同時減少了對顯存的依賴。優化器使用RMSprop,初始學習率為10–4,損失函數是MAE,該損失函數對異常點有更好的魯棒性

其中,yi表示第i個像素的真實值,y^i表示初始估計值,m為視差圖像素點的總數。

為了評估算法的實驗結果,定量分析的評價指標選擇了均方誤差(Mean Square Error, MSE),定性分析的評價指標選擇了不良像素率(Bad Pixel,BP)。

不良像素率為不良像素的數量占總像素的比例。它描述為,當一個像素點估計出的值與真實值的差異大于一定閾值t時,該點被判斷為不良像素點。在本文中,取t=0.07。

3.2 算法性能比較及分析

本文的算法在HCI 4D光場數據集上與一些主流的方法進行了定性和定量的比較。對比的方法有:基于多視角的方法LF[5],基于EPI的方法SPO[8],基于焦堆棧的方法LF_OCC[10],CAE[11],基于學習的方法EPINET[14],FSNET[16]。圖5是各方法在4個場景下的壞點圖和深度圖。其中,壞點圖中BP>0.07顯示為紅色,否則為綠色,深度圖采用偽彩圖顯示。表1為各方法在7個場景下的MSE定量指標結果,表2為BP定量指標結果,其中最后一列(Avg)為所有場景平均值,每列的最優值用黑色加粗,次優值加下劃線。

從圖5的壞點圖可以發現,傳統方法在處理細小深度變化的場景中表現結果較好,在大量遮擋存在的區域或者密集的物體邊界處容易發生錯誤預測。基于學習的方法在處理復雜場景時已經有了較高的提升,但在邊緣、遮擋區域仍有較高的邊緣模糊。本文方法在低紋理的場景Cotton, Dino以及在有大量邊緣和遮擋區域的場景Boxes, Sideboard中壞點像素較少,均可以取得優秀的結果。從表1和表2可以看出,本文算法在所有場景的MSE均低于所比較的算法,BP在Cotton, Sideboard, Backgammon和Pyramids上低于所比較的算法,在其它場景略高于次優值的算法。均方誤差和不良像素率的平均值在所有比較的算法均處于最優值,比次優算法的結果分別提升22.2%和1.5%。

表1 MSE指標對比

表2 BP指標對比

圖5 測試數據集的4個場景的深度圖和壞點圖

為了探索本文的方法在復雜區域的有效性,將本文的算法和其它算法在含有大量場邊緣、遮擋以及弱紋理區域的場景Boxes和Sideboard上進行了比較,圖6是在所有算法深度圖的局部放大圖。在Boxes中,本文算法在鏤空區域有清晰的網格,在Sideboard中,本文算法在難以訓練的交互線上有極強的分辨能力。對于各種梯度邊緣和物體交接邊緣,大部分的算法無法捕捉非常細微的深度變化,在遮擋區域的邊緣無法得到正確的結果,這導致了很高的錯誤率。從圖6可以看出,本文的深度圖有銳利、清晰的邊緣,更接近真值圖的邊緣。

圖6 實驗結果的局部放大圖

表3是本文算法和所比較的算法在4個場景的運行時間的比較。相比各種傳統算法和深度學習算法,本文的算法在取得較高精度的同時具有明顯的速度優勢。

表3 各算法的運行時間(s)對比

3.3 消融實驗

本文在4D HCI光場數據集上對所提出的網絡進行了消融實驗,用MSE和BP作為評估指標定量分析了SP_module, FA_module和SH_module對深度估計性能的影響。表4為消融實驗的結果,其中,未使用到的模塊用卷積塊來代替,加粗表示最優。從表4可以看出,當使用SP_module時,復雜區域的特征提取能力更強,語義信息有助于產生更好的邊緣細節。當結合SP_module和SH_module時,編解碼結構提供了更多的上下文信息,均方誤差有了顯著的下降。當在上述網絡融入FA_module時,對提取到的特征進行了有目的的選擇,降低了無效特征造成的干擾。消融實驗結果表明,融合3個模塊的網絡產生了最佳的效果,所提出的方法顯著提高了深度估計的性能。

表4 模塊消融實驗的定量結果比較

4 結束語

本文提出了一種基于語義導向的光場圖像深度估計網絡,該網絡將語義信息融入到深度估計中給視差圖提供了重要的邊緣細節。考慮到邊緣遮擋問題,本文將編解碼結構和空洞金字塔池化結合進行特征的提取,通過引入多尺度信息來解決感受野不足的問題。為應對光場圖像特殊的幾何結構造成的特征冗余,本文設計了用于多路特征融合的注意力模塊,該模塊增強了網絡的學習效率。此外,使用堆疊沙漏模塊來聚合特征,進一步豐富邊緣、弱紋理等復雜區域的細節。在4D光場數據集上的實驗結果證明了本文方法的有效性,與現有的算法相比,本文的方法在邊緣細節處有明顯的改善。后續工作考慮在堆疊沙漏模塊融入注意力機制,以提高特征聚合時多模塊、多尺度選擇性鑒別信息特征和關注顯著特征的能力。

猜你喜歡
語義深度特征
深度理解一元一次方程
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 91破解版在线亚洲| 伊人久久综在合线亚洲91| 欧美日韩北条麻妃一区二区| 国产成人毛片| 中文字幕资源站| 亚洲成人在线免费| 99国产在线视频| 性视频一区| 国产永久无码观看在线| 99激情网| 免费国产好深啊好涨好硬视频| 亚洲综合第一区| 久久成人免费| 国产第三区| 中文成人在线| 1769国产精品免费视频| 激情成人综合网| 亚洲毛片一级带毛片基地| 成人福利在线视频免费观看| 婷婷午夜影院| 秋霞一区二区三区| 日韩色图在线观看| 亚洲人成网7777777国产| 久久99精品久久久久久不卡| 色天天综合久久久久综合片| 人妻中文字幕无码久久一区| 美女无遮挡免费视频网站| 中文字幕免费在线视频| 最新国产精品鲁鲁免费视频| 亚洲一级毛片免费观看| 亚洲婷婷六月| 米奇精品一区二区三区| 内射人妻无套中出无码| 亚洲av无码成人专区| 中文字幕无码制服中字| 国产肉感大码AV无码| 1769国产精品视频免费观看| 91无码人妻精品一区二区蜜桃| 国产日韩精品欧美一区灰| 日韩中文精品亚洲第三区| 欧美区在线播放| 欧美a级在线| 88av在线| 亚洲精品福利视频| 日韩av无码精品专区| 免费观看国产小粉嫩喷水 | 激情网址在线观看| 国产真实自在自线免费精品| 亚洲一区第一页| 午夜色综合| 免费va国产在线观看| 高清乱码精品福利在线视频| 国产一区成人| 国产日本欧美在线观看| 国产欧美日韩精品综合在线| 在线观看欧美精品二区| 在线观看精品自拍视频| 国产日韩AV高潮在线| 麻豆国产在线观看一区二区| 国产麻豆精品手机在线观看| 亚洲中文字幕日产无码2021| 欧美A级V片在线观看| 国产精品无码AⅤ在线观看播放| 亚洲国产一区在线观看| 九九九久久国产精品| 国产精品专区第1页| 3p叠罗汉国产精品久久| 国产精品第5页| a毛片在线免费观看| 毛片网站观看| 国产在线八区| 中文字幕不卡免费高清视频| 中文字幕乱妇无码AV在线| 国产欧美综合在线观看第七页| 国产精品污污在线观看网站| 在线播放国产99re| 欧美激情第一欧美在线| 日韩精品亚洲精品第一页| 亚洲天堂精品视频| 在线观看亚洲精品福利片| 蜜桃视频一区二区| 国产白浆视频|