999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

輕量級自適應上采樣立體匹配

2022-08-19 08:23:52宋嘉菲張浩東
計算機工程與應用 2022年16期

宋嘉菲,張浩東

1.中國科學院 上海微系統與信息技術研究所 仿生視覺系統實驗室,上海 200050

2.上??萍即髮W 信息科學與技術學院,上海 201210

3.中國科學院大學,北京 100049

獲取準確稠密的現實場景深度圖對于自動駕駛、三維重建、機器人導航等人工智能視覺任務有著重要的意義。根據獲取深度方式的不同,可分為主動式與被動式。具有代表性的主動測距方法有激光雷達。激光雷達具有抗電磁干擾能力強,檢測精度高等優點,但獲取的深度圖稀疏并且在反光平面上的測距效果不佳。被動式測距則是利用場景在自然光照下的二維圖像獲取稠密深度信息,其中廣泛使用的有雙目立體相機。該雙目相機采用立體匹配算法在左右兩張經過校準的圖像上,沿著極線尋找對應點的位置坐標,從而求得視差,繼而通過三角化計算空間中對應點的深度信息。

隨著深度學習的發展,MC-CNN(matching cost convolutional neural network)[1]首次采用卷積神經網絡的方法學習左右圖像的特征表達,來替代傳統方法中手動設計的特征表達式(例如Census[2-4])進行代價體的計算;GC-Net(geometry and context net)[5]則是提出了第一個完全端到端的立體匹配模型?,F階段基于深度學習的立體匹配算法流程主要分為特征提取、代價計算、代價聚合、視差計算和視差優化五個階段。為了減少立體匹配網絡運行的計算量和顯存消耗,PSMNet(pyramid stereo matching network)[6]選取特征提取階段1/4 分辨率上的特征輸出進行代價體的計算和聚合,在解碼階段通過三線性插值將1/4分辨率代價體上采樣到原圖尺寸進行視差計算。隨著多分辨率層級網絡在各大計算機視覺任務中的廣泛應用,Yang等[7]將在低分辨率上得到的視差圖通過雙線性插值上采樣到高分辨率,繼而基于上采樣后的視差進行仿射變換來進行更精細的視差預測。如今,端到端立體匹配模型更多地側重實時性能,實時網絡[8-10]為了更快的運行速度,選擇在超小分辨率上(16x,8x)進行計算,并且采用層級線性插值上采樣得到原圖視差。

在端到端立體匹配算法的發展中,上采樣逐漸成為其中的關鍵步驟。由于設備顯存和算力的制約,在原圖(例如1 280×960)上直接進行計算十分困難,因此在小分辨率尺寸上進行立體匹配計算成為主流做法。其中如何在上采樣得到原圖分辨率的同時盡可能還原下采樣丟失的信息成為其中一個重點考慮的問題。除此之外,當算法應用在實際工程中時,模型的規模與計算量也是另一個重點考慮的問題。

常用無參數非深度學習上采樣方案有最近鄰插值和雙線性插值方法,見圖1,以圖中紅色點為例,紅點的上采樣使用了周圍的4個點,但是其插值元素考慮的僅僅是像素的坐標位置值,并沒有很好地考慮元素周圍鄰域的相關性和紋理、顏色信息。另一種上采樣方案則是反卷積[11],見圖1,其先通過補零擴大圖像尺寸,接著進行卷積操作。該方案可以有權重地選擇周邊鄰域進行插值,但同時也使得圖像上每一個點都采用固定的同一個卷積核參數并且帶來了大量的計算。

圖1 雙線性插值和反卷積過程Fig.1 Procedures of bilinear interpolation and deconvolution

針對上采樣問題的研究在超分辨率(super-resolution)視覺任務中有著重點的探索。超分辨率問題在于研究如何使用低分辨率圖像重建出相應的高分辨率圖像。早期,SRCNN(super-resolution convolutional neural network)[12]網絡使用三線性插值將低分辨率圖像上采樣到目標尺寸,接著使用三層卷積網絡進行擬合得到高分辨率圖像;ESPCN(efficient sub-pixel convolutional neural network)[13]網絡采用Pixel Shuffle 的方案進行上采樣,該操作使得大小為σ2×H×W特征圖像被重新排列成大小為1×σH×σW的高分辨率圖像;VSR(video super resolution)[14]網絡通過在每個像素的時空鄰域進行濾波上采樣得到高分辨率圖像。本文也將結合ESPCN中提出的Pixel Shuffle和VSR中提出的鄰域濾波進行改進。

綜上所述,本文的貢獻點在于:(1)針對立體匹配算法中代價體上采樣問題進行研究并改進;(2)提出了一個輕量級自適應上采樣模塊(lightweight adaptive upsampling module,LAUM),用以學習代價體中每一個像素的插值權重窗口,并且設計了多尺度窗口提高上采樣能力,同時該模塊具有大感受野和輕量化的特點;(3)在SceneFlow和KITTI2015數據集上的定性定量實驗證明了LAUM模塊的有效性。

1 算法描述

1.1 立體匹配算法描述

現有端到端立體匹配模型主要包含特征提取、代價體計算、代價濾波、視差計算、視差優化五個階段,流程圖如圖2 所示。特征提取部分多基于ResNet[15]網絡,選取其1/k分辨率(例如k=4)特征圖作為下一階段的輸入;代價體計算階段,則根據實現方法的不同,代價體結構可以分為兩個大類,分別為3D([H,W,D])代價體和4D([H,W,D,C])代價體,前者通過相關操作[16-18]在通道維度上計算左圖和變換右圖的相關程度,后者的4D 代價體則是通過在通道維度(C)上疊加[5,19-20]或者特征相減[8]的操作來實現,本文基于3D 代價體展開,該代價體記作CV(cost volume):

其中,i=[0,1,…,Dmax],Fl、Fr依次為左右特征圖。出于計算量的考慮,代價體計算和濾波階段通常在1/4 原圖甚至更低分辨率上進行,然后采用上述所提插值的方法將代價體上采樣到原圖尺寸。本文的主要研究方向就是針對這一階段進行改進(圖2 綠色部分,代價體上采樣),通過輕量級的模塊使得上采樣的結果更為精準,減少信息損失,提高算法最終視差預測的精度。

圖2 立體匹配流程圖Fig.2 Procedure of stereo matching

1.2 上采樣公式

為了得到輸出特征圖O∈?σH×σW×C中的每一個元素,在輸入特征圖I∈?H×W×C上使用上采樣方程進行采樣,其中σ表示上采樣的倍數。更具體地,假設需要求得的目標輸出像素點坐標為(xi,yi,ct),則上述上采樣過程可以公式化地表示為:

其中,i?[0,H×W-1],t?[0,C],Ψ就是上述提到的上采樣方程,σ則是上采樣的倍數。

對于目標像素點(xi,yi,ct)∈O,其直接對應的源坐標為,如果直接使用對應源坐標點的值則是最近鄰插值方法;當Ψ取方程為:則是常見的雙線性插值方法。從該公式分析可見,雙線性插值的參數只與對應像素點的橫縱坐標有關,其取0至1之間的值作為權重參數進行插值,并沒有很好地利用像素點周圍的鄰域紋理信息。例如處于邊緣并且屬于前景的像素點,在上采樣過程中與背景的點坐標更近,則會產生一定的誤差,如何選擇正確的點進行插值十分重要。

本文提出的輕量級自適應上采樣模塊,就是為了解決這一問題。該模塊不僅僅是根據坐標位置的遠近來進行權重的確定,而是通過深度學習的方法為每一個像素點(xi,yi,ct)∈O尋找一組上采樣參數,在輸入特征圖上采樣從而提高整體的預測精度。該上采樣方程可以記為:

對比式(4.1)、(4.2)與式(5)分析可得,前者線性插值所使用的權重考慮的是坐標位置,后者本文提出的自適應上采樣模塊插值更多地考慮待插值像素周圍的紋理信息。相比線性插值,本文提出模塊更好地考慮了圖像的RGB 紋理信息,為每一個像素點都學習了特定的上采樣參數方程,同時也避免了物體邊緣區域與內部區域使用相同上采樣方案造成的誤差。如此設計使得上采樣模塊有了更好的紋理感知能力。

1.3 輕量級自適應上采樣模塊

1.3.1 模塊總覽

所提的輕量級自適應上采樣模塊流程圖如圖3 所示。該模塊的輸入尺寸為H×W×C,首先經過紋理感知模塊進行鄰域信息的融合,并擴大每個點的感受野,此時代價體的通道數從C變為σ×σ×2×K×K(其中σ是上采樣的倍數,K為卷積核尺寸)。隨后,采用Pixel Shuffle 算法將代價體進行上采樣,Pixel Shuffle 的具體做法則是使用通道(C)在空間維度(H×W)上進行順序拼接,從而達到擴大的目的。上采樣后代價體通道方向上代表的為每個像素點需要進行周邊鄰域采樣所需的參數數量,以此來為每個像素點學習特定參數。

圖3 輕量級自適應上采樣模塊Fig.3 Lightweight adaptive upsampling module

1.3.2 紋理感知模塊

如圖4首先采用一個1×1卷積層來將輸入的通道數從C壓縮到32,采用該卷積能很好地壓縮后續步驟的計算量和參數,使得模塊更加輕量化。然后,設計了連續的3個殘差模塊,每個殘差模塊首先經過3×3卷積、批歸一化、ReLU 激活函數,為了獲得更大的感受野,并且不增加網絡的模型大小,設置每個模塊的卷積空洞率依次為1、2、1,得到的結果再使用一個3×3卷積(不使用批歸一化和激活函數)進行進一步信息融合。其中,每個殘差模塊的輸入輸出通道數都為32,使得整體模塊的參數不隨著輸入通道數的增加而大量增加。經過3 個殘差模塊后,繼續使用1×1 卷積將通道數從C壓縮到σ×σ×2×K×K(其中σ是上采樣的倍數,K為卷積核尺寸)來為后續做準備。

圖4 紋理感知模塊Fig.4 Context-aware module

1.3.3 多尺度窗口

傳統上采樣方法(例如雙線性插值、最近鄰插值)等使用的都是3×3鄰域窗口進行插值,對應像素點周圍的信息固然重要,但是大的感受野窗口,更多的點能夠更好地輔助該點的上采樣。因此,本文同時使用兩種窗口進行插值,如圖3 多尺度窗口所示,第一種記作K×K(例如3×3,5×5)窗口,另外一種則是空洞率為σ(上采樣的倍數),參數量依舊是K×K的空洞窗口,因此總共的采樣窗口數量(參數量)為K×K×2。K的值在實驗部分具體分析和介紹。

1.4 輕量級分析

使用反卷積方案進行上采樣同樣可以為每個像素學習固定的上采樣參數,但是會帶來大量的計算。假設上采樣模塊的輸入尺寸為H×W×C,輸出尺寸為σH×σW×σC,采用反卷積上采樣σ(上采樣倍數)倍,則卷積所需的步長為σ,卷積核尺寸為2×σ×2×σ,則其理論計算所需要的參數量為C×(2σ×2σ)×(σC)。本文提出的自適應上采樣模塊參數主要集中在紋理感知模塊和通道升維兩部分,在紋理感知模塊中,通道數固定為32,兩個1×1 卷積層參數量為C×32+32×(σ×σ×2×K×K)(其中σ為上采樣倍數,K為多尺度窗口),3個殘差模塊參數量為3×2×32×(k×k)×32(其中k為卷積核尺寸),因其固定輸入輸出尺寸為32,所以該部分參數量為固定值,也同時保證該部分計算量不隨著上采樣倍數的增加而大量增加,在通道升維部分,其參數量為C×(k×k)×(σC)。以K為3,k為3,σ為4,C為48為例,本文提出的自適應上采樣模塊參數量為反卷積上采樣參數量的1/4。

2 實驗結果

2.1 數據集

本文在兩個主流雙目數據集(SceneFlow[21]和KITTI2015[22])上進行了大量的實驗,驗證模塊的有效性。

SceneFlow 數據集是虛擬合成的數據集,并且提供了稠密的真值視差,該數據集包含了35 454張雙目訓練集以及4 370張測試集。EPE誤差(end-point-end error)是這個數據集使用的指標,該指標描述了像素點的平均預測誤差。EPE誤差以小為優。

KITTI2015 數據集是真實的室外場景,該數據集提供了稀疏的真值視差(車載激光雷達獲取),其包含了200 張訓練集以及200 張測試集雙目圖像。D1-all 是該數據集主要使用的指標,它表示在所有像素點中,預測值與真實值誤差大于3 個像素的點占總像素點的比例。D1-all誤差以小為優。

2.2 實驗平臺和方法

實驗代碼基于PyTorch 框架編寫,實驗平臺使用的是NVIDIA 2080ti顯卡。在整個訓練過程中,全程使用Adam[23](β1=0.9,β2=0.999)作為神經網絡的優化器,采取在SceneFlow 數據集上預訓練,再在KITTI2015 上使用SceneFlow 訓練得到的模型進行調優訓練的策略。本文提出的輕量級自適應上采樣模塊(LAUM)將在PSMNet[5]和AANet[8]網絡上通過替換其中三線性插值為本文的自適應上采樣模塊來進行驗證。

基于PSMNet 網絡:在兩個數據集上將輸入左右圖隨機切分成256×512 分辨率。在SceneFlow 數據集上,總訓練輪數為20,并使用固定的學習率0.001;在KITII2015 數據集上,總訓練輪數為500,初始學習率為0.001,200輪后學習率設為0.000 1。

基于AANet網絡:在兩個數據集上將輸入左右圖隨機切分成288×576 分辨率。在SceneFlow 數據集上,總訓練輪數為128,初始學習率為0.001,在第[40,60,80,100,120]輪時,學習率依次衰減一半。

對于所有數據集和網絡,最大視差都被設定為192。除此之外,與所使用的PSMNet和AAnet保持一致,使用ImageNet 數據集的均值和方差來對輸入圖像進行正則化操作,并進行隨機的顏色增強,翻折進行數據增強。

2.3 上采樣方法分析

為了驗證提出的輕量級自適應上采樣模塊LAUM的有效性,本文基于PSMNet 網絡,在SceneFlow(EPE誤差)和KITTI2015(D1-all 誤差)數據集上對比了線性插值、反卷積以及LAUM模塊的效果。其中線性插值是原文中所使用的上采樣方案,LAUM模塊具有很好的移植性,可以直接替換三線性插值方法進行實驗。實驗結果如表1所示,可以發現采用反卷積方式進行上采樣所需參數量(#Params)和計算量(GFLOPs,Giga floating point operations)最多,但是誤差也是最大的;反觀本文的自適應上采樣模塊LAUM,在線性插值的基礎上增加少量的參數(6.2%),在SceneFlow數據集上EPE誤差降低26.4%,在KITTI驗證集上D1-all誤差降低17.81%,足以證明LAUM 模塊設計的有效性和輕量化,更適合實際工程。

表1 基于PSMNet上采樣模塊分析Table 1 Analysis of upsampling methods on PSMNet

2.4 SceneFlow數據集結果

如表2 所示,在SceneFlow 測試集上對比了搭載LAUM 上采樣模塊網絡與其他主流網絡的結果。本文選取了兩個代表性的網絡PSMNet 和AANet 作為基礎網絡,直接替換其中的三線性插值上采樣方法為本文的輕量級自適應上采樣模塊(名稱后綴為-LAUM),前者是提升預測精度的代表網絡,后者是提升速度立體匹配網絡中的代表。

表2 SceneFlow數據集不同網絡對比Table 2 Comparison with other networks on SceneFlow

基于PSMet 網絡改進:首先分析基于PSMNet 網絡的改進。PSMNet 網絡具有兩個版本,basic(基礎)和hourglass(高精度),本文是基于basic 版本進行改進,目的是為了證明誤差的降低并不是因為網絡參數的增加,而是因為LAUM 模塊設計的有效性。對比發現,本文的輕量級自適應上采樣模塊LAUM在basic的基礎上帶來了26.4%的誤差降低,甚至超越了PSMNet 的高精度版本(-hourglass),但參數量僅僅為高精度版本的74.71%,計算量是其75.74%。與GWC-Net的對比可以發現降低8.8% EPE誤差的同時,降低了42.8%的參數量和25%的計算量。和原網絡以及其他網絡的對比都證明了LAUM模塊輕量化設計的有效性。

基于AANet網絡改進:同樣的結果也在基于AANet的改進上有所體現。本文的模塊帶來了10.3%的誤差降低,值得注意的是在和GA-Net網絡進行對比的時候,本文網絡的參數量大于GA-Net,但是GFLOPS 遠小于該網絡,主要是因為GA-Net大量使用了3D卷積進行代價濾波。本文在表格中同時羅列了參數量和計算量進行對比。實驗結果也證明了模塊的有效性。

可視化結果:圖5 可視化地展示了PSMNet-basic、PSMNet-LAUM、AANet、AANet-LAUM在SceneFlow測試集上的效果,并展示了各自網絡的EPE 誤差和誤差圖。誤差圖是通過預測圖和真值相減得出。分析發現,基于LAUM 模塊的網絡有著更低的誤差,同時在物體邊緣處(SceneFlow數據集物體多且復雜)有著更好的預測結果,尤其在柵欄區域(PSMNet 和AANet 在這些區域都有大量錯誤),采用了LAUM模塊后使得兩個基礎網絡都在此區域有了明顯的精度提升。

圖5 KITTI2015和SceneFlow數據集效果圖Fig.5 Visualization of 2 datasets(KITTI2015 and SceneFlow)

2.5 KITTI2015數據集結果

在KITTI 數據集上,本文僅在PSMNet 與AANet 上比較設計的自適應上采樣模塊(LAUM)和原文的效果。從表3中可以發現,采用本文設計的輕量級自適應上采樣模塊(LAUM),D1-all誤差降低了15.4%和18.9%。正如之前提到的,LAUM模塊設計的初衷是為每個像素尋找上采樣窗口,其中也包括邊緣像素點,邊緣處的效果提升更能反映模塊的有效性。因此,本文采用了Sobel邊緣檢測算子得到左圖的邊緣區域并且采取一定程度的邊緣膨脹(見圖6),從而驗證在這些邊緣區域的誤差??梢园l現,本文提出的LAUM 模塊在提升整體精度的同時也能很好地提升邊緣處像素點,各自在邊緣處有了15.0%、16.7%的精度提升。圖5也分別展示了兩個基礎網絡PSMNet 和AANet 以及加入LAUM 模塊后各自網絡在KITTI數據集上的可視化效果,并展示了各自的誤差??梢园l現,盡管原本數據集(KITTI 數據集的視差真值稀疏)的誤差值已經很小,但是LAUM依舊可以提升整體的預測精度。

表3 KITTI驗證集D1-all誤差對比Table 3 Comparison of D1-all error on KITTI validation dataset

圖6 KITTI數據集邊緣圖Fig.6 Edge map of KITTI dataset

圖7可視化地展示了在邊緣處的細節,可以發現采用了LAUM模塊能夠更好地保留物體(汽車)的形狀輪廓,在邊緣處有著更好的預測效果。車子表面是反光材質,反光區域對物體的整體性有著極大的影響,可視化結果表明,基于輕量級自適應上采樣模塊LAUM 的算法比線性插值方法能夠更好地應對該情況。

圖7 邊緣預測細節可視化Fig.7 Visualization of details at edge area

2.6 消融實驗-多尺度窗口

為了進一步驗證本文提出的模塊中多尺度窗口的有效性,設計了如下消融實驗。該實驗基于PSMNet網絡進行,數據集使用SceneFlow,采用的測試指標是EPE誤差。結果如圖8 所示,其中K×K(例如3×3)表示使用單窗口進行插值,K×K×2 則表示使用本文提出的雙窗口。圖中所列參數量依次從9 到50 進行對比。比較3×3×2與3×3窗口,可以發現雙窗口的設計可以有效降低14.2%的誤差,與5×5 窗口的比較也可以證明誤差的降低是因為模塊設計,而不是更多的參數量帶來的。當窗口參數量達到7×7 時,誤差有了明顯提升,這也是因為在紋理感知模塊中通道數被設置成了32(出于輕量化目的),當窗口參數量大于這個值,會出現信息的冗余,因此會帶來精度的降低。

圖8 不同窗口對預測精度的影響Fig.8 Effect for prediction of different window sizes

2.7 上采樣窗口參數可視化

為了驗證LAUM 模塊能夠很好地感知周圍鄰域的紋理信息,本文通過可視化窗口權值來體現,具體實驗設計如下:LAUM模塊是為高分辨率輸出的每一個像素學習一個上采樣窗口權值,將每一個像素的權值全部在低分辨率對應的位置累加,則可以得到在低分辨率輸入中每個像素對上采樣的貢獻度。圖9 為上采樣窗口權值可視化圖,顏色越深,值越小。從圖9 中可以發現車子邊緣處的權重累加值接近零,意味著邊緣處的點幾乎不參與上采樣的過程。邊緣處具有歧義性,本文提出的LAUM模塊學習到的參數更多地落在了非邊緣區域,窗口權值的可視化結果以及在數據集上的精度提升都證明了設計模塊的有效性。

圖9 上采樣窗口權值可視化Fig.9 Visualization of upsampling weights

3 結束語

本文針對端到端立體匹配網絡中的關鍵步驟(代價體上采樣),提出了輕量級自適應上采樣模塊LAUM,用以解決線性插值紋理信息使用不足和反卷積計算復雜的缺點,進而提升最終視差預測的準確度。在SceneFlow和KITTI 數據集上的結果也證明了本文模塊設計的有效性。更重要地,提出的LAUM模塊參數量極少,復雜度幾乎可忽略不計。同時,可以十分便捷地替換到任何使用線性插值和反卷積的網絡中。在接下來的工作中,將更多地側重LAUM模塊在實際場景中的泛化能力和低算力設備上的實際運行速度。

主站蜘蛛池模板: 全部免费毛片免费播放| 成人午夜网址| 亚洲中文久久精品无玛| 热九九精品| 欧美特黄一免在线观看| 欧美狠狠干| 在线国产你懂的| 久久夜夜视频| 欧美专区日韩专区| 国产乱子伦手机在线| 欧洲成人免费视频| 国产一级做美女做受视频| 国产黄色片在线看| 在线色综合| 四虎成人精品在永久免费| 日韩美女福利视频| 97人妻精品专区久久久久| 亚洲天堂免费在线视频| 91精品福利自产拍在线观看| 国产在线一区二区视频| 久久久久亚洲精品成人网| 日韩精品无码免费一区二区三区| 日韩精品一区二区深田咏美| 国产爽歪歪免费视频在线观看 | 日本91视频| 四虎影视8848永久精品| 1024你懂的国产精品| 亚洲va在线∨a天堂va欧美va| 国产精品无码影视久久久久久久| 国产精品吹潮在线观看中文| 99re在线视频观看| 日韩在线2020专区| 最新日本中文字幕| 九九香蕉视频| 国产91在线|中文| 久久久国产精品无码专区| 亚洲a级在线观看| 伊人网址在线| 日本欧美成人免费| 99久久精品免费观看国产| 找国产毛片看| 国产精品片在线观看手机版 | 免费在线看黄网址| 午夜啪啪网| 国产在线第二页| 精品无码专区亚洲| 日韩视频精品在线| 亚洲人精品亚洲人成在线| 98超碰在线观看| 色哟哟国产精品| 欧美日韩中文字幕在线| 国产va在线| 国产无码制服丝袜| 波多野结衣一区二区三区四区视频| 91久久夜色精品国产网站| 婷婷99视频精品全部在线观看 | 国产区在线观看视频| 亚洲国产亚洲综合在线尤物| 青青热久麻豆精品视频在线观看| 久久 午夜福利 张柏芝| 思思热精品在线8| 亚洲日韩第九十九页| 人妻无码中文字幕一区二区三区| 亚洲自拍另类| 国产高清不卡| 免费人成视频在线观看网站| 欧美一区二区三区不卡免费| 制服丝袜一区| 大陆精大陆国产国语精品1024| 超碰91免费人妻| 91精品网站| 2022国产91精品久久久久久| 国产波多野结衣中文在线播放| 456亚洲人成高清在线| 国产高清精品在线91| 日韩经典精品无码一区二区| 999国产精品| 国产高清精品在线91| 1024国产在线| 色综合久久88| 人禽伦免费交视频网页播放| 久久国产高清视频|