999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于像素自適應特征融合的單目深度估計*

2022-08-01 02:49:58
計算機與數字工程 2022年6期
關鍵詞:語義深度信息

仵 宇

(中國石油大學(華東)計算機科學與技術學院 青島 266580)

1 引言

場景的深度估計是計算機視覺中的經典問題,對場景理解、三維重建、自動駕駛以及光照估計等問題有重要作用[1]。普通攝像機拍攝的圖像只記錄了場景的顏色信息,沒有記錄攝像機與場景中物體之間的距離信息,即深度信息。場景深度估計任務的目的就是恢復出目標場景中每個像素點的深度信息。

基于圖像的深度估計方法根據不同的輸入圖像數量可分為多目深度估計方法和單目深度估計方法?;诙鄰垐D像的深度估計方法包括立體幾何(MVS)算法[2]、運動中恢復結構(SFM)算法[3]以及從圖像陰影中恢復深度信息(SFS)算法[4]等。立體幾何算法通過模擬人眼成像的方式,采用兩個相機拍攝不同視角的圖像,通過代價函數計算出圖像的視差圖,其原理與人的雙眼成像過程類似,SFM是從一系列二維圖像序列中估計三維結構的代表性方法,通過圖像序列之間的特征對應和幾何約束來計算,即精確的特征匹配和高質量的圖像序列很大程度上決定了深度估計的精度,SFS 則是利用灰度圖像中陰影部分像素值的變化來恢復目標物體表面形狀。這幾種算法精度不高,同時對于輸入的要求各有不同,所以適用性不好。

基于單幅RGB 圖像的深度估計方法又稱單目深度估計方法,是計算機視覺領域近幾年的熱門研究課題。盡管從單幅RGB 圖像估計圖像的深度信息是一個病態的問題,但單目深度網絡能夠通過學習表示方法,將場景和物體的外觀與其在歐幾里德三維空間中的幾何形狀聯系起來,從而做出準確的預測[5]。由于透視的關系,在物體的類別條件下,二維物體的視覺外觀和它的深度之間確實存在一種等方差關系。例如,在圖像平面上,50m 遠的汽車看起來比5m 遠的行人小,但比500m 遠的卡車大,所以在圖像上像素值之間的關系可以反映深度關系。與基于雙目圖像的深度估計技術相比,單目深度估計有著圖像獲取容易、數據集廣泛、切合實際場景視點等諸多優點,但單張圖像本身存在信息缺失,如果能從單目圖像中準確恢復深度相關信息,將極大促進場景理解等計算機視覺領域的發展。

單目深度估計的研究已經有很長一段發展過程。最早的研究方法受人類能夠根據圖像中的線索和自身經驗推斷出圖像中深度信息的啟發,根據光學原理,利用圖像中的離焦信息恢復深度(DFD)[6]?;趥鹘y機器學習的方法大多采用手工提取特征和幾何約束的方式對深度信息進行推導計算,比如構建超像素單元,提取SIFT 特征進行推斷,劃分圖像塊[7]等。上述算法的提出對深度估計技術的發展有極大的促進,但大多只適用于小景深圖像,缺乏適用性。

針對以上問題,本文根據單目深度估計的問題特性,結合現有的深度學習網絡框架,引入了語義分割網絡,對現有的單目深度估計網絡框架進行改進,將語義信息融合到深度信息中,引導單目深度估計網絡中的幾何表示學習。與現有的標準卷積相比,還引入了像素自適應卷積模塊(Pixel-Adaptive Convolutional,PAC)[8]來學習語義相關的表示,可以將語義信息與深度信息更好地進行融合,得到更優的結果。

2 相關工作

近幾年,隨著深度學習技術的迅速發展,卷積神經網絡在計算機視覺領域的應用越來越廣泛。2014 年,Eiggn 等[5]首次將深度神經網絡用于單目深度估計任務,提出了細尺度和粗尺度兩種網絡分別提取圖片的全局信息和局部細節,再對結果進行融合處理得到高分辨率的估計結果。隨后幾年,在提高單目圖像深度估計的準確性方面不斷取得重大進展,包括使用條件隨機場、有序分類、表面法線聯合優化和多深度圖融合。隨著神經網絡技術的不斷發展進步,更加復雜的網絡以及多樣化的處理手段運用到了單目深度估計領域。Garg 等[9]和Godard 等[10]提出了一種采用立體視覺變化的方法代替自我監督策略,其中空間變換網絡[11]可以利用左視圖的預測深度,以一種特定方式,將右視圖幾何變形為合成的左視圖。通過使用結構相似項[12]和額外的深度正則化項,可以以端到端的方式來最小化合成圖像與原始左視圖之間的光度一致性損失。繼Godard 等之后,Zhou 等[13]將其推廣到單目環境中,其中深度網絡和位姿網絡同時從未標記的單目視頻中學習。

引入語義信息來提高深度估計已經有了很大的進展,可以大致分為兩種。第一種方法使用語義信息來適當的建模圖像的動態部分,進而在計算的時候忽略光度損失。Guney 等在馬爾科夫模型中利用條件隨機場來解決立體模糊問題,而Bai 等使用實例級分割和外條件約束的結合來減少光流估計中的不確定性[14]。Casser 等[15]則是使用實例級掩膜來估計環境中不同對象的運動模型,并在產生的扭曲圖像中考慮它們的外部運動。第二種方法嘗試在一個網絡框架中學習這兩個任務,并采用一致性損失來確保這兩個任務同時得到優化,并彼此規則化,因此一個任務中包含的信息可以被傳遞來優化另一個任務。Ochs 等[16]使用類似于標準語義分割損失的順序分類損失估計深度,并使用經驗加權將它們組合成單個損失進行優化。Chen 等[17]使用了一個統一的條件解碼器,可以生成語義或深度表達,并用于生成一系列損失,同樣使用經驗加權來生成需要優化的最終損失。

3 方法

本文的網絡模型采用語義引導的方式完成單目深度估計任務。如圖1 所示,通過使用像素自適應卷積,我們在深度網絡中利用了來自預先訓練的語義網絡的信息。這是最近被提出來解決標準卷積運算固有的一些限制,即它的平移不變性使其內容不可知。雖然這大大減少了最終網絡的參數數量,但在某些對幾何表示學習很重要的條件下,這也可能導致次優解。例如,空間共享濾波器在全局范圍內平均整個圖像上的損耗梯度,迫使網絡學習不能在有限的接收域之外利用特定位置信息的權重。與內容無關的過濾器無法區分視覺上相似的不同像素(例如,陰影或黑色物體造成的黑暗區域),或泛化到視覺上不同的相似物體(例如,不同顏色的汽車)。在本文的工作中,我們引入了像素自適應卷積產生語義感知深度特征,其中在語義網絡中編碼的固定信息被用來消除幾何表示歧義,以生成多級深度特征。

圖1 基于語義引導的單目深度估計網絡架構

3.1 像素自適應卷積

如圖1 所示,我們從語義網絡中提取多級特征映射。對于每個特征圖,我們應用一個3×3 和一個1×1 卷積層,然后進行組歸一化和ELU 非線性處理。然后,按照Su 等[8]提出的公式,將這些經過處理的語義特征映射用作它們各自的像素自適應卷積層的引導:

3.2 語義分割分支

作為本文深度網絡的輔助分支,使用了基于殘差網絡的特征金字塔網絡。該體系結構已被證明在面向全景分割的語義和實例級預測方面都是有效的。雖然我們提出的語義引導體系結構并不局限于任何特定的網絡,但我們選擇這個特定的實現是為了促進未來對不同來源的引導信息的探索。構建細節遵循Li 等[18]描述的協議,除非另有說明,否則所有報告的實驗都使用相同的預訓練模型。假設語義網絡是固定的,在與用于自監督學習的原始數據不同的數據集上進行預先訓練,也就是說,我們不需要目標數據庫上的任何語義事實。

3.3 損失函數

在深度估計網絡的訓練過程中,數據集中大多數目標深度圖均會丟失部分值,在圖像的邊緣處、交界處或弱紋理區域較為明顯。本文將真值圖與預估圖做統計之后,只統計預測的有效點上的損失,忽略沒有進行預測或是預測的超出真值圖范圍的像素。本文采用的是單目深度估計常用的尺度不變性損失函數,利用真值圖與預測圖中點的相對關系來消除尺度不確定性帶來的估計精度的影響,損失函數如下:

其中,y為深度網絡預測的深度圖,y*為對應的真值圖,網絡的輸入、輸出圖像大小均為640×480;n是圖像的像素點總數;λ是尺度因子,預設值為0.5。

4 實驗

4.1 數據集介紹

本文采用深度估計領域的經典數據集NYU-Depth V2室內場景數據集對提出的方法進行評估,包括464 個由微軟Kinect 捕獲的室內場景視頻序列,共計40 萬張RGB 圖像、深度圖像對,大小均為640×480,按照官方提供的數據集分割方法,將數據集分為訓練場景249個,測試場景215個。

4.2 實施細節

本文使用PyTorch 深度學習框架實現網絡模型,網絡訓練硬件為NVIDIA Tesla P100 PCIe 16GB GPUs。選用SGD 優化策略優化網絡參數,訓練輪數epochs=100,批大小banchsize=8,學習率lr=0.001,每20個epoch學習率減半。

在對語義分割網絡進行預訓練時,本文使用了ResNet-50 基礎網絡在ImageNet 數據集上進行訓練,以0.01的學習率,0.9的動量,10-4的權值衰減,每個GPU 批處理大小為2,共計迭代24000 次來訓練并優化網絡。同時還采用了隨機縮放,隨機水平翻轉等數據增強方式。訓練完成后,語義分割網絡固定,直接用于最終深度估計網絡的訓練。

4.3 評估指標

在網絡結果評估環節,采用單目深度估計領域公共指標,即絕對相對深度誤差Abs Rel、均方根誤差RMSE、對數誤差lgRMSE、閾值精度Threshold:

其中,y為深度網絡預測的深度圖,y*為對應的真值圖,thr為給定閾值,其參數設置為δ1<1.25,δ2<1.252,δ3<1.253。

4.4 實驗結果

為了盡可能消除實驗中出現的隨機誤差和偶然結果的影響,本文進行了多次重復試驗,取重復試驗平均值為最終實驗結果,并與當下主流的網絡算法進行對比,各項對比結果見表1,數據表示對應于該指標下的最優值。從評估指標來看,本文算法結果均較為理想。在取得理想效果的同時,還需要參考網絡處理單張圖像所需的時間。在計算效率上,在服務器端單張圖片處理時間約為0.087s,但在本地普通電腦端進行處理會出現卡頓現象,距離遠程實時處理還有一定的距離。針對本文的實驗結果,雖然從方法和模型的角度考慮,已將語音信息通過恰當的方式融合進了多級深度特征中,并對全局特征和局部特征進行了融合,提高了網絡的信息表示能力,但訓練出的模型對于復雜環境下仍有提升空間,未來工作將從網絡的參數量以及網絡層數的設計上出發,取得更好的深度預測效果。

表1 在NYU-DepthV2數據集上與當下主流算法指標比較結果

5 結語

本文介紹了一種新穎的語義監督單目深度估計體系結構,該體系結構利用固定預訓練網絡中的語義信息引導像素自適應卷積生成多級深度特征。我們的單目深度網絡感知了上下文以及豐富的語義信息,可以很好地預測之前工作對于邊緣有較大誤差的圖像區域。在具有挑戰性的真實室內場景數據集上的實驗表明,我們提出的網絡模型提高了單目深度估計任務的性能。未來的研究方向包括利用其他來源的信息對深度估計做指導(例如實例分割掩膜、光流、表面法線等),以及建立更加輕量級的網絡模型,繼續推進單目深度估計的實時預測任務。

猜你喜歡
語義深度信息
深度理解一元一次方程
語言與語義
深度觀察
深度觀察
深度觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 色网在线视频| 国产毛片基地| 毛片免费试看| 手机成人午夜在线视频| 无码福利视频| 成人在线亚洲| 韩国v欧美v亚洲v日本v| 亚洲第一黄色网| 日韩精品亚洲一区中文字幕| 国产成人精彩在线视频50| 香蕉久久永久视频| 日本日韩欧美| 91午夜福利在线观看精品| 亚洲第一黄片大全| 尤物在线观看乱码| 特级毛片8级毛片免费观看| 九九九精品成人免费视频7| 亚洲经典在线中文字幕| 亚洲天堂伊人| 欧美亚洲一区二区三区导航| 99精品免费在线| 亚洲黄色激情网站| 无码精品一区二区久久久| 中文字幕av一区二区三区欲色| 国产午夜在线观看视频| a在线观看免费| 五月丁香在线视频| 中文精品久久久久国产网址| 国产成人精品无码一区二| 亚洲精品国偷自产在线91正片| 国产日韩精品一区在线不卡| 九色91在线视频| 999国内精品久久免费视频| 亚洲三级片在线看| 亚洲天堂2014| 国产微拍精品| av性天堂网| 久久精品人人做人人综合试看| 成人午夜视频网站| 久久特级毛片| 欧美翘臀一区二区三区| 亚洲最新在线| 欧美亚洲综合免费精品高清在线观看| 亚洲AV无码乱码在线观看代蜜桃| 波多野结衣中文字幕一区| 国产成年女人特黄特色大片免费| 激情五月婷婷综合网| 国产成人精品视频一区二区电影| 国产主播福利在线观看| a级毛片免费播放| 东京热av无码电影一区二区| 午夜一区二区三区| 日本不卡视频在线| 亚洲国产成人在线| 久久大香伊蕉在人线观看热2 | 伊人久久久大香线蕉综合直播| 国产欧美日韩另类| 在线免费观看AV| 日本欧美一二三区色视频| 久久亚洲AⅤ无码精品午夜麻豆| 久久久久久尹人网香蕉| 国内精品九九久久久精品| 国产91av在线| 国产成人综合亚洲欧美在| 欧洲一区二区三区无码| 欧美激情第一区| 91久久偷偷做嫩草影院| 久久免费看片| 国产精品女同一区三区五区| 久久国产精品国产自线拍| 亚洲视频免费在线看| 国产人前露出系列视频| 日本精品中文字幕在线不卡| 精品欧美一区二区三区久久久| 精品一区二区三区水蜜桃| 国产激情无码一区二区三区免费| 国产欧美日韩视频怡春院| 蜜桃视频一区二区三区| 欧美在线网| 91福利在线看| 蜜桃视频一区二区三区| 亚洲无码电影|