(華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237)
隨著無人駕駛領(lǐng)域的飛速發(fā)展,計算機(jī)對于三維場景進(jìn)行理解并輔助人進(jìn)行駕駛決策的需求變得越來越大。而深度估計作為三維場景重建[1]的一部分,已成為計算機(jī)視覺領(lǐng)域的一個重要課題。深度估計通常分為單目深度估計、雙目深度估計以及多目深度估計算法。單目深度估計相較雙目及多目深度估計來說對于硬件的要求較低,成為近幾年比較火熱的一個研究方向。但單目深度估計由于缺少視差數(shù)據(jù),利用傳統(tǒng)的方法常常無法對圖像中的深度進(jìn)行推斷。而隨著深度學(xué)習(xí)的火熱發(fā)展,深度神經(jīng)網(wǎng)絡(luò)能夠自動進(jìn)行特征提取的能力使得其在場景深度估計上也得到了廣泛的應(yīng)用。
近年來,許多基于深度神經(jīng)網(wǎng)絡(luò)的研究工作在單目深度估計上取得了不少的研究成果。Eigen 等人[2]首次將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于單目深度估計任務(wù)中,提出利用多尺度的卷積神經(jīng)網(wǎng)絡(luò)對深度圖進(jìn)行預(yù)測。網(wǎng)絡(luò)架構(gòu)主要為兩部分,全局粗略尺度網(wǎng)絡(luò)用來得到低分辨率的粗略深度圖,局部精細(xì)尺度網(wǎng)絡(luò)對前者的輸出進(jìn)行精細(xì)化。隨后,Eigen 等人[3]在其前述研究的基礎(chǔ)上進(jìn)行了改進(jìn),增添了高分辨率尺度,以獲得更高分辨率的深度估計結(jié)果,并改變了網(wǎng)絡(luò)訓(xùn)練的方式,實(shí)現(xiàn)了在同一個網(wǎng)絡(luò)下同時完成深度估計、表面法線預(yù)測以及語義標(biāo)注3個任務(wù)。Laina 等人[4]采用了全卷積的ResNet[5]以及上采樣來進(jìn)行深度估計,殘差結(jié)構(gòu)帶來的最直觀的優(yōu)勢就是其具有更大的感受野,因此可以接收分辨率更高的輸入圖像,保證其全局信息可以更好地得到保持。……