深度學習已經(jīng)在二維目標檢測的視覺任務(wù)中取得了顯著的進展
,在人臉識別
、車牌識別
和視覺目標跟蹤
等領(lǐng)域得到充分應(yīng)用。除了二維場景理解,三維目標檢測對于現(xiàn)實世界的許多應(yīng)用是關(guān)鍵而且密不可分的,例如自動駕駛與計算機視覺。最近的三維目標檢測的方法利用不同類型的數(shù)據(jù),例如單目圖像、RGB-D圖像和3D點云數(shù)據(jù),最普遍使用的3D傳感器是LiDAR(light detection and ranging)傳感器,它能夠形成3D點云,從而來捕捉場景的三維結(jié)構(gòu)
。然而,點云數(shù)據(jù)通常是稀疏的和無序的,如何從不規(guī)則的點中提取出獨特的特征成為三維目標檢測任務(wù)中的關(guān)鍵性挑戰(zhàn)。
根據(jù)特征提取過程中點云的表示形式,可將基于點云的三維目標檢測方法分為兩類:基于點的方法(又稱為直接法)和基于網(wǎng)格的方法(包括俯視圖法與體素法)。基于點的方法
大都采用PointNet或者PointNet++
網(wǎng)絡(luò)中的集合抽象(set abstraction,SA)層對輸入點云進行多層次的局部特征提取。PointRCNN
網(wǎng)絡(luò)和3DSSD
網(wǎng)絡(luò)等都是首先利用集合抽象層對輸入點云進行下采樣之后再進行下游任務(wù)的處理。此類方法在處理的過程中充分利用輸入點云的幾何特征,因此其能夠獲得更好的檢測性能。由于此類方法在處理過程中需要堆疊多次下采樣操作和鄰域搜索操作,上述兩類操作的時間復(fù)雜度分別為
(
)和
(
),使得其特征提取過程需要消耗大量的時間和計算資源。基于網(wǎng)格的方法將輸入點云轉(zhuǎn)化為規(guī)則的網(wǎng)格,例如3D體素
或2D俯視(bird’s eye view,BEV)圖
,從而能夠使用3D或者2D CNN提取特征。……