周 燕,蒲 磊,林良熙,劉翔宇,曾凡智,周月霞
佛山科學技術學院 計算機系,廣東 佛山 528000
目標檢測一直是計算機視覺領域中最基本的問題之一。近年來,基于深度學習的目標檢測算法極大地推動了各領域的發展,例如智慧交通、自動駕駛、家庭安防等。雖然基于二維圖像的目標檢測[1-4]已經取得了較大的進展,但針對三維目標的理解[5]和分析仍然是一項具有挑戰性的任務。三維目標檢測被定義為識別三維場景中特定的目標并估計其位置與方向的任務[6]。三維目標檢測主要包含定位與識別兩個步驟,即生成一系列與真實環境相關的三維邊界框,并對邊界框內的目標進行識別。相比于二維目標檢測,三維目標檢測可以輸出物體的長、寬、高及朝向等信息,并通過這些信息獲得空間中目標的位置關系,從而能更好地支持語義標注與場景理解。現有的三維目標檢測算法按照輸入數據的類型可以劃分為基于視覺、基于激光點云和基于多模態融合三大類[7]。
基于視覺的三維目標檢測方法,又可以細分為基于單目和雙目的三維目標檢測。如D4LCN(depthguided dynamic depthwise dilated local convolutional network)[8]、AM3D(accurate monocular 3D detection)[9]等,對圖像進行深度估計,通過估計值將二維邊界框投影到空間中來完成三維目標檢測任務。該類方法存在目標定位誤差大、對光照敏感等問題,并且其應用場景多為室內。而激光點云能反映目標在空間中的位置,并且不易受光照變化的影響,因此使用激光點云數據完成三維目標檢測任務已成為研究的熱點。與圖像數據不同,激光點云數據具有無序性、非結構性及分布不均等特性。為了與現有的深度學習技術相結合,激光點云的三維目標檢測方法按照點云的不同表示方式,又可細分為三種方法:基于原始點云、基于點云投影及基于點云體素化的三維目標檢測方法。
(1)基于原始點云的方法,主要使用PointNet[10]系列方法直接對點云進行處理,學習點云的特征并完成分類和三維邊界框的估計,例如PointRCNN(point region convolutional neural network)[11]、3DSSD(3D single stage object detector)[12]等。這些基于原始點云進行三維目標檢測的方法,能夠最大程度保留物體在三維空間中的位置信息,但往往計算量較大且運行速度較慢。
(2)基于點云投影的方法,典型的方法有3D FCN(3D fully convolutional network)[13]、RT3D(real time 3D detection)[14]等。該類方法通過將點云投影為不同角度的二維視圖,再利用成熟的二維目標檢測網絡實現目標檢測,但投影操作不可避免地會丟失點云的高度信息,導致檢測準確率降低。
(3)基于點云體素化的方法,例如VoxelNet[15]、SECOND(sparsely embedded convolutional detection)[16]等,將無序的點云數據組織成有序的體素表達形式,并應用三維卷積網絡提取體素特征實現三維目標檢測。體素的表達保留了點云的形狀信息,并能有效地提升網絡的處理速度,但點云體素化過程會存在量化誤差,當點云分布不均時,容易存在大量的空體素,增加計算量。
基于視覺的方法只提供圖像的紋理信息,缺乏深度信息;而基于激光點云的方法提供了空間幾何信息,但缺乏紋理信息。紋理信息有助于目標的檢測與分類,而深度信息能為目標的空間位置估計提供幫助。同時使用圖像和激光點云等數據,通過融合的方案來提升整體的性能,也是三維目標檢測方法中的一個研究熱點。基于圖像與點云融合的三維目標檢測方法,典型的有MVX-Net(multimodal VoxelNet detection)[17]、MV3D(multi-view 3D detection)[18]等。該類方法充分利用顏色、紋理等底層特征,融合視覺的紋理信息與點云的空間幾何信息,實現高精度的目標檢測。
當前基于激光點云的三維目標檢測方法已逐漸成熟,但仍存在著各種問題,如只專注于提高單一數據集的檢測精度,沒有充分考慮模型的泛化能力,點云數據被遮擋與截斷,點云與視覺信息對齊等問題。因此,基于激光點云的三維目標檢測仍具有挑戰性。
目前已有相關綜述對三維目標檢測方法進行了梳理總結[19-22]。文獻[19]的綜述工作涵蓋了與點云相關的多種任務,如三維形狀分類、三維目標檢測和三維分割;文獻[20]首先對二維目標檢測進行概述,隨后對具有代表性和開創性的三維目標檢測算法進行比較和總結;文獻[21]對交通場景下的目標檢測算法做了較為詳盡的綜述,其中涵蓋了二維、三維以及多模態的目標檢測算法;文獻[22]以自動駕駛應用為背景,對三維目標檢測中基于單目、基于點云和基于多模態方法進行了綜述。但現有針對激光點云的三維目標檢測方法的討論與分析工作還有待完善,對未來發展趨勢的展望還有待補充。因此,本文在前人綜述工作的基礎上進行了整合與完善,并對近年來提出的基于激光點云的三維目標檢測方法進行系統的總結與梳理。首先根據輸入網絡的數據形式對基于激光點云的三維目標檢測方法進行分類,并對各類方法進行了詳細的闡述。根據最近提出的新方法將基于多模態融合的方法細分為點云與視圖、體素與視圖、點云與體素三種融合方式。其次對目前主流的三維目標檢測數據集及評價指標進行介紹。接著對當前激光點云的三維目標檢測算法進行討論分析。最后指出目前三維目標檢測算法存在的不足,并對未來的發展趨勢進行了展望。
本文將三維目標檢測方法按照輸入網絡的數據形式,劃分為四個類別:基于原始點云、基于點云投影、基于點云體素化以及基于多模態融合的檢測方法。然后對各類方法脈絡進行梳理,并分析三維目標檢測方法的優缺點。基于激光點云的三維目標檢測算法詳細分類如圖1所示。

圖1 基于激光點云的三維目標檢測方法Fig.1 3D object detection methods based on LiDAR point cloud
使用激光雷達掃描場景獲得的點云數據稱為激光點云。激光點云數據中包含點的三維坐標及反射強度,蘊含著豐富的幾何信息。然而使用手工特征編碼的方式來編碼點云,難以提取出物體有效的幾何信息。又由于激光點云的無序性質,使其無法與二維圖像一樣使用卷積神經網絡來學習特征。2017 年,Qi等[10]開創性地提出了直接處理點云數據的神經網絡模型PointNet。該模型使用多層感知機(multi-layer perceptron,MLP)學習點云的空間特征,并使用最大池化來解決點云的無序性問題,但存在局部特征表達能力不足的缺陷。同年,Qi等[23]對PointNet進行了改進,提出一種新的網絡模型PointNet++。該網絡添加點云局部特征提取模塊,增加了網絡模型的魯棒性。實驗證明PointNet、PointNet++能有效學習到點云的特征,開拓了基于原始點云的三維目標檢測新方法。
得益于PointNet、PointNet++對點云特征的有效提取,Shi 等[11]提出了直接使用點云數據進行檢測的網絡模型PointRCNN。該方法分為兩個階段:第一階段,將輸入的原始點云使用PointNet++分割為前景點和背景點,并在前景點上生成三維建議框;第二階段,融合點云的語義特征和局部空間特征,回歸得到高質量的三維邊界框。通過兩個階段的處理,進一步提高了檢測的精度,但需要消耗更多的計算成本。針對回歸框計算量大的難題,Yang 等[24]提出了球形錨框的建議框生成方法,同時,引入點池化層對區域內無序的點云有序化,使該層能高效地學習點云特征,從而減少了計算量并實現了較高的召回率。
雖然PointNet、PointNet++能夠有效地學習點云特征,但對目標的尺寸感知較弱,進而影響預測框的回歸。Li 等[25]提出加入邊界距離特征及虛點特征來增強原有PointNet 的性能。邊界距離特征即候選框內的點到框邊的歸一化距離;而虛點特征即在候選框邊界上生成固定數量的點,并計算框內點到虛點的距離。這兩種特征能夠提高網絡對目標尺寸的感知能力,使預測框回歸更精準。針對PointNet++中特征傳播(feature propagation,FP)層耗時的問題,2020年,Yang 等[12]舍棄了FP 層以及修正階段,如圖2 所示,通過特征最遠點采樣(feature-farthest point sampling,F-FPS)獲取更多的前景點,并將采樣到的點在監督學習下向目標中心點進行偏移,最后完成預測框的回歸與目標類別的分類。該算法的推理速度在同類方法[11]中有顯著提升。同樣的,Chen等[26]受采樣策略的啟發,提出了基于點云語義引導的最遠點采樣(semantics-guided farthest point sampling,S-FPS)。該采樣方法對點云進行前景點分割,并將分割的分數作為權重加入到最遠點采樣中。其采樣結果在不同的點云輸入順序下會保持穩定,相比于F-FPS具有更高的魯棒性。然而使用最遠點采樣會消耗較多的內存與計算成本,Zhang等[27]提出了實例感知的分層采樣策略。該采樣策略不僅能采樣到更多的前景點,還能明顯提高檢測的速度。Zheng等[28]為了進一步提高識別準確率以及算法運行速度,提出了網絡模型SE-SSD(self-ensembling single-stage object detector)。該網絡受Tarvainen 等[29]的啟發,設計了教師、學生網絡。教師網絡用于產生軟目標信息,而學生網絡利用軟目標進行監督訓練。為了實現更大的檢測范圍,學生網絡還使用了形狀感知的策略,增強其訓練樣本。實驗結果表明,該算法的運行速度比大部分一階段算法[12,16,30-31]要快,且檢測精度超越大部分二階段算法[11,32-33]。

圖2 3DSSD框架圖Fig.2 3DSSD framework diagram
為了進一步提升檢測的精度,研究人員對點云中存在的幾何關系進行了深入的研究。點云由于其特有的性質容易構成圖,近年來應用圖神經網絡探究點云的幾何關系也是研究的熱點。2020 年,Shi 等[34]提出了基于圖神經網絡的模型Point-GNN(point graph neural network)。該方法首先將原始點云構建成圖表示,學習圖中邊與頂點的特征,并預測圖中每個頂點所屬的對象類別和邊界框。其次,引入一種自動校準機制來減少頂點平移時帶來的影響。最后,使用改進的非極大值抑制操作對邊界框進行評分及合并操作。該方法取得了不錯的識別準確率,但對遠處點云稀疏區域和點云遮擋區域的識別較差。Zhang 等[35]使用點云補全的方法來解決遠處目標稀疏的難題。該方法對候選框內的點云進行補全得到稠密的點云以及完整的三維形狀,并通過局部-全局注意力機制以及多尺度圖的上下文融合來捕捉點云之間聯系。最后依賴補全增強編碼特征,獲得了遠距離稀疏點云的目標預測框。
針對目標檢測中的非極大值抑制操作,傳統做法是將分類置信度作為抑制標準。Zhu 等[36]提出使用交并比(intersection over union,IoU)作為抑制條件比使用分類置信度更合適。基于這種思想,Li等[37]提出了三維交并比(3D IoU)來提高檢測的精度。該方法首先使用角點注意力聚集模塊學習每個目標的透視不變性特征,并使用角點幾何編碼模塊對候選框編碼,旨在產生IoU 建議,該IoU 信息作為非極大值抑制的條件用于后處理。雖然該方法在KITTI 數據集[38]上表現出不錯的檢測精度,但還存在計算量大從而影響算法實時性的問題。因此,Zhou 等[39]提出了不需要非極大值抑制操作的網絡模型SE-RCNN(selfenhanced RCNN),使用空間嵌入策略聚集實例的中心點,并對每個聚類簇生成三維建議框,因此省略了非極大值抑制操作,有效地減少了計算量。
此外,實現三維目標檢測任務需要大量的標注數據集,而在三維場景中對目標進行標注需要耗費大量的成本,并且存在場景受限的問題。近年來,出現了弱監督學習,它是減少數據集標注量的有效途徑。2020 年,Meng 等[40]率先提出了弱監督的三維目標檢測網絡WS3D(weakly supervised 3D)。該網絡首先使用弱標注的鳥瞰圖數據,并在此弱標注的基礎上生成圓柱形候選框。該方法能以較低的標注數據量達到與全監督網絡相近的效果,但還是需要少量準確的三維標注。同年,Qin 等[41]提出了無需三維標注的檢測網絡VS3D(visual supervised 3D)。該網絡使用預先訓練好的圖像檢測網絡作為媒介,將無監督模塊生成的三維建議框投影到圖像上,利用圖像的檢測結果對三維目標檢測網絡進行監督學習。雖然該方法利用了成熟的二維圖像網絡,但性能與全監督網絡相比差距較大。類似的,Wei等[42]也提出了不需要三維標注的弱監督網絡FGR(frustumaware geometric reasoning)。該網絡基于二維目標檢測結果對三維點云進行分割操作,利用關鍵頂點和關鍵邊與截錐體相交的條件來生成偽三維標簽,并通過偽標簽來進行監督學習,該方法在性能上可以達到全監督網絡的水平。上述的弱監督三維目標檢測方法主要應用于室外場景,針對室內場景的弱監督三維目標檢測,Xu 等[43]提出了BR(back to reality)的方法。該方法利用合成的三維形狀將弱標注標簽轉換為虛擬場景下的全標注標簽,并利用虛擬標簽對真實標簽進行補充與細化,最后對網絡進行輔助監督訓練。該方法只需要5%的標注量,就能達到與全監督方法相當的性能水平。
基于點云投影的三維目標檢測方法,通常將點云進行投影,投影視圖分為前視圖(front-view,FV)、鳥瞰圖(bird's eye-view,BEV)以及范圍圖(range-view,RV)。將點云投影成視圖的表達形式,并遷移成熟的二維圖像深度學習網絡模型來學習和提取投影視圖的特征,完成三維目標檢測,已經成為三維目標檢測中的一個研究方向。
2016 年,Li 等[44]作為先驅者,提出使用二維卷積網絡來完成三維目標檢測任務。該方法首先將點云投影成前視圖,隨后利用卷積網絡預測目標的置信度以及邊界框。該方法是早期使用投影來實現三維目標檢測的研究,具有深遠的意義。針對區域建議網絡中感興趣區域(region of interest,RoI)池化操作耗時問題,Zeng 等[14]提出Pre-RoI pooling convolution結構來改變操作順序,其結構如圖3 所示,將卷積操作放在RoI 池化之前,對所有RoI 進行一次性卷積,減少運算時間,但會存在分類及定位準確率下降的問題。為此,作者提出改進方案,對RoI 分別提取特征,并將若干區域特征進行拼接以完成預測框的準確回歸。類似的,Yang 等[45]提出了PIXOR(oriented from pixel-wise)網絡模型。該網絡將鳥瞰圖作為輸入,引用殘差網絡提取圖像特征,并使用兩個網絡分支分別完成目標識別和定位的任務,在鳥瞰圖上生成目標邊界框。該方法的平均精度優于此前的方法[44]。除了將點云投影為鳥瞰圖和前視圖以外,針對點云的稀疏性,一些學者提出了范圍圖。2019 年,Meyer 等[46]將點云投影到范圍圖,并且每個像素采用五維編碼輸入到二維骨干網絡提取特征,對每個特征像素都預測類別概率并進行分組,并給出目標建議框。該方法的實驗效果證明了范圍圖的有效性。然而范圍圖也存在的尺度變化及遮擋的問題。Liang等[47]提出膨脹殘差塊來減少尺度帶來的影響,其網絡結構是將膨脹卷積插入到標準的殘差塊中,使網絡能學習到目標的不同尺度特征。而針對遮擋的難題,提出將特征從范圍圖轉移到鳥瞰圖的方法,在鳥瞰圖上生成區域建議,一定程度上避免了尺度變化以及遮擋的問題。范圍圖是通過點云的空間坐標系轉換得到的,因此范圍圖數據蘊含著三維空間中的幾何信息。Chai 等[48]提出一種可以獲取三維幾何信息的二維卷積網絡模型,其中使用自注意力機制核、PointNet核、邊緣卷積核三種核,來替代傳統的二維卷積核。該網絡模型的參數量比流行的網絡模型PointPillar[49]少99.4%,具有較高的目標檢測效率。2021年,Fan等[50]也在卷積核上入手,提出了基于范圍圖的網絡模型RangeDet(range view detection)。該網絡采用了一種新的卷積方式Meta-Kernel,其操作細節如圖4所示。

圖3 Pre-RoI pooling convolution示意圖Fig.3 Pre-RoI pooling convolution schematic diagram

圖4 Meta-Kernel卷積操作示意圖Fig.4 Meta-Kernel convolution schematic diagram
Meta-Kernel利用范圍圖像素與空間中點的對應關系,使用MLP學習空間中點的權重,最終得到卷積輸出。這充分考慮了范圍圖中含有的幾何信息,有助于高效特征提取。Sun 等[51]針對大范圍的目標檢測需要,使用金字塔結構提取范圍圖的特征,并對前景點進行分割,利用改進的CenterNet[52]網絡完成目標的回歸預測。同時,作者還將一系列時序不變的范圍圖作為輸入,以減少激光雷達自運動的影響。然而這些基于范圍圖的檢測網絡往往只關注單幀點云的處理。Tian等[53]針對多幀的點云的輸入,提出了多回合范圍圖投影機制。該機制將每一幀點云的范圍圖投影在通道上進行拼接組合,解決了多幀點云投影時發生的重疊問題,并通過模態卷積有效學習范圍圖通道上的多幀點云投影特征。該方法彌補了多幀點云投影的空白,并為后續點云投影方式的研究提供了思路。
基于點云體素化的三維目標檢測方法,是首先對點云進行體素化的表達,然后進行三維目標檢測的一類方法。體素化能夠很好地解決點云自身的無序性,對于有序的體素數據,可以采用三維卷積,并對體素數據進行特征提取及學習。
2017年,Engelcke等[54]首次在三維數據上利用稀疏卷積,提出了Vote3Deep網絡模型。該網絡將點云體素化后使用手工特征的方式進行編碼,并借鑒了Vote3D[55]的思路,對稀疏卷積層使用投票的策略提取其體素的特征。該方法為后續的研究工作提供了思路,但手工編碼體素的方式無法有效表達點云的幾何特征。針對此問題,Zhou 等[15]提出了端到端的網絡模型VoxelNet,使用體素特征編碼網絡代替手工編碼特征,其結構如圖5 所示,體素特征編碼網絡融合學習體素格的逐點特征和局部特征,并將特征輸入到區域建議網絡生成三維目標邊界框,能實現較好的檢測效果,但推理階段實時性較差。

圖5 體素特征編碼網絡Fig.5 Voxel feature encoding network
2018年,Yan等[16]為了提高三維卷積網絡的運算效率,受三維空間的稀疏性以及子流形卷積的啟發,提出了一種高效的網絡模型SECOND。該算法通過改進的稀疏卷積提取體素的高維鳥瞰圖特征,并將鳥瞰圖特征輸入到區域建議網絡(region proposal net-works,RPN)中生成候選框。該算法由于采用改進的稀疏卷積,運算速度較快,在后續的研究中被廣泛使用。
針對體素化過程存在量化誤差以及包含三維幾何信息能力有限的難題,He 等[30]設計了一種利用點云結構信息提升定位精度的方法,通過引入輔助網絡,使骨干網絡在特征提取時更加關注點云的結構信息。針對一階段的算法預測邊界框與分類置信度不匹配的問題,該算法又引入了局部感知操作,將預測框與分類置信度對齊,進一步提升檢測精度。同樣的,Tian等[56]提出了一種感知點云上下文信息的網絡模型CADNet(context-aware dynamic network),通過語義上下文信息捕捉點云密度的變化,使用可分解的動態卷積來學習局部語義上下文特征。該網絡對目標點云的密度變化具有較強的魯棒性。在利用標簽數據提高檢測的精度方面,Shi 等[33]提出了利用標簽內部信息來完成檢測的網絡模型Part-A2net(partaware and part-aggregation network)。該網絡分為局部感知和局部聚合階段兩個階段。第一階段,使用稀疏卷積對體素進行特征提取,并結合標注框的局部位置以及前景信息生成高質量的建議框。第二階段,對RoI 池化特征與局部體素特征進行融合,最后基于融合特征對候選框進行修正操作。該網絡在檢測準確率上有明顯提升。
由于點云稀疏和易受噪聲干擾的特性,如何有效地編碼點云信息,進而增強體素特征仍然是有待研究的問題。2020年,Zhu等[57]提出了一種新型的三維形狀特征編碼方式。該方法首先通過對稱補齊、凸包計算以及切比雪夫擬合操作,獲到點云的形狀編碼特征,然后根據形狀編碼特征對相似的形狀進行組合。該方法在NuScenes數據集[58]上取得了不錯的識別效果。Lang等[49]提出了基于柱體的點云編碼方法。該方法首先使用若干個柱體對點云進行劃分,其次提取每個柱體內的點云特征并將其編碼成偽圖像,最后在偽圖像上回歸目標預測框。該方法不僅能實現較快的運行速度,并且其準確率能與SECOND[16]相匹敵。為了緩解噪聲對算法的干擾,Liu 等[31]提出了單階段的三維目標檢測網絡TANet(triple attention network)。該網絡使用三個注意力模塊增強目標的關鍵信息,同時抑制不穩定的點云。并且采用粗到細的回歸模型,在不增加計算開銷的情況下提高了定位精度。
受二維目標檢測中無錨框檢測器CenterNet[52]的啟發,在三維目標檢測中使用無錨框的方法可以有效地減少計算量,進一步提高算法的實時性能。2020年,Chen等[59]提出了無錨框的網絡模型Hotspots。該方法將目標框內的非空體素稱為熱點,并將每個熱點分配到合適的類中。這種處理方式能夠有效地對物體的三維形狀和幾何信息進行編碼,并對點云數量較少的目標也具有良好的檢測效果和實時性。PointPillar[49]驗證了在偽圖像上進行三維目標檢測的有效性,因此可以結合CenterNet 中將物體視作為中心點的概念,將三維目標視作在偽圖像下的一個中心點。基于這種思想,Ge 等[60]也提出了無錨框的網絡模型AFDet(anchor free detection)。該算法首先使用PointPillar 作為骨干網絡,將點云轉換成偽圖像。其次對偽圖像特征分別回歸目標中心、目標中心偏移、目標z軸位置、三維邊界框大小以及方向五個特征。最后對于每一個目標,預測一個三維邊界框。該算法不需要使用非極大值抑制操作,減少了運算量。類似的,2021年Yin等[61]也提出了一種無錨框的方法CenterPoint。該方法也使用PointPillar作為骨干網絡來對點云進行偽圖像編碼操作,不同的是,CenterPoint使用高斯核散射來生成熱值中心圖,并且在熱值中心圖上回歸目標中心、目標z軸位置、三維預測框大小以及方向。實驗結果表明,該方法在兩大數據集Waymo[62]、NuScenes[58]上能達到最佳的準確率。針對物體中心點可能會出現遠離目標邊界,產生三維目標框偏差的問題,Wang 等[63]引入輔助角注意力模塊來預測物體角點。該方法使骨干網絡更關注目標的邊界,讓生成的中心熱值特征更具代表性且回歸的預測框更精準。
由于存在空間遮擋以及在不同距離下點密度變化較大的問題,Kuang 等[64]提出Voxel-FPN 網絡。該網絡首先利用多尺度分割點云數據,隨后分別使用VEFFPN(voxel feature encoding-feature pyramid networks)及RPN-FPN(region proposal network-feature pyramid networks)提取并集成不同尺度的體素特征,以抵擋點密度變化大的問題。類似的,Hu 等[65]提出點密度感知體素網絡(point density-aware voxels,PDV)來捕捉點云密度的變化。PDV通過體素點質心定位體素特征,并通過密度感知RoI網格池化模塊聚合空間局部體素特征,實現對密度變化的有效感知。而Ye等[66]針對體素格尺寸參數選擇的問題,設計了混合尺度體素網絡(hybrid voxel network,HVNet)。該方法將混合尺度體素中的點聚合到全局上下文中,并投影到動態目標尺度的特征上。該方法避免了體素尺寸參數選擇難的問題,且能實現較高的識別準確率與運行速度。
通常三維目標檢測算法將目標定位以及分類視為兩個單獨的任務,因此會出現定位準確度和分類置信度不匹配的情況。Zheng 等[67]提出了CIA-SSD(confident IoU-aware single stage detector)網絡模型。該算法設計輕量的空間語義特征聚合模塊自適應地融合高層語義及底層空間特征,使用IoU感知置信度修正模塊對預測進行修正,實現準確預測邊界框以及分類置信度。最后使用基于多距離IoU 加權的非極大值抑制獲得預測框。許多基于體素的方法都參考二維檢測的下采樣操作,而Fan等[68]認為下采樣對于三維場景并不適用,并提出了單步長的網絡模型SST(single stride transformer)。借鑒Transformer 架構,他們還提出了稀疏區域注意模塊來解決單步長網絡感受野不足的情況,且與點云的稀疏特性很好地配合,避免了過高的計算消耗。該方法在所有單階段檢測算法中實現了最佳性能。
基于激光點云不同表示形式的三維目標檢測方法各有優劣,單一類型數據難以實現精確高效的檢測。為此,將具有互補特性的多種數據進行融合以增強感知能力,成為新興的研究主題。
1.4.1 點云與視圖融合
基于視圖的方法可以獲取顏色、紋理信息,但較難從視圖直接獲取空間中目標的幾何信息;而基于點云的方法可以獲取空間中目標的幾何信息,但缺乏視圖所擁有的顏色、紋理信息。紋理、顏色信息有助于對目標的檢測與分類,而空間幾何信息對于目標的準確定位有著至關重要的作用。因此一些三維目標檢測方法通過視圖、點云融合的方案來提高整體的檢測性能。
2017 年,Chen 等[18]率先提出了多模態數據融合的網絡模型MV3D。如圖6 所示,該網絡以鳥瞰圖、前景圖、RGB圖像作為輸入源,使用多個分支的卷積神經網絡分別提取特征圖,并利用鳥瞰圖特征生成一系列精準的候選框,隨后將候選框投影到各個視圖的特征圖中。多個分支聚合特征的融合策略能有效融合不同層次的特征,有助于提高網絡的檢測性能。然而僅在鳥瞰圖上進行區域建議框的生成只對某些類別的目標有效,對于尺寸較小的物體就很難體現其檢測效果。Ku等[69]提出了一種對不同模態數據進行早融合的網絡模型AVOD(aggregation view object detection)。不同于MV3D,在AVOD的區域建議網絡中,輸入源是RGB 圖像與鳥瞰圖。由于同時使用RGB 圖像特征和鳥瞰圖特征,對行人和自行車類別的檢測效果有明顯提高。而Xu等[70]提出將點云全局特征及圖像特征進行拼接,并在此基礎上預測三維邊界框的8 個頂點及其偏移量。該方法對尺寸較小物體的檢測效果有所提高。
為了使RGB圖像與點云更好地融合,2018年,Qi等[71]提出使用視錐體的方法來進行檢測。該方法首先在圖像上生成二維的區域候選框,并結合深度圖在原始的點云數據上生成視錐體區域建議。最后使用PointNet 在視錐體候選區域中進行目標分割以及預測框的回歸。但該方法對前景點分割效果的好壞比較敏感。Wang 等[72]針對此缺點,提出了基于滑動視錐體的網絡模型Frustum ConvNet。不同之處在于,該方法對每個二維建議框都沿視錐軸方向生成視錐體序列。實驗結果表明,該方法的檢測精度相較于Frustum PointNets 有進一步的提升。為避免圖像投影的空間信息損失,Liang等[73]提出了將RGB圖像特征投影到鳥瞰圖中的方法。受深度參數連續卷積[74]的啟發,使用多層感知機作為連續卷積的參數化核函數,提取與鳥瞰圖像素對應的點云特征,并與RGB 圖像特征在不同尺度下進行融合,能有效避免空間信息的丟失。Xie 等[75]沿用了連續卷積的思路,提出了注意連續卷積來融合點云與RGB 圖像,通過相機標定參數可以找到點云對應圖像中的語義特征,再結合點云的幾何特征,使用注意連續卷積來進行特征的融合。該方法還能有效避免視角差異及量化誤差帶來的特征表達能力不足的問題。而Huang等[76]則提出LI-Fusion 模塊,自適應地估計點云與圖像語義信息的相關程度,建立原始點云與圖像之間的關系,相關度大的語義特征用以增強點特征的提取。同樣為了建立點云與圖像的關系,2020 年Vora等[77]提出了PointPainting 網絡模型。該網絡將點云投影到圖像語義分割網絡中,并將類別分數附加到每個點上作為信息的增強。該增強的點云對各類檢測算法的識別效果均有提高。盡管PointPainting 有突破性的改進,但Wang 等[78]認為圖像的高維特征比分割分數更適合與點云融合,并提出了跨模態的網絡模型PointAugmenting。該網絡首先將點云投影到圖像上,并附加點云特征,隨后在CenterPoint[61]的基礎上添加了圖像特征的處理,將圖像及點云特征轉換為鳥瞰圖表示并進行特征融合。該方法在NuScenes 數據集上測試,其平均準確率比最佳的方法CenterPoint高出了6.5%。2022年,Zhang等[79]借助了Transformer 思想,提出針對多模態的對比增強Transformer 網絡模型CAT-Det(contrastively augmented transformer detection)。該網絡采用Pointformer與Imageformer雙分支編碼點云與視圖模式內的長距離上下文特征,并通過跨模態Transformer 模塊融合點云與視圖模式間的特征,以實現多模態信息的充分融合。除了使用RGB 圖像,Gu 等[80]提出了點云與范圍圖融合的高效檢測網絡CVFNet(cross view features network)。該網絡通過堆疊點-范圍特征融合模塊對點云及范圍圖進行充分的特征融合,并將融合特征組織成偽圖像的形式實現檢測。該方法在精度與速度上有較大的提升。
單一模態的方法往往較難解決遠處點云稀疏以及目標尺度變化大所帶來的影響,基于此問題,Zhao等[81]提出了尺度不變和特征加權網絡(scale invariant feature reweighting network,SIFRNet)。該網絡利用前視圖以及視錐體內點云作為輸入,并通過實例分割網絡及點云變換網絡分別學習不同方向的信息及點云旋轉帶來的全局特征變化。Lu 等[82]提出了空間通道注意力網絡(spatial channel attention network,SCANet)來應對尺度的變化。該網絡通過引入空間通道注意力模塊來獲取場景中全局和多尺度信息。他們也提出了一種擴展空間上采樣模塊,通過結合多尺度低維特征獲取具有豐富空間信息的高維特征,從而生成可靠的三維建議框。
對于點云稀疏的區域,一些融合方法[15-16,66-67]會因此受到限制,導致融合效果較差。Liang 等[83]提出了一種多任務的融合網絡MMF(multi-task multi-sensor fusion)。該網絡通過地面估計和深度補全來生成密集的偽點云,并建立點云與視圖特征之間的密集對應關系,實現準確的跨模態特征表示。實驗結果表明,該方法對點云稀疏區域的識別準確率提升明顯。
1.4.2 體素與視圖融合
將體素化的點云與視圖結合,可以有效地解決點云體素化時出現的量化誤差問題。2020 年,Zhou等[84]提出了鳥瞰圖結合透視圖進行動態體素化的方法和多視圖融合的網絡模型MVF(multi-view versatile framework),通過將鳥瞰圖和透視圖動態體素化,建立點與體素之間的雙向映射。多視圖融合結構使得每個點從不同視角融合上下文信息,從而提高了檢測的精度。受MVF啟發,Wang等[85]提出了使用點云兩種表達的方法。該方法通過柱面坐標系對點云進行投影,目的是消除透視畸變效應。為了緩解空間混淆效應,使用雙線性插值方法將在視圖中學習到的特征投影回點中。最后該算法使用一個高效的無錨框網絡取代MVF 中基于錨框的區域建議網絡,算法性能比MVF 有明顯優勢。2022 年,Fazlali 等[86]提出一種多任務框架,通過在范圍圖上完成全景分割,增強了體素化后投影在鳥瞰平面上的特征,彌補了投影視圖的缺點,也進一步結合前景語義信息簡化了檢測任務。
1.4.3 點云與體素融合
基于體素的方法計算效率高,但會丟失信息,導致定位精度差,而基于點的方法雖然計算消耗大,但可以獲取較大的感受野,兩類算法正好互補。2020年,Shi等[32]結合了點云與體素的優點,提出了一種高性能的網絡模型PV-RCNN(point voxel-region convolutional neural network)。該網絡主要分為兩個階段:第一階段,對體素化的點云學習多尺度特征并生成三維候選框;第二階段,通過體素集抽取模塊,將各個神經層的特征連接起來并總結成關鍵點信息,利用關鍵點修正建議框,獲得三維目標預測。由于該算法在各大數據集都能獲得不錯的性能,成為了后續各類算法對比的基線網絡。為了進一步提高實時性,2021 年,Noh 等[87]提出了融合體素與點云的單階段網絡,與PV-RCNN 不同的是,其點云特征是引入一個預先存儲好點云原型特征的模塊,并在訓練階段根據當前點云特征與原型特征的相似情況,對模塊的原型特征進行動態的更新,這減少了在推理階段所消耗的時間。Miao等[88]指出圖像中上下文信息主要出現在物體的邊界和內部,而在點云中主要分布在目標邊界。為了有效提取目標邊界,Miao 等提出了基于點云、體素、網格特征融合的單階段網絡PVGNet(point voxel grid network)。該網絡使用一個統一的骨干網絡提取點云、體素以及網格級別的特征,這有助于保留點云中物體的輪廓點。而Qian等[89]提出在候選框之間進行交互迭代,使用由粗到細的方式,在候選框內構造局部鄰域圖實現對邊界的感知。
1.5.1 基于原始點云的檢測方法
基于原始點云的檢測方法,多數基于PointNet、PointNet++網絡模型直接對點云進行特征的學習,并利用學習到的特征完成對點的分類以及邊界框的回歸估計任務。表1 對基于原始點云的方法進行了分析與總結。從表中的總結可以看出,基于原始點云的方法通常在點云采樣及點云特征的學習兩方面進行改進。這兩方面也是限制該類算法檢測性能的主要原因:增加點云的采樣數量可以增強對目標的表征,但會帶來計算上的消耗;使用圖、注意力機制等操作可以增強對點云間幾何關系的學習,但要考慮算法整體的運行效率。由于激光雷達掃描得到的點云存在分布不均的情況,往往會導致點云密度高的區域存在過采樣,而稀疏的區域存在欠采樣的現象,因此點云采樣是基于原始點云方法處理流程中的關鍵一步。并且當前的點云采樣算法難以做到高度的并行處理,對算法的實時性會產生較大影響。如何以較低的計算復雜度對整個場景做到均勻采樣,還需要進行深入的研究。而對于采樣點之間的特征學習,在不影響整體算法運行效率的情況下,如何有效地挖掘點云之間的幾何關系還有待更多地探索。

表1 基于原始點云方法的分析與總結Table 1 Analysis and summary of methods based on point cloud
此外,當前的三維目標檢測框架大多是完全監督的學習方式,需要依賴于大量的手工標注數據,與二維圖像數據相比,對三維場景中的目標進行標注需要耗費大量的時間。借鑒弱監督學習在二維圖像領域的應用,在三維目標檢測中使用弱監督學習可以有效減少標注三維標簽的成本。表2 對基于點云的弱監督三維目標檢測算法進行了分析與總結。

表2 基于點云的弱監督方法分析與總結Table 2 Analysis and summary of weakly supervised methods based on point cloud
雖然WS3D 使用少量精準的三維標注和二維標注能實現有競爭力的性能效果,但依然需要使用三維標注信息。而VS3D、FGR都只通過二維標注來實現弱監督,但這兩種方法的效果依賴于二維檢測器的性能。BR對室內的弱監督三維目標檢測算法做了初步的探索,但所能支持的目標類別有限,并不能滿足實際場景識別的要求。因此,如何使用弱監督學習的方法高效地對三維場景進行標注,還需要深入地探索。
1.5.2 基于點云投影的檢測方法
一般的,基于點云投影的方法往往使用卷積神經網絡框架對投影視圖進行處理以獲得投影特征,然后通過尺寸先驗條件回歸生成三維邊界框。表3對基于點云投影的方法進行了分析與總結。將點云投影成前視圖雖然能大大減少計算的消耗,但在識別的準確率上卻不盡如人意,主要是因為前視圖并不能反映物體的真實尺度,給物體的準確定位帶來的困難。而將點云投影為鳥瞰圖僅壓縮了空間的高度信息,雖然對目標的定位影響較小,但由于激光點云的稀疏性質,小目標在鳥瞰圖上難以被檢測。近年來越來越多基于點云投影的方法都聚焦于對范圍圖的處理,范圍圖是一種密集的二維表示,其中每個像素包含著三維距離信息,一定程度上保留了空間幾何信息。然而使用傳統卷積操作無法有效地提取范圍圖中的空間幾何信息,如何使用新的算子有效提取范圍圖中的空間幾何信息還有待更多地研究。并且在范圍圖上進行目標檢測也會受到遮擋和尺度變化的影響,因此提取范圍圖特征并在鳥瞰圖上進行目標檢測也會是未來有待研究的方向。

表3 基于點云投影方法的分析與總結Table 3 Analysis and summary of methods based on point cloud projection
1.5.3 基于點云體素化的檢測方法
基于點云體素化的檢測方法一般將點云離散成三維體素的形式,使用三維稀疏卷積網絡或全卷積網絡提取體素特征。表4 對該類方法進行了總結分析。點云體素化的劃分方式主要有體素與體柱兩種。體素劃分即在各軸上都進行劃分,其包含了更多的三維結構信息,但會占用較大的內存;而場景中的目標在高度上不會發生太大的變化,因此出現了體柱的劃分方式,體柱劃分只在x與y軸上進行劃分,并在后續的處理流程中容易轉換成二維的鳥瞰圖特征表達形式,節省了內存的占用。雖然使用體柱的劃分能使算法具有較高的效率,但簡單地使用二維空間來表示點云會丟失較多的三維結構信息。在體素化過程中,不可避免會引入量化的誤差,如何選擇合適的劃分尺寸是基于點云體素化方法的一個關鍵問題。較小的劃分單元意味著更高的分辨率,進而能保留更多的細節信息,但內存也會隨之增加。而由于激光點云的稀疏性質,點云體素化過程中會存在許多空體素,這會降低卷積處理的效率,導致更高的計算消耗。因此,如何高效地使用卷積神經網絡處理稀疏體素數據需要更多研究。此外,如何對體素中點的幾何信息進行有效的編碼也是該類方法未來的研究方向。

表4 基于點云體素化方法的分析與總結Table 4 Analysis and summary of methods based on point cloud voxelization
1.5.4 基于多模態融合的檢測方法
基于多模態融合的檢測方法可以分為點云與視圖、點云與體素、體素與視圖三種。大致的處理流程是使用多種數據融合的網絡架構處理不同的數據并生成三維邊界框。表5 對基于融合的方法進行了總結。點云與視圖融合,通常分為三類:早融合、中融合與晚融合。早融合即在輸入到融合網絡前,通過視圖信息對點云進行增強;中融合使用骨干網絡對點云與視圖進行特征提取,隨后將特征輸入到融合網絡中;晚融合則首先使用現有的檢測器對點云及視圖中的目標進行檢測,并對兩種檢測結果進行融合。早融合與晚融合的方式兼容性較好,可以適應大多數基于點云的檢測算法;中融合則利用不同模態之間的特征,實現模態間特征的交融。但早融合與晚融合需要加入二維目標檢測或語義分割網絡,因此會帶來更多的內存消耗;而中融合由于點云與視圖在數據上的差異,如何有效進行對齊融合還有待進一步研究。點云與體素融合,將無序的點云與有序的體素數據結合起來,既保留了點云中的形狀結構信息,又實現了高效的運算。然而在點云與體素特征的融合過程中,點云與體素的相互轉換操作會消耗大量的時間,并不利于實時的檢測。因此,減少點云與體素特征融合過程中的計算消耗是點云與體素融合的一個關鍵問題。體素與視圖融合,在對體素高效處理的基礎上加入視圖的特征。這種融合方法雖然具有較好的實時性,但二維視圖的引入并沒有在檢測性能上有較大的提升,如何使用視圖來補充點云體素化過程中丟失的信息,還需要更深入地探索。目前很難有效地對不同傳感器數據進行對齊和融合,如何有效地融合不同傳感器數據并能在時間和空間上進行對齊是不同模態間融合方法最關鍵的研究內容。而對于點云模態下不同表達之間的融合,仍需要探索各種表達的優勢以及如何高效地對各種表達進行有機的結合。

表5 基于多模態融合方法的分析與總結Table 5 Analysis and summary of methods based on multi-modal fusion
數據集對于深度學習算法研究是至關重要的,廣泛、完整和標準的數據集通常可以訓練出性能優異的深度學習模型。深度學習能夠取得快速發展的其中一個主要原因是建立在大量數據的基礎上。因此,本章重點介紹現有三維目標場景下的公開數據集,并給出三維目標檢測的評判指標。
KITTI 數據集[38]是目前三維目標檢測領域最常用的公開數據集之一。KITTI數據集包含了7 481個訓練數據和7 518個測試數據,其標簽將目標細分為“汽車”“行人”“自行車”等8 類,并提供每個類別的2D 標注框與3D 標注框。根據目標的大小、距離、遮擋情況,KITTI數據集將檢測難度分為簡單、中等、困難3個級別。
NuScenes 數據集[58]是由NuTonomy 與Scale 發布的大規模自動駕駛數據集。該數據集包含了激光點云數據、圖像數據以及毫米波雷達數據。NuScenes數據集由1 000 個場景組成,其中850 個場景作為訓練驗證集,另外150個場景作為測試集。每個場景長度為20 s,有40個關鍵幀,并對每個關鍵幀中的目標進行手工標注。NuScenes 數據集主要針對3D 目標檢測任務,共標注了道路場景下23類目標的3D檢測框信息,并且標注信息可實現與KITTI集標注格式間的轉換。相比于KITTI數據集,NuScenes數據集包含的數據規模更大,另外包含了白天、夜晚以及不同天氣、光照等更多場景狀況的應用。
Waymo開放數據集[62]由Waymo自動駕駛汽車在各種條件下收集的高分辨率傳感器數據組成,它與KITTI、NuScenes等數據集相比,在傳感器配置、數據集大小上都有很大的提升。Waymo數據集包含3 000段駕駛記錄,時長共16.7 h,平均每段長度約為20 s。整個數據集一共包含60 萬幀,共有大約2 500 萬個3D邊界框、2 200萬個2D邊界框。此外,在數據集多樣性上,Waymo也有很大的提升,該數據集涵蓋不同的天氣條件,包括白天、夜晚不同的時間段,市中心、郊區不同地點,行人、自行車等不同道路對象等。
判斷一個目標檢測模型的優劣,可以從以下三方面進行評估:目標檢測的速度、目標定位的精度和目標分類的精度。
(1)目標檢測的速度,通常采用每秒傳輸幀(frames per second,FPS)來評估,即每秒內可以處理的數據幀數量,FPS數值越大,檢測的實時性能越好。
(2)目標定位的精度,一般可以使用IoU來判斷,如式(1)所示,其主要是衡量模型生成的預測框與真實框之間的重疊程度。IoU 越接近1,其定位精度越好,反之越差。

(3)目標分類的精度,一般可以使用查準率(precision,P)、查全率(recall,R)以及平均準確率(average precision,AP)等評價指標進行評估。通過設置IoU 的閾值,可評估檢測結果中的真陽性(true positive,TP)、真陰性(true negative,TN)、假陽性(false positive,FP)、假陰性(false negative,FN),從而計算出模型的查準率P與查全率R,其計算公式如式(2)、(3)所示。

通過以查全率為橫坐標,查準率為縱坐標,即可繪制P-R曲線。通過對P-R曲線進行積分,可以得到平均準確率AP。為了簡化計算,KITTI 使用了基于40 個查全點插值的方法來計算平均準確率[90]。如式(4)所示,其中P代表插值點的查準率值。AP 越高,表示對該類的檢測精度越高,AP 可以衡量該模型對單類別檢測結果的精度。而對于多類別的整體精度表現,通常使用平均精度均值(mean average precision,mAP)衡量,即對所有類別的平均準確率進行平均。

在三維目標檢測任務中,雖然AP是用于衡量算法性能的主要指標,但其僅僅能衡量物體的檢測與定位精度,不能對檢測結果的方向進行衡量。基于此,KITTI數據集定義了一個新的指標——平均方向類似性(average orientation similarity,AOS),用于衡量預測框與真實框的航向角類似程度。AOS的計算方式與AP類似,如式(5)、(6)所示。

式中,r代表查全率,為方向相似性,其被定義為所有預測框與真實框余弦距離的歸一化。D(r)表示在查全率r下所有預測結果為正樣本的集合。表示預測框航向角與真實框之間的差。δi為懲罰項,為了防止多個預測框匹配到同一個真實框,如果檢出目標i已經匹配到真實框,則δi=1,反之,δi=0。
基于激光點云的三維目標檢測算法的檢測性能主要由第2章所介紹的數據集及評價指標來衡量,盡管會有不同的評價指標,但其中都包含對三維空間中目標的檢測精度及召回率。以下對基于不同模態的方法分別進行對比及詳細分析。
基于原始點云的方法通常使用PointNet、Point-Net++或者其改進方法作為骨干網絡提取點云的特征。二階段方法例如PointRCNN[11]、STD[24]、Point-GNN[34]、SE-RCNN[39],利用點云的高維特征進行前景點分割,并基于分割結果,在前景點生成三維建議框。對于建議框還需要進一步修正,其中STD 在修正階段將點云轉換成體素表達,一定程度上減少了推理時所消耗的時間。一階段方法如3DSSD[12],針對點云的特征提取網絡做出了改進,由于改進了網絡結構和只進行一次回歸,其運行速度較快。各種基于原始點云的方法在KITTI 測試集上的性能指標如表6所示,可以看出二階段方法的運行速度遜色于一階段方法,并且一階段與二階段方法之間的性能差距較小,近年來研究也偏向于一階段類型的方法。雖然部分方法沒有對所有類別進行完整的測試,但通過與其他方法的性能對比可知,基于原始點云的方法總體上在檢測準確率上與其他方法相比有較大的優勢,但在實時性方面總體不如基于體素和視圖的方法。

表6 基于原始點云方法的性能指標(KITTI數據集)Table 6 Performance of methods based on point cloud(KITTI dataset)
基于點云投影的方法是將點云數據通過相機的內部參數進行投影。投影為鳥瞰圖的方法如RT3D[14],這類方法使用手工特征生進行編碼,并利用二維目標檢測算法完成三維目標檢測,但僅在鳥瞰圖檢測任務上達到較為滿意的效果。
最近一些研究如LaserNet[46]、RangeRCNN[47]等,則是將點云投影為范圍圖。這種視圖蘊含著空間幾何信息,而使用傳統的卷積核較難學習到這種信息。多數方法都著手對卷積核進行改進,如Range-Det[50]、PPC[48]。除了鳥瞰圖在三維檢測任務的表現差強人意以外,對范圍圖的研究變得流行的另一個原因是Waymo、NuScenes 數據集的公開。這些數據集的點云數據較為密集,使范圍圖中的像素點帶有更多的信息,進而能獲得較好的檢測性能。表7、表8為基于點云投影的方法在兩種數據集上的性能指標。基于視圖的方法能實現較好的實時性能,但在準確率上不如其他方法,其主要原因是受尺度變化的影響。如何解決同一物體在圖像中具有的不同尺度,是一直以來基于視圖方法需要重點研究的問題。

表7 基于點云投影方法的性能指標(KITTI數據集)Table 7 Performance of methods based on point cloud projection(KITTI dataset)

表8 基于點云投影方法的性能指標(Waymo數據集)Table 8 Performance of methods based on point cloud projection(Waymo dataset)
基于體素的方法通常將點云數據按照固定的尺寸劃分,也有一些方法例如PointPillars[49]、Voxel-FPN[64]等不考慮對z軸的劃分。盡管劃分方式不同,體素化后的空間都由體素塊組成。在三維目標檢測中,較少使用二進制值以及手工制作的方式來表示體素特征,往往使用VoxelNet[15]提出的體素特征編碼網絡及其改進的方法。而更直接的方式是取體素內點云的平均值作為體素特征。三維卷積常常被用來提取體素的高維特征,而SECOND[16]提出的稀疏卷積的方式,因為其運算效率高而得到沿用。一些方法如HDNet[92]在體素劃分后,將其轉換為鳥瞰圖的形式,這些方法雖然能實現較快的運行速度并能在鳥瞰圖上達到較好的檢測性能,但對于三維空間的檢測表現較差。與之不同的是,多數方法在使用三維卷積后再進行鳥瞰圖的轉換,這種策略能夠在檢測性能與運行速度中達到一種平衡。由表9可以看出,單階段網絡框架方法的結果在精度和運行速度上都比較平衡。不僅在KITII數據集上進行方法的驗證,部分基于體素的方法也在Waymo 上進行了測試驗證,如表10所示。也有二階段網絡框架的方法如Part-A2[33]、Voxel R-CNN[93]等,通過修正網絡提取目標的三維形狀信息,用以結果修正,在增加較少推理時間的情況下,檢測性能有進一步的改善。

表9 基于點云體素化方法的性能指標(KITTI數據集)Table 9 Performance of methods based on point cloud voxelization(KITTI dataset)

表10 基于點云體素化方法的性能指標(Waymo數據集)Table 10 Performance of methods based on point cloud voxelization(Waymo dataset)
基于多模態融合的方法旨在對不同模態或同一模態的不同表示進行融合,以實現性能的提升。如MV3D[18]、F-PointNet[71]、AVOD[69]、PointFusion[70]等 方法,在點云數據的基礎上,結合圖像能提供的顏色、紋理信息等來提升檢測的性能,對于點云數量較少的目標以及遠處的目標有較好的識別效果。除了利用不同傳感器之間的信息,也有方法使用點云的不同模態進行檢測。如PV-RCNN[32]、HVPR[87]等,使用了原始點云及體素,旨在更有效地學習目標的三維結構信息。融合的方法根據融合在處理流程中的位置可以分為特征級融合和決策級融合。特征級融合即對各模態的特征進行融合,這種融合方式使用各模態豐富的中間特征,在網絡中實現多種模態的互補融合。但不同傳感器的數據會存在時空上的差別,且某些模態的高維特征會影響檢測網絡的性能,這也是一些多模態融合方法性能不及單模態的原因。而決策級融合使用各模態現有的檢測網絡,融合各模態下的結果并進行預測。與特征級融合相比,決策級融合網絡更容易構建,并且不需要考慮數據同步及對齊等問題,但其性能會受各模態檢測網絡的限制。基于多模態融合的方法在KITTI 數據集上的性能指標如表11所示。為了充分利用各模態信息,多模態融合的方法多數使用二階段網絡框架,然而這增加了運算成本,導致在實時性上不及大部分單模態算法。如何使用一階段網絡框架提升多模態融合方法的實時性能,還需要更多的研究工作。盡管融合了不同類型的數據,該類方法在識別準確率上并沒有比單模態方法要突出,主要原因在于不同數據間并沒有進行有效的對齊融合,如何有效融合各類數據還需要進一步地探索。

表11 基于多模態融合方法的性能指標(KITTI數據集)Table 11 Performance of methods based on multi-modal fusion(KITTI dataset)
對于三維目標檢測而言,檢測精度和運行速度是重要的指標。根據檢測方法的網絡框架,可以分為一階段與二階段方法。一階段、二階段方法在KITTI數據集中的平均檢測率及運行速度對比如圖7、圖8、圖9 所示。一階段方法往往具有良好的實時性。對汽車類別,二階段算法往往能達到較高的識別準確率。這是因為在同等距離下,汽車具有比其他類別更多的點云信息,而二階段網絡框架會充分利用這些信息對預測進行修正。但對于行人檢測,一階段及二階段方法都很難實現較高的平均準確率。其主要是因為行人的點云數量遠遠少于同等距離下汽車的點云數量,導致檢測器難以學習其結構特征。

圖7 “汽車”類別性能對比圖Fig.7 Performance comparison diagram of“Car”

圖8 “行人”類別性能對比圖Fig.8 Performance comparison diagram of“Pedestrian”

圖9 “自行車”類別性能對比圖Fig.9 Performance comparison diagram of“Cyclist”
通過各種模態方法的性能指標可以看出,2019年前的算法都在KITTI 數據集上進行了測試,由于Waymo、NuScenes數據集公開時間較晚,只有最近的一些工作在這兩種數據集上進行了測試。多數檢測算法只對數據集中的一類或兩類目標檢測效果較好,而對所有類別都較好的方法實時性較差,不適合實際的應用。一些方法僅在汽車類別上進行了性能驗證,導致不能直觀地體現方法對不同目標識別的有效性。由于各種新型數據集的出現,在不同的數據集上進行測試,可以對方法的有效性進行驗證。
盡管三維目標檢測取得了長足的進步,但當前三維目標檢測依然存在以下問題。
(1)融合方式和融合效率的問題。當前三維目標檢測不同模態的數據融合存在一定困難,不能充分地利用視覺語義以及點云空間信息。點云數據所表達的是物體在三維空間中的信息,其結構是無序的、不規則的,而視圖是通過將物理世界投影到二維的相機平面來記錄信息,其結構是有序的、規則的。由于數據的維度不一致,當需要融合兩個不同模態的數據時,不可避免地會發生誤差,其融合效率和融合方式都存在挑戰。目前基于深度學習的多模態融合三維目標檢測算法研究仍方興未艾,如何提高不同模態的融合效率并充分利用各模態數據的優勢,完成三維目標檢測仍需更進一步突破。
(2)目標被遮擋與截斷導致無法對其進行準確識別的難題。盡管一些算法能在一定程度上緩解點云被遮擋或截斷的問題,但仍存在著計算量大、網絡結構復雜等問題。因此,如何解決激光點云的遮擋與截斷問題,是基于激光點云的三維目標檢測方法進一步研究的重點。
(3)高質量的數據集數量有限且數據多樣性不足的問題。相比于二維目標檢測的數據集,三維目標檢測的數據集數量仍然很少。在采用數據增強方式解決數據集樣本偏少,提高神經網絡模型的泛化能力等方面,進展不明顯。同時,當前許多三維目標檢測的公開數據集,大多數都是在光照、天氣以及路況良好的條件下進行采集,數據集的多樣性不足。真實世界往往包含雨、霧、雪等能見度不高的天氣情況或更為復雜的路況。為了更能反映真實世界的場景,構建具有多樣性的數據集是一項亟待解決的工作。
(1)多模態融合的三維目標檢測成為主流。三維目標檢測在室外場景的應用仍然是一項具有挑戰性的任務,不同模態的數據有其優勢與劣勢。視圖數據包含豐富的紋理、語義信息,但是缺少深度信息。相反,點云數據包含詳細的深度信息,但是卻缺少紋理、語義信息。在復雜的室外場景下,空間信息與語義信息對于目標的識別與定位十分重要,僅靠單一模態的數據往往無法進行精確的檢測。雖然當前激光雷達傳感器成本較高,但隨著智能機器人、智能汽車等智能設備的普及,激光雷達傳感器的成本也會隨之降低。通過融合激光雷達、相機、毫米波雷達等多種傳感器數據來感知場景目標,也逐漸成為現實復雜場景的需要。因此,多模態融合的方法逐漸會成為新興的研究熱點。
(2)弱監督學習的三維目標檢測是未來方向。效果良好的深度學習算法往往需要大量帶有標注信息的數據進行訓練,高質量的數據標注需要大量的人力和時間成本,尤其是針對激光點云這種需要精細標注的數據集更為困難。針對該問題,可以引入弱監督學習進行目標檢測,利用大量無標注或者粗糙標注的樣本來進行模型的學習,這樣能夠有效地利用數據,提升模型的性能。研究如何利用弱監督學習進行三維目標檢測,可降低因數據集問題帶來的模型精度下降的影響,推動三維目標檢測的進一步發展。
(3)對新型應用領域的擴展也是未來的研究趨勢。雖然當前三維目標檢測相關的研究已取得了巨大進步,并在相應數據集上取得了較好的性能,但其方法主要集中在自動駕駛場景。針對現實中不同應用場景的挑戰,豐富三維目標檢測數據集的種類,對提高檢測方法在實際應用場景的適應性具有重要意義。現實應用場景中的挑戰也為未來的研究提供新的方向,如工業生產場景下的三維目標檢測、人機虛擬現實場景下的高精度三維目標檢測等。因此,未來將研究新型應用場景下的特點并對方法進行優化改進,以推動三維目標檢測的多樣性發展。
隨著深度學習的快速發展,基于激光點云的三維目標檢測技術取得了突破性的進展,并在自動駕駛、智能機器人等領域扮演著重要的角色。本文系統總結了近年來基于激光點云的三維目標檢測方法及主流的三維目標檢測數據集。對基于激光點云的三維目標檢測算法的評價指標進行說明,并對各類算法的性能進行對比分析。根據目前三維目標檢測算法存在的問題,指出了其未來的發展方向。隨著基于激光點云的三維目標檢測算法的檢測精度與速度進一步提高,其應用領域會越來越廣泛。