
















摘 要:為既能提高分割精度,又能克服車載計算資源局限,提出一種面向移動機器人平臺的車載實時點云語義分割方法,并進行了綜合實驗。該方法采用基于投影的激光雷達語義分割方法,將三維點云投影到球面圖像,并結合二維卷積進行分割。引入多頭注意力機制(MHSA),實現輕量級語義分割模型,以一種全新的方式,將一種深度學習模型架構Transformer映射到卷積。將Transformer的MHSA遷移至卷積,以形成多尺度自注意力機制(MSSA)。結果表明:與當前主流方法CENet、FIDNet 、PolarNet相比,本方法在NVIDIA JETSON AGX Xavier計算平臺上保持了較高的分割精度(平均交并比為63.9%)及較高的檢測速率(41 幀/s),從而證明了其對移動機器人平臺的適用性。
關鍵詞: 移 動機器人平臺;激光雷達(LiDAR); 點云;多尺度注意力機制(MSSA);語義分割方法TRANSFORMER;卷積神經網絡
中圖分類號: TP 181 文獻標識碼: A DOI: 10.3969/j.issn.1674-8484.2024.04.016
Semantic segmentation of real-time LiDAR point clouds based"on multi-scale self-attention
ZHANG Chen1, LIU Chang1, ZHAO Jin1, WANG Guangwei*1, 2, XU Qing2
(1. School of Mechanical Engineering, Guizhou University, Guiyang 550025, China; 2. School of Vehicle and Mobility, Tsinghua University, Beijing 100084, China)
Abstract: A real-time point cloud semantic segmentation method was proposed for mobile robot platforms through digital experiments, to enhance segmentation accuracy within the constraints of in-vehicle computing resources. The approach used a projection-based LiDAR technique, projecting the 3-D point cloud onto a spherical image and applying 2-D convolution. The approach integrated the multi-head self-attention (MHSA) mechanism, adapting the Transformer, a software semantic segmentation, architecture into convolution operations to build a multi-scale self-attention (MSSA) framework. The results show that on the NVIDIA JETSON AGX Xavier computing platform, the proposed method achieves a high segmentation accuracy with the mean ratio of Intersection to Union (mIoU) being 63.9%, and a fast detection speed of 41 frame/s, compared to state-of-the-art methods like the CENet, the FIDNet, and the PolarNet, therefore, demonstrating the effectiveness of the mobile robot platforms.
Key words: mobile robot platforms; light detection and ranging (LiDAR); point cloud; multi-scale self-attention"(MSSA); semantic segmentation TRANSFORMER; convolutional neural networks
隨著傳感器技術的發展,移動機器人從環境中采集點云已經變得越來越方便[1]。例如,移動機器人可以通過激光雷達(LiDAR)設備收集三維(3-D)點云信息;水下機器人可以使用聲納設備獲取海洋環境的二維(2-D)點云[2]。因此,無論是從學術還是工業的角度來看,基于點云信息的場景感知都受到了極大的關注[3]。三維點云不僅提供了豐富的物理輪廓,還能準確的描述物體之間的相對距離,能夠為非結構環境下移動機器人理解環境、躲避障礙物提供極大助力[4]。但由于環境三維點云通常數據量龐大,如何能夠實時、高效的處理點云信息,對于配備激光雷達的移動機器人執行復雜任務至關重要。
盡管點云語義分割方法具有巨大的應用潛力,但目前主流研究方法在現實世界應用,仍面臨著重大挑戰[5]。其中,一方面是處理和分析大量點云數據所需的高計算成本[6];另一方面,由于工作場景的復雜性,對來自環境數據的點云語義分割的精確性要求較高。因此,上述困難使得在資源受限的設備上難以實現實時、高精度的點云分割應用,特別是對于裝載嵌入式設備的移動機器人平臺[7]。
目前采用卷積神經網絡的點云語義分割方法可分為3類:基于投影的方法、基于點的方法和基于體素的方法。基于投影的方法雖然計算效率很高,但在將 3-D 結構投影到 2-D 時可能會導致信息丟失和分割精度降低。基于點的方法采用原始且未過濾的輸入點云并將其轉換為稀疏表示,對內存資源的需求相對較高。基于體素的方法將三維點云投射到預定義的網格,使用三維卷積神經網絡提取點云特征[8],雖然具備較高的分割精度,但推理速度甚至低于激光雷達的工作頻率(10 Hz)。
針對高精度分割結果與車載計算資源局限之間的矛盾問題,本文有效結合一種深度學習模型架構—Transformer和球面圖像的點云實時語義分割,提出一種應用于移動機器人服務平臺的點云實時語義分割方法(RangeFormer-Net),既利用了卷積的平移不變特性、高效性以及自注意力機制對長距離關系的建模能力等優點,又將Transformer的多頭自注意力(multi-head self-attention,MHSA)機制映射為卷積的多尺度自注意力(multi-scale self-attention,MSSA)機制,實現了輕量級的分割模型,該研究結果對于室外移動機器人的實時感知具有參考價值。
1 點云語義分割相關工作
1.1 基于投影的激光雷達語義分割方法
圖像語義分割的進步得益于二維卷積的快速發展,這類方法將三維點云投影成不同視角下的圖像,如球面投影[9]和鳥瞰投影[10]。與前者相比,基于投影的方法在分割精度和計算復雜度上取得了較好的平衡且應用廣泛,使其適用于嵌入式移動設備。SqueezeSeg [11]系列采用輕量級模型并使用SqueezeNet作為主干網絡,雖然速度和參數優于其他方法,但分割精度不夠[12]。
鑒于此,RangeNet++ [13]將Darknet整合到SqueezeSeg中。SalsaNext系列[14]采用多尺度殘差模塊的編碼器-解碼器架構,可以獲取更多的全局信息。SqueezeSeg V3根據輸入的位置采用空間自適應卷積(spatially-adaptive convolution,SAC),將圖像技術整合至點云分割中[15]。
1.2 基于點的激光雷達語義分割方法
與像素類似,基于點的語義分割方法是從點云數據提取特征并直接處理原始點云。經典的方法如PointNet [16]使用多層感知器(shared MLPs)提取特征并用于分類和分割任務。受此啟發,許多研究人員從原始點云的角度實現分割,例如RandLA-Net [17]采用隨機點云采樣策略提升算法效率,同時使用局部特征聚合減少信息損失。KPConv [18]采用可變形卷積學習局部特征,但由于常用的基于點采樣的方法計算成本高,大尺度點云下很難捕捉到完整、精細的結構,因此該方法的應用受限于小尺度點云數據。
1.3 基于體素的激光雷達語義分割方法
基于體素的方法將三維點云投影到立方體網格中并使用三維卷積解決點云分布不均勻問題。SEGCloud [19]作為早期使用體素網格進行點云語義分割的方法,需要高昂的計算資源。為了降低對計算資源的依賴,SPVNAS [20]采用稀疏卷積降低計算復雜性。Cylinder3D將輸入轉化為特定的體素網格,采取不對稱三維卷積解決密度和稀疏度的關系以提升推理速度,但在移動機器人平臺上使用仍具有挑戰性。
1.4 基于 Transformer的激光雷達語義分割方法
與卷積神經網絡相比,深度學習模型架構Transformer在三維點云上的應用仍然較少。PCT (point cloud transformer) [21]在處理點云時具有置換不變性,使其更適合三維點云學習。FPT (fast point transformer) [22]是一種新穎的局部自注意力機制,采用基于體素的網絡架構進行模型推理。但是,多數使用Transformer的深度學習模型架構是基于原始點云,雖然精度有所提高但處理速度較慢。
綜上所述,將Transformer應用于基于投影的激光雷達語義分割方法具有創新意義。同時為了避免自注意力機制的效率較低,本文采用卷積神經網絡建模Transformer,建立RangerFormer-Net語義分割方法,在保留全局特性的同時使其有更快的推理速度,且具有更少的計算參數,為移動機器人平臺下的實時激光雷達語義分割提供了新的解決思路。
2 RangerFormer-Net網絡介紹
2.1 三維點云的輸入表示
將Transformer中的多頭自注意力機制(MHSA)建模為多尺度自注意力機制(MSSA),需重點關注2個方面: 1) 如何在多層金字塔網絡中結合卷積和Transformer; 2) MHSA和MSSA是否等價以及如何結合。
本研究首先對輸入的點云數據進行預處理,即使用球面投影生成二維深度圖像,將離散的三維點云數據轉換為圖像網格狀的密集形式,以便高效執行二維卷積操作。其中三維坐標為 (x, y, z),二維圖像坐標為(u, v):
其中:(u, v)為二維圖像坐標;(H, W)為二維圖像的高和寬; f = fup + fdown為激光雷達的垂直視場角; r = x2 2 2+y+z為每個有效激光點云的深度值。因此,二維圖像張量的尺寸為(H, W, 5),其中第三維表示(x, y, z, i, r),i表示激光點云的強度值。
2.2 RangerFormer-Net網絡架構及特性
RangerFormer-Net網絡架構與U-net類似,均使用標準的編碼器 -解碼器架構,其中放縮比率為16,如圖1所示。
編碼器部分包含金字塔下采樣,而解碼器部分采用上采樣操作。每層編碼器均采用MSSA而非常規卷積。對于卷積神經網絡,本文重點關注二維圖像語義分割中不同擴張比率(1×1/3×3/2×2)的卷積核,然后將不同尺度的特征圖進行串聯堆疊。所提出的RangeFormer-Net的創新設計在于多尺度放縮,類似于Transformer中的FFN (feed forward network)操作,既能保證殘差連接的有效性,又能保持具有相同維數的特征融合。因此本文重點整合傳統卷積神經網絡和Transformer架構兩者的優勢。
2.3 多尺度注意力機制
Transformer中的多頭注意力機制如圖2b、2c所示,全局注意力Attention和全局輸出Y可表示為:
其中:dk為歸一化尺度因子; V、Q、K分別對應將投影后形成的相同尺寸的Value(值)、Query(查詢)和Key(鍵)矩陣。
對于每個特征圖X的每個像素位置(i, j),可以通過卷積操作來計算其多尺度注意力權重α(i, j),具體計算公式如下:
其中: Wα和ba分別表示注意力權重計算的卷積核和偏置項; α表示權重系數。
令E為編碼器輸出特征圖,G為解碼特征圖,進一步將特征圖E和特征圖G進行加權求和,得到F如下:
傳統Transformer框架用于處理自然語言領域的詞向量,其與圖像主要區別在于詞向量通常是一維向量,而圖像是二維矩陣。同時,MHSA在處理一維詞向量時會關聯語句上下文信息。在該思想下ViT(vision transformer)將圖像切成不重疊的圖像塊,然后將每個塊作為向量送入MHSA提取特征。然而該方法的局限性在于:
1) 較大的塊帶來更多全局信息,但局部細節會丟失。相反較小的塊會保留細節信息,但計算量會大幅增加;
2) Transformer需考慮圖像大小帶來的高計算代價,會給小尺寸高維圖像帶來依賴性;
3) 在硬件加速方面,Transformer遠低于卷積神經網絡。
本文針對上述方法中的局限性,進行了3點改進:
1) 為了保證網絡高效性,本文基于卷積方法的平移不變性,使用卷積替代圖像切分方式,從而避免位置編碼的不確定因素;
2) 通過在卷積中建立多尺度自注意力機制,保持對所有特征圖的依賴關系;
3) 本文創新的將多尺度卷積與自注意力機制結合用于解決激光雷達深度圖像問題,雖然不如Transformer能掌握全局,但卻擴展局部感受野并建立了更廣的全局關系,有效平衡了細節不足和高計算代價二者之間的矛盾關系。
卷積神經網絡中的多尺度自注意力機制,如圖2a所示,MSSA將輸入作為Query,然后通過卷積建模Value,對應于傳統Transformer中的線性投影。與后者區別在于Key矩陣,本文用 (n×n:3×3/2×2) 表示卷積核大小,對應于二維圖像的語義分割。本文中MSSA與公式2一致,通過計算具有卷積特性和概率分布的Attention分數表示Value矩陣的分布。其中,卷積可以有效構建多頭注意力機制并允許在任意維度上對多頭注意力機制進行連續建模。
2.4 RangerFormer-Net網絡細節
RangeFormer-Net網絡架構由4個模塊組成,分別為MSSA全局特征提取塊、MSSA編碼器、MSSA解碼器和語義分割頭。為了進一步結合不同尺度間的信息,本文在編碼器和解碼器之間引入堆疊跳躍連接,以用于執行特征融合。
MSSA全局特征提取塊:2-D圖像和3-D點云中的一個重要步驟是如何提取上下文信息。在本模塊中,為了融合不同感受野下的上下文信息,依次堆疊不同卷積核的輸出,主要通過堆疊1×1、3×3和3×3卷積(擴展比率為1/2)實現,最后通過跳躍連接來執行融合。其中通道數量變化為(5, 32)到(32, 32)到 (32, 32)。MSSA網絡細節如圖3所示,編碼計算流程表示為:
其中:Conv2d表示卷積操作;K、P、R分別對應卷積核大小、填充、擴張率;MSSAinput為MSSA的輸入,MSSAoutput為MSSA的輸出。
MSSA編碼器:該模塊主要用于提取不同尺度的特征。我們將常規卷積替換為MSSA模塊,并添加不同的擴張比。同時使用全局平均池進行最終下采樣,以避免卷積帶來的額外開銷,消融實驗驗證了該步驟幾乎不會降低平均交并比(mean ratio of intersection to union, mIoU),其中通道數(從32到64到128到256),縮放比為16,從(64, 2048)到(4, 128)逐階段降低。
MSSA解碼器:與上采樣和轉置卷積操作相比,本文在解碼器中使用“MSSA +上采樣”的設置。上采樣忽略了“參數”學習因素,這可能會降低精度,卻具有無參學習和速度快的優點;轉置卷積包括學習參數,但難以保證與編碼器信息對齊,因此本文用MSSA模塊代替轉置卷積。語義分割頭:針對每個激光深度圖像的像素點設計,通過1×1卷積實現。
2.5 損失函數設計
從實際場景和數據集分析可知,損失函數的設計目標是提高神經網絡的泛化能力并對融合后的特征進行優化。其中需要進一步處理的問題包括:1) 圖像物體邊界分割模糊;2) 如何緩解場景中類別失衡問題;3) 如何優化平均交并比mIoU。對于上述問題,使用損失函數的組合來監督模型訓練,主要包括交叉熵損失Lwce、Lova’sa-Softmax損失Lls以及邊界損失Lbd。
在語義分割任務中,二維圖像主要存在物體邊界分割模糊的問題,類似的三維點云投影至二維圖像時也存在此問題,因此定義邊界損失為
其中: C表示類別的集合; PC、RC分別表示預測邊界特征圖ypd相對于C中真實標簽ygt的精確度和召回率。由此,邊界可定義為:
其中,pool函數是一種邊緣檢測操作,用于提取圖像的邊緣特征。為了解決類別標簽數量不平衡問題,將類別出現頻率開方的倒數來定義交叉熵損失函數:
其中: yi、?ι表示類別標簽的真實值和預測值; αi表示平衡類別不平衡的權重系數。同時使用Lova’sa-Softmax損失函數來最大化交并比:
其中: |C |表示類別標簽的數量值,c表示類別標簽中的一個具體類別;VJc表示類別c的 Jacobi矩陣索引的擴展項; xi(c)∈[0, 1], yi(c)∈{-1, 1}:表示類別c的第i個像素的真實標簽概率和預測標簽概率。損失函數的組合為:
其中: a、b、k表示不同損失函數的權重,這些參數的設置過程將在消融實驗部分進行描述。
類似的,在獲取球面圖像語義分割結果之后,由于從編碼器到解碼器的推理過程中會產生邊緣二義性,可能導致邊界模糊問題,此類現象同樣會發生在二維圖像語義分割研究中。例如,SqueezeSeg [11]中表明在分割后對預測結果采用條件隨機場能進一步消除語義邊界出現的疊加、模糊等問題。盡管此類研究在應對二維圖像語義分割時相對有效,但并非能完全解決逆投影至三維點云后的邊界問題。一旦球面圖像被投影至三維點云時,存儲在相同位置的像素中會產生多類重疊語義標簽,進而導致不同邊界產生混淆問題。
因此,本文采用K近鄰算法(K-nearest neighbors, KNN)分類方法消除逆投影至三維點云過程中產生的邊界混淆問題。該方法基于“鄰居投票”的思想,即對每一個待分類樣本采用投票來確定其所屬類別,一定程度上降低邊界混淆引發a的問題,使RangerFormer-Net模型能有效應對局部信息,提高分割準確性。
3 實驗分析
3.1 實驗設置
為了有效驗證RangerFormer-Net網絡在移動機器人平臺上進行實時語義分割的性能,本部分將分別在SemanticKITTI [23]和SemanticPOSS [24] 2個主流基準數據集上進行評估。測試場景包括車流交織的城鎮公路交叉路口以及行人眾多、交通情況錯綜復雜的市區公路路段。
SemanticKITTI是一個大規模數據集,包含來自22個序列的43551個激光雷達(LiDAR)掃描幀。SemanticPOSS是一個小規模基準書籍,由2 988個LiDAR場景組成,共分為6個部分,本文使用2個部分作為測試,其他作為訓練集。RangerFormer-Net網絡評判的評價指標是分割時的浮點運算量(FLOPs)和平均交并比(mIoU)。FLOPs數值越低,而對應mIoU數值及傳輸速率(frames per second, FPS)越高,則更加滿足機器人平臺使用需求。
對于正則化和優化器的設置,本文采用隨機梯度下降模式,初始學習率為0.01,在一輪迭代后衰減0.01。此外,根據Cortinhal [25]等人提出的具有0.000 1和0.900 0動量的L2范數,本文同時在單個NVIDIA RTX 3090、4個RTX 2080Ti GPU上進行訓練并部署到移動機器人常用計算平臺(NVIDIA JETSON AGX Xavier)上進行實驗。訓練過程中采用隨機旋轉、平移、繞y軸翻轉、點丟失和向三維坐標值添加噪聲來增強數據。對于SemanticKITTI和SemanticPOSS數據集,本文分別訓練了180個周期和90個周期。
3.2 實驗結果
本文所提出的方法與當前主流分割算法在SemanticKITTI數據集上進行了定量分析,結果如表1所示。與當前主流方法相比,RangerFormer-Net實現了較高精度(mIoU = 63.9% )。值得注意的是,本文方法在精度優于多數基于投影的方法的同時,保持較高的傳輸速率(41 幀/s),這點對于在計算資源受限的移動機器人上有效運用至關重要。除在語義分割精度與速度方面的性能提升外,與其他現有模型相比,其在分割車輛、人、路面、自行車手、人行道等9類物體方面表現出了顯著的優勢。例如:該模型可以識別車輛、道路、植物等路面信息,有效避免了汽車與植物的混淆,可清晰識別汽車、人行道、建筑物等物體的輪廓信息。
更重要的是,與基于點的方法PolarNet相比,RangerFormer-Net在mIoU指標上提高了9.6%。與基于投影的方法FIDNet相比mIoU指標提高了5.3%。CENet [26]在基于投影的方法中雖具有較高的mIoU(64.7%),然而其插值上采樣部分達到480 GFlops,使其難以在NVIDIA JETSON AGX Xavier上實施運行。相比之下,在嵌入式設備上部署模型時本文方法參數量和Flops更低,更容易在移動機器人平臺部署使用。
本文所提出方法與當前主流分割算法同樣在SemanticPOSS數據集上進行了定量分析,結果如表2所示。可以看出由于點云的稀疏結構許多基于投影的
方法表現較差。然而本文方法與CENet仍實現了較高的mIoU值(49.9%),可能原因是SemanticPOSS具有更少的類和更稀疏的點云。該結果證明與其他主流方法相比,在因點云的稀疏性而給點云的實時語義分割造成干擾時,RangerFormer-Net網絡依然具有良好的分割精度。
此外,本文使用RangerFormer-Net在SemanticKITTI數據集(序列08)上進行語義分割預測,其城鎮公路交叉路口場景可視化結果如圖4所示。從圖中可以看出使用本文方法能夠廣泛地識別預測目標,尤其在大規模物體邊界識別方面表現優異,有效識別出了交叉路口路面與柵欄、人行道、植物等目標的邊界信息,其分割結果較為精確。
市區公路場景語義分割可視化結果如圖5所示。
RangerFormer-Net同樣實現了較為精確的識別預測,能夠準確辨別出每類物體的輪廓信息以及大尺度物體的邊界信息。例如,場景(a)中有效識別出了街邊建筑物、行人、交通標志且建筑沒有與人行道發生混淆;場景(b)中有效識別出了T字形路口處人行道在地形中的位置,且圍墻、人行道、其他路面三者邊界l分割較為精確;場景(c)(e)中有效識別出了路面汽車及其他車輛的輪廓信息且沒有與路面、植物發生混淆;場景(d)(f)中有效識別出了植物、圍墻以及道路等大規模物體且邊界分割清晰。為了更直觀地展示RangerFormer-Net網絡的實時分割性能,本文基于rangenet_lib和TensorRT構建了實時的移動語義激光地圖。建圖框架采用了LIO-SAM [27],本文方法作為場景語義信息提取部分,如圖6所示。圖中顯示了構建序列05場景的俯瞰語義圖,在構建語義圖的過程中,本文對序列05的數據進行了刪減, 并通過每連續三幀取一幀的方式更新了語義標簽。
3.3 消融實驗
為了測試不同模塊對方法的影響,本文進行了一系列消融實驗進行對比,包括模型參數、FLOPs(浮點運算)、激活函數、MSSA塊、損失函數的分配比和解碼器選擇,同時選擇了不同的消融模式進行比較,使用從最基本模型到當前模型逐漸縮放的增量消融方法。基本模塊有CNN編碼器和雙線性插值解碼器SalsaNext (mIoU = 59.5%)、CENet (mIoU = 64.7%)作為基準對比。
模型堆疊:我們的模型符合傳統的下采樣比例從(64 2048)到(4 128),其中包含5個堆疊階段。為了分析模型一致性,本文將SalsaNext和CENet的解碼器調整為雙線性插值。由于CENet是4層的編碼器,我們額外增加一層用于公平比較,模型配比為:5C+BI。相反,RangerFormer-Net網絡使用4C + M + BI、3C + 2M + BI,2C + 3M + BI、C + 4M + BI和5M + BI(C為ConvNet下采樣數量(或數目),為雙線性插值數量,M為MSSA編碼器數量),結果如表3所示。與SalsaNext方法相比,方法的mIoU提升了4.5%。原始框架解碼器的結果對比,見表4。
由表3和表4可知:CENet在FLOPs上遠遠超過SalsaNext和本文方法,其FLOPs值約為本文方法的4~8倍。雖然在基于投影的方法中有更高的mIoU,但我們選擇該方法的原因之一是希望能保持實時性,這也是CENet在遷移至NVIDIA JETSON AGX Xavier時效果較差、無法有效運用到移動機器人平臺的原因。與SalsaNext相比本文方法具有更少的參數和FLOPs,并且mIoU提升了3.6%。因此本文的基本模型在此階段從4×C + M + BI到5×M + BI再到5×M + Decoders(Decoders為解碼器)。
模型組件的影響:表5展示了不同組件下的結果影響。由于本文采用了類似Transformer的結構,因此測試了LeakyReLU和GELU兩組激活函數并發現后者降低了mIoU。
實驗表明,本文方法并不完全為Transformer結構,更多體現了卷積映射Transformer屬性的方法,因此LeakyReLU+BatchNorm仍是最佳配置,有效證明了RangerFormer-Net網絡具有更少的參數和更快推斷速度,同時也展示出精度幾乎無差異。損失函數的系數L aL bL比例:本文采用的是 = ls +"kLwce +"bd損失函數組合,因此比例組成也是一個關鍵部分。起初我們只使用Lbd和Lwce,但是經過大量實驗我們發現邊界在基于投影的方法中的占據一定比重。引入邊界函數后mIoU與比值分配如表6所示。
4 討 論
本研究中點云數據的處理過程包括:三維點云預處理、深度圖像上下文特征融合、全局特征提取與編碼、全局特征解碼以及特征融合。從效率的角度來看,本文方法可高效處理點云,并以41幀/s的速率輸出語義分割結果,進一步優化了RangerFormer-Net對于移動機器人環境感知時的實時性能。RangerFormer-Net通過融合卷積神經網絡和Transformer模型,與基于投影的方法CE-Net相比,RangeFormer-Net的編碼器能進一步提取有效特征并降低浮點運算量(降低64.2%);相較于SalsaNext以及CE-Net的原始解碼器,RangeFormer-Net的解碼器可以有效降低浮點運算量(分別降低5.4%和86.4%)。從性能的角度來看,與基于點的PolarNet方法相比,本文方法在 mIoU 指標上提高了9.6%;與基于體素的輕量級SPVCNN-lite方法相比,本文方法的mIoU 指標提高了5.4%;與基于投影的輕量級SalsaNext方法相比 mIoU 指標提高了4.5%。
從系統的角度來看,盡管像Semantic SLAM [28]這樣的先進語義分割系統也采用將三維點云投影至二維深度圖像的策略以減輕點云密度變化的影響,但該系統依賴于 RangeNet++方法進行語義分割,在資源有限的車載設備下可能會面臨資源消耗較大等現象,進而導致模型推理速度降低。相比之下,本文所提出的RangerFormer-Net不僅實現了輕量級的分割模型,還提高了實時系統語義分割的準確性。
在未來的工作中,我們將繼續探討如何更好地結合卷積的局部感受野優勢與Transformer的全局感知優勢,以建立更高效的輕量級的混合模型。同時,考慮到點云標注的高人工成本,我們還將探索該混合方法在無監督學習場景下細粒度激光雷達點云語義分割的能力,以便更好的服務于移動機器人的環境感知。
5 結 論
針對計算資源有限的移動機器人平臺,本文提出一種基于球面投影的激光雷達點云實時語義分割方法(RangerFormer-Net)。該方法通過整合傳統卷積神經網絡和Transformer架構兩者的優勢,利用卷積局部優勢以及Transformer全局優勢提出了一種輕量級混合模型,并通過借鑒Transformer的多頭注意力機制,創新的以卷積實現了等效的多尺度自注意力機制,使所提出模型在保證感知精度的同時,具備更少的參數和更快推斷速度。在SemanticKITTI和SemanticPOSS數據集上開展了一系列點云語義分割的綜合性能實驗。
結果表明:與當前主流方法CENet、FIDNet、PolarNet相比,RangerFormer-Net在移動機器人常見平臺NVIDIA JETSON AGX Xavier上實現了較高的分割精度(mIoU = 63.9% )和更低的每s浮點運算次數(Flops)值,并保持了較高的傳輸速率(41 幀/s),在實時應用中更好地平衡了語義分割的精度和效率,這證明了該方法在計算資源有限的移動機器人平臺上的使用能力。
參考文獻(References)
[1] 曹行健, 張志濤, 孫彥贊, 等. 面向智慧交通的圖像處理與邊緣計算[J]. 中國圖象圖形學報, 2022, 27(6): 1743-1767. CAO Xingjian, ZHANG Zhitao, SUN Yanzan, et al. Image Processing and Edge Computing for Intelligent Transportation [J]. J Imag Graph, 2022, 27(6): 1743-1767. (in Chinese)
[2] 胡遠志, 劉俊生, 何佳, 等. 基于激光雷達點云與圖像融合的車輛目標檢測方法[J]. 汽車安全與節能學報, 2019, 10(4): 451-458. HU Yuanzhi, LIU Junsheng, HE Jia, et al. Vehicle target detection method based on lidar point cloud and image fusion [J]. J Auto Safety Energy, 2019, 10(4): 451-458. (in Chinese)
[3] DONG Huixu, YU Haoyong, GUO Chuangqiang, et al. Real-time avoidance strategy of dynamic obstacles via half model-free detection and tracking with 2d lidar for mobile robots [J]. IEEE/ASME Transa Mech, 2020, 26(4): 2215-2225.
[4] 劉暢,趙津,劉子豪,等. 基于歐氏聚類的改進激光雷達障礙物檢測方法[J]. 激光與光電子學進展,2020,57(20):1-7.LIU Chang, ZHAO Jin, LIU Zihao, et al. Improved LiDAR obstacle detection method based on euclidean clustering [J]. Laser Optoelectr Progr, 2020, 57(20): 1-7. (in Chinese)
[5] 李茂月, 呂虹毓, 河香梅, 等. 自動駕駛中周圍車輛識別與信息地圖構建技術[J]. 汽車安全與節能學報, 2022, 13(1): 131-141. LI Maoyue, Lü Hongyu, HE Xiangmei, et al. Surrounding vehicle recognition and information map construction technology in autonomous driving [J]. J Auto Safety Energy, 2022, 13(1): 131-141. (in Chinese)
[6] YANG Hui, CHEN Yaya, LIU Junxiao, et al. A 3D Lidar SLAM system based on semantic segmentation for rubber-tapping robot [J]. Forests, 2023, 14(9): 1856-1602
[7] WANG Fei, YANG Yujie, ZHOU Jingchun, et al. An onboard point cloud semantic segmentation system for robotic platforms [J]. Machines, 2023, 11(5): 571-584
[8] ZHU Xinge, ZHOU Hui, WANG Tai, et al. Cylindrical and asymmetrical 3d convolution networks for lidar segmentation [C]// Proc IEEE/CVF Conf Compu Vision Patt Recogn, 2021: 9939-9948.
[9] Jhaldiyal A, Chaudhary N. Semantic segmentation of 3D LiDAR data using deep learning: a review of projection-based methods [J]. Applied Intelligence, 2023, 53(6): 6844-6855.
[10] ZHANG Yang, ZHOU Zixiang David P, et al. Polarnet: An improved grid representation for online lidar point clouds semantic segmentation [C]// Proc IEEE/CVF Conf Compu Vision Patt Recogn, 2020: 9601-9610.
[11] WU Bichen, ZHOU Xuanyu, ZHAO Sicheng, et al. Squeezesegv2: Improved model structure and unsupervised domain adaptation for road-object segmentation from a lidar point cloud [C]// 2019 Int’l Conf Robot Autom (ICRA), IEEE, 2019: 4376-4382.
[12] WU Bichen, WAN Alvin, YUE Xiangyu, et al. Squeezeseg: Convolutional neural nets with recurrent crf for real-time road-object segmentation from 3d lidar point cloud [C]// 2018 IEEE Int’l Conf’Robot’Automation (ICRA). IEEE, 2018: 1887-1893.
[13] Milioto A, Vizzo I, Behley J, et al. Rangenet++: Fast and accurate lidar semantic segmentation [C]// 2019 IEEE/RSJ Int’l Conf Intell Robot Syst (IROS). IEEE, 2019: 4213-4220.
[14] Aksoy E E, Baci S, Cavdar S. Salsanet: Fast road and vehicle segmentation in lidar point clouds for autonomous driving [C]// 2020 IEEE Intell Vehi Symp (IV). IEEE, 2020: 926-932.
[15] Cortinhal T, Tzelepis G, Erdal Aksoy E. Salsanext: Fast, uncertainty-aware semantic segmentation of lidar point clouds [C]// Adva Visual Comput 15th Int’l Symp, ISVC 2020, 2020: 207-222.
[16] Charles R. Qi, SU Hao, Mo Kaichun, et al. Pointnet: Deep learning on point sets for 3d classi?cation and segmentation [C]// Proc IEEE Conf Compu Vision Patt Recogn, 2017: 652-660.
[17] HU Qingyong, YANG Bo, XIE Linhai, et al. Randla-net: Ef?cient semantic segmentation of large-scale point clouds [C]// Proc IEEE Conf Compu Vision Patt Recogn, 2020: 11108-11117.
[18] Thomas H, Qi C R, Deschaud J E, et al. Kpconv: Flexible and deformable convolution for point clouds [C]// Proc of the IEEE/CVF Int’l Conf Compu Vision, 2019: 6411-6420.
[19] Tchapmi L, Choy C, Armeni I, et al. Segcloud: Semantic segmentation of 3d point clouds [C]// 2017 Int’l Conf 3D Vision (3DV), IEEE, 2017: 537-547.
[20] TANG Haotian, LIU Zhijian, ZHAO Shengyu, et al. Searching ef?cient 3d architectures with sparse point-voxel convolution [C]// Eur Conf Comput Vision. Cham: Springer Int’l Publ, 2020: 685-702.
[21] GUO MengHao, CAI JunXiong, LIU ZhengNing, et al. Pct: Point cloud transformer [J]. Computational Visual Media, 2021, 7(2): 187-199.
[22] Park C, Jeong Y, Cho M, et al. Fast point transformer [C]// Proc IEEE/CVF Int’l Conf Compu Vision, 2022: 16949-16958.
[23] Behley J, Garbade M, Milioto A, et al. Semantickitti: A dataset for semantic scene understanding of lidar sequences [C]// Proc IEEE/CVF Int’l Conf Compu Vision, 2019: 9297-9307.
[24] PAN Yancheng, GAO Biao, MEI Jilin, et al. Semanticposs: A point cloud dataset with large quantity of dynamic instances [C]// 2020 IEEE Intell Vehicles Symp (IV), IEEE, 2020: 687-693.
[25] Cortinhal T, Kurnaz F, Aksoy E E. Semantics-aware multi-modal domain translation: From LiDAR point clouds to panoramic color images [C]// Proc IEEE/CVF Int’l Conf Compu Vision, 2021: 3032-3048.
[26] HENG Huixian, HAN Xianfeng, XIAO Guoqiang. CENet: Toward concise and ef?cient LiDAR semantic segmentation for autonomous driving [C]// 2020 IEEE Int’l Conf’ Multimedia Expo (ICME), IEEE, 2022: 01-06.
[27] SHAN Tixiao, Englot B, Meyers D, et al. Lio-sam: Tightly-coupled lidar inertial odometry via smoothing and mapping [C]// 2020 IEEE/RSJ Int’l Conf Intell Robot Syst, IEEE, 2020: 5135-5142.
[28] CHEN Xieyuanli, Milioto A, Palazzolo E, et al. Suma++: Ef?cient lidar-based semantic slam [C]// 2020 IEEE/RSJ Int’l Conf Intell Robot Syst, IEEE, 2019: 4530-4537.