基于上下文注意力的室外點云語義分割方法

2023-03-16 10:21:28蘇鳴方胡立坤黃潤輝

計算機工程 2023年3期

蘇鳴方，胡立坤，黃潤輝

（廣西大學電氣工程學院，南寧 530004）

0 概述

3D 點云語義分割作為3D 環境感知的基礎問題，為點云場景下的每個點分配語義標簽，被廣泛應用于自主移動機器人、增強現實、自動駕駛等領域。傳統人工設計特征的點云分割方法難以滿足復雜場景下室外點云數據的處理需求。隨著計算機性能的提升和神經網絡技術的發展，傳統分割方法逐漸被以數據驅動的深度學習方法取代。

點云非柵格結構具有稀疏性、無序性等特點，其處理方式是多樣的。根據點云處理方式的不同，基于深度學習的點云語義分割方法可分為基于投影、基于體素和基于直接點的方法。基于投影的點云語義分割方法［1-2］將點云轉換為圖像，利用成熟的圖像語義分割方法進行分割后重映射到點云空間，降低了3D 點云處理的復雜度?；隗w素的點云語義分割方法［3-5］將點云轉化為體素，利用3D 卷積進行分割，保留了點云的3D 幾何結構。上述兩類方法能夠有效解決點云非結構化的問題，但在轉換過程中造成點云結構信息的損失。為直接處理點云獲取的原始高分辨率特征，PointNet［6］直接利用共享感知機捕獲逐點特征，通過最大池化獲取全局特征，然而，該方法缺乏對局部細節的描述。為捕獲局部特征的依賴關系，研究人員設計不同的局部特征提取模塊以捕獲局部依賴關系。PointNet++［7］采用分層擴大感受野聚合局部特征。KPConv［8］設計一種剛性和可變形的類網格卷積算子，通過內核點權重卷積聚合球形鄰域特征。文獻［9］引入循環神經網絡（Recurrent Neural Network，RNN）對上下文信息進行編碼。文獻［10］設計多尺度特征融合模塊擴大局部感受野。文獻［11］將分組注意力變換與多層感知機（Multi-Layer Perceptron，MLP）共同作用于局部特征的提取，提高點云分類分割的準確率。文獻［12］設計通道注意力和空間注意力機制，基于自適應集成的局部和全局依賴關系關注不顯著的對象特征。文獻［13］設計尺度和通道注意力選擇單元，結合語義和尺度上下文信息，通過特征金字塔進行分割。由于以上方法主要局限于復雜的網絡結構，且難以一次性處理大量點云，因此只適用于小規模的室內場景，無法直接擴展到大規模的室外點云分割領域。

針對大規模室外場景，SPG［14］將點云均勻分割后建立超點圖，利用圖卷積網絡提取超點圖中的上下文信息，但分割效率較低，只適用于離線點云分析。RandLA-Net［15］通過隨機點采樣（Random Sampling，RS）能解決主流最遠點采樣方法處理大規模點云時計算成本昂貴的問題，并設計局部特征聚合（Local Feature Aggregation，LFA）模塊，以彌補隨機點采樣時關鍵點信息的丟失，但缺乏對多尺度上下文信息的利用。文獻［16］在RandLA-Net 的基礎上結合不同尺度上下文信息，并利用圖卷積網絡處理全局特征，然而未對淺層特征信息進行篩選。以上方法未對不同特征通道和點分配不同的注意力權重，缺乏對淺層細粒度信息的捕獲。

本文提出一種基于上下文注意力的點云語義分割方法CAF-Net，在不同尺度間的上下文信息中選擇性地聚合局部和全局特征，主要包括雙向上下文注意力融合（Bidirectional Contextual Attention Fusion，BCAF）和上下文編碼-通道自注意力（Contextual Encoding-Channel Self-Attention，CE-CSA）兩個模塊。BCAF 模塊分別結合淺層特征和高層語義特征生成注意力權重，逐層融合鄰近尺度特征的上下文信息，CE-CSA 模塊基于多尺度特征編碼全局信息，采用通道自注意力機制建立全局特征通道的相互依賴關系，避免了特征的冗余，同時提高點云語義分割精度。

1 本文方法

1.1 網絡結構

本文提出基于上下文注意力的點云語義分割網絡CAF-Net，其網絡結構如圖1 所示。

圖1 CAF-Net 網絡結構Fig.1 Structure of CAF-Net network

本文方法以RandLA-Net 為主干網絡，主要采用編碼-解碼結構。其中，編碼器通過隨機點采樣減小點的規模，以實現分層聚合局部特征的目的。為彌補隨機點采樣造成數據點信息丟失的不足，本文通過局部特征聚合［15］模塊編碼數據點與對應鄰近點的空間特征。解碼器利用最近鄰插值（Nearest Interpolation，NI）上采樣方法和MLP 逐步恢復原始分辨率的點云特征，并融合低層特征與高層特征，以改善模型效果。然而，RandLA-Net 網絡未利用多尺度特征間的上下文信息對底層信息進行篩選，只是在解碼過程中簡單地將編碼特征與上采樣特征相結合，容易造成淺層噪聲信息對高層語義信息的干擾，從而影響語義分割結果。

雙向上下文注意力融合模塊基于鄰近淺層特征，通過前向注意力融合（Forward Attention Fusion，FAF）組件生成注意力權重，逐層融合相鄰尺度特征，并將融合后的特征傳入到下一個融合單元，反向注意力融合（BAF）組件進一步依賴高層語義特征進行逐層反向融合，最終有效地融合多尺度特征，融合單元如圖1 中虛線框所示。CE-CSA 模塊結合不同尺度特征編碼全局上下文信息，設計通道自注意力機制學習全局信息，輸出特征通過上采樣與BCAF模塊特征逐層融合，最后利用全連接層（FC）為每個點分配語義標簽。

1.2 雙向上下文注意力融合模塊

由于室外點云范圍廣且物體尺度復雜多樣，因此需要融合多尺度特征以擴大模型的感受野，從而保留更多的局部細粒度信息。為此，本文設計鄰近尺度的上下文注意力融合模塊，考慮到不同尺度特征間的差異，通過對相鄰尺度特征進行注意力權重的設計，有效地融合淺層局部結構信息和高層語義上下文信息。雙向上下文注意力融合模塊結構如圖2所示。

圖2 雙向上下文注意力融合模塊結構Fig.2 Structure of bidirectional contextual attention fusion module

BCAF 模塊主要包含FAF 組件和BAF 組件。FAF 組件結構如圖2（a）所示，通過隨機采樣和MLP將淺層特征與相鄰高層特征對齊，并通過Sigmoid 函數生成前向注意力權重，定義如式（1）所示：

其中：Fl為第l層的特征，Fl∈RNl×Dl，l∈(1，2，3)，Nl和Dl分別為第l層的點數和特征維度；Wf為前向注意力權重；RS(·)為隨機采樣。

將得到的前向注意力權重與鄰近高層特征逐元素相乘，并通過殘差連接得到最終前向注意力融合后的特征，如式（2）所示：

其中：⊕為逐元素相加；?為逐元素相乘；Ff為前向融合特征。

BAF 組件結構如圖2（b）所示，其輸入的是前向注意力融合后已經保留了部分淺層細節的特征。反向注意力融合是結合相對高級的語義信息，通過對輸入特征進行選擇，在捕獲淺層細粒度特征的同時，將高層語義信息融入到點的分類任務中，提高語義分割的準確率。反向注意力融合的流程主要是通過最近鄰插值和MLP 將高層特征與鄰近淺層特征對齊，利用Sigmoid 函數為每個點生成反向注意力權重，并通過殘差連接盡可能地保留鄰近尺度中的淺層特征，得到反向注意力融合后的特征。具體流程如式（3）所示：

1.3 上下文編碼-通道自注意力模塊

文獻［17-18］通過編碼單層特征圖構造全局特征描述子，以捕獲全局上下文信息，但是缺乏對多尺度特征的利用。為此，本文設計CE-CSA 模塊，主要由上下文編碼（CE）和通道自注意力（CSA）組件組成。CE 組件基于多尺度特征聚合全局上下文信息，CSA 組件結合全局依賴為通道分配不同權重，增強特定通道的可分辨性。

1.3.1 上下文編碼組件

上下文編碼組件結構如圖3 所示。本文設計以高層特征維度融合為主的前向采樣編碼（FSE）和以淺層特征為主的反向插值編碼（BIE）兩種多尺度上下文聚合方式。前向采樣編碼是基于最高層特征圖進行最大池化，得到全局信息特征，再通過維度復制與多尺度特征連接，從而得到全局上下文信息。反向插值編碼側重于低層特征，通過第一層特征圖最大池化得到全局特征，并與多尺度特征連接。

圖3 上下文編碼組件結構Fig.3 Structure of contexual encoding components

由于FSE 可以有效融合高層語義信息進行編碼，在插值過程中BIE 是復制鄰近點的特征，缺乏對高層語義信息的利用，因此本文最終選用FSE進行全局上下文編碼，并且為減少特征冗余和提高編碼效率，選用三個鄰近尺度特征圖進行融合。

1.3.2 通道自注意力組件

針對點云無序造成數據點相互關系編碼的不確定性，自注意力機制對全局特征的建模和數據點相關性的挖掘有良好的效果［19］。但是，自注意力機制只適用于小范圍點云，難以直接拓展到大規模點云，其原因為大規模點云的N×N點注意力圖會占用大量的計算資源與內存。本文設計通道自注意力組件，其結構如圖4 所示。通過生成特征維度為D×D的通道注意力圖，使網絡關注有意義的通道并避免大量的計算，此外，采用學習多尺度輸入特征和自注意力特征之間的偏差取代學習整體自注意力特征，使網絡更專注于偏差的學習，從而得到更關鍵的全局特征。

圖4 通道自注意力組件結構Fig.4 Structure of channel self-attention component

通道自注意力組件將CE 組件編碼后的多尺度全局上下文特征FCE作為輸入，經MLP 線性變換得到查詢張量Q∈RN×D、關鍵張量K∈RN×D和值張量V∈RN×D矩陣，如式（4）所示：

其中：Wq∈RD×D、Wk∈RD×D和Wv∈RD×D為對應的權重參數；×為矩陣乘法。

通過關鍵張量矩陣的轉置與查詢張量矩陣相乘以獲得注意力權重，并進行Softmax 歸一化，得到歸一化注意力圖矩陣FSoftmax，表示如式（5）所示：

值張量矩陣與歸一化注意力圖矩陣進行矩陣乘法得到通道自注意力特征，學習多尺度輸入特征和自注意力特征之間的偏移量，最終得到輸出特征FCSA，關注特征之間的語義聯系，提高特征的可分辨性。由于維度D遠小于點數N，因此矩陣乘法可減少大量內存，具體定義如式（6）所示：

2 實驗與結果分析

為驗證本文所提方法的有效性，本文在SemanticKITTI 和Semantic3D 大規模室外場景數據集上進行定量對比驗證。此外，在SemanticKITTI 數據集上進行不同模塊的消融實驗以證明模塊的有效性，進一步探究BCAF 模塊個數對網絡性能的影響，并驗證前向采樣編碼組件和通道自注意力組件同時作用的有效性。

2.1 數據集

SemanticKITTI［20］數據集由機載激光掃描系統獲得，包含德國卡爾斯魯厄附近的市內交通、居民區、高速公路場景和鄉村道路場景，由22 個點云序列和45.49 億個點組成，序列00～序列10 用于訓練，共23 201 幀，序列11～序列21 用于測試，共20 351 幀。數據集共有28 個類別，官方只評估19 類。原始輸入只有3D 坐標和強度，沒有顏色信息。

Semantic3D［21］數據集由固定掃描儀獲得，包含集市廣場、農場、運動場、城堡和市政廳場景，由15 個訓練集和15 個測試集組成，共超過40 億個點，被手動標記為8 個語義類。原始輸入包含3D 坐標、強度、RGB 顏色信息。

2.2 實驗環境與評價指標

本文提出的網絡在64 位Ubuntu18.04 操作系統、Intel?Xeon?CPU E5-2680 v4@2.40 GHz 三核處理器、128 GB 的RAM、GeForce RTX 3090 GPU 服務器上，基于Tensorflow 框架進行訓練，批大小設置為6，訓練次數設置為100，損失函數選用交叉熵函數，優化器選用Adam 算法，初始學習率設置為0.01，每個迭代次數的學習率衰減5%。

語義分割性能采用總體準確度（OOA）和平均交并比（mean Intersection over Union，mIoU）進行評估，如式（7）和式（8）所示：

其中：pij表示假陰性；pii表示真陽性；pji表示假陽性；N表示標簽類別的數量。

2.3 結果分析

2.3.1 對比實驗

本文在SemanticKITTI 和Semantic3D 兩個室外點云數據集進行對比實驗，并對實驗結果進行分析。

1）在SemanticKITTI 數據集上的對比實驗

在SemanticKITTI 測試集上不同方法的實驗結果如表1 所示。從表1 可以看出：本文提出的CAF-Net 相較于主流基于投影的方法RangeNet53++的mIoU 提高了2.8 個百分點，相較于基礎網絡RandLA-Net［15］的mIoU 提高了1.1 個百分點，尤其在行人、自行車場景下的IoU 分別提高了3 和6.9 個百分點，其原因為CAF-Net 可以結合上下文注意力機制，有效地挖掘局部細粒度特征，并融合局部與全局多尺度特征。

表1 在SemanticKITTI 測試集上不同方法的實驗結果對比Table 1 Experimental results comparison among different methods on SemanticKITTI testset %

在SemanticKITTI 驗證集上不同網絡的可視化效果對比如圖5 所示（彩色效果見《計算機工程》官網HTML 版）。從圖5 可以看出：RandLA-Net 容易混淆一些相似物體（如柵欄和植被），并且不能準確地識別小目標（如自行車和其他交通工具），而CAF-Net 能有效利用不同尺度間的層次特征，并區分相似目標，同時緩解了小目標特征在下采樣時的信息丟失問題，對小目標物體具有較優的識別效果。

圖5 在SemanticKITTI 驗證集上不同方法的可視化效果Fig.5 Visualization effect comparison among different methods on SemanticKITTI verification set

2）在Semantic3D 數據集上的對比實驗

在reduced-8 測試集上不同方法的對比結果如表2 所示。CAF-Net 的實驗結果均優于基于體素的方法［27-28］，其原因為體素化會丟失大量的空間位置信息，而相較于其他基于點的方法，CAF-Net 在mIoU 和OA 方面都表現出優異的效果，并且在人造地形、自然場景、建筑物和雜亂場景四個類別的IoU中取得較優的實驗結果。

表2 在Semantic3D reduced-8 測試集上不同方法的實驗結果Table 2 Experimental results comparison among different methods on Semantic3D reduced-8 testset %

在 Semantic3D 數據集上 RandLA-Net 與CAF-Net 方法的部分可視化結果如圖6 所示（彩色效果見《計算機工程》官網HTML 版），其中矩形框表示相似物體的識別，橢圓框表示地面停車線的識別。從第一行castleblatten_station1 場景中的可視化結果可以看出：CAF-Net 能夠準確地識別建筑物和人造物體，可以較準確地識別相似物體。從第三行sg27_station10-reduced 場景中的可視化結果可以看出：RandLA-Net 未識別出停車線，而CAF-Net 能準確地識別停車線。

圖6 RandLA-Net 與CAF-Net 方法的部分可視化結果Fig.6 Partial visualization results of RandLA-Net and CAF-Net methods

2.3.2 CAF-Net 的模塊消融實驗

為了定量評估本文所提的BCAF 和CE-CSA兩個模塊的有效性，本文對這些模塊的不同組合進行消融實驗，所有實驗均在SemanticKITTI 數據集上進行訓練和驗證。

本文分析了FAF、BAF 和CE-CSA 模塊對分割性能的影響。CAF-Net模塊的消融實驗結果如表3所示。FLOPs 表示模型的計算量，即模型復雜度?；€方法是RandLA-Net。FAF通過對淺層特征進行篩選，以關注局部細節，RandLA-Net+FAF相較于RandLA-Net的mIoU 提高了0.85 個百分點。BAF 組件結合相對高級的語義特征進行注意力融合，有助于對相似物體的區分，RandLA-Net+BAF 相較于RandLA-Net的mIoU 提高了0.91 個百分點。本文將BAF 與FAF 相結合實現淺層細節與高層語義特征的有效融合，因此，RandLANet+BAF+FAF 相較于RandLA-Net 的mIoU 提高1.22 個百分點。為了更好地實現特征之間的融合，CE-CSA 模塊通過上下文編碼和自注意力機制豐富了語義信息，RandLA-Net+CE-CSA 相較于RandLA-Net的mIoU 提高0.31 個百分點。本文將三個模塊綜合得到的RandLA-Net+BAF+FAF+CE-CSA（本文所提的CAF-Net）的mIoU為57.98%。

表3 CAF-Net 模塊的消融實驗結果Table 3 Ablation experiment results of CAF-Net module

2.3.3 雙向上下文注意力融合組件個數實驗

本文進一步探究FAF 組件和BAF 組件的個數對網絡性能的影響。雙向上下文注意力融合組件個數實驗結果如表4所示。基線網絡RandLA-Net的mIoU 為56.67%。當加入兩組融合組件時，RandLA-Net受限于網絡層數較少，對局部特征的聚合和不同尺度的特征融合還不夠充分，相比RandLA-Net的mIoU 僅提高了0.59 個百分點。當加入四組融合組件時，RandLANet+4×（FAF+BAF）網絡的參數量增加，推理時間也有一定的延長，而mIoU 相較于RandLA-Net僅提高了0.42 個百分點。當加入三組融合組件時，RandLANet+3×（FAF+BAF）分割精度取得最優的效果，mIoU 為57.89%，而參數量和模型復雜度僅有小幅度增加。

表4 雙向上下文注意力融合組件個數的實驗結果Table 4 Experimental results of the number of bidirectional contextual attention fusion components

2.3.4 CE-CSA 模塊組件的消融實驗

本文進一步探究CE 組件與CSA 組件分別對網絡精度的影響，CE-CSA 模塊組件的消融實驗結果如表5 所示。

表5 CE-CSA 模塊組件的消融實驗結果Table 5 Ablation experiment results of CE-CSA module component

為了保證唯一變量，基線方法是RandLA-Net+3×（FAF+BAF）。當單獨選用FSE 和BIE 組件編碼全局多尺度信息時，相較于基線方法的mIoU 下降0.31和0.37 個百分點。采用CSA 組件分別關注原始特征、淺層特征和高層語義特征，記作CSA1、CSA2、CSA3，其mIoU 相比基線方法下降0.63、0.8、1.36 個百分點。如果將所有尺度特征圖都經過通道自注意力關注不同通道特征，會大幅增大模型的復雜度，降低推理速度，同時產生大量參數。多個CSA 組件方法與基線方法相比的mIoU 下降了2.19 個百分點。BIE 組件在編碼時淺層特征權重大，沒有結合高層語義信息，BIE+CSA 方法相較于單獨BIE 方法，在一定程度上提高精度，但是會引入一定噪聲。BIE+CSA 方法相較于基線方法下降了0.3 個百分點，而FSE+CSA 方法能夠更充分地捕獲有價值的高層語義信息，因此FSE+CSA 方法具有較優的效果，mIoU為57.98%，且未引入大量的參數和延長運行時間，說明只有同時利用FSE 和CSA 才能對網絡的精度起到提升的效果。

3 結束語

本文提出基于上下文注意力的室外點云分割方法CAF-Net，該方法主要由雙通道上下文注意力融合模塊和上下文編碼-通道自注意力模塊組成。雙通道上下文注意力融合模塊通過雙通道注意力融合淺層特征和高層語義特征，以捕獲局部上下文特征，上下文編碼-通道自注意力模塊通過編碼多尺度特征以捕獲全局上下文信息，并設計通道自注意力機制關注特征通道之間的相關性。實驗結果表明，CAF-Net 能有效提高整體分割精度，且對小目標具有較優的分割效果。由于在自動駕駛等實際應用中通常對時序點云進行語義分割，因此下一步將對幀間語義一致性與輕量化分割方法進行研究，以降低模型復雜度，實現更準確且可移植的室外大場景點云語義分割。