基于位置編碼和雙距離注意的點云分割方法

2024-03-25 06:39:04溫智成馮錦梁葉森輝

激光與紅外 2024年2期

關鍵詞：語義特征信息

溫智成,王蕾,馮錦梁,葉森輝

(東華理工大學信息工程學院,江西南昌 330013)

1 引言

隨著機器人、自動駕駛和AR/VR應用的日益普及,對3D點云數據處理的需求正在迅速增長[1-2]。然而,由于其固有的不規則性和無序性等特點,處理此類數據具有挑戰性。正則化的卷積不適用于點云處理。

為了處理三維點云數據,許多研究人員探索將它轉換為其他形式的表示,并應用卷積運算來學習特征信息。這些方法可以分為三類:基于投影的方法[3-5]、基于體素化的方法[6-7]和基于點的方法[8-21]。

基于投影的方法。將點云投影到二維平面上,將其作為正則化圖像進行處理。Gvcnn[3]設計了一個由視圖、組和形狀組成的框架,可以更有效地聚合來自各種視圖的信息并識別3D形狀。RangeNet++[4]將點云轉換為距離圖像表示,使用2D卷積進行語義分割,并使用k近鄰算法提高分割性能。View-gcn[5]使用圖卷積網絡聚合多視圖特征。但是,這種方式會導致部分點云信息的丟失。

基于體素的方法。將點云轉換成三維體素,隨后通過三維卷積運算學習特征信息。Voxnet[6]網絡使用基于體素的表示作為對象識別和其他任務的輸入。SPVConv[7]引入了一種低成本、高分辨率的基于點的分支結構,可以捕獲更細粒度的信息。然而,該類方法會造成高額的計算成本和內存消耗。

基于點的方法。直接在原始點云上執行卷積操作,無需將點云轉換為中間態的表示,從而避免了上述方法的缺點。PointNet[11]和PointNet++[12]是第一批直接對點進行操作的研究工作。AGConv[15]通過將坐標與對于點的其余特征相乘,使卷積對每個局部區域的操作是各向異性的。PCT[19]采用全局自注意力機制,使各點能夠關注彼此的特征信息。

然而,上述基于點的方法由于使用對稱聚合操作,導致無法獲得點云的良好局部表示,從而導致局部信息的嚴重丟失。

為了應對這些挑戰,本文提出了DualRes-Net網絡。利用位置編碼模塊(Position Encoding Module,PEM)對點云的坐標特征進行編碼,從而獲得更有效的局部信息表示。采用雙距離注意池(Dual-distance Attention Pooling,DDAP)將中心點與鄰近點的差異與注意力相結合,更好地實現了點云內部局部信息的自適應聚合。然后利用去分化殘差(De-Differentiation Residual,DDRes)結構挖掘點云的深層語義信息,利用MLP分別學習對應點的坐標特征等特征,從而穩定模型的訓練。本文提出的DualRes-Net在S3DIS Area5上的分割性能優于許多基準網絡。

2 本文方法

本文提出了一種DualRes-Net網絡,如圖1所示(圖中Input Data為輸入點云數據;Output為預測語義;DS為下采樣方法),該網絡主要由三個關鍵模塊組成:位置編碼模塊(PEM)、雙距離注意池(DDAP)模塊和去分化殘差(DDRes)模塊。由于本文所提方法與點云的Transformer類方法相似,所以在本節中,我們首先介紹本文所提三個模塊的具體結構,隨后將本文方法與Transformer類方法進行比較。

圖1 DualRes-Net網絡架構

2.1 位置編碼模塊(PEM)

點云點屬性包括坐標、顏色和其他屬性。在點云語義分割任務中,網絡對位置信息比其他信息更敏感。例如,在分割綠墻和草地時,坐標特征可以清楚地顯示兩者的區別。

因此,提出PEM模塊,如圖2所示(圖中N為點數,k為最近鄰搜索次數,3和C分別為坐標特征通道數和對應點其余特征通道數)。該模塊明確地將編碼的坐標特征與相應的點特征融合,使點特征知道自己在空間中的位置。這使得PEM能夠清晰地觀察到局部信息,這對于學習復雜的場景結構非常有益。該模塊的操作步驟如下:

圖2 位置編碼模塊(PEM)

(1)

(2)

重復兩次以上的點坐標編碼和點特征融合步驟,可以得到更好的局部點云表示,從而提高網絡的分割性能。

2.2 雙距離注意池模塊(DDAP)

圖3 雙距離注意池(DDAP)

(3)

(4)

為了加快網絡的推理速度,我們將其設為負指數函數,如式:

(5)

因此,處理后的輸入數據如式:

(6)

其中,“‖”為連接符號。

處理后的數據通過MLP和softmax層傳遞,如式:

score=Softmax(MLP(fconcat))

(7)

獲取局部區域內各點對應的分數。

最后將分數乘以局部區域內對應的點,利用對稱函數Sum對局部信息進行匯總,如式:

(8)

2.3 去分化殘差模塊(DDRes)

傳統的殘差模塊首先使用k近鄰(KNN)算法獲得局部區域。通過連接相應點的坐標和其他特征,數據通過MLP和最大池化層提供。輸出再經過兩層MLP處理學習特征信息,最后加入到輸入數據中形成殘差模塊的輸出。傳統殘差模塊結構如圖4(a)所示,公式如下:

圖4 去分化殘差(DDRes)

fmax=max(φ(inputknn))

(9)

fout=φ×2(fmax)+inputfeat

(10)

其中,inputknn表示對輸入數據進行KNN搜索得到的局部數據;inputfeat表示對應點的其余特征;fmax表示MLP和max-pooling后的數據輸出;fout表示殘差模塊的輸出。

傳統的殘差模塊是將坐標特征與對應點的剩余特征進行拼接,利用MLP學習特征信息。受CN[21]的啟發,由于不同的輸入類型(坐標特征、顏色特征)具有明顯不同的分布,這可能導致模型訓練不穩定。為了解決這一問題并穩定模型訓練,本文提出了去分化殘差(DDRes)模塊。MLP分別應用于坐標特征和對應點的其余特征。使用最大池將兩個MLP的輸出結果相加以獲得局部特征,然后將其通過兩個MLP層并與輸入數據相加。DDRes模塊結構如圖4(b)所示,公式如下:

fmid=φ(inputx)+φ(inputfeat)

(11)

fmax=max(fmid)

(12)

綜上所述,PEM可以獲得更好的點云局部表示,提高分割性能;DDAP模塊將中心點與鄰近點的差異與注意力池相結合,自適應聚合局部信息;DDRes模塊使用去分化結構來穩定模型訓練,同時從點云中挖掘深度信息。

2.4 Transformer類方法

本文所提方法DualRes-Net與點云的Transformer類方法類似,下面將詳細介紹Point Transformer[20]和Fast Point Transformer[21]方法。

Point Transformer:該網絡的輸入為點云數據,其中每個點由3D坐標和顏色特征表示。它首先將點云映射到一個低維特征空間,并將這些特征作為Transformer的輸入。Transformer由多個編碼器層組成,每個編碼器層包含自注意力機制和前饋神經網絡。自注意力機制通過計算點與其他點之間的相似度,學習點的上下文信息,以至于每個點都能夠利用周圍點的信息來更新自身的特征表示。多頭自注意力機制并行計算多個關注權重,以捕捉不同層次的特征。通過多個編碼器層的堆疊,Point Transformer能夠建模點云中點的全局和局部關系,并提取豐富的特征。

FastPoint Transformer:該方法在Point Transformer的基礎上引入了稀疏技術,通過對點云進行子采樣來減少計算量。它的關鍵思想是將點云劃分為一組局部鄰域,并且僅對每個局部鄰域應用Transformer操作。這樣可以減少自注意力機制的計算復雜度,并仍然能夠捕捉到全局和局部之間的關系。

上述方法對點云局部利用自注意力機制,并在編碼器與解碼器層添加多個自注意力機制,從而獲得豐富的特征信息。然而,與本文方法DualRes-Net相比,由于在編碼器層與解碼器層存在多層自注意力,Transformer類方法會導致高額計算量的問題。

3 實驗

在本節中,在S3DIS數據集上進行了實驗,以評估提出的DualRes-Net網絡。

3.1 數據集

S3DIS數據集是斯坦福大學提供的一個公開可用的數據集。它由271個房間組成,完全由6個不同的大型區域的點組成,有13個語義類別(窗戶,墻壁,椅子等)。每個點包含歐幾里德坐標和顏色信息。

3.2 實現細節

S3DIS數據集分為6個不同的區域(Area1-Area6)。本文使用Area5作為測試集,其余5個區域作為訓練集。使用平均交聯(Intersection over Union,mIoU)作為語義分割性能的度量。

提出的DualRes-Net網絡是基于Pytorch框架實現的。實驗在一臺配備NVIDIA RTX3080 GPU的服務器上進行。訓練時,EPOCH設置為100,BatchSize設置為4,初始學習率設置為0.01,使用AdamW優化器,使用余弦退火函數逐漸衰減學習率。

3.3 評估性能

DualRes-Net網絡和其他方法在S3DIS Area5上的量化語義分割性能如表1所示。

表1 S3DIS Area5的語義分割結果

表1展示了本文提出的DualRes-Net方法在S3DIS Area5上的定量語義分割性能,mIoU為63.7 %,OA為87.5 %,mAcc為70.8 %。與經典的語義分割方法PointWeb、RandLA-Net和GACNet相比,該方法的mIoU分別提高了3.4 %、1.3 %和0.8 %。

為了證明我們提出的方法在語義分割方面的有效性,我們在Area5中可視化了三種不同類型的房間,如圖5所示。

圖5 Area5的部分房間可視化結果

3.4 消融實驗

為了驗證DualRes-Net中三個關鍵模塊的有效性,在Area5上進行了消融實驗。

從表2可以看出(其中“√”表示采用該方法,“×”表示沒有采用該方法),如果移除PEM、DDAP和DDRes模塊,性能會下降8.9 %。加入位置編碼模塊PEM后,分割性能提高至55.6 %,比移除所有模塊提高1.8 %,說明對點云的位置信息進行編碼可以獲得有效的局部特征表示。與不添加殘差結構Res相比,添加殘差結構Res的模型性能提高了3.8 %,表明殘差結構Res可以挖掘深度點云信息。與加入殘差結構Res相比,加入去分化殘差模塊DDRes的模型性能提高了0.8 %,說明分別對對坐標和對應點的其余特征應用MLP可以穩定模型訓練,提高分割性能。最后,與不添加雙距離注意池模塊DDAP相比,添加DDAP可以使mIoU指標提高3.5 %,表明該模塊可以有效地自適應聚合局部信息。

表2 在Area5上的DualRes-Net消融實驗結果

4 總結

本文提出了DualRes-Net網絡,以解決現有的許多點云分割方法對局部位置信息表示能力有限以及丟失重要特征信息的問題。采用位置編碼模塊(PEM)對點坐標進行編碼,采用雙距離注意池(DDAP)模塊對局部特征信息進行自適應聚合,采用去分化殘差(DDRes)模塊挖掘深層點云特征,采用多層感知器(MLP)分別對坐標和對應點的其余特征進行處理。實驗結果表明,該方法的分割性能為mIoU 63.7 %,優于許多現有點云語義分割的網絡。消融實驗表明了PEM、DDAP和DDRes模塊的有效性。