一種面向低采樣率的點(diǎn)云數(shù)據(jù)處理網(wǎng)絡(luò)

2023-01-09 14:29:06林云漢劉雙元

計算機(jī)工程 2022年11期

張毅，林云漢，3，劉雙元

（1.武漢科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院，武漢 430065；2.智能信息處理與實(shí)時工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室，武漢 430065；3.武漢科技大學(xué) 機(jī)器人與智能系統(tǒng)研究院，武漢 430081）

0 概述

三維數(shù)據(jù)是一種空間立體圖像，其不僅包含二維數(shù)據(jù)具有的顏色信息，而且還攜帶獨(dú)有的深度信息，在自主導(dǎo)航［1-2］、增強(qiáng)現(xiàn)實(shí)［3］、物體識別［4-5］、機(jī)器人［6-7］等眾多領(lǐng)域都有著廣泛的應(yīng)用。近年來，隨著基于深度學(xué)習(xí)的方法在二維數(shù)據(jù)處理方面取得重大突破，眾多研究者開始嘗試?yán)蒙疃葘W(xué)習(xí)算法來替代傳統(tǒng)的算法實(shí)現(xiàn)高效的三維數(shù)據(jù)處理。不同于二維圖像數(shù)據(jù)的規(guī)則排列方式，三維的點(diǎn)云數(shù)據(jù)是無序的，因此直接進(jìn)行卷積時存在以下三個問題：一是點(diǎn)云的無序性，點(diǎn)云數(shù)據(jù)對數(shù)據(jù)的順序不敏感，導(dǎo)致點(diǎn)云分布不規(guī)律；二是點(diǎn)云數(shù)據(jù)的排列不變性，不同的矩陣可以表示相同的點(diǎn)云數(shù)據(jù)；三是點(diǎn)云數(shù)量的差異性，對于同一幅圖像，不同的傳感器獲取的點(diǎn)云數(shù)量可能存在很大差異。

現(xiàn)有基于深度學(xué)習(xí)處理點(diǎn)云數(shù)據(jù)的方法主要可以分為基于多視圖、基于體素和直接處理三類。其中，直接處理點(diǎn)云的方法很好地解決了對點(diǎn)云數(shù)據(jù)直接進(jìn)行卷積時存在的問題，受到了廣泛的關(guān)注與研究。對點(diǎn)云進(jìn)行直接處理的一系列網(wǎng)絡(luò)主要由采樣、分組和融合三個模塊組成。其中，采樣的算法包括最遠(yuǎn)點(diǎn)采樣（Farthest Point Sampling，F(xiàn)PS）和隨機(jī)采樣（Random Sampling，RS）兩種。例如，PointNet++［8］和RSCNN［9］使用FPS 進(jìn)行采樣，RandLA-Net［10］則是利用RS 進(jìn)行采樣。經(jīng)過FPS 采樣的點(diǎn)會均勻覆蓋到物體表面，但是在點(diǎn)云密度分布不均勻的情況下，采樣點(diǎn)不具有代表性，而且由于采樣點(diǎn)對異常值敏感，在采樣時會選中原始點(diǎn)云中距離物體表面較遠(yuǎn)的噪點(diǎn)作為采樣點(diǎn)。此外，F(xiàn)PS 的時間效率也較低，特別是在大規(guī)模場景下，采樣效率無法滿足網(wǎng)絡(luò)實(shí)時性的要求。在普通電腦配置下，對10 萬個點(diǎn)進(jìn)行采樣，F(xiàn)PS 所需時間量級是秒級，而RS 的時間量級則是毫秒級，RS 比FPS 快至少1 000 倍以上。對于RS，其應(yīng)用前提是原始點(diǎn)云數(shù)據(jù)中點(diǎn)云被選擇的概率相同。相比于FPS，雖然RS 的速度很快，但是由于隨機(jī)采樣過程中所有點(diǎn)被選擇的概率是相同的，因此最終采樣的結(jié)果中會包含一些關(guān)鍵特征的點(diǎn)或者離群點(diǎn)，造成物體關(guān)鍵特征信息的缺失和算法對噪聲點(diǎn)敏感。

為解決FPS 算法時間效率和RS 算法關(guān)鍵特征丟失問題，本文參考人類觀察事物的注意力模式，提出一種基于注意力機(jī)制的采樣網(wǎng)絡(luò)。設(shè)計注意力采樣（AS）模塊用于收集語義和任務(wù)信息，有效提取原始點(diǎn)云數(shù)據(jù)中的關(guān)鍵點(diǎn)。在此基礎(chǔ)上，提出一種易于合并到不同backbone 中的注意力采樣架構(gòu)，構(gòu)成面向低采樣率的點(diǎn)云數(shù)據(jù)處理網(wǎng)絡(luò)AS-Net。

1 相關(guān)工作

AS-Net 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示，將n個點(diǎn)輸入到網(wǎng)絡(luò)，然后通過兩個抽象階段和一個任務(wù)階段，再使用對稱函數(shù)融合點(diǎn)的特征后，最終輸出k個類的分類分?jǐn)?shù)。其中，抽象階段由注意力采樣（AS）模塊、分組（GP）模塊和融合模塊組成。

圖1 AS-Net 網(wǎng)絡(luò)架構(gòu)Fig.1 Network architecture of AS-Net

1.1 基于多視圖的點(diǎn)云處理方法

2015 年起，很多研究將處理二維圖像過程中使用卷積神經(jīng)網(wǎng)絡(luò)的方式［11-12］應(yīng)用到點(diǎn)云的處理中，其核心思想是使用很多不同視角的二維圖像來代替三維點(diǎn)云數(shù)據(jù)，之后再進(jìn)行處理，例如MVCNN［13］，該方法在ModelNet40 上的分類準(zhǔn)確率達(dá)到90.1%。GVCNN［14］在MVCNN 的基礎(chǔ)上加入了對各視圖間關(guān)系的考慮，在ModelNet40 上的分類準(zhǔn)確率達(dá)到93.1%。這類處理方法雖然具有大量的視角圖像，但依然會丟失信息，無法將三維模型完全表示出來。而使用這類方法應(yīng)考慮的另一個問題是如何聚合多個視圖的特征以實(shí)現(xiàn)提取特征的利用率最大化。

1.2 基于體素的點(diǎn)云處理方法

基于體素的點(diǎn)云處理方法將點(diǎn)云轉(zhuǎn)為體素網(wǎng)格來表示，以體素為單位進(jìn)行卷積，使用三維濾波器來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，例如VoxNet［15］。然而，當(dāng)三維點(diǎn)云數(shù)據(jù)十分龐大時，三維卷積神經(jīng)網(wǎng)絡(luò)會處理得十分緩慢。因此，為保障網(wǎng)絡(luò)的正常訓(xùn)練，通常會選擇使用低分辨率的體素網(wǎng)格進(jìn)行訓(xùn)練，但這樣會帶來大量的點(diǎn)云信息丟失，最終導(dǎo)致很大的誤差。對于這類方法，如果體素化的數(shù)據(jù)分辨率設(shè)置過低，會給后續(xù)任務(wù)帶來誤差，而如果分辨率設(shè)置過高，則會導(dǎo)致計算復(fù)雜度太大，因此，很難在這兩者之間取得平衡。

無論是基于多視圖的方法還是基于體素的方法，都需要對原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換，這種轉(zhuǎn)換不僅會導(dǎo)致模型復(fù)雜度過高，而且還會造成三維幾何信息的丟失。

1.3 直接點(diǎn)云處理方法

2017 年，斯坦福大學(xué)的QI等［16］提出了一種直接處理點(diǎn)云數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)PointNet，實(shí)現(xiàn)了對點(diǎn)云的直接特征提取。PointNet 利用設(shè)計的T-Net 處理點(diǎn)云的置換不變性問題，通過對稱函數(shù)來獲取全局的特征信息，解決點(diǎn)云的無序性問題，針對物體分類、部件分割以及場景語義分割等任務(wù)提出了統(tǒng)一框架。然而，雖然這種設(shè)計十分簡單高效，但是卻忽略了點(diǎn)云中的局部信息。同年，QI 等［8］在PointNet 的基礎(chǔ)上提出了PointNet++，通過學(xué)習(xí)不同尺度的上下文信息來融合局部特征。該算法的核心是多層次的特征提取結(jié)構(gòu)。首先在輸入點(diǎn)中選擇一些點(diǎn)作為中心點(diǎn)，然后圍繞每個中心點(diǎn)選擇一個區(qū)域，再將每個區(qū)域作為PointNet 的一個輸入樣本，得到一組區(qū)域特征。之后中心點(diǎn)不變，擴(kuò)大區(qū)域，把上一步得到的區(qū)域特征輸入PointNet，依此類推，最終得到一組全局的特征，用于后續(xù)任務(wù)。此外，PointNet++還使用了多尺度的方法，解決了樣本不均勻的問題，在樣本稀疏時具有魯棒性。2019 年，LIU等［9］提出了RSCNN，其為一種基于點(diǎn)云之間幾何關(guān)系的卷積神經(jīng)網(wǎng)絡(luò)，核心是建立點(diǎn)云間的拓?fù)浼s束關(guān)系，利用點(diǎn)云的形狀關(guān)系數(shù)據(jù)學(xué)習(xí)出卷積核里面的參數(shù)。學(xué)習(xí)后的卷積核參數(shù)包含了點(diǎn)云的形狀關(guān)系信息，可使整個網(wǎng)絡(luò)對點(diǎn)云剛體變換更具魯棒性。2020 年，ZHAO 等［17］提出了基于Transformer 的點(diǎn)云處理網(wǎng)絡(luò)PAT，利用Transformer 的置換不變性在不同的實(shí)驗(yàn)任務(wù)中取得了較好的效果。同年，朱威等［18］提出了一種基于動態(tài)圖卷積的深度學(xué)習(xí)網(wǎng)絡(luò)，將PointNet 中的特征學(xué)習(xí)模塊替換為動態(tài)圖卷積模塊，提高了整個網(wǎng)絡(luò)對局部信息的學(xué)習(xí)能力，在分類和分割的任務(wù)上具有很高的精度。2021 年，顧礫等［19］在PointCNN 的基礎(chǔ)上提出了一種基于多模態(tài)特征融合的網(wǎng)絡(luò)模型［20］，在對點(diǎn)云直接特征提取前提下，融入了投影圖的特征信息，該網(wǎng)絡(luò)模型在ModelNet40 數(shù)據(jù)集上分類精度達(dá)到96.4%。2021 年，田鈺杰等［21］提出深度神經(jīng)網(wǎng)絡(luò)RMFP-DNN，利用自注意力模塊和多層感知機(jī)提取點(diǎn)云的局部特征和全局特征，并將提取的特征互相融合，提高了分類分割的魯棒性。

在三維視覺的實(shí)際應(yīng)用中，不僅要處理完整均勻且數(shù)據(jù)量較少的CAD 數(shù)據(jù)集模型，而且還要處理數(shù)據(jù)量多的實(shí)際點(diǎn)云數(shù)據(jù)。PointNet++［8］和RSCNN［9］可以很好地處理像ModelNet40 這樣的CAD 數(shù)據(jù)集，但是直接處理點(diǎn)云的三維神經(jīng)網(wǎng)絡(luò)大多包含了采樣這個核心步驟，例如PointNet++和RSCNN 中都包含最遠(yuǎn)點(diǎn)采樣（FPS），對大規(guī)模實(shí)際點(diǎn)云的處理效率低下。除了高復(fù)雜度以外，F(xiàn)PS 與三維網(wǎng)絡(luò)訓(xùn)練是分開計算的，這意味著僅基于點(diǎn)云低級信息來選擇關(guān)鍵點(diǎn)而不考慮對象語義和任務(wù)消息。本文主要的設(shè)計思想便是設(shè)計一個可以代替獨(dú)立采樣過程的采樣層，并將該采樣過程集成到其他任務(wù)網(wǎng)絡(luò)中進(jìn)行基于數(shù)據(jù)驅(qū)動的端到端訓(xùn)練。在此基礎(chǔ)上，提出一種基于長短期記憶（Long Short-Term Memory，LSTM）網(wǎng)絡(luò)和注意力機(jī)制的采樣層AS Layer，然后將注意力采樣層連接起來，形成一個可以設(shè)置采樣率的注意力采樣模塊AS Module。將其他網(wǎng)絡(luò)模型中的采樣模塊替換為AS Module，形成最終的網(wǎng)絡(luò)AS-Net，即AS-Net由其他網(wǎng)絡(luò)的backbone和AS Module組成。

LSTM 網(wǎng)絡(luò)是一種特殊結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)，能夠很好地解決長期依賴的問題，在語音識別、文本建模、翻譯、行為預(yù)測、視頻理解等領(lǐng)域取得了成功應(yīng)用。然而，LSTM 存在一定局限性，當(dāng)輸入序列較長時，難以得到最終合理的向量表示。為了解決這個問題，注意力機(jī)制被提出。在注意力機(jī)制中，LSTM 的中間結(jié)果被保留，然后通過新模型進(jìn)行學(xué)習(xí)，最后與輸出相關(guān)聯(lián)以實(shí)現(xiàn)對信息的篩選［22］。近年來，基于注意力機(jī)制的網(wǎng)絡(luò)也被應(yīng)用于三維數(shù)據(jù)的處理，例如：3D2SeqViews［23］利用層次注意力的方法來處理視圖中的海量信息以及視圖之間的空間關(guān)系，有效融合了序列視圖；SeqViews2SeqLabels［24］引入了注意力機(jī)制以提高網(wǎng)絡(luò)的判別能力并為每種形狀類別添加相應(yīng)的權(quán)重；Point2Sequence［25］通過使用注意力機(jī)制將權(quán)重分配給不同的區(qū)域比例。在現(xiàn)有的3D 網(wǎng)絡(luò)中，注意力機(jī)制用于對網(wǎng)絡(luò)中的特征信息進(jìn)行加權(quán)，而基本方案還是基于二維多視圖的圖像處理。

本文提出的AS-Net 是一種直接處理點(diǎn)云的三維網(wǎng)絡(luò)。注意力機(jī)制用于構(gòu)建下采樣模塊，對點(diǎn)云進(jìn)行加權(quán)以獲得原始點(diǎn)云數(shù)據(jù)的加權(quán)特征。經(jīng)過本文設(shè)計的下采樣模塊采樣的點(diǎn)，可以保留更多關(guān)鍵信息，特別是在處理大規(guī)模場景時可以保證網(wǎng)絡(luò)的準(zhǔn)確性。

2 本文方法

AS-Net 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示，其中包括由本文設(shè)計的AS Layer 構(gòu)成的AS Module 和其他網(wǎng)絡(luò)的backbone。

2.1 AS Layer

AS Layer 主要由LSTM 組成，如圖2 所示。

圖2 AS Layer 結(jié)構(gòu)Fig.2 Structure of AS Layer

AS Layer 的目的是生成點(diǎn)云的注意力圖，這張注意力圖將會引導(dǎo)之后的分組層和融合層專注于更加重要的點(diǎn)。采樣方法如式（1）所示：

其中：Pt是采樣后的點(diǎn)集；Pt-1是輸入的原始點(diǎn)云數(shù)據(jù)或者是上一層采樣后的點(diǎn)云數(shù)據(jù)；Ht-1和Ct-1是上一層的隱藏層特征和細(xì)胞狀態(tài)特征；N為LSTM 的循環(huán)次數(shù)。在訓(xùn)練過程中，Ht-1和Ct-1的初始值均為0，N表示的是經(jīng)過AS Module 采樣后的點(diǎn)云數(shù)目，可以手動設(shè)置為任意值。

本文使用LSTM 網(wǎng)絡(luò)中的“門”結(jié)構(gòu)來對原始點(diǎn)云數(shù)據(jù)進(jìn)行特征提取，并生成原始點(diǎn)云數(shù)據(jù)的注意力特征圖。注意力特征圖的大小和輸入的原始點(diǎn)云的大小相同，通道數(shù)為1，經(jīng)過Sigmoid 激活函數(shù)之后，得到了每個點(diǎn)相對于后續(xù)任務(wù)的重要性，也就是注意力強(qiáng)度。本文設(shè)計的AS Layer 包含以下4 個主要的步驟：

步驟1確定需要丟棄的信息，如式（2）所示：

其中：Ft指的是遺忘門輸出；Ht-1和分別是上個隱藏層的特征信息和輸入點(diǎn)云的特征信息；Wf表示權(quán)重；bf表示偏差。

步驟2確定需要保留的信息以及狀態(tài)的更新方法，如式（3）和式（4）所示：

首先，通過輸入門保留數(shù)據(jù)并更新狀態(tài)值。然后，計算上一層的狀態(tài)Ct-1與遺忘門ft的乘積以放棄不必要的信息，例如離群點(diǎn)或者NaN 點(diǎn)。最后，計算輸入門與tanh 激活層所構(gòu)建的新候選向量的乘積，從而更新狀態(tài)Ct。

步驟3確定輸出值，如式（5）和式（6）所示：

利用上一個隱藏層的特征信息和輸入點(diǎn)云的特征信息，先計算出輸出門信息，然后根據(jù)輸出門Ot和經(jīng)過tanh 激活層的狀態(tài)Ct的乘積得到最終的輸出值Ht。

步驟4將輸出值激活并映射到0 到1 之間，如式（7）所示：

其中：A值越大，表示該點(diǎn)對于后續(xù)任務(wù)的相關(guān)性越高，最終得到一份全局點(diǎn)云信息的注意力圖。

2.2 AS Module

AS Module 由多個AS Layer 連接而成，每層Layer可以根據(jù)其輸出的注意力圖選擇若干關(guān)鍵點(diǎn)，并將選擇的關(guān)鍵點(diǎn)作為采樣結(jié)果提供給下一層。AS Layer的層數(shù)和每層后的選擇點(diǎn)數(shù)可根據(jù)實(shí)際需要設(shè)置。在本文中，綜合考慮網(wǎng)絡(luò)的時間性能和采樣性能，經(jīng)實(shí)驗(yàn)驗(yàn)證，采用兩個AS Layer 組成的AS Module 性能最佳。AS Module 結(jié)構(gòu)如圖3 所示。本文設(shè)計的AS Module的采樣率是一個變量，這意味著可以根據(jù)實(shí)際采樣需求手動設(shè)置不同的采樣率。

圖3 AS Module 結(jié)構(gòu)Fig.3 Structure of AS Module

3 實(shí)驗(yàn)與結(jié)果分析

本文通過分類實(shí)驗(yàn)和抗噪實(shí)驗(yàn)驗(yàn)證AS Module的有效性，設(shè)計消融實(shí)驗(yàn)驗(yàn)證AS Module 中Layer 參數(shù)選擇的合理性，并在物體分類任務(wù)和大場景分割任務(wù)上驗(yàn)證AS-Net 模型的準(zhǔn)確性。對于AS Module的驗(yàn)證，在同一基準(zhǔn)網(wǎng)絡(luò)PointNet 上執(zhí)行不同的采樣方法，以驗(yàn)證AS Module 對物體分類的精度和對高斯噪聲的魯棒性。對于AS-Net 的驗(yàn)證，包括三維物體分類和大場景分割兩個方面的實(shí)驗(yàn)測試。本文實(shí)驗(yàn)使用Tensorflow 框架，在11 GB 內(nèi)存的NVIDIA GeForce GTX 1080 Ti GPU 上進(jìn)行，操作系統(tǒng)為Ubuntu 16.04。

3.1 AS Module 對物體分類的精度驗(yàn)證

在本節(jié)中，以PointNet為基準(zhǔn)網(wǎng)絡(luò)架構(gòu)，分別使用FPS 方法、RS 方法以及AS Module 對原始點(diǎn)云進(jìn)行采樣處理，測試不同的采樣方法對原始數(shù)據(jù)的采樣效果，以物體分類的精度作為評價指標(biāo)。測試數(shù)據(jù)集為ModelNet40 數(shù)據(jù)集，數(shù)據(jù)集包含40 類物體的12 311 個CAD 模型，其中9 843 個用于訓(xùn)練，2 468 個用于測試。

本文使用FPS 方法、RS 方法和AS Module 對原始數(shù)據(jù)進(jìn)行下采樣，將原始數(shù)據(jù)下采樣到原始數(shù)據(jù)的1/2、1/4、1/8、1/16 和1/32。然后，將采樣點(diǎn)作為PointNet 的輸入來測試分類精度。測試結(jié)果如表1和圖4 所示，表中最優(yōu)數(shù)據(jù)以加粗標(biāo)注。

表1 不同采樣率下各采樣方法的分類精度對比Table 1 Classification accuracy comparison of each sampling method under different sampling rates

圖4 本文方法與FPS、RS 方法的分類精度對比Fig.4 Classification accuracy comparison among FPS，RS methods and the proposed method

表1 和圖4 表明，當(dāng)采樣數(shù)據(jù)為原始數(shù)據(jù)的1/4時，基于FPS 和RS 的網(wǎng)絡(luò)分類準(zhǔn)確率分別為82.0%和75.0%，而基于AS Module 的分類準(zhǔn)確率仍達(dá)到87.1%。此外，當(dāng)采樣數(shù)據(jù)為原始數(shù)據(jù)的1/32 時，基于FPS 和RS 的網(wǎng)絡(luò)已經(jīng)不能對物體準(zhǔn)確分類，而AS Module 的分類精度仍然在80%以上（81.6%），證明了基于AS Module 的網(wǎng)絡(luò)具有很強(qiáng)的魯棒性。整體的實(shí)驗(yàn)結(jié)果表明，AS Module 可以在無序點(diǎn)云中準(zhǔn)確地找到與后續(xù)任務(wù)相關(guān)性高的采樣點(diǎn)。

圖5～圖7 展示了ModelNet40 數(shù)據(jù)集中人型模型利用不同采樣方法的可視化結(jié)果?？梢钥闯?，本文方法可以更好地保留原始模型中比較突出特征的關(guān)鍵點(diǎn)，準(zhǔn)確分辨出球、頭部以及四肢的形狀。

圖5 人模型采用RS 方法的可視化結(jié)果Fig.5 Visualization results of humanoid model using RS method

圖6 人模型采用FPS 方法的可視化結(jié)果Fig.6 Visualization results of humanoid model using FPS method

圖7 人模型采用AS Module 方法的可視化結(jié)果Fig.7 Visualization results of humanoid model using AS Module method

3.2 AS Module 對高斯噪聲的魯棒性驗(yàn)證

在每個點(diǎn)上添加均值為0、標(biāo)準(zhǔn)差為0.05 dB 或0.1 dB 高斯噪聲，然后對比不同的采樣方法對于PointNet 分類準(zhǔn)確率的影響，結(jié)果如表2 所示，表中最優(yōu)數(shù)據(jù)以加粗標(biāo)注?？梢钥闯觯诓煌牟蓸勇氏拢跇?biāo)準(zhǔn)差為0.05 dB 或0.1 dB 的高斯噪聲下，AS Module 都獲得了更高的物體分類準(zhǔn)確率。

表2 不同采樣方法對擾動噪聲的魯棒性測試結(jié)果Table 2 Robustness test result of different sampling methods to disturbance noise

以上兩個實(shí)驗(yàn)的結(jié)果證明，本文提出的AS Module 可以很好地從原始點(diǎn)云數(shù)據(jù)中挑選出含有更多信息的關(guān)鍵點(diǎn)，可在整個三維網(wǎng)絡(luò)中實(shí)現(xiàn)高精度的物體分類提供可靠保證。

3.3 三維物體分類

將主流的直接處理點(diǎn)云的網(wǎng)絡(luò)中的采樣方法替換成AS Module，形成不同的AS-Net。本節(jié)實(shí)驗(yàn)證AS-Net在三維物體分類上的性能，實(shí)驗(yàn)設(shè)定與PointNet 一樣，在ModelNet40 數(shù)據(jù)集上進(jìn)行評估并利用分類準(zhǔn)確率作為評價指標(biāo)。表3 對比了AS-Net與其他基于點(diǎn)的方法在物體分類任務(wù)上的準(zhǔn)確率?？梢钥闯?，利用AS Module改進(jìn)的RSCNN-ssg得到的AS-Net（RSCNN-ssg）優(yōu)于其他所有網(wǎng)絡(luò)，分類準(zhǔn)確率從原始的RSCNN-ssg的92.2%提高到了92.54%，且投票后準(zhǔn)確率可以達(dá)到92.77%。需要說明的是，RSCNN 的多尺度模型目前還不穩(wěn)定，作者沒有公布源碼，所以，本文僅對RSCNN 的單尺度分類模型進(jìn)行對比和分析。同樣將PointNet++-ssg中的FPS換成ASModule得到AS-Net（PointNet++-ssg），將分類準(zhǔn)確率從90.7%提高到了91.34%，證明了本文的采樣方法相比于其他同類方法具有更好的采樣性能。

表3 ModelNet40 數(shù)據(jù)集上的物體分類精度Table 3 Object classification accuracy on ModelNet40 dataset

3.4 大場景分割

在大場景分割中，由于點(diǎn)云數(shù)量過多導(dǎo)致計算效率低下，因此，采樣算法在大場景中具有重要的作用，可以在一定程度上縮短整個分割的時間。本節(jié)主要對AS Module 在大場景分割下的效率和性能進(jìn)行分析，其中大場景分割是在ScanNet 上進(jìn)行測試和評估，該數(shù)據(jù)是一個大規(guī)模的RGB-D 數(shù)據(jù)集，其中包括1 513 個掃描和重建的室內(nèi)場景。

在測試過程中，輸入點(diǎn)云數(shù)量為8 000，實(shí)驗(yàn)過程中測試并記錄網(wǎng)絡(luò)所需要的推理時間和浮點(diǎn)數(shù)數(shù)據(jù)量，通過測試的分割準(zhǔn)確率來評估性能，以及記錄的推理時間和浮點(diǎn)數(shù)數(shù)據(jù)量來評估網(wǎng)絡(luò)的效率。由于GPU 準(zhǔn)備需要時間，因此忽略第一批測試時間，最終結(jié)果如表4 所示，其中最優(yōu)數(shù)據(jù)以加粗標(biāo)注。

表4 ScanNet 數(shù)據(jù)集上的語義分割結(jié)果Table 4 Semantic segmentation results on ScanNet dataset

如表4 所示，通過將PointNet++中采樣算法進(jìn)行替換（將原來的FPS 替換為本文提出的采樣方法），在ScanNet 數(shù)據(jù)集下的測試結(jié)果表明：替換前后的分割準(zhǔn)確率雖然提高不明顯，其參數(shù)數(shù)量和浮點(diǎn)數(shù)數(shù)量與原始的PointNet++-ssg 基本相同。然而AS-Net將推理時間減少了50%，顯示了其在大規(guī)模場景分割方面的巨大潛力。

3.5 消融實(shí)驗(yàn)

在消融實(shí)驗(yàn)中，通過改變AS Module中AS Layer的層數(shù)進(jìn)行分析和驗(yàn)證。利用改變后的AS Module 對原始點(diǎn)云數(shù)據(jù)進(jìn)行采樣，之后將采樣點(diǎn)作為分類網(wǎng)絡(luò)的PointNet 的輸入，測試物體的分類精度和時間效率。

不同層數(shù)下的分類準(zhǔn)確率和測試時間如表5和表6所示，其中測試時間是通過計算ModelNet40 測試集運(yùn)行一次的時間?？梢钥闯觯?dāng)AS Module 中Layer 的層數(shù)為1 時，低采樣率下的分類準(zhǔn)確率明顯低于層數(shù)為2 或3 的AS Module，說明當(dāng)Layer 層數(shù)過低時，提取的特征信息不足以在后續(xù)過程中選擇關(guān)鍵的采樣點(diǎn)。當(dāng)AS Module 中的Layer層數(shù)的范圍在2～4 層且采樣的點(diǎn)云數(shù)目相同時，不同的層數(shù)對最終的分類準(zhǔn)確率的影響不超過1%。反而隨著Layer層數(shù)增多，AS Module 更加復(fù)雜，測試時間變慢。當(dāng)Layer 層數(shù)達(dá)到5 層時，由于層數(shù)過多，深層Layer 沒有很好地學(xué)習(xí)到點(diǎn)云特征，難以優(yōu)化。綜上所述，建議將AS Module 中的Layer 層數(shù)設(shè)置為2 層。

表5 不同層數(shù)下的分類精度對比Table 5 Comparison of classification accuracy under different layers

表6 不同層數(shù)下的測試時間對比Table 6 Comparison of test time under different layers

4 結(jié)束語

本文構(gòu)建一種面向低采樣率的點(diǎn)云數(shù)據(jù)處理網(wǎng)絡(luò)，將注意力機(jī)制應(yīng)用于三維網(wǎng)絡(luò)對原始點(diǎn)云數(shù)據(jù)進(jìn)行下采樣，并提出AS-Net，其核心是本文設(shè)計的AS Module，可以有效地從原始點(diǎn)云數(shù)據(jù)中提取出有利于后續(xù)任務(wù)的關(guān)鍵點(diǎn)。在分類實(shí)驗(yàn)中，本文所提出的基于AS Module的AS-Net 的分類準(zhǔn)確度均高于其他網(wǎng)絡(luò)。在分割任務(wù)中，也展現(xiàn)了對大場景點(diǎn)云任務(wù)進(jìn)行高效處理的潛力。此外，AS Module 是一種靈活的采樣結(jié)構(gòu)，可以很容易地集成到不同的backbone 中，實(shí)現(xiàn)端到端的網(wǎng)絡(luò)訓(xùn)練。下一步研究將把本文方法應(yīng)用于更多包含采樣的網(wǎng)絡(luò)模型中，針對實(shí)際的應(yīng)用領(lǐng)域或者實(shí)際的點(diǎn)云場景進(jìn)行更全面的測試與驗(yàn)證。