基于ConvMixer架構的高效點云分類方法

2024-03-22 03:05:30王淳趙艷明馮燕

中國傳媒大學學報(自然科學版) 2024年1期

王淳，趙艷明，馮燕

（中國傳媒大學信息與通信工程學院，北京 100024）

1 引言

近年來，二維傳統視覺任務隨著深度學習技術的飛速發展日益成熟。而隨著三維掃描技術的發展和三維視覺算法的廣泛應用，三維識別任務也在自動駕駛[1]、機器人[2]、增強現實[3]等領域越來越受到關注。點云分類任務作為目標識別、三維重建等任務的前提，是三維識別領域的一大研究熱點。點云作為一種常用的三維數據，具有非常強的空間表達能力，能夠在保留三維空間位置坐標的同時，附加上可選的其他信息，如顏色、法向量和反射強度信息等。然而，由于點云的稀疏、不規則和無序結構等特性，有效設計局部幾何關系提取器和網絡架構來完成對點云數據的特征學習仍然是一項具有挑戰性的任務。

為了應對這一挑戰，以往的點云分析方法可以大致分為兩類。第一類是基于投影的方法[4-6]，有時也稱為基于結構化點云的方法。此類方法將點云變換成規則化的、可以使用卷積神經網絡直接處理的形式。按照將點云轉換成規則化數據所采用策略的不同，可進一步分為基于多視圖和基于體素的方法。盡管結構化表示法在一定程度上解決了不規則和無序的問題，但缺陷依然存在?；诙嘁晥D的方法不是真正的三維表示，而體素化嚴重影響內存和計算成本，且兩者都可能丟失重要的幾何信息。

第二類是基于原始點云的方法[7-9]，其直接對原始點云數據進行處理，最大限度地保留了點云信息的完整性，是現如今基于深度學習的點云處理的主要研究趨勢。其中，斯坦福大學Charles等人[7]提出的PointNet開創性地將多層感知器（Multilayer Perceptron，MLP）[10]與全局聚合相結合，對每個點進行編碼。其一系列后續研究[11-14]表明，高效的局部特征描述符可以大大提高點云分類的性能。

然而，先前研究的問題在于，雖然提供了高效的局部幾何關系提取器，但復雜的網絡設計阻礙了其應用效率。針對這一點，關于圖像分類的文獻[15]引起了本文作者的注意，它提出了ConvMixer 這一極其簡單的架構，證明了使用局部塊（Patch）作為輸入表示可能是實現卓越性能的關鍵。受此啟發，本文通過其架構設計了一個簡單但仍然有效的點云處理網絡Point-ConvMixer。此外，本文還發現，點對特征（Point Pair Feature，PPF）[16]作為一種快速的局部特征編碼方法，可以通過三維局部塊的形式有效地探索局部幾何信息，并在實驗中得到了證實。

本文提出了一種新穎的點對特征卷積網絡PPFConvMixer，用于基于三維點云的物體分類和部件分割。PPFConvMixer包含了三維Patch嵌入策略和改進的ConvMixer 架構，并將PPF 描述子納為局部點云特征編碼方法。首先，根據每個局部區域的參考點及其鄰近點計算PPF。最終的局部幾何圖形將由一組增強的幾何關系來表示：點、法向量和PPF。與Point-Net++[8]類似，PPFs 將中心點的成對特征聚合到其他點。不過，PPFConvMixer使用反對稱四維描述符來表示一對定向三維點的表面，從而更好地描述了局部區域，且不會重復組合附近的Patch 嵌入，這使得可以圍繞Patch 本身的有效性進行研究。然后，應用三維Patch嵌入處理來保持局部性，將小區域的點組合成單一的輸入特征。在ConvMixer[15]的啟發下，最終利用標準卷積構成的各向同性架構（Isotropic Architecture），分別實現了空間維度和通道維度的混合，同時在整個網絡中保持了相同的大小和分辨率。本文在兩個具有挑戰性的基準上進行了廣泛實驗。該卷積網絡設計在實現上非常簡單，但能夠在形狀分類和部件分割任務中產生具有競爭力的準確性。

本文的主要貢獻有三個方面：

（1）提出了PointConvMixer 網絡，該網絡在ModelNet40和ShapeNet數據集上的物體分類和形狀分割任務中獲得了極高的準確率，證明了其有效性和通用性。

（2）創新地在點云分類任務中使用PPFs 來有效地描述局部幾何信息，采用PointConvMixer 的優化網絡PPFConvMixer的點云分類準確率高達93.8%。

（3）通過實驗證明，和注意力機制及Transformer架構的開發相比，Token 化的輸入設計在點云學習中同樣值得關注。對于點云分析來說，“Patches are all you need”這一結論仍然有效。

2 相關研究工作

2.1 基于多視圖和基于體素的方法

基于多視圖的方法和基于體素的方法是基于投影的方法的兩個分支。由于點云的不規則性，早期的研究[17-20]將點云投影到多視圖圖像以對點云數據進行卷積。雖然基于視圖的三維表示方法可以實現良好的性能，但它需要花費大量時間并需要更多內存進行渲染，這使得該方法無法應對實時應用。獲取規則化點云數據的另一種直接方法是將點轉換為空間體素，這可以歸納為基于體素的方法。對于體素模型，內存消耗的限制決定了輸入3D 網格的分辨率較低，導致點云結構信息丟失，隨后的研究一直在努力克服這一缺陷。例如，OctNet[11]和Kd-Net[12]分別利用八叉樹結構和KD 樹結構來替換固定大小的體素網格，以減輕分析難度。但由于表示質量在很大程度上依賴于高分辨率網格，使用體素模型仍然效率不高。與上述兩種方法不同，本文直接從原始點云中提取特征。

2.2 基于原始點云的深度學習方法

逐點(Point-Wise)網絡直接處理原始點集以提取特征。該領域的先驅性網絡PointNet[7]利用MLP對每個點進行單獨編碼，然后通過全局池化整合提取的點特征。然而，這種網絡設計忽略了對于點云識別任務至關重要的局部細節。為此，PointNet++[8]通過局部特征聚合與多層次特征提取結構改進了PointNet。然而，由于其局部特征的聚合僅通過最大池化實現，PointNet++網絡并未充分利用區域信息。為充分挖掘局部結構信息，DGCNN[13]設計了EdgeConv 模塊來生成邊緣特征，將與同一指定局部區域內中心點及其鄰近點的特征差值相連接，然后按MLP 編碼方法和最大池化聚合操作進行處理。為了整合區域信息，PointWeb[14]通過連接和探索區域內的所有點對，來窮舉上下文信息。雖然其獲得了更具代表性的區域特征，但需要更多的時間成本和計算資源。

最近的一些研究轉為聚焦于點卷積核的設計。PointCNN[21]通過-Conv算子對輸入點和特征進行置換和加權，將鄰近點轉換為規范順序。PAConv[22]通過動態組合存儲在權重庫中的基本權重矩陣來構造卷積核，并且可以作為即插即用的卷積操作使用。

本文的研究重點之一是通過學習反對稱四維描述符（包括點對之間的交角和距離參數）來捕捉點的局部空間布局。相對而言，本文網絡占用的時間和計算資源更少，且能很好地保留點之間的關系。

2.3 各向同性架構

與呈金字塔形的主流CNN 模型架構不同，各向同性架構（也稱同質架構）由串聯的重復塊（Block）組成。這種新的架構范式受到視覺Transformer的啟發，其特點是各個塊的大小和形狀相同，并在第一層使用Patch 嵌入。在圖像分類任務中，很多研究嘗試對一或兩個重復塊進行各種新穎的操作以獲得良好的性能，例如MLP-Mixer[23]、ResMLP[24]、gMLP[25]等。但這也帶來了一個問題：它們的良好性能是通過應用新的操作實現的，還是通過使用Patch 嵌入和由此產生的同質結構實現的？

一些學者還嘗試采用注意力機制和Transformer架構來進行點云處理。PointASNL[26]提出了一種自注意力機制來更新局部點簇的特征，以應對點云處理中的噪聲。Point Transformer[27]為點云設計了自注意力層，并使用它們構建用于點云識別任務的自注意力網絡。Point Cloud Transformer（PCT）[28]創建了一個由增強的輸入嵌入和簡單Transformer 組成的點云處理架構，以進行特征學習。盡管這些方法相當強大，但它們的有效性來源依然并不明確。

本文的研究重點之一為：明確這些基于Transformer 的點云處理方法的有效性是源于Transfromer編碼器Block的使用，還是源于Patch嵌入的使用和由此產生的同質結構。為了排除前者對網絡性能帶來的影響，并證明Patch 嵌入和由此產生的同質結構的組合足夠有效，本文使用的網絡與PCT 類似，直接對Patch 進行操作，在所有層中保持等分辨率和大小的表示，并將信息的“通道混合”與“空間混合”分開。不同的是，本文只使用標準卷積來制定所提出的架構，并獲得了更好的性能。

3 基于ConvMixer的點云分類方法

本節首先分析局部幾何提取器的一般用法，并回顧PointNet++[8]、PointWeb[14]和RS-CNN[9]中的相關操作。然后，介紹用于編碼局部Patch 的PPF 模塊，以及用于點云分類中間特征處理的ConvMixer 層。通過將用于圖像的ConvMixer 架構移植到點云處理中，獲得底層模型PointConvMixer，該模型可用于形狀分類或部件分割等不同任務。最終提出了PPFConvMixer網絡并詳細闡述其用于點云分類的處理鏈。

3.1 基礎方法闡述

以往的研究重視局部特征聚合，因為利用局部特征描述器的目的通常是為了學習局部信息的隱含模式，以獲得更好的點云學習結果。給定三維點云X={xi|i= 1,…,N}∈?3×N，其中N表示輸入點的數量。一般來說，第一步是選擇參考點作為中心點，按照確定性規則形成局部區域。最遠點采樣和均勻采樣是兩種常用的方法。然后，通常選K 近鄰（K-Nearest Neighbor，KNN）算法作為分組算法來計算每個中心點的鄰近點，因為其計算效率較高。

將一個輸入點表示為xi∈?3×N，其鄰近點表示為xij，其卷積層中的輸入特征表示為fi∈?cin×N、其輸出特征圖為gi∈?cout×N，其中cin和cout表示輸入和輸出的通道維度。局部特征聚合過程可表述為式（1）：

其中，A(·)表示聚合函數，M(·)表示局部特征提取的映射函數，fij是代表第i采樣點的第j個鄰近點特征的關系編碼函數。參數k是每個局部Patch 包含的點數。對PointNet++[8]來說，A(·)是最大池化操作，M(·)是共享的MLP網絡，fij實際上是第一層中受分組方法影響的xij。此外，它還堆疊了多個學習階段來學習分層特征，并在每個階段通過最遠點采樣對點進行重新采樣。通過這種方式，該方法可以逐步擴大感受野?；谶@種處理流程，PointWeb[14]提出了一個即插即用的自適應特征調整（AFA）模塊，用于學習每個點對其他點的影響，并將點密集連接成局部點網。其關系編碼函數替換為式（2）：

RS-CNN[9]是另一種強調局部特征提取的網絡，其通過關系學習提取出兩點之間的關系表達式，然后利用關系表達式更新參考點的特征。與PointWeb不同，RS-CNN 通過式（3）深入挖掘局部幾何信息：

與PointWeb 和RS-CNN 類似，大量方法側重設計精細的局部特征提取器，利用詳細的局部幾何信息，獲得了令人滿意的性能。盡管如此，一個問題依然存在：計算復雜度非常高。對于基于PointNet++架構的PointWeb，其分層網絡由多個集合抽取層組成，這意味著采樣、分組和局部特征聚合的過程需要多次執行。且PointWeb 的關鍵在于利用所有點對之間的上下文信息，對它們進行混合計算既復雜又耗時。此外，重復組合附近的Patch 嵌入會混淆Patch 嵌入策略的效果和類似歸納偏置的效果。

為了聚焦于Patch 的使用，同時豐富局部點特征并控制計算成本，本文嘗試最大化使用輸入特征來表示局部鄰近區域。因此，選擇PPFs 作為局部Patch 的編碼方法。

3.2 PPFConvMixer網絡架構

（1）點云Patch的劃分

受視覺Transformer 中patch 嵌入策略的啟發，Point-BERT[29]將點云轉換為由局部點云簇組成的集合。為了將ConvMixer 圖像處理模型應用于點云數據，本文采用類似的預處理方法。具體地，在給定點云數據的整體集合后，首先使用最遠點采樣（FPS）方法選擇g個局部點云簇的簇中心。接下來，以固定查詢半徑r為條件，在選定的g個局部中心點周圍選擇k個最近鄰點，構成包含細節局部幾何信息和結構的g個局部點云簇。然后，將近鄰點的坐標都減去中心點坐標，通過局部區域歸一化來排除點云真實坐標帶來的影響。這樣，就能在三維點云中獲得與二維圖像Patch對應概念的局部Patch。

（2）點云局部Patch的編碼

如前所述，最終的局部幾何將由一組增強的幾何關系來表示：點的三維坐標、法向量、點對特征PPF。這三者構成的集合共同作為網絡的輸入。具體地，如圖1 所示，給定一個參考點為xr，其表面法向量為nr，局部區域中的k個相鄰點為xi,i= 1,…,k?？梢詫⒕植繋缀翁卣鞅硎緸橛蓞⒖键c和KNN 算法決定的一個局部Patch{xr?{xi}}，局部幾何特征具體的計算公式如式（4）：

圖1 局部點對特征PPF示意圖

其中，ψri表示三維點對間關系的非對稱四維描述子，其具體計算方式為式（5）所描述：

其中，d代表點間的距離向量，‖ · ‖代表歐式距離，∠代表角度計算子?！?nr,ni)的計算如式（6）所示，注意∠(nr,ni)的范圍在[0,π]：

本文將PPF 描述子ψri作為輸入表示主要有兩個原因：一方面，相對于PointWeb 等重復融合周圍的Patch 嵌入層的網絡而言，由于采用的是一次性配對，PPF 對于輸入特征的計算更加簡單方便；另一方面，它的計算復雜度也更低。

（3）PointConvMixer網絡架構

用于圖像分類任務的ConvMixer 模型的操作可以簡單概括如下：第一，首先設定Patch 大小，對圖像分Patch 作為輸入表示。將圖像Patch 輸入Patch 嵌入模塊進行空間維度上的降維以及通道維度上的升維，然后經過一個激活函數和歸一化層。Patch 嵌入模塊其實就是一個核大小和步長都等于設定的Patch 大小的卷積。第二，將經過激活和歸一化的Patch 特征輸入如圖2 所示結構組成的ConvMixer 模塊中。Conv-Mixer模塊由一個深度卷積模塊和一個逐點卷積模塊組合而成。深度卷積即組數等于通道數的分組卷積，逐點卷積本質上是1×1 的卷積，每個卷積后面是激活函數和批歸一化，深度卷積結構的上方還包含一個殘差連接。深度卷積用來混合空間維度信息，逐點卷積則用來混合通道維度上的信息，這使得特征在空間域和特征域不斷混合。

圖2 ConMixer層的實現

ConvMixer層起到了分離空間和通道維度的混合的作用，使用的ConvMixer 層數可通過參數depth來進行調控。但由于圖像是二維數據而點云是三維數據，因此，在將用于圖像分類任務的ConvMixer 網絡模型遷移到點云分類時，輸入的數據需要進行不同的處理，同時需要對原本的網絡結構進行進一步的優化以達到更好的效果。具體地說，點云需要選定性能較優的分塊處理方法，對應的塊嵌入層需要重新的設計來適應不同維度的數據輸入，同時網絡需要添加優化方法來優化得到的最終分類效果。

（4）PPFConMixer點云分類流程

在PointConvMixer 的基礎上，本文通過將局部點云Patch 編碼成PPF，得到了一個簡單但非常高效的點云處理網絡PPFConvMixer。該網絡由輸入數據編碼、三維Patch 嵌入層和多層改進的ConvMixer 層，以及最后用于分類的MLP 層組合而成。除去分類MLP層，PPFConvMixer可表述為式（7）：

其中，Φ(·)表示由重復的全卷積模塊組成的各向同性的網絡，即多次重復堆疊的改進的ConvMixer層，每層實現流程如圖3 所示。重復次數是一個超參數d，即前文所述的深度參數depth。A(·)和M(·)的組合是Patch 嵌入層的具體實現，M(·)通過共享MLP 來提取局部特征，A(·)代表聚合操作，將每個局部區域的點聚集成單個的輸入特征，實際操作當中采用最大值池化來實現。fr表示采用PPF局部編碼方式構建的局部Patch，N表示局部Patch的個數，其大小取決于最開始的采樣點數。最終的PPFConMixer 點云分類模型整體處理流程如圖3所示。

圖3 PPFConvMixer點云分類架構流程圖

4 實驗結果及分析

本節將在多個基準上對本文提出的模型進行全面評估，并展示其在物體分類和形狀部分分割任務中的實驗結果。

4.1 形狀分類

（1）數據集

首先在ModelNet40[30]數據集上對所提出的網絡模型PPFConvMixer進行了評估。ModelNet40是最常用的點云形狀分類數據集，包括12311個CAD模型，這些點云模型被分為40個類別。實驗中使用和Point2Sequence[31]一樣的策略，將ModelNet40數據集分成9843個訓練樣本和2468個測試樣本。在訓練時，均勻采樣1024個點作為輸入。

（2）實現細節

數據預處理時，選擇半徑為0.25m的局部鄰域，并在該鄰域內均勻采樣64個點。定義的鄰域中可能出現點數不足64的Patch，對此隨機重復一些點以確保Patch大小一致。使用AdamW優化器對模型進行75個epoch的訓練，bɑtchsize大小為16。采用預熱（Warmup）與余弦退火（Cosine Annealing）相結合的策略控制學習率變化，warmup的epoch設置為10。最大學習率為0.0005，最小學習率為1e-6。權重衰減系數為0.001，ConvMixer深度depth設為4，特征維度為368。

據SimpleⅤiew[32]所述，在不使用任何集成方法的情況下比較模型性能更為準確，因此所有的實驗中均不使用voting策略來優化預測。此外，為了增強魯棒性，采用了兩種數據增強策略：在xyz三個方向在[2/3，3/2]的范圍內進行同比例的隨機縮放；在[-0.2，0.2]范圍內隨機平移。

（3）實驗結果

表1給出了PPFConvMixer網絡在ModelNet40數據集上的點云分類任務準確率，并與其他點云分類網絡進行了比較。第一條虛線上方的是經典的深度學習點云分類方法，包括PointNet[7]、PointNet++[8]以及RS-CNN[9]等，第三條虛線下即為本文所提出的網絡。第一條虛線上方倒數四個網絡都是輸入數據中不僅包含位置數據，還包含法向量的經典方法，有O-CNN[33]、Spec-GCN[34]以及SO-Net[35]等，PPFConvMixer網絡分類準確率都超過了這些模型。第一條與第二條虛線之間是一些基于Transformer的方法，但是其網絡架構做了更多特殊設計和歸納偏置。PPFConvMixer即使沒有類似的特殊網絡設計，分類精度仍然優于PCT[28]和Point Transformer[27]。第二條虛線與第三條虛線間的方法是一些基于標準Transformer 模型設計的點云分類網絡?？梢园l現PPFConvMixer比所有標準Transformer模型構建的點云分類網絡效果都要更好。

表1 在ModelNet40公共數據集上的形狀分類結果（nor：法向量，“-”：未知）

“#params(M)”列中記錄了網絡參數的數量，可以看到PPFConvMixer 的參數量為2.62M，并不是很大?？傊?，PPFConvMixer 的總體性能優于表中的Point-BERT[29]等其他點云分類模型。這些實驗結果表明，高效的輸入表示對于實現Transformer 的卓越性能至關重要，這一結論在點云領域依舊成立。

4.2 部件分割

（1）數據集

部件分割是細粒度形狀識別的一項挑戰性任務。ShapeNet 數據集是一個具有豐富標注的大規模點云數據集，廣泛應用于計算機視覺和機器人研究。其中，其中，ShapeNet Parts 數據集常用來做三維點云的部件分割任務。ShapeNet Parts 數據集總共包括16 個大的類別，包含16881個點云模型，如飛機、座椅、桌子等。每個大的類別又可以分成若干個小類別，總共可分為50個小類別，如一個桌子的點云模型可以分割成桌面、桌腿等小類別部件。每個點云形狀模型可劃分為2-5 個部件。ShapeNet Parts 數據集中劃分了13998個訓練數據，2874個測試數據。

（2）實現細節

使用AdamW 優化器進行300 個epoches 的訓練，bɑtchsize大小為64。與形狀分類實驗設置類似，使用warmup+Cosine Annealing 的學習率控制策略，warmup 的epoch為10，最大學習率為0.0005，最小學習率為1e-6。權重衰減系數、ConvMixer深度depth和特征維度分別為0.5、4、368。

（3）實驗結果

本小節構建PointConvMixer 點云分割網絡在ShapeNet Parts 數據集上進行了部件分割實驗，以類別平均交并比（mIOUC）和實例平均交并比（mIOUI）作為評價指標，并與經典的點云分割網絡的性能進行了對比，評估結果如表2 所示。由表中的實驗結果可以看出，PointConvMixer 的mIOUC優于經典的Point-Net[7]、PointNet++[8]及DGCNN[13]，分別高出3.51%、2.05% 和1.57%，比標準Transformer、Transformer-OcCo[29]模型高出0.48%。另外，PointConvMixer 的mIOUI指標為85.4%，優于經典的Kd-Net[12]、Point-Net[7]、PointNet++[8]和DGCNN[13]，分別高出3.1%、1.7%、0.3%和0.2%。且PointConvMixer 分割模型的mIOUI也優于標準NPCT[28]、Transformer 以及添加了OcCo 預訓練方法的Transformer-OcCo[29]網絡，分別高出0.2%、0.3%和0.3%，稍低于Point-BERT[29]的85.6%。

表2 ShapeNet Parts數據集上的部件分割結果（“-”：未知）

值得注意的是，PointConvMixer 使用簡單的卷積架構ConvMixer取代了Transformer中的關鍵模塊，但在形狀分類和部件分割方面的性能都優于原有Transformer。這表明Transformer 的卓越性能不僅歸功于其架構，而且至少部分歸功于對點云數據進行基于Patch的預處理，以降低計算復雜度。

4.3 消融實驗

為了驗證網絡各參數設置的合理性，并驗證分析模塊的有效性，本文設計了以下不同配置的實驗：

（1）嘗試了隨機縮放+隨機平移的數據增強方法，說明了數據增強對性能提升的作用。

（2）對比了將特征表示輸入卷積網絡前，分別采用最大池化和平均池化的分類效果，驗證了最大池化降維的必要性。

（3）討論了PPF 局部特征描述子的使用對結果造成的影響。

（4）比較了在使用K 近鄰算法聚合k個近鄰點并計算點云的PPF 特征表示時，不同的k值所造成的性能差異。

（5）比較了不同層數(即不同深度)的ConvMixer層對網絡性能的影響。

前三項設置的消融實驗結果如表3 所示，設定基線為模型A，其分類準確率較低，僅為91.5%。表中DA、Max、Average 分別表示數據增強、最大池化和平均池化策略。實驗結果表明，使用最大池化方法進行降維時，點云分類的準確率（Acc.）較高，在[2/3，3/2]范圍內隨機縮放和在[-0.2，0.2]范圍內平移的數據增強方法能有效優化性能。此外，PPF 描述子的引入還帶來了1.9%的精度提升。這說明PPF 是一種非常有效的三維局部特征描述子。通過計算局部點對特征，PPF特征表示包含了豐富的三維點幾何信息。

表3 PPFConvMixer在ModelNet40基準上的消融研究結果

對K 近鄰算法中的局部大小k選取不同值時，在ModelNet40 數據集上所得總體分類準確率如表4 所示?？梢钥闯?，當K 近鄰算法中的k=64 時，點云分類精度最高。推測如果k太小，那么在局部鄰域中選取的點就會太少，無法獲得豐富的鄰域信息。如果k過大，但在查詢半徑0.25m 的區域內沒有那么多點，那么算法就會隨機重復選取區域內的點，以保證鄰域內的點數滿足要求。最后導致鄰域中重復出現無效信息，也降低了性能。

表4 ModelNet40基準上不同k值的總體分類準確率

使用不同深度ConvMixer 層對ModelNet40 數據集進行點云分類的準確率結果如表5所示。該表顯示了ConvMixer 堆疊層數depth對PPFConvMixer 網絡性能的影響，當depth設置為4時，可以獲得最佳效果。這是由于點云本身攜帶的信息有限，網絡并非設置得越深越好，層數越深會帶來梯度不穩定和網絡退化問題，反而會導致網絡性能下降。

表5 使用不同深度ConvMixer層的ModelNet40分類準確率

5 結論

受文獻[15]對Transformer 有效性來源的探索，本文以Point-BERT[29]為研究基線，采用一致的操作來分割點云Patch，用更簡單、輕便的ConvMixer 架構取代了Transformer 部分，提出了點云處理架構PointConv-Mixer。PointConvMixer 在形狀分類和部分分割實驗中的表現都優于基于Transformer 的模型，這表明Transformer 的性能至少部分歸功于將點云數據預處理成三維Patch的方式。

此外，本文進一步引入了PPFs 作為編碼點云局部特征的有效方法，提出了PointConvMixer 的改進版本PPFConvMixer 模型，在ModelNet40 數據集上實現了更高的點云分類精度。這表明高效的標記化輸入表示也是點云識別任務的一個關注方向。然而，基于PPFs 的表示法不適用于使用多級采樣獲取密集特征圖的點云分割任務。研究點云分類和分割任務的通用優化方法也是未來可探索的方向。