基于體素網(wǎng)絡(luò)的道路場景多類目標識別算法*

2021-05-12 02:51:10龔章鵬王國業(yè)

汽車工程 2021年4期

關(guān)鍵詞：特征

龔章鵬，王國業(yè)，于是

（中國農(nóng)業(yè)大學工學院，北京 100083）

前言

激光雷達是無人駕駛中必不可少的感知設(shè)備，其數(shù)據(jù)穩(wěn)定性強、精度高、不受光照強度影響。然而，原始的激光點云數(shù)據(jù)具有無序性、稀疏性等特征［1］，信息結(jié)構(gòu)單一等不足，使得基于激光雷達的三維目標識別成為無人駕駛領(lǐng)域中的難點。

目前國內(nèi)研究多采用支持向量機（support vector machine，SVM）對點云特征建模［2-3］。SVM 模型簡單，易達到實時處理，但其本質(zhì)是弱分類器，特征信息不夠豐富，在非線性強的復雜場景下效果不佳。因此需要尋求更優(yōu)的點云特征建模方法。

PointNet［4］利用抽象集合處理點云數(shù)據(jù)，實現(xiàn)了點云集合的特征向量化，有效解決了無序點云特征建模困難的問題。特征向量化后的點云場景與圖像具有相似的數(shù)據(jù)結(jié)構(gòu)，能夠充分發(fā)揮卷積網(wǎng)絡(luò)實現(xiàn)語義信息提取的優(yōu)勢［5-6］。在PointNet 基礎(chǔ)框架上，針對點云級別語義信息提取的工作取得了一系列成果［7-8］。PointNet 采集場景內(nèi)點云數(shù)據(jù)的數(shù)目固定，實際場景點云數(shù)據(jù)存在隨機性，因此在實際應(yīng)用中受限制。并且簡單點級語義信息量級過大，不利于無人駕駛后續(xù)決策判斷。因此從點級特征中獲得物體尺寸回歸信息，還原目標物體尺寸是目前的研究熱點。PointGNN［9］利用圖理論建立點與點之間的聯(lián)系，從點間拓撲關(guān)系中還原目標尺寸信息，但圖神經(jīng)網(wǎng)絡(luò)的建立較為繁瑣。研究表明，利用場景體素化將場景轉(zhuǎn)化為一張規(guī)則的特征向量圖［10-12］識別效果較好，即運用PointNet模組將1個體素內(nèi)點集轉(zhuǎn)化成特征向量。該方法提取的特征也稱為“體素特征”，后續(xù)操作為三維體素卷積，使之與PointNet 有所區(qū)別，兩者原理本質(zhì)相同。

為提高識別準確率，PV?RCNN［11］提出將體素特征與關(guān)鍵點的點級特征融合，即全場景體素特征簡化成少量數(shù)目的關(guān)鍵點特征，以加快后續(xù)運算。比較有效的關(guān)鍵點采集方法為PointNet++［13］的最遠點采樣（furthest?point?sampling，F(xiàn)PS），其數(shù)據(jù)分布均勻，關(guān)鍵點特征能夠表征全場景信息。考慮到FPS在大場景下運算耗時過多，RandLA?Net［14］用隨機采樣的方式替代FPS 并取得了十分高效的運算結(jié)果。但隨機采樣所帶來的魯棒性問題不可忽視，該方法獲取的關(guān)鍵點是否具有代表性仍待進一步驗證。

綜上所述，將點云體素化是最接近實際運用的點云特征建模方法。但目前基于體素網(wǎng)絡(luò)的目標識別方法均基于單類物體識別，對多類別目標識別任務(wù)沒有進行深入討論。在點云場景下，對于單一類別物體，其尺寸是相似的，模型訓練有可能“走捷徑”，即輸出偏向一個固定預(yù)測值，結(jié)果將總判定為正確。同時場景的單類物體識別難以滿足實際應(yīng)用要求，因此，一次前向傳播能夠?qū)崿F(xiàn)多類物體目標識別研究具有重要意義。本文中在體素網(wǎng)絡(luò)基礎(chǔ)框架下，將其拓展為多類目標物體識別，并測試其效果?？紤]到多任務(wù)網(wǎng)絡(luò)能夠有效提高網(wǎng)絡(luò)魯棒性，利用多類物體數(shù)據(jù)參與訓練，研究其對提高物體識別魯棒性的影響。

1 主體網(wǎng)絡(luò)結(jié)構(gòu)

1.1 點云預(yù)處理及體素化

需要分析的場景空間在X、Y、Z軸范圍分別為W、L、H，本文中取80、70.4、4，與VoxelNet［12］一致。設(shè)置3 個方向的體素分辨率分別為rW、rL、rH，本文中取0.2、0.2、0.4。將全場景體素化為（W/rW）×（L/rL）×（H/rH）個體素格子。對于給定的點云，將點云按其位置細分到對應(yīng)的體素格子中。對于每個非空體素，隨機采樣K個點，不足K個點則重復采樣。取每個點位置坐標x、y、z以及反射率rr作為特征值，再將每個體素中全部點的位置坐標均值作為拓展特征值，最終每個非空體素轉(zhuǎn)換成尺寸為K×7 的特征向量。

1.2 特征初步提取

將全場景體素特征，通過多個體素特征編碼（voxel feature econding，VFE）［12］層后，使用最大池化得到全場景三維特征圖F3D。每個VFE 層包括全卷積、ReLu 激活函數(shù)、正則化（batch normalization，BN）［15］、最大池化和池化結(jié)果與卷積結(jié)果的合并。最大池化能有效提高旋轉(zhuǎn)一致性，并消除采樣時特征排布序列隨機性的影響。由于點云分布的稀疏性，其得到的非空體素也是稀疏的。利用稀疏卷積方法可僅對非空體素進行運算操作，能大幅降低內(nèi)存空間消耗。

1.3 鳥瞰圖映射

無人駕駛場景下，絕大部分物體位于地表平面上，Z軸方向信息屬于次要信息，因此將三維特征圖映射到二維鳥瞰圖上，不會損失過多有用信息，信息處理也更直觀、簡便。同時，將三維存儲空間降維至二維空間，大幅降低了內(nèi)存空間消耗，這對大型場景下的目標識別十分有必要。采用三維卷積Z軸方向降采樣合并Z軸方向信息并降維，最終得到二維特征圖F2D。

1.4 特征提取

本文中采用瀑布式網(wǎng)絡(luò)結(jié)構(gòu)［16］進行特征提取。每個分支用降采樣得到多個不同分辨率下的特征圖分支，經(jīng)過多個卷積層后，用反卷積統(tǒng)一特征圖尺寸進行融合，如圖1所示。

對F2D傳入深度128，卷積核3×3，滑步2×2 的卷積層實現(xiàn)降采樣。再經(jīng)過3個深度128，卷積核3×3，滑步1×1的卷積層，得到第一個特征分支FB1。FB1傳入深度128，卷積核3×3 的卷積層，滑步2×2 實現(xiàn)降采樣。再經(jīng)過5 個深度128，卷積核3×3，滑步1×1 的卷積層，得到第二個特征分支FB2。FB2傳入深度256，卷積核3×3 的卷積層，滑步2×2 實現(xiàn)降采樣。再經(jīng)過5 個深度256，卷積核3×3，滑步1×1 的卷積層，得到第三個特征分支FB3。FB1傳入深度256，卷積核3×3，滑步1×1 反卷積層做反卷積運算，得到FD1。FB2傳入深度256，卷積核3×3，滑步2×2 反卷積層作反卷積運算，實現(xiàn)2 倍上采樣，得到尺度統(tǒng)一后的特征分支FD2。FD2與FD1尺度一致。FB3傳入深度256，卷積核4×4，滑步4×4 反卷積層做反卷積運算，實現(xiàn)4倍上采樣，得到FD3。FD3與FD1尺度一致。FD1、FD2、FD3融合后的特征圖記為FR，用于預(yù)測輸出。FR在尺寸上實現(xiàn)了對二維特征圖F2D的2倍降采樣。

圖1 分支網(wǎng)絡(luò)結(jié)構(gòu)

1.5 預(yù)測輸出

將網(wǎng)絡(luò)設(shè)計成3 部分輸出。第一部分為類別置信度輸出Cp，即對FR做深度為4的全卷積運算，再使用softmax操作，如式（1）所示，得到5個［0，1］區(qū)間內(nèi)的概率值。本文中使用的訓練集包含汽車、箱式貨車、行人、騎手4 類物體。假定每個柵格位置中，有且僅有1 類物體，概率值最大的序號即為該柵格位置物體所屬類別。第二部分為邊框回歸值Rp，即對FR做深度為7 的全卷積運算。每個柵格位置上均有兩個先驗候選邊框A，參數(shù)形式為［xa，ya，za，ha，wa，la，ra］T。xa、ya、za為柵格中心位置；ha、wa、la為數(shù)據(jù)集中該類目標包圍邊框的高度、寬度、長度的統(tǒng)計平均值。數(shù)據(jù)集各類目標的包圍邊框參數(shù)統(tǒng)計平均值如表1所示。默認邊框中心繞X軸與Y軸無旋轉(zhuǎn)角度，ra為邊框中心繞Z軸旋轉(zhuǎn)角度。一個先驗候選框的ra設(shè)置為0，表示邊框正置，另一個設(shè)置為π/2，表示邊框橫置。第三部分為柵格位置存在正置和橫置回歸正確邊框的置信度預(yù)測Pp，即對FR做深度為2 的全卷積運算，再使用sigmoid 函數(shù)，如式（2）所示，將值限定在［0，1］區(qū)間內(nèi)。允許同時出現(xiàn)正置與橫置兩個邊框，后續(xù)的非極大值抑制（non?maximum suppres?sion，NMS）可以去掉重疊邊框。

表1 數(shù)據(jù)集統(tǒng)計平均值

2 損失函數(shù)設(shè)計

2.1 損失函數(shù)

置信度損失值Lcof采用交叉熵計算，如式（3）～式（5）所示。由于對輸出結(jié)果使用了sigmoid 函數(shù)，選用交叉熵做損失函數(shù)時，梯度與誤差正相關(guān)，在誤差較大時，參數(shù)調(diào)整更快，收斂性優(yōu)于采用均方差作為損失函數(shù)。本文中的置信度預(yù)測、分類預(yù)測對邊框回歸值的最終輸出有很大影響，因此需要采用收斂更快的損失函數(shù)。

式中Pgt為置信度正樣本掩碼，即與其作運算的算子（這里指Pp）尺寸相同，由0和1組成的矩陣。

由于深度學習是借助圖形處理器（graphics processing unit，GPU）實現(xiàn)矩陣并行計算，如果沒有特殊說明，矩陣間運算為矩陣每個對應(yīng)位置上的元素作數(shù)學運算。

式中：I為與Pp尺寸相同、全部由1組成的矩陣；Ngt為置信度負樣本掩碼，是與Pp尺寸相同，由0 和1 組成的矩陣。

式中α、β分別為正負樣本權(quán)重系數(shù)。

將標簽類別轉(zhuǎn)換成1位有效編碼形式，記作Cgt，類別預(yù)測損失值Lcls同樣采用交叉熵計算，如式（6）和式（7）所示。

式中：Mcls為類別預(yù)測損失函數(shù)計算掩碼；max（x，n）為取x第n維的最大值；-1表示最后一維。

預(yù)測值在先驗邊框基礎(chǔ)上回歸可以得到比較精確的預(yù)測邊框［5-6，17］，本文中用回歸的方法預(yù)測邊框尺寸，如式（8）所示。在三維點云場景下物體尺寸均為實際尺寸，不存在透視效果，不需要設(shè)置多尺度先驗候選框?？紤]到不同類別間先驗邊框尺寸上存在較大差異，利用歸一化處理不同類別的邊框回歸值。預(yù)測框X軸與Y軸方向的位置用先驗框X軸與Y軸的偏置值除以先驗框鳥瞰對角線長度來表示，如式（9）～式（11）所示，下標“gt”表示標簽中的真值。Z軸方向的偏置值除以先驗框高度，如式（12）所示。預(yù)測框尺寸用先驗框尺寸的對數(shù)來表示，如式（13）～式（15）所示。旋轉(zhuǎn)角度則直接使用標簽值與先驗值的差值來表示，如式（16）所示。

回歸損失值用smoothL1計算，如式（17）和式（18）所示。smoothL1梯度變化具有損失函數(shù)較小時與損失函數(shù)正相關(guān)，損失函數(shù)很大時為常數(shù)的特性，魯棒性強，在圖像目標識別中被廣泛用于邊框參數(shù)的回歸。

式中Mreg為回歸值掩碼。

2.2 掩碼設(shè)定

模型是否能正常收斂，關(guān)鍵在于損失函數(shù)中掩碼Pgt、Mreg的正確設(shè)定。對于1 個分析場景，最終細分成200×176 的網(wǎng)格，1 個場景中通常會標注2～7 個物體數(shù)據(jù)。對于置信度標簽數(shù)據(jù)，負樣本數(shù)量遠遠大于正樣本數(shù)量，因此兩者應(yīng)分開計算并進行一定程度歸一化處理。數(shù)據(jù)標簽邊框中心所在的網(wǎng)格為正樣本，遠離中心的網(wǎng)格為負樣本。對于盒體中心所在網(wǎng)格周圍區(qū)域內(nèi)的網(wǎng)格，記為模糊區(qū)域AF，將其置“0”為絕對負樣本并不合適，置“1”為正樣本則需要確定合適的AF分界邊界。

先驗候選邊框A包含網(wǎng)格位置×2個先驗候選邊框，計算所有先驗候選邊框與標簽中的邊框重疊度（intersection over union，IoU），通過判斷重疊度與設(shè)定閾值的大小關(guān)系確定正負樣本。

為了簡化計算并消除Z 軸方向信息帶來的干擾，用鳥瞰二維邊框來替代盒體計算重疊度J。A中的先驗候選邊框只存在繞Z軸0°與90°的旋轉(zhuǎn)角度。對于標簽數(shù)據(jù)中其它旋轉(zhuǎn)角度的邊框用其正置的最小包圍等效邊框Bgt來代替計算。如圖2 所示，盒體底部平面為鳥瞰二維平面，獲取其最小包圍等效邊框后，分別與2 種先驗候選邊框做重疊度計算。正樣本設(shè)定閾值為0.65，負樣本設(shè)定閾值為0.35。

圖2 等效邊框示意圖

對于多類預(yù)測網(wǎng)絡(luò)，回歸值Rgt需要根據(jù)預(yù)測物體類別選取對應(yīng)參數(shù)作預(yù)處理，而AF處網(wǎng)格缺少相應(yīng)類別信息。本文中進行如下處理，首先將標簽盒體與AF中每類先驗邊框分別計算單類重疊度Jc與該類參數(shù)下的回歸值Rc，取所有類別中最大的Jc作為該位置網(wǎng)格的候選框重疊度計算結(jié)果J，對應(yīng)的所屬類別作為AF的類別信息，對應(yīng)的Rc作為最終回歸值Rgt。至此，標簽數(shù)據(jù)中的置信度、類別、回歸值之間均建立關(guān)聯(lián)。由于回歸值是在先驗候選框基礎(chǔ)上進行微調(diào)，IoU 可同時反映回歸值的準確性與置信度。不需要額外設(shè)定權(quán)值層去解決置信度與邊框回歸值不匹配的問題。類別預(yù)測將決定先驗候選邊框的具體參數(shù)，因此類別預(yù)測將會極大程度影響邊框預(yù)測的準確性。對于類別預(yù)測，假設(shè)每個柵格位置均存在有且僅有一類目標物體。標簽邊框中心所在柵格位置上的類別標簽是絕對準確的，AF中的類別標簽則取最鄰近的目標物體類別。變相地增加樣本數(shù)量，以誘導模型向正確值輸出，保證魯棒性。遠離目標物體中心的網(wǎng)格基于IoU計算公式給定類別標簽，為了避免邏輯上出現(xiàn)分歧，并沒有單獨設(shè)置背景類別，因此對于遠離物體中心的網(wǎng)格，按此過程計算的分類標簽一定是錯誤的。在計算損失函數(shù)時，由于標簽損失函數(shù)中的掩碼是從置信度正樣本掩碼所得，摒棄了遠離物體中心的網(wǎng)格區(qū)域，這部分錯誤類別標簽均不會計算在損失函數(shù)值中，從而不影響模型收斂。

標簽數(shù)據(jù)預(yù)處理產(chǎn)生掩碼的偽代碼如表2 所示，輸入?yún)?shù)是大小為M×C×2×7的先驗框參數(shù)A，其中M表示柵格總數(shù)；C表示類別總數(shù)；L為原始標簽數(shù)據(jù)；“：”表示所有內(nèi)容。

表2 生成掩碼的偽代碼

3 網(wǎng)絡(luò)訓練及預(yù)測

3.1 KITTI數(shù)據(jù)集

KITTI［18］數(shù)據(jù)集是面向無人駕駛場景的公開數(shù)據(jù)集。本文中使用KITTI 數(shù)據(jù)集中三維物體識別數(shù)據(jù)進行訓練，每條完整數(shù)據(jù)包括激光雷達點云數(shù)據(jù)、場景中三維物體標注標簽和用于可視化的坐標系標定參數(shù)與左目圖像。整個數(shù)據(jù)集包含7 480 條完整數(shù)據(jù)，取其中7 380條作為訓練集參與訓練模型，100條作為驗證集檢驗訓練結(jié)果。

3.2 超參設(shè)置

正則化技術(shù)［15］能夠加快模型收斂，且能有效應(yīng)用在基于點云數(shù)據(jù)的物體識別中。因此模型除最后的輸出層外，層與層之間均添加了BN 層。由于BN層的存在，學習率可以設(shè)置得大一些，采用變學習率策略，保證模型更好地收斂。以訓練集中所有數(shù)據(jù)參與訓練記為1 個全周期（epoch），訓練20 個全周期，前10 個全周期學習率采用10-3，11～15 個全周期學習率采用10-4，16～20 個全周期學習率采用10-5。在單塊1080 Ti GPU 設(shè)備上訓練模型，批次大小設(shè)置為1，訓練約55 h。每訓練10 次，用1 組驗證集數(shù)據(jù)做一次不更新模型參數(shù)的前向傳播，記錄驗證集損失lossv的變化情況，以表示模型收斂效果。驗證集損失函數(shù)變化曲線如圖3 所示，在訓練過程末段曲線已經(jīng)趨于平穩(wěn)并維持在較低水平，表示模型已經(jīng)收斂。

圖3 驗證集損失曲線

3.3 預(yù)測輸出

設(shè)定網(wǎng)格位置目標物體存在的置信度閾值為0.96。篩選出目標物體所在網(wǎng)格位置，得到該位置網(wǎng)格上的分類預(yù)測結(jié)果，取分類預(yù)測結(jié)果最大值的序號為物體類別預(yù)測。結(jié)合置信度中所含的候選框種類信息，可以確定先驗框具體參數(shù)，再結(jié)合預(yù)測邊框回歸值還原出物體包圍盒體，最后使用NMS 的方法，去除多余的重疊盒體。NMS 原理為計算兩個邊框的重疊度，如果重疊度大于設(shè)定閾值，則去除置信度較低的邊框。與圖像識別不同的是，點云場景幾乎不存在透視與遮擋問題，因此閾值要遠遠小于圖像識別中的NMS 閾值。圖像識別中閾值一般設(shè)置為0.7，這里設(shè)置為0.1。為了簡便計算，使用等效邊框來計算重疊度。

3.4 性能指標

假定預(yù)測得到Np個物體，標簽數(shù)據(jù)中標注了Ngt個物體。首先需要將預(yù)測物體與標簽物體進行配對。本文中使用遍歷計算重疊度取最大的方法。以預(yù)測物體為基準，匹配其最大重疊度的標簽物體，計算得到的指標記為準確率。以標簽物體為基準，匹配其最大重疊度的預(yù)測物體，計算得到的指標記為召回率。對于一組配對的預(yù)測物體與標簽物體，如果重疊度大于設(shè)定閾值，則邊框預(yù)測正確。如果兩者分類結(jié)果一致，則類別預(yù)測正確。設(shè)定閾值為0.5 對應(yīng)體素網(wǎng)絡(luò)“easy”模式，指標結(jié)果如表3 所示。設(shè)定閾值為0.7對應(yīng)“hard”模式，指標結(jié)果如表4 所示。模型預(yù)測時會識別出與事實相符但標簽中未標注的目標物體，在計算準確率時會計入錯誤，但不計入召回率中的錯誤識別，因此以召回率指標作為主要參考。在計算IoU 時采用向下取整的取值原則，即整體全部落于邊界包圍框內(nèi)的體素記為正確，按此原則計算的重疊度結(jié)果偏小，且目標尺寸越小，偏小程度越嚴重。因此，經(jīng)綜合考慮，本文以“easy”模式召回率作為主要的綜合指標。訓練過程中每個epoch 結(jié)束均使用驗證集對模型性能指標進行“easy”模式的評估，性能指標變化情況如圖4 所示，訓練至最后幾個epoch時，各項性能指標均已穩(wěn)定。

表3 “easy”模式下的準確率與召回率 %

表4 “hard”模式下的準確率與召回率 %

圖4 性能指標變化圖

3.5 實時性提高措施及指標

算法在實際應(yīng)用時分為3 個環(huán)節(jié)：點云數(shù)據(jù)預(yù)處理、前向傳播和目標包圍邊框參數(shù)提取。點云預(yù)處理包括對點云的直通濾波和體素化。使用numba庫中的“jit”修飾器可以極大加快點云預(yù)處理速度。測試顯示在不同的操作系統(tǒng)上numba庫執(zhí)行效率有明顯差別，linux 比win10 上函數(shù)運行速度更快，因此算法速度測試在linux 系統(tǒng)上完成。前向傳播中使用稀疏卷積處理辦法，可以大幅降低前向傳播耗時。目標包圍邊框參數(shù)提取耗時極小，因此不同場景下，目標數(shù)目不同對算法執(zhí)行速度影響不大。不同環(huán)境場景尺寸對算法執(zhí)行速度影響很大。本文中感知場景使用了雷達左右40 m、前方70.4 m 的大尺寸場景，遠遠超過部分工況（如低速、園區(qū)）使用要求。本文中對小尺寸場景（左右20 m，前方35.2 m）也進行了速度測試。結(jié)果如表5所示。

表5 不同場景下的速度測試 ms

3.6 性能結(jié)果分析

將模型預(yù)測的目標包圍邊框通過坐標映射到左目圖像中，如圖5 所示；在點云鳥瞰圖中作投影，可觀察左目圖像中的遮擋部分以及包圍邊框?qū)嶋H尺寸位置，如圖6 所示。用青色粗實線標注預(yù)測邊框，用品紅色細實線標注標簽邊框。點云鳥瞰圖使用雷達坐標，雷達坐標與圖像坐標左右方向顛倒。模型對車輛、行人等多類物體均有準確的識別能力。

圖5 左目圖像表示預(yù)測效果

圖6 鳥瞰圖像表示預(yù)測效果

原始數(shù)據(jù)集中包含汽車、箱式貨車、貨車、行人、坐著的人、騎手、火車、混合、其它等9 類標注目標物體。本文中經(jīng)過統(tǒng)計分析，去除了標注數(shù)目特別稀少的類別，如坐著的人、貨車，避免學習不到該類識別特征而影響識別結(jié)果；去除先驗尺寸不確定的類別，如火車；去除定義模糊的類別，如混合、其它。在選取的類別目標中，汽車是數(shù)目最大的標注類別，行人次之。從訓練結(jié)果上看，汽車的類別預(yù)測準確率極高，回歸召回率也處在較高水平。

在結(jié)構(gòu)化特征明顯的街道場景中，預(yù)測效果較為出色，除能準確預(yù)測標簽中標注的目標包圍邊框外，還能預(yù)測標簽中未標注的目標，如圖7 紅色中箭頭所示。由于評價指標需根據(jù)標簽中的真值計算，這些未在標簽中標注的部分，在準確率計算中會記為錯誤，從而降低準確率指標。因此準確率并非越高越好。

圖7 結(jié)構(gòu)化特征明顯的場景下的預(yù)測效果

算法對遠處緊鄰停靠車輛識別效果不佳，如圖8 所示。在該場景下，對距離較遠、部分遮擋且緊鄰的目標，雖檢測出遠處車輛，但回歸邊框并不十分準確。

圖8 遠處緊鄰目標的預(yù)測效果

在用NMS 去除重疊包圍邊框時，本文中使用了極小的判斷閾值，在識別行人這類先驗包圍邊框尺寸較小的目標時，少數(shù)行人距離過近時，會出現(xiàn)漏檢，如圖9紅色箭頭所示。

圖9 行人距離過近造成的漏檢

用相同主體網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)建立基于體素網(wǎng)絡(luò)的單類目標識別算法，以汽車為例，使用相同訓練參數(shù)設(shè)置，進行了單類目標識別算法對比實驗。用3.4節(jié)中提到的性能指標進行評價，對比結(jié)果如表6 所示。結(jié)果表明用多類目標數(shù)據(jù)參與整體訓練，比單一類別目標識別算法預(yù)測效果更好。其原因在于增設(shè)的類別輸入誘導模型訓練學習分類特征，從而使網(wǎng)絡(luò)內(nèi)部學習到類似決策樹的特征提取結(jié)構(gòu)，從而提高了預(yù)測正確率。

表6 單類與多類體素網(wǎng)絡(luò)性能指標對比 %

4 結(jié)論

（1）本文中拓展體素網(wǎng)絡(luò)為多目標識別網(wǎng)絡(luò)并測試其識別性能。

（2）本文中采用計算重疊度的方法創(chuàng)建標簽分類信息、置信度信息和回歸信息，解決了3 項預(yù)測信息不匹配問題。

（3）用KITTI 數(shù)據(jù)集進行訓練，設(shè)計準確率與召回率評價指標，準確率用于輔助分析模型特征學習效果；召回率為性能評價指標主要參考。模型邊框預(yù)測綜合召回率為84.8%，類別預(yù)測綜合召回率為88.6%。

（4）以汽車為例，建立對汽車單類目標識別的體素網(wǎng)絡(luò)，進行了對比實驗，與本文中提出的多類物體識別網(wǎng)絡(luò)中對汽車單類目標的預(yù)測結(jié)果作比較。多類識別網(wǎng)絡(luò)中汽車邊框預(yù)測召回率在“easy”和“hard”模式下分別為88.4%和82.5%，高于用單類物體識別網(wǎng)絡(luò)預(yù)測汽車的68.4%和63.4%。驗證了多類物體識別網(wǎng)絡(luò)有助于增強網(wǎng)絡(luò)學習特征的能力。