












關鍵詞:礦用車輛;無人駕駛車輛;激光雷達;相機;多幀點云融合;全景分割;外參標定;無目標標定
中圖分類號:TD67 文獻標志碼:A
0引言
近年來,我國煤礦開始加快推進智能化建設,其中礦用無人駕駛輔助運輸車輛已成為煤礦智能化建設的重要內容和智能化煤礦驗收的重要標準[1-2]。由此可見,礦用車輛向智能化乃至無人化發展是未來發展必然的趨勢。然而,礦用車輛要實現無人駕駛,必須要依賴準確的環境感知[3-5],即利用礦用本安型車載傳感器進行感知。激光雷達和相機作為最常見的車載傳感器,它們具有不同的優劣勢。激光雷達可直接獲取高精度的距離信息,但無法感知目標表面的紋理和顏色。相機可以提供顏色和紋理信息,易于進行目標的識別與分割,但無法直接提供感知目標的距離信息。將激光雷達和相機相結合可以彌補彼此的不足,從而獲得更豐富和準確的環境感知信息,這對于礦用無人駕駛車輛的三維目標檢測及同時定位與地圖構建(Simultaneous Localization andMapping,SLAM)建圖等至關重要。為了確保激光雷達和相機之間有效融合,需要進行外參(描述傳感器之間相對位置和姿態的參數,包括平移向量和旋轉矩陣)標定。通過準確估計激光雷達和相機之間的外參,可以將它們的數據對齊,使它們在同一坐標系下具有一致性。一般來說,激光雷達與相機的外參標定方法可以分為基于目標和無目標2 類。
文獻[6]最早提出了基于目標的標定方法,使用固定的棋盤格作為標定目標。通過優化棋盤格表面的法線來求解校準參數。文獻[7]建立了一種新的幾何約束來解耦激光雷達和相機之間的旋轉和平移,并提出了一個基于平面法線不確定性的權值,以提高外參的準確性。文獻[8] 利用激光雷達點云在不同顏色區域的反射率差異,提取棋盤格上的角點信息,從而實現激光雷達與相機標定。文獻[9-12]通過建立二維和三維特征空間之間匹配關系來優化外參。上述方法依賴于人工選擇特定的目標或使用特殊的標定工具,不僅費時費力,而且難以適應實時標定的需求。
基于無目標的標定方法不需要制作特定的校準目標,直接從環境中獲取外觀或者運動信息,自動完成外參的估計。文獻[13]利用點云反射率與圖像灰度值之間的互信息(Mutual Information, MI)最大化來實現外參估計。文獻[14]通過給不同場景類別中的3D?2D 屬性對分配不同的權重,組合出一個可靠的相似度度量。文獻[15]利用神經信息估計器(Mutual" Information Neural Estimation ,MINE)來估計從點云和圖像像素中提取的語義標簽的MI。文獻[16]通過直線特征提取器提取點云和圖像中的直線特征(如車道線、電線桿等),將外參估計看作線特征語義約束下的線匹配問題。文獻[17]利用圖像語義分割構建二值分割掩碼,使點云更多地投影到障礙物的分割區域像素點上。文獻[18]基于手眼模型進行2D?3D 校準,采用傳感器融合里程計優化外參。文獻[19]采用運動恢復結構(Structure from Motion,SfM) 和最近點迭代(Iterative Closest Point, ICP) 算法,對二維圖像序列與LiDAR 點云進行配準,同時通過結合投影和邊緣特征點的組合優化方法,提升了外參精度。然而,由于運動估計誤差會影響標定參數的精度,這些方法只能提供粗略的外參標定結果。
近年來,隨著深度學習在點云和圖像特征提取方面的卓越能力展現,基于深度學習的激光雷達相機標定方法應運而生。文獻[20]提出了RegNet,首次使用深度卷積神經網絡(Convolutional NeuralNetworks, CNN)來估計投影深度測量值與圖像之間的對應關系,并回歸6 自由度(Degrees of Freedom,DOF)外部校準參數。文獻[21]提出的CalibNet 是一個幾何監督神經網絡,通過最大化輸入圖像和點云的幾何和光度一致性來估計外部校準參數。文獻[22]提出了校準流網絡(Calibration Flow Network,CFNet),該方法結合幾何方法,通過使用雙通道圖像(校準流)描述初始投影與地面真值之間的偏差,并采用隨機樣本一致性(Random Sample Consensus,RANSAC)中的EPnP 算法,建立校準流構建的2D?3D 對應關系來估計外參。上述基于無目標的標定方法雖然能夠省去人為干預,但需要提供較為準確的初始標定參數,或者所需激光點云較為稠密,對于點云數據的要求較高。而目前礦用本安型車載激光雷達存在防爆功率要求,常用的多為16 線激光雷達,產生的點云較為稀疏。
針對礦用本安型車載傳感器的特點,本文提出一種礦用激光雷達與相機的無目標自動標定方法。首先利用多幀點云融合的方法獲得融合幀點云,以增加點云密度,豐富點云信息;然后通過全景分割的方法提取場景中的車輛和交通標志作為有效目標,通過構建2D?3D 有效目標質心對應關系,實現礦用激光雷達與相機外參的粗校準;最后在精校準部分,將有效目標點云通過粗校準的外參投影在逆距離變換后的分割掩碼上,構建有效目標全景信息匹配度目標函數,通過粒子群算法最大化目標函數得到最優的外參。
2 礦用激光雷達與相機的無目標自動標定方法
礦用激光雷達與相機的無目標自動標定方法由粗校準和精校準組成,如圖2所示。
2.1多幀點云融合
多幀點云融合作為本文方法的重要步驟,影響后續的點云分割任務及外參的標定精度。為了有效平衡計算效率和信息豐富性,避免過高的計算復雜度和信息冗余,選擇3 幀點云數據,將前2 幀作為歷史幀點云,然后通過多幀點云融合算法將歷史幀點云數據配準到當前幀點云,目的是豐富當前幀點云信息,得到融合幀點云。多幀點云融合算法流程如圖3 所示。將歷史幀點云數據通過基于RANSAC 的粗配準方法和當前幀點云數據進行初步對齊,使用基于ICP 的精配準方法進一步優化對齊結果,得到更精確的融合幀點云。
上述誤差函數可以通過SVD 求解,經過若干次迭代,變換矩陣Tf 收斂到一個穩定值,即可得到精確的融合幀點云。
通過以上粗精配準,能夠有效地將歷史幀點云數據配準到當前幀點云,如圖4 所示。可看出融合幀點云較當前幀點云密度更大,目標輪廓更清晰完整。
2.2粗校準
無目標的校準方法對于良好的初始外參要求較高,因為良好的初始化可以加快優化過程的收斂速度,避免發散或陷入局部極小值。目前大多數方法的初始參數都是通過手動方式測量或者手眼校準,但手動測量耗時耗力,手眼校準依賴傳感器的運動信息。無目標自動標定方法要實現更準確的外參標定就必須對外參進行初始化校準,參考文獻[23],使用語義分割來分別計算圖像2D 語義質心和激光雷達點云3D 語義質心,通過構建2D?3D 語義質心對應關系, 將激光雷達與相機的粗校準看作一種PnP 問題進行解析。常見的PnP 算法要求至少有3 對點云才能計算,這就要求每對點云和圖像必須有3 類對象,增加了對于標定場景的限制。本文通過全景分割,為每個像素點和點云分配類別標簽和實例ID,并選擇容易分割且特征明顯的車輛和交通標志分別作為有效目標,進而獲取車輛的實例質心及交通標志的語義質心,以此增加2D?3D 的對應關系,示例如圖5 所示。
4) 檢查終止條件。如果達到最大迭代次數或精度條件,則輸出最優解,否則返回步驟2)。
3實驗分析
3.1實驗設置
為了驗證本文方法的準確性及魯棒性,在自制數據集上進行了大量實驗,將實驗采集儀器(圖7)安裝在無軌膠輪車上進行數據采集。圖像來自KBA12(B)礦用本安型攝像儀,分辨率為1 920×1 080,原始點云數據來自16 線GUJ50 礦用本安型激光雷達。采集場景包括室內車庫及礦區室外環境,該數據集以10 Hz 的速率同步并校正,其包含了1 120 幀RGB 圖像及時間戳對應的融合幀點云數據,并通過手動測量獲得傳感器之間的外參作為實驗真實值。
本文采用目前分割性能較好的OneFormer 模型[24]和P3Former[25]模型分別對當前幀圖像和融合幀點云進行全景分割。首先,將自制數據集中的原始圖像和融合幀點云制作為Cityscape 和Semantic?KITTI 格式,訓練集與驗證集的比例為9∶1。為了加快2 個全景分割模型在自制數據集上的收斂速度,本文使用了2 個全景分割模型分別在Cityscape 數據集和Semantic?KITTI 數據集上的預訓練權重文件,然后再對2 個分割模型進行訓練,最終將訓練好的模型用于分割預測。
為了評估本文方法相對于參考校準的性能,根據預測的外部參數的平移和旋轉誤差對標定結果進行分析。通過歐氏距離計算平移誤差和旋轉誤差Δθ。
3.2定量結果
首先,在自制數據集中進行粗校準,整個過程是自動的,本文使用50 幀圖像和融合點云進行基于有效目標質心的初始化實驗,之后不再進行粗校準。粗校準中6 個參數的誤差分布如圖8 所示。 X, Y,Z 的MAE 大多小于0.3 m,R,H,A 的MAE 大多小于2 °,說明粗校準能給出較合理的初始值。
進行粗校準后,從數據集中2 個場景選擇100 幀圖像和融合點云進行精校準實驗。所有精校準實驗均使用粗校準得到的相同初始外參。2 種校準結果見表1,可看出精校準在精度方面較粗校準有了極大的提升。
為了驗證精校準的魯棒性,本文對每個標定參數進行了不同程度的擾動。其中,當1 個參數發生改變時,其他5 個參數保持其真實值。旋轉的擾動范圍設置為 [0, 6°],共計60 組;平移的擾動范圍設置為[0, 1 m],共計50 組。每組實驗的擾動程度逐步增加,旋轉擾動每次增加0.1°,平移擾動每次增加0.02 m。單次擾動在100 幀圖像和融合點云上進行實驗,并將100 幀精校準的結果取平均值作為最終結果。
增加擾動后,精校準的MAE 如圖9 所示。可看出盡管初始擾動增大了精校準的難度,但平移和旋轉的MAE 僅略有增加。這表明擾動的程度對精校準的影響并不顯著,說明本文的精校準方法具有魯棒性和穩定性。
標定參數擾動實驗整體結果見表2,可看出平移參數和旋轉參數的擾動對精校準影響較小,擾動后的標定參數經過精校準后均能夠將誤差控制在小于粗校準誤差的范圍內。
為了驗證本文方法的先進性,將其與文獻 [17]中基于語義分割技術的方法進行對比。在自制數據集上采用相同的初始外參,使用融合幀點云與圖像作為輸入開展實驗,實驗共使用100 幀數據,標定結果的MAE 見表3。不同方法的校準誤差分布如圖10所示。由表3 和圖10 可看出,本文方法的平移誤差為0.055 m,旋轉誤差為0.394°,平移誤差較基于語義分割技術的方法降低了43.88%, 旋轉誤差降低了48.63%。這是由于本文利用的全景信息能夠提供更準確的目標位置和邊界信息,有助于降低目標間的相互干擾。本文通過歷史幀點云與當前幀點云融合的方法,增加了當前幀中有效目標點云的密度。這種方法不僅豐富了點云數據,還提高了點云的匹配信息,從而降低了校準誤差。
3.3定性結果
為了更直觀地顯示校準結果,利用表3 中精校準的外參將有效目標點云投影到圖像平面上。在自制數據集上的2 個場景分別進行測試,本文方法的投影結果與外參真值的投影結果如圖11 所示。從圖11(a)和圖11(c)可看出,所有車輛和交通標志的圖像與點云都能很好對齊,且與圖11(b)和圖11(d)中外參真值的投影結果非常接近。這表明本文方法在外參標定中具有良好的準確性和穩定性。
3.4消融研究
比較融合幀點云作為輸入和目標函數中的權重系數對整體方法的影響。
1) 融合幀點云作為輸入的影響。多幀點云融合可以提高點云的密度和全景分割的質量,為了評估融合幀點云對校準結果的影響,設置2 種點云數據輸入,一種為融合幀點云,一種為單幀點云,結果見表4。可看出使用融合幀點云相較單幀點云作為輸入時平移誤差降低了50.89%,旋轉誤差降低了53.76%,表明多幀點云融合能夠有效提高校準精度。
2) 權重系數的影響。為了評估目標函數中權重系數對校準結果的影響,對權重系數進行了消融實驗,結果見表5。不同的有效目標點云個數不同,根據投影在匹配圖上有效目標的點數分配不同的權重參數,在相同的測試條件和數據集下運行,一個考慮權重系數,一個不考慮權重系數。可看出考慮權重系數后平移誤差降低了36.05%,旋轉誤差降低了37.87%,表明考慮權重系數可以有效提高校準性能。
4結論
1) 提出了一種礦用激光雷達與相機的無目標自動標定方法。針對礦用激光雷達低線束的特點,采用多幀點云融合技術來增加點云密度,以豐富點云信息。通過全景分割技術提取場景中的車輛和交通標志等有效目標,構建2D?3D 目標質心對應關系進行粗校準,獲得初始外參。隨后,將提取的有效目標點云通過初始外參投影到分割掩碼上,構建全景信息的匹配度函數,使用粒子群算法對外參進行優化,以提升標定精度。
2) 在定量分析中,礦用激光雷達與相機的無目標自動標定方法的平移誤差為0.055 m,旋轉誤差為0.394°,與基于語義分割技術的方法相比,平移誤差降低了43.88%,旋轉誤差降低了48.63%。
3) 定性結果顯示,車庫和礦區場景中的投影結果與外參真值高度吻合,點云與圖像對齊良好,證明了該方法在實際應用中的穩定性和準確性。
4) 消融實驗結果表明,多幀點云融合和目標函數權重系數對標定精度提升有顯著作用。使用融合多幀點云相比單幀點云,平移誤差降低了50.89%,旋轉誤差降低了53.76%;而在考慮權重系數后,平移誤差降低了36.05%,旋轉誤差降低了37.87%。