




摘 要: 針對(duì)動(dòng)態(tài)物體容易干擾SLAM建圖準(zhǔn)確性的問題,提出了一種新的動(dòng)態(tài)環(huán)境下的RGB-D SLAM框架,將深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)與運(yùn)動(dòng)信息相結(jié)合。首先,算法使用Mask R-CNN網(wǎng)絡(luò)檢測(cè)可能生成動(dòng)態(tài)對(duì)象掩模的潛在運(yùn)動(dòng)對(duì)象。其次,算法將光流方法和Mask R-CNN相結(jié)合進(jìn)行全動(dòng)態(tài)特征點(diǎn)的剔除。最后在TUM RGB-D數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果表明,該方法可以提高SLAM系統(tǒng)在動(dòng)態(tài)環(huán)境下的位姿估計(jì)精度,比現(xiàn)有的ORB-SLAM2的表現(xiàn)效果更好。
關(guān)鍵詞: 同步定位與建圖; 特征點(diǎn); 動(dòng)態(tài)環(huán)境; 語義分割
中圖分類號(hào): TP242.6"" 文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1001-3695(2022)05-031-1472-06
doi:10.19734/j.issn.1001-3695.2021.09.0402
SLAM algorithm based on semantic segmentation and dynamic feature point elimination
Zhang Heng1,2, Xu Changchun1, Liu Yanli1,2, Liao Zhifang3
(1.School of Information Engineering, East China Jiaotong University, Nanchang 330013, China; 2.School of Electronic Information, Shanghai Dianji University, Shanghai 201306, China; 3.School of Computer Science amp; Engineering, Central South University, Changsha 410083, China)
Abstract: Aiming at the problem that dynamic objects tend to interfere with the accuracy of SLAM mapping,this paper proposed a new RGB-D SLAM framework for dynamic environments,which combined neural networks in deep learning with motion information.Firstly,the algorithm used the Mask R-CNN network to detect potential moving objects that might generate dynamic object masks.Secondly,the algorithm combined the optical flow method and Mask R-CNN to remove full dynamic feature points.Finally,the experimental results under the TUM RGB-D dataset show that this algorithm can improve the pose estimation accuracy of the SLAM system in dynamic environments and perform better than the existing ORB-SLAM2.
Key words: simultaneous localization and mapping; feature points; dynamic environment; semantic segmentation
0 引言
同步定位與地圖構(gòu)建(SLAM)[1]是機(jī)器人在未知環(huán)境下實(shí)現(xiàn)自主定位與建圖的核心技術(shù),它旨在利用自身裝載的傳感器對(duì)自身位姿進(jìn)行估計(jì),并以增量的方式對(duì)周圍環(huán)境動(dòng)態(tài)構(gòu)建實(shí)時(shí)地圖。經(jīng)過近20年的發(fā)展,SLAM技術(shù)已經(jīng)在自動(dòng)駕駛、無人駕駛、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、無人機(jī)等領(lǐng)域發(fā)揮了重要作用。當(dāng)前SLAM系統(tǒng)所使用的傳感器主要有相機(jī)、激光雷達(dá)、慣性測(cè)量單元(inertial measurement unit,IMU)等。由于視覺傳感器的成本較低,許多功能強(qiáng)大的SLAM系統(tǒng)都使用了視覺傳感器,且效果相對(duì)較好。視覺傳感器又可以分為單目相機(jī)、雙目相機(jī)、RGB-D相機(jī)以及事件相機(jī)等,均已被開源方案廣泛適用,如ORB-SLAM2[2]、LSD-SLAM[3]、SVO[4]等。視覺同步定位與地圖構(gòu)建(visual SLAM,VSLAM)[5]因采用視覺傳感器逐漸成為 SLAM 領(lǐng)域的熱門研究方向之一。
視覺SLAM按照視覺里程計(jì)的計(jì)算方法不同可以分為直接法和特征點(diǎn)法[6]。直接法基于光度不變假設(shè),它不依賴特征點(diǎn)的提取和匹配,直接通過兩幀之間的像素灰度值構(gòu)建光度誤差(photometric error)來求解相機(jī)位姿。特征點(diǎn)法基于特征點(diǎn)的匹配,通過最小化重投影誤差(reprojection error)來計(jì)算相機(jī)位姿與地圖點(diǎn)的位置。Engel等人[3]提出的LSD-SLAM(large scale direct monocular SLAM)是直接法中比較完整的SLAM系統(tǒng)。該系統(tǒng)適用于大規(guī)模場(chǎng)景,能夠構(gòu)建大尺度的、全局一致性的環(huán)境地圖。其后提出的DSO(direct sparse odometry)[7]稀疏直接法的視覺里程計(jì),在準(zhǔn)確性、穩(wěn)定性和速度上優(yōu)于LSD-SLAM。Forster等人[4]提出的半直接法視覺里程計(jì)SVO(semi-direct visual odoemtry)結(jié)合了基于特征點(diǎn)的方法和直接跟蹤光流方法的優(yōu)點(diǎn)。其后提出的最新版本SVO2.0[8]基于視覺慣性里程計(jì),支持透視、魚眼和雙目相機(jī),可以生成輕量的、全局一致性的環(huán)境地圖。以上工作[3,4,7,8]采用了直接法的視覺里程計(jì)方案。MonoSLAM[9]是第一個(gè)在單目相機(jī)上實(shí)時(shí)運(yùn)行的視覺SLAM系統(tǒng),它采用EKF(extended Kalman filter)作為后端,在前端跟蹤稀疏特征點(diǎn),算法效率高,但其稀疏的特征點(diǎn)容易跟蹤丟失。Klein等人[10]提出的PTAM(parallel tracking and mapping)是最早提出將跟蹤和建圖分開作為兩個(gè)線程的一種SLAM算法,是一種基于關(guān)鍵幀的單目視覺SLAM算法。PTAM采用FAST(features from accelerated segment test)作為特征提取方法來實(shí)現(xiàn)跟蹤和建圖。Mur-Artal等人[2]提出的ORB-SLAM2可以在大規(guī)模場(chǎng)景下實(shí)現(xiàn)長(zhǎng)期運(yùn)行。其增加了對(duì)雙目攝像機(jī)和RGB-D深度攝像機(jī)的支持,是基于特征點(diǎn)跟蹤方法的SLAM的成功應(yīng)用。Campos等人[11]在ORB-SLAM2基礎(chǔ)上提出的ORB-SLAM3增加了視覺慣性里程計(jì)、多地圖融合等功能,支持單目、雙目以及 RGB-D相機(jī),同時(shí)支持針孔相機(jī)和魚眼相機(jī)模型的 SLAM 系統(tǒng)。以上工作[2,9~11]采用了特征點(diǎn)法的視覺里程計(jì)方案。然而上述方法大多是在靜態(tài)環(huán)境下成功實(shí)現(xiàn),不能實(shí)時(shí)檢測(cè)和處理動(dòng)態(tài)場(chǎng)景中的動(dòng)態(tài)物體,在定位和建圖過程中不可避免地會(huì)產(chǎn)生干擾。
由于傳統(tǒng)基于特征點(diǎn)的方法很容易受到紋理缺失導(dǎo)致的特征點(diǎn)不足,相機(jī)運(yùn)動(dòng)過快導(dǎo)致的特征不匹配,以及光照突變導(dǎo)致狀態(tài)估計(jì)失敗等一系列問題。為了使系統(tǒng)適應(yīng)動(dòng)態(tài)環(huán)境,越來越多的目標(biāo)檢測(cè)和語義分割方法被引入到SLAM系統(tǒng)中。其中比較流行的目標(biāo)檢測(cè)和語義分割方法有SegNet[12]、Mask R-CNN[13]和YOLOv3[14]等。深度學(xué)習(xí)的目標(biāo)檢測(cè)和語義分割具有更高的準(zhǔn)確率,在SLAM系統(tǒng)中得到了廣泛的應(yīng)用。DS-SLAM[15]基于ORB-SLAM2,將語義分割網(wǎng)絡(luò)[11]與運(yùn)動(dòng)一致性檢查相結(jié)合,以減少動(dòng)態(tài)對(duì)象的影響。DynaSLAM[16]同樣基于ORB-SLAM2,通過添加動(dòng)態(tài)目標(biāo)檢測(cè)功能,在單目、雙目和RGB-D數(shù)據(jù)集的動(dòng)態(tài)場(chǎng)景中具有強(qiáng)大的功能。它可以通過結(jié)合Mask R-CNN和多視圖幾何模型對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行改進(jìn)。DDL-SLAM[17]增加了動(dòng)態(tài)對(duì)象分割的功能,采用DUNet[18]提供像素級(jí)的語義分割和多視圖幾何相結(jié)合的方法作為預(yù)處理階段過濾掉與動(dòng)態(tài)目標(biāo)相關(guān)的數(shù)據(jù)。DP-SLAM[19]基于動(dòng)態(tài)關(guān)鍵點(diǎn)檢測(cè)的移動(dòng)概率傳播模型,結(jié)合了幾何約束和語義分割的結(jié)果來跟蹤貝葉斯概率估計(jì)框架中的動(dòng)態(tài)關(guān)鍵點(diǎn),從而過濾掉與移動(dòng)對(duì)象相關(guān)聯(lián)的關(guān)鍵點(diǎn)。OFM-SLAM[20]使用Mask R-CNN實(shí)例分割網(wǎng)絡(luò)和光流方法檢測(cè)動(dòng)態(tài)特征點(diǎn)。RDS-SLAM[21]建立在ORB-SLAM3基礎(chǔ)之上,添加了語義線程和基于語義的優(yōu)化線程,以便在動(dòng)態(tài)環(huán)境中實(shí)時(shí)進(jìn)行可靠的跟蹤和建圖。使用移動(dòng)概率來更新和傳播語義信息,該概率被保存在地圖中,并使用數(shù)據(jù)關(guān)聯(lián)算法從跟蹤中去除異常值。在遮擋了太多的背景特征而無法成功地從背景中跟蹤時(shí),DOE-SLAM[22]可以利用物體的特征和預(yù)測(cè)的物體運(yùn)動(dòng)來估計(jì)攝像機(jī)的姿態(tài),從而跟蹤運(yùn)動(dòng)對(duì)象的姿態(tài)。然而,在某些情況,以上提出的工作會(huì)導(dǎo)致兩個(gè)問題。首先,當(dāng)動(dòng)態(tài)物體占據(jù)了場(chǎng)景圖像中很大比例的時(shí)候,直接去除與移動(dòng)物體相關(guān)的所有特征會(huì)導(dǎo)致圖像特征點(diǎn)數(shù)量的減少,從而導(dǎo)致軌跡丟失,SLAM定位和建圖的準(zhǔn)確性就會(huì)受到很大影響。其次,具有移動(dòng)能力但處于靜止?fàn)顟B(tài)的物體出現(xiàn)在圖像中,雖然它們當(dāng)前是靜止?fàn)顟B(tài)的,比如停靠在路上的汽車,如果直接將這些汽車上的特征點(diǎn)去除,一些原始的有用信息就會(huì)丟失,也會(huì)導(dǎo)致定位和建圖的不可靠。
為了確保該系統(tǒng)能夠適應(yīng)復(fù)雜室內(nèi)環(huán)境下定位和建圖的要求,本文提出了一種基于語義信息和幾何信息的動(dòng)態(tài)場(chǎng)景下的SLAM框架,所提方法致力于從以下兩個(gè)方面改進(jìn)系統(tǒng):a)提出了一種基于Mask R-CNN的語義分割的RGB-D SLAM系統(tǒng)減少動(dòng)態(tài)對(duì)象的影響;b)將Mask R-CNN分割的語義信息與光流法檢測(cè)出的幾何信息相結(jié)合,提高了動(dòng)態(tài)物體的識(shí)別準(zhǔn)確率,這極大地提高了本文算法的姿態(tài)估計(jì)精度和魯棒性。
1 總體框架
作為成熟的SLAM方案之一,ORB-SLAM2系統(tǒng)方案受PTAM 提出的跟蹤過程和建圖過程并行設(shè)計(jì)的啟發(fā),創(chuàng)新性地提出了實(shí)時(shí)跟蹤特征點(diǎn)線程、局部建圖優(yōu)化線程和回環(huán)檢測(cè)線程三種線程模式。ORB-SLAM2的三線程結(jié)果實(shí)現(xiàn)了非常好的跟蹤和建圖效果,并且可以保證軌跡和建圖的全局一致性。
圖1顯示了系統(tǒng)的整體框架,在ORB-SLAM2系統(tǒng)的基礎(chǔ)上增加了語義分割模塊和運(yùn)動(dòng)目標(biāo)檢測(cè)模塊。語義分割模塊用于分割出具體的實(shí)例,包括動(dòng)態(tài)物體和靜態(tài)物體。運(yùn)動(dòng)目標(biāo)檢測(cè)模塊首先對(duì)輸入的每一幀圖像進(jìn)行對(duì)象檢測(cè),用于獲取圖像中的類別信息。跟蹤線程首先提取ORB特征點(diǎn)[23],特征點(diǎn)與對(duì)象類別信息相關(guān)聯(lián)。根據(jù)特征點(diǎn)的類別和特征點(diǎn)從參考幀到當(dāng)前幀的運(yùn)動(dòng)信息,結(jié)合上一幀地圖點(diǎn)的動(dòng)態(tài)信息,可以得到每個(gè)特征點(diǎn)的動(dòng)態(tài)概率,剔除動(dòng)態(tài)概率高的特征點(diǎn)。從關(guān)鍵點(diǎn)生成的地圖點(diǎn)被賦予相應(yīng)的動(dòng)態(tài)概率,該概率將被傳播到下一幀。剩下的部分類似于ORB-SLAM2的流程。進(jìn)入模塊判斷當(dāng)前幀是否為關(guān)鍵幀后,系統(tǒng)進(jìn)入局部建圖和閉環(huán)檢測(cè)線程。
3 實(shí)驗(yàn)結(jié)果
3.1 TUM數(shù)據(jù)集
本文在TUM數(shù)據(jù)集[28]上進(jìn)行了實(shí)驗(yàn)。該數(shù)據(jù)集使用一個(gè)RGB-D Kinect攝像頭,提供彩色和深度圖像以及準(zhǔn)確的真實(shí)軌跡,并包含不同室內(nèi)環(huán)境中的39個(gè)序列。根據(jù)場(chǎng)景中是否有動(dòng)態(tài)對(duì)象,本文將序列分為靜態(tài)場(chǎng)景和動(dòng)態(tài)場(chǎng)景。實(shí)驗(yàn)在CPU為Intel Xeon E5-2689,GPU為GeForce GTX1070,內(nèi)存為64 GB的計(jì)算機(jī)上進(jìn)行。
為了方便起見,本文用fr3、half、w、s來代表freiburg3、halfsphere、walking、sitting作為序列的名稱。從TUM RGB-D數(shù)據(jù)集中選取了八組序列,將所提系統(tǒng)與ORB-SLAM2、DS-SLAM和DynaSLAM進(jìn)行比較。使用絕對(duì)軌跡誤差(absolute trajectory error,ATE)和相對(duì)位姿誤差(relative pose error,RPE)來進(jìn)行定量評(píng)估。ATE是估計(jì)位姿與實(shí)際位姿之間的直接差值,可以非常直觀地反映算法精度和軌跡全局一致性。RPE包含相對(duì)平移誤差和相對(duì)旋轉(zhuǎn)誤差,直接測(cè)量里程計(jì)的誤差。
3.2 定量評(píng)估
本文給出了絕對(duì)軌跡誤差的均方根誤差(root mean square error,RMSE)和標(biāo)準(zhǔn)差(standard deviation,SD)的值,RMSE描述了所估計(jì)的值與真實(shí)值之間的偏差,因此其值越小,代表所估計(jì)的軌跡越接近真實(shí)值。SD反映了系統(tǒng)軌跡估計(jì)的離散程度。以上兩個(gè)指標(biāo)相結(jié)合能更好地證明系統(tǒng)的魯棒性和穩(wěn)定性。為了更好地反映出本文算法的性能,本文將ORB-SLAM2與該系統(tǒng)作對(duì)比,如表1~4所示。RMSE和SD的值計(jì)算公式為
σRMSE=(1-αβ)×100%(9)
σSD=(1-γμ)×100%(10)
其中:σRMSE表示本文算法RMSE值的改進(jìn);α表示本文算法的RMSE值;β表示ORB-SLAM2的RMSE值;σSD表示本文算法SD值的改進(jìn);γ表示本文算法的SD值;μ表示ORB-SLAM2的RMSE值。
本文算法與ORB-SLAM2、DS-SLAM、DynaSLAM算法的比較結(jié)果如表1~4所示。對(duì)于高動(dòng)態(tài)序列,本文算法的絕對(duì)軌跡誤差的均方根誤差和標(biāo)準(zhǔn)差在fr3/w/xyz序列下分別為98.92%和99.07%。該對(duì)比實(shí)驗(yàn)表明本文算法在高動(dòng)態(tài)環(huán)境下具有良好的性能。對(duì)于低動(dòng)態(tài)序列,本文算法的絕對(duì)軌跡誤差的均方根誤差和標(biāo)準(zhǔn)差在fr3/s/rpy下分別僅為11.64%和34.35%,在fr3/s/half下分別僅為21.61%和2.38%。原因是在低動(dòng)態(tài)序列中,大多數(shù)對(duì)象是靜態(tài)的,物體運(yùn)動(dòng)緩慢,運(yùn)動(dòng)物體在環(huán)境中占的比例小。ORB-SLAM2在靜態(tài)環(huán)境下可以獲得良好的效果,因此在低動(dòng)態(tài)序列下很難提高性能。而且在低動(dòng)態(tài)環(huán)境中可以使用對(duì)象上的特征點(diǎn),并且它們不會(huì)影響跟蹤性能,所以在這種情況下,本文算法的改進(jìn)并不明顯。與其他兩種動(dòng)態(tài)環(huán)境下的SLAM方法相比,本文算法優(yōu)于DS-SLAM,并且大多數(shù)序列的性能都優(yōu)于DynaSLAM。
從表2可以看出,本文算法在低動(dòng)態(tài)場(chǎng)景和高動(dòng)態(tài)場(chǎng)景下比原始的ORB-SLAM2都有了很大的改進(jìn)。在fr3/w/xyz,fr3/w/rpy等八個(gè)序列上,本文算法的結(jié)果相對(duì)更好。在fr3/w/half序列上,本文算法相對(duì)于DS-SLAM和Dyna-SLAM的結(jié)果非常接近。DS-SLAM的SD值取得了較好的結(jié)果。從表3可以看出,本文算法在fr3/w/half和fr3/w/xyz序列上得到了最好的結(jié)果。DynaSLAM在fr3/w/rpy序列上取得了更好的結(jié)果,但本文算法相對(duì)優(yōu)于DS-SLAM和ORB-SLAM2。值得注意的是,ORB-SLAM2、DS-SLAM和DynaSLAM在fr3/w/rpy序列上的RMSE值沒有明顯改善。在fr3/w/static序列上,DynaSLAM的RMSE值和本文算法的SD值分別得到了更好的結(jié)果,并且本文算法的RMSE值優(yōu)于DS-SLAM的RMSE值。事實(shí)上,這三個(gè)系統(tǒng)的結(jié)果非常接近。本文算法的RMSE值和DS-SLAM的SD值在fr3/w/xyz上分別取得了較好的結(jié)果。從表4可以看出,本文算法在高動(dòng)態(tài)場(chǎng)景下的改進(jìn)相較于ORB-SLAM2 有了很大的提升,但在低動(dòng)態(tài)環(huán)境下改進(jìn)效果不是那么明顯。
與原來的ORB-SLAM2系統(tǒng)相比,本文算法可以大大提升高動(dòng)態(tài)序列的精度。具體來說,對(duì)于低動(dòng)態(tài)序列,平均可以達(dá)到20%以上的改進(jìn)。對(duì)于高動(dòng)態(tài)場(chǎng)景,改進(jìn)更加明顯,可以達(dá)到90%以上。結(jié)果表明,該方法可以進(jìn)一步消除動(dòng)態(tài)目標(biāo)的干擾,從而減少優(yōu)化過程中的位姿誤差。
3.3 定性評(píng)估
為了更進(jìn)一步地評(píng)估系統(tǒng),選取了兩個(gè)有代表性的序列與DS-SLAM、DynaSLAM和本文算法作比較。其中fr3/w/xyz是高動(dòng)態(tài)環(huán)境下的序列,fr3/s/half是低動(dòng)態(tài)環(huán)境下的序列。藍(lán)色實(shí)線表示DS-SLAM系統(tǒng)估計(jì)的軌跡,綠色實(shí)線表示DynaSLAM系統(tǒng)估計(jì)的軌跡,紅色實(shí)線表示本文算法估計(jì)的軌跡,黑色虛線表示相機(jī)的真實(shí)軌跡(見電子版)。本文的軌跡圖是用evo[29]工具畫出來的。該軟件包可以用于評(píng)估和比較SLAM算法的軌跡誤差,包括絕對(duì)軌跡誤差和相對(duì)位姿誤差。從圖5、6可以看出,在fr3/w/xyz序列下DS-SLAM系統(tǒng)估計(jì)的軌跡相比真實(shí)軌跡有很大的漂移,而在fr3/s/half序列下DS-SLAM和DynaSLAM系統(tǒng)估計(jì)的軌跡與本文算法估計(jì)的軌跡與真實(shí)軌跡幾乎重合。這說明DS-SLAM和DynaSLAM系統(tǒng)在低動(dòng)態(tài)環(huán)境下運(yùn)行情況良好,而在高動(dòng)態(tài)環(huán)境下很容易造成軌跡丟失。本文算法在高動(dòng)態(tài)環(huán)境和低動(dòng)態(tài)環(huán)境下很好地克服了DS-SLAM和DynaSLAM系統(tǒng)的弊端。
圖7~9是DS-SLAM、DynaSLAM和本文算法在fr3/w/xyz序列下的絕對(duì)軌跡誤差曲線。在fr3/w/xyz序列下,DS-SLAM系統(tǒng)與真實(shí)軌跡有很大的差別,而本文算法預(yù)測(cè)的軌跡與真實(shí)軌跡幾乎保持一致。這是因?yàn)镈S-SLAM估計(jì)的軌跡由于動(dòng)態(tài)物體不移動(dòng)或移動(dòng)緩慢,與真實(shí)的軌跡比較有很大的差異。圖10~12是DS-SLAM、DynaSLAM和本文算法在fr3/s/half序列下的絕對(duì)軌跡誤差曲線。在fr3/s/half序列下,DS-SLAM系統(tǒng)與真實(shí)軌跡的誤差較大,DynaSLAM系統(tǒng)與真實(shí)軌跡的誤差相對(duì)較小,本文算法預(yù)測(cè)的軌跡與真實(shí)軌跡的誤差也很小。說明在低動(dòng)態(tài)環(huán)境下兩個(gè)系統(tǒng)的誤差很相似,但是本文算法預(yù)測(cè)的軌跡更接近真實(shí)軌跡。
最后,DS-SLAM只將人作為分割的動(dòng)態(tài)對(duì)象,而本文算法預(yù)先定義了20個(gè)潛在動(dòng)態(tài)或可移動(dòng)的物體,并在RGB-D數(shù)據(jù)集中進(jìn)行了評(píng)估。本文算法更適用于各種復(fù)雜的場(chǎng)景。DynaSLAM將分割后的內(nèi)容直接視為動(dòng)態(tài)對(duì)象,并且只在RGB-D情況下使用多視圖幾何提取動(dòng)態(tài)特征點(diǎn)。本文算法添加了運(yùn)動(dòng)目標(biāo)檢測(cè)模塊,可以避免在靜態(tài)掩模上丟棄過多的特征點(diǎn),能夠解決剩余靜態(tài)特征點(diǎn)太少的問題。因此,本文算法比直接去除掩模中所有特征點(diǎn)的方法具有更好的魯棒性。DS-SLAM和DynaSLAM在進(jìn)行語義分割時(shí)計(jì)算量會(huì)比較大,容易降低SLAM系統(tǒng)運(yùn)行效率,導(dǎo)致對(duì)動(dòng)態(tài)特征點(diǎn)跟蹤失敗。本文算法在語義分割的過程中提高了算法分割的效率,計(jì)算量相對(duì)較小,能夠很好地跟蹤動(dòng)態(tài)特征點(diǎn)。但與較為先進(jìn)的SLAM系統(tǒng)相比,本文算法在實(shí)時(shí)性方面仍存在差距。因此,下一步的研究方向是進(jìn)一步優(yōu)化語義分割網(wǎng)絡(luò),進(jìn)一步提高系統(tǒng)的實(shí)時(shí)性。上述定性結(jié)果表明,本文算法在魯棒性和準(zhǔn)確性方面有顯著提高,特別是在高動(dòng)態(tài)環(huán)境下的序列中。
4 結(jié)束語
本文提出了一種基于ORB-SLAM2的Mask R-CNN動(dòng)態(tài)物體剔除方法。通過光流和語義分割過濾特征點(diǎn),檢測(cè)和消除動(dòng)態(tài)特征點(diǎn),利用穩(wěn)定的靜態(tài)特征點(diǎn)進(jìn)行動(dòng)態(tài)場(chǎng)景下的運(yùn)動(dòng)估計(jì),完成語義地圖的構(gòu)建。本文使用公開的TUM數(shù)據(jù)集以及搭建的實(shí)驗(yàn)平臺(tái)對(duì)比了ORB-SLAM2、DS-SLAM和DynaSLAM三個(gè)主流算法的位姿估計(jì)精度。評(píng)估結(jié)果表明,該系統(tǒng)在高動(dòng)態(tài)場(chǎng)景下精度和速度方面都優(yōu)于現(xiàn)有的方法。實(shí)驗(yàn)結(jié)果表明,本文算法在動(dòng)態(tài)環(huán)境下具有可靠的優(yōu)越性、準(zhǔn)確性和魯棒性。然而,該算法在某些大規(guī)模的室外場(chǎng)景下很容易跟蹤丟失,僅適用于室內(nèi)場(chǎng)景,未來可考慮改進(jìn)本文的語義分割網(wǎng)絡(luò)以適應(yīng)各種復(fù)雜多變的情況,更好地實(shí)現(xiàn)機(jī)器人的路徑規(guī)劃與導(dǎo)航。
參考文獻(xiàn):
[1]劉浩敏,章國(guó)鋒,鮑虎軍.基于單目視覺的同時(shí)定位與地圖構(gòu)建方法綜述[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2016,28(6):855-868. (Liu Haomin,Zhang Guofeng,Bao Hujun.Overview of simultaneous localization and mapping methods based on monocular vision[J].Journal of Computer Aided Design and Graphics,2016,28(6):855-868.)
[2]Mur-Artal R,Tardos J D.ORB-SLAM2:an open-source SLAM system for monocular,stereo,and RGB-D cameras[J].IEEE Trans on Robotics,2017,33(5):1255-1262.
[3]Engel J,Schps T,Cremers D.LSD-SLAM:large-scale direct monocular SLAM[C]//Proc of European Conference on Computer Vision.Cham: Springer,2014:834-849.
[4]Forster C,Pizzoli M,Scaramuzza D.SVO:fast semi-direct monocular visual odometry[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2014:15-22.
[5]吳凡,宗艷桃,湯霞清.視覺 SLAM 的研究現(xiàn)狀與展望[J].計(jì)算機(jī)應(yīng)用研究,2020,37(8):2248-2254. (Wu Fan,Zong Yantao,Tang Xiaqing.Research status and prospects of visual SLAM[J].Application Research of Computers,2020,37(8):2248-2254.)
[6]谷曉琳,楊敏,張燚,等.一種基于半直接視覺里程計(jì)的 RGB-D SLAM 算法[J].機(jī)器人,2020,42(1):39-48. (Gu Xiaolin,Yang Min,Zhang Yi,et al.An RGB-D SLAM algorithm based on semi-direct visual odometry[J].Robot,2020,42(1):39-48.)
[7]Wang Rui,Schworer M,Cremers D.Stereo DSO:large-scale direct sparse visual odometry with stereo cameras[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:3923-3931.
[8]Forster C,Zhang Zichao,Gassner M,et al.SVO:semidirect visual odometry for monocular and multicamera systems[J].IEEE Trans on Robotics,2017,33(2):249-265.
[9]Davison A J,Reid I D,Molton N D,et al.MonoSLAM:real-time single camera SLAM[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2007,29(6):1052-1067.
[10]Klein G,Murray D.Parallel tracking and mapping for small AR workspaces[C]//Proc of the 6th IEEE and ACM International Symposium on Mixed and Augmented Reality.Piscataway,NJ:IEEE Press,2007:225-234.
[11]Campos C,Elvira R,Rodríguez J J G,et al.ORB-SLAM3:an accurate open-source library for visual,visual-inertial,and multimap SLAM[J].IEEE Trans on Robotics,2021,37(6):1874-1890.
[12]Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.
[13]He Kaiming,Gkioxari G,Dollár P,et al.Mask R-CNN[EB/OL]. (2018-01-24).https://arxiv.org/abs/1703.06870.
[14]鄒斌,林思陽,尹智帥.基于YOLOv3和視覺SLAM的語義地圖構(gòu)建[J].激光與光電子學(xué)進(jìn)展,2020,57(20):124-130. (Zou Bin,Lin Siyang,Yin Zhishuai.Semantic map construction based on YOLOv3 and visual SLAM[J].Progress in Laser and Optoelectronics,2020,57(20):124-130.)
[15]Yu Chao,Liu Zuxin,Liu X J,et al.DS-SLAM:a semantic visual SLAM towards dynamic environments[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2018:1168-1174.
[16]Bescos B,F(xiàn)ácil J M,Civera J,et al.DynaSLAM:tracking,mapping,and inpainting in dynamic scenes[J].IEEE Robotics and Automation Letters,2018,3(4):4076-4083.
[17]Ai Yongbao,Rui Ting,Lu Ming,et al.DDL-SLAM:a robust RGB-D SLAM in dynamic environments combined with deep learning[J].IEEE Access,2020,8:162335-162342.
[18]Jin Qiangguo,Meng Zhaopeng,Pham T D,et al.DUNet:a deformable network for retinal vessel segmentation[J].Knowledge-Based Systems,2019,178(8):149-162.
[19]Li Ao,Wang Jikai,Xu Meng,et al.DP-SLAM:a visual SLAM with moving probability towards dynamic environments[J].Information Sciences,2021,556:128-142.
[20]Zhao Xiong,Zuo Tao,Hu Xinyu.OFM-SLAM:a visual semantic SLAM for dynamic indoor environments[J].Mathematical Problems in Engineering,2021,2021:article ID 5538840.
[21]Liu Yubao,Miura Jun.RDS-SLAM:real-time dynamic SLAM using semantic segmentation methods[J].IEEE Access,2021,9:23772-23785.
[22]Hu Xiao,Lang Jochen.DOE-SLAM:dynamic object enhanced visual SLAM[J].Sensors,2021,21(9):article No.3091.
[23]Rublee E,Rabaud V,Konolige K,et al.ORB:an efficient alternative to SIFT or SURF[C]//Proc of International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2011:2564-2571.
[24]Paszke A,Gross S,Massa F,et al.PyTorch:an imperative style,high-performance deep learning library[C]//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:8026-8037.
[25]Lin T Y,Maire M,Belongie S,et al.Microsoft coco:common objects in context[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2014:740-755.
[26]Chum O,Matas J,Kittler J.Locally optimized RANSAC[C]//Proc of Joint Pattern Recognition Symposium.Berlin:Springer,2003:236-243.
[27]Lucas B D,Kanade T.An iterative image registration technique with an application to stereo vision[C]//Proc of the 7th International Joint Conference on Artificial Intelligence.1981:674-679.
[28]Sturm J,Engelhard N,Endres F,et al.A benchmark for the evaluation of RGB-D SLAM systems[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2012:573-580.
[29]Michael G.evo:Python package for the evaluation of odometry and SLAM[EB/OL].(2017).https://michaelgrupp.github.io/evo/.