李希宇 仲首任 馬芳武
(吉林大學(xué) 汽車(chē)仿真與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)春 130022)
主題詞:車(chē)輛工程 視覺(jué)慣性SLAM 激光SLAM 多傳感器融合
縮略語(yǔ)
SLAM Simultaneous Localization And Mapping
VSLAM VisualSimultaneousLocalization And Mapping
TOF Time Of Flight
VO Visual Odometry
SIFT Scale-Invariant Feature Transform
SURF Speeded Up Robust Features
FAST Feature from Accelerated Segment Test
ORB Oriented FAST and Rotated BRIEF
EKF Extended Kalman Filter
PTAM Parallel Tracking And Mapping
SVO Semi-direct Visual Odometry
DSO Direct Sparse Odometry
IMU Inertial Measurement Unit
VIO Visual-Inertial Odometry
MSCKF Multi-State Constraint Kalman Filter
ROVIO Robust Visual Inertial Odometry
OKVIS Open Keyframe-based Visual-Inertial SLAM
GCN Geometric Correspondence Network
隨著機(jī)器人與人工智能技術(shù)的快速發(fā)展,無(wú)人駕駛在很多行業(yè)中體現(xiàn)出了其巨大的應(yīng)用價(jià)值與發(fā)展?jié)摿?。同步定位與建圖(Simultaneous Localization And Mapping,SLAM)技術(shù)是無(wú)人駕駛的核心技術(shù)之一,在車(chē)輛定位與導(dǎo)航方面發(fā)揮著重大作用,成為當(dāng)前的研究熱點(diǎn)[1]。SLAM技術(shù)是指運(yùn)動(dòng)主體根據(jù)傳感器獲取的信息,一邊確定自身位姿,一邊構(gòu)建環(huán)境地圖的過(guò)程,解決主體在未知環(huán)境下運(yùn)動(dòng)時(shí)的定位與建圖問(wèn)題[2]。根據(jù)傳感器的類(lèi)型不同,SLAM主要分為激光SLAM和視覺(jué)SLAM兩大類(lèi),其中激光SLAM相較于視覺(jué)SLAM起步更早,在理論、技術(shù)和實(shí)際應(yīng)用上都相對(duì)成熟,但激光SLAM存在成本高及缺乏語(yǔ)義信息等問(wèn)題,因此基于視覺(jué)傳感器的視覺(jué)同步定位與建圖(visual Simul?taneous Localization And Mapping,VSLAM)技術(shù)憑借其信息豐富,成本低廉等優(yōu)勢(shì),成為SLAM領(lǐng)域的重要發(fā)展方向[3]。本文主要針對(duì)無(wú)人駕駛的視覺(jué)SLAM技術(shù)展開(kāi)綜述,主要包括以下內(nèi)容:首先簡(jiǎn)要概述視覺(jué)SLAM系統(tǒng)構(gòu)成及標(biāo)志性研究成果;其次展開(kāi)討論視覺(jué)SLAM的研究熱點(diǎn),包含基于多傳感器融合和深度學(xué)習(xí)的視覺(jué)SLAM技術(shù);最后總結(jié)了目前視覺(jué)SLAM系統(tǒng)存在的問(wèn)題并對(duì)未來(lái)發(fā)展進(jìn)行展望。
經(jīng)典的視覺(jué)SLAM系統(tǒng)包括傳感器數(shù)據(jù)讀取、前端、后端、回環(huán)檢測(cè)及建圖5大模塊(見(jiàn)圖1),其中前端負(fù)責(zé)通過(guò)追蹤幀間的圖像特征估計(jì)相機(jī)運(yùn)動(dòng)和局部地圖,后端根據(jù)前端提供的初值進(jìn)行優(yōu)化,回環(huán)檢測(cè)也可以稱(chēng)為閉環(huán)檢測(cè),通過(guò)計(jì)算圖像相似性,識(shí)別已訪問(wèn)過(guò)的場(chǎng)景,消除累計(jì)誤差,建圖環(huán)節(jié)是對(duì)周?chē)h(huán)境的描述[4]。

圖1 視覺(jué)SLAM系統(tǒng)框架
根據(jù)傳感器的類(lèi)型不同,視覺(jué)SLAM可分為單目視覺(jué)SLAM、雙目視覺(jué)SLAM以及RGB-D視覺(jué)SLAM,此外還有魚(yú)眼相機(jī)等傳感器選擇。單目視覺(jué)SLAM具備成本低、布置簡(jiǎn)單等優(yōu)點(diǎn),相關(guān)研究成果最為豐富,但由于單目無(wú)法估計(jì)深度,單目視覺(jué)SLAM具有尺度不確定性,在無(wú)運(yùn)動(dòng)或純旋轉(zhuǎn)狀況下無(wú)法獲取像素距離;相較于單目方法,雙目視覺(jué)SLAM則可在靜止?fàn)顩r下依靠雙目信息計(jì)算像素距離,在室外復(fù)雜場(chǎng)景下魯棒性更佳,但其深度量程受基線長(zhǎng)度與圖像分辨率的限制,且計(jì)算量較大、配置與標(biāo)定復(fù)雜;與單、雙目相機(jī)不同,RGB-D相機(jī)能夠通紅外結(jié)構(gòu)光或TOF原理,直接獲取像素深度,避免復(fù)雜計(jì)算,但測(cè)量范圍窄、極容易收到日光干擾,因此不適用于無(wú)人駕駛等以室外工作為主的系統(tǒng)。
前端又稱(chēng)為視覺(jué)里程計(jì)(Visual Odometry,VO),VO根據(jù)相鄰圖像的信息對(duì)相機(jī)運(yùn)動(dòng)和特征方位進(jìn)行粗略估計(jì),為后端優(yōu)化提供較好的初始值,VO的實(shí)現(xiàn)方法按照是否提取特征分為兩類(lèi):基于特征點(diǎn)檢測(cè)的特征點(diǎn)法和不檢測(cè)特征點(diǎn)的直接法,基于特征點(diǎn)法的VO系統(tǒng)運(yùn)行更加穩(wěn)定,對(duì)光照、動(dòng)態(tài)物體相對(duì)不敏感[5]。
特征點(diǎn)的檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要組成部分,在視覺(jué)SLAM中,通過(guò)幀間特征提取與追蹤估算主體位姿是一種非常重要的位姿估計(jì)方法,因此,選取魯棒性和計(jì)算效率較高、尺度和旋轉(zhuǎn)不變性較好的特征提取方法,可以很大程度提升VO系統(tǒng)工作的可靠性與穩(wěn)定性[6]。1999年David Lowe等[7]發(fā)表尺度不變特征轉(zhuǎn)換(Scale-invariant feature transform,SIFT)算法,并于2004年進(jìn)行完善和發(fā)展,算法總體分為3步完成對(duì)圖像特征點(diǎn)的提取和描述。
(1)通過(guò)高斯差分金字塔構(gòu)造尺度空間并通過(guò)高斯微分函數(shù)來(lái)識(shí)別興趣點(diǎn);
(2)對(duì)每個(gè)候選的位置確定位置和尺度,定位關(guān)鍵點(diǎn);
(3)為關(guān)鍵點(diǎn)賦予指向特性,得到描述子。
SIFT特征對(duì)旋轉(zhuǎn)、縮放及光照變化保持良好的不變性,魯棒性好,但計(jì)算量大,不具備實(shí)時(shí)性。SURF(Speeded Up Robust Features)[8]是對(duì)SIFT的一種改進(jìn),在保持SIFT算子優(yōu)良性能的基礎(chǔ)上解決SIFT計(jì)算量大、實(shí)時(shí)性差的缺點(diǎn),主要在興趣點(diǎn)提取和特征向量描述方面進(jìn)行了改進(jìn),使得計(jì)算速度得到一定的提升。無(wú)人駕駛技術(shù)對(duì)SLAM系統(tǒng)的實(shí)時(shí)性與精確度都提出了較高的要求,SIFT與SUFT算法由于計(jì)算速度較慢,在實(shí)時(shí)SLAM系統(tǒng)上的應(yīng)用具有較大的局限性,因此后續(xù)有很多在保證性能的基礎(chǔ)上更注重于計(jì)算速度的特征提取算法被提出。Edward等[9]在2006年提出FAST(Feature from Accelerated Segment Test)角點(diǎn)檢測(cè)方法,是一種基于模板和機(jī)器學(xué)習(xí)的局部角點(diǎn)檢測(cè)算法,同時(shí)具備較高的精確度與計(jì)算效率。FAST以待檢測(cè)像素點(diǎn)為圓心,當(dāng)定半徑圓周上的其他像素點(diǎn)與圓心像素點(diǎn)灰度差異足夠大時(shí)即認(rèn)為該點(diǎn)為角點(diǎn)。但由于FAST角點(diǎn)不具備方向與尺度信息,因此不具備旋轉(zhuǎn)和尺度不變性。Rublee等[10]在基于FAST角點(diǎn)和BRIEF描述子,提出ORB(Oriented FAST and Rotated BRIEF)算法,該算法首先對(duì)圖像構(gòu)建圖像金字塔,然后檢測(cè)FAST關(guān)鍵點(diǎn)并計(jì)算每一個(gè)關(guān)鍵點(diǎn)的特征向量。ORB的描述子采用計(jì)算速度很快的二進(jìn)制字符串特征BRIEF描述子[11],因此ORB計(jì)算速度較快,具備特征檢測(cè)的實(shí)時(shí)性,與此同時(shí),ORB受噪聲影響較小,具有良好的旋轉(zhuǎn)不變性和尺度不變性,可應(yīng)用于實(shí)時(shí)SLAM系統(tǒng)。
后端接受視覺(jué)里程計(jì)估計(jì)的相機(jī)位姿和環(huán)境信息,并對(duì)這些信息進(jìn)行優(yōu)化,得到全局一致的運(yùn)動(dòng)軌跡和環(huán)境地圖[12]。視覺(jué)SLAM系統(tǒng)的后端優(yōu)化主要有兩種實(shí)現(xiàn)方式:一種是以擴(kuò)展卡爾曼濾波(EKF)[13]為代表的濾波方法,另一種是以圖優(yōu)化為代表的非線性優(yōu)化方法[14]。
濾波方法主要是利用貝葉斯原理,根據(jù)上一時(shí)刻的系統(tǒng)狀態(tài)和運(yùn)動(dòng)輸入估計(jì)當(dāng)前時(shí)刻的狀態(tài)及置信度,并根據(jù)當(dāng)前時(shí)刻的觀測(cè)數(shù)據(jù)與系統(tǒng)狀態(tài),得到當(dāng)前系統(tǒng)狀態(tài)的最優(yōu)估計(jì)[15]?;跒V波的優(yōu)化方法在小空間內(nèi)的使用相對(duì)成功,但由于其存儲(chǔ)量隨狀態(tài)量平方增長(zhǎng)的原因,在大型未知場(chǎng)景中的使用受到一定限制。基于濾波的方法包括擴(kuò)展卡爾曼濾波[13]、無(wú)跡卡爾曼濾波[16]和粒子濾波[17]等。
基于非線性優(yōu)化(圖優(yōu)化)方法的核心思想是:把后端優(yōu)化算法轉(zhuǎn)換成圖的一種形式,不同時(shí)刻的主體位姿和環(huán)境特征作為頂點(diǎn),頂點(diǎn)間的約束關(guān)系用邊來(lái)表示[18]。建好圖之后,利用圖優(yōu)化算法對(duì)主體位姿和環(huán)境特征進(jìn)行求解,使得頂點(diǎn)上的待優(yōu)化狀態(tài)量更好地滿足對(duì)應(yīng)邊上的約束條件,優(yōu)化算法執(zhí)行結(jié)束之后,對(duì)應(yīng)的圖即是主體運(yùn)動(dòng)軌跡和環(huán)境地圖。目前主流的視覺(jué)SLAM系統(tǒng)大多采用非線性優(yōu)化的方法。
回環(huán)檢測(cè)的任務(wù)是讓系統(tǒng)在回到原地時(shí)能夠根據(jù)傳感器信息識(shí)別當(dāng)前場(chǎng)景并判定該區(qū)域已訪問(wèn)過(guò),是消除SLAM系統(tǒng)累計(jì)誤差、保證運(yùn)動(dòng)軌跡與環(huán)境地圖全局一致性的重要手段[19]。對(duì)于視覺(jué)SLAM,傳統(tǒng)回環(huán)檢測(cè)方法主要利用詞袋模型[20],其實(shí)現(xiàn)方法為:對(duì)從圖像中提取的局部特征通過(guò)K均值聚類(lèi)構(gòu)造一個(gè)包含K個(gè)詞匯的單詞表,根據(jù)單詞表中每個(gè)單詞的出現(xiàn)次數(shù)將圖像表示成為K維數(shù)值向量,用于場(chǎng)景差異性判斷,達(dá)到識(shí)別已訪問(wèn)場(chǎng)景的目的。
建圖(Mapping)是SLAM的兩大目標(biāo)之一。在經(jīng)典的SLAM系統(tǒng)中,環(huán)境地圖是指智能主體在一段時(shí)間內(nèi)探索獲取的所有路標(biāo)點(diǎn)的集合,建圖過(guò)程即為通過(guò)前端檢測(cè)和后端優(yōu)化確定所有路標(biāo)點(diǎn)方位的過(guò)程。建圖主要服務(wù)于定位功能,并起到導(dǎo)航、避障和環(huán)境重建的作用。
基于特征點(diǎn)法的視覺(jué)SLAM方法是指通過(guò)提取和匹配連續(xù)幀圖像的特征點(diǎn)來(lái)估計(jì)幀間的相機(jī)運(yùn)動(dòng)和構(gòu)建環(huán)境地圖。
2007年Davison等[21]提出的MonoSLAM是第一個(gè)實(shí)時(shí)的單目視覺(jué)SLAM系統(tǒng),MonoSLAM以EKF為后端,追蹤前端獲取的稀疏特征點(diǎn),以相機(jī)位姿和路標(biāo)點(diǎn)方位作為狀態(tài)量,更新其均值和協(xié)方差。同年Klein等[22]提出的 PTAM(Parallel Tracking And Mapping)實(shí)現(xiàn)了跟蹤和建圖工作的并行化,首次區(qū)分出前端和后端并提出關(guān)鍵幀(Keyframes)機(jī)制,通過(guò)非線性優(yōu)化的方法,將關(guān)鍵圖像串聯(lián)起來(lái)優(yōu)化運(yùn)動(dòng)軌跡和特征方位,后續(xù)許多視覺(jué)SLAM系統(tǒng)設(shè)計(jì)也采取了類(lèi)似的方法。ORB-SLAM[23]是2015年被提出的比較完善的基于關(guān)鍵幀的單目SLAM方法,相較于PTAM的雙線程機(jī)制,該方法將整個(gè)系統(tǒng)分為追蹤、地圖創(chuàng)建和閉環(huán)檢測(cè)3個(gè)線程進(jìn)行處理,其特征的提取與匹配、地圖構(gòu)建與回環(huán)檢測(cè)的工作都是基于ORB特征,具備較高的精確度,并且可以實(shí)時(shí)運(yùn)行。后續(xù)發(fā)布ORB-SLAM2,開(kāi)放了雙目相機(jī)與RGB-D相機(jī)的接口。

圖2 高速公路場(chǎng)景下ORB-SLAM2[23]雙目算法提取并跟蹤的特征點(diǎn),其中綠色(淺色)表示特征點(diǎn)深度小于40倍的雙目基線,藍(lán)色(深色)表示特征點(diǎn)大于40倍的雙目基線
特征點(diǎn)法存在提取特征點(diǎn)與計(jì)算描述子耗時(shí)較長(zhǎng)、忽略特征點(diǎn)以外的圖像信息等缺點(diǎn),因此有研究者提出不再計(jì)算關(guān)鍵點(diǎn)和描述子,而是根據(jù)像素灰度變化直接估計(jì)相機(jī)運(yùn)動(dòng),即為直接法[5]。
DTAM[24]是2011年提出的基于直接法的單目SLAM方法,相較于提取稀疏特征的傳統(tǒng)SLAM,該方法提取每一個(gè)像素的逆深度并通過(guò)優(yōu)化的方式構(gòu)建稠密深度圖,用深度地圖通過(guò)直接圖像匹配來(lái)計(jì)算得到相機(jī)的位姿。Engel等[25]于2014年提出的LSD-SLAM是單目直接法在視覺(jué)SLAM上成功應(yīng)用的標(biāo)志性方法,該方法將針對(duì)像素進(jìn)行的直接法應(yīng)用于半稠密單目SLAM系統(tǒng),相較于特征點(diǎn)法,對(duì)特征缺失區(qū)域敏感度較低,但對(duì)相機(jī)內(nèi)參和光照變化十分敏感,且在相機(jī)快速運(yùn)動(dòng)時(shí)易丟失。此外Forster等[26]提出的SVO(Semi-direct Visual Odometry)采用稀疏直接法,也稱(chēng)為半直接法:追蹤關(guān)鍵點(diǎn),根據(jù)關(guān)鍵點(diǎn)周?chē)畔⒐烙?jì)位姿。半直接法追蹤稀疏特征,既不計(jì)算描述子,也不處理稠密信息,因此SVO時(shí)間復(fù)雜度低,實(shí)時(shí)性較強(qiáng)。但SVO不具備后端優(yōu)化與回環(huán)檢測(cè)模塊,不具備建圖的功能,因此屬于視覺(jué)里程計(jì)而不能稱(chēng)為完整的視覺(jué)SLAM系統(tǒng)。2016年慕尼黑工業(yè)大學(xué)提出的DSO[27]也采用了半直接法,在較快的運(yùn)算速度下保證較高的精度。
直接法具備計(jì)算速度快、對(duì)弱特征情況不敏感等優(yōu)點(diǎn),但建立在灰度不變這一強(qiáng)假設(shè)下,因而對(duì)光照變化非常敏感,相反特征點(diǎn)法具備良好的不變特性,在實(shí)際工作中魯棒性更好[28]。表1總結(jié)了視覺(jué)SLAM框架中的主要算法。

表1 視覺(jué)SLAM代表性成果表
單一使用攝像頭的純視覺(jué)SLAM不具備較強(qiáng)的魯棒性,在光照變化明顯、運(yùn)動(dòng)劇烈和弱紋理等情況下極易發(fā)生跟蹤失效,造成定位與地圖構(gòu)建失敗。將不同的傳感器數(shù)據(jù)融合起來(lái)進(jìn)行互補(bǔ),可使系統(tǒng)更加魯棒、精度更高,許多研究者嘗試將不同的傳感器融入VSLAM系統(tǒng),其中典型的多傳感融合方式有相機(jī)+慣性測(cè)量單元(Inertial Measurement Unit,IMU)、相機(jī)+激光雷達(dá)等[29-30]。
4.1.1 視覺(jué)-慣性SLAM
基于純視覺(jué)的SLAM系統(tǒng)在魯棒性和穩(wěn)定性上面存在一定問(wèn)題,在一定程度上制約了其在無(wú)人駕駛領(lǐng)域的廣泛應(yīng)用。慣性測(cè)量單元可以彌補(bǔ)視覺(jué)系統(tǒng)在弱紋理或光照變化等情況下特征點(diǎn)跟蹤失效的問(wèn)題,而視覺(jué)又可以彌補(bǔ)慣性測(cè)量單元隨時(shí)間累計(jì)漂移的問(wèn)題,視覺(jué)-慣性SLAM由于慣性測(cè)量單元與視覺(jué)的互補(bǔ)作用,在無(wú)人駕駛等領(lǐng)域具有良好的發(fā)展前景[31]。視覺(jué)慣性融合的主要方式就是將IMU信息與視覺(jué)前端信息相結(jié)合,即視覺(jué)慣性里程計(jì)(Visual-Inertial Odometry,VIO)。一般可將VIO系統(tǒng)分為基于濾波(Filter-based)和基于優(yōu)化(Optimization-based)兩大類(lèi)。
在基于濾波器的VIO方法中,Mourikis等人[32]于2007年首次提出的多狀態(tài)約束下的卡爾曼濾波器(Multi-State Constraint Kalman Filter,MSCKF)是最早的較為成功的視覺(jué)-慣性導(dǎo)航系統(tǒng)之一,MSCKF在擴(kuò)展卡爾曼濾波器下融合了單目視覺(jué)與慣性信息,相較于純視覺(jué)里程計(jì),MSCKF能適應(yīng)更劇烈的運(yùn)動(dòng)和一定時(shí)間的紋理缺失等問(wèn)題,具有更高的魯棒性。但Li等[33]在2013年指出了MSCKF在狀態(tài)估計(jì)過(guò)程中的不一致性,并提出MSCKF2.0,在精度、一致性和計(jì)算效率方面有較大提升。此外ROVIO(Robust Visual Iner?tial Odometry)[34]和MSCKF_VIO[35]也是近年來(lái)出色的基于濾波方法的VIO工作。
在基于優(yōu)化的VIO方法中,最為經(jīng)典的框架是OKVIS(Open Keyframe-based Visual-Inertial SLAM)[36]和 VINS-Mono[37]。Leutenegge等[36]提出的 OKVIS 通過(guò)IMU測(cè)量值預(yù)測(cè)對(duì)當(dāng)前狀態(tài),空間點(diǎn)和二維圖像特征構(gòu)成重投影誤差,預(yù)測(cè)的IMU狀態(tài)量和優(yōu)化的參數(shù)構(gòu)成IMU誤差項(xiàng),最后將重投影誤差與和IMU誤差項(xiàng)放在一起進(jìn)行優(yōu)化。秦通等[37]提出的VINS-Mono系統(tǒng)首先對(duì)視覺(jué)部分進(jìn)行初始化,然后估計(jì)陀螺儀的偏置、重力、尺度和速度,其次,將預(yù)積分后的慣性單元測(cè)量值和視覺(jué)測(cè)量值進(jìn)行融合,通過(guò)非線性優(yōu)化的方法得到高精度視覺(jué)慣性里程計(jì),VINS-Mono具備與OK?VIS相當(dāng)?shù)亩ㄎ痪?,并具有更加完善和魯棒的初始化及回環(huán)檢測(cè)部分,在系統(tǒng)級(jí)別上優(yōu)于OKVIS。圖3為VINS-Mono系統(tǒng)框架圖。

圖3 VINS-Mono系統(tǒng)框架[37]
值得注意的是,雖然學(xué)界已經(jīng)認(rèn)為在純視覺(jué)SLAM中,基于優(yōu)化方法的方法效果要明顯優(yōu)于基于濾波的方法,但在視覺(jué)-慣性SLAM系統(tǒng)中,兩類(lèi)方法在性能上目前還未發(fā)現(xiàn)明顯的優(yōu)劣之分。
4.1.2 視覺(jué)-激光SLAM
激光相對(duì)視覺(jué)存在一些優(yōu)點(diǎn),比如不依賴(lài)于光照,可靠性好,且精度更高。而視覺(jué)傳感器可從環(huán)境中獲取大量紋理信息,擁有較強(qiáng)的場(chǎng)景辨識(shí)能力。因此在無(wú)人駕駛等領(lǐng)域,視覺(jué)與激光相融合的SLAM系統(tǒng)能夠提供更智能、更可靠的環(huán)境感知和狀態(tài)估計(jì)方案。
根據(jù)視覺(jué)與激光在SLAM系統(tǒng)中所起作用比重不同,可將視覺(jué)激光融合SLAM方案分為激光主導(dǎo)、視覺(jué)主導(dǎo)和視覺(jué)激光相互矯正3類(lèi)。
(1)激光主導(dǎo)的主要方式包括利用視覺(jué)信息提升激光SLAM閉環(huán)檢測(cè)的準(zhǔn)確性,或者在位姿估計(jì)階段構(gòu)建激光特征的變換誤差和視覺(jué)重投影誤差聯(lián)合優(yōu)化函數(shù)提高位姿估計(jì)的魯棒性,例如Bai等[38]利用卷積神經(jīng)網(wǎng)絡(luò)提取特征實(shí)現(xiàn)回環(huán)檢測(cè),并且通過(guò)設(shè)置匹配范圍有效避免了閉環(huán)場(chǎng)景誤匹配,通過(guò)特征壓縮的方法保證SLAM系統(tǒng)實(shí)時(shí)性。
(2)視覺(jué)主導(dǎo)的代表性工作是LIMO[39],該方法將激光雷達(dá)獲取的空間點(diǎn)云投影在像平面上估計(jì)視覺(jué)特征的尺度,并將激光雷達(dá)恢復(fù)的視覺(jué)特征尺度與相機(jī)位姿估計(jì)得出的特征尺度構(gòu)建誤差項(xiàng)作為額外約束放入后端優(yōu)化過(guò)程。
(3)V-LOAM[40]是視覺(jué)激光相互矯正的經(jīng)典方法,該方法利用激光雷達(dá)掃描一圈的時(shí)間內(nèi)視覺(jué)里程計(jì)估計(jì)得到的相機(jī)位來(lái)姿矯正激光點(diǎn)云的運(yùn)動(dòng)畸變,利用相鄰掃描矯正后的激光點(diǎn)云估計(jì)得出的相對(duì)位姿對(duì)視覺(jué)估計(jì)的位姿進(jìn)行矯正,把矯正后的點(diǎn)云映射到局部地圖中,用于后續(xù)的位姿優(yōu)化。目前,基于視覺(jué)激光融合的SLAM方法相比于視覺(jué)慣性融合研究成果和實(shí)際應(yīng)用較少,有待更進(jìn)一步的探索與研究。
基于傳統(tǒng)方法的視覺(jué)SLAM仍存在一些問(wèn)題,例如對(duì)光照變化敏感、在動(dòng)態(tài)場(chǎng)景下效果不理想等[41]。近年來(lái)深度學(xué)習(xí)理論在計(jì)算機(jī)視覺(jué)等領(lǐng)域獲得較高的關(guān)注度,深度學(xué)習(xí)能夠在很大程度上幫助視覺(jué)系統(tǒng)提升視覺(jué)任務(wù)的準(zhǔn)確性和魯棒性[42-44],因此很多SLAM領(lǐng)域的研究者提出將深度學(xué)習(xí)應(yīng)用于SLAM技術(shù)。
4.2.1 深度學(xué)習(xí)與深度估計(jì)
視覺(jué)SLAM需要獲取世界坐標(biāo)系中點(diǎn)的深度,傳統(tǒng)SLAM系統(tǒng)通常采用主動(dòng)式的方法(結(jié)構(gòu)光測(cè)距等)直接獲取空間點(diǎn)深度或者通過(guò)被動(dòng)式的方法(雙目測(cè)距、三角化估計(jì)和深度濾波器等)對(duì)深度進(jìn)行間接估計(jì)。相較于雙目視覺(jué),單目視覺(jué)SLAM技術(shù)在大規(guī)模室外場(chǎng)景存在一些問(wèn)題,例如其初始化尺度的估計(jì)、尺度漂移和閉環(huán)檢測(cè)等。部分研究者提出使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行單目視覺(jué)深度估計(jì),2017年,Zhou等[45]提出一種無(wú)監(jiān)督的學(xué)習(xí)框架,可以從非結(jié)構(gòu)化視頻序列中進(jìn)行單目深度和運(yùn)動(dòng)估計(jì)的任務(wù)。同年Godard等[46]提出了一種不需要基準(zhǔn)深度數(shù)據(jù)就能進(jìn)行單個(gè)圖像深度估計(jì)的卷積神經(jīng)網(wǎng)絡(luò),執(zhí)行端到端的無(wú)監(jiān)督單目深度估計(jì),并且通過(guò)損失函數(shù)保持網(wǎng)絡(luò)內(nèi)部左右深度的一致性。2018年Mahjourian等[47]提出了一種基于單目進(jìn)行深度無(wú)監(jiān)督學(xué)習(xí)和自我運(yùn)動(dòng)的方法,該方法明確考慮場(chǎng)景的三維特征,維持連續(xù)幀之間三維點(diǎn)云的一致性。盡管很多基于深度學(xué)習(xí)的深度估計(jì)方法已被提出,但基于深度學(xué)習(xí)的深度估計(jì)方法存在如下問(wèn)題:難以避免遮擋、重復(fù)紋理、物體邊緣等問(wèn)題造成的錯(cuò)誤估計(jì)、系統(tǒng)不具備完全的可解釋性等。此外,就目前而言,使用深度學(xué)習(xí)的深度估計(jì)方法相較于成熟的傳統(tǒng)雙目SLAM方法不具備明顯優(yōu)勢(shì)。
4.2.2 深度學(xué)習(xí)與特征提取
通過(guò)深度學(xué)習(xí)方法提取和學(xué)習(xí)圖像特征在計(jì)算機(jī)視覺(jué)領(lǐng)域已經(jīng)取得巨大成功,因此有學(xué)者提出可將深度學(xué)習(xí)與視覺(jué)SLAM系統(tǒng)的視覺(jué)前端相結(jié)合。DeT?one等[48]提出了一種使用2個(gè)卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)跟蹤系統(tǒng),第1個(gè)網(wǎng)絡(luò)在單張圖像上提取均勻分布的二維特征點(diǎn),第2個(gè)網(wǎng)絡(luò)根據(jù)第1個(gè)網(wǎng)絡(luò)輸出的點(diǎn)圖像對(duì)進(jìn)行運(yùn)動(dòng)預(yù)測(cè),該方法計(jì)算速度較快,同時(shí)對(duì)噪聲的抵抗能力也較強(qiáng)。2018年Tang等[49]提出GCN(Geomet?ric Correspondence Network)-SLAM,根據(jù)SLAM工作過(guò)程中前后兩幀圖像構(gòu)成的圖像對(duì)訓(xùn)練系統(tǒng),并將前后兩幀之間的相對(duì)位姿加入到損失函數(shù)的設(shè)計(jì)中,獲得較好的實(shí)際效果。與人工設(shè)置的特征相比,深度學(xué)習(xí)提取的圖像特征更加抽象與高級(jí),因此深度學(xué)習(xí)與視覺(jué)前端的結(jié)合具備很好的研究?jī)r(jià)值和發(fā)展前景。
4.2.3 語(yǔ)義SLAM
傳統(tǒng)SLAM方法基于對(duì)特征或像素的追蹤估計(jì)主體運(yùn)動(dòng)及環(huán)境信息,語(yǔ)義級(jí)別較低,相比之下,融入物體識(shí)別、目標(biāo)檢測(cè)、語(yǔ)義分割等技術(shù)的語(yǔ)義SLAM增加了對(duì)于內(nèi)容的理解。美國(guó)賓夕法尼亞大學(xué)的Bowman等[50]在2017年提出一種融合尺度信息與語(yǔ)義信息的理論框架,利用目標(biāo)檢測(cè),整合尺度信息和語(yǔ)義信息,用于位姿和地圖點(diǎn)的優(yōu)化。2018年Lianos等人提出VSO框架[51],利用語(yǔ)義信息實(shí)現(xiàn)中期連續(xù)點(diǎn)跟蹤,該方法可以與已有的基于直接法或間接法的視覺(jué)里程計(jì)框架相結(jié)合,在無(wú)人駕駛場(chǎng)景下明顯降低平移誤差。同年香港科技大學(xué)沈邵劼團(tuán)隊(duì)提出了一種基于立體視覺(jué)的方法來(lái)跟蹤動(dòng)態(tài)自主駕駛場(chǎng)景中的自我運(yùn)動(dòng)和3D語(yǔ)義對(duì)象,取得較好的效果[52],效果如圖4所示。語(yǔ)義SLAM相較于傳統(tǒng)SLAM方法具備很多優(yōu)點(diǎn),但仍有一些問(wèn)題需要提前被注意起來(lái),比如在語(yǔ)義SLAM中,錯(cuò)誤的數(shù)據(jù)關(guān)聯(lián)將引發(fā)更加嚴(yán)重的后果。

圖4 效果圖[52]:上方圖為主體運(yùn)動(dòng)軌跡和檢測(cè)到的車(chē)輛,下方圖左1為特征匹配,左2為跟蹤截?cái)嘬?chē)輛,右2為動(dòng)態(tài)物體的3D稀疏特征恢復(fù),右1為運(yùn)動(dòng)一致性與朝向估計(jì)。
在過(guò)去的三十年里,視覺(jué)SLAM技術(shù)取得了重大的突破,能夠廣泛應(yīng)用無(wú)人駕駛、無(wú)人機(jī)等領(lǐng)域,并很好的完成感知與定位任務(wù)。需要指出當(dāng)前的視覺(jué)SLAM仍存在難以兼顧實(shí)時(shí)性與準(zhǔn)確性、魯棒性有待提升等問(wèn)題,在室外動(dòng)態(tài)復(fù)雜場(chǎng)景下的應(yīng)用還面臨著很大挑戰(zhàn)。隨著功能豐富的新型傳感器的出現(xiàn)和人工智能算法的飛速發(fā)展,視覺(jué)SLAM也不斷提高精度及魯棒性,向多傳感器融合和智能化的方向發(fā)展。