























摘要大規(guī)模環(huán)境建圖時(shí),使用輕便的機(jī)器人群去感知環(huán)境,采用多機(jī)器人協(xié)同SLAM(同步定位與地圖構(gòu)建)方案,可以解決在單個(gè)機(jī)器人SLAM方案下面臨的個(gè)體成本高昂、全局誤差累積、計(jì)算量大和風(fēng)險(xiǎn)過(guò)于集中的問(wèn)題,有著極強(qiáng)的魯棒性與穩(wěn)定性.本文回顧了多機(jī)器人協(xié)同SLAM的發(fā)展歷史,介紹了相關(guān)的融合算法與融合架構(gòu),并從機(jī)器學(xué)習(xí)分類(lèi)的角度梳理了現(xiàn)有的協(xié)同SLAM算法;同時(shí)還介紹了未來(lái)多機(jī)器人SLAM發(fā)展的重要方向:深度學(xué)習(xí)、語(yǔ)義地圖與多機(jī)器人VSLAM的結(jié)合問(wèn)題,并對(duì)未來(lái)發(fā)展侙作出了展望.關(guān)鍵詞同時(shí)定位與地圖構(gòu)建;視覺(jué)SLAM;多機(jī)器人SLAM;移動(dòng)機(jī)器人;多源數(shù)據(jù)融合;語(yǔ)義
中圖分類(lèi)號(hào)TP391.4;TP242
文獻(xiàn)標(biāo)志碼A
0 引言
同步定位與地圖構(gòu)建(Simultaneous Localization and Mapping,SLAM)技術(shù)最早起源于機(jī)器人領(lǐng)域[1].SLAM的問(wèn)題可以闡述為:將一個(gè)機(jī)器人放入未知環(huán)境中的未知位置,使得機(jī)器人可以同時(shí)估計(jì)自身狀態(tài)和生成環(huán)境地圖,進(jìn)而實(shí)現(xiàn)機(jī)器人在移動(dòng)過(guò)程中的自主感知與定位.
自Smith等[1]在1986年首先提出SLAM的概念之后,SLAM技術(shù)得到了快速發(fā)展.2006年,Durrant-Whyte團(tuán)隊(duì)發(fā)表了兩篇關(guān)于SLAM所面臨問(wèn)題的綜述文章,第一篇可以看成簡(jiǎn)單的入門(mén)教程[2],而第二篇?jiǎng)t是當(dāng)時(shí)較新的方法簡(jiǎn)介[3].2008年,Aulinas等[4]對(duì)基于濾波方法的SLAM進(jìn)行了討論,并闡述了濾波方法的實(shí)用性與優(yōu)缺點(diǎn).Strasdat等分別在2010年與2012年對(duì)“基于濾波”[5]與“基于優(yōu)化”[6]的SLAM進(jìn)行了比較,在此之后,基于優(yōu)化的方法逐漸成為主流.Dissanayake等[7]和Huang等[8]闡述了現(xiàn)代SLAM中的“可觀性”、“一致性”、“收斂性”以及計(jì)算效率和復(fù)雜度.2016年,Saeedi等[9]描述了各種算法的動(dòng)機(jī)以及優(yōu)缺點(diǎn),還介紹了多機(jī)器人應(yīng)用較多的場(chǎng)景.
學(xué)者們從不同角度對(duì)多機(jī)器人SLAM的研究做出了總結(jié).衛(wèi)恒等[10]從多機(jī)器人后端出發(fā),分析了多機(jī)器人SLAM后端優(yōu)化算法的數(shù)據(jù)處理方式,同時(shí)指出多機(jī)器人SLAM后端優(yōu)化算法的未來(lái)發(fā)展趨勢(shì),即后端優(yōu)化算法逐步由基于濾波理論優(yōu)化向基于圖像、深度學(xué)習(xí)優(yōu)化轉(zhuǎn)變.陰賀生等[11]對(duì)基于視覺(jué)SLAM的多機(jī)器人技術(shù)進(jìn)行了詳細(xì)介紹,闡述了多機(jī)器人SLAM協(xié)作建圖方法,并提出了需要解決的魯棒性、自適應(yīng)協(xié)作建圖、快速準(zhǔn)確的SLAM軌跡生成等問(wèn)題.苗國(guó)英等[12]針對(duì)多智能體系統(tǒng)的協(xié)調(diào)控制問(wèn)題,提出未來(lái)多智能體系統(tǒng)研究過(guò)程中需要解決動(dòng)態(tài)網(wǎng)絡(luò)下的建模以及多智能體實(shí)時(shí)通信的問(wèn)題.胡凱等[13]提出一種基于滑膜變結(jié)構(gòu)控制的多機(jī)器人協(xié)同編隊(duì)控制方法,闡述了滑膜變結(jié)構(gòu)、起源及存在的問(wèn)題.同時(shí),將該方法與神經(jīng)網(wǎng)絡(luò)控制、魯棒自適應(yīng)控制等控制技術(shù)相結(jié)合,反映了多機(jī)器人協(xié)同控制的應(yīng)用現(xiàn)狀,并對(duì)多機(jī)器人協(xié)同控制方法進(jìn)行總結(jié).劉佳等[14]闡述了關(guān)于多機(jī)器人系統(tǒng)協(xié)同控制一致性問(wèn)題的研究進(jìn)展,并介紹了多智能體協(xié)同控制的應(yīng)用領(lǐng)域.裴凌等[15]從傳感器觀測(cè)模型、環(huán)境場(chǎng)景模型、載體運(yùn)動(dòng)行為模型等方面出發(fā),并從濾多源融合定位算法.Dorigo等[16]介紹了集群機(jī)器人的起源與分布式機(jī)器人技術(shù)的發(fā)展現(xiàn)狀,并確定了目前集群機(jī)器人最有前途的研究方向,包括在未來(lái)發(fā)展的過(guò)程中需要針對(duì)性突破的一些技術(shù).
基于多機(jī)器人的SLAM綜述較多,但未能詳細(xì)介紹多機(jī)器人SLAM架構(gòu)類(lèi)型與數(shù)據(jù)融合以及多機(jī)器人SLAM與語(yǔ)義信息之間的聯(lián)系.本文首先使用Citespace對(duì)Web of Science以及中國(guó)知網(wǎng)中現(xiàn)有的SLAM論文進(jìn)行聚類(lèi)、熱點(diǎn)分析,并介紹了SLAM中較常用的數(shù)據(jù)集.其次枚舉了優(yōu)秀的多機(jī)器人SLAM框架,并將多機(jī)器人SLAM與語(yǔ)義信息結(jié)合起來(lái),根據(jù)生成語(yǔ)義的方式分成監(jiān)督算法、無(wú)監(jiān)督算法與半監(jiān)督算法3類(lèi).最后對(duì)多機(jī)器人VSLAM(視覺(jué)SLAM)的發(fā)展進(jìn)行了總結(jié)與展望.
本文具體結(jié)構(gòu)如下:第1節(jié)回顧了SLAM發(fā)展歷程;第2節(jié)介紹了現(xiàn)代VSLAM的具體框架,并列舉了部分優(yōu)秀的VSLAM算法;第3節(jié)對(duì)多機(jī)器人VSLAM的架構(gòu)類(lèi)型和融合方式分類(lèi),并結(jié)合語(yǔ)義介紹了多機(jī)器人語(yǔ)義SLAM;第4節(jié)為總結(jié),并對(duì)未來(lái)多機(jī)器人SLAM的發(fā)展進(jìn)行了展望.
1 相關(guān)工作
1.1 基于CiteSpace的SLAM發(fā)展分析
自SLAM問(wèn)世以來(lái),發(fā)展至今已有幾十年的歷史,并被廣泛應(yīng)用在機(jī)器人領(lǐng)域.如圖1所示,以SLAM為關(guān)鍵詞在Web of Science中檢索到自1980年以來(lái)發(fā)表了8 261篇論文,在中國(guó)知網(wǎng)檢索到從1980年至今收錄了2 856篇論文.其中,藍(lán)色曲線是SLAM論文一年內(nèi)的發(fā)表數(shù)量,數(shù)據(jù)對(duì)應(yīng)著左側(cè)坐標(biāo)軸,紅色線條是年累計(jì)發(fā)文量的擬合曲線,根據(jù)擬合曲線的函數(shù)表達(dá)式可以近似計(jì)算出下一年總發(fā)文量.
以SLAM為關(guān)鍵詞檢索了中國(guó)知網(wǎng)中2 856篇SLAM論文,并在CiteSpace中進(jìn)行分析,SLAM的熱門(mén)詞匯聚類(lèi)如圖2所示.圖中圓圈代表SLAM中的各類(lèi)研究方向,包括多機(jī)器人SLAM、數(shù)據(jù)融合SLAM、激光SLAM等,圓圈越大,代表該方向的論文越多,色卡中的顏色對(duì)應(yīng)著論文中的發(fā)表年份.由圖2可以直觀地看出SLAM的熱點(diǎn)方向以及SLAM相關(guān)研究算法,多機(jī)器人、地圖融合、圖優(yōu)化等方向是學(xué)者們的研究重心.
圖3是以SLAM為關(guān)鍵詞在中國(guó)知網(wǎng)檢索的關(guān)鍵詞聚類(lèi).根據(jù)關(guān)鍵詞出現(xiàn)的頻率將2 856篇論文分成11個(gè)聚類(lèi)區(qū)域,并以不同顏色區(qū)分.同一聚類(lèi)區(qū)域點(diǎn)的多少代表該聚類(lèi)的論文數(shù)量多少,而聚類(lèi)面積的大小則代表該區(qū)域涉及研究分支的多少.可以看出目前較為前沿的研究方向是數(shù)據(jù)融合、粒子濾波、多機(jī)器人等.
以SLAM為關(guān)鍵詞在中國(guó)知網(wǎng)與Web of Science中分別檢索,使用CiteSpace分析檢索所得論文的發(fā)表單位,聚類(lèi)結(jié)果如圖4所示.圖中圓圈、字號(hào)的大小表示該單位發(fā)表論文量的多少.圓圈內(nèi)的圓環(huán)代表發(fā)表年份,越靠近圓心年份越久遠(yuǎn),越遠(yuǎn)離圓心則年份越近.圓圈與圓圈之間的連線代表著兩個(gè)單位有著一定的學(xué)術(shù)交流.
1.2 SLAM數(shù)據(jù)集
近幾十年來(lái),陸續(xù)涌現(xiàn)出大量?jī)?yōu)秀的SLAM算法,它們都可以成熟運(yùn)行在自主導(dǎo)航、移動(dòng)機(jī)器人等領(lǐng)域.每個(gè)算法都有各自的實(shí)施方案,它們所花費(fèi)的時(shí)間、擁有的性能也不盡相同.數(shù)據(jù)集是評(píng)測(cè)各類(lèi)算法優(yōu)劣的標(biāo)準(zhǔn).
現(xiàn)有的數(shù)據(jù)集,如KITTI是較為經(jīng)典的自動(dòng)駕駛數(shù)據(jù)集,也是目前國(guó)際上最大的自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集.通過(guò)它的評(píng)測(cè),眾多SLAM算法可以進(jìn)行魯棒性、準(zhǔn)確度等性能的對(duì)比.表1列出了目前SLAM研究中常見(jiàn)的幾種數(shù)據(jù)集,并列出數(shù)據(jù)集的相關(guān)信息與鏈接供讀者參考.表中Y表示數(shù)據(jù)集中有慣性測(cè)量單元(Inertial Measurement Unit,IMU),N表示無(wú)IMU.
2 傳統(tǒng)VSLAM框架與常見(jiàn)的VSLAM
2.1 傳統(tǒng)VSLAM框架
傳統(tǒng)視覺(jué)SLAM(VSLAM)的框架分為以下5個(gè)步驟,VSLAM運(yùn)行流程如圖5所示.
1)傳感器信息讀?。涸撾A段為SLAM算法的前端,主要用來(lái)搜集環(huán)境信息.在視覺(jué)SLAM中前端信息主要為相機(jī)圖像信息的讀取和預(yù)處理.而在機(jī)器人中,通常還會(huì)有慣性里程計(jì)、激光測(cè)距儀等信息的同步與讀取任務(wù).
2)前端視覺(jué)里程計(jì):主要用來(lái)研究幀間變換關(guān)系以完成實(shí)時(shí)的位姿跟蹤.前端視覺(jué)里程計(jì)根據(jù)相鄰的圖像信息估計(jì)粗略的相機(jī)運(yùn)動(dòng),給后端提供較好的初始值.視覺(jué)里程計(jì)最早源自車(chē)輪里程計(jì),它可以做到不受車(chē)輪打滑剎車(chē)之類(lèi)的外界因素的干擾,并提供更精準(zhǔn)的軌跡估計(jì).
3)后端(非線性)優(yōu)化:后端主要是用來(lái)接收不同視覺(jué)里程計(jì)測(cè)量的相機(jī)位姿以及回環(huán)檢測(cè)信息,同時(shí)對(duì)這些信息進(jìn)行全局優(yōu)化,最終得到全局一致的軌跡和地圖.早期后端優(yōu)化的方法更多采用的是傳統(tǒng)的EKF(擴(kuò)展卡爾曼濾波器)、UKF(無(wú)跡卡爾曼濾波器)、改進(jìn)的MSCKF(多狀態(tài)約束卡爾曼濾波器)和OpenVins等,現(xiàn)階段基于BA(光速法平差)優(yōu)化的方法逐漸占據(jù)了主流.
4)回環(huán)檢測(cè):又稱(chēng)閉環(huán)檢測(cè),它用來(lái)判斷機(jī)器人是否到達(dá)先前位置.機(jī)器人在檢測(cè)到回環(huán)之后,就會(huì)把信息提供給后端進(jìn)行處理.
5)建圖:機(jī)器人通過(guò)之前估計(jì)的軌跡,建立與任務(wù)要求對(duì)應(yīng)的地圖.
2.2 視覺(jué)傳感器
20世紀(jì)70年代,學(xué)者們開(kāi)始暢想并研究無(wú)人駕駛與室內(nèi)自身定位與建圖,使用視覺(jué)傳感器拍攝大段視頻數(shù)據(jù)進(jìn)行有效分析.1986年,在舊金山召開(kāi)的IEEE機(jī)器人與自動(dòng)化會(huì)議上提出視覺(jué)SLAM概念后,VSLAM得到了許多研究人員的關(guān)注.
由于多發(fā)射模組的激光雷達(dá)成本過(guò)高,導(dǎo)致車(chē)輛成本激增,而視覺(jué)傳感器作為性?xún)r(jià)比更高的替代品引起了越來(lái)越多無(wú)人駕駛廠商的注意.德國(guó)的博世、大陸,韓國(guó)的LG等是視覺(jué)傳感器的主要供應(yīng)商.美國(guó)的Robotics與Zebra也成立了單獨(dú)的部門(mén)布局視覺(jué)傳感器業(yè)務(wù).1984年成立的舜宇光學(xué)科技(集團(tuán))有限公司與1987年成立的大立光電股份有限公司(中國(guó)臺(tái)灣)占據(jù)著中國(guó)大部分視覺(jué)傳感器市場(chǎng).純視覺(jué)無(wú)人駕駛領(lǐng)域最具有代表性的公司就是特斯拉,它的無(wú)人駕駛系統(tǒng)不需要使用高精地圖與Vehicle to Everything(V2X),就可以實(shí)現(xiàn)Autopilot自動(dòng)輔助駕駛.眾所周知,純視覺(jué)的無(wú)人駕駛需要大量的駕駛數(shù)據(jù)進(jìn)行訓(xùn)練,世界各國(guó)公路上行駛的特斯拉汽車(chē)可以提供大量的駕駛數(shù)據(jù),這些數(shù)據(jù)都可以被用來(lái)訓(xùn)練特斯拉的純視覺(jué)無(wú)人駕駛系統(tǒng).純視覺(jué)SLAM作為早期無(wú)人駕駛的主要方向,也被眾多中國(guó)車(chē)企所采用,比較著名的有百度與威馬汽車(chē)合作的純視覺(jué)L4級(jí)方案Apollo Lite、小鵬的P7等.但這類(lèi)視覺(jué)算法需要搭配高精地圖與V2X,才能達(dá)到與純激光傳感器相同的自動(dòng)駕駛效果.圖6展示了特斯拉Model 3搭配8個(gè)攝像頭在路面行駛的狀況,表2羅列了常見(jiàn)的幾款搭載無(wú)人駕駛系統(tǒng)的汽車(chē)中搭載的傳感器數(shù)量.
表2中幾款無(wú)人駕駛汽車(chē)都配備較多攝像頭.相對(duì)于激光雷達(dá),純視覺(jué)無(wú)人駕駛的使用更接近于人類(lèi)自身駕駛模式.按照工作方式的不同可以將視覺(jué)SLAM傳感器分為單目相機(jī)、雙目相機(jī)、RGB-D相機(jī)、事件相機(jī)4大類(lèi).單目相機(jī)顧名思義只有一個(gè)相機(jī),它通過(guò)物體在圖像中的運(yùn)動(dòng)軌跡形成的視差來(lái)判斷物體的遠(yuǎn)近,但在不知深度的情況下會(huì)產(chǎn)生視覺(jué)誤差.雙目相機(jī)的原理與人眼類(lèi)似,通過(guò)圖像視差采用三角測(cè)量原理計(jì)算獲得場(chǎng)景的深度信息,進(jìn)而重建周?chē)h(huán)境的三維形狀與位置.RGB-D相機(jī)又稱(chēng)為3D相機(jī),其中D(Depth)表示深度信息.深度相機(jī)常應(yīng)用在以下場(chǎng)景:三維重建、目標(biāo)定位、物體識(shí)別.目前主流的深度相機(jī)有結(jié)構(gòu)光、時(shí)間飛行法、雙目立體3種類(lèi)型.事件相機(jī)誕生于1990年,第一款商用的事件相機(jī)誕生于2008年.目前,許多商業(yè)公司致力于事件相機(jī)的發(fā)展,如韓國(guó)Samsung、法國(guó)Prophesee、瑞士iniVation、中國(guó)CelePixel(芯侖科技)等.事件相機(jī)主要應(yīng)用于特征提取與跟蹤、光流、三維重建、SLAM等場(chǎng)景.表3是常見(jiàn)的幾種類(lèi)型相機(jī).
2.3 常見(jiàn)VSLAM與VSLAM算法匯總
VSLAM可以從環(huán)境中獲取海量、富于冗余的紋理信息,同時(shí)還擁有超強(qiáng)的場(chǎng)景辨識(shí)能力.早期SLAM基于濾波理論,但因計(jì)算量巨大、誤差較多導(dǎo)致其無(wú)法正常使用,而VSLAM可以利用豐富的紋理信息[17],如對(duì)于尺寸相同內(nèi)容不同的廣告牌,基于點(diǎn)云的激光SLAM算法無(wú)法區(qū)分,而VSLAM卻可以輕易分辨.VSLAM算法在重定位[18]、場(chǎng)景分類(lèi)上具有無(wú)可比擬的巨大優(yōu)勢(shì).近年來(lái),伴隨著具有稀疏性的非線性?xún)?yōu)化理論以及相機(jī)技術(shù)、計(jì)算性能的進(jìn)步,VSLAM已經(jīng)可以實(shí)時(shí)運(yùn)行在機(jī)器人中.以視覺(jué)傳感器的種類(lèi)為依據(jù),本文將VSLAM劃分為單目、雙目、RGB-D 3種形式.
單目VSLAM發(fā)展較早,因其僅使用一個(gè)攝像頭便可以運(yùn)行SLAM,得到眾多研究人員的青睞,如Mono SLAM[19]、PTAM[20]、DTAM[21].2007年發(fā)表的PTAM[20]是VSLAM中一個(gè)里程碑式的SLAM算法,它率先將非線性系統(tǒng)應(yīng)用在SLAM中,并首次將VSLAM的前端、后端區(qū)分開(kāi)來(lái).PTAM在開(kāi)源后被廣大研究人員所使用,SVO[22]、ORB-SLAM[23]等都以它為基礎(chǔ)進(jìn)行拓展.ORB-SLAM作為一個(gè)極具標(biāo)志性的VSLAM,它的提出者M(jìn)ur-Artal等還相繼提出了ORB-SLAM2[24]、ORB-SLAM3[25].其中,ORB-SLAM2不僅可以搭載單目、雙目、RGB-D相機(jī)進(jìn)行實(shí)時(shí)地圖重建,同時(shí)還能在保證高定位精度的前提下實(shí)時(shí)運(yùn)行在手機(jī)、無(wú)人機(jī)、汽車(chē)的GPU上.可以說(shuō)ORB-SLAM2是特征點(diǎn)法的巔峰之作.
VSLAM的前端主要有特征點(diǎn)法、直接法兩種形式.特征點(diǎn)法的優(yōu)點(diǎn)在于它可以準(zhǔn)確確定位置并對(duì)圖像進(jìn)行有效處理,如ORB-SLAM[23]、ORB-SLAM2[24]、S-PTAM[26]、DVO-SLAM[27]等.而直接法可以直接對(duì)圖像進(jìn)行數(shù)據(jù)處理,能夠改善特征點(diǎn)法在提取耗時(shí)、特征缺失狀態(tài)下無(wú)法正常使用的問(wèn)題,如DTAM[21]、LSD-SLAM[28]、DSO[29]、雙目DSO[30]等.同樣在以RGB-D相機(jī)為主要傳感器的VSLAM中,更多會(huì)采用特征點(diǎn)法下的ICP(Iterative Closest Point,最近點(diǎn)迭代算法)進(jìn)行相機(jī)運(yùn)動(dòng)估計(jì).如KinectFusion[31]、Kintinuous[32]、ElasticFusion[33].表4展示了目前已開(kāi)源的VSLAM算法供讀者參考.
VSLAM發(fā)展至今的幾十年中涌現(xiàn)出許多成熟的SLAM算法,包括常見(jiàn)的擴(kuò)展卡爾曼濾波、梯度下降法、線性?xún)?yōu)化等.本文將SLAM算法分為濾波算法和優(yōu)化算法兩大類(lèi),如圖7所示.
3 多機(jī)器人SLAM
隨著移動(dòng)機(jī)器人技術(shù)的不斷發(fā)展,單機(jī)器人已經(jīng)很難通過(guò)自身完成較為復(fù)雜繁瑣的工作任務(wù),多機(jī)器人協(xié)同作業(yè)的工作模式成為研究熱點(diǎn).相對(duì)于單機(jī)器人來(lái)說(shuō),多機(jī)器人組成的系統(tǒng)具有一定的優(yōu)越性,如對(duì)環(huán)境有更強(qiáng)的適應(yīng)能力、更強(qiáng)的承載力、更好的魯棒性,整個(gè)系統(tǒng)制造成本更低、工作效率更高.這些優(yōu)點(diǎn)也是多機(jī)器人SLAM[34]提高工作效率的關(guān)鍵所在.本文從多機(jī)器人SLAM的架構(gòu)類(lèi)型、多機(jī)器人SLAM的融合算法以及多機(jī)器人SLAM與語(yǔ)義信息的融合等方面來(lái)介紹多機(jī)器人SLAM.
3.1 多機(jī)器人SLAM架構(gòu)
本文將多機(jī)器人SLAM分為3種架構(gòu)形式:集中式、分布式、混合式.
3.1.1 集中式
集中式架構(gòu)顧名思義就是機(jī)器人編隊(duì)負(fù)責(zé)數(shù)據(jù)搜集,在完成數(shù)據(jù)搜集之后由某一個(gè)機(jī)器人或中央處理器進(jìn)行整體計(jì)算.中央處理器處理完所有機(jī)器人得到的數(shù)據(jù)后,再將得到的數(shù)據(jù)傳輸回去.數(shù)據(jù)傳輸對(duì)集中式機(jī)器人系統(tǒng)的帶寬提出了更高要求,良好的帶寬才能將數(shù)據(jù)穩(wěn)定、準(zhǔn)確地傳輸?shù)街付ㄎ恢?集中式架構(gòu)的優(yōu)勢(shì)在于代理機(jī)器人數(shù)量少、結(jié)構(gòu)設(shè)計(jì)簡(jiǎn)單、資源可以靈活調(diào)用、數(shù)據(jù)集中存儲(chǔ)與處理、系統(tǒng)響應(yīng)快、數(shù)據(jù)可靠性強(qiáng)且一致性好.但缺點(diǎn)也十分明顯,系統(tǒng)最基本的通信與控制無(wú)法隨著機(jī)器人數(shù)量的增加而增加.因此集中式架構(gòu)對(duì)系統(tǒng)的帶寬與工作環(huán)境要求較高.同時(shí),因?yàn)榧惺郊軜?gòu)十分依賴(lài)中央“指揮官”,因此對(duì)失去中央“指揮官”十分敏感,實(shí)時(shí)性、動(dòng)態(tài)性、魯棒性較差.
集中式是多機(jī)器人發(fā)展初期提出的架構(gòu)類(lèi)型.20世紀(jì)80年代末出現(xiàn)分布式機(jī)器人系統(tǒng)后,Cohen[35]于 1996年首次提出使用集中式系統(tǒng)方法來(lái)運(yùn)行未知環(huán)境的地圖繪制,以提供更強(qiáng)的魯棒性與高效性.1998年,Khoshnevis等[36]論述了集中式的發(fā)展思路與優(yōu)點(diǎn),提出以集中化控制實(shí)現(xiàn)低成本代理、低功率需求、高擴(kuò)展性的系統(tǒng).2002年,F(xiàn)enwick等[37]首次將CML算法從單車(chē)遷移到多車(chē)上,創(chuàng)新性地通過(guò)計(jì)算協(xié)作最低算法性能界限來(lái)確定完成任務(wù)所需最小協(xié)作車(chē)輛的數(shù)量.2008年,Tao等[38]將EKF(擴(kuò)展卡爾曼濾波)算法拓展到多機(jī)器人中用以估計(jì)系統(tǒng)中每個(gè)機(jī)器人位置與地標(biāo)位置,并在考慮其他機(jī)器人構(gòu)型的前提下,計(jì)算機(jī)器人的終點(diǎn)位置.由最終的數(shù)據(jù)集試驗(yàn)可以看出,對(duì)于稀疏與稠密地標(biāo)環(huán)境,該算法都有很好的效果.2015年,Mohanarajah等[39]提出一種在云端服務(wù)器上使用低成本機(jī)器人進(jìn)行三維映射的解決方法,很好地解決了集中式對(duì)服務(wù)器要求過(guò)高、成本過(guò)高的問(wèn)題,即在智能手機(jī)級(jí)的處理器上也能運(yùn)行并處理密集視覺(jué)里程算法.2018年,Karrer等 [40]提出CVI-SLAM,該算法基于關(guān)鍵幀實(shí)現(xiàn)協(xié)作SLAM,它采用裝配視覺(jué)慣性傳感器且機(jī)載計(jì)算能力受約束的代理機(jī)器人,通過(guò)代理與服務(wù)器之間的雙向通信,提高了協(xié)同場(chǎng)景間的估計(jì)準(zhǔn)確性.2019年,Schmuck等[41]提出了CCM-SLAM,相對(duì)于CVI-SLAM,該系統(tǒng)僅配備一個(gè)單目相機(jī)與一個(gè)通信單元,但建圖效率有著顯著提升.2021年,Jang等[42]提出了協(xié)作單目SLAM的完整框架.該SLAM框架采用集中式架構(gòu),使用基于特征的前端方式,通過(guò)MF模塊將觀察者與被觀察者機(jī)器人的局部地圖合并,運(yùn)行快速、準(zhǔn)確、穩(wěn)定的交匯地圖融合系統(tǒng).圖8為集中式架構(gòu),圖中不同顏色表示不同模塊.
集中式架構(gòu)對(duì)應(yīng)的數(shù)據(jù)融合方式是集中式融合,即所有測(cè)量數(shù)據(jù)都會(huì)送到一個(gè)中心進(jìn)行融合估計(jì),這也被稱(chēng)為中心融合或測(cè)量融合.集中式融合方式通過(guò)融合中心對(duì)各個(gè)傳感器的目標(biāo)狀態(tài)估計(jì)值進(jìn)行融合,得到數(shù)據(jù)的綜合體.集中式融合類(lèi)型類(lèi)似于早期融合,通過(guò)將所有原始關(guān)鍵幀圖像與基于點(diǎn)的地圖共同存儲(chǔ)在云中,再對(duì)圖像信息進(jìn)行數(shù)據(jù)融合.該融合方式可以實(shí)現(xiàn)實(shí)時(shí)的數(shù)據(jù)融合,對(duì)數(shù)據(jù)處理的精度要求高,算法更加靈活.但缺點(diǎn)是可靠性低、數(shù)據(jù)量大,因此較難實(shí)現(xiàn).
在集中式架構(gòu)發(fā)展的過(guò)程中,從單一的服務(wù)器分配任務(wù)給機(jī)器人編隊(duì),再到實(shí)現(xiàn)機(jī)器人與機(jī)器人、機(jī)器人與服務(wù)器之間的相互通信,其系統(tǒng)穩(wěn)定性以及系統(tǒng)任務(wù)完成率都得到了極大的提高.
3.1.2 分布式
分布式架構(gòu)中,每個(gè)機(jī)器人都是一個(gè)具有獨(dú)立決策能力的智能體,自身具有很好的協(xié)同能力與自治能力,并以數(shù)據(jù)鏈技術(shù)作為機(jī)器人之間的數(shù)據(jù)傳輸支撐.分布式[43]架構(gòu)具有實(shí)時(shí)性強(qiáng)、抗干擾能力好、計(jì)算量小、數(shù)據(jù)冗余低等優(yōu)點(diǎn),適用于動(dòng)態(tài)環(huán)境、中等乃至大規(guī)模系統(tǒng)中.分布式協(xié)同機(jī)器人集群算法靈活穩(wěn)定、富有彈性的特點(diǎn)也使其在大規(guī)模、復(fù)雜、多變的環(huán)境中具有更強(qiáng)的優(yōu)勢(shì).
雖然分布式實(shí)現(xiàn)較為困難,不易控制,但它仍是機(jī)器人編隊(duì)未來(lái)發(fā)展的重要方向.2010年,Cunningham等[44]提出一種分布式SLAM系統(tǒng)DDF-SAM,可以在低帶寬、低算力的情況下為一個(gè)機(jī)器人團(tuán)隊(duì)高效穩(wěn)定地分配地圖信息.此外,DDF-SAM對(duì)機(jī)器人故障與網(wǎng)絡(luò)拓?fù)渥兓哂泻芎玫膹椥?,可以拓展到大型多機(jī)器人網(wǎng)絡(luò)中.而針對(duì)DDF-SAM中保守的避免重復(fù)的技術(shù)方法、依賴(lài)批量邊緣化方法的地圖匯總方式等問(wèn)題,Cunningham等[45]又提出了DDF-SAM2.0版本,它將反因子作為工具,避免了領(lǐng)域內(nèi)的重復(fù)技術(shù),可以處理動(dòng)態(tài)環(huán)境,并將多個(gè)單目相機(jī)拍到的影像進(jìn)行重疊分類(lèi),但缺點(diǎn)在于相機(jī)間必須同步.2007年,Ziparo等[46] 提出一種用于惡劣環(huán)境探索的多機(jī)器人分布式編隊(duì),在惡劣環(huán)境中編隊(duì)采用RFIDs(射頻識(shí)別技術(shù))進(jìn)行特征檢測(cè).文中使用了基于EKF的SLAM算法,在機(jī)器人探索結(jié)束后通過(guò)基于RFID關(guān)聯(lián)的本地地圖進(jìn)行合并,并將機(jī)器人本身探索到的地圖合并到全局拓?fù)鋱D中,以保持全局的一致性.2013年,Zou等[47]提出一種基于SFM(Structure From Motion)的單目協(xié)作SLAM.該算法使用不同的相機(jī)圖像構(gòu)建出一個(gè)動(dòng)態(tài)全局的三維地圖,在數(shù)據(jù)集試驗(yàn)后發(fā)現(xiàn)系統(tǒng)相比于單攝像頭SLAM具有更高的精度與穩(wěn)定性.圖9為分布式蜂群無(wú)人機(jī)編隊(duì)架構(gòu),圖中若干個(gè)藍(lán)色模塊代表系統(tǒng)中有若干個(gè)蜂群無(wú)人機(jī).
分布式架構(gòu)對(duì)應(yīng)的融合方式為分布式融合.分布式融合首先對(duì)每個(gè)傳感器信息進(jìn)行預(yù)處理并給出一個(gè)局部估計(jì),再在中心節(jié)點(diǎn)對(duì)局部估計(jì)量進(jìn)行全局融合.但由于各個(gè)體上的傳感器都能形成各自的局部航跡,因此分布式融合也被稱(chēng)為航跡融合或狀態(tài)向量融合.分布式融合的本質(zhì)為融合中心對(duì)各個(gè)傳感器的目標(biāo)狀態(tài)估計(jì)值進(jìn)行融合,得到融合后的綜合航跡.
3.1.3 混合式
混合式系統(tǒng)吸取了集中式、分布式控制體系各自的優(yōu)勢(shì),對(duì)解決多類(lèi)型無(wú)人機(jī)集群任務(wù)分配問(wèn)題更合理.混合式架構(gòu)中,系統(tǒng)會(huì)在靜態(tài)狀態(tài)下進(jìn)行整個(gè)系統(tǒng)的初始任務(wù)分配,并歸納分析機(jī)器人編隊(duì)中每架機(jī)器人反饋回來(lái)的信息.此外,無(wú)人機(jī)狀態(tài)或任務(wù)的改變,會(huì)使系統(tǒng)中機(jī)器人本身發(fā)揮自主性重新對(duì)任務(wù)目標(biāo)信息進(jìn)行采集與分析,并進(jìn)行無(wú)人機(jī)編隊(duì)中的實(shí)時(shí)信息共享與交互.混合式系統(tǒng)通常需要依靠無(wú)人機(jī)集群自身進(jìn)行任務(wù)的協(xié)同分配,這不僅提高了實(shí)時(shí)性還大大減少了地面工作站的工作量,同時(shí)所得到的任務(wù)分配方案也是相對(duì)合理的.混合式控制體系對(duì)集中式與分布式系統(tǒng)取長(zhǎng)補(bǔ)短,具有較大的實(shí)時(shí)應(yīng)用意義.
2013年,F(xiàn)orster等[48]提出一種在室內(nèi)、室外均能運(yùn)行的單目視覺(jué)混合式地圖融合SLAM,該框架同時(shí)運(yùn)行3個(gè)MAV (Micro Aerial Vehicle,微型飛行器).系統(tǒng)中每個(gè)代理機(jī)器人在運(yùn)行伊始各自創(chuàng)建一個(gè)單獨(dú)的線程,當(dāng)位置檢測(cè)器檢測(cè)到兩張地圖之間有重疊時(shí),地圖就會(huì)進(jìn)行合并.系統(tǒng)整體采用關(guān)鍵幀提取技術(shù),將每個(gè)代理機(jī)器人作為一個(gè)分布式預(yù)處理器,將選定的關(guān)鍵幀特征與相對(duì)姿態(tài)估計(jì)通過(guò)二進(jìn)制傳輸?shù)降孛婀ぷ髡?二進(jìn)制的傳輸方式使得該系統(tǒng)具有魯棒性高、帶寬低、穩(wěn)定性好的優(yōu)點(diǎn).該系統(tǒng)也是第一個(gè)實(shí)時(shí)協(xié)作單目SLAM,在SFLY兩個(gè)室外數(shù)據(jù)集上測(cè)試完后,已經(jīng)可以實(shí)時(shí)運(yùn)行在多個(gè)MAV上.2014年,Riazuelo等[49]提出C2TM算法,在云計(jì)算機(jī)中運(yùn)行地圖優(yōu)化環(huán)節(jié),光攝像機(jī)則跟蹤客戶(hù)運(yùn)行在本地計(jì)算機(jī)上,降低了代理機(jī)器人的運(yùn)算成本,并使得系統(tǒng)有了更好的魯棒性.此后,Schmuck等[50]也提出一種采用關(guān)鍵幀提取技術(shù)的單目UAV編隊(duì)系統(tǒng),它證明了混合式系統(tǒng)在多無(wú)人機(jī)場(chǎng)景下的適用性.
混合式框架所對(duì)應(yīng)的融合方式為混合式融合,即每個(gè)傳感器在搜集完數(shù)據(jù)后直接送入中心進(jìn)行融合,同時(shí)傳感器也可以給出一個(gè)布局估計(jì),再送到中心節(jié)點(diǎn)進(jìn)行融合.這種融合方式具有很強(qiáng)的適應(yīng)能力,兼顧分布式、集中式的優(yōu)點(diǎn),穩(wěn)定性較強(qiáng).但缺點(diǎn)也十分明顯,即結(jié)構(gòu)上比集中式、分布式更復(fù)雜,同時(shí)通信與整體計(jì)算量也較大.
表5為幾種常見(jiàn)的多機(jī)器人SLAM系統(tǒng),表6總結(jié)了3種架構(gòu)的算法類(lèi)型與優(yōu)缺點(diǎn).
3.2 多機(jī)器人SLAM融合算法
數(shù)據(jù)融合[56]最早應(yīng)用在軍事領(lǐng)域,作為一種屬性融合,可以將同一個(gè)體、同一類(lèi)型的多源數(shù)據(jù)[57]加以智能化合成,用來(lái)產(chǎn)生比單一信息源更精準(zhǔn)更可靠的估計(jì)與判斷.同樣,分布式機(jī)器人算法也涉及到機(jī)器人與機(jī)器人之間的數(shù)據(jù)交流,而現(xiàn)階段的機(jī)器人編隊(duì)形式主要有集中式、分布式、混合式3種情形.而根據(jù)編隊(duì)分類(lèi)方式的不同,實(shí)現(xiàn)的效果也不同.根據(jù)融合數(shù)據(jù)的類(lèi)型不同,本文將其分為數(shù)據(jù)融合(早期融合)、特征融合(中期融合)、決策融合(后期融合)3種融合方式.
3.2.1 數(shù)據(jù)融合
數(shù)據(jù)融合也被稱(chēng)為早期數(shù)據(jù)融合,即傳感器在之
接收到數(shù)據(jù)信息后便對(duì)數(shù)據(jù)進(jìn)行直接融合.數(shù)據(jù)
融合考慮了收集到的所有數(shù)據(jù),但缺點(diǎn)在于需要處理的數(shù)據(jù)量較大.數(shù)據(jù)融合的關(guān)鍵在于統(tǒng)一各個(gè)傳感器產(chǎn)生的數(shù)據(jù)時(shí)間線以及傳感器之間的匹配精度,使得各個(gè)傳感器產(chǎn)生的數(shù)據(jù)得以融合.在數(shù)據(jù)融合中涉及到的算法有:卡爾曼濾波算法、粒子濾波算法、黎曼優(yōu)化算法.
2006年,Howard等[58]將粒子濾波引入到多機(jī)器人SLAM中,該算法可以在機(jī)器人初始姿態(tài)未知的情況下將機(jī)器人的所有數(shù)據(jù)都融合到一張地圖上.這一特點(diǎn)使得該算法可以在處理器上快速、實(shí)時(shí)地融合來(lái)自4個(gè)機(jī)器人的數(shù)據(jù),穩(wěn)定運(yùn)行實(shí)時(shí)、快速、準(zhǔn)確的多機(jī)器人SLAM算法.2012年,Knuth等[59]提出一種分布式算法,用于在衛(wèi)星定位系統(tǒng)不可用時(shí)融合各個(gè)車(chē)輛之間的相對(duì)位置測(cè)量值以構(gòu)建完整的三維姿態(tài)圖.2013年,Knuth等[60]提出一種分布式-黎曼優(yōu)化算法.該算法通過(guò)融合時(shí)間以及機(jī)器人之間的相對(duì)測(cè)量值來(lái)實(shí)現(xiàn)協(xié)同定位并獲取每個(gè)機(jī)器人的絕對(duì)姿態(tài)估計(jì).這種姿態(tài)估計(jì)算法的性能優(yōu)于航向估計(jì)算法,同時(shí)只需在已獲得相對(duì)測(cè)量的機(jī)器人之間進(jìn)行通信.圖10為傳感器數(shù)據(jù)融合示意圖.
3.2.2 特征數(shù)據(jù)融合
特征數(shù)據(jù)融合又稱(chēng)為中期數(shù)據(jù)融合,它首先從各個(gè)傳感器的多模態(tài)數(shù)據(jù)中提取能夠直接表示模態(tài)數(shù)據(jù)的特征,并在特征的級(jí)別上對(duì)這些不同數(shù)據(jù)進(jìn)行融合.以多機(jī)器人視覺(jué)SLAM為例,在收集到各傳感器數(shù)據(jù)時(shí),會(huì)提取圖像數(shù)據(jù)中的特征點(diǎn).常用的特征點(diǎn)提取方法包括Harris角點(diǎn)、FAST角點(diǎn)、GFTT角點(diǎn)、SIFT、SURF、ORB等.在提取完特征點(diǎn)之后,系統(tǒng)融合這些特征,并將融合特征作為輸入數(shù)據(jù)輸入到一個(gè)模型中,進(jìn)而輸出預(yù)測(cè)結(jié)果.
2013年,F(xiàn)orster等[48]提出一種運(yùn)行協(xié)同定位與映射的融合算法.文中為每個(gè)MAV都創(chuàng)建了一個(gè)單獨(dú)地圖,地圖間檢測(cè)到有重疊區(qū)域時(shí)就會(huì)進(jìn)行合并,以達(dá)到多個(gè)MAV數(shù)據(jù)融合的效果.算法使用集中式架構(gòu),通過(guò)MAV與地面站之間分配工作負(fù)載,不僅節(jié)省算力還不需要較強(qiáng)的傳輸帶寬.圖11為特征數(shù)據(jù)融合示意圖.
3.2.3 決策數(shù)據(jù)融合
決策數(shù)據(jù)融合又稱(chēng)為后期數(shù)據(jù)融合.決策級(jí)融合是一種高層次融合,其融合結(jié)果是為指揮決策提供依據(jù)的.因此,決策級(jí)融合必須從具體決策問(wèn)題的需求出發(fā),充分利用特征級(jí)融合所提取的測(cè)量對(duì)象的各類(lèi)特征信息進(jìn)行融合.它的優(yōu)點(diǎn)在于模型的獨(dú)立魯棒性好、容錯(cuò)性高、開(kāi)放性好、處理時(shí)間短、數(shù)據(jù)要求低、分析能力強(qiáng).但因?yàn)闆Q策級(jí)融合對(duì)預(yù)處理、特征提取具有較高的要求,因此決策級(jí)融合所需的代價(jià)也較高.決策級(jí)融合一般會(huì)采用分類(lèi)器對(duì)數(shù)據(jù)特征進(jìn)行分析,再利用投票法對(duì)數(shù)據(jù)進(jìn)行處理,最后將所有數(shù)據(jù)進(jìn)行決策層的融合.
2009年,LeBlanc等[61]提出一種解決機(jī)器人目標(biāo)定位問(wèn)題的方法,該問(wèn)題本質(zhì)上被視為是一個(gè)信息融合問(wèn)題.文中通過(guò)模糊邏輯技術(shù)來(lái)表示與組合不同時(shí)間不同來(lái)源的信息,同時(shí)考慮到計(jì)算、內(nèi)存、帶寬等需求,在數(shù)據(jù)集上測(cè)試后發(fā)現(xiàn)算法的魯棒性、效率均取得較好效果.2013年,Zhao等[62]將高光譜數(shù)據(jù)特征使用支持向量機(jī)、最大似然分類(lèi)器以及多項(xiàng)對(duì)數(shù)回歸這3種分類(lèi)器進(jìn)行特征分析,并使用投票法進(jìn)行數(shù)據(jù)處理,最后對(duì)這些分類(lèi)器分類(lèi)出的圖像采用多數(shù)投票法進(jìn)行融合,得到最終的決策結(jié)果.圖12為決策數(shù)據(jù)融合示意圖.
表7為同構(gòu)數(shù)據(jù)融合方案對(duì)比.
3.3 語(yǔ)義與多機(jī)器人SLAM的關(guān)聯(lián)
VSLAM是以圖像作為主要環(huán)境感知信息源的SLAM系統(tǒng).在研究初期,一些研究人員會(huì)通過(guò)CNN、RNN等神經(jīng)網(wǎng)絡(luò)提取環(huán)境中的語(yǔ)義信息來(lái)提高VSLAM的性能.而隨著各種VSLAM算法的發(fā)展,人們開(kāi)始不斷挖掘圖像信息中的語(yǔ)義信息[63].語(yǔ)義可以提供足夠的環(huán)境信息,用以支持SLAM機(jī)器人系統(tǒng)在未知環(huán)境進(jìn)行運(yùn)動(dòng)與建圖.傳統(tǒng)的VSLAM以點(diǎn)云等形式來(lái)表示環(huán)境,但點(diǎn)云對(duì)于研究人員來(lái)說(shuō)就是一堆毫無(wú)意義的點(diǎn).為了從集合與內(nèi)容兩個(gè)層面感知世界,并更好地為人類(lèi)服務(wù),機(jī)器人需要進(jìn)一步抽象這些點(diǎn)的特征并理解它們,而語(yǔ)義信息便是一個(gè)很好的媒介.3.3.1 神經(jīng)網(wǎng)絡(luò)在語(yǔ)義VSLAM中的應(yīng)用
現(xiàn)代語(yǔ)義VSLAM系統(tǒng)離不開(kāi)深度學(xué)習(xí),通過(guò)深度學(xué)習(xí)得到圖像數(shù)據(jù)的特征屬性與關(guān)聯(lián)關(guān)系可以直接應(yīng)用到不同的任務(wù)中.深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,在圖像識(shí)別[64]、語(yǔ)義理解[65]、圖像匹配[66]、三維重建[67]等任務(wù)中取得了顯著的成果.深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)中的應(yīng)用[68]很好地解決了許多傳統(tǒng)方法所遇到的難題.基于深度學(xué)習(xí)技術(shù),研究人員可以從圖像中提取特征點(diǎn)、描述符、語(yǔ)義信息,并進(jìn)行位姿估計(jì).通過(guò)將語(yǔ)義信息集成到傳統(tǒng)的VSLAM中也進(jìn)一步提高了機(jī)器對(duì)圖像特征的理解,有助于機(jī)器人進(jìn)一步地構(gòu)建高準(zhǔn)確度的語(yǔ)義地圖.機(jī)器學(xué)習(xí)有許多分類(lèi),常見(jiàn)的有CNN、RNN、遷移學(xué)習(xí)、元學(xué)習(xí)等,這些深度學(xué)習(xí)算法與SLAM的結(jié)合中,CNN、RNN、GAN是目前主流的方案.
1)CNN
CNN是最早應(yīng)用在SLAM中的深度學(xué)習(xí)算法之一,隨著研究的深入,其在SLAM算法中的應(yīng)用也日趨成熟.2017年,McCormac等[69]提出一種將多個(gè)視點(diǎn)的CNN語(yǔ)義概率地圖融合成一個(gè)密集的語(yǔ)義注釋地圖的三維語(yǔ)義SLAM.同時(shí),系統(tǒng)將每幀2D分割成連貫的3D語(yǔ)義地圖,在自建數(shù)據(jù)集中可以看到系統(tǒng)的標(biāo)記準(zhǔn)確度得到大幅提高.圖13即為CNN在SLAM中的一種應(yīng)用流程.2017年,Tateno等[70]在LSD-SLAM的基礎(chǔ)上提出了基于CNN的實(shí)時(shí)SLAM系統(tǒng),它可以很好地預(yù)測(cè)密集深度并將其融合在直接單目SLAM獲得的深度測(cè)量數(shù)據(jù)中.該算法有效地融合了從單一幀獲得的語(yǔ)義標(biāo)簽,大幅提升了在創(chuàng)建環(huán)境語(yǔ)義地圖時(shí)的魯棒性與準(zhǔn)確性.同樣,Mask R-CNN[71]作為一種高質(zhì)量的圖像分割算法,它可以有效地檢測(cè)圖像中的對(duì)象,并為每個(gè)實(shí)例生成高質(zhì)量的分割掩碼.2020年,Wang等[72]提出一種利用概率網(wǎng)絡(luò)產(chǎn)生掩碼來(lái)排除特征點(diǎn)的新框架——PMDS-SLAM,它利用概率網(wǎng)絡(luò)產(chǎn)生掩碼排除特征點(diǎn),再使用Mask R-CNN進(jìn)行語(yǔ)義分割.在TUM RGB-D數(shù)據(jù)集中的測(cè)評(píng)結(jié)果表明,估計(jì)的相機(jī)軌跡精度相比于ORB-SLAM2提高了90%.2021年,Zhao等[73]提出一種光流法與Mask R-CNN相結(jié)合的OFM-SLAM,它利用Mask R-CNN檢測(cè)潛在運(yùn)動(dòng)目標(biāo),采用光流法檢測(cè)動(dòng)態(tài)特征點(diǎn),最后系統(tǒng)采用語(yǔ)義分割結(jié)構(gòu)構(gòu)建語(yǔ)義八叉樹(shù)圖,并使用logodds方法來(lái)去除動(dòng)態(tài)目標(biāo)點(diǎn)在圖中殘留部分.而Faster R-CNN[74]作為Mask R-CNN的拓展,它在Mask R-CNN的基礎(chǔ)上添加了一個(gè)用于以掩藏對(duì)象掩碼的分支,并與現(xiàn)有的邊界框識(shí)別分支并行.
在多機(jī)器人協(xié)同SLAM系統(tǒng)中,機(jī)器人之間通過(guò)相互通信與協(xié)調(diào)有效利用空間分布的信息資源來(lái)提高問(wèn)題解決效率.同時(shí),機(jī)器人編隊(duì)協(xié)同運(yùn)行,相比較單機(jī)器人SLAM而言有著更好的容錯(cuò)性與抗干擾能力.近年來(lái),語(yǔ)義信息的融合進(jìn)一步提高了多機(jī)器人系統(tǒng)的魯棒性,同時(shí)可以更大程度地利用環(huán)境地圖信息進(jìn)行地圖構(gòu)建.因此,越來(lái)越多的研究人員開(kāi)始將多機(jī)器人系統(tǒng)與語(yǔ)義SLAM結(jié)合起來(lái).2018年,
Li等[75]提出一種基于CNN的多機(jī)器人邊界探索策略,進(jìn)一步解決了機(jī)器人探索室內(nèi)環(huán)境的問(wèn)題.文中對(duì)機(jī)器人所在的室內(nèi)場(chǎng)景使用CNN訓(xùn)練的分類(lèi)器進(jìn)行分類(lèi),通過(guò)觀察室內(nèi)環(huán)境進(jìn)而確定語(yǔ)義信息.2020年,Deng等[76]提出一種用于救援的語(yǔ)義SLAM框架,通過(guò)融合語(yǔ)義分割CNN網(wǎng)絡(luò)與RGB-D SLAM前端,生成具有語(yǔ)義信息的密集點(diǎn)云圖,在語(yǔ)義信息的幫助下,機(jī)器人可以在復(fù)雜環(huán)境中識(shí)別不同類(lèi)型的地形.文中采用監(jiān)督學(xué)習(xí)算法訓(xùn)練CNN網(wǎng)絡(luò),進(jìn)而從RGB-D圖像中提取出語(yǔ)義標(biāo)簽.2021年,Yue等[77]提出一種新的層次協(xié)同概率語(yǔ)義映射框架,使用CNN對(duì)原始圖像進(jìn)行處理得到語(yǔ)義圖像,再將三維點(diǎn)云地圖映射與之融合得到局部語(yǔ)義映射,實(shí)現(xiàn)了單機(jī)器人與多機(jī)器人均可生成全局統(tǒng)一的全局語(yǔ)義地圖,進(jìn)一步促進(jìn)了多機(jī)器人協(xié)作語(yǔ)義SLAM的發(fā)展.
R-CNN[78]將CNN方法引入目標(biāo)檢測(cè)領(lǐng)域,極大地提高了目標(biāo)檢測(cè)的效果.此后,Girshick[79]提出了Fast R-CNN,它具有更高的目標(biāo)檢測(cè)精度,并在識(shí)別地圖中的語(yǔ)義信息時(shí)更快捷、準(zhǔn)確.2年后,Ren等[74]又提出了Faster R-CNN,相對(duì)于Fast R-CNN,它更快捷、更準(zhǔn)確、適用范圍更廣.圖14為Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu).2017年,He等[71]提出一種被廣泛應(yīng)用在SLAM中的實(shí)例分割算法——Mask-RCNN,它可以在語(yǔ)義分割的基礎(chǔ)上對(duì)同類(lèi)物體完成更精細(xì)的分割.
現(xiàn)代語(yǔ)義VSLAM系統(tǒng)離不開(kāi)深度學(xué)習(xí),同時(shí)具有高定位精度的VSLAM與深度神經(jīng)網(wǎng)絡(luò)的結(jié)合也進(jìn)一步提高了語(yǔ)義SLAM算法的精度與語(yǔ)義提取的準(zhǔn)確度.相對(duì)于傳統(tǒng)視覺(jué)SLAM無(wú)法應(yīng)付各種環(huán)境、地圖模型僅基于幾何信息進(jìn)行環(huán)境探索的缺點(diǎn),SLAM與深度信息結(jié)合的語(yǔ)義SLAM則有著更好的表現(xiàn).目前在語(yǔ)義SLAM中表現(xiàn)較好的網(wǎng)絡(luò)有YOLO、CNN、Faster R-CNN、Mask R-CNN等.
YOLO與Faster R-CNN都在深度學(xué)習(xí)中被廣泛使用,在語(yǔ)義SLAM中兩者同樣被廣泛運(yùn)用.2020年,Yang等[80]提出一種動(dòng)態(tài)特征檢測(cè)方法——語(yǔ)義約束與幾何約束,它可以為動(dòng)態(tài)特征的過(guò)濾提供一種魯棒、快速的方法.YOLOv3的加入可以更好地用于計(jì)算相鄰幀之間更為準(zhǔn)確的基本矩陣,并可用來(lái)過(guò)濾真正的動(dòng)態(tài)特征.在TUM RGB-D數(shù)據(jù)集上的測(cè)試結(jié)果表明,YOLOv3可以很好地提高ORB-SLAM2的系統(tǒng)精度.2022年,Wu等[81]提出一種基于YOLO的語(yǔ)義SLAM.該網(wǎng)絡(luò)采用低延遲的骨干結(jié)構(gòu),為SLAM系統(tǒng)加速并生成必要的語(yǔ)義信息.算法采用緊耦合的方式組合了對(duì)象檢測(cè)方法與幾何約束方法,可以有效地減少動(dòng)態(tài)對(duì)象的影響,使得系統(tǒng)成為一種具有幾何約束的動(dòng)態(tài)環(huán)境語(yǔ)義SLAM系統(tǒng).
2)RNN
RNN全稱(chēng)為遞歸神經(jīng)網(wǎng)絡(luò),主要是用來(lái)處理具有序列的問(wèn)題,因此,在很多情況下會(huì)被用于處理股票、語(yǔ)音等問(wèn)題.雙向循環(huán)神經(jīng)網(wǎng)絡(luò)Bi-RNN與長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是常見(jiàn)的循環(huán)神經(jīng)網(wǎng)絡(luò).LSTM的提出解決了CNN中時(shí)間維度的梯度消失問(wèn)題,但標(biāo)準(zhǔn)的RNN結(jié)構(gòu)所存儲(chǔ)的前后信息的范圍有限,在很大程度上限制了RNN的應(yīng)用.2000年,Gers等[82]針對(duì)LSTM型RNN進(jìn)行了優(yōu)化,在原有LSTM的模型上加入了窺視孔連接,進(jìn)一步提高了LSTM單元對(duì)擁有長(zhǎng)時(shí)間間隔相關(guān)性特點(diǎn)的序列信息的處理能力.2023年,Syed等[83]將LSTM架構(gòu)用于船舶的航跡推算上,通過(guò)挖掘時(shí)間模式有效地預(yù)測(cè)了船舶的位置.
RNN也被廣泛應(yīng)用于SLAM.2020年, Chancán等[84]提出一種可訓(xùn)練的CNN+RNN架構(gòu)的SLAM,可以用于從單一的單目圖像序列中聯(lián)合學(xué)習(xí)視覺(jué)與位置表示,還可以在大型駕駛數(shù)據(jù)集中的單個(gè)圖像序列中學(xué)習(xí)到具有實(shí)際意義的時(shí)間關(guān)系,而CNN與RNN的聯(lián)系使得系統(tǒng)在運(yùn)行時(shí)間序列、準(zhǔn)確性以及計(jì)算需求方面顯著優(yōu)于其他基于序列的算法.從該框架中可以看出,在時(shí)間序列問(wèn)題上RNN具有較強(qiáng)的處理能力.2020年,Qi等[85]提出一種新的關(guān)注語(yǔ)義循環(huán)神經(jīng)網(wǎng)絡(luò)(stagNet),通過(guò)語(yǔ)義圖及時(shí)地捕捉到動(dòng)態(tài)場(chǎng)景中的時(shí)空表示以及對(duì)象間關(guān)系,還通過(guò)在RNN之間傳遞消息并進(jìn)行推理,使得模型能夠進(jìn)一步預(yù)測(cè)整個(gè)場(chǎng)景的標(biāo)簽,進(jìn)而將每個(gè)個(gè)體動(dòng)作以及人與人之間的交互聯(lián)系起來(lái).
3)GAN
GAN的全稱(chēng)是生成對(duì)抗網(wǎng)絡(luò)[86],它主要組成分為生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)兩種.生成網(wǎng)絡(luò)主要負(fù)責(zé)生成模擬數(shù)據(jù),判別網(wǎng)絡(luò)則需要判斷輸入的數(shù)據(jù)是真實(shí)的還是生成的.生成網(wǎng)絡(luò)要不斷優(yōu)化自己生成的數(shù)據(jù)讓判別網(wǎng)絡(luò)判斷不出來(lái),判別網(wǎng)絡(luò)也要優(yōu)化自己讓自己判斷得更準(zhǔn)確.二者關(guān)系形成對(duì)抗,因此叫對(duì)抗網(wǎng)絡(luò).2018年,Wang等[87]提出使用GAN從語(yǔ)義標(biāo)簽地圖合成高分辨率真實(shí)感圖像的方法,展示了以一個(gè)簡(jiǎn)單的素描圖像作為輸入進(jìn)而得到一個(gè)具有高分辨率圖像的輸出.這種形式的模型使得機(jī)器可以對(duì)不同的對(duì)象進(jìn)行風(fēng)格化,也能以此推廣到其他數(shù)據(jù)集中,進(jìn)而將其使用在其他的圖像合成問(wèn)題中.此外,GAN也在圖像風(fēng)格遷移[88]、音頻標(biāo)簽標(biāo)注[89]等領(lǐng)域使用廣泛.
而在SLAM中,GAN的應(yīng)用也逐漸發(fā)展起來(lái).2019年,Almalioglu等[90]提出一種生成式無(wú)監(jiān)督學(xué)習(xí)框架,使用GAN從未標(biāo)記的RGB圖像中預(yù)測(cè)相機(jī)姿態(tài)以及場(chǎng)景的單目深度圖.文中提出的方法在姿態(tài)估計(jì)方面優(yōu)于所有無(wú)監(jiān)督以及傳統(tǒng)估計(jì)方法,同時(shí)還能夠捕獲到更詳細(xì)、更清晰、更準(zhǔn)確的場(chǎng)景深度圖.2022年,Almalioglu等[91]又提出一種新的基于自監(jiān)督學(xué)習(xí)的視覺(jué)慣性里程計(jì)以及深度地圖恢復(fù)方法SelfVIO,該方法使用對(duì)抗學(xué)習(xí)來(lái)實(shí)現(xiàn)自適應(yīng)視覺(jué)與IMU的融合.在實(shí)驗(yàn)過(guò)程中,該算法可以在不需要IMU內(nèi)部參數(shù)的情況下運(yùn)行視覺(jué)慣性里程計(jì).在性能上,該算法在數(shù)據(jù)集中運(yùn)行的結(jié)果可以比肩最先進(jìn)的視覺(jué)里程計(jì)或視覺(jué)慣性里程計(jì).
CNN、RNN、GAN 3類(lèi)深度學(xué)習(xí)網(wǎng)絡(luò)是較早被提出的深度學(xué)習(xí)算法.隨著VSLAM研究的不斷深入,各類(lèi)深度學(xué)習(xí)網(wǎng)絡(luò)在其中的應(yīng)用也逐漸增多.越來(lái)越多的VSLAM算法開(kāi)始借助深度學(xué)習(xí)網(wǎng)絡(luò)模型實(shí)現(xiàn)高效、穩(wěn)定、快速的圖像識(shí)別技術(shù),較為經(jīng)典的便是語(yǔ)義與SLAM的結(jié)合.語(yǔ)義信息的融入極大地提高了機(jī)器人感知世界的能力,也給了機(jī)器人編隊(duì)更多的發(fā)展空間與發(fā)展方向.
3.3.2 多機(jī)器人語(yǔ)義VSLAM
在多機(jī)器人協(xié)同SLAM系統(tǒng)中,機(jī)器人之間的相互通信與協(xié)調(diào)可以有效利用空間分布的信息資源,進(jìn)一步提高解決問(wèn)題的效率.同時(shí),系統(tǒng)中單個(gè)機(jī)器人的損壞不會(huì)影響其他機(jī)器人的運(yùn)行,因此相比于單機(jī)器人有更好的容錯(cuò)性與抗干擾能力.語(yǔ)義信息的融合有助于提高多機(jī)器人系統(tǒng)的魯棒性,同時(shí)多視圖觀察對(duì)象還可以有效避免對(duì)象關(guān)聯(lián)的模糊性問(wèn)題.
近些年,CNN已經(jīng)成為圖像分類(lèi)和分割等計(jì)算機(jī)視覺(jué)任務(wù)的主流.語(yǔ)義分割的含義是為圖像分配密集語(yǔ)義標(biāo)簽的問(wèn)題,它的原理是將一些原始數(shù)據(jù)如圖像數(shù)據(jù),作為輸入轉(zhuǎn)換為感興趣區(qū)域的掩膜.同時(shí),CNN將圖像中每個(gè)像素根據(jù)其感興趣對(duì)象分配類(lèi)別ID,以此來(lái)完成對(duì)數(shù)據(jù)圖像中物體的分類(lèi).語(yǔ)義分割的目標(biāo)是為圖像的每個(gè)像素分配一個(gè)類(lèi)標(biāo)簽,因此也可以被認(rèn)為是分類(lèi)問(wèn)題.語(yǔ)義分割一直被廣泛運(yùn)用在遙感、自動(dòng)駕駛、面部識(shí)別、圖像處理等領(lǐng)域.本文從語(yǔ)義分割在SLAM的應(yīng)用[92]入手,以語(yǔ)義標(biāo)簽的生成方式進(jìn)行劃分,將語(yǔ)義分割劃分為監(jiān)督學(xué)習(xí)算法、無(wú)監(jiān)督學(xué)習(xí)算法以及半監(jiān)督學(xué)習(xí)算法.
1)監(jiān)督學(xué)習(xí)算法
監(jiān)督學(xué)習(xí)是一種機(jī)器人學(xué)習(xí)的范式,其目標(biāo)就是學(xué)習(xí)一個(gè)函數(shù).監(jiān)督學(xué)習(xí)首先是由訓(xùn)練數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)簽的生成訓(xùn)練,同時(shí)產(chǎn)生一個(gè)輸入與輸出的對(duì)應(yīng)函數(shù).該函數(shù)可以根據(jù)規(guī)定的輸入、輸出將特征向量映射到標(biāo)簽中.
語(yǔ)義標(biāo)簽的生成通常是由神經(jīng)網(wǎng)絡(luò)對(duì)原始圖像數(shù)據(jù)進(jìn)行標(biāo)定的.而在基于監(jiān)督學(xué)習(xí)算法生成語(yǔ)義標(biāo)簽的分類(lèi)方法中,分割神經(jīng)網(wǎng)絡(luò)通常由研究人員提前進(jìn)行訓(xùn)練,即生成的語(yǔ)義標(biāo)簽類(lèi)別是一開(kāi)始就固定好的.在面對(duì)新的圖像數(shù)據(jù)時(shí),這些神經(jīng)網(wǎng)絡(luò)可以根據(jù)訓(xùn)練時(shí)固定的語(yǔ)義標(biāo)簽對(duì)這些圖像進(jìn)行語(yǔ)義標(biāo)注.目前大多數(shù)先進(jìn)的多機(jī)器人語(yǔ)義SLAM系統(tǒng)都是基于監(jiān)督學(xué)習(xí)進(jìn)行語(yǔ)義標(biāo)簽的生成.但監(jiān)督學(xué)習(xí)算法無(wú)法在線對(duì)新觀察的環(huán)境特征進(jìn)行分類(lèi),這也是語(yǔ)義分割領(lǐng)域亟待解決的難題.
2020年,Rosinol等[93]提出了一個(gè)開(kāi)源C++庫(kù)Kimera,專(zhuān)門(mén)用于實(shí)時(shí)度量-語(yǔ)義視覺(jué)慣性SLAM.它支持三維網(wǎng)格模型重建語(yǔ)義標(biāo)記,使用二維語(yǔ)義標(biāo)記圖像對(duì)全局網(wǎng)格進(jìn)行語(yǔ)義標(biāo)注并使用視覺(jué)慣性傳感器估計(jì)機(jī)器人狀態(tài).該數(shù)據(jù)庫(kù)可以在CPU上實(shí)時(shí)運(yùn)行,通過(guò)語(yǔ)義標(biāo)記的圖像生成3D度量語(yǔ)義地圖.同時(shí),他們還提供了一套持續(xù)集成與基準(zhǔn)的測(cè)試工具,這也為未來(lái)多機(jī)器人語(yǔ)義SLAM的研究打下了基礎(chǔ).2021年,Rosinol等[94]完善了Kimera,提出了第一個(gè)以視覺(jué)慣性數(shù)據(jù)構(gòu)建3D動(dòng)態(tài)場(chǎng)景圖的算法.該算法框架包括視覺(jué)慣性SLAM、度量語(yǔ)義三維重建等.在數(shù)據(jù)集的測(cè)試中,該算法短短幾分鐘就能構(gòu)建出復(fù)雜室內(nèi)環(huán)境的3D動(dòng)態(tài)場(chǎng)景圖,同時(shí)還可以實(shí)時(shí)運(yùn)行度量語(yǔ)義重構(gòu)的創(chuàng)建.同年,Chang等[95]擴(kuò)展了Kimera,提出了第一個(gè)用于密集度量語(yǔ)義SLAM的全分布式多機(jī)器人系統(tǒng)Kimera-Multi.系統(tǒng)通過(guò)局部傳感與間歇通信實(shí)時(shí)構(gòu)建了一個(gè)語(yǔ)義化的環(huán)境三維網(wǎng)格模型.在數(shù)據(jù)集中的模擬可以看出,該系統(tǒng)能夠構(gòu)建準(zhǔn)確的三維度量語(yǔ)義網(wǎng)格,同時(shí)計(jì)算量更小,通信量也更小.2022年,Tian等[96]進(jìn)一步完善了構(gòu)建密集度量語(yǔ)義SLAM的完全分布式多機(jī)器人系統(tǒng)Kimera-Multi.該分布式系統(tǒng)使得機(jī)器人團(tuán)隊(duì)能夠?qū)崟r(shí)協(xié)作估計(jì)環(huán)境的語(yǔ)義注釋3D網(wǎng)格估計(jì),并實(shí)現(xiàn)了與集中式系統(tǒng)類(lèi)似的估計(jì)精度,還具有更穩(wěn)定、更準(zhǔn)確的軌跡估計(jì).相對(duì)于早期版本,Kimera-Multi的魯棒性與準(zhǔn)確性有了很大的提高.圖15展示了一種監(jiān)督學(xué)習(xí)式多機(jī)器人語(yǔ)義SLAM的工作流程.
2020年,Deng等[76]提出一種基于監(jiān)督學(xué)習(xí)算法的救援語(yǔ)義SLAM框架,通過(guò)使用訓(xùn)練后的CNN網(wǎng)絡(luò)從RGB-D圖像中提取語(yǔ)義標(biāo)簽,最終的效果是系統(tǒng)可以生成精確的密集語(yǔ)義地圖,同時(shí)還能利用語(yǔ)義信息對(duì)路徑規(guī)劃進(jìn)行改善.2022年,Zobeidi等[97]提出一種基于在線高斯過(guò)程回歸方法協(xié)作構(gòu)建度量語(yǔ)義地圖的在線概率度量語(yǔ)義映射方法.通過(guò)數(shù)據(jù)集的驗(yàn)證得知該系統(tǒng)具有與深度神經(jīng)網(wǎng)絡(luò)一致的精度,同時(shí)在噪聲環(huán)境下以及不確定性高的情況下具有很好的魯棒性.而在單機(jī)器人重建序列試驗(yàn)中,他們采用監(jiān)督學(xué)習(xí)算法將包含3 700個(gè)RGB-D圖像和61個(gè)語(yǔ)義類(lèi)別的數(shù)據(jù)集進(jìn)行重建.實(shí)驗(yàn)結(jié)果表明,該算法重建速度快、準(zhǔn)確度高.
2)無(wú)監(jiān)督學(xué)習(xí)算法
針對(duì)監(jiān)督學(xué)習(xí)無(wú)法在線對(duì)新觀察的環(huán)境特征進(jìn)行分類(lèi)的缺點(diǎn),研究人員提出了無(wú)監(jiān)督學(xué)習(xí)算法.它的含義是指當(dāng)機(jī)器人在環(huán)境中有一個(gè)新穎的觀察時(shí),可以自己發(fā)明一個(gè)新標(biāo)簽用以標(biāo)記該觀察.該算法雖然可以獨(dú)立標(biāo)記標(biāo)簽,具有很強(qiáng)的自主性,但當(dāng)多個(gè)機(jī)器人為同一個(gè)新類(lèi)別獨(dú)立開(kāi)發(fā)出自己的標(biāo)簽時(shí),檢測(cè)方法就很容易出現(xiàn)錯(cuò)誤或不一致的匹配.
無(wú)監(jiān)督學(xué)習(xí)算法是目前語(yǔ)義SLAM中較為前沿的語(yǔ)義標(biāo)簽生成方式,它給了機(jī)器人個(gè)體極大的自主權(quán),但其難點(diǎn)在于如何統(tǒng)一不同機(jī)器人之間針對(duì)相同物體產(chǎn)生的新標(biāo)簽,這也一直是多機(jī)器人語(yǔ)義SLAM的研究熱點(diǎn).常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)算法有聚類(lèi)和降維兩種.常用的無(wú)監(jiān)督方法是聚類(lèi)算法[98],它通過(guò)人工設(shè)計(jì)的圖像特征進(jìn)行聚類(lèi)分割.在面對(duì)大量未標(biāo)注的數(shù)據(jù)集時(shí),聚類(lèi)算法按照數(shù)據(jù)內(nèi)在相似性將數(shù)據(jù)集劃分為多個(gè)類(lèi)別.類(lèi)別與類(lèi)別之間的數(shù)據(jù)相似度較小,而類(lèi)別間數(shù)據(jù)相似度較大,進(jìn)而實(shí)現(xiàn)聚類(lèi)算法對(duì)數(shù)據(jù)的分類(lèi)與分析.
2018年,Wu等[99]提出一種無(wú)監(jiān)督學(xué)習(xí)生成語(yǔ)義標(biāo)簽的實(shí)例級(jí)判別方法.該算法使用CNN將每張圖像編碼為特征向量,并將其投影到128維空間并做歸一化處理.算法通過(guò)最大限度地將訓(xùn)練樣本特征分散在128維單位球上,以此得到最優(yōu)特征嵌入,進(jìn)而學(xué)習(xí)實(shí)例級(jí)辨別.試驗(yàn)結(jié)果表明,該方法優(yōu)于ImageNet與Places上最先進(jìn)的圖像分類(lèi)方法.2021年,Gansbeke等[100]提出一種無(wú)監(jiān)督語(yǔ)義分割框架.首先采用無(wú)監(jiān)督顯著性預(yù)測(cè)對(duì)象掩碼建議,其次將得到的掩碼作為自監(jiān)督優(yōu)化目標(biāo)的先驗(yàn),最后像素嵌入為圖像進(jìn)行語(yǔ)義分割.在實(shí)際運(yùn)用中,該框架首先從一個(gè)沒(méi)有標(biāo)注的圖像數(shù)據(jù)集中學(xué)習(xí)用于語(yǔ)義分割的像素嵌入函數(shù),再進(jìn)行實(shí)例語(yǔ)義分割.在試驗(yàn)對(duì)比階段,該框架與ImageNet上有監(jiān)督的預(yù)訓(xùn)練相比,有著更好的語(yǔ)義標(biāo)簽生成性能.雖然無(wú)監(jiān)督學(xué)習(xí)在數(shù)據(jù)集中的性能較好,但在實(shí)際大規(guī)模數(shù)據(jù)的情況下性能還有待提升.2023年,Gao等[101]在大型數(shù)據(jù)集ImageNet的支持下,提出了大規(guī)模無(wú)監(jiān)督語(yǔ)義分割算法模型,通過(guò)從大規(guī)模數(shù)據(jù)中學(xué)習(xí)到的類(lèi)別與形狀對(duì)像素進(jìn)行標(biāo)簽分配.文中提出在給定的一個(gè)大的圖像集中,該算法會(huì)將自學(xué)習(xí)標(biāo)簽分配給圖像集中的每個(gè)像素.這也驗(yàn)證了無(wú)監(jiān)督學(xué)習(xí)算法對(duì)于大規(guī)模圖像數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注的可行性.圖16為無(wú)監(jiān)督語(yǔ)義提取算法的流程.
在多機(jī)器人語(yǔ)義SLAM中,無(wú)監(jiān)督學(xué)習(xí)算法也有著很好的應(yīng)用前景.2018年,Li等[75]提出一種基于CNN多機(jī)器人邊界探索策略,進(jìn)一步解決了機(jī)器人探索室內(nèi)環(huán)境的問(wèn)題.他們考慮了室內(nèi)目標(biāo)邊界的語(yǔ)義信息,并將這些信息進(jìn)行語(yǔ)義分類(lèi)之后整合到效用函數(shù)中,幫助機(jī)器人探索辦公室、會(huì)議室等室內(nèi)場(chǎng)景.這種工作模式為后續(xù)使用無(wú)監(jiān)督學(xué)習(xí)算法生成語(yǔ)義標(biāo)簽作出了鋪墊,使得系統(tǒng)可以獨(dú)立進(jìn)行不同物體語(yǔ)義類(lèi)型的確定.2021年,Jamieson等[102]提出一種在新環(huán)境中多機(jī)器人分布式語(yǔ)義SLAM解決辦法.他們讓每個(gè)機(jī)器人都使用在線語(yǔ)義3D SLAM系統(tǒng)對(duì)自己的觀察進(jìn)行建模,并創(chuàng)建高質(zhì)量的語(yǔ)義地圖.同時(shí),在通信條件有限的情況下,可以在機(jī)器人之間以及人類(lèi)操作員之間共享學(xué)習(xí)到的語(yǔ)義地圖與模型.文中提出讓每個(gè)機(jī)器人在線學(xué)習(xí)無(wú)監(jiān)督語(yǔ)義場(chǎng)景模型,使用多路匹配算法來(lái)識(shí)別不同機(jī)器人的學(xué)習(xí)語(yǔ)義標(biāo)簽的一致匹配集,從而克服無(wú)監(jiān)督學(xué)習(xí)的障礙.相對(duì)于現(xiàn)有技術(shù)來(lái)說(shuō),該解決方案使得全局地圖質(zhì)量有效提高,同時(shí)融合后的地圖還不會(huì)發(fā)生退化.
3)半監(jiān)督學(xué)習(xí)算法
半監(jiān)督學(xué)習(xí)算法[103]可以很好地解決數(shù)據(jù)集中只有少量的數(shù)據(jù)有標(biāo)注的問(wèn)題.2018年,Zhou[104]將弱監(jiān)督學(xué)習(xí)分為不完全監(jiān)督、不確切監(jiān)督、不準(zhǔn)確監(jiān)督三類(lèi).不完全監(jiān)督指的是在訓(xùn)練數(shù)據(jù)中只有一部分?jǐn)?shù)據(jù)被給予標(biāo)簽,還有一部分?jǐn)?shù)據(jù)沒(méi)有標(biāo)簽;不確切監(jiān)督指的是訓(xùn)練數(shù)據(jù)中只給出粗粒度標(biāo)簽,這意味著對(duì)訓(xùn)練數(shù)據(jù)中的標(biāo)簽,人工并未將其精確到物體的名稱(chēng),而是告訴機(jī)器人一個(gè)較為模糊的標(biāo)簽;不準(zhǔn)確監(jiān)督指的是在訓(xùn)練數(shù)據(jù)中標(biāo)記的標(biāo)簽并不一定正確,原本應(yīng)該是“西瓜”的標(biāo)簽卻被標(biāo)記成“哈密瓜”.其中,不完全監(jiān)督即半監(jiān)督學(xué)習(xí).半監(jiān)督學(xué)習(xí)不像監(jiān)督學(xué)習(xí)那樣需要人工標(biāo)記出所有語(yǔ)義標(biāo)簽,其準(zhǔn)確率也高于無(wú)監(jiān)督學(xué)習(xí)算法,因此逐漸被廣泛運(yùn)用在語(yǔ)義分割中.
2019年,Berthelot等[105]提出一種半監(jiān)督學(xué)習(xí)方法MixMatch用于語(yǔ)義分割,它通過(guò)數(shù)據(jù)增強(qiáng)的無(wú)標(biāo)記示例猜測(cè)低熵標(biāo)簽,再使用MixUp混合有標(biāo)記與無(wú)標(biāo)記數(shù)據(jù).在數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果表明,該半監(jiān)督學(xué)習(xí)方法很好地降低了標(biāo)記錯(cuò)誤,同時(shí)對(duì)隱私數(shù)據(jù)有著很好的保護(hù)作用.2022年,Lei等[106]提出一種多分支弱監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)WPSointNet用來(lái)解決大規(guī)模移動(dòng)激光掃描點(diǎn)云語(yǔ)義分割問(wèn)題.他們將一個(gè)基本的弱監(jiān)督框架與一個(gè)多分支弱監(jiān)督模塊組合起來(lái),在輸入點(diǎn)云與少量標(biāo)簽的情況下,通過(guò)弱監(jiān)督框架輸出輸入點(diǎn)云的預(yù)測(cè)值以及整個(gè)網(wǎng)絡(luò)的底層監(jiān)督信號(hào).在公開(kāi)的數(shù)據(jù)集中實(shí)驗(yàn)結(jié)果表明,該弱監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)有著96.76%的總體精度,優(yōu)于大多數(shù)完全監(jiān)督方法.
在圖像識(shí)別領(lǐng)域,半監(jiān)督學(xué)習(xí)經(jīng)常被用在面部表情分析的實(shí)際場(chǎng)景中.2023年,Badea等[107]提出一種半監(jiān)督學(xué)習(xí)算法應(yīng)用在面部表情識(shí)別中,通過(guò)引入額外的、獨(dú)特的數(shù)據(jù)庫(kù)中未標(biāo)記的數(shù)據(jù)來(lái)提高半監(jiān)督學(xué)習(xí)算法的性能.實(shí)驗(yàn)結(jié)果表明,該半監(jiān)督算法在面部表情的標(biāo)注上具有很好的表現(xiàn).同年,Kirillov等[108]提出一種分割一切的開(kāi)源語(yǔ)義分割模型,通過(guò)自建的數(shù)據(jù)引擎構(gòu)建了目前最大的分割數(shù)據(jù)集.該數(shù)據(jù)集中有近99.1%的語(yǔ)義標(biāo)簽是自動(dòng)生成的,同時(shí),其準(zhǔn)確性、效率、魯棒性等具有很好表現(xiàn).圖17是一種半監(jiān)督語(yǔ)義提取算法示意圖.
在SLAM的應(yīng)用方面,2020年Yue等[109]提出一種基于半監(jiān)督語(yǔ)義算法的單目深度估計(jì)算法.框架使用了標(biāo)記的語(yǔ)義真實(shí)數(shù)據(jù),首先對(duì)單目相機(jī)圖像進(jìn)行語(yǔ)義分割,再通過(guò)語(yǔ)義標(biāo)簽對(duì)深度估計(jì)網(wǎng)絡(luò)的構(gòu)建提供指導(dǎo)意見(jiàn).該框架在數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果表明,半監(jiān)督語(yǔ)義分割算法從圖像中學(xué)習(xí)的語(yǔ)義信息可以有效地提高單目深度估計(jì)的效果,且在精度上也優(yōu)于目前的單目深度估計(jì)算法.同年,Rosu等[110]提出一種半監(jiān)督語(yǔ)義SLAM算法,通過(guò)投影將標(biāo)簽從穩(wěn)定網(wǎng)格傳播到每個(gè)攝像機(jī)幀上,再通過(guò)半監(jiān)督的方式重新訓(xùn)練語(yǔ)義分割.該算法還通過(guò)語(yǔ)義紋理網(wǎng)格在獨(dú)立分辨率上將場(chǎng)景幾何與語(yǔ)義緊密耦合,使得系統(tǒng)可以使用不同的分辨率表示語(yǔ)義與幾何,進(jìn)而得到更完善的語(yǔ)義映射體系,系統(tǒng)整體上還可以保持低內(nèi)存使用狀態(tài).
半監(jiān)督學(xué)習(xí)算法在多機(jī)器人SLAM方面也應(yīng)用廣泛.2021年,Majcherczyk等[111]提出一種跨機(jī)器人群的在線融合不確定語(yǔ)義注釋的方法.首先在機(jī)器人之間存儲(chǔ)本地化的語(yǔ)義注釋?zhuān)浯瓮ㄟ^(guò)部署在各個(gè)機(jī)器人上的分類(lèi)器對(duì)地圖上的對(duì)象進(jìn)行分類(lèi).在遇到不完善以及不確定的語(yǔ)義分類(lèi)時(shí),算法采用投票法來(lái)評(píng)估語(yǔ)義標(biāo)簽的準(zhǔn)確性,進(jìn)而得到更符合實(shí)際物體的語(yǔ)義標(biāo)簽.半監(jiān)督算法的應(yīng)用使得該分布式機(jī)器人生成的語(yǔ)義映射更為豐富,準(zhǔn)確度更高.2023年,Cramariuc等[112]提出的Maplab2.0通過(guò)比較同一類(lèi)對(duì)象的語(yǔ)義標(biāo)簽來(lái)找到候選語(yǔ)義循環(huán)閉包,在機(jī)器人遇到一幅圖像中觀察的兩個(gè)地標(biāo)無(wú)法正常匹配時(shí),會(huì)在幾何上驗(yàn)證候選標(biāo)志并聚類(lèi)可見(jiàn)標(biāo)志,再通過(guò)聚類(lèi)方法完成對(duì)陌生幾何物體的語(yǔ)義分割.半監(jiān)督學(xué)習(xí)可以很好地解決監(jiān)督學(xué)習(xí)中需要大量人力標(biāo)注的缺點(diǎn),也解決了無(wú)監(jiān)督學(xué)習(xí)中準(zhǔn)確性較低的問(wèn)題,成為目前研究人員所青睞的一種語(yǔ)義標(biāo)注方法.
可以說(shuō)語(yǔ)義地圖給了多機(jī)器人SLAM理解世界的大腦.通過(guò)與深度學(xué)習(xí)的融合,多編隊(duì)機(jī)器人隨之走上自主控制的道路,如仿生蟻群一般,以一群數(shù)量極多但極微小的個(gè)體編隊(duì)進(jìn)行合作執(zhí)行命令,進(jìn)而達(dá)到更高的任務(wù)完成率與成功率.
4 總結(jié)展望
本文介紹了VSLAM中的經(jīng)典框架、部分經(jīng)典已開(kāi)源的VSLAM,以及VSLAM在多機(jī)器人SLAM中所做出的貢獻(xiàn);從結(jié)構(gòu)框架、算法融合、語(yǔ)義融合等方面將多機(jī)器人SLAM進(jìn)行了總結(jié),并列舉一些經(jīng)典多機(jī)器人SLAM算法;從CNN、RNN、GAN等經(jīng)典深度學(xué)習(xí)算法入手,將語(yǔ)義信息引入到多機(jī)器人SLAM的研究中;通過(guò)系統(tǒng)生成標(biāo)簽的方法,將多機(jī)器人語(yǔ)義SLAM算法劃分為監(jiān)督算法、無(wú)監(jiān)督算法、半監(jiān)督算法3類(lèi).
未來(lái)多機(jī)器人SLAM的發(fā)展趨勢(shì)總結(jié)如下:
1)更高層次的環(huán)境感知:神經(jīng)網(wǎng)絡(luò)可以更方便地提取出高層次的語(yǔ)義信息,同時(shí)促進(jìn)機(jī)器人智能化的發(fā)展.傳統(tǒng)的VSLAM算法只能滿(mǎn)足機(jī)器人基本的定位導(dǎo)航需求而無(wú)法完成更高等級(jí)的任務(wù).但這些任務(wù)可以借助語(yǔ)義信息將數(shù)據(jù)關(guān)聯(lián)從傳統(tǒng)的像素級(jí)別提升到物體級(jí)別,并可以給感知的幾何環(huán)境信息賦以語(yǔ)義標(biāo)簽,進(jìn)而得到更高層次的語(yǔ)義地圖,以滿(mǎn)足機(jī)器人進(jìn)行自主環(huán)境感知,實(shí)現(xiàn)真正的自主化集群SLAM.
2)性能更強(qiáng)的智能控制:較為傳統(tǒng)的集中式控制,雖然可以為機(jī)器人群體提供更為合理、性?xún)r(jià)比更高的控制方案,但其控制的機(jī)器人數(shù)量有限.而未來(lái)研究人員所期望的集群機(jī)器人需要達(dá)到千臺(tái)、萬(wàn)臺(tái)的巨量機(jī)器人集群,這就需要機(jī)器人編隊(duì)中的每個(gè)機(jī)器人都有自我判斷能力,控制單元也需要智能化控制,充分發(fā)揮每個(gè)機(jī)器人個(gè)體的自主性,形成與大自然蜂群、魚(yú)群類(lèi)似的集群機(jī)器人系統(tǒng).
3)更高效的數(shù)據(jù)融合:通過(guò)將集群機(jī)器人系統(tǒng)與語(yǔ)義信息相結(jié)合,在特征提取以及匹配方面達(dá)到更好的效果,使得集群機(jī)器人可以更好地理解環(huán)境.深度學(xué)習(xí)的加入使得多機(jī)器人數(shù)據(jù)融合應(yīng)用更廣泛、實(shí)現(xiàn)更快捷.未來(lái)會(huì)更加注重深度學(xué)習(xí)在集群機(jī)器人中的應(yīng)用,提升集群機(jī)器人的整體性能.
參考文獻(xiàn)References
[1]Smith R C,Cheeseman P.On the representation and estimation of spatial uncertainty[J].The International Journal of Robotics Research,1986,5(4):56-68
[2] Durrant-Whyte H,Bailey T.Simultaneous localization and mapping:part I[J].IEEE Robotics amp; Automation Magazine,2006,13(2):99-110
[3] Bailey T,Durrant-Whyte H.Simultaneous localization and mapping (SLAM):part Ⅱ[J].IEEE Robotics amp; Automation Magazine,2006,13(3):108-117
[4] Aulinas J,Petillot Y,Salvi J,et al.The SLAM problem:a survey[C]//International Conference of the Catalan Association for Artificial Intelligence.October 22-24,2008,Sant Martí d’Empúries,Spain.2008:363-371
[5] Strasdat H,Montiel J M M,Davison A J.Real-time monocular SLAM:why filter? [C]//2010 IEEE International Conference on Robotics and Automation.May 3-7,2010,Anchorage,AK,USA.IEEE,2010:2657-2664
[6] Strasdat H,Montiel J M M,Davison A J.Visual SLAM:why filter?[J].Image and Vision Computing,2012,30(2):65-77
[7] Dissanayake G,Huang S D,Wang Z,et al.A review of recent developments in simultaneous localization and mapping[C]//2011 6th International Conference on Industrial and Information Systems.August 16-19,2011,Kandy,Sri Lanka.IEEE,2011:477-482
[8] Huang S D,Dissanayake G.A critique of current developments in simultaneous localization and mapping[J].International Journal of Advanced Robotic Systems,2016,13(5):172988141666948
[9] Saeedi S,Trentini M,Seto M,et al.Multiple-robot simultaneous localization and mapping:a review[J].Journal of Field Robotics,2016,33(1):3-46
[10] 衛(wèi)恒,呂強(qiáng),林輝燦,等.多機(jī)器人SLAM后端優(yōu)化算法綜述[J].系統(tǒng)工程與電子技術(shù),2017,39(11):2553-2565
WEI Heng,L Qiang,LIN Huican,et al.Survey on multi-robot SLAM back-end optimization algorithm[J].Systems Engineering and Electronics,2017,39(11):2553-2565
[11] 陰賀生,裴碩,徐磊,等.多機(jī)器人視覺(jué)同時(shí)定位與建圖技術(shù)研究綜述[J].機(jī)械工程學(xué)報(bào),2022,58(11):11-36
YIN Hesheng,PEI Shuo,XU Lei,et al.Review of research on multi-robot visual simultaneous localization and mapping[J].Journal of Mechanical Engineering,2022,58(11):11-36
[12] 苗國(guó)英,馬倩.多智能體系統(tǒng)的協(xié)調(diào)控制研究綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,5(5):385-396
MIAO Guoying,MA Qian.A survey of developments on coordinated control of multi-agent systems[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2013,5(5):385-396
[13] 胡凱,陳旭,楊平化,等.基于滑模變結(jié)構(gòu)控制多機(jī)器人協(xié)同編隊(duì)的研究綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,14(2):197-211
HU Kai,CHEN Xu,YANG Pinghua,et al.A review of cooperative formation of multiple robots based on sliding mode variable structure control[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2022,14(2):197-211
[14] 劉佳,陳增強(qiáng),劉忠信.多智能體系統(tǒng)及其協(xié)同控制研究進(jìn)展[J].智能系統(tǒng)學(xué)報(bào),2010,5(1):1-9
LIU Jia,CHEN Zengqiang,LIU Zhongxin.Advances in multi-agent systems and cooperative control[J].CAAI Transactions on Intelligent Systems,2010,5(1):1-9
[15] 裴凌,李濤,花彤,等.多源融合定位算法綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,14(6):635-648
PEI Ling,LI Tao,HUA Tong,et al.A survey of multi-source fusion positioning algorithms[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2022,14(6):635-648
[16] Dorigo M,Theraulaz G,Trianni V.Swarm robotics:past,present,and future[J].Proceedings of the IEEE,2021,109(7):1152-1165
[17] 胡凱,吳佳勝,鄭翡,等.視覺(jué)里程計(jì)研究綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,13(3):269-280
HU Kai,WU Jiasheng,ZHENG Fei,et al.A survey of visual odometry[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2021,13(3):269-280
[18] 裴凌,劉東輝,錢(qián)久超.室內(nèi)定位技術(shù)與應(yīng)用綜述[J].導(dǎo)航定位與授時(shí),2017,4(3):1-10
PEI Ling,LIU Donghui,QIAN Jiuchao.A survey of indoor positioning technology and application[J].Navigation Positioning and Timing,2017,4(3):1-10
[19] Davison A J,Reid I D,Molton N D,et al.MonoSLAM:real-time single camera SLAM[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(6):1052-1067
[20] Klein G,Murray D.Parallel tracking and mapping for small AR workspaces[C]//2007 6th IEEE and ACM International Symposium on Mixed and Augmented Reality.November 13-16,2007,Nara,Japan.IEEE,2008:225-234
[21] Newcombe R A,Lovegrove S J,Davison A J.DTAM:dense tracking and mapping in real-time[C]//2011 International Conference on Computer Vision.November 6-13,2011,Barcelona,Spain.IEEE,2012:2320-2327
[22] Forster C,Pizzoli M,Scaramuzza D.SVO:fast semi-direct monocular visual odometry[C]//2014 IEEE International Conference on Robotics and Automation (ICRA).May 31-June 7,2014,Hong Kong,China.IEEE,2014:15-22
[23] Mur-Artal R,Montiel J M M,Tardós J D.ORB-SLAM:a versatile and accurate monocular SLAM system[J].IEEE Transactions on Robotics,2015,31(5):1147-1163
[24] Mur-Artal R,Tardós J D.ORB-SLAM2:an open-source SLAM system for monocular,stereo,and RGB-D cameras[J].IEEE Transactions on Robotics,2017,33(5):1255-1262
[25] Campos C,Elvira R,Rodríguez J J G,et al.ORB-SLAM3:an accurate open-source library for visual,visual-inertial,and multimap SLAM[J].IEEE Transactions on Robotics,2021,37(6):1874-1890
[26] Pire T,F(xiàn)ischer T,Castro G,et al.S-PTAM:stereo parallel tracking and mapping[J].Robotics and Autonomous Systems,2017,93:27-42
[27] Kerl C,Sturm J,Cremers D.Dense visual SLAM for RGB-D cameras[C]//2013 IEEE/RSJ International Conference on Intelligent Robots and Systems.November 3-7,2013,Tokyo,Japan.IEEE,2014:2100-2106
[28] Engel J,Schps T,Cremers D.LSD-SLAM:large-scale direct monocular SLAM[C]//European Conference on Computer Vision.Cham:Springer,2014:834-849
[29] Engel J,Koltun V,Cremers D.Direct sparse odometry[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,40(3):611-625
[30] Wang R,Schwrer M,Cremers D.Stereo DSO:large-scale direct sparse visual odometry with stereo cameras[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:3923-3931
[31] Izadi S,Kim D,Hilliges O,et al.KinectFusion:real-time 3D reconstruction and interaction using a moving depth camera[C]//Proceedings of the 24th Annual ACM Symposium on User Interface Software and Technology.October 16-19,2011,Santa Barbara,California,USA.New York:ACM,2011:559-568
[32] Whelan T,Mcdonald J,Kaess M,et al.Kintinuous:spatially extended KinectFusion[R].CSAIL Technical Reports,2012,MIT-CSAIL-TR-2012-020
[33] Whelan T,Salas-Moreno R F,Glocker B,et al.ElasticFusion:real-time dense SLAM and light source estimation[J].The International Journal of Robotics Research,2016,35(14):1697-1716
[34] 劉鑫,王忠,秦明星.多機(jī)器人協(xié)同SLAM技術(shù)研究進(jìn)展[J].計(jì)算機(jī)工程,2022,48(5):1-10
LIU Xin,WANG Zhong,QIN Mingxing.Research progress of multi-robot collaborative SLAM technology[J].Computer Engineering,2022,48(5):1-10
[35] Cohen W W.Adaptive mapping and navigation by teams of simple robots[J].Robotics and Autonomous Systems,1996,18(4):411-434
[36] Khoshnevis B,Bekey G.Centralized sensing and control of multiple mobile robots[J].Computers amp; Industrial Engineering,1998,35(3/4):503-506
[37] Fenwick J W,Newman P M,Leonard J J.Cooperative concurrent mapping and localization[C]//2002 IEEE International Conference on Robotics and Automation.May 11-15,2002,Washington,DC,USA.IEEE,2002:1810-1817
[38] Tao T,Huang Y L,Yuan J,et al.Multi-robot cooperative map building in unknown environment considering estimation uncertainty[C]//2008 Chinese Control and Decision Conference.July 2-4,2008,Yantai,Shandong,China.IEEE,2008:2896-2901
[39] Mohanarajah G,Usenko V,Singh M,et al.Cloud-based collaborative 3D mapping in real-time with low-cost robots[J].IEEE Transactions on Automation Science and Engineering,2015,12(2):423-431
[40] Karrer M,Schmuck P,Chli M.CVI-SLAM:collaborative visual-inertial SLAM[J].IEEE Robotics and Automation Letters,2018,3(4):2762-2769
[41] Schmuck P,Chli M.CCM-SLAM:robust and efficient centralized collaborative monocular simultaneous localization and mapping for robotic teams[J].Journal of Field Robotics,2019,36(4):763-781
[42] Jang Y,Oh C,Lee Y,et al.Multirobot collaborative monocular SLAM utilizing Rendezvous[J].IEEE Transactions on Robotics,2021,37(5):1469-1486
[43] 武勝帥,趙宇.Lipschiz-type的高階非線性多智能體系統(tǒng)分布式優(yōu)化算法研究[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,10(4):456-461
WU Shengshuai,ZHAO Yu.Distributed optimization for Lipschiz-type high-order nonlinear multi-agent systems[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2018,10(4):456-461
[44] Cunningham A,Paluri M,Dellaert F.DDF-SAM:fully distributed SLAM using constrained factor graphs[C]//2010 IEEE/RSJ International Conference on Intelligent Robots and Systems.October 18-22,2010,Taipei,China.IEEE,2010:3025-3030
[45] Cunningham A,Indelman V,Dellaert F.DDF-SAM 2.0:consistent distributed smoothing and mapping[C]//2013 IEEE International Conference on Robotics and Automation.May 6-10,2013,Karlsruhe,Germany.IEEE,2013:5220-5227
[46] Ziparo V A,Kleiner A,F(xiàn)arinelli A,et al.Cooperative exploration for USAR robots with indirect communication[J].IFAC Proceedings Volumes,2007,40(15):554-559
[47] Zou D P,Tan P.CoSLAM:collaborative visual SLAM in dynamic environments[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(2):354-366
[48] Forster C,Lynen S,Kneip L,et al.Collaborative monocular SLAM with multiple micro aerial vehicles[C]//2013 IEEE/RSJ International Conference on Intelligent Robots and Systems.November 3-7,2013,Tokyo,Japan.IEEE,2014:3962-3970
[49] Riazuelo L,Civera J,Montiel J M M.C2TAM:a Cloud framework for cooperative tracking and mapping[J].Robotics and Autonomous Systems,2014,62(4):401-413
[50] Schmuck P,Chli M.Multi-UAV collaborative monocular SLAM[C]//2017 IEEE International Conference on Robotics and Automation (ICRA).May 29-June 3,2017,Singapore.IEEE,2017:3863-3870
[51] Castle R,Klein G,Murray D W.Video-rate localization in multiple maps for wearable augmented reality[C]//2008 12th IEEE International Symposium on Wearable Computers.September 28-October 1,2008,Pittsburgh,PA,USA.IEEE,2009:15-22
[52] Lajoie P Y,Ramtoula B,Chang Y,et al.DOOR-SLAM:distributed,online,and outlier resilient SLAM for robotic teams[J].IEEE Robotics and Automation Letters,2020,5(2):1656-1663
[53] Cao Y J,Beltrame G.VIR-SLAM:visual,inertial,and ranging SLAM for single and multi-robot systems[J].Autonomous Robots,2021,45(6):905-917
[54] Huang Y W,Shan T X,Chen F F,et al.DiSCo-SLAM:distributed scan context-enabled multi-robot LiDAR SLAM with two-stage global-local graph optimization[J].IEEE Robotics and Automation Letters,2022,7(2):1150-1157
[55] Zhang T J,Zhang L,Chen Y,et al.CVIDS:a collaborative localization and dense mapping framework for multi-agent based visual-inertial SLAM[J].IEEE Transactions on Image Processing,2022,31:6562-6576
[56] 祁鏵穎,賀萍.跨模態(tài)數(shù)據(jù)融合綜述[J].軟件工程,2022,25(10):1-7
QI Huaying,HE Ping.Overview of cross-modal data fusion[J].Software Engineer,2022,25(10):1-7
[57] 張凱淵,劉佩林,錢(qián)久超,等.多傳感器融合機(jī)器人室內(nèi)定位系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù),2014,38(11):83-87
ZHANG Kaiyuan,LIU Peilin,QIAN Jiuchao,et al.Design and implementation of multi-sensor fused robot indoor localization system[J].Information Technology,2014,38(11):83-87
[58] Howard A.Multi-robot simultaneous localization and mapping using particle filters[J].The International Journal of Robotics Research,2006,25(12):1243-1256
[59] Knuth J,Barooah P.Collaborative 3D localization of robots from relative pose measurements using gradient descent on manifolds[C]//2012 IEEE International Conference on Robotics and Automation.May 14-18,2012,Saint Paul,MN,USA.IEEE,2012:1101-1106
[60] Knuth J,Barooah P.Collaborative localization with heterogeneous inter-robot measurements by Riemannian optimization[C]//2013 IEEE International Conference on Robotics and Automation.May 6-10,2013,Karlsruhe,Germany.IEEE,2013:1534-1539
[61] LeBlanc K,Saffiotti A.Multirobot object localization:a fuzzy fusion approach[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B (Cybernetics),2009,39(5):1259-1276
[62] Zhao B,Zhong Y F,Zhang L P.Hybrid generative/discriminative scene classification strategy based on latent dirichlet allocation for high spatial resolution remote sensing imagery[C]//2013 IEEE International Geoscience and Remote Sensing Symposium (IGARSS).July 21-26,2013,Melbourne,VIC,Australia.IEEE,2014:196-199
[63] 張榮芬,袁文昊,李景玉,等.融入語(yǔ)義信息的VSLAM研究綜述[J].貴州大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,39(5):81-87
ZHANG Rongfen,YUAN Wenhao,LI Jingyu,et al.Review of VSLAM research with semantic information[J].Journal of Guizhou University (Natural Sciences),2022,39(5):81-87
[64] 胡凱,鄭翡,盧飛宇,等.基于深度學(xué)習(xí)的行為識(shí)別算法綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,13(6):730-743
HU Kai,ZHENG Fei,LU Feiyu,et al.A survey of action recognition algorithms based on deep learning[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2021,13(6):730-743
[65] 楊弋鋆,邵文澤,王力謙,等.面向智能駕駛視覺(jué)感知的對(duì)抗樣本攻擊與防御方法綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,11(6):651-659
YANG Yijun,SHAO Wenze,WANG Liqian,et al.A survey of adversarial attacks and defenses on visual perception in automatic driving[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2019,11(6):651-659
[66] 唐燦,唐亮貴,劉波.圖像特征檢測(cè)與匹配方法研究綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,12(3):261-273
TANG Can,TANG Lianggui,LIU Bo.A survey of image feature detection and matching methods[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2020,12(3):261-273
[67] 張彥雯,胡凱,王鵬盛.三維重建算法研究綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,12(5):591-602
ZHANG Yanwen,HU Kai,WANG Pengsheng.Review of 3D reconstruction algorithms[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2020,12(5):591-602
[68] 王李祺,張成,侯宇超,等.基于深度學(xué)習(xí)特征融合的遙感圖像場(chǎng)景分類(lèi)應(yīng)用[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,15(3):346-356
WANG Liqi,ZHANG Cheng,HOU Yuchao,et al.Remote sensing image scene classification application based on deep learning feature fusion [J].Journal of Nanjing University of Information Science and Technology (Natural Science Edition),2023,15(3):346-356
[69] McCormac J,Handa A,Davison A,et al.SemanticFusion:dense 3D semantic mapping with convolutional neural networks[C]//2017 IEEE International Conference on Robotics and Automation (ICRA).May 29-June 3,2017,Singapore.IEEE,2017:4628-4635
[70] Tateno K,Tombari F,Laina I,et al.CNN-SLAM:real-time dense monocular SLAM with learned depth prediction[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:6565-6574
[71] He K M,Gkioxari G,Dollár P,et al.Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2980-2988
[72] Wang C J,Zhang Y D,Li X.PMDS-SLAM:probability mesh enhanced semantic SLAM in dynamic environments[C]//2020 5th International Conference on Control,Robotics and Cybernetics (CRC).October 16-18,2020,Wuhan,China.IEEE,2020:40-44
[73] Zhao X,Zuo T,Hu X Y.OFM-SLAM:a visual semantic SLAM for dynamic indoor environments[J].Mathematical Problems in Engineering,2021,2021:1-16
[74] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149
[75] Li G S,Chou W S,Yin F.Multi-robot coordinated exploration of indoor environments using semantic information[J].Science China Information Sciences,2018,61(7):79201
[76] Deng W B,Huang K H,Chen X,et al.Semantic RGB-D SLAM for rescue robot navigation[J].IEEE Access,2020,8:221320-221329
[77] Yue Y F,Zhao C Y,Wu Z Y,et al.Collaborative semantic understanding and mapping framework for autonomous systems[J].IEEE/ASME Transactions on Mechatronics,2021,26(2):978-989
[78] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2014,Columbus,OH,USA.IEEE,2014:580-587
[79] Girshick R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV).December 7-13,2015,Santiago,Chile.IEEE,2016:1440-1448
[80] Yang S Q,F(xiàn)an G H,Bai L L,et al.SGC-VSLAM:a semantic and geometric constraints VSLAM for dynamic indoor environments[J].Sensors,2020,20(8):2432
[81] Wu W X,Guo L,Gao H L,et al.YOLO-SLAM:a semantic SLAM system towards dynamic environment with geometric constraint[J].Neural Computing and Applications,2022,34(8):6011-6026
[82] Gers F A,Schmidhuber J,Cummins F.Learning to forget:continual prediction with LSTM[J].Neural Computation,2000,12(10):2451-2471
[83] Syed M A B,Ahmed I.Multi model LSTM architecture for track association based on automatic identification system data[J].arXiv e-Print,2023,arXiv:2304.01491
[84] Chancán M,Milford M.DeepSeqSLAM:a trainable CNN+RNN for joint global description and sequence-based place recognition[J].arXiv e-Print,2020,arXiv:2011.08518
[85] Qi M S,Qin J,Li A N,et al.StagNet:an attentive semantic RNN for group activity recognition[C]//Proceedings of the European Conference on Computer Vision (ECCV).September 8-14,2018,Munich,Germany.ECVA,2018:101-117
[86] Goodfellow I,Pouget-Abadie J,Mirza M,et al.Generative adversarial networks[J].Communications of the ACM,2020,63(11):139-144
[87] Wang T C,Liu M Y,Zhu J Y,et al.High-resolution image synthesis and semantic manipulation with conditional GANs[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:8798-8807
[88] 劉航,李明,李莉,等.基于生成對(duì)抗網(wǎng)絡(luò)的圖像風(fēng)格遷移[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,15(5):514-523
LIU Hang,LI Ming,LI Li,et al.Image style transfer based on generative adversarial network [J].Journal of Nanjing University of Information Science and Technology (Natural Science Edition),2023,15(5):514-523
[89] 陳培培,邵曦.基于生成對(duì)抗網(wǎng)絡(luò)的音樂(lè)標(biāo)簽自動(dòng)標(biāo)注[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,10(6):754-759
CHEN Peipei,SHAO Xi.Music auto-tagging based on generative adversarial networks[J].Journal of Nanjing University of Information Science amp; Technology (Natural Science Edition),2018,10(6):754-759
[90] Almalioglu Y,Saputra M R U,de Gusmo P P B,et al.GANVO:unsupervised deep monocular visual odometry and depth estimation with generative adversarial networks[C]//2019 International Conference on Robotics and Automation (ICRA).May 20-24,2019,Montreal,QC,Canada.IEEE,2019:5474-5480
[91] Almalioglu Y,Turan M,Saputra M R U,et al.SelfVIO:self-supervised deep monocular visual-inertial odometry and depth estimation[J].Neural Networks,2022,150:119-136
[92] 華春生,郭偉豪.動(dòng)態(tài)環(huán)境下的語(yǔ)義視覺(jué)SLAM算法研究[J].遼寧大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,49(4):289-297
HUA Chunsheng,GUO Weihao.Research on semantic vision SLAM algorithms in dynamic environment[J].Journal of Liaoning University (Natural Science Edition),2022,49(4):289-297
[93] Rosinol A,Abate M,Chang Y,et al.Kimera:an open-source library for real-time metric-semantic localization and mapping[C]//2020 IEEE International Conference on Robotics and Automation (ICRA).May 31-August 31,2020,Paris,F(xiàn)rance.IEEE,2020:1689-1696
[94] Rosinol A,Violette A,Abate M,et al.Kimera:from SLAM to spatial perception with 3D dynamic scene graphs[J].The International Journal of Robotics Research,2021,40(12/13/14):1510-1546
[95] Chang Y,Tian Y L,How J P,et al.Kimera-multi:a system for distributed multi-robot metric-semantic simultaneous localization and mapping[C]//2021 IEEE International Conference on Robotics and Automation (ICRA).May 30-June 5,2021,Xi’an,China.IEEE,2021:11210-11218
[96] Tian Y L,Chang Y,Arias F H,et al.Kimera-multi:robust,distributed,dense metric-semantic SLAM for multi-robot systems[J].IEEE Transactions on Robotics,2022,38(4):2022-2038
[97] Zobeidi E,Koppel A,Atanasov N.Dense incremental metric-semantic mapping for multiagent systems via sparse Gaussian process regression[J].IEEE Transactions on Robotics,2022,38(5):3133-3153
[98] Ma J W,Leite F.Performance boosting of conventional deep learning-based semantic segmentation leveraging unsupervised clustering[J].Automation in Construction,2022,136:104167
[99] Wu Z R,Xiong Y J,Yu S X,et al.Unsupervised feature learning via non-parametric instance discrimination[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:3733-3742
[100] Gansbeke W V,Vandenhende S,Georgoulis S,et al.Unsupervised semantic segmentation by contrasting object mask proposals[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).October 10-17,2021,Montreal,QC,Canada.IEEE,2022:10032-10042
[101] Gao S H,Li Z Y,Yang M H,et al.Large-scale unsupervised semantic segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(6):7457-7476
[102] Jamieson S,F(xiàn)athian K,Khosoussi K,et al.Multi-robot distributed semantic mapping in unfamiliar environments through online matching of learned representations[C]//2021 IEEE International Conference on Robotics and Automation (ICRA).May 30 -June 5,2021,Xi’an,China.IEEE,2021:8587-8593
[103] Fralick S.Learning to recognize patterns without a teacher[J].IEEE Transactions on Information Theory,1967,13(1):57-64
[104] Zhou Z H.A brief introduction to weakly supervised learning[J].National Science Review,2018,5(1):44-53
[105] Berthelot D,Carlini N,Goodfellow I,et al.MixMatch:a holistic approach to semi-supervised learning[J].arXiv e-Print,2019,arXiv:1905.02249
[106] Lei X D,Guan H Y,Ma L F,et al.WSPointNet:a multi-branch weakly supervised learning network for semantic segmentation of large-scale mobile laser scanning point clouds[J].International Journal of Applied Earth Observation and Geoinformation,2022,115:103129
[107] Badea M,F(xiàn)lorea C,Racovi瘙塅eanu A,et al.Timid semi-supervised learning for face expression analysis[J].Pattern Recognition,2023,138:109417
[108] Kirillov A,Mintun E,Ravi N,et al.Segment anything[J].arXiv e-Print,2023,arXiv:2304.02643
[109] Yue M,F(xiàn)u G Y,Wu M,et al.Semi-supervised monocular depth estimation based on semantic supervision[J].Journal of Intelligent amp; Robotic Systems,2020,100(2):455-463
[110] Rosu R A,Quenzel J,Behnke S.Semi-supervised semantic mapping through label propagation with semantic texture meshes[J].International Journal of Computer Vision,2020,128(5):1220-1238
[111] Majcherczyk N,Nallathambi D J,Antonelli T,et al.Distributed data storage and fusion for collective perception in resource-limited mobile robot swarms[J].IEEE Robotics and Automation Letters,2021,6(3):5549-5556
[112] Cramariuc A,Bernreiter L,Tschopp F,et al.Maplab2.0:a modular and multi-modal mapping framework[J].IEEE Robotics and Automation Letters,2023,8(2):520-527
A review on multi-robot collaborative VSLAM
Abstract To address the large-scale environmental mapping,lightweight robot swarms are employed to perceive the environment and multi-robot collaborative SLAM (Simultaneous Localization and Mapping) scheme has been developed to solve the problems of high individual cost,global error accumulation,excessive concentration of calculation and risk perplexed single robot SLAM schemes,which has strong robustness and stability.Here,we review the history of multi-robot collaborative SLAM,and introduce its fusion method and architecture.The current collaborative SLAM approaches are sorted out from the viewpoint of machine learning classification.The future development trends of multi-robot SLAM in directions of deep learning,semantic maps,and multi-robot VSLAM are projected.
Key words simultaneous localization and mapping (SLAM);visual SLAM (VSLAM);multi-robot SLAM;mobile robot;multi-source data fusion;semantic