999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

地面無人平臺視覺導航定位技術研究

2019-07-11 04:59:44付夢印宋文杰王美玲
導航定位與授時 2019年4期
關鍵詞:語義信息方法

付夢印,宋文杰,楊 毅,王美玲

(1.北京理工大學,北京 100081; 2.南京理工大學,南京 210094)

0 引言

地面無人平臺(Unmanned Ground Vehicle, UGV)是一個集環境感知、規劃決策、多等級輔助駕駛等功能于一體的綜合系統,其具備的自動駕駛功能能夠實現車輛在結構化道路、非結構化道路、非道路區域下連續、實時地自動駕駛。自20世紀80年代開始,以美國國防部高級研究規劃局舉辦的地面無人系統挑戰賽為標志,地面無人平臺相關技術取得了較大的研究進展[1-3]。而我國近些年來連續舉辦的多屆中國智能車未來挑戰賽和跨越險阻陸上無人系統挑戰賽也極大地推動了國內地面無人平臺技術的發展[4-5]。雖然相關技術經過了近10年的高速發展,但在復雜的交通場景下實現完全的自動駕駛仍面臨著多項重大挑戰。其一,復雜多變的動態隨機場景要求地面無人平臺具有更高水平的自主學習能力;其二,多種類、長時間、高標準的任務需求要求地面無人平臺能夠更加準確地獲得復雜環境中多類信息并實現自身的精確定位;其三,大范圍、高密度的使用頻率要求地面無人平臺擁有低成本、高可靠性的傳感器來輔助其實現相應功能。機器視覺作為環境感知的重要技術手段,在信息豐富度和環境適應性上具有較大優勢,是目前地面無人平臺實現自主導航與實時定位的重要研究方向。以機器視覺為基礎,加州大學伯克利分校、德國戴姆勒研發中心、芝加哥大學豐田技術研究院等頂級研究機構分別發布BAIR[6]、Cityscape[7]、KITTI[8]等數據集,是目前地面無人平臺領域權威的算法開發及性能評測工具。Andreas Geiger[9]、Hermann Winner[10]、Reinhard Klette[11]、Stefan Milz[12]等機器視覺專家根據多類數據集對地面無人平臺自主導航及定位技術的最新研究進展進行了詳細對比分析,對本領域研究工作具有一定的指導意義和參考價值。

典型的地面無人平臺視覺定位與地圖構建系統架構如圖 1所示,主要包括圖像信息預處理、視覺里程計、回環檢測、全局位姿優化和地圖構建等5個基本模塊,各模塊的實現手段則包括了多類關鍵技術。本文主要以該系統架構為基礎,針對各模塊所涉及的關鍵技術,總結了近些年來國內外主流的研究成果,對比分析了各關鍵技術中主流方法的性能,并對地面無人平臺視覺導航及定位技術的發展方向進行了展望。

圖1 視覺定位與地圖構建系統框圖Fig.1 Block diagram of vision-based positioning and mapping system

1 圖像信息預處理

地面無人平臺常用的視覺傳感器主要包括單目相機、雙目或多目相機、全景相機、深度相機等。在這些傳感器原始數據的基礎上,研究人員通常通過不同的處理方法,提取光流、深度、場景流、語義等元素信息,以輔助地面無人平臺進行自主導航與定位。

1.1 光流計算

光流(Optical Flow, OF)是在圖像坐標系下表征2幅圖像之間亮度模式二維運動的一種矢量簇,可以為場景理解、姿態估計、目標跟蹤等任務提供重要信息。該問題的研究始于幾十年前,Horn和Schunck[13]在假設一段時間內一個像素的亮度是恒定的前提下,首先利用變分公式計算獲得了光流信息。目前常見的光流場計算方法主要是在亮度恒定、小運動、空間一致等約束條件下實現的,一般分為基于梯度、基于匹配、基于能量、基于相位、基于神經動力學、基于深度神經網絡等機器學習方法六類[14]。而光流的使用形式主要有稀疏光流和稠密光流兩種,其中稀疏光流僅包含主要特征點的運動矢量信息,而稠密光流則包含了每個像素的運動矢量信息,如圖 2所示。

(a)稀疏光流

(b)稠密光流圖2 稀疏光流與稠密光流計算結果[15]Fig.2 Calculation results of sparse and dense optical flow

KITTI[7]作為目前地面無人平臺研究中最為流行的測評數據集,對目前自動駕駛功能中稠密光流的計算方法進行了定量對比和排名。本文以KITTI2015數據集提供的光流計算方法排名為準,列出了目前主流方法的性能對比情況,如表1所示。其中,各方法的表現性能主要使用車輛運動過程中背景信息平均光流離異值(Outliers)百分比(Fl-bg)、前景信息平均光流離異值百分比(Fl-fg)、全部像素平均光流離異值百分比(Fl-all)、計算時間(Runtime)和計算平臺(Environment)進行表述。

表1 目前主流的稠密光流計算方法對比

1.2 圖像深度信息估計

圖像深度信息通常可以通過兩種方式獲得:利用Kinect、Realsense等深度相機直接獲取[18-19]和通過立體匹配或其他深度估計方法獲得視差圖或深度圖[20-26],如圖 3所示。然而,深度相機由于探測距離近(3~5m)且在戶外易受干擾,并不適用于地面無人系統。因此,目前研究人員主要采用第二種方式獲得城市交通場景的實時深度信息。傳統立體匹配算法主要分為基于區域的立體匹配[20]、基于特征的立體匹配[21]和基于相位的立體匹配[22]等。其中,基于區域匹配的SGM[23]是目前應用于戶外環境中最受研究者青睞的立體匹配算法。基于該算法,越來越多更為有效的立體匹配方法也被相繼提出,例如iSGM[24]、SORT-SGM[25]、rSGM[26]等。近些年,隨著深度學習技術的廣泛應用,越來越多的研究者開始利用雙目圖像[27-28]或者甚至僅利用單目圖像[29]作為深度卷積神經網絡的輸入進行訓練,直接獲得更為精確的稠密視差圖。本文以KITTI2015數據集提供的視差圖和深度圖估計方法的排名為基礎,列出了目前主流方法的性能對比情況,如表2所示。其中,各方法的表現性能主要使用車輛運動過程中背景信息平均視差離異值(Outliers)百分比(D1-bg)、前景信息平均視差離異值百分比(Dl-fg)、全部像素平均視差離異值百分比(Dl-all)、計算時間(Runtime)和計算平臺(Environment)進行表述。

(a)視差圖估計

(b)深度圖估計圖3 圖像深度信息估計[27]Fig.3 Image depth information estimation

方法D1-bgD1-fgD1-allRuntimeEnvironmentM2S_CSPN[27]1.51%2.88%1.74%0.5sGPU@2.5GHz(C/C++)FBA-AMNet1.57%3.38%1.87%0.9sGPU@2.5GHz(C/C++)EdgeStereo-V2[28]1.91%3.16%2.12%0.32sNvidia GTX Titan XpTinyStereo1.93%3.76%2.24%0.4sGPU@2.5GHz(Python)PWCDC_ROB5.11%7.03%5.43%0.02s1core@2.5GHz(Python)

1.3 圖像場景流提取

場景流(Scene Flow,SF)是場景的密集或半密集3D運動場,用于表征場景中三維物體相對于相機的運動情況,可以用于周圍物體的運動預測,或是改進已有的視覺預測與即時定位與地圖構建(Simultaneous Localization and Mapping,SLAM)算法。雙目或多目相機立體匹配雖然可以獲得當前幀圖像的深度信息,卻無法表達任何運動信息。而單目相機通過前后幀匹配雖然可以獲得光流等運動特征,但由于缺少深度信息,仍無法較好地解析出連續圖像幀的場景流特征。在地面無人平臺自主導航過程中,實現三維世界內運動物體的分割及運動場景解析對于規劃、決策與控制等模塊均具有重要作用。場景流主要是將光流信息推廣到三維空間,或將稠密深度信息推廣到時間維度上。因此,場景流是建立在三維物理世界和時間維相結合的四維空間內。其目標是在給定連續圖像序列的基礎上,通過空間維度和時間維度的稠密匹配估計三維運動場,即場景中每個可見表面上每一點的三維運動向量,所得場景流效果圖如圖4所示[30]。基于圖像場景流估計的最小系統是由2個連續立體圖像對搭建的,如圖5所示[31]。以KITTI2015數據集提供的場景流計算方法排名為準,列出了目前主流方法的性能對比情況,如表3所示。其中,各方法的表現性能主要使用車輛運動過程中背景信息平均場景流離異值(Outliers)百分比(SF-bg)、前景信息平均場景流離異值百分比(SF-fg)、全部像素平均場景流離異值百分比(SF-all)、計算時間(Runtime)和計算平臺(Environment)進行表述。

圖4 連續立體圖像幀估計場景流[30]Fig.4 Scene flow estimation by continuous stereo images

圖5 雙目相機場景流估計最小系統[31]Fig.5 Minimal setup for image-based scene flow estimation

方法SF-bgSF-fgSF-allRuntimeEnvironmentFSF+MS [32]11.17%33.91%14.96%2.7s4cores@3.5GHz(C/C++)PRSM[30]6.61%20.79%8.97%300s1core@2.5GHzISF[17]6.58%15.63%8.08%10min1core@3GHzDSSF4.39%15.94%6.31%0.75sCPU+GPU@2.5GHzDH-SF5.35%18.70%7.58%350s1core@2.5GHz

1.4 圖像語義信息分類

圖像語義分割(Semantic Segmentation)是一類能夠獲取圖像中的每個像素所對應物體標簽的像素級分割方法的統稱。在深度學習出現以前,早期的圖像分割方法大多僅能通過像素與像素間的關系進行不包含語義信息的二分類,例如N-Cut[33]和在此基礎上發展出的包含人工干預的Grab Cut[34]等。而隨著深度學習的迅速發展,全卷積神經網絡[35]的出現為像素級圖像語義分割(Pixel-level semantic segmentation)提供了一種全新的方法:通過將卷積神經網絡(Convolutional Neural Networks,CNN)的全連接層替換為卷積層,利用反卷積方法實現了像素級的語義劃分。隨后,空洞卷積核[36]和條件隨機場[37]方法進一步解決了原網絡對細節不敏感的問題。在此基礎上,實例級的語義分割(Instance-level semantic segmentation)同樣在快速發展,其能夠在實現像素級語義劃分的基礎上,進一步分割出圖像中同一種類的不同物體,如圖6所示。以KITTI2015數據集提供的像素級語義分割與實例級語義分割方法的排名為基礎,列出了目前主流方法的性能對比情況,如表4和表5所示。其中,像素級語義分割各方法的表現性能主要使用車輛運動過程中每個類或類別重疊區域占聯合區域的百分比(IoU class/category)、根據平均實例大小獲得的每個類或類別的加權重疊區域占聯合區域的百分比(IoU class/category)、計算時間(Runtime)和計算平臺(Environment)進行表述。實例級語義分割各方法的表現性能主要使用車輛運動過程中每個類區域級別IoU的平均準確率(AP)、重疊值50%以上每個類區域級別IoU的平均準確率(AP 50%)、計算時間(Runtime)和計算平臺(Environment)進行表述。

(a) 像素級語義分割

(b) 實例級語義分割圖6 像素級與實例級語義分割結果[8]Fig.6 Semantic segmentation results of pixel-level and instance-level

表4 目前主流的像素級語義分割方法對比

表5 目前主流的實例級語義分割方法對比

2 視覺里程計

視覺里程計(Visual Odometry,VO)是指利用連續圖像計算或記錄一個或多個相機運動軌跡的一種航位推算方法。該方法主要是通過估計連續圖像幀的相機位置之間相對轉換,并隨著時間推移積累所有轉換,以恢復完整的軌跡增量,其推算方式如圖7所示。從計算方法的角度分析,視覺里程計一般可以分為特征匹配法和直接公式推導法。一般而言,特征匹配法通常適用于直線、角點等特征信息豐富的環境。相比而言,直接公式推導法利用了整個圖像的梯度信息,因此這類方法在關鍵點較少的環境中可以獲得較高的精度和魯棒性。而從傳感器類型的角度分析,一般可以分為單目視覺里程計和雙目視覺里程計兩類。

圖7 視覺里程計航位推算流程[68]Fig.7 Process flow of visual odometer

2.1 單目視覺里程計

單目視覺里程計由于缺少尺度信息,通常只能恢復一個維度上的運動信息。然后,可以通過計算場景中物體的大小、根據運動約束或與其他傳感器集成來確定絕對尺度。早期最為經典的單目相機運動估計方法是Longuet-Higgins提出的八點法[41],但該方法噪聲較大,尤其是相機矯正不準確的情況下表現較差。Mirabdollah等利用八點法研究了基本矩陣的二階統計量,使用泰勒二階展開式得到協方差矩陣以及共面性方程以減少估計誤差[42]。但由于缺乏深度信息,該方法的漂移問題仍然尤為突出。隨后,他們又提出了一種基于迭代五點法的實時、魯棒的單目視覺里程計方法[43]。利用概率三角形獲取不確定地標的位置,并對地面上具有低質量特征的運動尺度進行估計,以獲得更加準確的定位效果。基于KITTI測試集提供的單目視覺里程計方法排名為基準,本文列出了目前主流方法的性能對比情況,如表6所示。其中,Translation為各方法在三軸方向上的平均平移誤差,Rotation為各方法在三軸方向上的平均旋轉誤差。

2.2 雙目視覺里程計

相比單目視覺里程計,雙目視覺里程計對于圖像中像素的深度信息可以通過相機內外參數進行解算,因此不存在尺度估計的問題。同時,雙目視覺里程計往往可以融合自身運動估計和地圖構建來解決漂移問題。所以,目前在KITTI測試集提供的視覺里程計性能排名中,雙目視覺里程計的表現普遍是優于單目視覺里程計的。本文列出了目前主流的雙目視覺里程計方法的性能對比情況,如表7所示。其中,Engel等[47]提出了一種實時、大規模的直接雙目視覺里程計算法,該算法將多視角立體圖像與靜態立體圖像進行耦合,從而實現了靜態立體圖像下實時深度估計,避免了使用多視角立體圖像造成的尺度漂移,該算法實現效果如圖8所示。而ORB-SLAM2[48]則是從圖像中提取ORB特征,根據歷史幀進行位姿估計,然后跟蹤已經重建的局部地圖進行位姿優化。

表7 目前主流的雙目視覺里程計方法對比

圖8 LSD-SLAM雙目視覺里程計位姿 估計及半稠密地圖構建[47]Fig.8 Pose estimation and semi-dense map construction in LSD-SLAM

3 回環檢測及全局優化

由于SLAM系統的位姿誤差隨著時間推移不斷累積,產生漂移現象,因此需要通過回環檢測模塊識別出曾經到達過的場景,從而在地圖中得到一個回環路徑以便進行全局優化。

為了實現回環檢測,通常需要通過某種方式在歷史數據庫中尋找與當前采集的圖像相似的圖像,進而求取2幅圖像的相機位姿變換關系實現閉環。目前主流的回環檢測方法可以大致分為基于全局特征和基于局部特征兩種。其中,基于全局特征的回環檢測方法通過對整幅圖像或部分圖像提取特征, 較典型的全局特征是GIST特征[49]。基于局部特征的回環檢測方法則是提取圖像中的關鍵點,并提取關鍵點的局部描述子,例如SIFT[49]、SURF[50]、FAST[51]、ORB[52]等。由于圖像中的特征點數量較多,因此通常采用BoW[53]、VLAD[54]等方法對特征點進行聚類,增加存儲效率和查找效率。與局部特征相比,全局特征傾向于概括整個場景的內容,對于場景的整體光照變化較魯棒,但是對于相機視角的變化比較敏感。隨著深度學習技術的發展,基于深度學習的回環檢測方法也不斷涌現,例如Gao X等[55]利用降噪自編碼器對閉環檢測采用的特征點進行無監督學習;Arandjelovic R[56]在傳統VLAD算法的基礎上,提出了一個新的廣義VLAD層來得到特征向量,該層可以嵌入到已有的神經網絡中進行訓練,該方法對光照和視角變化有一定的魯棒性;Chen Z[57]等則在已有神經網絡上進行修改,使其輸出多尺度視角不變的特征。

4 地圖構建

地面無人平臺構建的地圖是對其運動過程中所感知環境模型的表征。在實際使用中,由于應用需求不同,構建的地圖類型也不同,主要分為度量地圖[58]、拓撲地圖[59]與語義地圖[60]三種。

度量地圖注重精確地表示地圖中環境物體的位置關系,圖9所示為二維度量地圖,其以占據柵格的形式表征,允許地面無人平臺在所處環境中精確定位。度量地圖可通過SLAM方法在線獲取[61],也可通過數據采集后離線生成地圖,再集成到地面無人平臺的系統中。例如Google的街景項目通過采集世界各地城市的全景圖像對場景進行度量地圖重構[62]。

圖9 二維度量地圖[69]Fig.9 2D metric map

相比于度量地圖的精確性,拓撲地圖則以環境區域編碼為節點,更強調地圖元素的獨立性以及元素之間的連通關系,圖10所示為具有拓撲節點和弧的2D拓撲地圖。拓撲地圖的構建方法分為在線和離線兩種途徑,Vorinoi圖法[63]是一種在線創建拓撲地圖的方法,但該方法需要很長的計算時間。雖然拓撲地圖對環境信息的表達更加緊湊,但其忽略了地圖的細節,不適用于復雜結構環境下地面無人平臺的導航[64]。

不同于度量地圖和拓撲地圖,語義地圖基于環境語義信息與度量地圖的融合,旨在賦予地面無人平臺對周圍環境的場景理解能力,可以為地面無人平臺提供特定任務所需的環境信息,如圖11所示的包含停車區域信息的語義地圖能夠輔助地面無人平臺完成自主泊車功能[65]。環境語義信息可通過概率圖模型來得到,如Vineet等使用條件隨機場(Conditional Random Fields, CRFs),提出了一種基于Hash和CRFs的大規模語義地圖創建算法[66],適用于室外大規模稠密語義地圖重建。近年來研究者們開始結合深度學習方法與SLAM技術創建面向對象的語義地圖,如Yang等利用CNN進行語義分割,構建了一種三維滑動語義占據柵格地圖[67]。

5 結論與展望

隨著計算機科學、信息科學、人工智能等技術的深入發展,地面無人平臺視覺導航定位技術得到了越來越廣泛的應用。通過構建不同類型的地圖并實現自身的實時精確定位,地面無人平臺已在邊境巡邏、軍事偵察、樓宇探測、災后救援、礦井維護、室內服務等多個重要領域產生了積極影響,能夠代替人類完成高溫、高壓、劇毒等惡劣環境下的危險工作和高密度、長周期、大流量等復雜場景下的繁瑣作業。不過,由于該技術尚處于初級階段,在實際導航定位過程中仍面臨著諸多問題。第一,車載視覺信息的應用條件往往較為苛刻,在光照變化劇烈、遮擋嚴重、高速移動等情況下,該類信息的感知魯棒性較低。因此,如何在算法設計上克服此類因素的影響,在硬件設計上研制一批靜動態成像特性好且成本低廉的視覺傳感器將是未來視覺導航定位技術的研究重點;如何將視覺感知信息與毫米波雷達、激光雷達等其他形式的車載傳感器信息進行有機融合將是地面無人平臺視覺導航定位技術得到有力補充的關鍵。第二,現有的視覺導航算法雖然可以獲得較高精度的構圖及定位效果,但其計算成本往往很高,大部分算法需要依賴高性能處理器甚至專用芯片。因此,如何在保證算法精度和穩定性的前提下,降低視覺導航的運算成本也是本領域接下來的一個重點研究方向。第三,目前大部分視覺導航技術只是關注全局靜態地圖構建與定位,對于多語義目標的動態特性考慮不足,從而導致地面無人平臺在實際導航過程中對于移動障礙物的處理能力較差。因此,如何利用視覺信息實時檢測、跟蹤移動目標,并在此基礎上對各類目標的未來運動軌跡進行精確預測將是本領域研究工作的另一個主要方向。

同時,目前主流的視覺導航算法、測評數據集和開發工具大多來自于海外院校或科研單位。近些年,我國雖然在該領域取得了較快進展,但在機理研究和平臺建設方面,與國外先進水平仍存在著較大差距。因此,我國只有加強引進國外先進科技,進一步深入與國際頂級研究機構的交流與合作,才能逐步縮小與國際先進水平的差距。

猜你喜歡
語義信息方法
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 女人一级毛片| 日本免费高清一区| YW尤物AV无码国产在线观看| 亚洲一道AV无码午夜福利| 亚洲无码不卡网| 国产剧情国内精品原创| 91原创视频在线| 看国产毛片| 欧美黄色网站在线看| 国产 日韩 欧美 第二页| 久久久久久尹人网香蕉| 欧美啪啪一区| 伊人国产无码高清视频| 97视频免费在线观看| 久久青草视频| 国产精品视频白浆免费视频| 热99re99首页精品亚洲五月天| 亚洲色婷婷一区二区| 亚洲VA中文字幕| 国产乱子伦视频三区| 日韩在线欧美在线| 99精品国产高清一区二区| 国产高潮流白浆视频| 国产精品网址在线观看你懂的| 午夜免费视频网站| 91在线丝袜| 久久黄色免费电影| 久久久久夜色精品波多野结衣| 欧美伦理一区| 亚洲国产系列| 91人妻在线视频| 麻豆国产精品视频| 波多野结衣一区二区三区AV| 日韩欧美国产区| 少妇精品网站| 亚洲最新在线| 国产激情在线视频| 99这里只有精品在线| 国产精品成人久久| 国产伦精品一区二区三区视频优播 | 亚洲综合色区在线播放2019| 首页亚洲国产丝袜长腿综合| 国产一级毛片在线| 亚洲精品欧美日本中文字幕| 色婷婷综合在线| 尤物成AV人片在线观看| 亚洲国产欧洲精品路线久久| 国产精品白浆在线播放| 亚洲人成网线在线播放va| 一区二区在线视频免费观看| 国产欧美精品专区一区二区| 精品成人一区二区| 五月婷婷伊人网| 国产草草影院18成年视频| 无码一区中文字幕| 国产亚洲精| 激情综合图区| 亚洲无线观看| 亚洲国产精品一区二区第一页免| 日韩中文欧美| 67194亚洲无码| 日a本亚洲中文在线观看| 精品久久人人爽人人玩人人妻| 国产欧美在线观看精品一区污| 熟妇无码人妻| 欧美亚洲国产精品第一页| 亚洲第一黄片大全| 福利一区三区| 91精品视频在线播放| www亚洲天堂| 日本在线国产| 亚洲免费黄色网| 另类重口100页在线播放| 欧美日韩激情| 最新亚洲av女人的天堂| 亚洲swag精品自拍一区| 亚洲专区一区二区在线观看| 欧美成人午夜视频免看| 爽爽影院十八禁在线观看| 国产一区二区三区在线精品专区| 亚洲欧美成人综合| 日本人妻丰满熟妇区|