999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

單級特征圖融合坐標注意力的視覺位置識別方法*

2023-03-25 02:07:40劉子健張軍劉元盛路銘宋慶鵬
汽車技術(shù) 2023年3期
關(guān)鍵詞:特征方法

劉子健 張軍 劉元盛 路銘 宋慶鵬

(北京聯(lián)合大學,北京市信息服務工程重點實驗室,北京 100101)

主題詞:自動駕駛 視覺位置識別 回環(huán)檢測 坐標注意力 局部聚合向量網(wǎng)絡 三元組損失

1 前言

自動駕駛汽車基于同步定位與建圖(Simultaneous Localization and Mapping,SLAM)[1]構(gòu)建自主導航系統(tǒng)。在長期運行中,定位系統(tǒng)會產(chǎn)生累積誤差,導致定位失效。實踐中,自動駕駛汽車先存儲已訪問過場景的表征向量,再在汽車運動時匹配當前環(huán)境的表征向量解決定位問題,即回環(huán)檢測與重定位。隨著自動駕駛汽車的發(fā)展,以視覺位置識別(Visual Place Recognition,VPR)[2]技術(shù)為代表的回環(huán)檢測與重定位方法受到關(guān)注。VPR 以環(huán)境中的視覺特征為基礎(chǔ),計算形成環(huán)境表征向量[3]。目前應用于VPR技術(shù)的視覺特征主要分為基于規(guī)則設計的手工特征和基于數(shù)據(jù)驅(qū)動的學習特征。

基于規(guī)則設計的角點和描述子組合的ORB(Oriented FAST and Rotated BRIEF)[4]局部特征具有尺度和旋轉(zhuǎn)不變性,對圖像噪聲及透視變換具有魯棒性。因此,ORB特征能準確地描述和檢索穩(wěn)定不變的環(huán)境信息。但此類方法可能受到視角轉(zhuǎn)換、光照和季節(jié)變換等因素影響,產(chǎn)生當前觀測的環(huán)境信息與數(shù)據(jù)庫中已知的環(huán)境信息存在較大差異的現(xiàn)象,最終導致位置識別結(jié)果的準確率降低等問題。

基于數(shù)據(jù)驅(qū)動的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)[5]具有強大的圖像表示能力。為在現(xiàn)有VPR方法的識別精度下提高定位系統(tǒng)的魯棒性和實時性,本文針對環(huán)境中的視覺特征空間關(guān)系學習和高層特征學習兩方面進行改進:在骨干網(wǎng)絡中融合坐標注意力,獲得視覺特征的空間位置關(guān)系和顯著的空間位置信息;利用多重擴張卷積和局部聚合向量網(wǎng)絡,構(gòu)造多尺度特征融合的特征編碼器,獲得單級特征圖在不同尺度下的視覺特征向量。最后,將該方法在公開數(shù)據(jù)集上進行驗證。

2 本文方法

本文基于殘差網(wǎng)絡(Residual Networks,ResNet)[6]提出一種弱監(jiān)督訓練的VPR 方法,實現(xiàn)高效的視覺位置識別:輸入圖像集或圖像序列,通過本文搭建的神經(jīng)網(wǎng)絡得到特征匹配結(jié)果,最終輸出檢索結(jié)果。系統(tǒng)流程如圖1所示。

圖1 系統(tǒng)流程

2.1 特征提取

2.1.1 殘差網(wǎng)絡

深層CNN 存在參數(shù)爆炸、梯度消失等問題。ResNet 通過短路連接解決深層網(wǎng)絡梯度消失帶來的學習退化問題。當理論殘差為零時,殘差結(jié)構(gòu)只做恒等映射以確保實際殘差不會為零,同時保持當前網(wǎng)絡性能,結(jié)構(gòu)如圖2所示。

圖2 殘差結(jié)構(gòu)

本文采用ResNet-50 作為提取圖像特征的骨干網(wǎng)絡。自動駕駛汽車采集的視覺信息在ResNet中經(jīng)過卷積(Convolutional,Conv)層、批歸一化(Batch Normalization,BN)層、激活函數(shù)和池化層完成預處理,隨后再經(jīng)過4組瓶頸(Bottleneck)層提取特征信息。

2.1.2 坐標注意力網(wǎng)絡

坐標注意力(Coordinate Attention,CA)[7]網(wǎng)絡將輸入的二維全局池化轉(zhuǎn)化為單個特征向量的過程,分解為水平方向和垂直方向一維特征編碼過程,將聚合的方向信息嵌入特征圖中。通過級聯(lián)捕獲的2 個空間方向的依賴關(guān)系和位置信息,經(jīng)BN 層和非線性變換生成空間信息的特征圖。沿著水平和垂直方向切分特征圖得到注意力權(quán)重,使網(wǎng)絡捕獲到特征的位置關(guān)系。網(wǎng)絡結(jié)構(gòu)如圖3所示。

圖3 坐標注意力網(wǎng)絡結(jié)構(gòu)

2.1.3 融合CA的ResNet特征提取網(wǎng)絡

視覺特征的相對位置關(guān)系對于位置識別結(jié)果至關(guān)重要。為了在開放環(huán)境中保持定位系統(tǒng)的魯棒性,需要網(wǎng)絡模型具備篩選重要的環(huán)境特征和獲取視覺特征坐標的能力。為彌補ResNet 對圖像特征的空間關(guān)系不敏感的缺陷,本文在其殘差結(jié)構(gòu)中引入CA,構(gòu)建新的特征提取網(wǎng)絡。通過捕獲環(huán)境特征的空間位置關(guān)系,獲得特征間的依賴關(guān)系和精確的位置信息。

CNN 的淺層輸出邊緣和色彩等具體的圖像特征,隨著網(wǎng)絡層數(shù)的加深,輸出的特征圖尺寸逐漸減小,視覺信息逐漸抽象和語義化。ResNet 的Conv5 特征圖包含對圖像變化足夠魯棒的視覺特征,同時具有豐富的語義信息。因此,本文在Conv5的短路連接和瓶頸層之間引入CA,將生成的特征圖編碼為一組方向感知和位置敏感的注意力熱圖,促使網(wǎng)絡學習到特征間隱含的空間結(jié)構(gòu)關(guān)系,幫助模型準確定位感興趣的目標,增強特征圖表達能力。改進后的網(wǎng)絡利用CNN提取圖像的局部信息,發(fā)揮了CA對全局信息建模的能力,有效提高視覺特征的表達能力。改進后的網(wǎng)絡結(jié)構(gòu)如圖4所示。

圖4 改進的坐標-殘差結(jié)構(gòu)

2.2 特征編碼

對環(huán)境的局部視覺特征進行建模,不足以區(qū)分局部特征相似的場景,需要聯(lián)系上下文信息和環(huán)境的整體信息對場景進行同一性判斷。特征金字塔(Feature Pyramid Network,F(xiàn)PN)是獲取多尺度特征的經(jīng)典網(wǎng)絡,但車載設備的算力普遍較低,導致基于FPN 的VPR 方法移植到車載設備存在實時性差的問題。擴張卷積(Dilated Convolution,DC)[8]具有僅增加1 個參數(shù)即可獲取更廣視野范圍特征圖的特點。因此,本文基于DC 和局部聚合向量網(wǎng)絡(Vector of Locally Aggregated Descriptors Network,NetVLAD)構(gòu)造圖像編碼器,利用DC-NetVLAD 對Conv5 卷積層輸出的單級特征圖進行視野擴張,然后對不同視野下的圖像特征進行聚合得到圖像的描述向量,在不失精度的前提下節(jié)約計算成本,提高系統(tǒng)的實時性。

2.2.1 局部聚合向量網(wǎng)絡

基于局部特征解決VPR 問題,需要對特征矩陣進行聚類處理以壓縮數(shù)據(jù)維度。相比視覺詞袋(Bag of Word,BoW)編碼,局部聚合描述符向量(Vector of Locally Aggregated Descriptors,VLAD)不僅保存每個特征點到離它最近的聚類中心的距離,還記錄了特征點在不同維度的取值,避免了信息損失問題。VLAD 的計算公式為:

式中,Xi為輸入的數(shù)量為N的局部特征向量;V(J,K)為輸出的聚類后的特征向量;K為聚類中心的數(shù)量;J為第k個特征向量的維度;xi(j)為第i個局部特征的第j個特征值;ck(j)為第k個聚類中心的第j個特征值;ak(Xi)為二值的符號函數(shù),對每個屬于聚類中心ck的特征向量xi,ak的值取為1,否則為0。

原始的VLAD為不可導函數(shù),為得到端到端的特征聚類結(jié)果,Arandjelovic等[9]在VLAD算法的基礎(chǔ)上,用歸一化指數(shù)函數(shù)(Softmax)代替原始方法中的最近鄰二值函數(shù)ak,提出NetVLAD 算法。NetVLAD 設定的聚類的數(shù)量為K,計算局部特征在這些聚類的差值分布得到全局特征,使VLAD算法中需要手工聚類獲得的參數(shù)改為通過網(wǎng)絡訓練獲取。系數(shù)(Xi)的計算公式為:

2.2.2 基于DC和NetVLAD構(gòu)造特征編碼器

首先去掉ResNet-50 網(wǎng)絡最后的全局平均池化和全連接層,利用1×1卷積對殘差網(wǎng)絡輸出的特征圖進行通道壓縮減少計算量,然后經(jīng)過3個并聯(lián)的具有不同擴張率參數(shù)的擴張卷積,得到不同視野下的圖像特征。為避免擴張卷積中心點不連續(xù),本文的擴張率參數(shù)分別設定為6、12和18。在NetVLAD中,經(jīng)過激活函數(shù)Softmax和局部聚合層的池化獲得VLAD特征,通過類內(nèi)正則化對每個聚類中心的所有殘差分別進行正則化,最后將所有VLAD 特征共同進行歐式范數(shù)正則化得到圖像全局表示的特征向量。改進后的DC-NetVLAD 編碼器結(jié)構(gòu)如圖5所示。

圖5 本文改進的擴張卷積-局部聚合向量網(wǎng)絡編碼器

2.3 基于三元組損失訓練網(wǎng)絡

NetVLAD 算法首先將圖像的局部特征聚類壓縮,得到以聚類中心表示的全局特征圖,然后將待查詢圖像的特征向量與數(shù)據(jù)庫中的圖像向量進行相似度計算,以余弦相似度為度量,距離越小的圖像之間越相似。余弦距離的計算公式為:

式中,G、H分別為輸入的2個特征向量;n為向量維度;gi、hi分別為G、H第i個維度的特征值。

針對環(huán)境中普遍存在著視覺特征相似場景的情況,本文使用三元組損失(Triplet Loss,TL)[10]訓練網(wǎng)絡來提高系統(tǒng)的查準能力。TL的輸入是一組編碼后的圖像特征,包括正例、負例和基準圖像。基于TL訓練的網(wǎng)絡能夠優(yōu)化圖像與特征向量之間的映射關(guān)系,在新的特征空間中使負例到基準圖像的距離盡可能大于正例到基準圖像的距離,從而提升網(wǎng)絡識別正例的能力,效果如圖6所示。

圖6 三元組損失

根據(jù)模型訓練的需要設定邊緣閾值β控制正、負樣本的距離。TL目標函數(shù)的表達式為:

超參數(shù)β控制損失函數(shù)的結(jié)果:L>0 時取該值作為損失;L<0 時,表示負例與基準樣本的距離大于正例與基準樣本的距離,因此損失函數(shù)的結(jié)果記為0。

3 試驗設置與結(jié)果分析

3.1 試驗環(huán)境和數(shù)據(jù)集說明

本文的試驗環(huán)境為Ubuntu 18.04 LTS 操作系統(tǒng),硬件平臺采用11代英特爾i7處理器、32 GB內(nèi)存和英偉達RTX 2080Ti顯卡。

采用Pitts30k 和Nordland[11]2 個公開數(shù)據(jù)集進行測試。Pitts30k 是谷歌公司制作的城市街景數(shù)據(jù)集,該數(shù)據(jù)集基于地理位置進行劃分,包括訓練、驗證和測試部分,分別含有約7 000 張查詢圖像和10 000 張參考圖像。Nordland 數(shù)據(jù)集采集自挪威北部地區(qū),包含4個幀率為25 幀/s 的視頻影像,展示長約728 km 的環(huán)路場景在四季變化下不同的視覺外觀。

3.2 試驗設計與評價指標

針對Nordland數(shù)據(jù)集,通過插值GPS數(shù)據(jù)實現(xiàn)時間同步,保證每個視頻中任意幀的車輛位置都能夠?qū)狡渌?個視頻中的同一幀。

以Pitts30k的訓練集作為訓練樣本,設定10 m以內(nèi)的圖像為正例,25 m 以外的圖像為負例。訓練模型的輸入圖像組包括基準圖像、1個正例和10個負例。

本文以召回率-查準率作為評價指標,與典型的VPR方法進行比較,包括手工聚類特征的算法DBoW2、本文工作的基線方法NetVLAD和同基線方法的先進成果Patch-NetVLAD[12]。具體規(guī)則如下:

a.基于Pitts30k 數(shù)據(jù)集的驗證,規(guī)定如果召回的前Q張圖像中,至少存在1張圖像距離用于測試的基準圖像在地理范圍的10 m內(nèi),則認為圖像已被正確檢索。

b.基于Nordland數(shù)據(jù)集的驗證,規(guī)定如果召回的前Q張圖像中,至少存在1張圖像距離用于測試的基準圖像在10幀內(nèi),則認為圖像已被正確檢索。

c.試驗的評價指標為召回率(Recall)和查準率(Precision):

式中,R為召回率;P為查準率;TP為真正例數(shù)量;FP為假正例數(shù)量;FN為假負例數(shù)量。

3.3 試驗結(jié)果與討論

3.3.1 特征降維試驗

首先對本文方法在位置識別任務中的召回率進行測試,Q的不同取值條件下試驗結(jié)果如表1所示。

表1 本文方法的召回率

相比原始特征向量,經(jīng)過主成分分析(Principal Components Analysis,PCA)降維的特征向量在位置識別任務中的召回率表現(xiàn)更好。在Nordland 數(shù)據(jù)集上的平均召回率提高4.05 百分點,在Pitts30k 數(shù)據(jù)集上的平均召回率提高3.28 百分點。提高平均召回率的主要原因是降維后的圖像特征忽略了沒有辨識度的特征區(qū)域,突出了圖像中具有區(qū)分度的部分,產(chǎn)生更好的召回結(jié)果。

3.3.2 位置識別試驗

為驗證本文改進方法的有效性,將本文方法與近年來具有代表性的VPR 方法和同基線的方法進行對比。對不同方法得到的特征向量均降維到512維,使用召回率-查準率評價指標進行分析。本文方法和對比方法在Pitts30k數(shù)據(jù)集和Nordland數(shù)據(jù)集上的試驗結(jié)果如圖7所示。

圖7 不同方法在2種數(shù)據(jù)集上位置識別任務中的召回率-查準率曲線

在側(cè)重視角變化的Pitts30k 數(shù)據(jù)集上,NetVLAD 算法在召回率為30%時開始出現(xiàn)精度下降,DBoW2 和Patch-NetVLAD 算法在召回率為40%時開始出現(xiàn)精度的快速下降,本文方法在召回率為50%時才出現(xiàn)明顯的精度下降。與DBoW2 和NetVLAD 算法相比,本文方法更快地檢索到了所有正例圖像;僅在召回率達到80%后,本文方法的召回精度與Patch-NetVLAD算法相比略有不足。

在具有季節(jié)變化和光照變化的Nordland數(shù)據(jù)集上,本文方法始終優(yōu)于DBoW2 和NetVLAD 算法,與先進的Patch-NetVLAD 算法相比,在召回率達到70%前,本文方法也保持著更好的召回精度。

可以看出,相比DBoW2 和NetVLAD 算法,本文方法在試驗中始終保持著更好的召回精度。這是由于融合的坐標注意力能夠記錄明顯的空間特征位置關(guān)系,在視角變化的情況下,特征間的相對位置關(guān)系保持穩(wěn)定,而不同視野特征圖的組合編碼能夠覆蓋不同視距下的觀測結(jié)果。同時也可以觀察到,本文方法在高召回率的場景中召回精度相比同基線的Patch-NetVLAD 算法略低。這是由于Patch-NetVLAD 算法采用基于區(qū)塊尺度的圖像特征和基于一致性評分的重新排序策略實現(xiàn)了召回精度的提升。相應地,此策略降低了Patch-NetVLAD 算法的檢索速度,因此本文方法的檢索速度與Patch-NetVLAD算法相比有19%的提升。視覺SLAM的實際測試中,常常需要快速實現(xiàn)場景重識別和回環(huán)檢測,很少產(chǎn)生需要全部召回的現(xiàn)象,因此本文方法的實用性更強。

經(jīng)上述試驗驗證,本文方法在召回率-查準率的評價體系下明顯優(yōu)于DBoW2 和NetVLAD 算法,與先進的Patch-NetVLAD相比,本文方法犧牲較少的召回精度獲得了檢索速度的大幅提升,證明本文改進方法的有效性。

3.3.3 回環(huán)檢測試驗

回環(huán)檢測是視覺定位中校正全局地圖累積誤差的重要手段。為驗證本文方法在回環(huán)檢測任務中的表現(xiàn),設計一組基于旋風智能車[13]試驗平臺的應用測試。試驗平臺如圖8 所示,其處理器為Jetson TX2,包含6 核CPU、256核帕斯卡(Pascal)架構(gòu)GPU和8 GB內(nèi)存。

圖8 旋風智能車試驗平臺

利用ORB-SLAM2[14]算法在Nordland數(shù)據(jù)集的原始影像上提取用于建立回環(huán)地圖的關(guān)鍵幀序列,以關(guān)鍵幀序列為數(shù)據(jù)集進行回環(huán)測試。將本文方法與DBoW2、NetVLAD 和Patch-NetVLAD 算法在回環(huán)檢測任務中的表現(xiàn)進行對比,試驗結(jié)果如圖9所示。

圖9 季節(jié)變化下的回環(huán)檢測

由圖9 可以看出,Nordland 數(shù)據(jù)集夏季序列和冬季序列之間存在較大的外觀差異。相比DBoW2 和NetVLAD算法,本文方法和Patch-NetVLAD算法用于回環(huán)檢測任務的結(jié)果更接近真實的回環(huán)位置,進一步說明本文改進方法的魯棒性。統(tǒng)計幾種方法在回環(huán)檢測任務中平均閉環(huán)準確率和檢測時間,結(jié)果如表2所示。

表2 對比方法在回環(huán)檢測任務中的性能

由表2可知:相比DBoW2和NetVLAD算法,本文方法在回環(huán)檢測任務中的平均閉環(huán)準確率有所提高;與Patch-NetVLAD 相比,本文方法的平均閉環(huán)準確率略低,但是在時間性能上具有明顯優(yōu)勢。

3.4 消融試驗

為探究本文所提出的改進點對試驗結(jié)果的影響,在Pitts30k數(shù)據(jù)集上通過消融試驗對兩方面的改進進行驗證,如表3所示。

表3 消融試驗結(jié)果

相比基線方法,本文改進方法獲得了更好的平均精度,檢索時間僅延長6.8 ms。其中,融合CA對網(wǎng)絡的精度提升3.87百分點,使用DC-NetVLAD編碼器對網(wǎng)絡的精度提升3.34百分點。通過融合CA使特征間的位置關(guān)系得到利用,利用并聯(lián)的DC-NetVLAD編碼器發(fā)揮不同視野下特征圖信息的互補性。最終的試驗結(jié)果表明,同時采用2個模塊對網(wǎng)絡進行改進,平均精度提升6.04百分點,進一步提升了網(wǎng)絡的位置識別能力,證明本文的2個改進點具有一定的互補性。

4 結(jié)束語

針對開放場景中的自動駕駛汽車的視覺定位和位置識別問題,本文在現(xiàn)有方法的基礎(chǔ)上提出兩點改進:基于殘差網(wǎng)絡融合坐標注意力提取圖像特征,提高原始網(wǎng)絡對圖像特征位置關(guān)系的捕獲能力;通過多重擴張卷積和NetVLAD 實現(xiàn)輕量的多尺度特征融合,編碼圖像的表征向量。試驗結(jié)果表明:在季節(jié)、光照和視角等變化導致環(huán)境外觀發(fā)生改變的場景中,本文提出的方法取得了96.22%的召回精度,單幀檢索時間僅需37.5 ms,與同基線方法相比,顯著提高了檢索速度和召回精度。

針對視覺傳感器捕獲的信息模態(tài)較為單一,在視覺受限的場景容易產(chǎn)生系統(tǒng)失效的問題,后續(xù)將開展多源傳感器融合定位的研究以及通過云端計算的方式緩解邊緣設備的算力問題等相關(guān)工作,實現(xiàn)自動駕駛車輛的高精度定位。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲欧美成人在线视频| 亚洲女人在线| 国产高清无码第一十页在线观看| 久久无码av一区二区三区| 免费AV在线播放观看18禁强制| 欧美视频在线第一页| 国产成人精品一区二区三区| 亚洲天堂首页| 亚洲成人在线网| 国产综合欧美| 亚洲天堂伊人| 国产精品手机在线播放| 热伊人99re久久精品最新地| 日日碰狠狠添天天爽| 亚洲av色吊丝无码| 国产熟女一级毛片| 国产美女无遮挡免费视频网站 | 欧美激情第一欧美在线| 四虎永久免费地址| 亚洲精品制服丝袜二区| 国产精品成人AⅤ在线一二三四| 色窝窝免费一区二区三区| 97超爽成人免费视频在线播放| 国内精品视频在线| 找国产毛片看| 亚洲乱强伦| 久久久久国产一级毛片高清板| 国产三区二区| 国产男女免费视频| 欧美精品影院| 国产精品丝袜在线| 亚洲综合精品香蕉久久网| 国产精品亚洲一区二区三区z| 91精品视频在线播放| 国产日韩AV高潮在线| 日韩麻豆小视频| 日韩一区二区在线电影| 欧美亚洲香蕉| 天天综合网亚洲网站| 久热99这里只有精品视频6| 国产精品美女免费视频大全| 青青草综合网| 欧美综合成人| 中文字幕66页| 欧美日韩导航| 综合色区亚洲熟妇在线| 亚洲欧美一区二区三区蜜芽| 91精品国产91久无码网站| 91久久国产热精品免费| 日韩欧美一区在线观看| 久久婷婷人人澡人人爱91| 一级福利视频| 亚洲人妖在线| 日韩在线中文| 国产99视频在线| 精品少妇人妻一区二区| 97亚洲色综久久精品| 欧美国产视频| 国产农村妇女精品一二区| 欧美日韩一区二区在线免费观看| 激情综合网址| 国产精品第三页在线看| 中文字幕欧美日韩| 日韩第九页| 亚洲无码在线午夜电影| 波多野结衣视频一区二区| 成人毛片免费在线观看| 在线播放真实国产乱子伦| 亚洲国产日韩在线观看| 国产三区二区| 国产18页| 无码AV高清毛片中国一级毛片| 99激情网| 久久毛片免费基地| 伊人五月丁香综合AⅤ| 久久特级毛片| 97影院午夜在线观看视频| 国产精品制服| 中文字幕欧美日韩高清| 国产高清免费午夜在线视频| 99偷拍视频精品一区二区| 黄色成年视频|