汪梓豪,蔡英鳳,王海,陳龍,熊曉夏
(1.江蘇大學(xué)汽車工程研究院,鎮(zhèn)江212013;2.江蘇大學(xué)汽車與交通工程學(xué)院,鎮(zhèn)江212013)
智能汽車已成為全球汽車產(chǎn)業(yè)發(fā)展的戰(zhàn)略方向,也是我國汽車強國建設(shè)的歷史機遇,是新一代信息技術(shù)、高端裝備制造、新材料、新能源等戰(zhàn)略性新興產(chǎn)業(yè)的創(chuàng)新集成載體。環(huán)境感知是實現(xiàn)汽車智能化的重要基礎(chǔ),也是智能汽車實現(xiàn)高級別自動駕駛的瓶頸所在。軌跡預(yù)測是建立在目標檢測和跟蹤基礎(chǔ)上的高層行為感知技術(shù),能夠為智能汽車的決策控制提供有效信息,提高行駛軌跡規(guī)劃的安全性和合理性。特別是在十字路口、高速公路匯入匝道等復(fù)雜的交通場景下,有效的軌跡預(yù)測對于提升汽車行駛駕駛安全性具有重要作用。
目前,國內(nèi)外學(xué)者針對軌跡預(yù)測技術(shù)進行了深入的研究。其中,基于鳥瞰視角的軌跡預(yù)測技術(shù),研究的熱點和難點在于如何構(gòu)建車輛行駛過程中與周邊多交通主體之間的交互關(guān)系模型。其出發(fā)點在于駕駛員在不同交通場景下進行超車、換道和任何其他行為時,均充分考慮當(dāng)前交通場景下與其他交通主體的相對位置和速度等信息,進而對車輛實施合理的操縱行為。Deo等將LSTM編碼的車輛軌跡向量嵌入到占據(jù)柵格圖中相對應(yīng)的位置來構(gòu)建卷積社交池張量,該張量可以用來表示周圍車輛歷史軌跡在空間中與被觀測車輛的交互作用;還將車輛未來軌跡視為基于車輛機動多峰值的概率分布,并使用模型預(yù)測法預(yù)測概率分布的參數(shù)值。Messaoud等對文獻[1]中的卷積社交池進行優(yōu)化,提出了增加注意力機制的非本地-卷積社交池。Zhao等提出了多智能體張量融合模型,通過其全卷積模塊(UNet)概括了交通場景內(nèi)各車輛的LSTM編碼向量和CNN編碼的車輛場景圖,使用生成對抗網(wǎng)絡(luò)(GAN)生成出多個智能體的未來運動軌跡。Jeon等提出的軌跡預(yù)測模型將同一場景內(nèi)的所有智能體間構(gòu)成的關(guān)系網(wǎng)絡(luò)視為由非歐幾里得距離表達的圖結(jié)構(gòu),并使用圖神經(jīng)網(wǎng)絡(luò)來獲取由圖結(jié)構(gòu)中各個節(jié)點之間的交互特征。此類軌跡預(yù)測方法需要建立在目標檢測、跟蹤、定位和地圖匹配基礎(chǔ)上,完成一定范圍內(nèi)與周邊車輛相對運動關(guān)系的建模,這對自車環(huán)境感知系統(tǒng)的要求極高,并且推理速度較慢,在一定程度上制約了該類方法的實際應(yīng)用。
針對鳥瞰視角下軌跡預(yù)測方法存在的不足,本文基于低成本的智能汽車單目感知系統(tǒng),開發(fā)了自車視角下的周邊多目標軌跡預(yù)測技術(shù)。與鳥瞰視角相比,由于自車視角下車載相機捕獲到的目標邊界框的位置變化不僅來自于目標的運動,而且與自車運動密切相關(guān),如何進行目標運動與自車運動的解耦是新的問題,其核心在于單目視角下目標的深度識別和自車的位姿估計。其中,單目深度估計方法能夠提供必要的周邊目標距離信息,目前基于自監(jiān)督訓(xùn)練模型的方法在單目深度估計以及視覺里程計建模等文獻中已得到廣泛應(yīng)用。Zhou等首先提出了深度估計網(wǎng)絡(luò)和位姿估計網(wǎng)絡(luò)(6-DoF)結(jié)合的模型結(jié)構(gòu),通過圖像重構(gòu)的方法來形成自監(jiān)督訓(xùn)練。文獻[9]~文獻[12]中對該自監(jiān)督模型結(jié)構(gòu)進行了改進。Godard等通過對視頻中被遮擋的與靜止的目標和背景進行建模,并計算多個尺度重構(gòu)圖像的加權(quán)損失,提高了單目深度估計的準確性。另一方面,大部分自車視角下的軌跡預(yù)測方法都基于深度學(xué)習(xí),使用神經(jīng)網(wǎng)絡(luò)對輸入圖像與預(yù)測軌跡進行建模。Bhattacharyya等使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)進行里程計的預(yù)測(速度和轉(zhuǎn)向角),然后使用單獨的RNN進行行人軌跡預(yù)測,該方法使用當(dāng)前幀的圖像信息來預(yù)測車輛未來的運動,但該模型只預(yù)測兩個標量,沒有考慮自車視角的變化。Rasouli等在上述方法中額外添加了RNN模塊,該RNN提取行人圖像序列之間的相關(guān)性并預(yù)測行人的意圖。但這種方法的缺點是,在訓(xùn)練時每個行人都需要進行標簽的預(yù)標注,這耗費較大的時間成本。由于每一幀圖像中行人的位置框都是相對于自車坐標系而標注的,所以自車運動方向的變化導(dǎo)致該模型同樣不能通過視覺圖像信息來捕捉場景中的行人的實際運動軌跡。Yao等使用多流RNN來提取行人位置、自車運動和光流估計等特征信息。然而,該方法中建模的自車運動僅表示為2D像素空間中的旋轉(zhuǎn)和平移,這種表示方式并不嚴謹,不能完全表達出車載相機坐標系在運動中的變化。并且該模型不包含檢測到的目標的視覺特征。Yao等在后續(xù)工作中對其所提出的多流RNN模型進行了改進,包括添加了條件變分自編碼器(CVAE)來預(yù)測多模態(tài)未來軌跡。
整體來說,現(xiàn)有關(guān)于自車視角下的周邊多目標軌跡預(yù)測研究,在自車運動建模和預(yù)測精度方面存在較大不足,且對周邊多目標軌跡分析時缺乏相對于自車相機視角的轉(zhuǎn)換處理,極大影響了多目標軌跡預(yù)測的精度和可用性。為此,本文中提出一種基于單目視覺運動估計的周邊多目標軌跡預(yù)測方法。主要創(chuàng)新如下:(1)建立了一種由自車運動估計網(wǎng)絡(luò)和自車運動預(yù)測網(wǎng)絡(luò)構(gòu)成的交互計算模型,前者提供自車完整的視覺里程計,后者建立相機坐標系的變換推理模型,從而完成目標運動與自車運動的解耦,實現(xiàn)自車運動狀態(tài)的有效預(yù)測;(2)基于位姿變換矩陣,利用原視角下目標預(yù)測位置與當(dāng)前時刻目標真實位置的變化關(guān)系,完成目標歷史邊界框序列在當(dāng)前時刻自車相機視角下的歸一化處理;(3)針對圖像信息和目標軌跡序列,提出了LSTM和ConvLSTM聯(lián)合編碼的自車視角多目標軌跡預(yù)測網(wǎng)絡(luò)模型,同時采用了多階段的模型訓(xùn)練方法,提升了運動估計和軌跡預(yù)測的效果。
本文所提低成本軌跡預(yù)測方法不依賴場景高精度地圖和定位信息,廣泛適用于各類結(jié)構(gòu)化和非結(jié)構(gòu)化道路場景,能夠為高級別自動駕駛系統(tǒng)提供高精度的周邊多目標軌跡預(yù)測信息。
本文提出的軌跡預(yù)測方法包含了自車運動估計與預(yù)測、目標軌跡初始化和未來軌跡預(yù)測3部分。首先,自車運動估計與預(yù)測部分建立了完整車輛視覺里程計,完成了對目標運動與自車運動的解耦,實現(xiàn)對自車運動的獨立建模。其次,目標軌跡初始化方法基于所建立的視覺里程計和深度圖信息,將不同時刻的目標邊界框坐標歸一化到當(dāng)前時刻。最后,未來軌跡預(yù)測部分使用歸一化的軌跡坐標,在自車當(dāng)前相機視角下完成對目標未來軌跡的預(yù)測。模型各階段訓(xùn)練時所需數(shù)據(jù)包括車載相機拍攝的視頻序列以及該序列內(nèi)各目標的位置信息和身份信息。以上方法所使用模型包括了自車運動估計網(wǎng)絡(luò)、自車運動預(yù)測網(wǎng)絡(luò)和多目標軌跡預(yù)測網(wǎng)絡(luò)。
(1)自車運動估計網(wǎng)絡(luò)
自車運動估計網(wǎng)絡(luò)是由深度估計網(wǎng)絡(luò)和位姿估計網(wǎng)絡(luò)構(gòu)成的自監(jiān)督訓(xùn)練模型,該模型通過輸入完整的自車過去與未來圖像序列來計算自車運動的視覺里程計。兩種網(wǎng)絡(luò)均使用編解碼器結(jié)構(gòu),其中編碼器可以為任意層數(shù)較深的卷積神經(jīng)網(wǎng)絡(luò)模型,提取低維大尺度的圖像特征,將其轉(zhuǎn)化為高維小尺度的特征圖。該網(wǎng)絡(luò)能夠有效解決現(xiàn)有預(yù)測方法未充分考慮自車運動狀態(tài)的不足,并將與自車運動相關(guān)聯(lián)的周邊目標的像素坐標轉(zhuǎn)換到歸一化的靜態(tài)相機坐標系中。
(2)自車運動預(yù)測網(wǎng)絡(luò)
自車運動估計網(wǎng)絡(luò)在實際場景中進行推理時,只能通過車載相機獲取到歷史時刻圖像信息。因而此時,該模型只能計算出自車歷史運動過程中各相機坐標系之間的位姿變換矩陣,而無法直接計算出自車未來運動過程中的位姿變換矩陣。為了解決上述問題,本方法增加了一個新的自車運動預(yù)測網(wǎng)絡(luò)。該網(wǎng)絡(luò)引入了由長短時記憶(LSTM)網(wǎng)絡(luò)構(gòu)成的編解碼器模型來預(yù)測自車未來的位姿變化,網(wǎng)絡(luò)輸入僅包含了由自車估計網(wǎng)絡(luò)輸出的歷史各幀間的位姿變換參數(shù)。自車運動預(yù)測網(wǎng)絡(luò)與自車運動估計網(wǎng)絡(luò)相結(jié)合,構(gòu)成了一種交互計算模型,實現(xiàn)了對自車完整視覺里程計的計算。
(3)多目標軌跡預(yù)測網(wǎng)絡(luò)
本方法所提出的軌跡預(yù)測網(wǎng)絡(luò)同樣采用編解碼器結(jié)構(gòu)。編碼器分為兩個部分:第1部分為運動特征編碼器,使用長短時記憶(LSTM)網(wǎng)絡(luò)模型,其作用是提取歸一化后的歷史目標邊界框信息;第2部分為區(qū)域特征編碼器,它使用卷積LSTM(ConvLSTM)網(wǎng)絡(luò)對目標在當(dāng)前時刻所處位置的像素塊以及該位置在過去圖像中的像素塊序列進行編碼。ConvLSTM是一種將卷積運算和LSTM的門控機制結(jié)合的神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)在使用卷積提取圖像特征的同時也控制了當(dāng)前圖像特征信息的輸入比例和歷史圖像特征信息的保留比例。本文所提出的軌跡預(yù)測網(wǎng)絡(luò)建立了計算目標圖像和邊界框位置序列與未來軌跡之間映射關(guān)系的網(wǎng)絡(luò)模型,該模型預(yù)測的未來軌跡以極小的像素誤差達到了與真實軌跡接近的程度。
解耦自車運動和周邊目標運動的首要步驟是通過車載相機拍攝的視頻建立自車運動過程的視覺里程計,完成對自車運動的獨立建模。如果將視頻分解為由多幀圖像組成的圖像序列,則每一幀圖像中拍攝到的目標均處于當(dāng)前時刻自車的相機坐標系中。車輛在行駛過程中,車輛運動方向和位置的改變會造成相機坐標系的連續(xù)變換,即車輛位姿變換。相機坐標系的軸(即鏡頭所對的方向)指向汽車行駛方向。如圖1所示,自車運動估計的目的就是計算自車所處的歷史幀-,…,-1與當(dāng)前幀之間的位姿變換,并預(yù)測自車所處的未來幀+1,…,+與之間的位姿變換。幀間變換過程可視作兩幀的相機坐標系繞軸旋轉(zhuǎn),該過程可用變換矩陣T表示:

圖1 第t幀與第t'幀自車位姿變換

式 中:T∈R,∈[-,-1]∪[+1,+];∈(3)是旋轉(zhuǎn)矩陣,且∈R;∈R是相機坐標軸原點的偏移量;為全零向量的轉(zhuǎn)置。
1.2.1 自車運動估計
本研究使用由深度估計網(wǎng)絡(luò)和位姿估計網(wǎng)絡(luò)構(gòu)成的自監(jiān)督訓(xùn)練模型來完成自車運動估計,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 自車運動估計網(wǎng)絡(luò)整體結(jié)構(gòu)
首先,利用深度估計網(wǎng)絡(luò)輸出當(dāng)前幀圖像I的深度D∈R、位姿估計網(wǎng)絡(luò)預(yù)測的變換矩陣T和車載相機的內(nèi)參矩陣∈R,可以將時刻的圖像I中的所有像素投影到時刻像素坐標系中對應(yīng)的位置,從而重建出時刻的圖像I:

式中:為重投影操作;p和p分別為和時刻圖像中各像素坐標。
具體地,深度估計網(wǎng)絡(luò)為編解碼器結(jié)構(gòu)。其中深度編碼器輸入為當(dāng)前幀圖像I,通過ResNet-18結(jié)構(gòu)提取出圖像特征信息F。將F輸入到深度解碼器中,將計算出當(dāng)前幀圖像中各像素位置的深度,的值域為(0.1,100),0.1為一個深度單位,深度值上限為100,該過程表示為

位姿估計網(wǎng)絡(luò)同為編解碼器結(jié)構(gòu),位姿編碼器與使用相同的ResNet-18網(wǎng)絡(luò)結(jié)構(gòu)作為特征提取器。但是與不同的是,的輸入為時刻和+1、-1時刻圖像組成的圖像序列={I,I}{I,I}。首先,通過級聯(lián)操作將的通道維進行合并,得到與匹配于輸入維度的?。模型輸出為32倍下采樣后的高維度特征圖F∈R。位姿解碼器由多層卷積與激活函數(shù)ReLU堆疊而成,解碼器輸出通道數(shù)為6,分別代表軸角φ∈(3),R和偏移量∈R。分解φ得到旋轉(zhuǎn)軸和旋轉(zhuǎn)角度:

根據(jù)羅德里格斯公式來計算(3)到(3)之間的指數(shù)映射,再結(jié)合偏移量得到位姿變換矩陣:


式中:^是反對稱符號;為單位矩陣。最終得到的位姿變換矩陣表示I的相機坐標系到I的相機坐標系之間的變換。
在實際模型訓(xùn)練過程中,從歷史時刻-+1到未來時刻+-1之間的圖像序列將與相鄰幀共同輸入到多個共享權(quán)重的位姿估計編解碼器中進行計算,最終得到該序列完整的視覺里程計={T,…,T}
1.2.2 自車運動預(yù)測
自車運動預(yù)測網(wǎng)絡(luò)由LSTM編解碼器結(jié)構(gòu)構(gòu)成,如圖3所示。其中LSTM編碼器的輸入為輸 出 的 歷 史 時 刻 部 分 的(,)序 列Seq=

圖3 自車運動預(yù)測網(wǎng)絡(luò)整體結(jié)構(gòu)

式中:為線性層,該層作為嵌入層(embedding),目的是將輸入序列的低維特征映射到高維;是激活函數(shù),=0.1。該部分取最后一個時步的隱藏狀態(tài)H作為總結(jié)歷史位姿的特征向量。
LSTM解碼器采用非自回歸(NAR)的方式對H進行解碼,輸出預(yù)測的未來自車運動:

式中為線性層,該層輸出即為預(yù)測的未來各時步的旋轉(zhuǎn)軸和原點偏移量(,)={(φ,d),…,(φ,d)},最 后 使 用 式(9)將(,)轉(zhuǎn)化為位姿變換矩陣。
根據(jù)自車運動估計網(wǎng)絡(luò)輸出的視覺里程計,可以計算出當(dāng)前時刻的相機坐標系與其他所有時刻的相機坐標系之間的位姿變換矩陣集合{T,∈[-,+]}。最終預(yù)測目標未來軌跡預(yù)測的視角將是時刻相機所處的視角,因此,在將任意時刻的目標歷史邊界框B輸入到預(yù)測模型之前,須先將邊界框B中角點像素坐標(,)轉(zhuǎn)換到時刻的像素坐標,構(gòu)成新的邊界框B。
時刻邊界框B中的任意角點坐標p向時刻的坐標p轉(zhuǎn)換可表示為

式中:(B)是邊界框B區(qū)域內(nèi)的平均深度;h和w為B的高和寬;D為深度圖中單個像素位置的深度,∈[,],∈[,]。在自 車運動估 計網(wǎng)絡(luò)中已經(jīng)預(yù)測了I到I之間的位姿變換矩陣,因此將任意歷史幀的相機坐標系轉(zhuǎn)換到時刻時的相機坐標系時,可以通過矩陣乘法得到變換矩陣:T=TT。
經(jīng)過目標軌跡初始化過程后,歷史時刻的目標邊界框已被轉(zhuǎn)換到當(dāng)前時刻,得到邊界框B。因此在預(yù)測未來軌跡時,目標的歷史運動過程將全部在靜止相機視角內(nèi)進行,而預(yù)測的未來軌跡也將位于該視角內(nèi)。為了更好地表征目標歷史運動過程,本網(wǎng)絡(luò)將通過歷史邊界框序列來計算更多的特征信息。另外,本網(wǎng)絡(luò)也關(guān)注了圖像序列中目標所處區(qū)域內(nèi)的像素變換過程,使用裁剪的方式來獲取目標相應(yīng)區(qū)域內(nèi)的圖像信息。最后,通過任意神經(jīng)網(wǎng)絡(luò)模型計算目標歷史特征序列與未來目標運動學(xué)參數(shù)之間的映射關(guān)系,如圖4所示。

圖4 多目標軌跡預(yù)測網(wǎng)絡(luò)整體結(jié)構(gòu)
1.4.1 目標運動特征編碼
靜止視角內(nèi)的任意目標由于運動方向和運動速度的不同,其邊界框的高和寬將呈現(xiàn)不同的變化規(guī)律。初始邊界框坐標不能直接表示這對參數(shù)的變化,因此須通過邊界框角點坐標(,)來計算和,并將其加入初始訓(xùn)練參數(shù)。綜上所述,最終網(wǎng)絡(luò)輸入的歷史運動信息={,,,}∈R。中的所有參數(shù)都將對圖像尺寸進行歸一化,保證輸入?yún)?shù)都在(0,1)區(qū)間之內(nèi)。
然后,將歷史運動信息序列={x,…,x,x}輸入到LSTM編碼器中:

最后使用第個輸出的隱藏狀態(tài)H作為總結(jié)目標運動序列特征的特征向量。
1.4.2 區(qū)域圖像特征編碼
當(dāng)前幀圖像I中觀測目標所處區(qū)域?qū)?yīng)的背景像素塊在歷史視角中存在連續(xù)的變化過程。以I中的目標邊界框中心點為中心,用式(2)把投影到歷史視角的坐標系中,使用統(tǒng)一尺寸(,)對目標周邊區(qū)域進行裁剪,得到裁剪圖像序列{C,…,C,C},區(qū)域圖像編碼器輸入特征可表示為

式中為級聯(lián)操作,對圖像的通道維度進行合并。
將輸入到中,網(wǎng)絡(luò)輸出H作為該區(qū)域圖像序列特征:

同文獻[20]一樣,將H視為由多個包含高維特征的整齊排布的節(jié)點,使用最大池化操作(MaxPooling)來聚合該區(qū)域的整體特征F。
1.4.3 未來軌跡預(yù)測
在復(fù)雜交通場景下,不同類別目標的運動模式和自身屬性存在較大的差異,因此使用單個模型對所有類別的目標進行建模是不合理的。本預(yù)測網(wǎng)絡(luò)使用LSTM解碼器接收不同各目標的編碼信息=(H,F),LSTM解碼器均為NAR解碼方式。最后通過多層感知機MLP,預(yù)測時刻視角內(nèi)目標邊界框的中心點沿、軸的移動速度和加速度等運動學(xué)參數(shù)={v,v,a,a}:

式中M為預(yù)測的未來目標運動學(xué)參數(shù),={m,…,m}。M中預(yù)測的參數(shù)計算的目標邊界框處于靜態(tài)視角中,因此在計算訓(xùn)練Loss之前,需要將其轉(zhuǎn)換為相應(yīng)未來時刻的邊界框位置和大小:

同樣地,利用式(2)和1.2.2節(jié)預(yù)測的未來自車運動的位姿變換矩陣,把視角的邊界框序列投影到其所處的視角,∈{+1,…,+},最終得到預(yù)測邊界框中心點坐標序列B。
1.5.1 第1階段
自車運動估計網(wǎng)絡(luò)的主要目的是準確計算圖像之間的位姿變換,因此模型訓(xùn)練第1階段的目的是保留圖像特征提取網(wǎng)絡(luò)的權(quán)重,微調(diào)輸出深度和位姿的解碼器網(wǎng)絡(luò)。深度估計網(wǎng)絡(luò)采用monodepth2中使用KITTI RAW數(shù)據(jù)集訓(xùn)練的圖像尺寸為640×192的模型作為預(yù)訓(xùn)練模型。
自車估計網(wǎng)絡(luò)使用KITTI Tracking數(shù)據(jù)集進行訓(xùn)練,在訓(xùn)練過程中凍結(jié)深度估計編碼器和位姿估計編碼器的參數(shù),不參與梯度下降法更新,僅對解碼器和進行訓(xùn)練。與現(xiàn)有自監(jiān)督深度估計方法相同,本模型通過最小化平均光度重投影損失函數(shù)L來訓(xùn)練位姿估計網(wǎng)絡(luò):

式中是光度重建損失(photometric reconstruction error),該損失函數(shù)由結(jié)構(gòu)相似性損失(SSIM)和損失加權(quán)相加得到,其中=0.85。
1.5.2 第2階段
在整體模型訓(xùn)練的第2個階段,自車運動估計網(wǎng)絡(luò)將加載第1階段中微調(diào)過程中驗證集損失最小的epoch保存的模型權(quán)重,并且在本輪不進行訓(xùn)練。
自車運動預(yù)測網(wǎng)絡(luò)在訓(xùn)練過程中,以自車運動估計網(wǎng)絡(luò)輸出的歷史幀間的軸角和偏移量序列Seq作為網(wǎng)絡(luò)的輸入。模型使用預(yù)測的未來幀間的(,)與自車運動估計模塊輸出的未來幀間(,)計算MSE損失函數(shù)來訓(xùn)練網(wǎng)絡(luò):

式中:表示序列長度;表示輸出數(shù)據(jù)維度。
1.5.3 第3階段
軌跡預(yù)測網(wǎng)絡(luò)使用KITTI Tracking數(shù)據(jù)集進行訓(xùn)練,計算軌跡預(yù)測誤差時將考慮預(yù)測坐標點與真實坐標點的歐式距離誤差:

式中是當(dāng)前圖像中包含的目標個數(shù)。
本研究使用KITTI數(shù)據(jù)集進行模型訓(xùn)練和驗證。KITTI數(shù)據(jù)集由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院共同研究制作,是目前最大規(guī)模的多場景自動駕駛算法評測數(shù)據(jù)集之一。KITTI數(shù)據(jù)集包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數(shù)據(jù),每張圖像中最多達15輛車和30個行人,以10 Hz的頻率采樣。本研究使用了KITTI跟蹤數(shù)據(jù)集(KITTI Tracking)為軌跡預(yù)測提供所需要的目標位置信息和身份信息。該數(shù)據(jù)集包含了20個場景下的視頻數(shù)據(jù)以及每個視頻中序列形式的目標位置信息和身份信息,并且給定了各車載相機的內(nèi)參矩陣。本文提出的方法在訓(xùn)練時以車輛為目標,使用單幀檢索序列的方式提取訓(xùn)練數(shù)據(jù)。整體數(shù)據(jù)集共包含4 041條車輛軌跡,使用數(shù)據(jù)集的70%作為訓(xùn)練集,10%作為驗證集,其余20%作為測試集。
在模型訓(xùn)練過程中,第1階段的損失函數(shù)為L,選用Adam優(yōu)化器作為參數(shù)更新優(yōu)化器,采用學(xué)習(xí)率=10進行20個epoch訓(xùn)練,其中在第10個epoch后降低為原來的1/10。第2階段訓(xùn)練參數(shù)與第1階段相同,初始學(xué)習(xí)率=10。第3階段的訓(xùn)練優(yōu)化器和學(xué)習(xí)率保持不變,共訓(xùn)練30個epoch,=1×10每過10個epoch降低為原來的1/2。
本研究劃分的測試集共包含789條目標軌跡。在試驗中,共使用兩種模型作為基線與本文提出的模型進行對比。第1種線性模型Linear包含3層線性層,前兩層后均包含激活函數(shù)leakyReLU,=0.1。第2種Seq2Seq為LSTM編解碼器模型,類似文獻[25]中提出的序列到序列的軌跡預(yù)測模型結(jié)構(gòu),該模型同樣采用NAR解碼方式,LSTM編碼器的隱藏狀態(tài)將作為解碼器的輸入向量。
測試共分析了模型的4個指標,每個指標分別取預(yù)測時步為0.5 s/1.0 s/1.5 s的測試結(jié)果,對比結(jié)果如表1所示。指標1為目標預(yù)測邊界框與邊界框真值兩個角點的均方誤差,單位為像素;指標2為目標預(yù)測邊界框與邊界框真值中心點的均方誤差;指標3為完整預(yù)測序列(15幀)中目標預(yù)測邊界框與邊界框真值中心點的均方誤差;指標4為預(yù)測目標邊界框與邊界框真值的IoU值,該指標能直觀描述預(yù)測的目標邊界框與實際邊界框的接近程度。


表1 所提模型在KITTI Tracking數(shù)據(jù)集的對比測試
對比表明,本文所提模型在3項誤差指標都小于其他模型,而交并比都大于其他模型。其中,線性模型對輸入特征序列與未來軌跡之間映射關(guān)系的建模精度最低。
特別是,所提模型在和兩個重要指標上較基線模型達到了更優(yōu)異的效果。其中指標在0.5 s(第5幀)時預(yù)測的中心均方誤差僅為43像素,在1.5 s(第15幀)預(yù)測的誤差僅為321像素;指標中所展示的3個時步的都在0.5以上,在現(xiàn)有各數(shù)據(jù)集目標預(yù)測方法評價指標中,=0.5為最低檢出值。結(jié)果表明,基于自車位姿預(yù)測,在自車視角下實現(xiàn)目標軌跡序列的歸一化處理,能夠很好地提升預(yù)測精度,所提模型在車輛和行人目標的軌跡預(yù)測方面均具有較優(yōu)的性能。
表2為文獻中幾種模型在包含行人目標的JAAD數(shù)據(jù)集上進行軌跡預(yù)測的結(jié)果。其中,的3個數(shù)值與預(yù)測時步為0.5 s/1.0 s/1.5 s相對應(yīng)。表中順便附上本研究所提模型在KITTI Tracking數(shù)據(jù)集上的測試結(jié)果,但僅供參考對照。因為盡管JADD和KITTITracking兩個數(shù)據(jù)集皆為視頻數(shù)據(jù)集,且其預(yù)測軌跡亦皆以像素為單位,但畢竟是兩個不同的數(shù)據(jù)集,不宜做嚴格意義上的對比。

表2 幾種模型在JAAD數(shù)據(jù)集上測試結(jié)果的對比
所提模型不同訓(xùn)練階段的消融試驗結(jié)果如表3所示。第1種為一階段訓(xùn)練,即從自車運動估計網(wǎng)絡(luò)到自車運動預(yù)測網(wǎng)絡(luò)以及最后的軌跡預(yù)測網(wǎng)絡(luò)直接進行端到端的訓(xùn)練,使用的損失函數(shù)為∑(,,)。第2種為二階段訓(xùn)練,該訓(xùn)練過程為首先微調(diào)自車運動估計網(wǎng)絡(luò),然后凍結(jié)自車運動估計網(wǎng)絡(luò)的模型權(quán)重,將自車運動預(yù)測網(wǎng)絡(luò)和軌跡預(yù)測網(wǎng)絡(luò)放在一起進行訓(xùn)練。最后則為本研究提出的完整三階段訓(xùn)練方式,將3個網(wǎng)絡(luò)分別訓(xùn)練。

表3 所提模型在不同訓(xùn)練階段的指標對比
結(jié)果表明,多階段訓(xùn)練對模型預(yù)測精度的提升是正相關(guān)的。對比一階段試驗結(jié)果與兩個基線網(wǎng)絡(luò)的試驗結(jié)果的各項指標,可以看出如果自車運動估計網(wǎng)絡(luò)輸出的視覺里程計信息存在誤差,則該誤差將累計到后續(xù)網(wǎng)絡(luò)中,導(dǎo)致預(yù)測結(jié)果產(chǎn)生較大的誤差。因此,使用三階段的訓(xùn)練方式能夠有效提高整體模型的軌跡預(yù)測效果。
圖5為本文所提模型在不同場景下測試效果,包含周邊單車和周邊多車場景。在單車輛場景中,目標車輛與自車保持較小的相對運動,所提模型在3個關(guān)鍵幀上均具有精準的預(yù)測效果;在多車場景中,各車輛均與自車保持一定速度的相對運動,其中第2列的目標車輛處于運動狀態(tài),第3列的目標車輛處于靜止狀態(tài),表征真值的綠色框和表征預(yù)測值的紅色框重合率高,體現(xiàn)了所提方法較好的預(yù)測精度。另一方面,所提方法在對周邊處于靜止狀態(tài)車輛的預(yù)測誤差相對比處于運動狀態(tài)車輛大,其原因可能在于靜止車輛與自車相對運動速度較大且方向相反,對模型預(yù)測產(chǎn)生了影響。

圖5 KITTI Tracking數(shù)據(jù)集下的典型測試結(jié)果(綠色為真實邊界框,紅色為預(yù)測框)
本文中提出了自車視角下的周邊多目標軌跡預(yù)測方法,利用車載單目視覺建立視覺里程計,實現(xiàn)自車運動狀態(tài)的預(yù)測,據(jù)此,將周邊多目標運動序列在自車視角下進行歸一化處理,消除了現(xiàn)有方法因忽略自車位姿導(dǎo)致的預(yù)測誤差,基于公開數(shù)據(jù)集的對比測試驗證了所提方法的優(yōu)越性。未來,將圍繞復(fù)雜交通場景下不同類別目標的運動模式和交互關(guān)系開展深入研究,進一步提升長時域預(yù)測的精度。