王天保,劉 昱,郭繼昌,晉瑋佩
(1.天津大學 微電子學院,天津 300072;2.天津大學 電氣自動化與信息工程學院,天津 300072)
在城市街道等密集行人場景中,自動駕駛車輛、機器人等運動主體需要根據其他行人的位置規劃自身路徑,通過對目標的位置預測得以保持安全距離并排除風險因素,行人未來位置預測的準確性對于運動主體的決策系統至關重要[1].行人軌跡預測是一項復雜任務,由于每個行人自身的運動習慣有著天然差異,并且群體環境中存在人與人的交互,個人的運動模式會受到周圍行人隱含的影響,人們會遵循社會規則方面的常識來調整自己的路線,運動主體需要預測他人的動作和社會行為[2].構建具有較高可解釋性和泛化能力的行人交互模式是軌跡預測問題的重點.
早期的行人軌跡預測使用手工設計特征的方法構建社會力量(social force, SF)[3-4]模型,由此表示行人在運動過程中相互吸引和排斥的情況,然而完全依靠手工設計特征難以表示復雜場景中隱含的交互行為.近年來以數據驅動為主導的循環神經網絡(recurrent neural network, RNN)編解碼結構廣泛應用于軌跡預測任務,具有代表性的是Alahi等[5]使用長短期記憶網絡(long short-term memory, LSTM)[6]編碼器-解碼器結構,通過社交池化(social-pooling)獲取不同距離行人間的依賴關系,從而表現個體間隱含的交互信息;Gupta等[7]將軌跡預測看作序列生成問題,使用生成對抗網絡(generative adversarial networks, GAN)體現軌跡的多模態性質,并且對歷史軌跡編碼進行最大池化(max-pooling),生成社交可接受的軌跡;在考慮多種物理特征的方面,Hasan等[8]將獲取的行人頭部朝向特征納入編碼過程,其結果證實對周圍行人的關注程度與自身視線方向具有高度相關性;張志遠等[9]使用行人間的距離及方向信息構建注意力模型,并使用生成對抗方法訓練軌跡生成;Amirian等[10]使用infoGAN結構,通過優化輸入隱含變量與輸出軌跡分布的互信息來提升軌跡生成效果,并根據行人間的位置、方向、可接近的最小距離等物理特征進行注意力池化.
圖神經網絡(graph neural network, GNN)將深度學習應用在非歐幾里得結構上,構建頂點和邊表示對象間的關系,展現出良好的魯棒性和可解釋性,因此通過圖拓撲結構建模行人之間的交互模式是一種有效的方式.Vemula等[11]在軌跡預測問題上使用時空圖網絡構建交互模型,使預測目標對周圍行人分配不同軟注意力權重,獲取時間和空間上的軌跡交互信息;由于行人運動具有時間連續性,空間上的行人交互模式不僅與當前位置有關,還應考慮歷史影響,Huang等[12]基于圖注意力網絡(graph attention network, GAT)[13]對周圍行人分配注意力以進行運動LSTM編碼;Kosaraju等[14]使用圖注意力網絡表示空間交互關系,通過Bicycle-GAN生成多模態預測;Mohamed等[15]根據行人位置構建鄰接矩陣,通過圖卷積神經網絡(graph convolutional network, GCN)[16]構建交互模式,并使用時間外推卷積神經網絡進行軌跡預測.然而,使用圖注意力網絡進行注意力分配由于依賴于高維特征間的相關性,其過程并不直觀,且沒有考慮圖的結構關系;另一方面,由于正常人眼關注度高的區域主要分布在視野中部,并且雙眼水平視場角約為188°,在行走狀態下人眼存在較大盲區,現有圖網絡所分配得到的交互注意力往往會錯誤地將盲區中的行人納入其中.
考慮到圖網絡在建立交互模型中所具有的優勢及存在的問題,本文提出一種新的基于圖卷積神經網絡的軌跡預測模型(trajectory prediction graph convolutional network, TP-GCN)用于構建行人間的交互模式并進行軌跡預測.算法使用圖卷積神經網絡處理編碼過的高維行人軌跡特征,從而構建行人間的交互模式,根據盲區信息優化圖卷積神經網絡的鄰接矩陣,并加強了對自身隱含交互模式的獲取,同時使用深度圖信息最大化方法將圖結構的局部特征和整體特征間的互信息最大化,優化圖網絡的特征提取效果.在公開數據集上進行實驗,結果表明本文算法可以取得較精確的預測效果,同時具有較強泛化效果及可解釋性.
卷積神經網絡(convolutional neural network, CNN)利用固定尺寸的卷積核在圖像上進行卷積操作并平移,從而提取圖像中的所需特征.圖卷積神經網絡的原理與CNN類似,并將歐氏空間的卷積操作推廣到非歐空間,對圖結構中頂點的特征進行提取,以完成后續的頂點分類等任務.具體地,若無向圖G=(V,E)中有n個頂點,頂點為V={Vi|?i∈{1,2,…,n}},連接頂點的邊為E={eij|?i,j∈{1,2,…,n}},每個頂點包含d維特征,則根據各頂點V之間的邊E構成的n×n維的鄰接矩陣A,通過訓練卷積核系數,計算中心頂點的鄰接頂點與卷積核的卷積結果,從而實現特征提取.單層GCN結構如式(1)所示
(1)


(2)
式中f為兩層GCN的特征傳播公式.

圖1 兩層圖卷積網絡示意


軌跡預測任務中任意時刻的每個行人i都與不同數量和運動狀態的其他行人存在交互關系,行人間內在的影響方式復雜且隨時間而變化,若以向量表示每個行人的運動狀態,那么同一時刻相關聯的所有行人構成了一組典型的圖結構數據.
本文提出的軌跡預測模型TP-GCN中,將行人作為圖結構中的頂點,利用GCN在圖結構中良好的特征提取能力來獲取行人間的交互關系,并通過最大互信息優化方法進一步提升GCN的運算效果,從而完成軌跡預測.算法框圖見圖2.

圖2 圖卷積神經網絡軌跡預測模型(TP-GCN)
如圖2所示,TP-GCN由4個模塊構成,分別為:1)軌跡編碼模塊:將原始軌跡使用LSTM編碼得到軌跡運動特征;2)圖卷積神經網絡交互模塊:通過原始軌跡計算改進的鄰接矩陣,將軌跡運動特征輸入GCN計算軌跡交互特征;3)互信息最大化圖網絡模塊:最大化GCN輸出中局部特征與全局特征間的互信息,從而優化GCN的特征提取效果;4)軌跡預測模塊:將提取的軌跡運動特征與軌跡交互特征進行LSTM解碼,得到軌跡預測結果.

(3)

(4)

由于行人的軌跡受到周圍行人運動模式隱含的影響,僅對每個軌跡分別進行編碼難以完整表達場景內多個軌跡的復雜運動模式,需要構建合理的模型表達行人間交互模式.使用圖結構Gt=(Vt,Et)建立t時刻行人間的交互模型,將行人作為圖結構中頂點的集合Vt,行人間的交互關系為邊的集合Et,其表達式為
(5)
(6)


(7)


圖3 盲區中行人示意
此時兩個行人的速度向量與相對位置向量滿足式(8)
[ΔX1(X1-X2)][ΔX2(X1-X2)]<0.
(8)

(9)
(10)
式中,k為中心頂點額外權重系數,本文使用k=2;I為單位矩陣.
本文將兩層圖卷積網絡相疊加,通過兩層GCN結構得到第i條軌跡的輸出特征
(11)

(12)
(13)

由于受到周圍行人和潛在社交規則的影響,群體中個體的運動模式傾向于場景內所有個體的平均運動模式.本文使用深度圖信息最大化方法[17]最大化GCN輸出局部特征與全局特征間的互信息,使得局部特征可以獲得接近全局特征的向量表示,也就意味著在行人間的交互模型中,每個個體行人學習到了場景內全體行人所共有的運動模式.

(14)
式中R為讀取函數.
(15)

(16)

(17)
式中δ為線性層.因為未來軌跡存在多種合理分布,本文使用多樣損失函數[7,12]生成多個軌跡樣本,進而選取軌跡樣本中與真實軌跡間L2距離最小的預測軌跡,多樣損失函數Lvariety如式(18)所示
(18)

Ltotal=Lvariety+Linf.
(19)
實驗基于PyTorch 1.1建立網絡模型,使用Adam優化器進行參數優化,LSTM學習率為0.01,GCN學習率為0.03,判別器D學習率為0.001,批處理大小為64,訓練數據集訓練輪數為500,單個RTX 2 080 Ti GPU進行訓練,生成測試樣本數N=20.
本文在公開軌跡預測數據集ETH[18]和UCY[19]上進行實驗,ETH包含ETH和HOTEL 2個子數據集,UCY包含UNIV、ZARA1和ZARA2 3個子數據集,所有數據集均使用俯拍視角,包含了不同場景中1 500多名行人的運動軌跡.使用世界坐標系,將行人表示為坐標點,獲取時間間隔為0.4 s的坐標序列.保留同時存在n個目標的序列,即每段序列中行人的數量保持不變.采用留一法[5],即在4個數據集上進行訓練和驗證,在剩下的一個數據集上進行測試.
本文使用兩種基本評價指標:
1)平均偏移誤差(ADE):全部時間點的預測序列與真實序列間的均方誤差,單位為m.
2)最終偏移誤差(FDE):預測結束時刻的預測序列與真實序列間的誤差,單位為m.
定量分析使用不同算法在相同數據集上進行對比實驗,并使用除去了部分模塊的本文算法進行消融實驗,具體分析如下.
3.1.1 算法對比
為評估TP-GCN的準確性,選取了多種對比算法,分別是S-LSTM[5]、S-Atten[11]、S-GAN[7]、SoPhie[2]、Next[20]、S-ways[10]、Social-BiGAT[14]、STGAT[12],觀測時長Tobs=8(3.2 s),預測時長Tpred=12(4.8 s),使用ADE和FDE進行評價,所有生成多樣本軌跡的算法均產生20個預測樣本,本文算法與其他對比算法在5個數據集上的預測精度比較結果見表1,表中黑體為表現最好的預測結果.

表1 本文算法TP-GCN與對比算法的ADE和FDE比較結果
由表1可以看出,TP-GCN在HOTEL和UNIV數據集上兩個指標均優于其他所有算法,并在5個數據集的平均ADE和FDE并列第一.相較于SoPhie和Next使用環境信息和行人姿態信息,TP-GCN僅使用坐標序列信息而沒有使用環境信息,更利于在多種場景中泛化;TP-GCN在ETH數據集上效果一般,原因在于ETH的測試集較小,各種算法普遍在ETH數據集上效果一般,但相較于使用圖網絡的Social-BiGAT和STGAT,TP-GCN在HOTEL、UNIV、ZARA1和ZARA2這4個數據集上表現更好,同時取得了良好的穩定性.與對比算法相比,一方面,本算法使用圖卷積神經網絡建立交互模式,利用盲區信息篩除錯誤交互行為的干擾,并且加強了對行人自身運動習慣的挖掘,使算法具有較強的可解釋性;另一方面,本算法通過深度圖信息最大化方法,使得場景中個體行人與全體行人間的運動模式一致程度更高,從而在多種場景下依然具有較好的魯棒性.綜上所述,本文算法的總體預測精度較高.
3.1.2 消融實驗
為評估TP-GCN各個部分的作用,調整多個指定模塊,其中算法1去掉最大互信息模塊,算法2去掉鄰接矩陣A,算法3沒有使用盲區信息優化A,算法4單位矩陣系數k=0,算法5訓練樣本數p=1,測試樣本數N=1,算法6訓練樣本數p=1,測試樣本數N=20,觀測時長Tobs=8(3.2 s),預測時長Tpred=12(4.8 s),使用ADE和FDE進行評價,本文算法與調整指定模塊后的算法在5個數據集上的預測精度比較結果見表2.表中黑體為表現最好的預測結果.

表2 本文算法TP-GCN在調整指定模塊情況下的ADE和FDE比較結果
由表2可以看出,與算法1做對比,由于最大互信息模塊進行了圖網絡輸出結果的局部特征和全局特征間的互信息最大化,使得受到周圍行人交互影響的個體行人運動模式更趨近于周圍所有人的平均運動模式,符合環境中集體所默認的潛在社交規則,TP-GCN的預測結果全面優于對比算法1.與算法2、3、4做對比,TP-GCN通過構建基于盲區信息的鄰接矩陣并外加單位矩陣構建交互模式,既考慮了周圍其他行人直接的交互影響,又提取了自身所受到的隱式交互影響.3種對比算法整體表現均不如TP-GCN,而值得注意的是算法3和4在UNIV數據集中表現優于本文算法,本文理解為由于此數據集中行人遠密集于其他數據集并且行人轉頭環顧四周情況明顯增多,周圍行人的直接交互影響更為明顯,在此情景下本文算法單位矩陣權重過大且盲區范圍過大,但另一方面,這也恰恰說明交互權重在密集場景中的重要性.與算法5、6做對比,TP-GCN考慮了軌跡的多樣性和不確定性,預測效果明顯優于算法5和算法6,在同為產生20個預測樣本的情況下比算法6的ADE提升了8.5%,FDE提升了15.3%.通過消融實驗的對比結果可知,本文所使用算法的預測精度較高.
通過對軌跡序列進行可視化,進一步分析本文所提出算法的可解釋性.從ZARA2測試數據集中提取本文算法所使用和生成的軌跡,實線軌跡為觀察軌跡,時長為3.2 s,點劃線軌跡為真實未來軌跡,虛線為預測未來軌跡,時長為4.8 s,軌跡可視化結果見圖4.

圖4 預測軌跡可視化結果
從圖4(a)、(b)中可以觀察到,在密集行人場景中,處于圖像右側的個體行人自右向左運動,左側的群體行人并排自左向右運動,此時右側行人通過,由于右側行人經過了左側行人原本朝向的方向,左側群體的路徑受到了輕微影響.從圖4(c)、(d)中可觀察到,處于相向行走的兩組行人,相遇時兩組人依照社會規則相互繞行,期間基本沒有改變組內個體間的距離關系;另一方面,預測最終時刻行人的盲區范圍如圖中矩型陰影范圍所示,由于此時背向而行的行人位于彼此的盲區之中,沒有相互的交互影響,故而視覺盲區中的交互信息被篩除,行人保持原有方向運動.從圖4(e)、(f)中可以看出,圖4(e)右側的兩名并行的行人和圖4(f)右側同向而行的3個行人,受到周圍不經過自身路線的行人影響較小,即原本沿近乎直線行走的行人,能夠察覺附近的行人不妨礙自身運動時,行人可以保持原有路線運動,這也與人的運動習慣相符.通過分析預測結果,證明本文算法能夠基于交互信息做出與真實行為接近的符合行人習慣的預測.
本文提出了一種基于視覺盲區信息和互信息最大化圖卷積神經網絡的算法TP-GCN來建立行人間的交互模式并進行軌跡預測.該算法克服了圖注意力網絡構建交互模式不直觀的問題,篩除了盲區中行人的交互影響,綜合考慮了行人間直接的交互模式和隱含的交互信息,并使得個體運動符合群體運動的社交規則,具有良好的可解釋性和泛化性能.在公開數據集ETH和UCY上與目前先進的算法進行對比,本文算法的整體預測精度較高,同時消融實驗和預測軌跡的可視化也顯示了本文算法的有效性及良好的可解釋性.