基于場景和行人交互力的行人軌跡預測

2021-09-09 07:36:32彭濤黃子杰劉軍平張自力胡智程

現代計算機 2021年19期

彭濤，黃子杰，劉軍平，張自力，胡智程

(武漢紡織大學數學與計算機科學學院，武漢 430200)

0 引言

隨著無人駕駛技術的逐漸成熟，隨之而來的安全問題也被人們所關注。無人駕駛過程中行人的安全問題是無人駕駛的核心問題之一。行人軌跡的預測，可為緊急制動[1-3]提供可靠的依據。同時，行人軌跡預測可以在監控系統中預防危險活動[4-6]。然而，行人的活動充滿了不確定性，行人在行走過程中與其他物體的互動是由常識和社會習俗驅動的，在互動的過程中，會有一種力量阻礙行人前往目的地，這種力量叫做社會力量[7]，如圖1所示，它包括：

(1)行人之間的交互力[8-10]。

(2)行人與靜態場景之間的交互力[11]。

(3)其他交互力[12]。

為了解決這個復雜環境下行人軌跡預測問題，在“Social-LSTM”中[13]，首次將深度學習模型和社交力量相結合應用于行人軌跡預測，該方法在一定程度上提升了行人軌跡預測的精度，但是未考慮場景信息。與此同時，為計算場景中所有行人的狀態，導致模型的計算量大，實時性差[14]。

圖1 場景中的行人需要遵守“社會法則”

此后，研究人員將基于循環神經網絡不斷改進預測結果[15-16]。例如Huynh等人提出了Scene-LSTM[17]，對“Social-LSTM”模型進行了改進。Matteo Lisotto等人也提出了一個新的池化層來改進模型，可生成對抗網絡的引入，在一定程度上提升了模型的性能[18]。如Agrim等人提出的Social-GAN模型[19]。但是這些方法都有共同的問題：一是由于循環網絡的使用，使得網絡運行效率低，訓練成本高。二是池化層的引入存在問題，無法正確表達行人之間的交互。

隨著圖網絡技術的發展，圖卷積神經網絡為行人軌跡預測提供了新思路[20-21]。為更準確地預測行人軌跡，減少參數，Mohamed等人提出了Social-STGCNN框架[22]，在文中，他將行人軌跡建模為時空圖，以行人為頂點，行人之間的交互力為邊，進而構建權重矩陣。該方法不僅在原方法的基礎上提高了計算速度，而且提高了預測精度。然而，在此框架中仍然未提及靜態場景因素對行人運動軌跡的影響，所以預測的軌跡仍有偏差。

1 模型實現

1.1 整體模型

模型主要為行人特征提取模塊、場景特征提取模塊和預測模塊。模型的詳細描述如圖2所示。

圖2 模型流程圖

1.2 行人特征提取

為得到行人運動軌跡的特征，本文使用了Mohamed等人提出的時空圖卷積網絡來提取行人特征圖。不僅獲取了行人的空間信息，還保留了行人的時間信息。

在特征提取模塊，首先構建一組空間圖形Gt=(Vt，Et)，其中t表示當前時間。Vt是頂點的集合，與行人的坐標相同，即:Vt=Xt。Xt定義如下：

(1)

同理，Et為圖Gt中邊的集合，它代表行人之間的函數關系。與Abduallah等人的工作類似，模型對不同距離行人之間的影響進行了加權，以進一步反映力的變化。權重用a表示，計算公式如下：

(2)

將行人軌跡繪制成圖，然后利用圖卷積神經網絡對矩陣圖進行處理，得到行人軌跡特征。

經過上述過程后，可獲得空間行人軌跡特征。以此為基礎，在空間特征圖的基礎上擴展時間軸，將多幅行人軌跡圖進行時間維度連接，得到同一行人在兩個時間段之間的時間特征，并將時間圖與空間圖組合成時空圖卷積神經網絡。

1.3 場景特征提取

在獲取了行人特征圖之后，為了提升準確度，本文添加了場景特征圖。場景中不同區域的障礙物會在不同方向上對行人的運動產生阻力，從而產生了行人繞道的效果。因此，需要對場景中的不同區域進行阻力判斷，以確定它是否會被大多數行人接受。

(1)構建點陣圖。根據數據集中已有數據可以發現，場景中存在沒有行人軌跡的地方，該區域可以用來表示不能進入或不能到達的位置。因此，可首先構筑場景點陣圖。

(3)

式(3)中，n為行人數量，t為時間。Xpoint表示該時間段內所有行人經過此點的次數。NUMX則表示該段時間內所有行人的全部坐標點。

(3)獲取場景特征圖Nav。得到行人點陣圖后，為每個場景內行人設定鄰域，并根據鄰域內點陣圖的平均權重得到行人鄰域內不同區域的權重圖，如式(4)：

(4)

其中，m表示以該行人為中心的鄰域。

(4)將場景特征圖進行歸一化處理，進而得到行人向鄰域內不同方向前進的概率。

將場景轉換為場景圖的過程如圖3所示。由于監視器對應的是同一個場景，對于場景中的行人，場景的影響只會隨著靜態障礙物的移動而改變，但是整個場景的整體傾向性不會因為行人的移動而改變。因此，在場景圖中，只需要考慮空間坐標變化，而不需要考慮時間變化對場景的影響。也就是說，在處理場景特征時，不需要考慮時間序列對特征的影響。因此，將場景特征的處理置于時空圖形卷積網絡之外。

如圖3所示，以某一點為中心獲取一定范圍內的場景圖，并依據此圖產生權重圖。

百里香從末明了琵琶仙的感情，更沒想到琵琵仙對鐵頭大哥用情如此之深，因此大感意外和失落。但他轉念一想，琵琶仙初來蘄州身陷絕境之時，是鐵頭大哥出手相助，幫她安葬了客死他鄉的爺爺，又將她薦到鬧春樓唱曲謀生。知恩圖報，情義無價，這樣的女子更值得尊敬，豈能因為自己的一廂情愿而生怨意？果真如此，我百里香與無良小人又有何異？

圖3 場景特征提取

通過上述操作，可以為行人設置一個一定大小的鄰域，并利用平均池化層將鄰域內所有的場景特征值進行平均處理，進而得到較為合理的場景特征圖。

1.4 行人軌跡預測

通過兩種特征的處理，可得到行人的運動特征和場景特征，然后使用時間外推卷積神經網絡(TXP-CNN)進行軌跡預測。其中，TXP-CNN網絡將上述兩個特征進行卷積，生成一個新的以時間為因果序列的預測軌跡。

TCN=1DFCN+causalconvolutions

(5)

式(5)中，1D FCN為按每個T間隔作為一輪輸入的全卷積神經網絡，Causal Convolutions為對卷積結果擴張的因果卷積網絡。

TXP-CNN對圖的時間維進行操作，使用feature map作為預測的條件并進行擴展。由于它依賴于特征空間上的卷積操作，所以它的參數比遞歸操作要小。由于網絡采用因果卷積，可以記錄軌跡的時間信息，從而在降低參數的同時保留了時間特征。

(6)

如上為模型介紹。模型采用了兩種不同的網絡來處理行人之間的特征以及行人與場景之間的特征，進一步減少了由時間序列帶來的計算和存儲需求。

2 實驗

2.1 數據集和測量指標

模型在兩個行人軌跡數據集(ETH[23]和UCY[24])上進行測試。其中，ETH包括兩種場景:ETH和HOTEL。UCY包括三種場景：UNIV、ZARA-01和ZARA-02。在場景中，共記錄了1536名行人在該場景中進行的行走等社交活動。本文提出的訓練方法和其他論文一樣，使用一部分數據集進行實驗，使用剩下的數據集進行測試，最后用剩下的4個數據集進行驗證。數據集中的軌跡每0.4秒采樣一次。在實驗中，觀察3.2秒的軌跡，即8幀，然后預測接下來4.8秒的軌跡，也就是12幀。

(7)

(8)

2.2 模型參數設置

模型由三部分組成：ST-GCN層、navi-pooling層和TXP-CNN層。模型使用PReLu作為的激活函數。模型的批容量設置為128，使用隨機梯度下降(SGD)的方法對模型進行350次迭代。學習率設置為0.01。為了達到局部最優效果，模型在經過150次迭代后，將學習率修改為0.002。然后根據視頻幀的圖片大小，設置場景圖的大小為400×320。為得到更準確的模型，對三個模塊的層數進行了對比實驗。實驗表明，一層ST-GCN層、一層navi-pooling層和五層TXP-CNN層的性能最好。

2.3 消融實驗

為了確定不同網絡層數對模型的影響，模型進行了消融實驗。實驗發現ST-GCN模型中卷積層數的不同會影響行人軌跡的特征提取，TXP-CNN模型卷積層數的不同會影響模型的學習能力。在實驗中，將兩個神經網絡分別設置為1層、3層和5層，選擇ETH數據集進行組合實驗，以獲得效率和準確率最高的組合。實驗結果如表1所示。實驗使用單數據集進行消融實驗，同時使用ADE/FDE作為參考指數。

表1 消融實驗結果

表1中第一行中的數字表示ST-GCN的層數，第一列中的數字表示TXP-CNN的層數。使用ADE/FDE作為評估指標。由表1可知，當模型的層數過多時，模型的精度開始下降。同時，層數過少會影響實驗結果，特征和學習過少會使實驗結果不準確。因此，模型選擇使用1層ST-GCN和5層TXP-CNN作為模型中的網絡層數。

2.4 定量分析

表2與表3將模型與其他模型在ADE和FDE指標上的性能進行了比較。比較的對象包括Social-LSTM、SR-LSTM、Social-STGCNN、SS-LSTM、Social-BiGAT。從表2和表3可以發現：①總體性能最低的是Social-LSTM，原因是該方法只提取了少數特征，并且只在池化層中選取模型并與場景中的所有行人進行交互。②使用GAN網絡連接后的預測結果精度由較大提升。③使用圖卷積網絡的模型精確度最高。

表2 對應模型的ADE值

表3 對應模型的FDE值

通過比較可以看出，對于FDE指標，與大多數方法相比，本文提出的模型的平均精度提高了約20%；但本文提出的方法在ADE指標上在HOTEL場景內的誤差較大。

同時，本模型與STGCNN相比，在增加參數的情況下并其運算速度并未大幅降低。

表4 模型參數表

3 結語

本文使用現有的時空間圖卷積神經網絡方法提取行人之間的特征，并在此基礎上增加場景特征。通過繪制場景圖，形成當前場景的權重圖，并為每個行人設置一個鄰域來代表場景中靜態障礙物對其產生的影響。然后使用TXP-CNN網絡來預測軌跡。本文在ETH和UCY數據集上進行了實驗，證明了該模型的優越性。另外，由于使用了殘差網絡和卷積網絡，進一步降低了實驗所需的參數。在未來，將進一步降低預測誤差，并將預測目標從行人擴展到多個可移動物體的集合。