基于Social Transformer 的井下多人軌跡預(yù)測(cè)方法

2024-07-06 00:00:00馬征楊大山張?zhí)煜?/span>

工礦自動(dòng)化 2024年5期

摘要：目前煤礦井下人員軌跡預(yù)測(cè)方法中，Transformer 與循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、長(zhǎng)短期記憶（LSTM）網(wǎng)絡(luò)相比，在處理數(shù)據(jù)時(shí)不僅計(jì)算量小，同時(shí)還有效解決了梯度消失導(dǎo)致的長(zhǎng)時(shí)依賴問(wèn)題。但當(dāng)環(huán)境中涉及多人同時(shí)運(yùn)動(dòng)時(shí)，Transformer 對(duì)于場(chǎng)景中所有人員未來(lái)軌跡的預(yù)測(cè)會(huì)出現(xiàn)較大偏差。并且目前在井下多人軌跡預(yù)測(cè)領(lǐng)域尚未出現(xiàn)一種同時(shí)采用Transformer 并考慮個(gè)體之間相互影響的模型。針對(duì)上述問(wèn)題，提出一種基于SocialTransformer 的井下多人軌跡預(yù)測(cè)方法。首先對(duì)井下每一個(gè)人員獨(dú)立建模，獲取人員歷史軌跡信息，通過(guò)Transformer 編碼器進(jìn)行特征提取，接著由全連接層對(duì)特征進(jìn)行表示，然后通過(guò)基于圖卷積的交互層相互連接，該交互層允許空間上接近的網(wǎng)絡(luò)彼此共享信息，計(jì)算預(yù)測(cè)對(duì)象在受到周圍鄰居影響時(shí)對(duì)周圍鄰居分配的注意力，從而提取其鄰居的運(yùn)動(dòng)模式，繼而更新特征矩陣，最后新的特征矩陣由Transformer 解碼器進(jìn)行解碼，輸出對(duì)于未來(lái)時(shí)刻的人員位置信息預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明， Social Transformer 的平均位移誤差相較于Transformer 降低了45.8%，且與其他主流軌跡預(yù)測(cè)方法LSTM，S?GAN，Trajectron++和Social?STGCNN 相比分別降低了67.1%，35.9%，30.1% 和10.9%，有效克服了煤礦井下多人場(chǎng)景中由于人員間互相影響導(dǎo)致預(yù)測(cè)軌跡失準(zhǔn)的問(wèn)題，提升了預(yù)測(cè)精度。

關(guān)鍵詞：電子圍欄；井下多人軌跡預(yù)測(cè)；Transformer；交互編碼；Social Transformer

中圖分類號(hào)：TD67 文獻(xiàn)標(biāo)志碼：A

0 引言

近年來(lái)電子圍欄技術(shù)在煤礦井下危險(xiǎn)作業(yè)區(qū)域人員安全防護(hù)領(lǐng)域得到廣泛應(yīng)用[1]，但該技術(shù)僅限于對(duì)已發(fā)生危險(xiǎn)進(jìn)行判別，難以預(yù)測(cè)未發(fā)生風(fēng)險(xiǎn)。人員軌跡預(yù)測(cè)技術(shù)通過(guò)學(xué)習(xí)個(gè)體或群體移動(dòng)模式，預(yù)測(cè)未來(lái)行動(dòng)路徑，結(jié)合電子圍欄，能提前識(shí)別潛在危險(xiǎn)，保障井下安全生產(chǎn)。

早期的人員軌跡預(yù)測(cè)采用線性[2]或高斯回歸模型[3-4]、時(shí)間序列分析[5]和自回歸模型[6]手動(dòng)計(jì)算人員未來(lái)位置，不僅計(jì)算量大、耗時(shí)長(zhǎng)，且預(yù)測(cè)誤差較大。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展，Zhang Jianjing 等[7]采用循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）模型表示人員運(yùn)動(dòng)信息，例如人的速度、方向和運(yùn)動(dòng)模式。然而，RNN 的單一信息傳輸通路和多次非線性激活操作在處理長(zhǎng)期序列時(shí)可能導(dǎo)致長(zhǎng)期記憶丟失[8]。為解決該問(wèn)題，Song Xiao 等[9]提出了基于RNN的長(zhǎng)短期記憶（Long Short-Term Memory， LSTM）網(wǎng)絡(luò)模型進(jìn)行人員軌跡預(yù)測(cè)，LSTM 引入了2 條計(jì)算通道，用于解決長(zhǎng)期記憶丟失問(wèn)題。然而，由于LSTM采用順序輸入方式融入序列位置信息，導(dǎo)致模型并行性較差，同時(shí)過(guò)度依賴歷史數(shù)據(jù)，訓(xùn)練復(fù)雜度高。T. Salzmann 等[10]結(jié)合LSTM 與CNN 提出了Trajectron++，能夠針對(duì)多個(gè)互動(dòng)的行人生成多模態(tài)預(yù)測(cè)軌跡，但面臨長(zhǎng)時(shí)間預(yù)測(cè)的問(wèn)題。A. Mohamed等[11]提出的Social?STGCNN（Spatio-Temporal GraphConvolutional Neural Network）通過(guò)建模人與人之間的關(guān)系來(lái)更好地考慮人員與周圍物體相互作用的影響，但模型復(fù)雜且運(yùn)算時(shí)間較長(zhǎng)，不具備實(shí)時(shí)性。V.Shankar 等[12]使用Transformer 進(jìn)行人員軌跡預(yù)測(cè)，具有強(qiáng)大的并行性。與RNN，LSTM 等相比，Transformer在處理數(shù)據(jù)時(shí)顯著降低了計(jì)算負(fù)擔(dān)，同時(shí)有效解決了梯度消失導(dǎo)致的長(zhǎng)時(shí)依賴問(wèn)題。然而，Transformer在處理單人軌跡預(yù)測(cè)方面表現(xiàn)出色，但當(dāng)環(huán)境中涉及多人同時(shí)運(yùn)動(dòng)時(shí)，其對(duì)于場(chǎng)景中所有人員未來(lái)軌跡的預(yù)測(cè)會(huì)出現(xiàn)明顯偏差。這是因?yàn)閭€(gè)體在移動(dòng)過(guò)程中受到周圍人員的影響，而Transformer 在人員軌跡預(yù)測(cè)時(shí)未充分考慮周圍人員的運(yùn)動(dòng)狀態(tài)[13-15]，導(dǎo)致對(duì)目標(biāo)軌跡的預(yù)測(cè)存在偏差。

為解決上述問(wèn)題，本文基于Transformer 設(shè)計(jì)了交互層，提出了一種基于Social Transformer 的井下多人軌跡預(yù)測(cè)方法。對(duì)井下每個(gè)人員進(jìn)行獨(dú)立建模，獲取其歷史軌跡信息，同時(shí)考慮目標(biāo)周圍人員運(yùn)動(dòng)狀態(tài)，通過(guò)交互編碼預(yù)測(cè)井下多人場(chǎng)景中目標(biāo)的未來(lái)軌跡。

1 方法整體結(jié)構(gòu)

基于Social Transformer 的井下多人軌跡預(yù)測(cè)方法的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示。首先通過(guò)Transformer編碼器對(duì)多人歷史軌跡信息進(jìn)行特征提取，接著由全連接層對(duì)特征進(jìn)行表示；然后通過(guò)交互層相互連接，該交互層允許空間上接近的網(wǎng)絡(luò)共享信息，計(jì)算預(yù)測(cè)對(duì)象在受到周圍鄰居影響時(shí)對(duì)周圍鄰居分配的注意力，提取其鄰居的運(yùn)動(dòng)模式，進(jìn)而更新特征矩陣；最后新的特征矩陣由Transformer 解碼器進(jìn)行解碼，輸出對(duì)未來(lái)時(shí)刻的人員位置信息預(yù)測(cè)。

2 Transformer 網(wǎng)絡(luò)模型

2.1 Transformer 網(wǎng)絡(luò)模型結(jié)構(gòu)

Transformer 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2 所示。Transformer 由6 個(gè)編碼器和6 個(gè)解碼器組成。編碼器包含自注意力層、前饋全連接層及規(guī)范化層，負(fù)責(zé)提取輸入序列的特征。解碼器包含自注意力層、編解碼注意力層、前饋全連接層和規(guī)范化層，負(fù)責(zé)將編碼器提取到的特征轉(zhuǎn)換成輸出。將一組包含行人當(dāng)前位置二維坐標(biāo)和歷史位置二維坐標(biāo)的序列輸入Transformer 模型中，通過(guò)位置編碼標(biāo)記時(shí)間戳后進(jìn)入編碼器，然后每一個(gè)編碼器使用上一個(gè)編碼器的輸出作為輸入進(jìn)行特征提取，最后將特征矩陣輸入解碼器進(jìn)行解碼，得到預(yù)測(cè)結(jié)果。

2.2 自注意力機(jī)制

Transformer 以自注意力機(jī)制為核心，自注意力機(jī)制結(jié)構(gòu)如圖3 所示[16]。自注意力機(jī)制可以使模型關(guān)注需要關(guān)注的部分，從而減少因關(guān)注無(wú)關(guān)部分造成的資源浪費(fèi)。對(duì)于一個(gè)序列X，自注意力機(jī)制可以計(jì)算X 中每個(gè)元素之間的相關(guān)程度，從而得到一個(gè)注意力矩陣。自注意力機(jī)制中有3 個(gè)矩陣，分別為Q（Query，提問(wèn)）矩陣、K（Key，鍵）矩陣及對(duì)應(yīng)的V（Value，值）矩陣，Q，K，V 都是對(duì)X 進(jìn)行不同線性變換之后的結(jié)果，都可獨(dú)立作為X 的代表。

圖3 中，首先計(jì)算Q 和K 的點(diǎn)積，為了防止點(diǎn)積結(jié)果過(guò)大，將結(jié)果除以dK（dK為K 的維度），然后利用softmax 將結(jié)果歸一化為概率分布，再乘以V 得到權(quán)重求和的表示。

式中：A（i）為目標(biāo)i 的注意力；T 為輸入序列的長(zhǎng)度。

3 Social Transformer 網(wǎng)絡(luò)模型

Social Transformer 網(wǎng)絡(luò)模型包括時(shí)序建模、周圍人員尋找、信息交互編碼及未來(lái)軌跡預(yù)測(cè)等關(guān)鍵步驟，利用自注意力機(jī)制提取目標(biāo)周圍鄰居的運(yùn)動(dòng)狀態(tài)，并準(zhǔn)確評(píng)估其對(duì)目標(biāo)軌跡的影響程度，彌補(bǔ)了傳統(tǒng)Transformer 網(wǎng)絡(luò)模型在復(fù)雜場(chǎng)景下的局限性，可實(shí)現(xiàn)更精準(zhǔn)的多人軌跡預(yù)測(cè)。

3.1 時(shí)序建模

Social Transformer 對(duì)于多人場(chǎng)景中每一個(gè)行人進(jìn)行獨(dú)立建模，使用Transformer 編碼器對(duì)目標(biāo)歷史軌跡進(jìn)行特征提取，通過(guò)自注意力機(jī)制計(jì)算行人在不同時(shí)刻位置之間的自注意力，從而提取出行人的時(shí)間維度及運(yùn)動(dòng)模式，并且完成時(shí)序建模。

該建模方式不僅能夠更加深入地理解每一個(gè)行人的運(yùn)動(dòng)特征，同時(shí)通過(guò)自注意力機(jī)制，能夠捕捉到行人在不同時(shí)間點(diǎn)上的關(guān)鍵運(yùn)動(dòng)信息，為多人軌跡預(yù)測(cè)提供可靠的時(shí)序基礎(chǔ)。

3.2 周圍人員尋找

令hi = A（i），表示行人 i 對(duì)于自身的注意力。hi可以體現(xiàn)行人i 的運(yùn)動(dòng)特征，通過(guò)建立交互層，將行人i 及其鄰居的特征信息融合，進(jìn)而使得行人i 能夠提取其周圍人員的運(yùn)動(dòng)特征信息，從而對(duì)未來(lái)軌跡做出更好的判斷。

對(duì)于每一時(shí)刻，根據(jù)行人的位置信息構(gòu)建一個(gè)空間圖。由于在1 個(gè)場(chǎng)景中，1 個(gè)人不可能與所有其他人同時(shí)產(chǎn)生聯(lián)系，因此引入距離閾值R，該閾值表示在未來(lái)一段時(shí)間內(nèi)可能與行人i 發(fā)生交互的人與行人i 之間的最大距離。若兩者之間的距離大于R，則表示2 人之間不存在邊；若距離不大于R，則認(rèn)定行人i 將會(huì)與對(duì)方發(fā)生交互，即這2 人之間存在邊，意味著行人i 的未來(lái)行動(dòng)軌跡將受到對(duì)方運(yùn)動(dòng)狀態(tài)的影響。行人i 的鄰居j 的集合為

式中：m 為鄰居數(shù)量：（xit，yit），（xjt ，yjt）分別為行人i、鄰居j 在t 時(shí)刻的位置坐標(biāo)。

3.3 信息交互編碼

對(duì)鄰居j 的信息進(jìn)行交互編碼。本文基于圖卷積設(shè)計(jì)了一種新的交互層，用于將多人的運(yùn)動(dòng)特征進(jìn)行信息融合。

自注意力機(jī)制可看作是無(wú)向全連接圖上的消息傳遞，具體而言，對(duì)于行人i 的運(yùn)動(dòng)特征信息hi，提取矩陣Q 的行向量qi、矩陣K 的行向量及矩陣V 的行向量vi。同理，對(duì)于鄰居j，提取其矩陣Q 的行向量qj、矩陣K 的行向量kj及矩陣V 的行向量vj。則可定義圖卷積中從鄰居j 到行人i 的消息傳遞為

Mj→i = qikTj（3）

本文設(shè)計(jì)的交互層可以理解為一個(gè)基于注意力的圖卷積機(jī)制，行人間的信息可通過(guò)圖的邊進(jìn)行傳遞。對(duì)于任意圖G，G 含有m 個(gè)節(jié)點(diǎn)（表示鄰居），代表場(chǎng)景內(nèi)m 個(gè)預(yù)測(cè)對(duì)象，這些對(duì)象互相連接。在圖G 中，行人i 對(duì)于其鄰居j 分配的注意力為

式中dki為ki的維度。

因此，行人i 對(duì)于所有鄰居分配的注意力為

式中f （·）為全連接操作，通過(guò)全連接層將行人 i 的鄰居j 的特征信息進(jìn)行初步融合。

行人與附近人員信息交互過(guò)程如圖4 所示。在階段1，將行人i 與附近人員抽象到二維坐標(biāo)系中，其中黑色圓圈代表行人i，其余圓圈代表附近人員；在階段2，在一定的空間距離內(nèi)選取行人i 周圍鄰居；在階段3 與階段4，將行人i 周圍鄰居的特征信息進(jìn)行匯聚。

Social Transformer 網(wǎng)絡(luò)模型在預(yù)測(cè)行人i 的未來(lái)軌跡時(shí)，不僅要考慮其周圍鄰居的運(yùn)動(dòng)特征，還需要將行人i 本身的運(yùn)動(dòng)特征作為重要考量，因此，將行人i 對(duì)自身的注意力及對(duì)所有鄰居的注意力進(jìn)行進(jìn)一步信息融合：

最后，通過(guò)一個(gè)具有ReLU 非線性的嵌入函數(shù)φ（·）的編碼器優(yōu)化特征[17-18]，完成信息交互編碼。

Aopt （i） = encoder （φ（A（i））;C）（8）

式中：Aopt （i）為優(yōu)化后的行人i 對(duì)自身的注意力及對(duì)所有鄰居的注意力融合結(jié)果；encoder（·）為編碼操作；為初始值大于0 且小于1 的隨機(jī)平均數(shù)，隨著模型不斷迭代訓(xùn)練調(diào)整，直到模型性能達(dá)到最優(yōu)。

3.4 未來(lái)軌跡預(yù)測(cè)

Zi作為編碼器最終的輸出，輸入到解碼器中。在解碼器每一層，使用上個(gè)時(shí)間點(diǎn)的預(yù)測(cè)結(jié)果、上一層解碼器的輸出及上一層編碼器輸出的特征矩陣進(jìn)行解碼。預(yù)測(cè)時(shí)，本文選取最后一個(gè)時(shí)刻的特征矩陣，與高斯噪聲結(jié)合后進(jìn)行預(yù)測(cè)。目的是能較好地對(duì)軌跡預(yù)測(cè)中的不確定性進(jìn)行建模，并可用于產(chǎn)生多種預(yù)測(cè)結(jié)果。最后得到行人i 在未來(lái)一段時(shí)間內(nèi)的軌跡預(yù)測(cè)。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

為了定量評(píng)估本文方法在進(jìn)行井下多人軌跡預(yù)測(cè)時(shí)的效果，本文使用5 個(gè)人員軌跡預(yù)測(cè)數(shù)據(jù)集，包括4 個(gè)開(kāi)放數(shù)據(jù)集及1 個(gè)由數(shù)百段不同井下場(chǎng)景視頻構(gòu)成的煤礦井下人員軌跡自建數(shù)據(jù)集。

BIWI Hotel， Crowds UCY， MOT PETS 及SDD（Stanford Drone Dataset）數(shù)據(jù)集為人員軌跡預(yù)測(cè)領(lǐng)域較為權(quán)威的4 個(gè)開(kāi)放數(shù)據(jù)集，包含酒店、街道等人員密集場(chǎng)景，共有11 448 條人員軌跡。自建數(shù)據(jù)集由896 條井下人員軌跡構(gòu)成，包含12 座井工礦的井下變電所、井下水泵房、井下車場(chǎng)、膠帶行人側(cè)等場(chǎng)景的多人軌跡數(shù)據(jù)，能較為全面地覆蓋煤礦井下行人場(chǎng)景。

為衡量多人軌跡預(yù)測(cè)方法的精度，引入平均位移誤差（Average Displacement Error， ADE）作為評(píng)價(jià)指標(biāo)[19]，該指標(biāo)是指預(yù)測(cè)軌跡和真值軌跡所有點(diǎn)的平均歐氏距離，能夠反映預(yù)測(cè)軌跡的整體準(zhǔn)確性。

式中：F 為預(yù)測(cè)的未來(lái)坐標(biāo)的數(shù)量；xgtn為第 n 個(gè)坐標(biāo)的基準(zhǔn)位置；xpredn為第 n 個(gè)坐標(biāo)的預(yù)測(cè)位置。

4.2 模型訓(xùn)練

Social Transformer 網(wǎng)絡(luò)模型在具有Theano[20]的單個(gè)GPU 上進(jìn)行訓(xùn)練。為了在訓(xùn)練模型時(shí)充分利用數(shù)據(jù)集，本文使用留一法，從5 個(gè)數(shù)據(jù)集中選擇4 個(gè)作為訓(xùn)練集，使用這4 個(gè)訓(xùn)練集來(lái)訓(xùn)練模型，將剩余的1 個(gè)數(shù)據(jù)集作為測(cè)試集，用于評(píng)估模型性能，重復(fù)上述步驟，確保每個(gè)數(shù)據(jù)集都作為測(cè)試集被使用1 次，從而覆蓋所有可能的組合。模型訓(xùn)練時(shí)，輸入的人員歷史位置坐標(biāo)首先通過(guò)全連接層編碼為一個(gè)大小為32（代表一次性能輸入32 個(gè)人員位置坐標(biāo)）的向量，隨后經(jīng)過(guò)ReLU 激活函數(shù)處理。處理輸入數(shù)據(jù)時(shí)，設(shè)置丟棄比率為0.1，嵌入特征的維度為32。為了找到最佳學(xué)習(xí)率，在簡(jiǎn)化版本的模型上進(jìn)行超參數(shù)搜索，范圍為0.000 1～ 0.004，間隔為0.000 1，并選擇最佳性能的學(xué)習(xí)率（0.001 5）來(lái)訓(xùn)練模型。本文使用Adam 優(yōu)化器，批量大小為16，進(jìn)行300 個(gè)epochs 的網(wǎng)絡(luò)訓(xùn)練。每個(gè)批次包含大約256個(gè)行人，在不同的時(shí)間窗口內(nèi)，通過(guò)一個(gè)注意力掩碼矩陣掩蓋掉當(dāng)前時(shí)刻之后的信息，以加速訓(xùn)練過(guò)程。采用的損失函數(shù)為

4.3 定量實(shí)驗(yàn)

在定量實(shí)驗(yàn)中，對(duì)于場(chǎng)景中的每一個(gè)人，預(yù)測(cè)其12 幀（4.8 s）內(nèi)的運(yùn)動(dòng)軌跡。將Social Transformer 與LSTM， Transformer， S?GAN[21]（Sequential GenerativeAdversarial Networks）， Trajectron++， Social?STGCNN進(jìn)行比較，每種方法重復(fù)運(yùn)行20 次，最終取平均值，結(jié)果見(jiàn)表1。

由表1 可看出， Social Transformer 在5 種數(shù)據(jù)集的測(cè)試中， ADE 均為最低，表現(xiàn)優(yōu)異。相比于Transformer，Social Transformer 在ADE 指標(biāo)上降低了46.8%，精度提升明顯，由此可見(jiàn)，在Transformer 中加入交互層能夠大幅提升模型在多人軌跡預(yù)測(cè)時(shí)的精度。

井下場(chǎng)所的智能視頻分析對(duì)于實(shí)時(shí)性要求很高，因此對(duì)上述6 種方法的訓(xùn)練時(shí)間及預(yù)測(cè)時(shí)間進(jìn)行比較，結(jié)果如圖5 所示。對(duì)于相同的訓(xùn)練集，LSTM 訓(xùn)練時(shí)間為89 h，預(yù)測(cè)時(shí)間為198 ms，均為最高。Trajectron++和Social?STGCNN 在訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間上的表現(xiàn)較為優(yōu)秀，分別為44 h、43 ms 和49 h、29 ms。而Social Transformer 在訓(xùn)練和預(yù)測(cè)2 個(gè)階段都表現(xiàn)出較高的效率，具有最短的訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間，分別為29 h、22 ms，在6 種軌跡預(yù)測(cè)方法中耗時(shí)最少。

4.4 消融實(shí)驗(yàn)

在進(jìn)行人員軌跡預(yù)測(cè)時(shí)，預(yù)測(cè)序列長(zhǎng)度及歷史數(shù)據(jù)的多少是影響預(yù)測(cè)結(jié)果的重要因素，為分析這2 種因素對(duì)于本文方法進(jìn)行多人軌跡預(yù)測(cè)結(jié)果的影響，進(jìn)行消融實(shí)驗(yàn)。

4.4.1 預(yù)測(cè)序列長(zhǎng)度對(duì)軌跡預(yù)測(cè)效果的影響

將預(yù)測(cè)序列從12 幀（4.8 s）更改為28 幀（11.2 s），挑選來(lái)自5 個(gè)數(shù)據(jù)集的1 000 條人員軌跡進(jìn)行實(shí)驗(yàn)，各方法預(yù)測(cè)結(jié)果見(jiàn)表2。

由表2 可看出，3 種方法在進(jìn)行人員軌跡預(yù)測(cè)時(shí)的誤差均會(huì)隨著預(yù)測(cè)時(shí)間的延長(zhǎng)而增加，其中SocialTransformer 的ADE 最低。從預(yù)測(cè)未來(lái)12 幀到預(yù)測(cè)未來(lái)28 幀，LSTM 的ADE 提高了181%，而Transformer與Social Transformer 的ADE 分別提高了93% 和66%。Social Transformer 在預(yù)測(cè)序列長(zhǎng)度增加后的誤差增長(zhǎng)幅度明顯低于LSTM，略低于Transformer，這是由于Social Transformer 在進(jìn)行人員軌跡預(yù)測(cè)時(shí)，會(huì)將周圍人員的運(yùn)動(dòng)狀態(tài)及其未來(lái)軌跡一起進(jìn)行交互編碼，對(duì)于預(yù)測(cè)長(zhǎng)時(shí)間的序列具有更好的穩(wěn)定性。

4.4.2 歷史數(shù)據(jù)缺失對(duì)軌跡預(yù)測(cè)效果的影響

分別設(shè)定不同程度的歷史數(shù)據(jù)缺失，挑選來(lái)自5 個(gè)數(shù)據(jù)集的1 000 條人員軌跡進(jìn)行實(shí)驗(yàn)，各方法預(yù)測(cè)結(jié)果見(jiàn)表3。

由表3 可看出，缺失歷史數(shù)據(jù)會(huì)提高預(yù)測(cè)結(jié)果的ADE，其中，LSTM 尤其難以處理歷史數(shù)據(jù)缺失問(wèn)題，一旦缺失數(shù)據(jù)量過(guò)大，預(yù)測(cè)結(jié)果準(zhǔn)確性將受到極大影響，在缺失6 幀時(shí)，LSTM 的ADE 較無(wú)缺失情況提升了87%；相比之下，Transformer 和Social Transformer在面對(duì)歷史數(shù)據(jù)缺失時(shí)，其ADE 的提升幅度較小，分別提高了33%，29%。

4.5 定性實(shí)驗(yàn)

采用井下多人場(chǎng)景（中央變電所、水泵房及副井口車輛轉(zhuǎn)載點(diǎn)）的視頻進(jìn)行定性實(shí)驗(yàn)，分別使用LSTM， Transformer， Social Transformer 對(duì)人員未來(lái)7 幀（2.8 s）的運(yùn)動(dòng)軌跡進(jìn)行預(yù)測(cè)，并對(duì)視頻中人員預(yù)測(cè)軌跡與基準(zhǔn)軌跡的重合程度進(jìn)行主觀判斷，預(yù)測(cè)效果分別如圖6?圖9 所示，紅色方框?yàn)槿藛T歷史軌跡，藍(lán)色方框?yàn)槿藛T基準(zhǔn)軌跡，黃色方框?yàn)槿藛T預(yù)測(cè)軌跡。

由圖6 可看出，對(duì)單人場(chǎng)景的人員軌跡進(jìn)行預(yù)測(cè)時(shí)， Transformer 與Social Transformer 的預(yù)測(cè)效果基本相同，預(yù)測(cè)軌跡和基準(zhǔn)軌跡基本無(wú)偏差，而使用LSTM 處理后的預(yù)測(cè)軌跡則與基準(zhǔn)軌跡產(chǎn)生少量偏差。由圖7（a）、圖8（a）可看出，對(duì)多人場(chǎng)景的人員軌跡進(jìn)行預(yù)測(cè)時(shí)，采用LSTM 處理后的預(yù)測(cè)軌跡與基準(zhǔn)軌跡從前2 幀開(kāi)始就出現(xiàn)誤差，且誤差隨著預(yù)測(cè)時(shí)間延長(zhǎng)而增加，導(dǎo)致對(duì)于最終位置的預(yù)測(cè)偏差較大。由圖9（a）可看出，LSTM 在預(yù)測(cè)時(shí)傾向于沿用歷史軌跡的運(yùn)動(dòng)趨勢(shì)，并未考慮對(duì)向行人的運(yùn)動(dòng)狀態(tài)，從而造成預(yù)測(cè)失準(zhǔn)現(xiàn)象。由圖7（b）、圖8（b）、圖9（b）可看出，采用Transformer 預(yù)測(cè)的效果比LSTM 略好，預(yù)測(cè)軌跡與基準(zhǔn)軌跡更貼近，這是因?yàn)門ransformer 會(huì)更好地利用歷史數(shù)據(jù)對(duì)未來(lái)做出推測(cè)，而LSTM 由于梯度消失，造成預(yù)測(cè)結(jié)果失準(zhǔn)。由圖7（c）、圖8（c）、圖9（c）可看出，采用SocialTransformer 預(yù)測(cè)時(shí)，盡管每一幀的預(yù)測(cè)位置與基準(zhǔn)位置略有偏差，但由于考慮了周圍人員的運(yùn)動(dòng)狀態(tài)，使得整體預(yù)測(cè)軌跡與基準(zhǔn)軌跡保持近似。因此Social Transformer 相較于LSTM 和Transformer，在進(jìn)行多人場(chǎng)景的人員軌跡預(yù)測(cè)時(shí)具有一定的精度提升效果。

5 結(jié)論

1）基于Transformer 模型進(jìn)行改進(jìn)，并將改進(jìn)后的Social Transformer 網(wǎng)絡(luò)模型用于井下多人軌跡預(yù)測(cè)。采用時(shí)序建模，提取行人的時(shí)間維度運(yùn)動(dòng)模式，確定目標(biāo)周圍鄰居；通過(guò)設(shè)計(jì)交互層，使用自注意力機(jī)制提取目標(biāo)鄰居運(yùn)動(dòng)狀態(tài)對(duì)于目標(biāo)未來(lái)軌跡的影響；將預(yù)測(cè)目標(biāo)及其鄰居的運(yùn)動(dòng)特征信息進(jìn)行融合，從而更精準(zhǔn)地預(yù)測(cè)目標(biāo)未來(lái)軌跡。

2）實(shí)驗(yàn)結(jié)果表明，Social Transformer 的ADE 相較于Transformer 降低了45.8%，且與主流軌跡預(yù)測(cè)方法LSTM，S?GAN，Trajectron++和Social?STGCNN相比分別降低了67.1%，35.9%，30.1% 和10.9%，有效解決了煤礦井下多人場(chǎng)景中由于人員間互相影響導(dǎo)致預(yù)測(cè)軌跡失準(zhǔn)的問(wèn)題，能夠同時(shí)預(yù)測(cè)多人軌跡，提升了預(yù)測(cè)精度。

參考文獻(xiàn)（References）：

[ 1 ]劉海忠. 電子圍欄中心監(jiān)控平臺(tái)的設(shè)計(jì)與開(kāi)發(fā)[D]. 武漢：華中師范大學(xué)，2012.

LIU Haizhong. Design and development of centermonitoring platform for electronic fence[D]. Wuhan：Central China Normal University，2012.

[ 2 ]JEONG N Y，LIM S H，LIM E，et al. Pragmatic clinicaltrials for real-world evidence： concept andimplementation[J]. Cardiovascular Pevention andPharmacotherapy，2020，2（3）：85-98.

[ 3 ]KLENSKE E D， ZEILINGER M N， SCHOLKOPF B，et al. Gaussian process-based predictive control forperiodic error correction[J]. IEEE Transactions onControl Systems Technology，2016，24（1）：110-121.

[ 4 ]HUNT K J， SBARBARO D， ?BIKOWSKI R， et al.Neural networks for control systems-a survey[J].Automatica，1992，28（6）：1083-1112.

[ 5 ]PRESTON D B. Spectral analysis and time series[J].Technometrics，1983，25（2）：213-214.

[ 6 ]AKAIKE H. Fitting autoregreesive models forprediction[M]//PARZEN E，TANABE K，KITAGAWAG. Selected papers of Hirotugu Akaike. New York：Springer-Verlag New York Inc，1998：131-135.

[ 7 ]ZHANG Jianjing， LIU Hongyi， CHANG Qing， et al.Recurrent neural network for motion trajectoryprediction in human-robot collaborative assembly[J].CIRP Annals，2020，69（1）：9-12.

[ 8 ]SHERSTINSKY A. Fundamentals of recurrent neuralnetwork （RNN） and long short-term memory （LSTM）network[J]. Physica D： Nonlinear Phenomena， 2020.DOI：10.1016/j.physd.2019.132306.

[ 9 ]SONG Xiao， CHEN Kai， LI Xu， et al. Pedestriantrajectory prediction based on deep convolutional LSTMnetwork[J]. IEEE Transactions on IntelligentTransportation Systems，2020，22（6）：3285-3302.

[10]SALZMANN T， IVANOVIC B， CHAKRAVARTY P，et al. Trajectron++： dynamically-feasible trajectoryforecasting with heterogeneous data[C]. 16th EuropeanConference on Computer Vision， Glasgow， 2020：683-700.

[11]MOHAMED A， QIAN Kun， ELHOSEINY M， et al.Social-STGCNN： a social spatio-temporal graphconvolutional neural network for human trajectoryprediction[C]. IEEE/CVF Conference on ComputerVision and Pattern Recognition， Seattle， 2020：14424-14432.

[12] SHANKAR V， YOUSEFI E， MANASHTY A， et al.Clinical-GAN： trajectory forecasting of clinical eventsusing transformer and generative adversarialnetworks[J]. Artificial Intelligence in Medicine， 2023，138. DOI：10.1016/j.artmed.2023.102507.

[13]HAN Kai， WANG Yunhe， CHEN Hanting， et al. Asurvey on vision transformer[J]. IEEE Transactions onPattern Analysis and Machine Intelligence， 2023，45（1）：87-110.

[14]GRAHAM B， EL-NOUBY A， TOUVRON H， et al.LeViT： a vision transformer in ConvNet’s clothing forfaster inference[C]. IEEE/CVF International Conferenceon Computer Vision，Montreal，2021：12259-12269.

[15]ARNAB A， DEHGHANI M， HEIGOLD G， et al.ViViT： a video vision transformer[C]. IEEE/CVFInternational Conference on Computer Vision，Montreal，2021：6836-6846.

[16]VASWANI A， SHAZEER N， PARMAR N， et al.Attention is all you need[C]. 31st Conference on NeuralInformation Processing Systems， Long Beach， 2017：5998-6008.

[17]劉赟. ReLU 激活函數(shù)下卷積神經(jīng)網(wǎng)絡(luò)的不同類型噪聲增益研究[D]. 南京：南京郵電大學(xué)，2023.

LIU Yun. Research on different types of noise gain inconvolutional neural networks under ReLU activationfunction[D]. Nanjing： Nanjing University of Posts andTelecommunications，2023.

[18]靳晶晶，王佩. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法研究[J]. 通信與信息技術(shù)，2022（2）：76-81.

JIN Jingjing， WANG Pei. Research on imagerecognition algorithm based on convolutional neuralnetwork[J]. Communications and InformationTechnology，2022（2）：76-81.

[19]ALAHI A，GOEL K，RAMANATHAN V，et al. SocialLSTM： human trajectory prediction in crowdedspaces[C]. IEEE Conference on Computer Vision andPattern Recognition，Las Vegas，2016：961-971.

[20]BERGSTRA J， BREULEUX O， BASTIEN F， et al.Theano： a CPU and GPU math compiler in Python[C].The 9th Python in Science Conference， 2010. DOI：10.25080/majora-92bf1922-003.

[21]PESARANGHADER A， WANG Yiping， HAVAEI M.CT-SGAN： computed tomography synthesis GAN[C]//ENGELHARDT S，OKSUZ I，ZHU Dajiang，et al. Deepgenerative models， and data augmentation， labelling，and imperfections. Berlin：Springer-Verlag，2021：67-79.

基金項(xiàng)目：中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)項(xiàng)目（FRF-TP-24-060A）；天地科技股份有限公司科技創(chuàng)新創(chuàng)業(yè)資金專項(xiàng)項(xiàng)目（2023-TDZD005-005，2023CG-ZB-10）。

工礦自動(dòng)化2024年5期

工礦自動(dòng)化的其它文章: 基于改進(jìn)人工勢(shì)場(chǎng)算法的煤礦井下機(jī)器人路徑規(guī)劃; 基于YOLOv5s?FSW 模型的選煤廠煤矸檢測(cè)研究; 原煤與型煤損傷破壞的應(yīng)力聲發(fā)射變化特征對(duì)比研究; 基于工業(yè)互聯(lián)網(wǎng)的煤礦綜采設(shè)備信息模型研究; 細(xì)粒煤分級(jí)溢流顆粒粒度在線檢測(cè)研究; 基于時(shí)間序列對(duì)齊和TCNformer 的重介精煤灰分多步預(yù)測(cè)