


















摘要:目前煤礦井下人員軌跡預(yù)測(cè)方法中,Transformer 與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)相比,在處理數(shù)據(jù)時(shí)不僅計(jì)算量小,同時(shí)還有效解決了梯度消失導(dǎo)致的長(zhǎng)時(shí)依賴問(wèn)題。但當(dāng)環(huán)境中涉及多人同時(shí)運(yùn)動(dòng)時(shí),Transformer 對(duì)于場(chǎng)景中所有人員未來(lái)軌跡的預(yù)測(cè)會(huì)出現(xiàn)較大偏差。并且目前在井下多人軌跡預(yù)測(cè)領(lǐng)域尚未出現(xiàn)一種同時(shí)采用Transformer 并考慮個(gè)體之間相互影響的模型。針對(duì)上述問(wèn)題,提出一種基于SocialTransformer 的井下多人軌跡預(yù)測(cè)方法。首先對(duì)井下每一個(gè)人員獨(dú)立建模,獲取人員歷史軌跡信息,通過(guò)Transformer 編碼器進(jìn)行特征提取,接著由全連接層對(duì)特征進(jìn)行表示,然后通過(guò)基于圖卷積的交互層相互連接,該交互層允許空間上接近的網(wǎng)絡(luò)彼此共享信息,計(jì)算預(yù)測(cè)對(duì)象在受到周圍鄰居影響時(shí)對(duì)周圍鄰居分配的注意力,從而提取其鄰居的運(yùn)動(dòng)模式,繼而更新特征矩陣,最后新的特征矩陣由Transformer 解碼器進(jìn)行解碼,輸出對(duì)于未來(lái)時(shí)刻的人員位置信息預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明, Social Transformer 的平均位移誤差相較于Transformer 降低了45.8%,且與其他主流軌跡預(yù)測(cè)方法LSTM,S?GAN,Trajectron++和Social?STGCNN 相比分別降低了67.1%,35.9%,30.1% 和10.9%,有效克服了煤礦井下多人場(chǎng)景中由于人員間互相影響導(dǎo)致預(yù)測(cè)軌跡失準(zhǔn)的問(wèn)題,提升了預(yù)測(cè)精度。
關(guān)鍵詞:電子圍欄;井下多人軌跡預(yù)測(cè);Transformer;交互編碼;Social Transformer
中圖分類號(hào):TD67 文獻(xiàn)標(biāo)志碼:A
0 引言
近年來(lái)電子圍欄技術(shù)在煤礦井下危險(xiǎn)作業(yè)區(qū)域人員安全防護(hù)領(lǐng)域得到廣泛應(yīng)用[1],但該技術(shù)僅限于對(duì)已發(fā)生危險(xiǎn)進(jìn)行判別,難以預(yù)測(cè)未發(fā)生風(fēng)險(xiǎn)。人員軌跡預(yù)測(cè)技術(shù)通過(guò)學(xué)習(xí)個(gè)體或群體移動(dòng)模式,預(yù)測(cè)未來(lái)行動(dòng)路徑,結(jié)合電子圍欄,能提前識(shí)別潛在危險(xiǎn),保障井下安全生產(chǎn)。
早期的人員軌跡預(yù)測(cè)采用線性[2]或高斯回歸模型[3-4]、時(shí)間序列分析[5]和自回歸模型[6]手動(dòng)計(jì)算人員未來(lái)位置,不僅計(jì)算量大、耗時(shí)長(zhǎng),且預(yù)測(cè)誤差較大。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,Zhang Jianjing 等[7]采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型表示人員運(yùn)動(dòng)信息,例如人的速度、方向和運(yùn)動(dòng)模式。然而,RNN 的單一信息傳輸通路和多次非線性激活操作在處理長(zhǎng)期序列時(shí)可能導(dǎo)致長(zhǎng)期記憶丟失[8]。為解決該問(wèn)題,Song Xiao 等[9]提出了基于RNN的長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)模型進(jìn)行人員軌跡預(yù)測(cè),LSTM 引入了2 條計(jì)算通道,用于解決長(zhǎng)期記憶丟失問(wèn)題。然而,由于LSTM采用順序輸入方式融入序列位置信息,導(dǎo)致模型并行性較差, 同時(shí)過(guò)度依賴歷史數(shù)據(jù), 訓(xùn)練復(fù)雜度高。T. Salzmann 等[10]結(jié)合LSTM 與CNN 提出了Trajectron++,能夠針對(duì)多個(gè)互動(dòng)的行人生成多模態(tài)預(yù)測(cè)軌跡,但面臨長(zhǎng)時(shí)間預(yù)測(cè)的問(wèn)題。A. Mohamed等[11]提出的Social?STGCNN(Spatio-Temporal GraphConvolutional Neural Network)通過(guò)建模人與人之間的關(guān)系來(lái)更好地考慮人員與周圍物體相互作用的影響,但模型復(fù)雜且運(yùn)算時(shí)間較長(zhǎng),不具備實(shí)時(shí)性。V.Shankar 等[12]使用Transformer 進(jìn)行人員軌跡預(yù)測(cè),具有強(qiáng)大的并行性。與RNN,LSTM 等相比,Transformer在處理數(shù)據(jù)時(shí)顯著降低了計(jì)算負(fù)擔(dān),同時(shí)有效解決了梯度消失導(dǎo)致的長(zhǎng)時(shí)依賴問(wèn)題。然而,Transformer在處理單人軌跡預(yù)測(cè)方面表現(xiàn)出色,但當(dāng)環(huán)境中涉及多人同時(shí)運(yùn)動(dòng)時(shí),其對(duì)于場(chǎng)景中所有人員未來(lái)軌跡的預(yù)測(cè)會(huì)出現(xiàn)明顯偏差。這是因?yàn)閭€(gè)體在移動(dòng)過(guò)程中受到周圍人員的影響,而Transformer 在人員軌跡預(yù)測(cè)時(shí)未充分考慮周圍人員的運(yùn)動(dòng)狀態(tài)[13-15],導(dǎo)致對(duì)目標(biāo)軌跡的預(yù)測(cè)存在偏差。
為解決上述問(wèn)題,本文基于Transformer 設(shè)計(jì)了交互層,提出了一種基于Social Transformer 的井下多人軌跡預(yù)測(cè)方法。對(duì)井下每個(gè)人員進(jìn)行獨(dú)立建模,獲取其歷史軌跡信息,同時(shí)考慮目標(biāo)周圍人員運(yùn)動(dòng)狀態(tài),通過(guò)交互編碼預(yù)測(cè)井下多人場(chǎng)景中目標(biāo)的未來(lái)軌跡。
1 方法整體結(jié)構(gòu)
基于Social Transformer 的井下多人軌跡預(yù)測(cè)方法的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示。首先通過(guò)Transformer編碼器對(duì)多人歷史軌跡信息進(jìn)行特征提取,接著由全連接層對(duì)特征進(jìn)行表示;然后通過(guò)交互層相互連接,該交互層允許空間上接近的網(wǎng)絡(luò)共享信息,計(jì)算預(yù)測(cè)對(duì)象在受到周圍鄰居影響時(shí)對(duì)周圍鄰居分配的注意力,提取其鄰居的運(yùn)動(dòng)模式,進(jìn)而更新特征矩陣;最后新的特征矩陣由Transformer 解碼器進(jìn)行解碼,輸出對(duì)未來(lái)時(shí)刻的人員位置信息預(yù)測(cè)。
2 Transformer 網(wǎng)絡(luò)模型
2.1 Transformer 網(wǎng)絡(luò)模型結(jié)構(gòu)
Transformer 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2 所示。Transformer 由6 個(gè)編碼器和6 個(gè)解碼器組成。編碼器包含自注意力層、前饋全連接層及規(guī)范化層,負(fù)責(zé)提取輸入序列的特征。解碼器包含自注意力層、編解碼注意力層、前饋全連接層和規(guī)范化層,負(fù)責(zé)將編碼器提取到的特征轉(zhuǎn)換成輸出。將一組包含行人當(dāng)前位置二維坐標(biāo)和歷史位置二維坐標(biāo)的序列輸入Transformer 模型中,通過(guò)位置編碼標(biāo)記時(shí)間戳后進(jìn)入編碼器,然后每一個(gè)編碼器使用上一個(gè)編碼器的輸出作為輸入進(jìn)行特征提取,最后將特征矩陣輸入解碼器進(jìn)行解碼,得到預(yù)測(cè)結(jié)果。
2.2 自注意力機(jī)制
Transformer 以自注意力機(jī)制為核心,自注意力機(jī)制結(jié)構(gòu)如圖3 所示[16]。自注意力機(jī)制可以使模型關(guān)注需要關(guān)注的部分,從而減少因關(guān)注無(wú)關(guān)部分造成的資源浪費(fèi)。對(duì)于一個(gè)序列X,自注意力機(jī)制可以計(jì)算X 中每個(gè)元素之間的相關(guān)程度,從而得到一個(gè)注意力矩陣。自注意力機(jī)制中有3 個(gè)矩陣,分別為Q(Query, 提問(wèn)) 矩陣、K(Key, 鍵) 矩陣及對(duì)應(yīng)的V(Value,值)矩陣,Q,K,V 都是對(duì)X 進(jìn)行不同線性變換之后的結(jié)果,都可獨(dú)立作為X 的代表。
圖3 中,首先計(jì)算Q 和K 的點(diǎn)積,為了防止點(diǎn)積結(jié)果過(guò)大,將結(jié)果除以dK(dK為K 的維度),然后利用softmax 將結(jié)果歸一化為概率分布,再乘以V 得到權(quán)重求和的表示。
式中:A(i) 為目標(biāo)i 的注意力;T 為輸入序列的長(zhǎng)度。
3 Social Transformer 網(wǎng)絡(luò)模型
Social Transformer 網(wǎng)絡(luò)模型包括時(shí)序建模、周圍人員尋找、信息交互編碼及未來(lái)軌跡預(yù)測(cè)等關(guān)鍵步驟,利用自注意力機(jī)制提取目標(biāo)周圍鄰居的運(yùn)動(dòng)狀態(tài),并準(zhǔn)確評(píng)估其對(duì)目標(biāo)軌跡的影響程度,彌補(bǔ)了傳統(tǒng)Transformer 網(wǎng)絡(luò)模型在復(fù)雜場(chǎng)景下的局限性,可實(shí)現(xiàn)更精準(zhǔn)的多人軌跡預(yù)測(cè)。
3.1 時(shí)序建模
Social Transformer 對(duì)于多人場(chǎng)景中每一個(gè)行人進(jìn)行獨(dú)立建模,使用Transformer 編碼器對(duì)目標(biāo)歷史軌跡進(jìn)行特征提取,通過(guò)自注意力機(jī)制計(jì)算行人在不同時(shí)刻位置之間的自注意力,從而提取出行人的時(shí)間維度及運(yùn)動(dòng)模式,并且完成時(shí)序建模。
該建模方式不僅能夠更加深入地理解每一個(gè)行人的運(yùn)動(dòng)特征,同時(shí)通過(guò)自注意力機(jī)制,能夠捕捉到行人在不同時(shí)間點(diǎn)上的關(guān)鍵運(yùn)動(dòng)信息,為多人軌跡預(yù)測(cè)提供可靠的時(shí)序基礎(chǔ)。
3.2 周圍人員尋找
令hi = A(i),表示行人 i 對(duì)于自身的注意力。hi可以體現(xiàn)行人i 的運(yùn)動(dòng)特征,通過(guò)建立交互層,將行人i 及其鄰居的特征信息融合,進(jìn)而使得行人i 能夠提取其周圍人員的運(yùn)動(dòng)特征信息,從而對(duì)未來(lái)軌跡做出更好的判斷。
對(duì)于每一時(shí)刻,根據(jù)行人的位置信息構(gòu)建一個(gè)空間圖。由于在1 個(gè)場(chǎng)景中,1 個(gè)人不可能與所有其他人同時(shí)產(chǎn)生聯(lián)系,因此引入距離閾值R,該閾值表示在未來(lái)一段時(shí)間內(nèi)可能與行人i 發(fā)生交互的人與行人i 之間的最大距離。若兩者之間的距離大于R,則表示2 人之間不存在邊;若距離不大于R,則認(rèn)定行人i 將會(huì)與對(duì)方發(fā)生交互,即這2 人之間存在邊,意味著行人i 的未來(lái)行動(dòng)軌跡將受到對(duì)方運(yùn)動(dòng)狀態(tài)的影響。行人i 的鄰居j 的集合為
式中:m 為鄰居數(shù)量:(xit,yit),(xjt ,yjt)分別為行人i、鄰居j 在t 時(shí)刻的位置坐標(biāo)。
3.3 信息交互編碼
對(duì)鄰居j 的信息進(jìn)行交互編碼。本文基于圖卷積設(shè)計(jì)了一種新的交互層,用于將多人的運(yùn)動(dòng)特征進(jìn)行信息融合。
自注意力機(jī)制可看作是無(wú)向全連接圖上的消息傳遞,具體而言,對(duì)于行人i 的運(yùn)動(dòng)特征信息hi,提取矩陣Q 的行向量qi、矩陣K 的行向量及矩陣V 的行向量vi。同理,對(duì)于鄰居j,提取其矩陣Q 的行向量qj、矩陣K 的行向量kj及矩陣V 的行向量vj。則可定義圖卷積中從鄰居j 到行人i 的消息傳遞為
Mj→i = qikTj(3)
本文設(shè)計(jì)的交互層可以理解為一個(gè)基于注意力的圖卷積機(jī)制,行人間的信息可通過(guò)圖的邊進(jìn)行傳遞。對(duì)于任意圖G,G 含有m 個(gè)節(jié)點(diǎn)(表示鄰居),代表場(chǎng)景內(nèi)m 個(gè)預(yù)測(cè)對(duì)象,這些對(duì)象互相連接。在圖G 中,行人i 對(duì)于其鄰居j 分配的注意力為
式中dki為ki的維度。
因此,行人i 對(duì)于所有鄰居分配的注意力為
式中f (·) 為全連接操作,通過(guò)全連接層將行人 i 的鄰居j 的特征信息進(jìn)行初步融合。
行人與附近人員信息交互過(guò)程如圖4 所示。在階段1,將行人i 與附近人員抽象到二維坐標(biāo)系中,其中黑色圓圈代表行人i,其余圓圈代表附近人員;在階段2,在一定的空間距離內(nèi)選取行人i 周圍鄰居;在階段3 與階段4,將行人i 周圍鄰居的特征信息進(jìn)行匯聚。
Social Transformer 網(wǎng)絡(luò)模型在預(yù)測(cè)行人i 的未來(lái)軌跡時(shí),不僅要考慮其周圍鄰居的運(yùn)動(dòng)特征,還需要將行人i 本身的運(yùn)動(dòng)特征作為重要考量,因此,將行人i 對(duì)自身的注意力及對(duì)所有鄰居的注意力進(jìn)行進(jìn)一步信息融合:
最后,通過(guò)一個(gè)具有ReLU 非線性的嵌入函數(shù)φ(·)的編碼器優(yōu)化特征[17-18],完成信息交互編碼。
Aopt (i) = encoder (φ(A(i));C) (8)
式中:Aopt (i)為優(yōu)化后的行人i 對(duì)自身的注意力及對(duì)所有鄰居的注意力融合結(jié)果;encoder(·)為編碼操作;為初始值大于0 且小于1 的隨機(jī)平均數(shù),隨著模型不斷迭代訓(xùn)練調(diào)整,直到模型性能達(dá)到最優(yōu)。
3.4 未來(lái)軌跡預(yù)測(cè)
Zi作為編碼器最終的輸出,輸入到解碼器中。在解碼器每一層,使用上個(gè)時(shí)間點(diǎn)的預(yù)測(cè)結(jié)果、上一層解碼器的輸出及上一層編碼器輸出的特征矩陣進(jìn)行解碼。預(yù)測(cè)時(shí),本文選取最后一個(gè)時(shí)刻的特征矩陣,與高斯噪聲結(jié)合后進(jìn)行預(yù)測(cè)。目的是能較好地對(duì)軌跡預(yù)測(cè)中的不確定性進(jìn)行建模,并可用于產(chǎn)生多種預(yù)測(cè)結(jié)果。最后得到行人i 在未來(lái)一段時(shí)間內(nèi)的軌跡預(yù)測(cè)。
4 實(shí)驗(yàn)與結(jié)果分析
4.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
為了定量評(píng)估本文方法在進(jìn)行井下多人軌跡預(yù)測(cè)時(shí)的效果,本文使用5 個(gè)人員軌跡預(yù)測(cè)數(shù)據(jù)集,包括4 個(gè)開(kāi)放數(shù)據(jù)集及1 個(gè)由數(shù)百段不同井下場(chǎng)景視頻構(gòu)成的煤礦井下人員軌跡自建數(shù)據(jù)集。
BIWI Hotel, Crowds UCY, MOT PETS 及SDD(Stanford Drone Dataset)數(shù)據(jù)集為人員軌跡預(yù)測(cè)領(lǐng)域較為權(quán)威的4 個(gè)開(kāi)放數(shù)據(jù)集,包含酒店、街道等人員密集場(chǎng)景,共有11 448 條人員軌跡。自建數(shù)據(jù)集由896 條井下人員軌跡構(gòu)成,包含12 座井工礦的井下變電所、井下水泵房、井下車場(chǎng)、膠帶行人側(cè)等場(chǎng)景的多人軌跡數(shù)據(jù),能較為全面地覆蓋煤礦井下行人場(chǎng)景。
為衡量多人軌跡預(yù)測(cè)方法的精度,引入平均位移誤差(Average Displacement Error, ADE)作為評(píng)價(jià)指標(biāo)[19],該指標(biāo)是指預(yù)測(cè)軌跡和真值軌跡所有點(diǎn)的平均歐氏距離,能夠反映預(yù)測(cè)軌跡的整體準(zhǔn)確性。
式中:F 為預(yù)測(cè)的未來(lái)坐標(biāo)的數(shù)量;xgtn為第 n 個(gè)坐標(biāo)的基準(zhǔn)位置;xpredn為第 n 個(gè)坐標(biāo)的預(yù)測(cè)位置。
4.2 模型訓(xùn)練
Social Transformer 網(wǎng)絡(luò)模型在具有Theano[20]的單個(gè)GPU 上進(jìn)行訓(xùn)練。為了在訓(xùn)練模型時(shí)充分利用數(shù)據(jù)集,本文使用留一法,從5 個(gè)數(shù)據(jù)集中選擇4 個(gè)作為訓(xùn)練集,使用這4 個(gè)訓(xùn)練集來(lái)訓(xùn)練模型,將剩余的1 個(gè)數(shù)據(jù)集作為測(cè)試集,用于評(píng)估模型性能,重復(fù)上述步驟,確保每個(gè)數(shù)據(jù)集都作為測(cè)試集被使用1 次,從而覆蓋所有可能的組合。模型訓(xùn)練時(shí),輸入的人員歷史位置坐標(biāo)首先通過(guò)全連接層編碼為一個(gè)大小為32(代表一次性能輸入32 個(gè)人員位置坐標(biāo))的向量,隨后經(jīng)過(guò)ReLU 激活函數(shù)處理。處理輸入數(shù)據(jù)時(shí),設(shè)置丟棄比率為0.1,嵌入特征的維度為32。為了找到最佳學(xué)習(xí)率,在簡(jiǎn)化版本的模型上進(jìn)行超參數(shù)搜索, 范圍為0.000 1~ 0.004, 間隔為0.000 1,并選擇最佳性能的學(xué)習(xí)率(0.001 5)來(lái)訓(xùn)練模型。本文使用Adam 優(yōu)化器,批量大小為16,進(jìn)行300 個(gè)epochs 的網(wǎng)絡(luò)訓(xùn)練。每個(gè)批次包含大約256個(gè)行人,在不同的時(shí)間窗口內(nèi),通過(guò)一個(gè)注意力掩碼矩陣掩蓋掉當(dāng)前時(shí)刻之后的信息,以加速訓(xùn)練過(guò)程。采用的損失函數(shù)為
4.3 定量實(shí)驗(yàn)
在定量實(shí)驗(yàn)中,對(duì)于場(chǎng)景中的每一個(gè)人,預(yù)測(cè)其12 幀(4.8 s)內(nèi)的運(yùn)動(dòng)軌跡。將Social Transformer 與LSTM, Transformer, S?GAN[21](Sequential GenerativeAdversarial Networks) , Trajectron++, Social?STGCNN進(jìn)行比較,每種方法重復(fù)運(yùn)行20 次,最終取平均值,結(jié)果見(jiàn)表1。
由表1 可看出, Social Transformer 在5 種數(shù)據(jù)集的測(cè)試中, ADE 均為最低, 表現(xiàn)優(yōu)異。相比于Transformer,Social Transformer 在ADE 指標(biāo)上降低了46.8%,精度提升明顯,由此可見(jiàn),在Transformer 中加入交互層能夠大幅提升模型在多人軌跡預(yù)測(cè)時(shí)的精度。
井下場(chǎng)所的智能視頻分析對(duì)于實(shí)時(shí)性要求很高,因此對(duì)上述6 種方法的訓(xùn)練時(shí)間及預(yù)測(cè)時(shí)間進(jìn)行比較, 結(jié)果如圖5 所示。對(duì)于相同的訓(xùn)練集,LSTM 訓(xùn)練時(shí)間為89 h,預(yù)測(cè)時(shí)間為198 ms,均為最高。Trajectron++和Social?STGCNN 在訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間上的表現(xiàn)較為優(yōu)秀,分別為44 h、43 ms 和49 h、29 ms。而Social Transformer 在訓(xùn)練和預(yù)測(cè)2 個(gè)階段都表現(xiàn)出較高的效率,具有最短的訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間,分別為29 h、22 ms,在6 種軌跡預(yù)測(cè)方法中耗時(shí)最少。
4.4 消融實(shí)驗(yàn)
在進(jìn)行人員軌跡預(yù)測(cè)時(shí),預(yù)測(cè)序列長(zhǎng)度及歷史數(shù)據(jù)的多少是影響預(yù)測(cè)結(jié)果的重要因素,為分析這2 種因素對(duì)于本文方法進(jìn)行多人軌跡預(yù)測(cè)結(jié)果的影響,進(jìn)行消融實(shí)驗(yàn)。
4.4.1 預(yù)測(cè)序列長(zhǎng)度對(duì)軌跡預(yù)測(cè)效果的影響
將預(yù)測(cè)序列從12 幀(4.8 s)更改為28 幀(11.2 s),挑選來(lái)自5 個(gè)數(shù)據(jù)集的1 000 條人員軌跡進(jìn)行實(shí)驗(yàn),各方法預(yù)測(cè)結(jié)果見(jiàn)表2。
由表2 可看出,3 種方法在進(jìn)行人員軌跡預(yù)測(cè)時(shí)的誤差均會(huì)隨著預(yù)測(cè)時(shí)間的延長(zhǎng)而增加,其中SocialTransformer 的ADE 最低。從預(yù)測(cè)未來(lái)12 幀到預(yù)測(cè)未來(lái)28 幀,LSTM 的ADE 提高了181%,而Transformer與Social Transformer 的ADE 分別提高了93% 和66%。Social Transformer 在預(yù)測(cè)序列長(zhǎng)度增加后的誤差增長(zhǎng)幅度明顯低于LSTM,略低于Transformer,這是由于Social Transformer 在進(jìn)行人員軌跡預(yù)測(cè)時(shí),會(huì)將周圍人員的運(yùn)動(dòng)狀態(tài)及其未來(lái)軌跡一起進(jìn)行交互編碼,對(duì)于預(yù)測(cè)長(zhǎng)時(shí)間的序列具有更好的穩(wěn)定性。
4.4.2 歷史數(shù)據(jù)缺失對(duì)軌跡預(yù)測(cè)效果的影響
分別設(shè)定不同程度的歷史數(shù)據(jù)缺失,挑選來(lái)自5 個(gè)數(shù)據(jù)集的1 000 條人員軌跡進(jìn)行實(shí)驗(yàn),各方法預(yù)測(cè)結(jié)果見(jiàn)表3。
由表3 可看出,缺失歷史數(shù)據(jù)會(huì)提高預(yù)測(cè)結(jié)果的ADE,其中,LSTM 尤其難以處理歷史數(shù)據(jù)缺失問(wèn)題,一旦缺失數(shù)據(jù)量過(guò)大,預(yù)測(cè)結(jié)果準(zhǔn)確性將受到極大影響,在缺失6 幀時(shí),LSTM 的ADE 較無(wú)缺失情況提升了87%;相比之下,Transformer 和Social Transformer在面對(duì)歷史數(shù)據(jù)缺失時(shí),其ADE 的提升幅度較小,分別提高了33%,29%。
4.5 定性實(shí)驗(yàn)
采用井下多人場(chǎng)景(中央變電所、水泵房及副井口車輛轉(zhuǎn)載點(diǎn)) 的視頻進(jìn)行定性實(shí)驗(yàn), 分別使用LSTM, Transformer, Social Transformer 對(duì)人員未來(lái)7 幀(2.8 s)的運(yùn)動(dòng)軌跡進(jìn)行預(yù)測(cè),并對(duì)視頻中人員預(yù)測(cè)軌跡與基準(zhǔn)軌跡的重合程度進(jìn)行主觀判斷,預(yù)測(cè)效果分別如圖6?圖9 所示,紅色方框?yàn)槿藛T歷史軌跡,藍(lán)色方框?yàn)槿藛T基準(zhǔn)軌跡,黃色方框?yàn)槿藛T預(yù)測(cè)軌跡。
由圖6 可看出,對(duì)單人場(chǎng)景的人員軌跡進(jìn)行預(yù)測(cè)時(shí), Transformer 與Social Transformer 的預(yù)測(cè)效果基本相同,預(yù)測(cè)軌跡和基準(zhǔn)軌跡基本無(wú)偏差,而使用LSTM 處理后的預(yù)測(cè)軌跡則與基準(zhǔn)軌跡產(chǎn)生少量偏差。由圖7(a)、圖8(a)可看出,對(duì)多人場(chǎng)景的人員軌跡進(jìn)行預(yù)測(cè)時(shí),采用LSTM 處理后的預(yù)測(cè)軌跡與基準(zhǔn)軌跡從前2 幀開(kāi)始就出現(xiàn)誤差,且誤差隨著預(yù)測(cè)時(shí)間延長(zhǎng)而增加,導(dǎo)致對(duì)于最終位置的預(yù)測(cè)偏差較大。由圖9(a)可看出,LSTM 在預(yù)測(cè)時(shí)傾向于沿用歷史軌跡的運(yùn)動(dòng)趨勢(shì),并未考慮對(duì)向行人的運(yùn)動(dòng)狀態(tài),從而造成預(yù)測(cè)失準(zhǔn)現(xiàn)象。由圖7(b)、圖8(b)、圖9(b) 可看出, 采用Transformer 預(yù)測(cè)的效果比LSTM 略好,預(yù)測(cè)軌跡與基準(zhǔn)軌跡更貼近,這是因?yàn)門ransformer 會(huì)更好地利用歷史數(shù)據(jù)對(duì)未來(lái)做出推測(cè),而LSTM 由于梯度消失,造成預(yù)測(cè)結(jié)果失準(zhǔn)。由圖7(c) 、圖8(c) 、圖9(c) 可看出, 采用SocialTransformer 預(yù)測(cè)時(shí),盡管每一幀的預(yù)測(cè)位置與基準(zhǔn)位置略有偏差,但由于考慮了周圍人員的運(yùn)動(dòng)狀態(tài),使得整體預(yù)測(cè)軌跡與基準(zhǔn)軌跡保持近似。因此Social Transformer 相較于LSTM 和Transformer,在進(jìn)行多人場(chǎng)景的人員軌跡預(yù)測(cè)時(shí)具有一定的精度提升效果。
5 結(jié)論
1) 基于Transformer 模型進(jìn)行改進(jìn),并將改進(jìn)后的Social Transformer 網(wǎng)絡(luò)模型用于井下多人軌跡預(yù)測(cè)。采用時(shí)序建模,提取行人的時(shí)間維度運(yùn)動(dòng)模式,確定目標(biāo)周圍鄰居;通過(guò)設(shè)計(jì)交互層,使用自注意力機(jī)制提取目標(biāo)鄰居運(yùn)動(dòng)狀態(tài)對(duì)于目標(biāo)未來(lái)軌跡的影響;將預(yù)測(cè)目標(biāo)及其鄰居的運(yùn)動(dòng)特征信息進(jìn)行融合,從而更精準(zhǔn)地預(yù)測(cè)目標(biāo)未來(lái)軌跡。
2) 實(shí)驗(yàn)結(jié)果表明,Social Transformer 的ADE 相較于Transformer 降低了45.8%,且與主流軌跡預(yù)測(cè)方法LSTM,S?GAN,Trajectron++和Social?STGCNN相比分別降低了67.1%,35.9%,30.1% 和10.9%,有效解決了煤礦井下多人場(chǎng)景中由于人員間互相影響導(dǎo)致預(yù)測(cè)軌跡失準(zhǔn)的問(wèn)題,能夠同時(shí)預(yù)測(cè)多人軌跡,提升了預(yù)測(cè)精度。
參考文獻(xiàn)(References):
[ 1 ]劉海忠. 電子圍欄中心監(jiān)控平臺(tái)的設(shè)計(jì)與開(kāi)發(fā)[D]. 武漢:華中師范大學(xué),2012.
LIU Haizhong. Design and development of centermonitoring platform for electronic fence[D]. Wuhan:Central China Normal University,2012.
[ 2 ]JEONG N Y,LIM S H,LIM E,et al. Pragmatic clinicaltrials for real-world evidence: concept andimplementation[J]. Cardiovascular Pevention andPharmacotherapy,2020,2(3):85-98.
[ 3 ]KLENSKE E D, ZEILINGER M N, SCHOLKOPF B,et al. Gaussian process-based predictive control forperiodic error correction[J]. IEEE Transactions onControl Systems Technology,2016,24(1):110-121.
[ 4 ]HUNT K J, SBARBARO D, ?BIKOWSKI R, et al.Neural networks for control systems-a survey[J].Automatica,1992,28(6):1083-1112.
[ 5 ]PRESTON D B. Spectral analysis and time series[J].Technometrics,1983,25(2):213-214.
[ 6 ]AKAIKE H. Fitting autoregreesive models forprediction[M]//PARZEN E,TANABE K,KITAGAWAG. Selected papers of Hirotugu Akaike. New York:Springer-Verlag New York Inc,1998:131-135.
[ 7 ]ZHANG Jianjing, LIU Hongyi, CHANG Qing, et al.Recurrent neural network for motion trajectoryprediction in human-robot collaborative assembly[J].CIRP Annals,2020,69(1):9-12.
[ 8 ]SHERSTINSKY A. Fundamentals of recurrent neuralnetwork (RNN) and long short-term memory (LSTM)network[J]. Physica D: Nonlinear Phenomena, 2020.DOI:10.1016/j.physd.2019.132306.
[ 9 ]SONG Xiao, CHEN Kai, LI Xu, et al. Pedestriantrajectory prediction based on deep convolutional LSTMnetwork[J]. IEEE Transactions on IntelligentTransportation Systems,2020,22(6):3285-3302.
[10]SALZMANN T, IVANOVIC B, CHAKRAVARTY P,et al. Trajectron++: dynamically-feasible trajectoryforecasting with heterogeneous data[C]. 16th EuropeanConference on Computer Vision, Glasgow, 2020:683-700.
[11]MOHAMED A, QIAN Kun, ELHOSEINY M, et al.Social-STGCNN: a social spatio-temporal graphconvolutional neural network for human trajectoryprediction[C]. IEEE/CVF Conference on ComputerVision and Pattern Recognition, Seattle, 2020:14424-14432.
[12] SHANKAR V, YOUSEFI E, MANASHTY A, et al.Clinical-GAN: trajectory forecasting of clinical eventsusing transformer and generative adversarialnetworks[J]. Artificial Intelligence in Medicine, 2023,138. DOI:10.1016/j.artmed.2023.102507.
[13]HAN Kai, WANG Yunhe, CHEN Hanting, et al. Asurvey on vision transformer[J]. IEEE Transactions onPattern Analysis and Machine Intelligence, 2023,45(1):87-110.
[14]GRAHAM B, EL-NOUBY A, TOUVRON H, et al.LeViT: a vision transformer in ConvNet’s clothing forfaster inference[C]. IEEE/CVF International Conferenceon Computer Vision,Montreal,2021:12259-12269.
[15]ARNAB A, DEHGHANI M, HEIGOLD G, et al.ViViT: a video vision transformer[C]. IEEE/CVFInternational Conference on Computer Vision,Montreal,2021:6836-6846.
[16]VASWANI A, SHAZEER N, PARMAR N, et al.Attention is all you need[C]. 31st Conference on NeuralInformation Processing Systems, Long Beach, 2017:5998-6008.
[17]劉赟. ReLU 激活函數(shù)下卷積神經(jīng)網(wǎng)絡(luò)的不同類型噪聲增益研究[D]. 南京:南京郵電大學(xué),2023.
LIU Yun. Research on different types of noise gain inconvolutional neural networks under ReLU activationfunction[D]. Nanjing: Nanjing University of Posts andTelecommunications,2023.
[18]靳晶晶,王佩. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別算法研究[J]. 通信與信息技術(shù),2022(2):76-81.
JIN Jingjing, WANG Pei. Research on imagerecognition algorithm based on convolutional neuralnetwork[J]. Communications and InformationTechnology,2022(2):76-81.
[19]ALAHI A,GOEL K,RAMANATHAN V,et al. SocialLSTM: human trajectory prediction in crowdedspaces[C]. IEEE Conference on Computer Vision andPattern Recognition,Las Vegas,2016:961-971.
[20]BERGSTRA J, BREULEUX O, BASTIEN F, et al.Theano: a CPU and GPU math compiler in Python[C].The 9th Python in Science Conference, 2010. DOI:10.25080/majora-92bf1922-003.
[21]PESARANGHADER A, WANG Yiping, HAVAEI M.CT-SGAN: computed tomography synthesis GAN[C]//ENGELHARDT S,OKSUZ I,ZHU Dajiang,et al. Deepgenerative models, and data augmentation, labelling,and imperfections. Berlin:Springer-Verlag,2021:67-79.
基金項(xiàng)目:中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)項(xiàng)目(FRF-TP-24-060A) ;天地科技股份有限公司科技創(chuàng)新創(chuàng)業(yè)資金專項(xiàng)項(xiàng)目(2023-TDZD005-005,2023CG-ZB-10)。