999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進MADDPG算法的人群疏散仿真研究

2025-01-24 00:00:00楊玉王翔蔣效偉宋強陳若彤戴紅偉
山西大學學報(自然科學版) 2025年1期

摘要:隨著社會和經濟的快速發展,城市和公共區域的人口密度也逐漸增加,一定程度上增加了緊急情況下人群疏散的難度。針對高密度人群疏散問題提出了一種基于改進多智能體深度確定性策略梯度算法(Improved Multi-Agent Deep Deterministic Policy Gradient, IMADDPG)的人群疏散方法。該方法將注意力機制引入到深度強化學習框架和改進的社會力模型(Social Force Model, SFM)中,通過雙層控制策略,宏觀層面采用改進的多智能體深度確定性策略梯度算法確定領導者的疏散路徑,微觀層面采用改進SFM制定避障策略。在多障礙區域與高密度環境中的實驗表明,與傳統方法相比,該方法的疏散效率平均提高了約16%,疏散時間縮短了約17%。本研究將改進深度確定性策略梯度和改進SFM相結合,為大型空間的人員疏散提供了可靠的解決方案。

關鍵詞:人群疏散;注意力機制;深度強化學習;社會力模型;雙層控制

中圖分類號:TP391 文獻標志碼:A 文章編號:0253-2395(2025)01-0130-14

0 引言

隨著社會和經濟的快速發展,城市和公共區域的人口密度越來越大,特別是在大型商場、體育場館、交通樞紐等相對封閉場所,人口密集現象給城市管理和公共安全帶來了一定的挑戰。公共場所因為人流量大、空間結構復雜等因素,一旦發生火災、地震或恐怖襲擊等緊急情況,由于疏散不及時可能導致擁擠、跌倒甚至踩踏等嚴重事故[1]。因此,在突發事故發生時,如何有效對有限空間內的人群進行引導和疏散,對于降低生命和財產的損失,都有極其重要的意義。

為了更高效地模擬人群疏散,一部分研究者傾向于通過改進微觀模型來實現。例如,Cui等[2]融合遺傳算法[3]與樓層場元胞自動機模型,改進了行人疏散動力學[4]研究中的算法,提高了模擬行人特性的準確性,從而優化了疏散效率。Johansson 等[5]基于真實視頻數據對社會力模型(Social Force Model, SFM)進行了優化,提出了“局部導航場”概念,使得模型能夠更好地模擬行人在擁擠環境中的動態避障行為。李昌華等[6]通過增加行人運動方向選擇、考慮情緒因素如恐慌以及調整吸引力強度對SFM 進行了改進,使得模型能夠更真實地模擬行人疏散過程中的自組織行為。然而,由于缺乏全局路徑規劃的指導,這些模型在大規模人群疏散時無法有效引導人群正確選擇出口。因而,研究者們將路徑規劃算法引入到人群疏散模擬中。如Hart 等[7]結合Dijkstra 算法[8]的準確性和啟發式搜索的速度提出的A*算法,優先考慮從起點到終點的預計總距離,但僅適用于靜態環境。

此外,強化學習(Reinforcement Learning,RL)因其對多變環境的較強適應性,已被廣泛應用于解決各種路徑規劃問題。例如,Li[9]提出一種多目標強化學習方法,有效增加疏散流量并優化路徑帶寬,證實其有效性。Yi 等[10]通過將改進后的深度Q 網絡(Deep Q-network,DQN)算法應用于智能體路徑規劃,有效增強了智能體在復雜環境中的自主導航以及避障能力。而在緊急疏散過程中,由于需要考慮個體行為、環境變化和人群密度等因素,現有的RL算法在處理大規模人群疏散時存在一定的局限性。這種局限性體現在傳統的RL 算法在處理人群疏散時,往往因狀態空間龐大導致學習效率低下,甚至無法有效學習。在這種情況下,智能體可能會陷入無法有效區分重要和不重要信息的問題,從而無法做出最優的決策。

鑒于此,本文將宏觀方法與微觀方法進行結合,并在宏觀層面采用深度強化學習(DeepReinforcement Learning, DRL)算法進行路徑規劃,在微觀層面采用改進的SFM 進行避障。本文通過在DRL 框架中引入注意力機制[11],提升智能體識別關鍵狀態信息的能力,從而提高學習和決策的效率。注意力機制的引入使得智能體能夠動態地對輸入特征進行加權,突出對當前任務更為重要的特征。

本文的主要創新點包括:1) 通過合理的人群分組方法和領導者選擇機制,將人群劃分為若干個分組,并為每個小組選擇一個領導者;2) 利用引入注意力機制后的多智能體深度確定性策略梯(Multi-Agent Deep Deterministic Pol?icy Gradient,MADDPG)算法對這些領導者智能體進行路徑規劃;3) 結合改進后的SFM 進行微觀避障,進行人群疏散引導。

1 相關工作

1.1 人群疏散方法

為了能夠在緊急情況下進行有效地疏散,研究者們提出了大量的宏觀微觀結合的人群疏散方法。此類方法采取雙層控制,宏觀層面采用路徑規劃算法找出最佳疏散路徑,微觀層面改進社會力模型以便應用于具體的人群疏散場景。

1.1.1 宏觀方法

宏觀方法不關注群體中的個體行為,而是將人群作為一個整體進行研究,關注群體的整體流動特性。流體動力學模型[12]是一種典型的宏觀方法。它常常采用流體動力學的原理來模擬人群運動,類似于水流或空氣流動的方式,可以有效處理大規模人群的運動和行為。

Farooq 等[13]在高密度人群運動估計中采用了流體力學模型,這一方法從整體層面對行人的運動進行了全面的估算。然而,宏觀模型常把人群統一視為同質體,未能反映行人間的個體差異和相互作用,導致仿真與實際情況的偏差較大。

1.1.2 微觀方法

與宏觀方法相反,微觀方法擅長表示疏散過程中的個體行為特征。典型微觀方法有Kirchner 等[14]提出的一種元胞自動機人群疏散模擬的代表性方法,該方法以其規則的簡潔性和較低的計算需求而受到青睞,特別適合群體的模擬場景。然而,其簡化的規則使得基于該方法的模擬在捕捉個體行為方面表現較差,展示了在描述個體行人特性時的明顯局限。Helbing 等[15]提出的SFM 是一個用于模擬行人行為和人群動態的微觀仿真模型,它被廣泛應用于人群管理、建筑設計、緊急疏散計劃和虛擬環境設計等領域。Liu 等[16]提出了一種雙層控制的人群疏散方法,該方法微觀層面采用SFM 進行避障,通過將疏散人群劃分為兩類:領導者和跟隨者,并對這兩類人群應用不同的模型來實現更有效的疏散過程。Meng 等[17]在他們的研究中對傳統的社會力模型進行了擴展,研究在視野受阻條件下的行人疏散問題。研究結果顯示,能見度距離在一定范圍內越大,疏散過程越快,且不同的能見度條件下,人群密度的波動模式也有所不同。

1.2 深度強化學習

DRL 由于其對模型結構和超參數較少敏感已經引起了人工智能領域學者的廣泛關注。已有諸多學者將多智體系統與DRL 結合即多智能體深度強化學習(Multi-Agent Deep Reinforce?ment Learning,MADRL)進行深入研究。深度強化學習框架主要由以下五個要素組成:智能體、狀態、獎勵、動作和交互環境,結構如圖1 所示。

MADRL 可以看作是馬爾可夫決策過程的一種擴展和具體實現方式,它通過結合深度學習(Deep Learning,DL)和強化學習(ReinforcementLearning,RL)的優勢,為解決復雜環境中的決策問題提供了新的途徑。馬爾可夫決策過程由元組(S,A,P,r,γ) 構成,其中S 是狀態的集合,A 是動作的集合,γ 是折扣因子,它的取值范圍是[0,1),r (s,a ) 為獎勵函數,P ( s′|s,a ) 是狀態轉移函數,其中s 為當前狀態,s′ 為下一狀態,a 為采取的動作。優化的目標就是策略函數π (s,a ) =P ( At = a|St = s ) 通過優化策略π,使得智能體在t時刻狀態St 開始,直到終止狀態時,所有獎勵的衰減之和的公式(1)最大化,從而使Gt 有上界,即表示未來獎勵對Gt 的影響將逐步減小。

Q 函數的定義如公式(2)所示:

Qπ (s,a ) = Eπ [ Gt|St = s,At = a ]。(2)

Qπ (s,a) 表示在馬爾可夫決策過程(MarkovDecision Process,MDP)過程中期望回報。而強化學習的目標就是找到最優策略π* 使公式(2)的期望最大化,即找到最優策略使公式(3)為真。

Qπ* (s,a) ≥ Qπ (s,a ) ?s,a ∈ S,A。(3)

Qπ* (s,a ) 就是最優動作價值函數,如公式(4)所示:

Qπ* (s,a) = max πQπ (s,a),?s,a ∈ S,A。(4)

1.3 DDPG算法

深度確定性策略梯度(Deep DeterministicPolicy Gradient,DDPG)[18]主要用于解決連續動作空間的問題。該算法結合了DQN 和確定性策略梯度(Deterministic Policy Gradient,DPG)的思想,并引入了經驗回放和目標網絡來提高穩定性和收斂性。算法采用如圖2 所示的Actor-Critic 框架,網絡主要是由策略網絡、目標策略網絡、價值網絡、目標價值網絡組成。為了增加環境探索能力,算法在執行動作時加入隨機噪聲Nt,并利用經驗回放緩沖區進行離線網絡訓練,如公式(5)所示:

ai = μθi (oi ) + Nt。(5)

DDPG 算法會根據公式(5)選擇動作at,然后執行動作at,得到獎勵rt 和狀態st + 1;接著將(st,a t,r t,s t + 1 ) 存入經驗回放緩沖區D。從D 中采樣N 個多維數組(st,a t,r t,st + 1 ),之后更新crit?ic 網絡,用公式(6)計算采樣得到的策略梯度,然后更新actor 網絡:

?θ J (θ) = Es,a~D[?θ π (s) ? ?aQπ (s,a ) ]。(6)

最后通過公式(7)和公式(8)更新target 網絡參數:

θ′ ← τθ + (1 - τ ) θ′, (7)

μ′ ← τμ + (1 - τ ) μ′。(8)

1.4 多智能體深度確定性策略梯度算法

多智能體深度確定性策略梯度算法[19](Multi-agent deep deterministic policy gradient,MADDPG)如圖3 所示,每個智能體都獨立地應用DDPG 算法,同時共享一個集中式的Critic網絡。Critic 網絡在訓練過程中對各個智能體的Actor 網絡進行評價。在執行階段,每個智能體的Actor 網絡則自主進行行動,保持動作的去中心化。在智能體博弈中,通過在策略中引入隨機性,可以計算每個智能體的期望收益,并使用策略梯度方法進行優化,如公式(9)所示:

?θi J (θi ) =Es~pu,a~πi [?πi logπi (ai,oi ) Qπi (x,a1,…,aN ) ]。(9)

其中Qπi (x,a1,…,a N ) 是中心化的動作價值函數,x = (o1,…,oN ) 包含了所有智能體的觀測。

對于確定性策略來說,假設有N 個連續的策略μπi,可以得到DDPG 的梯度公式,如公式(10)所示:

?πi J (μi )=Ex~Dé??πi μi (oi ) ?aiQμi (x,a1,…,aN|ai=μi (oi ) )ù?。(10)

其中x 代表所有智能體的觀測,μi 代表所有智能體的聯合動作,而Qμi 是在多智能體背景下,對于智能體i 而言,給定狀態x 和所有的智能體動作(a1,…,aN ) 時的動作價值函數。在多智能體確定性策略梯度的框架下,每個智能體利用其他智能體的策略來增強自己的策略梯度估計。

智能體的損失函數L (ωi ) 通過最小化預測Qμi 的值和目標Qμ′i 值之間的差來定義,如公式(11)所示:

L (ωi ) = Ex,a,r,x′ [Qμi (x,a 1,…,aN ) - y )2 ],(11)

y = ri + γQμ′i (x′,a′1,…,a′N )|a′j = μ′j (oj )。(12)

其中y 是目標價值函數,計算方式如公式(12)所示,ri 是智能體i 接收到的即時獎勵,γ 是用于計算未來獎勵現值的折扣因子。μ′ 表示目標策略,它是基于過去策略μ 的某種延伸或變種,用于穩定學習過程。

策略網絡的更新是通過梯度上升法來實現的,目的是最大化每個智能體的期望回報。通過持續地優化這些梯度,智能體的策略將逐漸趨向于最優。在MADRL 的環境中,該方法允許智能體在相互作用和可能存在的非靜態環境特征中學習到復雜的行為。

2 基于改進MADDPG 算法的人群疏散仿真方法

宏觀方法能夠有效地規劃大規模人群的整體疏散路徑,微觀方法可以模擬個體行人的行為動態,深度強化學習方法如DDPG 算法則具備自主學習和優化疏散策略的能力。然而,這些方法也存在一定的不足之處。宏觀方法通常忽略個體行為細節,微觀方法在大規模人群場景中計算復雜度高,而現有的DDPG 算法在多智能體協同疏散時效果不夠理想,難以應對復雜動態環境下的實時決策需求。

為了解決上述問題,本文提出了一種基于改進MADDPG 算法(Improved Multi AgentDeep Determinisitic Policy Gradient, IMADDPG)的人群疏散仿真方法,該方法綜合了宏觀和微觀方法的優勢,并在多智能體深度強化學習框架下進行了優化,如圖4 所示。框架的第一步是初始化疏散環境和人群的規模。然后,采用模糊C 均值聚類的方法對人群進行分組。IMADDPG 算法負責計算領導者的疏散路徑,由領導者引導各自分組內的行人按著規劃后的疏散路徑運動,行人采用社會力模型繞過障礙物,并防范行人之間的碰撞。最終,該方法順利完成疏散。

2.1 基于IMADDPG算法的路徑規劃方法

在MADDPG 算法中,使用傳統的ε- greddy策略[20]可能會遇到一系列挑戰。首先,ε-greddy 中的ε(探索率)值是固定的,這意味著在整個訓練過程中,智能體進行隨機探索的概率始終保持不變。這種固定探索率可能導致在訓練初期探索過多無效或低效的動作,而在訓練后期又因為探索不足而陷入局部最優解。其次,固定的ε 值無法根據訓練的狀態和進度動態調整,缺乏對環境變化的適應性。在某些情況下,智能體可能需要更多的探索來發現新的策略,而在其他情況下則應該更多地利用已知信息。最后,由于MADDPG 涉及多個智能體之間的交互和相互影響,平衡探索和利用變得更加復雜和難以掌握。固定的ε 值可能無法在不同的訓練階段和不同的智能體之間找到最佳平衡。為克服上述缺點,本文根據進度對ε 進行動態調整,如公式(13)所示,在訓練初期保持較高的探索率以發現更多可能性,而在訓練后期逐漸降低探索率以更多地利用已知信息。

ε = max( εmin - δ )。(13)

此外,為了進一步提高MADDPG 算法的性能,任安妮等[21]通過在策略層引入注意力機制的方式,使得神經網絡能夠快速學習有效的策略。本文考慮在策略網絡、價值網絡、目標策略網絡和目標價值網絡上引入注意力機制,如圖5 所示。IMADDPG 動態地對輸入特征進行加權,突出那些對當前任務更為重要的特征。

注意力機制的結構如圖6 所示。

每一個網絡的輸入特征x0 在進入網絡前,首先通過一個全連接層被映射到注意力空間,目的是將原始特征轉換到一個適合注意力加權的形式,如公式(14)所示:

a = tanh( ωat x0 + bat )。(14)

其中ωat 和bat 分別代表全連接層的權重與偏置,a 是映射后的特征。

接著,另一個全連接層用于計算每個映射后特征的重要分數s0,這一步沒有使用偏置,強調了權重向量V Tctx0 在映射重要性上的作用,如公式(15)所示:

s0 = V Tctx0 a 。(15)

然后,使用激活函數對這些重要特征進行歸一化,得到特征的注意力權重,如公式(16)所示:

ω = softmax( s0 )。(16)

最后,這些注意力權重被用來加權原始輸入特征x0,生成加權特征,如公式(17)所示:

x′0 = ωx0。(17)

引入注意力機制可以幫助智能體更好地處理多智能體交互問題,并增強智能體對環境的感知能力。通過這種方式,IMADDPG 算法可以提高智能體的協作能力、決策準確性和學習效率,從而實現更高的整體性能。

IMADDPG 算法的偽代碼如算法1 所示。

算法1 IMADDPG 算法

1 for episode = 1 to M do

2 初始化一個隨機噪聲N,用于動作探索

3 初始化狀態x

4 for t = 1 to T do

5 對于每個智能體i,在當前策略和探索下根據公式(5)選擇動作ai

6 執行動作ai = (a1,…,a n ) 并得到獎勵r 和新的狀態x′;

7 將(x,a,r,x′) 存放至經驗回放池D

8 更新狀態x ← x′

9 for 智能體 i = 1 to N do

10 從D 中進行隨機采樣(x,a,r,x′)

11 將價值網絡的輸入特征經過公式(14)—公式(17)后得到新特征

12 新輸入特征再經過公式(7)和公式(8)中心化訓練價值網絡

13 將策略網絡的輸入特征經過公式(14)—公式(17)后得到新特征

14 新輸入特征再經過公式(6)分別訓練智能體的策略網絡

15 根據公式(10)和公式(11)計算梯度

16 通過公式(7)和公式(8)梯度更新目標網絡的參數

17 end for

18 end for

19 end for。

本文采用大O 法分析算法的時間復雜度,假設最大迭代次數為M,最大時間步長為T,智能體數量為N,經驗回放池中樣本數量為S,那么IMADDPG 算法的時間復雜度為O ( M ×T × N × S )。

2.2 人群分組

在緊急疏散過程中,行人的行動顯著受到個體間社會關系及其與周圍環境交互的影響,導致人群傾向于向空間上接近或存在社會聯系的其他個體移動。這一行為模式促使疏散人群在復雜環境中自然而然地形成穩定的小組,并跟隨那些因決策能力、經驗知識或地理位置優勢而自然成為領導者的個體。這些小組一旦形成,其內部結構和成員行為傾向于維持相對穩定狀態。本小節的關鍵在于通過對社會力模型的改進,并評估不同分組策略與領導者選擇機制對于提高疏散效率的具體作用。

模糊C 均值聚類算法[22],通過為每個個體賦予隸屬于每個群體的概率,而非確定的歸屬,可以有效彌補多種群文化算法的這些缺點。這種模糊隸屬度的引入,允許個體在不同群體之間擁有連續的過渡,更好地反映了人群之間的自然分布和相似性,尤其適合處理重疊或模糊的數據集。在人群疏散仿真中,這意味著模糊C 均值可以更準確地模擬人群的自然聚集行為。此外,模糊C 均值聚類的靈活性和自適應性使其在動態變化的環境中表現更佳,能夠適應人群疏散過程中的實時變化,如疏散路徑的變更或阻塞。總的來說,模糊C 均值聚類在人群分組方面提供了一種更靈活、更貼近實際情況的方法,有效地彌補了多種群文化算法在處理復雜、重疊人群數據時的不足。

假設人群樣本為X = (x1,x2,…,xn ),其中n為參與實驗的總人數。算法根據每個行人的位置來進行聚類分組,行人位置可用Xk =(xkx,xky ) 表示,xkx 和xky 分別對應行人在空間上的橫坐標和縱坐標。

本文中采用的是模糊C 均值聚類算法(Fuzzy-c Means,FCM)。FCM 算法的代價函數見公式(18)。

其中uij 表示第i 個樣本與第j 個聚類中心之間的關系程度,m 為模糊度參數,vj 表示第j 個聚類中心的位置。在FCM 算法中,每個樣本可以被分配到多個聚類中心里,因此關系程度uij 需要滿足公式(19)的條件:

同時聚類中心需要滿足公式(20)的條件:

2.3 領導者智能體

在進行分組后本文將進行領導者智能體的選擇,基于適應度函數F ( xij ),如公式(21)所示:

F ( xij )= w1 × max { u( xij ) }+ w2 × min { d ( xij ) },(21)

w1 和w2 代表的是權重,xij 代表的是個體j 在分組i,u( xij ) 代表的是個體距離當前分類中心的距離,d ( xij ) 代表的是個體到出口的距離。在同一分組中,適應度值最高的被選為領導者。選擇領導者可以在一定程度上減少擁堵。

在復雜的大空間環境下進行疏散時,人群的運動受到行人間及行人與障礙區域間相互作用的影響,導致人們傾向于跟隨與自己關系親近的其他人一同疏散。本研究基于實際場景設定了領導者的各項參數。

每位領導者智能體的位置都會在安全出口附近。

疏散開始時,領導者智能體將會引領隊伍并位于整個隊列的最前方。

領導者的速度如公式(22)所示:

vli= v0i( t )b0i( t ), (22)

b0i( t ) 表示下一個運動方向的向量。對于跟隨者的方向設定,他的運動方向不再直接指向出口,而是指向領導者智能體,而當領導者到達出口時。就會在出口附近位置等待組內的人,直到所有人到達出口附近。

行人j 的運動方向向量計算方式如公式(23)所示:

e0j( t )=(( pi - pj )/dij。(23)

其中e0j( t ) 為行人j 的運動方向向量,它的計算方式為行人與領導者的位置向量的差除以行人與領導者的距離,pi 為領導者i 的位置,pj 為行人j的位置,dij 表示行人j 與領導者i 之間的距離。

通過這種方法,模型能夠更加真實地模擬出在實際疏散中人們的行為特征,進而優化疏散路徑的規劃,確保疏散過程的高效和安全。本研究不僅高效地模擬了緊急疏散中的自然人群行為,也優化了疏散過程,確保了仿真的實用性與準確性。

2.4 改進社會力模型

由社會力模型可知,個體會受到來自其周圍環境(既包括其他人也包括物體)的社會力和直接作用于其上的物理力的作用。這些力量包括:(1) fi 驅動力,即內在的動力,驅使個體向目標方向移動;(2) fij 行人間的相互作用力,用于在身體接觸發生之前避免相互之間的碰撞;(3) fiw 個體與障礙物之間的相互作用力,防止與障礙物的碰撞;(4) fo 干擾力,可能來自環境的其他因素的影響。這些力量的合成作用導致了行人的加速或減速,可通過牛頓第二定律進行描述。社會力模型如公式(24)所示:

原始社會力模型的架構圖如圖7 的(a)所示,僅向出口移動。

經過本文改進的社會力模型,群體內的成員將在受到其他力的同時,不再向出口移動,而是向每個群體的領導者進行移動。改進社會力模型如圖7 中的(b)所示,公式如(25)所示:

本文通過公式(18)—公式(20)對人群進行初始化分組,然后選擇領導者,選擇領導者可以在一定程度上減少擁堵。

為驗證改進社會力模型的效果,本文在18 m×18 m 的二維空間內進行疏散實驗。

圖8 所展示的本文方法與對比文獻[23]的疏散效果對比。其中(a)、(b)、(c)為對比文獻[23]的疏散結果,(d)、(e)、(f)為本文方法的結果。由圖8 可以看出,在改進社會力模型中,行人會跟隨各自的領導者運動,從而緩解了堵塞。同時本文的仿真結果還表明,該方法的分組策略及其領導者的選擇使得即使在出口資源分布不平衡和受到其他力的影響下仍能快速地完成疏散。

2.5 宏觀路徑規劃的方法

Wang 等[24]所提出的基于雙注意力DRL 的智能資源分配算法,結合了多維卷積注意力和多頭自注意力機制[25]的優點,可以為分布式節點提供局部和全局特征融合能力,最大限度地提高數據傳輸的性能。Yu 等[26]設計了混合注意力模塊,并通過與MADDPG 算法相結合,使智能體更多地關注大量環境信息中的關鍵信息,提高了經驗樣本的利用率。借鑒上述方法,本文提出改進后的MADDPG 算法進行宏觀路徑規劃,核心架構如圖9 所示。

在此架構中,領導者作為智能體的實體映射,負責路徑規劃指導。然后,領導者智能體將觀測狀態信息傳送至路徑規劃模塊。根據學習到的最佳策略,領導者智能體的神經網絡計算路徑信息并反饋給領導者執行。這使得領導者成功引導跟隨者抵達疏散出口。方法的詳細步驟如下:

步驟 1: 對所有領導者的位置( xleader 1,…,xleader i,…,xleader n ) 進行迭代檢查,確定當前狀態(o1,…,oi,…,on ),并將其傳給對應的智能體。

步驟 2: 進行出口位置的迭代檢查。

步驟 3: 對于每個智能體i,依據IMADDPG算法計算路徑( Ppath 1,…,Ppath i,…,Ppath n ) 來決定行動ai,每個代理的行動受其輸入的狀態oi 和領導者路徑信息Ppath i 影響。

步驟 4: 進入注意力機制(Attention)模塊。每個代理的動作ai 和觀測到的狀態oi 被傳遞給對應的注意力Actor 和注意力Critic,注意力Critic 則給出動作價值qi,注意力Actor 則生成動作ai 傳遞給智能體。

步驟 5: 所有智能體的狀態(o1,…,oi,…,on )和動作( a1,…,ai,…,an ) 被存儲到經驗回放緩沖池(Experience Replay Buffer Pool)中 ,以供后續訓練更新。

步驟 6: 每個時間步,領導者智能體依據公式(24)選擇動作,并更新自身狀態,以引導其路徑上的跟隨者智能體進行行動。跟隨者則根據公式(25)進行移動,確保其保持與領導者的適當距離。

步驟 7: 監控所有領導者智能體是否逐漸接近出口區域,確認它們是否達到路徑終點。

步驟 8: 當領導者接近出口時,等待最后一個跟隨者也抵達出口區域,以保證所有智能體的同步疏散。

步驟 9: 一旦所有智能體(包括所有領導者和跟隨者)均到達出口,宣布疏散過程結束。

3 實驗分析

為驗證IMADDPG 算法的人群疏散效果,參照對比文獻[15]對疏散空間的長寬比例、出口位置及障礙區域分布進行設置。具體實驗參數設置為:疏散空間大小為50 m×30 m 的空間,人為半徑0.2 m 的圓,出口寬度為1.2 m,人的期望速度大小為1.2 m/s,出口分布在每條邊的中間位置。為了降低行人分布不均對實驗的影響,每次疏散實驗都采用了成員分布隨機坐標值作為行人疏散開始時的位置。

3.1 宏觀路徑規劃的方法

為了驗證本文方法在無障礙場景中的疏散效果,本文對多種疏散時間和乘客數量進行了比較。對比算法為原始社會力模型方法與MADDPG 方法。

首先,本實驗驗證對比了無障礙、不同人群數量情況下的疏散人員數量效果,對比結果如表1 和圖10(a)所示。其次,對比了不同方法在相同疏散人員數量情況下的疏散時間效果對比,對比結果如表2 和圖10(b)所示。

行人疏散的過程中,隨著實驗人員數量的增長,碰撞的概率就會越來越大。圖10 展示的是在無障礙的場景中,三種不同方法的疏散性能的比較。圖10(a)和表1 顯示的是同一疏散人員數量(人員設定為300)下疏散的剩余人員數量隨疏散時間的變化,三種方法的人數下降速度差不多。但當時間超過20 s 后,本文方法開始顯示出相對穩定的趨勢。本文方法,在25 s 之前就已經完成疏散,而其他方法則需要更長的疏散時間。從圖10(b)和表2 可看出,當疏散人員數量的增加,三個方法所需要的時間都在同步增加。當疏散的人數超過150 人,IMADDPG 算法通過引入注意力機制可以迅速規劃路徑并疏散行人,合理使用出口空間來避免擁堵和碰撞,從而進一步提高了人群疏散的速度。

最后,本文展示了3 種方法在4 個出口的人員疏散的可視化。疏散的效果可視化如圖11所示,MADDPG 方法的疏散和IMADDPG 方法的疏散可以讓行人快速趕往出口,尤其IMAD?DPG 引入注意力機制后可以更快地選擇好出口。仿真實驗結果表明,本文的方法能夠在無障礙區域的疏散大空間場景中更加快速有序地到達安全出口。

3.2 有障礙區域下的人群疏散仿真

為了驗證本研究方法在有多個障礙區域的疏散環境下的疏散性能,實驗將SFM 方法、本方法與MADDPG 方法在一個有五處障礙區域的環境,行人只要全部到達出口,就代表疏散成功。首先,通過對比實驗驗證3 種方法在疏散人員數量相同的情況下空間內剩余人數的變化來驗證本文的方法在有障礙區域場景中的有效性,如表3、圖12(a)所示。然后本實驗將改變疏散人員的數量來驗證本方法在有障礙區域的環境中進行人員疏散的有效性,如表4、圖12(b)所示。為進一步增加實驗的真實性,本文采取隨機生成柵格坐標的方式初始化乘客位置。

從圖12(a)以及表3 中可看出,在人群疏散初期,三種疏散策略在減少疏散人數的效率上并無顯著差異,但本文方法相同時間段內疏散的人數都比兩個方法的多。從圖12(b)以及表4 可以看出,在有多個障礙區域的場景中,隨著人員數量的增加,三種方法的疏散所需時間均呈現上升的一種趨勢。每種方法在行人數量較少時都能有效找到疏散路徑。然而,當人員數量超過150 人時,采用集成注意力機制的確定性策略梯度改進算法進行的人群疏散仿真,能夠快速計算出最佳疏散路線。與此同時,其他方法因應對人群密集場景的動態不確定性和全局路徑規劃能力不足,表現出明顯的劣勢。

為進一步驗證本文方法的有效性,設置五個障礙在疏散環境中。圖13 展示了三種方法對300 名人員的疏散效果。實驗結果表明,MADDPG 算法與傳統的SFM 在尋找最優疏散路徑時遇到困難,尤其是在障礙區域附近容易引發擁堵現象。本文研究提出的新方法有效緩解了擁堵現象,并提升了疏散效率,能夠在有障礙物場景中更高效地完成疏散。

4 結論

為解決大空間高密度人群疏散效率低下問題,提出了一種改進多智能體深度確定性策略梯度(IMADDPG)算法的人群疏散方法。該方法整合了注意力機制和改進的社會力模型(SFM),實現了宏觀層面的路徑規劃和微觀層面的避障策略。實驗結果表明,該方法在多障礙和高密度環境中相較于傳統方法提升了疏散效率約16%(參照表1 和表3),同時減少了約17% 的疏散時間(參照表2 和表4),驗證了其高效性。未來的研究將著眼于深化MADDPG算法,引入更高效的注意力機制模型,并結合環境信息反饋進一步改進社會力模型,以期更符合應用場景并提升疏散效率。

參考文獻:

[1] CUESTA A, BALBOA A, GONZáLEZ-VILLA J, et al.Evacuation of Vessels in Dockyards: A Model ValidationStudy[J]. Fire Technol, 2023, 59(5): 2333-2354. DOI:10.1007/s10694-023-01435-2.

[2] CUI G, YANAGISAWA D, NISHINARI K. IncorporatingGenetic Algorithm to Optimise Initial Condition ofPedestrian Evacuation Based on Agent Aggressiveness[J]. Phys A Stat Mech Appl, 2021, 583: 126277. DOI:10.1016/j.physa.2021.126277.

[3] 田雅琴, 胡夢輝, 劉文濤, 等. 基于跳點搜索-遺傳算法的自主移動機器人路徑規劃[J]. 工程設計學報, 2023, 30(6):697-706. DOI: 10.3785/j.issn.1006-754X.2023.03.136.

TIAN Y Q, HU M H, LIU W T, et al. Path Planning ofAutonomous Mobile Robot Based on Jump Point SearchgeneticAlgorithm[J]. Chin J Eng Des, 2023, 30(6): 697-706. DOI: 10.3785/j.issn.1006-754X.2023.03.136.

[4] 張俊, 李紅柳, 宋衛國. 基于實驗的行人與疏散動力學規律研究[J]. 中國科學技術大學學報, 2019, 49(12):947-956. DOI: 10.3969/j.issn.0253-27788.2019.12.001.

ZHANG J, LI H L, SONG W G. Experimental Study onPedestrian and Evacuation Dynamics[J]. J Univ Sci TechnolChina, 2019, 49(12): 947-956. DOI: 10.3969/j.issn.0253-27788.2019.12.001.

[5] JOHANSSON A, HELBING D, SHUKLA P K. Specificationof the Social Force Pedestrian Model by EvolutionaryAdjustment to Video Tracking Data[J]. AdvsComplex Syst, 2007, 10(supp02): 271-288. DOI:10.1142/s0219525907001355.

[6] 李昌華, 楊晶, 李智杰. 一種應用于人群仿真的改進社會力模型[J]. 系統仿真學報, 2021, 33(3): 521-528.DOI: 10.16182/j.issn1004731x.joss.19-0553.

LI C H, YANG J, LI Z J. An Improved Social Force Modelfor Crowd Simulation[J]. J Syst Simul, 2021, 33(3): 521-528. DOI: 10.16182/j.issn1004731x.joss.19-0553.

[7] HART P E, NILSSON N J, RAPHAEL B. A Formal Basisfor the Heuristic Determination of Minimum CostPaths[J]. IEEE Trans Syst Sci Cybern, 1968, 4(2): 100-107. DOI: 10.1109/TSSC.1968.300136.

[8] 潘文杰, 李志強, 楊輝. QAOA最大切割問題的類Dijkstra優化及實現[J]. 計算機應用研究, 2023, 40(2): 378-382. DOI: 10.19734/j.issn.1001-3695.2022.06.0328.

PAN W J, LI Z Q, YANG H. QAOA Maximum CuttingProblem Analogous to Dijkstra Optimization and Implementation[J]. Appl Res Comput, 2023, 40(2): 378-382.DOI: 10.19734/j.issn.1001-3695.2022.06.0328.

[9] LI X L. An Efficient Data Evacuation Strategy Using MultiobjectiveReinforcement Learning[J]. Appl Intell, 2022, 52(7): 7498-7512. DOI: 10.1007/s10489-021-02640-8.

[10] YI C, QI M. Research on Virtual Path Planning Basedon Improved DQN[C]//2020 IEEE International Conferenceon Real-time Computing and Robotics (RCAR).New York: IEEE, 2020: 387-392. DOI: 10.1109/RCAR49640.2020.9303290.

[11] 申翔翔, 侯新文, 尹傳環. 深度強化學習中狀態注意力機制的研究[J]. 智能系統學報, 2020, 15(2): 317-322.DOI: 10.11992/tis.201809033.

SHEN X X, HOU X W, YIN C H. State Attention in DeepReinforcement Learning[J]. CAAI Trans Intell Syst, 2020,15(2): 317-322. DOI: 10.11992/tis.201809033.

[12] 苗志宏, 李智慧. 一種基于SPH 方法的人員疏散混合模型及模擬[J]. 自動化學報, 2014, 40(5): 935-941.

MIAO Z H, LI Z H. A Hybrid Evacuation Model andSimulation Based on SPH Method[J]. Acta Autom Sin,2014, 40(5): 935-941.

[13] FAROOQ M U, SAAD M N B M, MALIK A S, et al.Motion Estimation of High Density Crowd Using FluidDynamics[J]. Imag Sci J, 2020, 68(3): 141-155. DOI:10.1080/13682199.2020.1767843.

[14] KIRCHNER A, SCHADSCHNEIDER A. Simulation ofEvacuation Processes Using a Bionics-inspired CellularAutomaton Model for Pedestrian Dynamics[J]. Phys AStat Mech Appl, 2002, 312(1/2): 260-276. DOI:10.1016/s0378-4371(02)00857-9.

[15] HELBING D, FARKAS I, VICSEK T. Simulating DynamicalFeatures of Escape Panic[J]. Nature, 2000, 407(6803): 487-490. DOI: 10.1038/35035023.

[16] LIU H, LIU B X, ZHANG H, et al. Crowd EvacuationSimulation Approach Based on Navigation Knowledgeand Two-layer Control Mechanism[J]. Inf Sci, 2018,436/437: 247-267. DOI: 10.1016/j.ins.2018.01.023.

[17] MENG Q, ZHOU M, LIU J L, et al. Pedestrian Evacuationwith Herding Behavior in the View-limited Condition[J]. IEEE Trans Comput Soc Syst, 2019, 6(3): 567-575. DOI: 10.1109/TCSS.2019.2915772.

[18] DU R Z, WANG J Y, GAO Y. Computing Offloading andResource Scheduling Based on DDPG in Ultra-dense EdgeComputing Networks[J]. J Supercomput, 2024, 80(8):10275-10300. DOI: 10.1007/s11227-023-05816-w.

[19] LOWE R, WU Y, TAMAR A, et al. Multi-agent Actorcriticfor Mixed Cooperative-competitive Environments[J]. Adv Neural Inf Process Syst, 2017, 30: 6379-6390.DOI:10.5555/3295222.3295385.

[20] 楊彤, 秦進. 基于平均序列累計獎賞的自適應ε-greedy 策略[J]. 計算機工程與應用, 2021, 57(11):148-155. DOI: 10.3778/j.issn.1002-8331.2003-0019.

YANG T, QIN J. Adaptive ε-greedy Strategy Based onAverage Episodic Cumulative Reward[J]. Comput EngAppl, 2021, 57(11): 148-155. DOI: 10.3778/j.issn.1002-8331.2003-0019.

[21] 任安妮, 周大可, 馮錦浩, 等. 基于注意力機制的深度強化學習交通信號控制[J]. 計算機應用研究, 2023, 40(2):430-434. DOI: 10.19734/j.issn.1001-3695.2022.06.0334.

REN A N, ZHOU D K, FENG J H, et al. AttentionMechanism Based Deep Reinforcement Learning forTraffic Signal Control[J]. Appl Res Comput, 2023, 40(2):430-434. DOI: 10.19734/j.issn.1001-3695.2022.06.0334.

[22] EFTEKHARI S H, MEMARIANI M, MALEKI Z, etal. Hydraulic Flow Unit and Rock Types of the AsmariFormation, an Application of Flow Zone Index andFuzzy C-means Clustering Methods[J]. Sci Rep, 2024,14(1): 5003. DOI: 10.1038/s41598-024-55741-y.

[23] JIANG Y Q, CHEN B K, LI X, et al. Dynamic NavigationField in the Social Force Model for PedestrianEvacuation[J]. Appl Math Model, 2020, 80: 815-826.DOI: 10.1016/j.apm.2019.10.016.

[24] WANG Y, SHANG F J, LEI J J. Multi-granularity FusionResource Allocation Algorithm Based on DualattentionDeep Reinforcement Learning and LifelongLearning Architecture in Heterogeneous IIoT[J]. InfFusion, 2023, 99: 101871. DOI: 10.1016/j.inffus.2023.101871.

[25] YANG H F, YAO L J, CAI J H, et al. A New InterestExtraction Method Based on Multi-head AttentionMechanism for CTR Prediction[J]. Knowl Inf Syst, 2023,65(8): 3337-3352. DOI: 10.1007/s10115-023-01867-w.

[26] YU L L, HUO S X, WANG Z J, et al. Hybrid AttentionorientedExperience Replay for Deep ReinforcementLearning and Its Application to a Multi-robot CooperativeHunting Problem[J]. Neurocomputing, 2023, 523:44-57. DOI: 10.1016/j.neucom.2022.12.020.

基金項目:全國高等院校計算機基礎教育研究會教學研究項目(2023-AFCEC-307);江蘇省計算機學會教學類項目(JSCS2022028);江蘇省大學生創新創業項目(202311641003Z)

主站蜘蛛池模板: 国产成人91精品免费网址在线| 欧美精品啪啪| 国产欧美性爱网| 国产极品粉嫩小泬免费看| 久久久久免费精品国产| 99热国产在线精品99| 国产经典三级在线| 国产乱码精品一区二区三区中文 | 亚洲成人www| 日韩精品高清自在线| 久久黄色小视频| 成人小视频网| 国产青青操| 亚洲美女AV免费一区| 国产一区二区三区精品久久呦| 亚洲精品动漫在线观看| 欧美一区二区福利视频| 亚洲中文字幕在线一区播放| 亚洲综合一区国产精品| 在线看AV天堂| 亚洲精品欧美日韩在线| 91亚瑟视频| 女同久久精品国产99国| 欧美性猛交一区二区三区| 国产在线第二页| 色香蕉网站| 人人爽人人爽人人片| 色哟哟精品无码网站在线播放视频| 午夜福利免费视频| 99青青青精品视频在线| 久草中文网| 97久久人人超碰国产精品| 亚洲精品爱草草视频在线| 日本午夜精品一本在线观看| 国产精品毛片在线直播完整版| 26uuu国产精品视频| 波多野结衣AV无码久久一区| 亚洲国产精品VA在线看黑人| 男女精品视频| 毛片视频网址| 91美女视频在线| 人妻精品久久无码区| 亚洲男女在线| 嫩草影院在线观看精品视频| 东京热高清无码精品| 在线视频一区二区三区不卡| 九九精品在线观看| 青青操国产| 91福利片| 中文国产成人精品久久| 丁香婷婷在线视频| 欧美精品三级在线| 亚洲成aⅴ人在线观看| 国产三级成人| 四虎永久在线精品影院| 亚洲精品免费网站| 成人在线不卡视频| 99精品热视频这里只有精品7| 亚洲人成网站在线播放2019| 亚洲A∨无码精品午夜在线观看| 亚洲 欧美 日韩综合一区| 欧美精品一区二区三区中文字幕| 国产成人资源| 久久香蕉国产线看观| 欧美人与牲动交a欧美精品| 午夜福利亚洲精品| 国产精品第一区| 久久精品娱乐亚洲领先| 午夜毛片免费看| 亚洲动漫h| 欧美成人一级| 日韩无码白| 久久亚洲天堂| 日本精品视频| 91热爆在线| 国产欧美日韩va另类在线播放| 中国国产高清免费AV片| 先锋资源久久| 91极品美女高潮叫床在线观看| 色综合久久久久8天国| 91极品美女高潮叫床在线观看| 国产XXXX做受性欧美88|