趙晉芳



摘? 要:為了緩解大城市的交通擁堵現狀,交叉口信號燈配時的研究越來越有必要。普遍的交通信號配時技術,是基于單路口、傳統車輛檢測方法而設計的,沒有考慮影響實際交通狀況的流量,存在配時不準確、不智能的局限性。通過基于強化學習的深度Q網絡,提出基于多路口車輛感知預測的協同信號配時技術,將每個路口建模為一個代理,每個代理被訓練從道路環境接受交通狀態并采取最佳行動。實驗表明,該方法不僅可以有效地進行交通流量預測,解決多路口協同的信號燈配時問題,還可以提高配時技術的智能性。
關鍵詞:Q網絡? 強化學習? 協同交通信號控制? 交通流預測
中圖分類號:U491.2 ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2021)02(c)-0113-04
Cooperative Traffic Signal Control with Vehicle Perception Prediction in Multi-Intersection
ZHAO Jinfang
(Xi'an Vocational University of Automobile, Xi'an, Shaanxi Province, 710600 China)
Abstract: In order to alleviate the current situation of traffic congestion in large cities, it is more and more necessary to study the signal timing at intersections. The universal traffic signal timing technology is designed based on single intersection and traditional vehicle detection method. It does not consider the flow affectsing the actual traffic situation, and has the limitations of inaccurate timing and intelligence. Based on the deep Q network of reinforcement learning, this paper proposes a cooperative signal timing technology based on multi intersection vehicle perception prediction. This technology will model each intersection as an agent, and each agent is trained to accept the traffic status from the road environment and take the best action. Experiments show that this method can not only effectively predict traffic flow, solve the problem of multi intersection coordinated signal timing, but also improve the intelligence of timing technology.
Key Words: Q network ; Reinforcement learning; Collaborative traffic signal control; Traffic flow prediction
最近,交通擁堵已成為大多城市的嚴重問題[1]。由于有限的道路通行能力,使得交通流量增加越來越快。目前,傳統的靜態信號燈長度,使得交通系統不能有效地應對交通擁堵現狀[2]。為了應對這些局限性,自適應交通信號控制根據路口處觀察到的交通量[3],實時切換交通信號相位。
各種傳統的機器學習算法被用于研究自適應交通控制。其中,基于圖像處理技術的自適應交通信號控制是主流方向[4],雖然有部分通過提取車輛位置和速度信息進行模擬的多路口協同交通信號控制研究,但是大多數快照效率不高,而且不能處理影響交通狀況的現實變量,例如溫度和天氣等。
另外,強化學習被廣泛應用于交通信號控制研究[5],以尋找最佳解決方案。其中代理的最佳行動策略是在不確定的環境中學習到的。在信號燈配時控制研究中,代理將通過交通流環境獲取狀態,并根據學習之后的策略采取最佳措施。然后,代理會收到獎勵,并學會最大化折現的累計獎勵。鑒于此,本文提出基于多路口的車輛感知預測的協同信號配時技術。
1? 技術框架
強化學習的最佳策略是基于Q學習之后選擇的,但是Q學習本身在維數上有不能處理高維空間的弊端,因此提出了將兩者結合起來的深度強化學習。DQN通過神經網絡近似高維空間而顯示出有效的性能[6]。由于DQN的高性能,通過估計來自其他交叉口的車流量來導出全局最優Q值。因此,提出將影響現實交通預測的變量考慮進去進行協同控制。整體框架如下:
如圖1,其中,在行動執行過程中,代理都從現實環境接受變量狀態,并預測狀態時刻的交通流量。然后返回給代理。代理根據觀察到的狀態和預測的未來交通流量,來計算最佳Q值來選擇行動。公式如下:
(1)
其中s代表狀態,a代表行動,γ是折現因子,用以乘以預期報酬,表示設置以后收到的較低報酬值。
2? 關鍵技術
2.1 基于現實世界的交通流量預測
在現實世界中,交通流量很容易受到天氣、日期和時間等變量的影響。在模擬環境中,很難處理這些因素。因此,實際變量可以通過獨立的交通流量預測模型來體現。本文方法的目的是通過考慮影響現實世界交通流量的模型,來預測并減輕擁堵現狀。預測模型是通過使用LSTM(長期記憶)網絡實現的[7]。
當從道路環境中接收到狀態Statet時,帶有影響現實世界變量的預測模型,會預測狀態,并優化最佳行動動作的Q值,更新如下:
(2)
(3)
其中,是在時間步t根據影響現實世界變量的模型預測的交通流量。是取最佳行動措施,即最大值的指標,和是用來迭代更新的網絡參數。這個更新的Q值更符合并接近于真實世界。
2.2 多路口協同控制
對于多路口的協同交通信號配時控制[8],我們提出了基于交通流量預測的協同交通信號控制的交通規劃方法,該方法將多路口環境建模為多代理,訓練每個代理以找到局部最優Q值,然后嘗試通過傳輸包含每個代理的局部最優值的消息來查找全局最優Q值。考慮相鄰交叉路口的Q值更新如下:
(4)
其中,是相鄰交叉點的數量,是評估網絡在交叉點j的的數。
3? 實現過程
初始化網絡模型的配置參數,包括θ、B、T,m和M,并初始化交通狀態s;
在第一個回合e=1,觀察當前狀態st,選擇行動a,計算獎勵r;并轉入下一個狀態st+1;
如果,則從m中刪除舊的轉換t,并添加轉換到m,轉到步驟4;
如果,則根據優先級從m中基于分布損失計算多步損失;
使用損失,更新網絡參數θ,如果回合,則迭代結束。
4? 實驗結果
為了評估基于交通流量預測的多路口協同交通信號控制方法的性能,在4×4網格的道路環境上進行了實驗,使用SUMO模擬交通[9],支持SUMO的交通API接受交通狀態信息。該系統通過Pytorch框架實現[10]。
為了評估協同交通信號控制和交通流量預測結合方法的重要性。將本文考慮現實世界變量的模型與沒有考慮交通流量預測和沒有考慮協同信號控制配時的模型進行了比較。另外,在此實驗中,將等待時間定義為前面所述的獎勵,并對該網絡進行了訓練,以使獎勵最大化,來證明所提出算法對于提高整體流量性能的有效性。其中,平均等待時間越短,說明配時效率越高,系統控制策略越好。
圖2顯示了3個模型,在平均等待時間上的時間變化,從圖2可以看出交通流量預測和協同交通信號控制結合的模型,等待時間最短,并且隨著訓練的進行,等待時間是遞減的,另外震蕩程度整體上也比較小,優于另外兩種模型的性能。
5? 結語
本文提出了在多個交叉路口結合交通流量預測的協同交通信號控制方法,并加入影響實際交通狀況的變量,單獨構建了交通流量預測模型,以解決多路口缺乏交通信號協同控制的局限性。該方法將每個交叉路口都建模為用于協作交通信號控制的一個代理,每個代理估計局部Q值。通過在交叉點之間傳遞局部Q值,來估計全局最優Q值,并采取最佳行動。實驗表明,該方法不僅在平均等待時間上有了較大的優勢變化,減輕了多個路口的交通擁堵,還實現了配時的智能性。
參考文獻
[1] 李力,王飛躍.地面交通控制的百年回顧和未來展望[J].自動化學報,2018,44(4):577-581.
[2] 胡大江,于偉云.淺談對城市交通信號控制的探索[J].道路交通管理,2020,1(11):38-39.
[3] 項俊平.城市道路交通信號區域均衡控制方法及應用研究[D].安徽:中國科學技術大學,2018.
[4] 方敏學.基于機器視覺的智能交通燈的研究[D].四川:電子科技大學,2017.
[5] 舒凌洲,吳佳,王晨.基于深度強化學習的城市交通信號控制算法[J].計算機應用,2019,39(5):1495-1499.
[6] 文峰,張可新.基于深度強化學習的交通信號配時優化研究[J].沈陽理工大學學報,2019,38(1):48-52.
[7] Sepp Hochreiter, Jü,rgen Schmidhuber. Long Short-Term Memory[J]. Neural Computation,1997, 9(8):1735-1780.
[8] 晏松.智能網聯環境下復雜交叉口信號控制研究[D].北京:中國人民公安大學,2016.
[9] KRAJZEWICZ D ERDMANN, J, Behrisch M, BIEKER L. Recent development and applications of SUMO-simulation of urban mobility. Int. J. Adv. Syst. Meas. 2012, 5(1): 128-138.
[10] LAPORTE FLORIS, DAMBRE JONI, BIENSTMAN PETER. Highly parallel simulation and optimization of photonic circuits in time and frequency domain based on the deep-learning framework PyTorch[J]. Scientific reports, 2019,9(5918):1-8.