基于多智能體Q學習算法的交通信號優化控制

2020-10-20 20:46:35陶巧云

數碼設計 2020年9期

關鍵詞：優化

陶巧云

摘要：隨著社會的發展，城市交通變得日益復雜，交通路口信號的控制關系到城市道路擁堵狀態及行人車輛的通行是否暢通問題。就這一現狀，本文提出了基于多智能體Q學習算法的交通信號優化控制的方法。通過多次實驗，交通系統中，上下級智能體之間及同級智能體之間通過實時學習可以達到最優的交通信號控制。

關鍵詞：多智能體;交通信號;Q學習算法;優化

中圖分類號： U491.51?文獻標識碼：A?文章編號：1672-9129（2020）09-0157-01

引言：因為交通是實時變換的，交通流量也有著隨機性，所以提升交通信號控制的智能化水平非常關鍵。智能體是當前交通信號智能控制的基礎構件，其是由計算機系統控制的自主實現對應功能的結構實體，本身性能優越，環境適應性強，其可以將復雜的大問題分解為多個子問題，而每個子問題由獨立的模塊負責解決，能緩解運算量大導致的系統運行緩慢，效率高。將其應用于城市交通控制，需要多個智能體的共同配合。首先需要將每個智能體安裝于交叉路口，其次使用專用網絡將智能體連接起來，每個智能體設置不同的結構功能，讓復雜的路口狀況被多智能體簡單處理。強化學習利于增強智能體的學習能力，本文將結合多智能體技術可以感知不同條件下自適應能力，然后作出符合交通的相應調控策略。下面主要介紹多智能體強化學習的交通信號優化設置。

1?多智能體的強化學習

傳統的多智能體控制交通系統采用完全分布式結構，即每個路口均安裝智能體，對路口進行獨立的管理與控制，不同智能題之間互相協調以達到最佳效果。但如果某一智能體突然故障，路口智能體會完全癱瘓，所以本文采用分層遞階式結構。首先整體規劃交通信號分布，并依據功能和結構的不同進行協調管理，最終使得上級智能體管理下級，而下級負責路口信息的監測與傳遞。

強化學習目前應用非常廣泛，可以有效應對周圍環境的變化，多智能體強化學習利于完成智能體與環境間的持續交互，目前最常應用Q算法實現強化學習。Q學習算法的基本思路是直接優化迭代的Q函數。學者Watkins使用下列公式表示Q函數：

采用Q學習算法進行強化學習，需要先改變對應Q值。智能體的決策時刻為公式中的t，當環境狀態為st時，智能體就會依據一定的算法與策略執行at，同時依據反饋信息立即獎賞r并進入st+1這一新的環境狀態，繼續依據算法執行動作，并進入下一環境狀態。以此過程循環往復，當Q值不再出現變化時，Q函數收斂，對應智能體的學習過程到此結束。

2?多智能體強化學習的改進

分析標準的Q學習算法，可以發現智能體并未學習到足夠的知識體系，比如當搜索范圍增大，Q學習算法的收斂速度非常緩慢，實際應用時會直接影響整個系統的性能。對此應積極改進強化學習的算法。

多智能體的動作以具體環境為支撐，而交通環境非常復雜，因此智能體的狀態轉移無法確定，這也是降低其學習速度的重要原因。為了讓智能體能在最短時間內作出正確的行為決策，應適當增大學習效率a的數值，提高多智能體的學習速度。其后采用進行Q算法強化學習：首先，將所有的Q數初始化。其次檢測當前的環境狀態，并設置為s。接著一定的算法選擇確定動作a，當動作a執行結束，多智能體檢測新的環境狀態，并將原本的s變為s，依據經驗環境和獎懲值r更新公式中的Q值。新的公式如下：

以此為基礎，設置模型學習環境。隨機選擇動作狀態（s，a），將該狀態帶入到環境模型當中，計算下一個狀態的s與r值，更新Q值，直至最后完成強化學習。

以單交叉十字路口為例，假設目前各個方位均有三種類型的車流，那么如果當前的綠燈對應一種相位代碼，首先設置時間為t，統計車輛的排隊長度與未來5分鐘車輛的到達率，其后形成對應的環境狀態。其次確定智能體的動作空間與動作策略。這里提出兩種動作策略的設計目標：最優選擇函數估計中行為值最大的，提高算法的在線能力;考慮算法的收斂性，要求動作空間與狀態的精確性。另外上下班時間交通壓力較大，容易影響Q學習算法的學習速度，導致智能體的控制性能降低，對此應合理調試綠燈相位與紅燈相位。

將Q學習算法的改進效果說明如下：某主干道單交叉路口的飽和流量為2000V eh/h，綠燈最大時長為直行80s，左轉20s，最小時長10s，每個方向的初始排隊車輛4s，多智能體觀測新環境的時間間隔為2s。觀測時間為140min。

仿真結果見圖1，可以發現，在50min之前原本的Q學習算法與改進的Q學習算法初期變化明顯，隨著觀測時間的延長，改進Q學習算法的效果逐漸凸顯出來，車輛的平均速度得到提升。究其原因，多智能體學習初期屬于試錯學習階段，改進之后多智能體以經驗知識為基礎進行模型學習，收斂時間早，能有效加速迭代過程，算法改進有一定效果。

結語：隨著社會經濟的發展，交通問題主要是減少交通道路擁堵及提高交通效率，人工智能技術的發展造就了智能交通系統，一定程度上改善了復雜的交通問題。本文主要提出了一個多智能體Q學習算法的交通信號優化控制的方法，通過改進的Q學習算法，實現了最優的控制策略。通過實驗仿真，驗證了這種方法可以有效的解決交通優化問題。

參考文獻：

[1]高思琦. 基于深度強化學習的多智能體城市道路交叉口交通流優化控制研究[D].福建工程學院，2019.

[2]成衛，唐逸超，鄭佐雄.基于感應控制的過飽和交叉口流量轉移方法研究[J].重慶交通大學學報（自然科學版），2018，37（11）：83-90.

[3]楊文臣，張輪，Zhu Feng.多智能體強化學習在城市交通網絡信號控制方法中的應用綜述