基于深度強化學習的道路信號燈控制算法

2021-11-19 08:17:38王偉光

計算機仿真 2021年10期

高航，王偉光

(1.濰坊醫學院臨床醫學院，山東濰坊 261053；2.山東管理學院智能工程學院，山東濟南 250037)

1 引言

道路十字路口是由進出車輛、十字路口、道路以及信號燈組成。其中，道路信號燈控制器使用相位，即表示允許特定動作信號燈的組合，來控制十字路口的車輛通行。基本上，一個道路信號控制策略可以解耦成任意給定時間的兩個連續決策，即下一個階段狀態和狀態持續時間。為此，各類策略與模型被提出來。其中，最簡單和最普遍的一種是固定時間、基于周期的道路信號控制模式，即通過一定的順序周期序顯示階段狀態，各周期中的每個階段都設以固定的、可能唯一的持續時間。但在實際應用過程中，固定時間、基于周期的道路信號控制模式在遇到車流量大、早晚高峰便變得不適用，經常處于半癱瘓狀態。

為此，需要一種道路信號燈自適應控制，具備無環相位序列和動態相位持續時間，以適應交十字路口復雜的交通狀況。各種各樣的方法與技術隨之被提出，例如文獻[1]針對傳統分布式自適應交通信號控制協調效率受限，并且存在維數災難問題，建立了城市區域交通信號控制系統模型，將其優化問題建模為局部交叉口交通信號博弈協調控制，提出了一種基于交叉口交通信號控制agent局部信息博弈交互的學習算法，取得了更好的交通信號燈控制效果。文獻[2]針對目前道路信號控制中NS-BML模型只考慮現在瞬時密度而忽略歷史密度的問題，提出了一種記憶密度策略，從長時記憶密度策略和短時記憶密度策略兩個角度分析了該策略對曼哈頓式網絡的影響，從而有助于提高道路信號燈控制系統的運行效率。文獻[3]為解決城市交通路口擁堵問題，結合PFI車流運行特征，給出了信號控制策略，建立了優化模型，明顯提升十字路口的運行效率。文獻[4]針對城市交通擁堵所帶來的嚴重危害性，基于平面交叉路口交通燈切換時間相對固定，惡劣天氣或發生交通事故時路口經常發生交通堵塞的實際情況，提出了一種平面交叉口交通擁堵多方向交通燈運行時間自適應算法，有助于提高車輛的通行效率。

為了滿足日益增長的交通需求，不僅需要通過擴大交通基礎設施來擴大交通能力，更重要的是優化新交通工具的車隊或交通控制和管理，以提高交通能力。隨著互聯網技術和人工智能的快速發展，交通信號燈的智能管理已成為智能交通的熱點問題。

2 道路信號燈控制情況介紹

2.1 交通控制的基本參數

1)周期是指交通交叉口信號燈各階段輪流運行一次所需的時間，即從一個階段到下一個階段所需的時間，定義的符號為C[5-6]。信號周期是影響城市道路通行能力的關鍵因素，通常與道路流量有關。

2)相位

交叉路口的車輛經常發生沖突，必須根據某些規則通過交叉路口。交通信號燈在一個或多個方向上引導交通流而不發生沖突。

3)綠信比

在一個信號周期內，某相位通行時間(有效綠燈長度)與周期時間的比值就是綠信比，用λ表示如下式，其中周期長度為C，tGi第i的有效綠燈時間。

(1)

合理的綠信比是確保安全高效交通流的重要因素[7]。信號相位的綠信比越大，該階段的交通流效率越高，但會影響其他階段的交通流。因此，有必要平衡各相位的綠信比。

2.2 交通信號控制評估指標

交通標志管理評估指數旨在量化交通效率，而交通標志評估指數通常可直接用作交叉口信號管理計劃。為了優化配時，選擇交叉點評估指標非常重要[8-9]。下文詳細解釋了每個指標的含義。

1)延誤

延誤是指給定時間段內所有車輛的平均延誤，是交叉口最常用的評價指標。它反映了車輛使用過程中交通狀況、信號管理和其他干擾造成的時間浪費。

2)停車次數

當車輛通過交叉口時，由于紅燈或擁堵的影響，車輛將完全停止。車輛停得越多，產生的污染物質越多，產生的噪音和油耗就越多，同時，道路車輛緊急停車很可能導致交通事故[10]。

3)通行能力

通行能力是指在實際道路條件下能夠通過車道的車輛總數。

4)旅行時間

旅行時間是指車輛通過該區域所需的時間。由于交通的動態性，車輛通過該區域所需的時間將根據實際交通狀況而變化[11-13]。例如，在路段擁堵時，車輛旅行時間很大，而在路段通行順暢時，車輛旅行時間較小。

2.3 Webster配時法

Webster配時法旨在將車輛延遲時間降至最低。它是城市交叉口最常用的信號管理方法。參見Webster配時法，主要包括車輛延遲、最佳循環時間和各階段的計時參數。

1)車輛延誤計算

Webster在1958年提出了Webster延遲模型，是世界上應用最廣泛的手術延遲模型。將車輛延誤分為排隊延誤、常數延誤和隨機延誤。各路口車輛延誤表達式如下：

(2)

其中C是信號周期，綠信比入，當前相位的流量q，車道飽和度x。

2)最佳周期的計算

在具有n個相位的交叉口，根據公式(2)得到總的交叉口車輛延誤D的表達式為:

(3)

其中qi為第i相位的車流量，di是第i個相位的平均車輛延誤，要使得總的車輛延誤最小，因此將車輛延誤函數D對周期長度C求偏導，并令偏導數等于0，如下式:

(4)

然后經過一系列的等價代換、簡化近似計算等復雜的數學推導，求得最佳信號周期CO如公式(5):

(5)

在最佳周期公式中，L是信號周期內的總損失時間，計算公式如(6)，其中l是相位信號的損失時間，信號的相位數是n，周期中的全紅時間AR.

L=nl+AR

(6)

而Y是各相位的臨界車道的交通流量比之和，如下式:

(7)

在每個信號相位中，都有一些道路可以通行。在這些道路上，臨界帶的交通流量比定義為臨界帶內的流量與道路可通過的最大流量(飽和流量)之比。

3 強化學習理論模型

強化學習是人工智能的重要組成部分。它被認為是實現類人智能的關鍵因素，并吸引了許多著名研究人員和企業的注意。

如圖1所示，在強化學習框架中，有四個關鍵要素，其中主體是決策主體，狀態是主體的環境抽象，獎勵用于衡量當前戰略的質量，在確認的情況下，代理首先監控環境，從狀態接收信息，然后根據觀察到的信息(狀態)給出決策(操作)；采取環境行動后，環境狀態發生變化，并為代理人的活動提供反饋(報酬)；代理人根據報酬值改變策略[14-15]。當保費為正值時，表示代理選擇的行動是正確的，并增加了選擇活動的可能性。相反，這表明代理人的決定是錯誤的，必須降低采取行動的可能性。學習旨在最大化累積獎勵，找到狀態知識和執行活動的最佳映射，即學習最佳策略。與受控學習方法不同，驗證學習方法不需要手動記錄信息，而是基于智能體與環境交互所產生的數據，同時提供信息和培訓，直到學習到最佳策略。

圖1 強化學習框架

4 基于PPO的單交叉口信號優化控制算法設計

4.1 單交叉口信號控制的強化學習模型

可對單路口信號管理進行建模，以強化學習問題。如圖2所示，PPO算法是交叉口處的代理。代理在交叉口獲得道路空間，然后做出決策，即生成信號管理系統，并繼續優化代理的決策能力，表示做出決策后將返還獎勵[16]。信號管理系統已經實施。現在將詳細實施加強單路口信號管理網絡結構的狀態、動作、獎勵功能和學習算法。

圖2 基于強化學習的單交叉口信號控制[11]

4.1.1 狀態空間

由于傳感器技術的發展，目前的城市道路上安裝了環路傳感器，可以實時獲取道路上的交通流模式。傳感器位于每個接入帶的入口和出口，以實時收集交通信息并將其加載到交叉口的控制中心。道路上的車輛數量和排隊長度。圖4交叉口有八條通道，該區域共設置了16個傳感器位置。因此，空間被定義為使用16個傳感器記錄的車輛平均速度，16個傳感器和8條道路登記的車輛數量。車輛隊列的長度和條件為40維向量。

4.1.2 動作空間

在交叉路口的智能體需要根據當前道路的狀態，去設計合適的相位和相位通行時間來指導車輛通行，從而最大化路口的通行能力。在傳統的信號控制方法中，交通燈執行的相位順序是固定的，如依次執行1，2，3，4相位，只調整執行各個相位的的時間。固定相位順序的方法不能靈活的應對變化的車流，而本文提出了一種不加相位限制的控制方法，各個相位之間可以任意切換。中本文的算法中將行動空間定義為交叉口的四個綠燈相位，在每一個時間間隔ΔT，智能體根據當前的狀態選擇一個動作，也就是一個信號相位。而且在信號控制的過程中我們考慮了不同相位切換時的安全性，需要用黃燈警示車輛。如果當前相位與下一執行相位不同，則先執行黃燈相位Ty秒(本文中設置的是3秒)，警示車輛交通燈將要切換相位，然后執行選擇的相位，持續ΔT-Ty秒，如果相位不改變則繼續執行當前相位ΔT秒。

4.1.3 獎勵函數

獎勵函數是評估上一階段在交叉口實施的系統的質量。根據返回的獎勵值，智能體不斷增強決策能力。車輛等待時間越短，停車時間和駕駛時間越短，這就是為什么我們要設置溢價，即移動到選擇操作前后道路的累計等待時間。獎勵函數根據以下等式定義：

rt=Wt-1-Wt

(8)

(9)

4.1.4 PPO模型的網絡結構

在本文中，單交叉口信號管理的PPO模型由兩個完全連接的神經網絡表示，兩個神經網絡具有相同的網絡結構：參與者和關鍵。參與者和關鍵神經網絡輸入是由交通模式數據組成的40維向量，車輛速度、車輛數量和車道長度，然后在三層上完全連接隱蔽層。三個隱藏層分別包含128、64和32個神經元，隱藏層由Relu函數激活。對于參與者網絡，輸出為所有動作的概率值，因此最后一層為softmax層，輸出向量為4維，所有動作相加的概率為1；對于關鍵網絡，輸出是操作的分數，因此最后一層是完整的接口層，輸出向量是一維的。

4.2 基于PPO的單交叉口信號優化控制算法

本文中設計的基于PPO的交叉口控制系統是一個閉環負反饋系統，如圖3所示。管理系統通過交通觀察模塊實時采集交通模式數據，然后評估交通參數，選擇下一個時段的相位系統，交通燈執行相位系統。隨后，PPO網絡將根據監控效果交替更新，這將提高智能體的決策能力。

圖3 單交叉口控制流程

本文設計了基于PPO的單交叉口信號控制算法。該設計算法可以自由改變相位，解決了信號優化控制方法、固定周期相位序列和低工作速率綠燈時間的問題。每個階段的行程時間最短，即使在某些階段沒有車輛，也會在每個階段交替進行。為了提高相位變化期間的安全性，在算法步驟變化之前添加黃燈警告步驟。當從策略模型中獲得下一步系統時，它不是直接執行的，而是評估階段系統是否已被修改。如果已更改，則必須先完成黃燈警告裝置，然后再實施系統。例如，如果第1階段已從代理處獲得三次，則第1階段將在30秒內執行，這樣大大提高了交叉口控制效率。

5 仿真分析

5.1 實驗平臺與仿真場景設計

5.1.1 實驗平臺

本文件中選擇的交通模擬程序為“Simulationof Urban Mobility”，簡稱為“SUMO”，是一種用于微型交通和多式聯運的開源模擬軟件。Sumo提供了一個交通控制接口，通過該接口可以實時監控交通模擬并實現傳輸參數。Tra CI使用基于TCP的客戶端/服務器架構，使用sumo模擬作為服務器，Python編寫的控制器是客戶端。

使用開源神經框架pyfair以PPO算法的形式構建神經網絡，設計控制算法Python語言交通信號控制中心(服務器)，使用sumo simulation軟件simulation來模擬真實運行的道路網絡(客戶端)，并通過tra CL接口了解服務器和客戶之間的數據和命令傳輸。

5.1.2 單交叉口交通仿真場景設計

根據SUMO給出的說明，首先定義了路網的節點、邊緣和接口，并創建了路網的XML配置文件，打開網絡配置文件。每個方向有兩個入口點，一個穿過車道，另一個穿過左側車道。

本文的單交叉口仿真中用到的基本參數如下:

●道路長度:200m。

●傳感器位置:在每個入車道停車線后5m處和停車線后100m處各放置一個。

●車輛信息:車輛長度是5m，最高速度是13.9m/s，車輛之間的最小間距是2.5m，加速度是1m/s2，減速度是1m/s2。

5.2 仿真參數設置

5.2.1 路口流量設置

為了盡可能地模擬交叉口實際交通的時空特征，將交叉口劃分為四種交通流模式：低飽和、近飽和、過飽和不均勻負載模式，交通法規規定飽和流量設置為1800pcu/h，每個階段的最大飽和率之和由y確定。過飽和模式意味著Y>1；平衡負載意味著不同階段之間的流量非常高，某些方向的交通流量很高，而某些方向的交通流量則很少。

表1 四種交通流量模式設置(單位：pcu/h)

5.2.2 固定配時法相位方案和Webster配時法相位方案設置

固定時間方法意味著階段計劃輪流實施，每個階段的持續時間是固定的，與輪換的任何變化無關。在模擬中，第一階段、第二階段、第三階段和第四階段被設置為27s，各階段計劃之間的黃色燈光為3s。

Webster計時方法是使用Webster公式計算每個階段的行程時間，該公式與交通網絡收集的歷史交通數據相對應。相位系統之間有一個黃色燈3s。根據Webster方法計算的每個流動模式的韋伯斯特階段計劃如表2所示：

表2 Webster配時法相位方案(單位：秒)

5.2.3 模型訓練參數設置

基于PPO方法的交叉口信號優化控制模型的訓練參數設置如表3所示:

表3 訓練參數設置

5.3 結果分析

5.3.1 基于強化學習單交叉信號控制效果評估

在對基于PPO模型的信號控制算法進行訓練后，將單點信號控制的有效性與Webster方法和固定定時方法進行比較。車輛的平均停車時間和平均行程時間。圖4顯示了三種算法的控制效果比較。

如圖4(a)所示：在接近飽和、過飽和和不平衡負載的情況下，采用PPO算法的車輛在交叉口的平均等待時間最低，其次是Webster法，而不變計時法最差。PPO算法對減少交叉口車輛平均等待時間有明顯影響；在低飽和交通模式下，PPO算法的效果非常接近固定時間法，而等待時間Webster法比其他兩種方法要長得多。PPO算法與固定定時方法相似，且優于固定定時方法。在圖4(b)停車次數效果對比中，除去不飽和流量模式，PPO算法可略微改善交叉口的平均車輛數量。在圖4(c)中，車輛行駛時間的比較與車輛平均等待時間的影響非常相似。在近飽和、過飽和和不平衡荷載條件下，PPO算法的效果優于Webster方法，Webster方法優于固定時間法；在低飽和模式下，PPO算法的效果接近于固定定時方法，而Webster方法消耗的車輛行駛時間最多。可根據交叉口實時交通模式智能修改管理系統，可提高大多數交通方式的交通管理效率。當流量非常低時，Webster的優化效果不如固定計時法，因為根據Webster公式計算的最佳時間，太小，且每一步的計時太小，導致通過交叉口的交通不完整，停車次數過多。

表5 三種算法的車輛平均停車次數(單位：次數)

表6 三種算法的車輛平均車輛旅行時間比(單位：秒)

為了量化PPO算法的改善效果，表4至6計算了使用三種控制算法的車輛的平均等待時間、停車時間和平均行駛時間。平均等待時間分別為35.73%和54.07%，與Webster計時法相比分別減少了17.83%、19.86%和7.84%；就停車時間而言，與固定計時方法相比，PPO分別下降31.82%、32.16%和24.66%；比較車輛平均行駛時間，從固定時間中分別下降27.74%、28.17%和41.49%，改善效果非常明顯。

表4 三種算法的車輛平均等待時間比(單位：秒)

6 結束語

本文提出了一種基于PPO算法的交通信號管理方法，并在sumo仿真平臺上對不同的交通需求進行了測試。實驗結果表明，本文提出的交通信號管理方法與配時方法相比，具有更好的控制效果，能夠顯著減少交叉口排隊車輛的數量。該方法僅進行了仿真研究，未在實際場景中測試其控制效果；此外，本文中提出的方法在某些方面仍需改進。未來，有必要將應用場景從簡單的單交叉口擴展到具有多個交叉口的復雜道路網。