999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的城市快速路入口匝道信號控制方法研究

2020-12-29 07:56:58劉樹青
機電信息 2020年36期
關鍵詞:控制策略模型

劉樹青 張 行

(北京易華錄信息技術股份有限公司,北京100043)

0 引言

快速路早晚高峰時段擁堵的情況時有發生,嚴重影響了出行效率和交通秩序。目前快速路入口匝道信號控制方案一般是人工提前設定的,無法根據主線或周邊擁堵情況進行實時調整,對快速路的匝道信號控制方案進行實時合理的調整,已成為城市管理的重要需求。

目前,國內外學者對于快速路匝道信號控制方法的研究,主要可以分為多變量控制、目標最優控制和智能啟發式控制。其中,多變量控制代表性控制策略包括ALINEA算法[1]、METALINE算法[2]等。目標最優控制一般是建立描述系統運行狀態的目標函數,通過尋求目標函數的最優解得出系統最佳控制策略。Bin Han等以減少匝道排隊延遲和降低匝道排隊長度為目標對匝道調節率進行了研究,并通過模擬測試驗證了該方法的有效性[3]。陳學文以快速路系統車輛總消耗時間為控制目標,建立快速路系統擁堵疏散控制模型,實現了快速路網絡整體優化控制[4]。項喬君、禹奧業等發明了一種基于排隊長度的城市快速路入口匝道控制系統及控制方法,通過迭代計算得到最終合理的綠信比[5];啟發式控制是通過制定啟發規則,根據交通狀態控制匝道信號,代表性控制方法有SWARM算法[6]、CPSO-RBF-PID模型[7]等。然而,現有研究大多數以確定的匝道控制模型為主,模型中的參數確定難度較大,對模型在不同程度的主線擁堵場景下的表現考慮較少。

本文基于強化學習建立了快速路入口匝道控制模型,通過元胞自動機模型構建快速路仿真器,并利用歷史數據對模型參數進行訓練和學習,實現了快速路主線擁堵的動態識別和疏導,從而提升了快速路的交通控制水平。

1 快速路入口匝道信號控制流程設計

快速路匝道信號控制是通過信號等對城市快速路的入口匝道進行控制,本文設計了一種基于強化學習的快速路入口匝道信號控制流程。

強化學習是深度學習的方法論之一,智能體通過“試錯”的方式進行學習,通過與環境交互獲得獎賞行為,最終目標是智能體獲得最大的獎賞。在每一個計算循環中,將觀測到的交通檢測數據作為強化學習控制器的環境輸入,智能體根據規則輸出各信號燈當前的動作是開啟還是關閉。同時根據環境數據計算快速路各路段上的擁堵情況,根據擁堵程度將智能體的獎懲行為分為4個等級:(1)輕微擁堵,獎懲等級=-1;(2)擁堵,獎懲等級=-2;(3)嚴重擁堵,獎懲等級=-3;(4)不擁堵,獎懲等級=1。當獎懲等級為1時,將擁堵記憶庫中的參數發送給控制機,作為下一次判斷擁堵的條件。當獎懲等級為其他值時,就基于當前的擁堵情況輸出不同的信號控制策略。每一個計算循環的獎懲等級、動作、環境數據都會存入記憶庫,用于計算下一個循環智能體損失函數的損失值。

2 匝道控制模型和算法

強化學習模型中,智能體通過與環境交互獲取獎勵值,從而動態調整模型中的參數[8]。本文基于元胞自動機模型構建了快速路仿真器,以仿真器作為模型的交互環境,利用歷史數據對強化學習模型進行訓練學習。

2.1 快速路仿真器建模

本文采用改進的元胞傳輸模型[9](Modified Cell Transmission Model,MCTM),與元胞傳輸模型選取每個元胞內的車輛數作為元胞狀態變量不同,改進的元胞傳輸模型以元胞中的車輛密度作為狀態變量,這種改進去除了元胞傳輸模型對于每個元胞長度必須相等的限制。元胞長度限制的取消使得道路的元胞劃分更加靈活,可以用更少的元胞來描述路網交通流,從而大大降低了元胞狀態變量的維數。

路網元胞可分為3種類型:

(1)用于描述路段邊界交通需求的源元胞,如環形快速路的入口匝道元胞可看作是源元胞;

(2)用于接收其他元胞輸入車輛的阱元胞,如環形快速路中的出口匝道可稱為“阱元胞”;

(3)既有輸入又有輸出的元胞稱為“中間元胞”,如快速路中的主干道元胞。

當中間元胞的輸入和輸出流量只取決于該元胞本身狀態時,即若其上游元胞能充分提供其所需的車輛數,下游元胞能充分接收其流出的車輛數,則稱之為“理想元胞”。

理想元胞的密度計算公式如下:

式中:qi,in(k)和qi,out(k)表示在第k個時間間隔進入和駛出元胞i的交通流量,包括主路和進、出口匝道的交通流;ρi(k+1)表示第k+1個時間間隔元胞i的密度。

為了對城市快速路主線、入口匝道、出口匝道進行仿真建模,將元胞之間的連接方式分為3種,如圖1所示。其中簡單連接方式對應快速路主線上的路段仿真,融合連接方式對應主線和入口匝道交匯處,分離連接方式對應主線與出口匝道交匯處。

圖1 元胞連接方式

根據需要仿真的快速路道路長度、出入口匝道位置、檢測器點位等信息,將元胞通過上述3種方式連接起來。由于快速路是雙向封閉的,因此在元胞建模時,需要將快速路分為兩條道路進行仿真。

道路路段元胞劃分的規則為:

(1)元胞長度需滿足約束:元胞長度需小于或等于仿真步長和自由流速度的乘積;

(2)保證入口匝道分布在元胞的上游,出口匝道分布在元胞的下游;

(3)為充分利用微波點位數據,盡量保證一個元胞中只包含一個微波點位。

2.2 仿真器參數初始化

元胞仿真器構建好后,需要對仿真器的參數進行設定和初始化,其中包括仿真模型參數和交通流參數。模型參數包括仿真步長、元胞個數、元胞長度、自由流速度、最大通行能力、臨界密度、擁堵波波速、阻塞密度。交通參數包括入口匝道需求流量和出口匝道分離比以及信號燈狀態。

2.3 各入口匝道流量初始值

根據全天00:00—24:00的交通量狀況進行時段劃分,在不同時段根據歷史交通規律設置不同的輸入需求流量,使需求流量符合一定的歷史交通規律分布,并在該分布下隨機生成輸入需求流量,模擬器的輸入流量符合全天的交通流潮汐和平峰規律。

2.4 各元胞的平均速度

道路模擬器的元胞的平均速度是由速度模型計算得到的,采用分二段的模型進行速度計算,基本思想是用兩種不同的曲線來分別擬合自由流和擁擠流。Edie模型的自由流采用Underwood模型,如公式(2)所示:

式中:uf表示自由流速度;Km為阻塞密度。

而擁擠流采用Greenberg模型,如公式(3)所示:

式中:um表示最大交通量的速度,即最佳速度;Km為阻塞密度。

2.5 元胞的聚類

仿真器的輸入是各元胞的流量、密度、入口匝道的信號燈狀態等數據,輸出為駛入和駛出各元胞的密度和元胞內平均速度。為了簡化模型,量化各信號燈的實際控制效果,將所有元胞按照與信號燈之間的距離進行聚類,聚類的數目為入口匝道信號燈的個數。

2.6 強化學習模型和算法

根據搭建的仿真器,利用快速路檢測歷史數據對強化模型進行訓練。訓練的基本流程如圖2所示。首先根據歷史檢測環境數據,計算各元胞路段在k時刻的交通運行情況,并與k-1時刻的運行情況進行對比,獲得學習過程中的獎賞值。同時,計算k時刻的擁堵開始或消散情況,若元胞k時刻的交通運行狀況判定為擁堵,則下發相應的控制策略;否則,對強化學習模型中的權重參數進行調整。

圖2 強化學習模型的訓練過程

2.7 交通運行狀態計算

本文參考《城市交通運行狀況評價規范》(GB/T 33171—2016)關于交通運行狀態的計算方法,通過計算各元胞在k時刻的行程時間比來判斷交通運行狀態。各元胞在k-1時間間隔內行程時間比TTIi,k-1計算如公式(4)所示:

式中:TTIi,k-1表示評價元胞i在k-1時間間隔內行程時間比表示評價元胞i在k-1時間間隔內所使用的平均行程時間;ti,k-1表示評價元胞i在k-1時間間隔內自由流行程時間表示評價元胞i在k-1時間間隔內所使用的平均行程速度;vi,k-1表示評價元胞i在k-1時間間隔內自由流行速度。

特殊地,當路段平均行程時間小于自由流行程時間時,設定TTIi,k-1=1。

通過公式(5)將聚類的各元胞路段行程時間比進行加權平均,得到各信號燈控制的元胞道路的總行程時間比。其中,γi,k-1將元胞的路段長度和流量之積作為各評價元胞權重系數。

根據表1得到元胞路段總交通運行指數Ck。

表1 道路網行程時間比和城市交通運行指數的推薦轉換關系

2.8 獎懲值計算及擁堵狀況判定

根據元胞路段k-1時段的交通運行指數,計算智能體k時刻的獎懲值如公式(6)所示,在路段處于中度擁堵及以上狀態時,智能體的獎勵值不斷下降。

若Ck≥1.9,Ck-1≥1.9,Ck-2<1.9,Ck-3<1.9,認定k時刻擁堵開始。若Ck<1.9,Ck-1<1.9,Ck-2≥1.9,Ck-3≥1.9,則認為擁堵消散,下發控制策略。本文中的控制策略是在提前預設好的多個方案中選擇其中一套,或者是將信號燈變為常綠狀態。

2.9 強化學習模型權重參數學習調整

在每一次擁堵形成到擁堵消散的緩堵周期,系統要根據各時間間隔k的Rk值、各時間間隔k的環境觀測量、各時間間隔k的控制策略,計算神經網絡損失值,用于指導神經網絡權重參數學習調整。損失值的計算如公式(7)所示:

式中:loss為損失值;Rk為元胞在k時刻的獎勵值;為k-1時段通過神經網絡輸出的各元胞的控制策略動作向量;y為經過歸一化后的概率向量。

得到損失值后,通過深度學習框架TensorFlow獲得強化學習模型中神經網絡各層參數的梯度,然后更新各層的參數,完成一次學習過程。

3 實驗和結果

天津市快速路是天津市重點工程,整體長度共41 987 m。測試選取了快速路主路較擁堵的某處點位,選取某早高峰時段啟用入口匝道信號燈調節由輔道進入主路的流量,并對測試入口下游500 m主路路段速度數據進行分析。速度方面,開啟控制當日,在早高峰燈控時段,該下游主路路段平均速度為47.36 km/h,較上周同期速度44.22 km/h提升7.09%;流量方面,開啟控制當日,該下游主路路段每5 min平均車流量為540,較上周同一時段每5 min車流量460提升17.29%。

4 結語

針對目前城市快速路早晚高峰擁堵的問題,本文提出了一種基于強化學習的快速路入口匝道信號控制方法。通過元胞自動機建立快速路仿真器,在此基礎上根據歷史數據對強化學習模型進行訓練學習,模型采用交通運行指數來計算訓練過程中的獎勵值,并通過仿真器反饋自學習調整模型權值。實驗結果表明,測試的點位下游主線路段平均速度提升了7.09%。

在快速路發生持續擁堵時,模型的控制策略具有一定局限性,且該場景下模型獎勵值一直為負,模型的收斂速度較慢。下一步將在模型中考慮控制策略的靈活性,深入研究交通運行狀態對模型參數的影響,進一步優化完善模型。

猜你喜歡
控制策略模型
一半模型
考慮虛擬慣性的VSC-MTDC改進下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
現代企業會計的內部控制策略探討
消費導刊(2018年10期)2018-08-20 02:57:02
3D打印中的模型分割與打包
容錯逆變器直接轉矩控制策略
基于Z源逆變器的STATCOM/BESS控制策略研究
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 9999在线视频| 国产97公开成人免费视频| 国产激情国语对白普通话| 亚洲国内精品自在自线官| 国产精品爽爽va在线无码观看 | 热热久久狠狠偷偷色男同| 欧美人与性动交a欧美精品| 精品国产成人高清在线| 人妻丰满熟妇AV无码区| 中文字幕在线一区二区在线| 国产麻豆永久视频| 不卡无码h在线观看| 高清不卡毛片| 免费国产福利| 色婷婷亚洲十月十月色天| 精品国产成人a在线观看| 亚洲无码精品在线播放| 日韩东京热无码人妻| 免费在线视频a| 久久美女精品| 亚洲全网成人资源在线观看| 国产噜噜在线视频观看| 狠狠亚洲五月天| 亚洲无码高清一区| 好紧好深好大乳无码中文字幕| 永久成人无码激情视频免费| 日本人又色又爽的视频| 欧美啪啪精品| 欧美精品亚洲精品日韩专区va| 国产精品久久久久鬼色| 91精品综合| 手机看片1024久久精品你懂的| 高潮毛片免费观看| 色婷婷电影网| 91精品人妻互换| 99视频在线免费| 亚洲精品桃花岛av在线| 久久久久国产一级毛片高清板| 91黄视频在线观看| 亚洲精品午夜天堂网页| 成人精品午夜福利在线播放| 日韩成人在线视频| 中文字幕av无码不卡免费| 亚洲美女一区| 亚洲人成网站18禁动漫无码| 久久久久久久97| 国产微拍一区| 黄色成年视频| 色色中文字幕| 国产精品无码AⅤ在线观看播放| 欧美精品一区在线看| 亚洲欧洲自拍拍偷午夜色无码| 91久久精品日日躁夜夜躁欧美| 一区二区三区四区在线| 免费一级无码在线网站| 国产尤物在线播放| 亚洲男人天堂2018| 99热这里只有精品免费| 久久久精品国产亚洲AV日韩| 亚洲日韩久久综合中文字幕| 精品久久蜜桃| 欧美一区国产| 成人亚洲天堂| 国产精品网址你懂的| 狠狠v日韩v欧美v| 永久在线精品免费视频观看| 毛片最新网址| 亚洲国产欧美目韩成人综合| 无码专区在线观看| 亚洲午夜国产精品无卡| 亚洲国产中文精品va在线播放| 国内毛片视频| 播五月综合| 91黄色在线观看| 国产人成在线视频| 园内精品自拍视频在线播放| 欧美亚洲综合免费精品高清在线观看| 无码人中文字幕| 国产拍在线| 欧美亚洲日韩不卡在线在线观看| 好紧好深好大乳无码中文字幕| 99久久国产综合精品2020|