999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多智能體Q學習算法的交通信號優化控制

2020-10-20 20:46:35陶巧云
數碼設計 2020年9期
關鍵詞:優化

陶巧云

摘要:隨著社會的發展,城市交通變得日益復雜,交通路口信號的控制關系到城市道路擁堵狀態及行人車輛的通行是否暢通問題。就這一現狀,本文提出了基于多智能體Q學習算法的交通信號優化控制的方法。通過多次實驗,交通系統中,上下級智能體之間及同級智能體之間通過實時學習可以達到最優的交通信號控制。

關鍵詞:多智能體;交通信號;Q學習算法;優化

中圖分類號: U491.51?文獻標識碼:A?文章編號:1672-9129(2020)09-0157-01

引言:因為交通是實時變換的,交通流量也有著隨機性,所以提升交通信號控制的智能化水平非常關鍵。智能體是當前交通信號智能控制的基礎構件,其是由計算機系統控制的自主實現對應功能的結構實體,本身性能優越,環境適應性強,其可以將復雜的大問題分解為多個子問題,而每個子問題由獨立的模塊負責解決,能緩解運算量大導致的系統運行緩慢,效率高。將其應用于城市交通控制,需要多個智能體的共同配合。首先需要將每個智能體安裝于交叉路口,其次使用專用網絡將智能體連接起來,每個智能體設置不同的結構功能,讓復雜的路口狀況被多智能體簡單處理。強化學習利于增強智能體的學習能力,本文將結合多智能體技術可以感知不同條件下自適應能力,然后作出符合交通的相應調控策略。下面主要介紹多智能體強化學習的交通信號優化設置。

1?多智能體的強化學習

傳統的多智能體控制交通系統采用完全分布式結構,即每個路口均安裝智能體,對路口進行獨立的管理與控制,不同智能題之間互相協調以達到最佳效果。但如果某一智能體突然故障,路口智能體會完全癱瘓,所以本文采用分層遞階式結構。首先整體規劃交通信號分布,并依據功能和結構的不同進行協調管理,最終使得上級智能體管理下級,而下級負責路口信息的監測與傳遞。

強化學習目前應用非常廣泛,可以有效應對周圍環境的變化,多智能體強化學習利于完成智能體與環境間的持續交互,目前最常應用Q算法實現強化學習。Q學習算法的基本思路是直接優化迭代的Q函數。學者Watkins使用下列公式表示Q函數:

采用Q學習算法進行強化學習,需要先改變對應Q值。智能體的決策時刻為公式中的t,當環境狀態為st時,智能體就會依據一定的算法與策略執行at,同時依據反饋信息立即獎賞r并進入st+1這一新的環境狀態,繼續依據算法執行動作,并進入下一環境狀態。以此過程循環往復,當Q值不再出現變化時,Q函數收斂,對應智能體的學習過程到此結束。

2?多智能體強化學習的改進

分析標準的Q學習算法,可以發現智能體并未學習到足夠的知識體系,比如當搜索范圍增大,Q學習算法的收斂速度非常緩慢,實際應用時會直接影響整個系統的性能。對此應積極改進強化學習的算法。

多智能體的動作以具體環境為支撐,而交通環境非常復雜,因此智能體的狀態轉移無法確定,這也是降低其學習速度的重要原因。為了讓智能體能在最短時間內作出正確的行為決策,應適當增大學習效率a的數值,提高多智能體的學習速度。其后采用進行Q算法強化學習:首先,將所有的Q數初始化。其次檢測當前的環境狀態,并設置為s。接著一定的算法選擇確定動作a,當動作a執行結束,多智能體檢測新的環境狀態,并將原本的s變為s,依據經驗環境和獎懲值r更新公式中的Q值。新的公式如下:

以此為基礎,設置模型學習環境。隨機選擇動作狀態(s,a),將該狀態帶入到環境模型當中,計算下一個狀態的s與r值,更新Q值,直至最后完成強化學習。

以單交叉十字路口為例,假設目前各個方位均有三種類型的車流,那么如果當前的綠燈對應一種相位代碼,首先設置時間為t,統計車輛的排隊長度與未來5分鐘車輛的到達率,其后形成對應的環境狀態。其次確定智能體的動作空間與動作策略。這里提出兩種動作策略的設計目標:最優選擇函數估計中行為值最大的,提高算法的在線能力;考慮算法的收斂性,要求動作空間與狀態的精確性。另外上下班時間交通壓力較大,容易影響Q學習算法的學習速度,導致智能體的控制性能降低,對此應合理調試綠燈相位與紅燈相位。

將Q學習算法的改進效果說明如下:某主干道單交叉路口的飽和流量為2000V eh/h,綠燈最大時長為直行80s,左轉20s,最小時長10s,每個方向的初始排隊車輛4s,多智能體觀測新環境的時間間隔為2s。觀測時間為140min。

仿真結果見圖1,可以發現,在50min之前原本的Q學習算法與改進的Q學習算法初期變化明顯,隨著觀測時間的延長,改進Q學習算法的效果逐漸凸顯出來,車輛的平均速度得到提升。究其原因,多智能體學習初期屬于試錯學習階段,改進之后多智能體以經驗知識為基礎進行模型學習,收斂時間早,能有效加速迭代過程,算法改進有一定效果。

結語:隨著社會經濟的發展,交通問題主要是減少交通道路擁堵及提高交通效率,人工智能技術的發展造就了智能交通系統,一定程度上改善了復雜的交通問題。本文主要提出了一個多智能體Q學習算法的交通信號優化控制的方法,通過改進的Q學習算法,實現了最優的控制策略。通過實驗仿真,驗證了這種方法可以有效的解決交通優化問題。

參考文獻:

[1]高思琦. 基于深度強化學習的多智能體城市道路交叉口交通流優化控制研究[D].福建工程學院,2019.

[2]成衛,唐逸超,鄭佐雄.基于感應控制的過飽和交叉口流量轉移方法研究[J].重慶交通大學學報(自然科學版),2018,37(11):83-90.

[3]楊文臣,張輪,Zhu Feng.多智能體強化學習在城市交通網絡信號控制方法中的應用綜述

猜你喜歡
優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
PEMFC流道的多目標優化
能源工程(2022年1期)2022-03-29 01:06:28
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
圍繞“地、業、人”優化產業扶貧
今日農業(2020年16期)2020-12-14 15:04:59
事業單位中固定資產會計處理的優化
消費導刊(2018年8期)2018-05-25 13:20:08
4K HDR性能大幅度優化 JVC DLA-X8 18 BC
幾種常見的負載均衡算法的優化
電子制作(2017年20期)2017-04-26 06:57:45
主站蜘蛛池模板: 国产成人啪视频一区二区三区| 亚洲成肉网| 成人毛片在线播放| 午夜日本永久乱码免费播放片| 亚洲大尺码专区影院| 日韩经典精品无码一区二区| 高h视频在线| 强奷白丝美女在线观看| 一区二区日韩国产精久久| 亚洲国产系列| 久久永久视频| 中文字幕亚洲乱码熟女1区2区| 亚洲AV成人一区国产精品| 亚洲bt欧美bt精品| 精品免费在线视频| 亚洲日韩AV无码一区二区三区人| 在线观看国产精品一区| 国产欧美一区二区三区视频在线观看| 色网站在线免费观看| 日本午夜影院| 亚洲第一视频免费在线| 四虎永久在线| 久久精品91麻豆| 久久综合九九亚洲一区 | 亚洲人在线| 亚洲天堂日本| 色精品视频| 成人免费黄色小视频| 女人一级毛片| 国产第一页免费浮力影院| 91无码视频在线观看| 大香伊人久久| 欧美黄网站免费观看| 国产成人资源| 性喷潮久久久久久久久 | 无码乱人伦一区二区亚洲一| 91在线播放免费不卡无毒| 亚洲免费毛片| 国模私拍一区二区| 精品精品国产高清A毛片| 午夜老司机永久免费看片| 亚洲大尺码专区影院| 久久综合丝袜日本网| 精品国产Av电影无码久久久| 精品成人一区二区三区电影| 国产精品午夜电影| 国产精品乱偷免费视频| 91亚瑟视频| 婷婷色狠狠干| 精品国产免费观看| 亚洲 欧美 偷自乱 图片| 华人在线亚洲欧美精品| 成人午夜网址| 国产精品3p视频| 国产真实乱子伦精品视手机观看| 欧美一区二区丝袜高跟鞋| 国产菊爆视频在线观看| 国产伦片中文免费观看| 国产精品成人免费视频99| 狠狠操夜夜爽| 看国产一级毛片| 2021精品国产自在现线看| 18禁黄无遮挡免费动漫网站| 亚洲成a人片在线观看88| 91久久精品日日躁夜夜躁欧美| 亚洲天天更新| 国产簧片免费在线播放| 亚洲国产成人麻豆精品| 亚洲中文精品人人永久免费| 成人亚洲天堂| 欧美精品一区二区三区中文字幕| 亚洲欧美自拍中文| 88av在线| 尤物成AV人片在线观看| 国产精品亚洲欧美日韩久久| 国产一区二区色淫影院| 香蕉色综合| 午夜福利在线观看入口| 五月婷婷亚洲综合| 91在线播放免费不卡无毒| 91精品国产自产在线老师啪l| 欧美笫一页|