999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向地理路網的交通信號智能協同控制方法

2021-10-27 00:40:18郭仁忠趙志剛李曉明
測繪學報 2021年9期
關鍵詞:智能方法

鄭 曄,郭仁忠,馬 丁,趙志剛,李曉明

1. 深圳大學建筑與城市規劃學院智慧城市研究院,廣東 深圳 518060; 2. 深圳市空間信息智能感知與服務重點實驗室,廣東 深圳 518060

隨著我國小汽車持有量的不斷增加,交通擁堵逐漸成為城市管理最為棘手的問題之一。城市路網承擔了整個城市的大部分交通運輸,通過對路網中的關鍵路口信號燈配時和相位協調能有效提高交通運行效率,是面向智慧城市建設的關鍵研究內容[1]。傳統路口交通信號配時方法通常有兩種實現方式:①將道路空間信息作圖后通過測量幾何信息實現;②建立數學模型尋找目標函數最優解實現。以綠波協調為例,傳統方法利用干道上信號燈之間的距離及汽車的行駛的綠波速度構建混合整型線性規劃方程,求使綠波帶寬最大的方程解[2-5]。上述方法具有以下局限性:①所有車輛都必須以相同速度進行行駛(即綠波速度),一旦有少數車輛與綠波速度差距較大,將破壞整個隊列導致綠波效果差;②傳統方法需要發車規律維持相對穩定的速度,如果車流變化大會使計算綠波效果降低。

計算機技術的發展促進諸如模糊邏輯控制[6]、遺傳算法[7]、專家系統[8]等機器學習算法引入智能交通領域。在眾多機器學習算法中,深度強化學習(deep reinforcement learning,DRL)基于馬爾可夫決策理論令智能體在環境中不斷做出相應的決策,并對其行為決策進行回報反饋,使智能體在環境中尋找回報值最高的序列決策[9]。智慧交通信號控制系統通過對交通場景中行為向量、狀態向量和回報函數的定義,實現交通信號燈的智能化控制[10-12]。隨著5G、云計算技術發展,DRL技術在交通管理中有了新的突破。文獻[13]提出一種在車聯網和5G的環境下,利用DRL構建一個支持能夠在云端和邊緣端動態調度的交通控制系統。文獻[14]提出一種基于邊緣計算的DRL流量采集方法,并將此方法應用于緩解交通堵塞問題。文獻[15]從智慧城市建設角度設計一套DRL信號控制系統,協同多個路口提高總體交通吞吐量。文獻[16]完善了基于DRL信號控制算法的細節,在此算法中智能體的狀態向量是劃分成網格后的交通流量數據,決策行為函數是交通燈的持續時間變化,回報函數是兩個周期之間的累計等待時間差。文獻[17]提出的DDPG-BAND算法,通過DRL對城市干道進行綠波協調,實現城市干道多路口協同控制。

總體而言,DRL技術已經較成功地應用于交通信號控制中,但是當前研究一般局限于單路口或者城市干道,基于地理路網多智能體的交通信號協同控制較少。本文結合城市地理路網特征和強化學習特點,提出一種基于強化學習的雙層信號協同控制訓練方法,并將此方法應用于寧波市某中學片區路網。通過與傳統配時方法在仿真器中的旅行時間、吞吐量和停車次數上的比較,證明了本文方法的可行性和有效性。

1 本文方法

1.1 馬爾可夫決策過程

強化學習主要研究智能體不斷地在動態環境中進行試錯和反饋訓練,從而智能體能在變化環境中獲得最大累積回報的序列決策[18]。強化學習理論基礎是馬爾可夫決策過程(Markov decision process,MDP),包含3個基本單元狀態向量(也稱觀察向量)S,決策向量A和回報函數R[19]。智能體在執行決策行為后與環境交互,其狀態由S1轉移至S2,狀態轉移矩陣記為P。在執行序列決策過程中,當前決策比歷史決策影響更大,假設決策的衰退率為Y(γ∈[0,1]),則上述MDP用式(1)表示

MDP=〈S,A,R,P,Y〉

(1)

在MDP問題中,智能體不同狀態下做出決策行為不一樣,策略函數表示在當前狀態下智能體執行多個候選決策的可能,其輸入參數為當前狀態s(s∈S)和決策向量a(a∈A),其輸出結果為每一候選決策的可能。令π表示策略函數,則π(s,a)表示在智能體在狀態s條件下,執行策略a的概率。如果智能體按照策略函數π進行MDP,在第t次執行決策的回報值為Rt,其狀態從st轉移至st+1并獲得回報值rt的過程表示為

rt=P(si,π(si))

(2)

MDP的回報總和表示為

(3)

由上述公式得出,不同策略函數會導致智能體執行不同行為策略的概率不一樣,而不同行為策略所產生的回報值也不一樣,強化學習的策略函數滿足整個序列決策的總回報值最大。優秀的策略函數不僅僅滿足當前決策能夠取得最大回報值,更能保證整個序列決策過程的總體回報總和最大化。由于智能體策略函數π(s,a)是狀態的概率轉移過程,狀態動作值函數Qπ(s,a)表示智能體在狀態的s初始條件下,按照按策略函數π序列決策所得回報的數學期望,即表達為

(4)

因此,MDP問題本質是尋找最優的策略函數π,使得智能體從任意狀態S′開始的決策行為能滿足狀態動作價值函數Qπ(s,a)取得最大值。根據貝爾曼方程[20],第t次決策的狀態動作價值函數的僅于第t-1次決策的狀態動作價值函數有關,因此狀態動作價值函數可簡化為

Ymax(Qπ(st-1,at-1)))

(5)

在深度強化學習中[21],智能體將狀態動作值存入以s和a為索引的深度神經網絡中,通過從不斷的與環境交互并得到回報函數反饋更新神經網絡,最終能使神經網絡中存儲的狀態動作值能正確指導智能體在環境中執行回報值最高的序列決策。

1.2 基于MDP的地理路網交通場景設定

本文通過智能體改變信號燈各相位的綠燈時長來達到交通協調目的,場景設定如下:

(1) 信號燈綠燈配時、相位差由智能體智能決策決定。

(2) 智能體不改變信號燈的相序。

(3) 信號燈的黃燈時長為固定2 s。

基于上述預設條件,本文方法分為兩層(圖1):第1層為工作智能體,其職責對單個路口進行優化,保證每一路口智能體能夠調節各自路口的綠燈時長,使其不造成交通堵塞。第2層為管理智能體,其職責是協調各個工作智能體,提高地理路網整體交通效率。

圖1 雙層協同優化策略Fig.1 Two-tier collaborative optimization strategy

通過將地理路網中地理路網交通場景各個變量特征提取后代入貝爾曼方程,經過訓練后可以實現智能體對交通信號燈的自動調控。在下文中將著重描述如何在上述兩層智能體中定義MDP中的狀態向量、決策向量和回報函數。

1.3 單路口工作智能體設定策略

1.3.1 工作智能體的狀態向量S

地理路網交通場景中,工作智能體的狀態向量必須能夠反映當前路口的交通阻塞狀態。如圖2所示,排隊長度表示交通路口中等待紅燈變綠車輛的總數。在單路口中,車輛排隊長度反應路口各個方向的車流量,是決定對應相位綠燈時長的關鍵因素。除了排隊長度外,由于車輛重量和長度直接決定了車輛的啟動速度和車輛在轉彎過程中耗費時間。因此,本文區分兩種類型的交通車輛作為狀態向量的加權值,一類為重量超過15 t或長度大于12 m的大型車(如泥頭車或公交車),另一類是普通的小客車。

通過上述加權后排隊長度,定義兩種粒度狀態向量:①粗粒度的狀態向量只計算每一方向道路上的加權排隊長度總和,以圖2為例,粗粒度的狀態向量的維度為4,每個維度的值為每一方向的車輛加權后總和;②細粒度的狀態向量維度則為8,每一維度為每一車道的車輛加權后總和。

注:長方形表示行駛車輛,車輛尾部的顏色代表不同的車輛行駛狀態,綠色代表車輛正常行駛,黃色代表車輛正在減速,紅色代表車輛正在停止等待紅燈。圖2 道路交叉口[17]Fig.2 Traffic crossroads[17]

1.3.2 工作智能體的決策向量A

由MDP理論可得,策略函數π根據狀態向量S和決策向A計算智能體下一步決策,因此需要定義工作智能體在地理路網下的決策向量A。智能體改變信號燈各相位的放行時間來達到交通協調目的,工作智能體的決策向量為保存信號燈每一相位的綠燈時長的高維數組。本文中,單路口工作智能體的決策向量A應滿足以下條件:

(1) 決策向量每一維度的數值是正整數(一般信號燈綠燈時長沒有小數)。

(2) 決策向量每一維度的數值必須大于某一固定最小值(信號周期表示信號燈從綠變紅,再變綠的整個時間長度,為了確保行人能以正常速度通過,其必須大于某一與路口寬度有關的固定值)。

(3) 決策向量所有維度數值之和必須小于某一固定最大值(信號燈周期表示不能超過一般人能忍受的范圍,比如5 min)。

智能體對信號燈相位進行綠燈配時后,交通仿真器運行一定周期后通過回報函數對智能體的決策進行評價,因此如何正確定義回報函數是本算法的關鍵。

1.3.3 工作智能體的回報函數R

回報函數R的定義決定智能體策略函數π的優化目標,工作智能體的優化訓練后的優化目標為保證每一單個交叉路口不會交通堵塞,因此首先必須對交通阻塞進行量化的定義。如圖2所示,車道阻塞線位于道路末端衡量車流是否阻塞的基準線。如果車輛排隊長度超過車道阻塞線,則認為該路口已經發生交通擁堵。在一般的場景中,車輛阻塞線與道路末端距離不小于道路長度的20%,即當車輛排隊長度不超過車道總長的80%路口該車道方向交通暢通。交通阻塞數表示在一定時間內,所有車道排隊長度超過交通阻塞線的次數總和,是工作智能體交通調控優劣的依據。基于上述定義,回報函數設置如下:

(1) 如果調控交通前阻塞數為0,調控后交通阻塞數大于0,表明調控后使交通狀況從不堵塞狀態轉變為阻塞狀態,返回回報值-1。

(2) 如果調控交通前阻塞數大于0,調控后交通阻塞數為0,表明調控后使交通狀況從堵塞狀態轉變為不阻塞狀態,返回回報值1。

(3) 如果調控前比調控后交通阻塞數減少或增加量超過20%,表明調控效果較為明顯,分別返回回報值1和-1。

(4) 其他情況下表明調控效果不明顯,不足以判斷優劣,返回回報值0。

1.4 管理智能體協同優化策略

工作智能體可以保證各自交叉路口不會交通堵塞,即每一工作智能體的交通阻塞數為0。管理智能體在此基礎上進一步對上述工作智能體進行協同控制,保證整個地理路網的交通運行效率最優。管理智能體的狀態向量和決策向量與工作智能體類似,其維度是所有工作智能體維度之和,分別代表所有路口排隊長度和綠燈配時。因此,本節主要定義管理智能體的回報函數。

管理智能體優化目標的定義必須隨著不同場景改變。例如,高峰時期應通過信號協調達到單位時間內路網整體能夠通行更多車輛,因此早高峰的優化目標定義為路網整體吞吐量;而低峰期應更多考慮通過信號協調減少路網內車輛平均等待紅燈時間。交通效率系數表示指定場景下工作智能體的優化目標(例如,早高峰時交通效率表示單位時間里場景內路口吞吐量總和),則管理智能體的回報函數定義如下:

(1) 如果調控后使任意路口的交通阻塞數大于0,直接返回回報值-1。

(2) 如果交通效率系數調控前比調控后增加10%,則調控效果優,則返回回報值1。

(3) 如果交通效率系數調控前比調控后減少10%,則調控效果差,則返回回報值-1。

(4) 其他情況調控效果不明顯,返回回報值0。

2 試驗分析

2.1 試驗數據和試驗環境介紹

如圖3所示,寧波某中學片區位于寧波市鄞州區,是寧波市城區內車流較為密集的地區之一。該路段東起福明路西至桑田路,南起驚駕路北至民安路,由12條地理路網構成的4個信號燈組成。

圖3 試驗區的交通路網Fig.3 Illustration of traffic roads in the experimental area

試驗車流數據來源于試驗區2020年12月6日7:00AM至9:30AM時間段的路口攝像頭,應用目標跟蹤算法后取平均得到(表1)。試驗數據包括每個路口東、南、西、北4個駛入方位和左、中、右3個駛出方向,并區分了大型客車和小型汽車。

表1 交叉口車流信息Tab.1 The rate of traffic flow in the intersection (輛/s)

本文試驗算法部署于24核CPU和 32 GB內存的高性能計算機上,操作系統采用CentOS 7。算法實現于Python 3.7.3,神經網絡搭建采用Tensorflow1.14,交通環境運行于仿真軟件SUMO 1.3.1[22](由德國航空航天中心運輸系統研究所開發的開源軟件)。

2.2 試驗結果分析

2.2.1 工作智能體訓練結果

本節探究粗細兩種狀態向量下,單路口的工作智能體訓練過程。試驗中,智能體每間隔兩信號周期觀察交叉路口中排隊長度,并以此產生輸入向量更新狀態動作值神經網絡,模擬時長7200 s為一次迭代。圖4表示每一路口工作智能體的交通系數隨著迭代次數的,其中縱坐標表示在一次迭代中交通阻塞數的累積總和,橫坐標表示迭代次數。試驗結果表明,隨著迭代次數的增長,4個路口的交通阻塞系數都呈降低趨勢;當迭代次數大約至100次時,交通阻塞系數達到收斂。除此之外,粗粒度狀態向量下訓練的交通阻塞系數穩定性和效果更為優異。這是由于粗粒度狀態向量是以邊為單位計算排隊長度。當每條邊上的車輛通行需要通過信號燈多個相位進行控制時,粗粒度狀態向量會使無法準確區分究竟哪一相位需要更多綠燈時長,因此其訓練也相對難以收斂。

圖4 單路口工作智能體訓練試驗結果Fig.4 Training results of working agent on single intersection

2.2.2 管理智能體訓練結果

將2.2.1節訓練所得到的工作智能體放入地理路網中,在管理智能體協調下實現地理區域的協同優化訓練。本文試驗智能體每3個信號周期更新狀態動作值神經網絡,模擬時長10 800 s為一次迭代。本文試驗選取地理路網中車輛平均旅行時間、平均停車次數和吞吐量3個指標作為優化交通效率系數。如圖5所示,3項驗證指標經過訓練后的效率都有所提高(平均旅行時間和停車次數減少,吞吐量增加),并且當迭代到達一定次數后收斂,說明本方法具有效性。通過計算,最后30次迭代比最初始30次迭代,平均旅行時間減少19.12%,平均吞吐量增加21.47%,平均停車次數減少了3%。

圖5 地理路網管理智能體訓練試驗結果Fig.5 Training results of management agent on geographic road network

2.2.3 交通效率系數對比

為了驗證本方法的有效性,本文方法、原始作圖方法和經典韋伯斯特方法[23]實現的配時方案在地理路網中的交通效率進行比較。在試驗中加入10組隨機種子,隨機種子能夠在指定車流量條件下產生不同發車規律,通過這10組隨機種子下的平均路網交通效率能保證試驗的公正性。如圖6所示,試驗以270 s為一輪統計周期,比較3種方法各交通效率系數。結果表明,本文方法平均旅行時間比原始作圖方法減少7.03%,比經典韋伯斯特方法減少2.87%;本文方法停車次數比原始作圖方法減少12.56%,比經典韋伯斯特方法減少10.49%;吞吐率比原始作圖方法提高8.3%,比經典韋伯斯特方法提高6.4%。總體來說,本文方法在車輛平均旅行時間、停車次數和吞吐率上都有較為優異表現。特別在停車次數上,其他兩種方法隨著周期明顯效率開始下降。這是由于傳統方法通過數學計算得到固定配時方案,本文算法的智能體能通過每個方向的排隊長度實時改變配時,因此具有更好的自適應性。

圖6 3種交通效率系數對比Fig.6 Comparison of three traffic evaluation indexes

3 結 論

本文結合馬爾可夫序列決策特點,提出一種基于強化學習的雙層智能體協同控制訓練方法。在第1層針對單個路口實現粗調訓練,智能體通過觀察路口每一車道的排隊長度調控信號配時,實現單個路口不堵塞;第2層將多個粗調訓練后的智能體模型放入地理網絡中,實現多路口的協同微調訓練。試驗結果表明,與傳統算法相比本文方法在旅行時間縮短7.03%,停車次數減少12.56%,吞吐量提高8.3%。另外,基于強化學習實現的交通信號協調控制能夠根據路口車道排隊長度實時改變配時方案,能夠更好地適配于復雜多變的交通環境。

猜你喜歡
智能方法
智能制造 反思與期望
學習方法
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产成人精品一区二区三在线观看| 亚洲中久无码永久在线观看软件| 国产成人精品亚洲77美色| 91亚瑟视频| 亚洲精品天堂在线观看| 色综合a怡红院怡红院首页| 亚洲无码视频一区二区三区| 亚洲品质国产精品无码| 亚洲第一视频免费在线| 亚洲aⅴ天堂| 久996视频精品免费观看| 久久这里只有精品8| 国产成人精品一区二区| 日韩毛片免费观看| 久久午夜夜伦鲁鲁片无码免费| 精品国产99久久| 亚欧乱色视频网站大全| 国产在线观看91精品亚瑟| 久久综合国产乱子免费| 青草精品视频| 日本福利视频网站| 91破解版在线亚洲| 国产成人乱无码视频| 日本91视频| 四虎影视8848永久精品| 91欧美亚洲国产五月天| 国产成人精品男人的天堂下载| 在线免费观看a视频| 无码精品一区二区久久久| 青青草原国产精品啪啪视频| 欧美日韩va| 免费国产高清精品一区在线| 在线观看欧美国产| 一本大道AV人久久综合| 精品久久高清| 精品国产Av电影无码久久久| 日韩成人在线网站| 国产精品成人一区二区不卡| 精品人妻AV区| 在线国产91| 99人妻碰碰碰久久久久禁片| 成人在线观看不卡| 午夜国产精品视频黄| 欧美性色综合网| 婷婷午夜影院| 四虎影视国产精品| 亚洲第一成年人网站| 国产精品永久不卡免费视频| 亚洲性视频网站| 国产91导航| 中国一级毛片免费观看| 久久这里只精品国产99热8| 九九九精品成人免费视频7| 人妻中文字幕无码久久一区| 国产chinese男男gay视频网| 亚洲AV无码精品无码久久蜜桃| 国内精品自在欧美一区| 免费又黄又爽又猛大片午夜| swag国产精品| 91最新精品视频发布页| 1024你懂的国产精品| 天天干天天色综合网| 免费一级α片在线观看| 91久久夜色精品| 国产精品爽爽va在线无码观看 | 女人18毛片一级毛片在线 | 992Tv视频国产精品| 精品综合久久久久久97超人该| 国产夜色视频| 在线高清亚洲精品二区| 一本久道久久综合多人| 在线网站18禁| 香蕉精品在线| 看国产一级毛片| av在线5g无码天天| 久久国产香蕉| 欧美国产日产一区二区| 亚亚洲乱码一二三四区| 狠狠亚洲五月天| 91久久精品国产| 伊人久久福利中文字幕| 久久五月视频|