999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強(qiáng)化學(xué)習(xí)的交通燈控制與車輛誘導(dǎo)算法

2017-05-11 17:33:18趙佳文喬春凱
科技創(chuàng)新與應(yīng)用 2017年1期

趙佳文++喬春凱

摘 要:城市交通控制的核心是由交通燈控制系統(tǒng)和車輛誘導(dǎo)系統(tǒng)兩部分組成,實(shí)現(xiàn)在空間上對(duì)交通流進(jìn)行分流和在時(shí)間上對(duì)交通燈進(jìn)行動(dòng)態(tài)配時(shí)。文章設(shè)計(jì)基于Q學(xué)習(xí)的交通燈控制算法和基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)算法,從對(duì)系統(tǒng)整體性能的角度出發(fā)利用協(xié)同控制策略,更好地解決城市道路交通擁堵問(wèn)題。

關(guān)鍵詞:交通燈控制;車輛誘導(dǎo);Q學(xué)習(xí);Sarsa學(xué)習(xí)

引言

針對(duì)我國(guó)城市道路交通的現(xiàn)狀,在交通燈控制系統(tǒng)和車輛誘導(dǎo)系統(tǒng)獨(dú)立實(shí)施的基礎(chǔ)上,以交通道路信息的協(xié)同為基礎(chǔ),從協(xié)同模式著手。

越來(lái)越多的學(xué)者致力于智能交通系統(tǒng)的研究,提出很多交通控制策略。Bell等人提出的交通燈控制與車輛誘導(dǎo)協(xié)同模型有低水平的數(shù)據(jù)共享方式、高層次的策略交互方式,主要考慮了數(shù)據(jù)信息的共享[1]。孫建平等人在基于Agent的理論上提出交通燈控制與車輛誘導(dǎo)協(xié)同模型,并對(duì)基于知識(shí)模型的多智能體交通控制進(jìn)行研究[2];龔 等人在對(duì)交通燈控制和車輛誘導(dǎo)分別進(jìn)行研究的基礎(chǔ)上,提出了融合算法來(lái)提高兩系統(tǒng)之間的協(xié)同效果,從而提高了交通系統(tǒng)的性能[3]。Mirchandani等人設(shè)計(jì)研究了交通燈控制與車輛誘導(dǎo)偏重式控制系統(tǒng),兩個(gè)系統(tǒng)在數(shù)據(jù)和策略實(shí)施上都進(jìn)行協(xié)同控制,更好的利用交通信息[4]。

在實(shí)際的交通控制策略中,交通燈控制策略和車輛誘導(dǎo)策略在信息產(chǎn)生、數(shù)據(jù)處理和策略實(shí)施等多個(gè)方面應(yīng)相互協(xié)同。交通控制系統(tǒng)主要采用的基于Q學(xué)習(xí)的交通燈控制算法和基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)算法來(lái)提升整體的交通控制系統(tǒng)的性能。

1 問(wèn)題分析

1.1 多智能體

多智能體系統(tǒng)(MAS,Multi-Agent-System)是多個(gè)智能體組成的集合,它的目標(biāo)是將大而復(fù)雜的系統(tǒng)建設(shè)成小的、彼此互相通信和協(xié)調(diào)的,易于管理的系統(tǒng)。

1.2 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)過(guò)程中Agent判斷當(dāng)前狀態(tài),選擇一個(gè)動(dòng)作作用于環(huán)境,環(huán)境在動(dòng)作的影響下發(fā)生變化,并反饋給Agent一個(gè)獎(jiǎng)懲值,Agent根據(jù)獎(jiǎng)懲值進(jìn)行下一個(gè)動(dòng)作的選擇,即Agent通過(guò)不斷試錯(cuò)與環(huán)境進(jìn)行交互獲得信息。

2 基于Q學(xué)習(xí)的交通燈控制策略

本文設(shè)計(jì)一種基于Q學(xué)習(xí)的自適應(yīng)交通燈控制策略。每個(gè)交通燈作為Q學(xué)習(xí)的Agent,Agent根據(jù)交叉口車道上車輛飽和度選擇交通燈綠燈時(shí)間作為Agent的動(dòng)作,車輛在交叉口處車道上的平均行駛時(shí)間作為Q學(xué)習(xí)的回報(bào)函數(shù)值。學(xué)習(xí)系統(tǒng)與環(huán)境不斷的交互,獲得反饋值并調(diào)整狀態(tài)到動(dòng)作的映射策略。

Q學(xué)習(xí)更新公式如下所示:

式中,參數(shù)?琢是學(xué)習(xí)率,參數(shù)?酌是折扣率,R(s,a)即為動(dòng)作a作用于環(huán)境的反饋值。Q(s,a)為R(s,a)的累積值。Agent將根據(jù)系統(tǒng)的反饋值來(lái)進(jìn)行Q(s,a)的更新。

2.1 狀態(tài)描述

交通環(huán)境中的狀態(tài)一般是連續(xù)的,但強(qiáng)化學(xué)習(xí)卻是應(yīng)用在離散空間下的求解,所以需要把交叉口狀態(tài)進(jìn)行離散化。本文在離散化過(guò)程中,把0到1的之間的車輛飽和度合理的離散化為四個(gè)等級(jí)。

根據(jù)交叉口各方向車道的車輛飽和度進(jìn)行描述,對(duì)于有n個(gè)方向交叉口,其狀態(tài)描述為s(d1,d2,kdn),其狀態(tài)空間即為4n。其中,di表示第i個(gè)入口車道的車輛飽和度。

2.2 動(dòng)作選擇

本文使用Boltzmann策略進(jìn)行動(dòng)作選擇,公式如下所示:

式中,A為交通燈的動(dòng)作集合,p[a|s]為交通燈在狀態(tài)s選擇動(dòng)作a的概率。?子為溫控參數(shù),溫控參數(shù)越大,不同Q值對(duì)應(yīng)的動(dòng)作選擇概率就越相近;溫控參數(shù)越小,Boltzman策略與貪婪策略越相似。

3 基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)策略

本文設(shè)計(jì)基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)策略。交通路網(wǎng)中的車輛是Sarsa學(xué)習(xí)的Agent,Agent利用Sarsa學(xué)習(xí)過(guò)程指導(dǎo)車輛進(jìn)行動(dòng)作選擇,即選擇下一條車道,Sarsa學(xué)習(xí)算法與環(huán)境交互的回報(bào)函數(shù)值為車輛在車道上的行駛時(shí)間。自學(xué)習(xí)系統(tǒng)不斷的與環(huán)境進(jìn)行交互,獲得反饋信息,從而修改狀態(tài)動(dòng)作之間的映射。

Sarsa算法的更新公式如下所示:

式中,參數(shù)?琢是學(xué)習(xí)率,參數(shù)?酌是折扣率,Qd(s,k)是車輛從節(jié)點(diǎn)s出發(fā)經(jīng)過(guò)節(jié)點(diǎn)k到達(dá)終節(jié)點(diǎn)d的期望行駛時(shí)間。tsk即為Agent的動(dòng)作作用于環(huán)境的反饋值。Qd(s,k)的環(huán)境反饋值的累積值,Agent將根據(jù)環(huán)境實(shí)時(shí)的反饋值和歷史的數(shù)據(jù)信息來(lái)進(jìn)行Qd(s,k)的更新。

3.1 狀態(tài)描述

在對(duì)車輛進(jìn)行誘導(dǎo)時(shí),首選確定Agent的狀態(tài),才能獲得更好的誘導(dǎo)模式。決定車輛Agent狀態(tài)的參數(shù)主要有車輛所在的車道和車輛所在的交叉口。因?yàn)楸疚闹熊囕v的終點(diǎn)是某個(gè)信息節(jié)點(diǎn),所以把車輛所在的交叉口定義為車輛Agent的狀態(tài)。如果把車輛所在的車道定義為車輛Agent的狀態(tài),這么多狀態(tài)如果都進(jìn)行考慮,那么狀態(tài)空間會(huì)十分巨大,將會(huì)增大Sarsa學(xué)習(xí)算法的收斂難度。

3.2 動(dòng)作選擇

本文使用Boltzmann策略進(jìn)行動(dòng)作選擇,公式如下:

式中,A為車輛的動(dòng)作集合,p[a|s]為車輛在狀態(tài)s選擇動(dòng)作a的

概率,?子為溫控參數(shù)。

4 基于強(qiáng)化學(xué)習(xí)的交通燈控制與車輛誘導(dǎo)協(xié)同策略

交通燈控制與車輛誘導(dǎo)協(xié)同問(wèn)題實(shí)際上就是控制與交通流分配的協(xié)同問(wèn)題,因此系統(tǒng)模型實(shí)際上就是交通燈控制模型與車輛誘導(dǎo)模型的協(xié)同模型。本文采用偏重交通燈控制方式的協(xié)同模型。

4.1 偏重交通燈控制方式

在偏重式協(xié)同下,交通燈控制系統(tǒng)和車輛誘導(dǎo)系統(tǒng)不是平等的關(guān)系,而是主從關(guān)系。以交通燈控制系統(tǒng)為主導(dǎo)系統(tǒng)的協(xié)同控制方式,就是偏重交通燈控制方式。

假設(shè)交通燈控制系統(tǒng)的優(yōu)化函數(shù)為C,保證交叉口處車輛延誤時(shí)間最小;車輛誘導(dǎo)系統(tǒng)的優(yōu)化函數(shù)為U,保證車道上車輛的行駛時(shí)間最小。

偏重交通燈控制方式:

R=arg(P)交通燈控制目標(biāo)函數(shù)最優(yōu);

s.t f(x)∈U車輛誘導(dǎo)目標(biāo)函數(shù)最優(yōu)。

在偏重交通燈控制方式中,交通燈控制系統(tǒng)是保證交叉口的延誤時(shí)間最小,緩解交叉口的擁堵現(xiàn)象。車輛誘導(dǎo)系統(tǒng)是保證車道上車輛的行駛時(shí)間最小,進(jìn)行動(dòng)態(tài)的交通流分配。從整體系統(tǒng)性能的角度出發(fā),協(xié)同控制下可以更好的確保行程時(shí)間的最小。

4.2 交通燈控制與車輛誘導(dǎo)協(xié)同模型

本文主要是以交通燈控制系統(tǒng)為主導(dǎo)系統(tǒng)的協(xié)同控制,車輛誘導(dǎo)系統(tǒng)每次更新過(guò)程后產(chǎn)生新的車輛控制方案時(shí)都會(huì)實(shí)時(shí)的報(bào)告給交通燈控制系統(tǒng),從而減少車輛到達(dá)目標(biāo)地點(diǎn)的行程時(shí)間。

車輛的行程時(shí)間包括車輛在車道上行駛時(shí)間和交叉口處的延誤時(shí)間,行駛時(shí)間是由基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)策略中所決定,而延誤時(shí)間主要取決于基于Q學(xué)習(xí)的交通燈控制策略。交通燈控制與車輛誘導(dǎo)的協(xié)同公式:

式中,C(x,t)為車輛到達(dá)終節(jié)點(diǎn)的行程時(shí)間。T(r)為車輛誘導(dǎo)系統(tǒng)決定的車輛行駛時(shí)間,T(q)為由交通燈控制系統(tǒng)決定的車輛延遲時(shí)間。車輛誘導(dǎo)系統(tǒng)和交通燈控制系統(tǒng)的偏重式協(xié)同過(guò)程,如圖1所示。

在交通燈控制系統(tǒng)中每個(gè)交通燈agent之間協(xié)同,優(yōu)化交通燈的配時(shí)。在車輛誘導(dǎo)系統(tǒng)中,車輛agent相互協(xié)同,優(yōu)化車輛路徑選擇。車輛的行駛時(shí)間和通過(guò)交通燈是的延誤時(shí)間分別受兩個(gè)系統(tǒng)影響。交通燈控制系統(tǒng)所決定的策略依賴于車輛誘導(dǎo)系統(tǒng)更新過(guò)程后產(chǎn)生新的車輛控制方案進(jìn)行制定,從而提高了整個(gè)交通系統(tǒng)的性能。

5 仿真實(shí)驗(yàn)及結(jié)果分析

5.1 實(shí)驗(yàn)環(huán)境

為了驗(yàn)證本文提出的交通控制策略的有效性和正確性,通過(guò)開(kāi)源軟件SUMO仿真器[5]在如圖2所示路網(wǎng)上進(jìn)行仿真和實(shí)驗(yàn),通過(guò)java語(yǔ)言實(shí)現(xiàn),路網(wǎng)是美國(guó)佛蒙特州的部分路段。

5.2 仿真設(shè)置

仿真中設(shè)置的參數(shù)均為在進(jìn)行多次試驗(yàn)后所得到的經(jīng)驗(yàn)值,其中,交通燈控制策略中的Q學(xué)習(xí)的學(xué)習(xí)率?琢為0.7,折扣率?茁為0.9,交通燈Agent動(dòng)作選擇策略中?子設(shè)為0.2。車輛誘導(dǎo)策略中的Sarsa學(xué)習(xí)的學(xué)習(xí)率?琢為0.7,折扣率?茁為0.8。在仿真實(shí)驗(yàn)中,仿真器的時(shí)間步與現(xiàn)實(shí)生活中的時(shí)間秒數(shù)相對(duì)應(yīng),總的仿真器時(shí)間設(shè)為15000。

5.3 基于強(qiáng)化學(xué)習(xí)的交通燈控制與車輛誘導(dǎo)算法

從系統(tǒng)整體性能的角度出發(fā),利用基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)策略(SVIS)對(duì)基于最短路徑的車輛誘導(dǎo)系統(tǒng)的性能進(jìn)行提升,利用常見(jiàn)的Dijkstra算法的作為最短路徑算法(DVIS)。

本實(shí)驗(yàn)中,交通燈控制系統(tǒng)采用基于Q學(xué)習(xí)的交通燈控制策略(QTGCS)通燈進(jìn)行動(dòng)態(tài)配時(shí)。而交通燈控制系統(tǒng)的附屬系統(tǒng)車輛誘導(dǎo)系統(tǒng)由基于最短路徑的車輛誘導(dǎo)策略轉(zhuǎn)變?yōu)榛赟arsa學(xué)習(xí)的車輛誘導(dǎo)策略,并對(duì)性能進(jìn)行比較。

圖3和圖4分別顯示了DVIS與QTGCS協(xié)同系統(tǒng)、SVIS與QTGCS協(xié)同系統(tǒng)所統(tǒng)計(jì)的評(píng)價(jià)數(shù)據(jù)。

交通系統(tǒng)中交叉口處車輛數(shù)量如圖3所示。

實(shí)驗(yàn)結(jié)果表明,以基于Sarsa學(xué)習(xí)的車輛誘導(dǎo)策略為基礎(chǔ)的基于Q學(xué)習(xí)的交通燈控制策略與以基于Dijkstra算法的車輛誘導(dǎo)策略為基礎(chǔ)的基于Q學(xué)習(xí)的交通燈控制策略相比提高了交通系統(tǒng)的控制效果、減少系統(tǒng)中車輛到達(dá)終節(jié)點(diǎn)的行駛時(shí)間,可以很好的利用路網(wǎng)中的實(shí)時(shí)信息,達(dá)到縮減交通系統(tǒng)中車輛行駛時(shí)間和車輛延遲時(shí)間的目的。

6 結(jié)束語(yǔ)

城市交通系統(tǒng)影響因素復(fù)雜,本文提出基于強(qiáng)化學(xué)習(xí)的交通燈控制與車輛誘導(dǎo)算法。實(shí)驗(yàn)結(jié)果表明,通過(guò)該協(xié)同策略減少了路網(wǎng)中的車輛數(shù)量和車輛在交叉口的行駛時(shí)間,提升了交通系統(tǒng)的通行能力。

參考文獻(xiàn)

[1]Sheffi Y, Powell W B. Optimal Signal Settings over Transportation Networks[J].Journal of Transportation Engineering,1983,109(6):824-839.

[2]徐麗鮮.城市交通流誘導(dǎo)與控制一體化理論和模型研究[D].吉林工業(yè)大學(xué),吉林大學(xué),1999.

[3]龔 .城市交通誘導(dǎo)與控制的融合研究[D].北京科技大學(xué),2015.

[4]Li P, Mirchandani P, Zhou X. Solving simultaneous route guidance and traffic signal optimization problem using space-phase-time hypernetwork[J]. Transportation Research Part B Methodological, 2015, 81(1):103-130.

[5]Krajzewicz D, Erdmann J, Behrisch M, et al. Recent Development and Applications of SUMO - Simulation of Urban MObility[J]. International Journal on Advances in Systems & Measurements,2012, 3&4(3and4):128-138.

作者簡(jiǎn)介:趙佳文(1991-),男,滿族,吉林省蛟河市,碩士,單位:沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,研究方向:數(shù)據(jù)庫(kù)理論與信息系統(tǒng)。

喬春凱(1992-),男,漢族,遼寧省瓦房店市,碩士,單位:沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,研究方向:數(shù)據(jù)庫(kù)理論與信息系統(tǒng)。

主站蜘蛛池模板: 国产欧美视频综合二区| 欧美色视频在线| 国产成人高清精品免费5388| 精品国产91爱| 热re99久久精品国99热| 国产成人一区二区| 亚洲成av人无码综合在线观看| 伊人久热这里只有精品视频99| 亚洲国产精品无码久久一线| 91 九色视频丝袜| 四虎AV麻豆| 亚洲无码一区在线观看| 国产嫩草在线观看| 午夜国产小视频| 欧美精品导航| 91精品国产91欠久久久久| 日本免费精品| 日本妇乱子伦视频| 尤物精品视频一区二区三区| 99精品一区二区免费视频| 国产精品亚洲专区一区| 欧美激情福利| 欧美日韩精品一区二区在线线| 天堂在线视频精品| 久久综合色天堂av| 亚洲午夜天堂| 小蝌蚪亚洲精品国产| 国产白浆一区二区三区视频在线| 欧洲欧美人成免费全部视频| 日韩精品成人网页视频在线| 中国特黄美女一级视频| 午夜激情婷婷| 中文成人无码国产亚洲| 狠狠色婷婷丁香综合久久韩国| 四虎国产精品永久一区| 欧美日韩亚洲综合在线观看| 亚洲欧美国产五月天综合| 香蕉久久国产超碰青草| 国产av剧情无码精品色午夜| 亚洲精品在线91| 亚洲国产成人自拍| 国产精品大尺度尺度视频| 久久视精品| 黄色网在线| 色有码无码视频| 欧美日韩国产在线播放| 国产一级毛片在线| 亚洲精品麻豆| 久久五月视频| 91精品国产福利| 国产美女在线观看| 亚洲男人的天堂久久精品| 第一页亚洲| 国产成人综合亚洲欧洲色就色| 香蕉蕉亚亚洲aav综合| 国产福利在线免费观看| 亚洲无限乱码| 亚洲国产中文在线二区三区免| 国产成人精品2021欧美日韩| 国产精品视频a| 亚洲区第一页| 美女一区二区在线观看| 免费毛片a| 国产三区二区| 国产成人高清在线精品| 免费在线看黄网址| 亚洲Av激情网五月天| 在线国产毛片| 丰满的少妇人妻无码区| 国产一区二区三区精品欧美日韩| 91综合色区亚洲熟妇p| 亚洲欧美另类日本| 国产精品无码AⅤ在线观看播放| 91九色国产porny| 日本一区高清| 九九久久99精品| 99青青青精品视频在线| 高清码无在线看| 亚洲VA中文字幕| 女人一级毛片| 在线观看视频99| 国产一区三区二区中文在线|