999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對策論下的交叉口TSCA 間的多交互學習

2014-02-28 06:10:17
關鍵詞:策略模型

夏 新 海

(廣州航海學院 港口與航運管理學院,廣東 廣州 510725)

對交叉口設置一個信號控制Agent,稱為TSCA(Traffic Signal Control Agent),其主要功能是針對本交叉口當前交通流的狀態制定相應的控制策略,讓執行裝置執行,進而改善本交叉口交通流環境。路網中交叉口之間交通流是相互關聯的。由于對策論是研究理性的主體之間沖突及合作的理論,也是研究人類社會交互的最佳數學工具,因此非常適合協調交叉口TSCA之間的關系。目前對策論主要應用在交通誘導中交通管理者和出行者之間的博弈分析。劉建美,等[1]建立了誘導-出行信號博弈模型。有文獻初步探討了博弈論進行交叉口交通信號交互研究,馬壽峰[2]、Shahaboddin[3]利用Q學習及二人非零和合作型對策來進行交叉口間的信號協調控制,但假定交叉口TSCA的效用值為公共知識;李振龍,等[4]應用對策論的Nash平衡理論建立了交叉口之間的交互模型并給出協調算法;I.Alvarez,等[5]利用馬爾科夫決策過程為交叉口交通信號控制進行建模,在每一迭代過程中求得Stackelberbg平衡和Nash平衡,但其研究的為孤立交叉口。由于單交互學習方法不考慮歷史上的交互,只根據交叉口TSCA本身的先驗知識決策,在知識不完備的情形下無法達到協調。而標準強化學習方法僅考慮最近一次的交互信息,因此筆者采用多交互學習方法進行信號控制。

1 交叉口TSCA多交互數學模型

利用對策論的Nash平衡理論構建交叉口TSCA多交互數學模型,可用如式(1)中的3元組表示:

(1)

2 交叉口TSCA間博弈交互過程

Step 1:當交叉口TSCA 1在預測某相位排隊車輛數超過閥值時,向相鄰的交叉口TSCA 2發出交互請求,如用車輛排隊數表示的效用矩陣值。

Step 2:相鄰的交叉口TSCA 2收到交互請求并響應,并對相鄰交叉口TSCA1的類型(即下一周期到達的車流量的大小)進行預測,按照多交互數學模型求解納什均衡策略。

Step 3:若納什均衡策略存在,TSCA 2同時將計算得到的TSCA 1應執行的行為發送給TSCA 1,即TSCA 1和TSCA 2按照均衡策略執行;若納什均衡策略不存在,則交互結束,各交叉口采用自主定時信號控制策略。

在交互過程中,可以引入一些規則如綠波帶思想。如某一交叉口TSCA某一相位車輛數超過閥值,向下游交叉口TSCA發送交互請求時,下游交叉口TSCA根據其知識模型中的路段長度及路段上車輛的平均速度計算上游交叉口放行的車輛到達下游交叉口的時間,并在此時刻將對應相位放綠燈。

3 交叉口TSCA間多交互學習算法

開始:

k=0,初始化交叉口TSCA水平參數[βi(交叉口i交通狀態變化的概率),pi]以及路網參數[γ(路網交通狀態變化的概率),α(交叉口TSCA學習概率),r(交叉口TSCA與相鄰交叉口TSCA交互幅度),K(最大交互次數限制),δ( 記憶因子)]。

當沒有達到最大限制交互次數K,對于路網中每一交叉口TSCAi重復如下過程:

k=k+1

While路網交通狀況沒有發生變化

調查交叉口交通狀況

While not 交叉口TSCA狀態變化期間

While not 學習期間

結束(與上第1個while對齊)

其中,當交叉口TSCA間進行信號學習時,可能考慮到由安全規則引起的一般的約束,如最小(大)綠燈時間要求等。

4 實例分析

將多交互學習方法與下面兩種控制策略進行比較:

1)隨機策略。初始策略對應于均勻隨機策略,即采用softmax函數對所有相位分配相同的概率;

2)均勻策略。對所有相位分配相等的時長,其中相位遵守固定的順序。

用到的交通情景見圖1。設置東西和南北兩個相位,每條路的兩個末端交叉口作為車輛的起始結點和終止結點,這些交叉口的TSCA的控制策略對網絡沒有影響,而其他3個交叉口作為控制路口。道路長度設為3個時間單位,則每輛車最大行駛時間為12個時間單位。

圖1 用到的交通網絡Fig.1 Traffic network used in the simulation

東西方向和北南方向進入系統的交通量分別是時間的正弦和余弦函數,因此,中心交叉口的交通需求也隨著時間振蕩。上游交叉口釋放周期性的突發交通流后,在道路行進過程中消散,因此此情景建立了一個具有某種形式的快速變化需求的模型,具有一定的現實意義。

令cn(t)為在時間步0t從北向進入系統的車輛數,cw(t)為從西向進入的車輛數,其計算如下:

cn(t)=[(sin(f(t))+1)/2*base_num]

cw(t)=[(cos(f(t))+1)/2*base_num]

式中:f(t)是當前時間步的函數,base_num是系統產生的平均車輛數,這里設置f(t)=πt/10,base_num=3,這樣經過20時間步后完成了一個周期。

4.1 有效性分析

采用平均車輛行駛時間作為性能指標,多交互學習算法到達穩定狀態后的運算超過100 000次,截止時間是887 150 s。多交互學習方法取得了良好的結果,行駛時間為14.3,與理論優化值12很接近。而隨機策略及均勻策略行駛時間分別為250和102,相對于多交互學習方法其性能要差得多。

4.2 收斂性分析

圖2給出了算法運行K=30次的結果,其中βi=0.2,γ=0.9,α=0.8,r=2,δ=0.8,反映了多交互學習方法的行為的極值情況。從圖2可以看出,多交互學習在某一時間點取得了明顯改進,算法在大約7 000~8 000時間步后達到“準定態”。

圖2 多交互學習算法收斂情況Fig.2 Convergence of the multi-interactive learning algorithm

5 結 語

構建了交叉口TSCA多交互數學模型,在此模型中,每次交叉口TSCA間進行交互時,僅根據選擇策略獲得的效用值來更新它的混合策略,此模型克服了單交互及標準強化學習的不足。在此基礎上分析了相鄰兩交叉口TSCA間博弈交互過程,并提出了交叉口TSCA間多交互學習算法。通過實例分析,基于多交互的交通信號控制優于基于隨機策略和均勻策略的交通信號控制,并具有一定的收斂性。

[1] 劉建美,馬壽峰.交通誘導-出行信號博弈分析及其虛擬行動學習模型[J].武漢大學學報:工學版,2010,43(1):102-107.Liu Jianmei,Ma Shoufeng.Analysis of guidance-travel signaling game and fictitious play model [J].Journal of Wuhan University:Engineering,2010,43(1):102-107.

[2] 馬壽峰.一種基于agent協調的兩路口交通控制方法[J].系統工程學報,2003,6(3):273-278.Ma Shoufeng.Agent-based traffic coordination control method for two adjacent intersections [J].Journal of Systems Engineering,2003,6(3):273-278.

[3] Shamshirband S.A distributed approach for coordination between traffic lights based on game theory [J].The International Arab Journal of Information Technology,2012,9(2):148-152.

[4] 李振龍,陳德望.交通信號區域協調優化的多智能體博弈模型[J].公路交通科技,2004,21(1):85-88.Li Zhenlong,Chen Dewang.A game theoretical model of multi-agents in area coordination and optimization of traffic signals [J].Journal of Highway and Transportation,2004,21(1):85-88.

[5] Alvarez I,Poznyak A,Malo A.Urban traffic control problem a game theory approach [C]//Proceedings of the 47thIEEE Conference on Decision and Control.Cancun,Mexico:IEEE,2008:2168-2172.

[6] 夏新海,許倫輝.交叉口TSCA間的博弈學習協調方法[J].重慶交通大學學報:自然科學版,2010,29(2):269-271.Xia Xinhai,Xu Lunhui.Method of intersection agent coordination based on game-learning [J].Journal of Chongqing Jiaotong University:Natural Science,2010,29(2):269-271.

[7] 石純一.基于Agent 的計算[M].北京:清華大學出版社,2007:149-161.Shi Chunyi.Computation Based on Agent [M].Beijing:Tsinghua University Press,2007:149-161.

[8] 汪賢裕,肖玉明.博弈論及其應用[M].北京:科學出版社,2008.Wang Xianyu,Xiao Yuming.Game Theory and Its Application [M].Beijing:Science Press,2008.

猜你喜歡
策略模型
一半模型
基于“選—練—評”一體化的二輪復習策略
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 91久久青青草原精品国产| 91青青在线视频| 久久久久久午夜精品| 婷婷午夜天| 99视频在线免费| 国产精品网址你懂的| 久久免费视频播放| 国产欧美专区在线观看| 亚洲国产日韩在线成人蜜芽| 亚洲区第一页| 成人在线观看一区| 一级一毛片a级毛片| 亚洲一区二区三区麻豆| 婷婷成人综合| 欧美精品啪啪| 18禁黄无遮挡网站| 亚洲人成网站观看在线观看| 国产91麻豆免费观看| 亚洲中文字幕在线观看| 国产日产欧美精品| 国产毛片片精品天天看视频| 久久中文字幕2021精品| 九色最新网址| 国产免费黄| 亚洲天堂视频网| 亚洲成人在线免费观看| 国产真实乱了在线播放| 黄色网在线| 亚洲浓毛av| 日本在线亚洲| 国产丝袜啪啪| 精品一区二区三区视频免费观看| 五月婷婷导航| 国内精品视频| 国产在线无码一区二区三区| 亚洲综合二区| 91网址在线播放| 九九热精品在线视频| 精品在线免费播放| 欧美另类第一页| 天天干天天色综合网| 国产精品免费电影| 熟妇人妻无乱码中文字幕真矢织江| 99热亚洲精品6码| 露脸一二三区国语对白| 永久在线精品免费视频观看| 国产理论一区| 成人小视频在线观看免费| 91精选国产大片| 欧美午夜精品| 欧美中出一区二区| 国产福利免费视频| 欧美成人看片一区二区三区| jizz国产在线| 农村乱人伦一区二区| 欧美精品在线看| 先锋资源久久| 国内精自线i品一区202| 国产一区二区丝袜高跟鞋| 日a本亚洲中文在线观看| 91久久偷偷做嫩草影院电| 亚洲综合在线最大成人| 亚洲精品免费网站| 丰满人妻一区二区三区视频| 伊在人亚洲香蕉精品播放| 污视频日本| 萌白酱国产一区二区| 欧美伊人色综合久久天天| 成人精品视频一区二区在线 | 区国产精品搜索视频| 黄色网址手机国内免费在线观看| 日韩免费毛片| 亚洲一区色| 日韩精品无码免费一区二区三区| a级毛片免费播放| 激情六月丁香婷婷四房播| 亚洲日本www| 午夜性刺激在线观看免费| 中文字幕亚洲综久久2021| 在线观看免费黄色网址| 精品撒尿视频一区二区三区| 国产精品极品美女自在线网站|