夏 新 海
(廣州航海學院 港口與航運管理學院,廣東 廣州 510725)
對交叉口設置一個信號控制Agent,稱為TSCA(Traffic Signal Control Agent),其主要功能是針對本交叉口當前交通流的狀態制定相應的控制策略,讓執行裝置執行,進而改善本交叉口交通流環境。路網中交叉口之間交通流是相互關聯的。由于對策論是研究理性的主體之間沖突及合作的理論,也是研究人類社會交互的最佳數學工具,因此非常適合協調交叉口TSCA之間的關系。目前對策論主要應用在交通誘導中交通管理者和出行者之間的博弈分析。劉建美,等[1]建立了誘導-出行信號博弈模型。有文獻初步探討了博弈論進行交叉口交通信號交互研究,馬壽峰[2]、Shahaboddin[3]利用Q學習及二人非零和合作型對策來進行交叉口間的信號協調控制,但假定交叉口TSCA的效用值為公共知識;李振龍,等[4]應用對策論的Nash平衡理論建立了交叉口之間的交互模型并給出協調算法;I.Alvarez,等[5]利用馬爾科夫決策過程為交叉口交通信號控制進行建模,在每一迭代過程中求得Stackelberbg平衡和Nash平衡,但其研究的為孤立交叉口。由于單交互學習方法不考慮歷史上的交互,只根據交叉口TSCA本身的先驗知識決策,在知識不完備的情形下無法達到協調。而標準強化學習方法僅考慮最近一次的交互信息,因此筆者采用多交互學習方法進行信號控制。
利用對策論的Nash平衡理論構建交叉口TSCA多交互數學模型,可用如式(1)中的3元組表示:
(1)


Step 1:當交叉口TSCA 1在預測某相位排隊車輛數超過閥值時,向相鄰的交叉口TSCA 2發出交互請求,如用車輛排隊數表示的效用矩陣值。
Step 2:相鄰的交叉口TSCA 2收到交互請求并響應,并對相鄰交叉口TSCA1的類型(即下一周期到達的車流量的大小)進行預測,按照多交互數學模型求解納什均衡策略。
Step 3:若納什均衡策略存在,TSCA 2同時將計算得到的TSCA 1應執行的行為發送給TSCA 1,即TSCA 1和TSCA 2按照均衡策略執行;若納什均衡策略不存在,則交互結束,各交叉口采用自主定時信號控制策略。
在交互過程中,可以引入一些規則如綠波帶思想。如某一交叉口TSCA某一相位車輛數超過閥值,向下游交叉口TSCA發送交互請求時,下游交叉口TSCA根據其知識模型中的路段長度及路段上車輛的平均速度計算上游交叉口放行的車輛到達下游交叉口的時間,并在此時刻將對應相位放綠燈。
開始:
k=0,初始化交叉口TSCA水平參數[βi(交叉口i交通狀態變化的概率),pi]以及路網參數[γ(路網交通狀態變化的概率),α(交叉口TSCA學習概率),r(交叉口TSCA與相鄰交叉口TSCA交互幅度),K(最大交互次數限制),δ( 記憶因子)]。
當沒有達到最大限制交互次數K,對于路網中每一交叉口TSCAi重復如下過程:
k=k+1
While路網交通狀況沒有發生變化
調查交叉口交通狀況
While not 交叉口TSCA狀態變化期間
While not 學習期間



結束(與上第1個while對齊)
其中,當交叉口TSCA間進行信號學習時,可能考慮到由安全規則引起的一般的約束,如最小(大)綠燈時間要求等。
將多交互學習方法與下面兩種控制策略進行比較:
1)隨機策略。初始策略對應于均勻隨機策略,即采用softmax函數對所有相位分配相同的概率;
2)均勻策略。對所有相位分配相等的時長,其中相位遵守固定的順序。
用到的交通情景見圖1。設置東西和南北兩個相位,每條路的兩個末端交叉口作為車輛的起始結點和終止結點,這些交叉口的TSCA的控制策略對網絡沒有影響,而其他3個交叉口作為控制路口。道路長度設為3個時間單位,則每輛車最大行駛時間為12個時間單位。

圖1 用到的交通網絡Fig.1 Traffic network used in the simulation
東西方向和北南方向進入系統的交通量分別是時間的正弦和余弦函數,因此,中心交叉口的交通需求也隨著時間振蕩。上游交叉口釋放周期性的突發交通流后,在道路行進過程中消散,因此此情景建立了一個具有某種形式的快速變化需求的模型,具有一定的現實意義。
令cn(t)為在時間步0t從北向進入系統的車輛數,cw(t)為從西向進入的車輛數,其計算如下:
cn(t)=[(sin(f(t))+1)/2*base_num]
cw(t)=[(cos(f(t))+1)/2*base_num]
式中:f(t)是當前時間步的函數,base_num是系統產生的平均車輛數,這里設置f(t)=πt/10,base_num=3,這樣經過20時間步后完成了一個周期。
采用平均車輛行駛時間作為性能指標,多交互學習算法到達穩定狀態后的運算超過100 000次,截止時間是887 150 s。多交互學習方法取得了良好的結果,行駛時間為14.3,與理論優化值12很接近。而隨機策略及均勻策略行駛時間分別為250和102,相對于多交互學習方法其性能要差得多。
圖2給出了算法運行K=30次的結果,其中βi=0.2,γ=0.9,α=0.8,r=2,δ=0.8,反映了多交互學習方法的行為的極值情況。從圖2可以看出,多交互學習在某一時間點取得了明顯改進,算法在大約7 000~8 000時間步后達到“準定態”。

圖2 多交互學習算法收斂情況Fig.2 Convergence of the multi-interactive learning algorithm
構建了交叉口TSCA多交互數學模型,在此模型中,每次交叉口TSCA間進行交互時,僅根據選擇策略獲得的效用值來更新它的混合策略,此模型克服了單交互及標準強化學習的不足。在此基礎上分析了相鄰兩交叉口TSCA間博弈交互過程,并提出了交叉口TSCA間多交互學習算法。通過實例分析,基于多交互的交通信號控制優于基于隨機策略和均勻策略的交通信號控制,并具有一定的收斂性。
[1] 劉建美,馬壽峰.交通誘導-出行信號博弈分析及其虛擬行動學習模型[J].武漢大學學報:工學版,2010,43(1):102-107.Liu Jianmei,Ma Shoufeng.Analysis of guidance-travel signaling game and fictitious play model [J].Journal of Wuhan University:Engineering,2010,43(1):102-107.
[2] 馬壽峰.一種基于agent協調的兩路口交通控制方法[J].系統工程學報,2003,6(3):273-278.Ma Shoufeng.Agent-based traffic coordination control method for two adjacent intersections [J].Journal of Systems Engineering,2003,6(3):273-278.
[3] Shamshirband S.A distributed approach for coordination between traffic lights based on game theory [J].The International Arab Journal of Information Technology,2012,9(2):148-152.
[4] 李振龍,陳德望.交通信號區域協調優化的多智能體博弈模型[J].公路交通科技,2004,21(1):85-88.Li Zhenlong,Chen Dewang.A game theoretical model of multi-agents in area coordination and optimization of traffic signals [J].Journal of Highway and Transportation,2004,21(1):85-88.
[5] Alvarez I,Poznyak A,Malo A.Urban traffic control problem a game theory approach [C]//Proceedings of the 47thIEEE Conference on Decision and Control.Cancun,Mexico:IEEE,2008:2168-2172.
[6] 夏新海,許倫輝.交叉口TSCA間的博弈學習協調方法[J].重慶交通大學學報:自然科學版,2010,29(2):269-271.Xia Xinhai,Xu Lunhui.Method of intersection agent coordination based on game-learning [J].Journal of Chongqing Jiaotong University:Natural Science,2010,29(2):269-271.
[7] 石純一.基于Agent 的計算[M].北京:清華大學出版社,2007:149-161.Shi Chunyi.Computation Based on Agent [M].Beijing:Tsinghua University Press,2007:149-161.
[8] 汪賢裕,肖玉明.博弈論及其應用[M].北京:科學出版社,2008.Wang Xianyu,Xiao Yuming.Game Theory and Its Application [M].Beijing:Science Press,2008.