毛盈方,盧守峰
近年來,交通問題逐漸成為了制約經濟發展的主要問題之一。為了解決交通問題,智能交通逐步成為大家研究的主要課題之一。強化學習就是其中重要的研究方面,并且取得的了一定的成果。強化學習的優化法則是馬爾可夫決策問題的預測回報,但在實際問題中并不是最適合的法則。許多實際問題要求魯棒性控制策略考慮回報的變動問題,尤其是在運行過程中風險較大的特殊情況。
在交通信號配時優化方面,應用強化學習的研究有了一些進展。Ilva[1-2]等人針對噪音環境建立了基于環境檢測的強化學習模型對配時優化。通過檢測周圍環境的改變來學習動態的流量模式,自動對流量模式進行識別,執行對應的策略,跟蹤環境轉換的預估誤差和獎勵。黃艷國[3]等人把Agent技術與強化學習算法相結合,提出了基于Agent技術的交通信號控制方法。根據交叉口的實時路況信息,利用強化學習來實現自適應控制,減少路口排隊車輛的平均延誤時間。Wiering[4]等人研究了基于“車輛投票”的強化學習優化模型,核心理論是通過估計每個車輛的等待時間,決定信號配時方案,該模型優于固定信號配時模型。戴朝暉[5]等人采用智能體系統動態分層強化學習算法,研究未知環境下大規模學習時的“維度災難”問題,采用基于模型的強化學習利用已有的經驗來學習最優策略,大大提高系統的學習效率。盧守峰[6]等人對固定周期和變周期兩種模式下的單交叉口信號配時優化進行研究,構造了等飽和度優化目標的獎勵函數,建立了等飽和度和延誤最小兩個優化目標的離線Q學習模型,有效地解決了狀態維數爆炸問題。這些模型都利用了風險中立的強化學習理論,其缺點在于風險中立的強化學習模型的穩定性與魯棒性不是很好,同時運行過程中收斂效果不明顯,速度較慢。針對該問題,作者擬提出風險避免強化學習信號配時模型,以期有效地解決風險中立強化學習模型的不足。
處理風險敏感最優目標問題的方法有3種:
1)最壞情況控制方法。該方法的核心是找出最壞情況下的回報。如果該情況下滿足要求,那么其他較優的情況下的回報也能滿足。該方法的缺陷是所考慮的最壞情況在實際狀況中出現的概率很低,甚至不會出現。但對有的行業是非常必要的,特別是航空領域,其系統龐大,造價極貴,一旦出現問題,就會造成極大的損失。Heger[7]針對這種情況發展了最壞情況強化學習算法,比較純粹的最壞情況控制,他在訓練的最后階段不考慮這種在現實中出現概率極低的情況。
2)指數效應函數控制理論[8]。該方法是通過類似的效應函數來改變逐步累積的回報,從而尋求最優策略。該方法較最壞情況控制方法取得了一定改進,然而,也存在著不足:它的等式結構不適用對應的無模型強化學習法則。同時,經過多次的運算,最優策略的不穩定性會表現出來,當前的情況在下一步沒出現之前不能進行判斷,存在滯后性。
3)時間差分風險敏感強化學習理論框架[9]。該理論框架是在學習過程中改變時間差分。同時,通過對算法的改進,成功并有效地解決了控制理論中的問題。本研究擬運用該框架對交叉口信號配時進行優化。
時間差分風險敏感強化學習理論:在描述馬爾可夫決策問題時,給定狀態集S和行為集A,一系列的狀態i,j,…∈S和行為a∈A,當整個系統處在狀態i時,接下來向下一個狀態j轉移,有多個不同的行為選擇,根據不同的行為選取概率,在其中選取一個最優的行為a,pij(a)為選取行為a的選擇概率。同時最后得到行為獎勵gij(a)。假設行為的選取是一系列的策略(函數)π∈Л,那么π(i)是行為函數。π(i)∈A,同理Jπ(i)為狀態i以后所有狀態行為采取后所得到的獎勵折扣期望。于是,得到這樣的等式:

式中:γ 為折扣因子,γ∈[0,1]。
等式移項可得:

Singh[9]提出的風險敏感控制理論是:定義k∈(-1,1)的范圍參數來描述風險的敏感,包括風險尋求和風險避免。定義變換函數為:

把變換函數加入到式(2)中,得到:

在式(3)中,如果k=0時,式(4)與式(2)是一致的,即式(2)是式(4)的一種特殊情況,此時退化為風險中立強化學習模型。當k>0時,時間差分為:gij(π(i))+γJπ(j)-Jπ(i)<0。得到的獎勵小于獎勵平均值;當k<0時,得到的獎勵大于獎勵平均值。即如果k>0,函數是趨向于風險避免;如果k<0,函數是趨向于風險尋求。
在城市道路交叉口中,車輛的到達是隨機的,波動性較大。一旦出現突發情況,這就對信號配時要求較高,以便解決各種情況并保證交通順暢。保證交通的穩定性和魯棒性至關重要。針對這種情況,構造新的信號配時控制模型:風險避免在線Q學習信號配時控制模型。
對于Q值函數的研究,其中最經典的是Sutton[10]提出的,給定時刻t,觀察該時刻的環境狀態是s,同時選取的行為是a,然后執行行為,在接下來的時刻t+1,狀態轉移到s+1,系統得到了一個獎勵rt,從而對Q值進行實時更新,規則為:

式中:st為t時刻環境的狀態;at為t時刻選取的行為;Qt(st,at)為t時刻下狀態行為(st,at)的Q值;Qt+1(st,at)為t+1時刻下狀態行為(st,at)的Q值;rt為t時刻后的回報值;α為學習速率,α∈[0,1];γ 為折扣因子,γ∈[0,1];A 為行為集合。

又因為在式(5)中α的取值范圍為[0,1],為了保證公式的一致性,故而χk的取值必須為[0,1],但觀察式(3)時,χk的取值為[0,2]。故對式(6)中χk前加入1/2進行變換:

狀態是交叉口進口道的排隊長度,以最簡單的二相位信號配時為例,它的關鍵車流有2個,如果取排隊長度區間[0,N],那么狀態數就有N2個。在城市道路中,N 較大,這就形成了維數災難問題,難以對狀態集進行學習。因此,將排隊長度區間進行離散劃分,以劃分為4個小區間為例,狀態數減少至16個。
行為是交叉口的信號配時方案,以最簡單的二相位信號配時為例,假定交叉口的配時方案的綠燈時間區間為[20,60],以2s為間隔,那么綠燈時間集合有:G={gi|i=1,2,…,21}={20,22,…,60},其中:gi表示行為編號。劃分為21個行為,行為與綠燈時間的轉換關系式為:(行為編號+10)×2=綠燈時間。如:行為編號g3對應的綠燈時間為26s。
選取排隊長度作為交通評價指標,利用排隊長度之差的絕對值來建立獎勵函數。以平均排隊長度差作為基本單位將獎勵進行離散,以劃分成5個部分為例,見表1。
離散的目的是將不同行為對應的Q值區分開,從而將行為的選擇概率區分開,好的行為選擇概率增大,且不易被突然增加的排隊長度造成Q值劇增和選擇概率減小所影響。這樣,減小了車輛到達的隨機性,造成模型的不穩定性,提高了模型的魯棒性。

表1 獎勵的構造Table 1 Reward value
選取Pursuit函數作為行為選擇機制,根據Pursuit函數,更新概率。當運行t個周期后,在t+1周期時,選擇最優行為a*t+1的概率為:

選擇其他a≠a*t+1行為的概率為:

式中:πt(a)為在周期為t時選擇行為a的概率;at*+1為最優行為;β的取值為0<β<1。
通過調整β,Pursuit函數既能確保以較大的概率選擇最優行為,又能探索沒被選中過的行為,使行為的探索與利用保持平衡。
在線學習模式是利用強化學習算法,對實際問題進行實時交互。在交互的過程中,系統獲取環境中的各種信息,得到經驗,然后,利用Q值函數,通過策略,形成優化后的行為,再作用到環境中,不斷地學習,逐步得到問題的最佳狀態-行為對。模型中的折扣因子γ取值為0.8。
在線風險避免Q學習信號配時優化算法步驟為:
1)初始化Q值為任意值。
2)檢測當前的排隊長度,作為初始狀態s。3)利用Q值經驗,在狀態對應的配時方案中,依據策略,選取配時方案a。
4)執行方案a,獲取獎勵r和新的狀態s′。
6)更新Q 值法則:Qt+1(st,at)←Qt(st,at)+Qt+1(st+1,at+1)-Qt(st,at)]。
7)將新的交通狀態s′賦予狀態s。
8)重復3)~7),直到Q值收斂。
選取長沙市猴子石大橋的西端上橋路口進行分析,猴子石大橋是連接長沙河西與河東的重要通道,它的交通作用非常關鍵,對信號配時的要求非常高。該路口是由主干道和上橋輔道構成,主要流量來自于主干道,幾何線形如圖1所示。

圖1 猴子石大橋西路口示意Fig.1 Geometry of Houzishi bridge
根據實際調查取得的數據,主橋的流量為3 024veh/h,上橋輔道的流量為1 502veh/h。現狀采用固定周期兩相位信號配時,信號周期為154s。根據實測數據,主橋上的排隊長度區間為[0,960]m,上橋輔道的排隊長度區間為[0,400]m。設定每個相位全紅時間為2s,黃燈時間為3s,每個周期綠燈總損失時間為10s。將輔道綠燈時間的選擇設為學習的直接目標,設定輔道最小綠燈時間為22s,最大綠燈時間為62s。以2s為間隔,劃分為21個行為,行為與綠燈時間的轉換關系式為:(行為編號+10)×2=綠燈時間。在線學習的時間步長為周期時間,初始Q值設為45,行為的初始概率設為1/21。針對進口道流量較大,容易造成維數災難,故對交通流量進行分段的離散劃分。把主干道的排隊長度區間[0,960]劃分為4個分段,把輔道的排隊長度區間[0,400],同樣劃分為4段,得到:Flow1={fi|i=1,2,3,4}={[0,240),[240,480),[480,720),[720,960]};Flow2={hj|j=1,2,3,4}={[0,100),[100,200),[200,300),[300,400]}。從而得出有16個狀態的狀態集:S={s(i,j)|i=1,2,3,4;j=1,2,3,4}={(fi,hj)|1,2,3,4;j=1,2,3,4}。
為了驗證模型的效果,采用本課題組開發的集成VISSIM、ExcelVBA及Matlab的仿真平臺[11]進行研究。在仿真平臺上,在線風險避免Q學習信號配時優化算法步驟的實例運行為:
1)在Excel中建立初始矩陣,取35為初始值。
2)在VISSIM中獲取猴子石大橋的西端上橋路口主橋和輔道上的排隊長度,檢測得到關鍵排隊長度,并與Flow1和Flow2進行比對,得出相應的i和j,并利用公式State=(i-1)×4+j,得到狀態。
3)利用Q值矩陣,在該狀態對應的21個行為中,依據行為選擇機制,選取最優的行為,即最優的配時方案。
4)對選取的配時方案進行仿真,再次得到兩個方向的關鍵排隊長度和新的狀態,同時根據獎勵函數和排隊長度,獲得對應的獎勵,即排隊長度差。
5)把4)中獲得的相應數據代入rt+γ·Qt+1(st+1,at+1)-Qt(st,at)中,得到時間差分,判斷正、負,選取χk。
6)根據式(7),對Q值進行更新。
7)將新的交通狀態s′賦予狀態s。
8)若Q值矩陣不收斂,重復3)~7);否則,結束。
根據步驟和式(7),分別選取k=0.1和k=0.9,來探索k取值的不同對應信號交叉口配時的影響。分別在仿真平臺上運行多次直至收斂,一次為一個信號周期。然后,選取其中一個迭代次數較多的狀態(2,2),進行對比分析,如圖2所示。

圖2 k=0.1和k=0.9時,Q值運行情況對比Fig.2 Qvalues for k=0.1and k=0.9
圖2 中,不同顏色的線條表示21個不同的行為,橫線表示在運行中系統許久沒有選取該行為了,線條的連續波動表示系統連續選取了該行為。如果一條波動線一直保持在21條線的最低Q值且連續跳動,則表示在該狀態下系統收斂于該行為。k越大,風險避免的程度越高。如:k=0.1時,狀態(2,2)的收斂出現在系統運行3 600次時;而k=0.9時,在系統運行100次時就開始收斂了。對于配時方案的穩定性,二者達到收斂后都較穩定。對于k=0.1時,狀態(2,2)收斂于行為1,得到的兩相位綠燈時間為(22,122)s。收斂后的主干道平均排隊長度為230.35m,輔道平均排隊長度為150.01m,排隊長度差為80.34m。對于k=0.9時,狀態(2,2)收斂于行為9,得到的兩相位綠燈時間方案為(38,106)s。收斂后的主干道平均排隊長度為274.82s,輔道平均排隊長度125.01s,排隊長度差為149.81m。總的來說,k越大,收斂性越好且越快,但它探索的行為的個數較少。k分別取0.1和0.9時,它們的性能差別較大。
為了尋求既能保證收斂又能有較好性能的學習方法,采用將k小步距遞增的方式。提出在仿真過程中,可以等比例地把k從0逐步增加趨近于1,共運行10 000次,k從0以0.1為步長逐步增加至0.9。然后與風險中立的Q學習交通信號配時算法進行對比。運行10 000步后,取運行次數較多的前8個狀態進行對比分析,得出結果見表2。
從表2中可以看出,風險避免的Q學習交通信號配時算法在運行相同次數時,收斂狀態的個數較多,收斂速度較快,同時配時方案效果也較好。這說明該方法運用在交叉口信號配時控制中較為理想。

表2 結果分析對比Table 2 Comparative analysis
本研究建立了風險避免Q學習交通信號配時在線學習模型,相對于已有文獻的風險中立的Q學習模型配時方案的穩定性有較大改進,收斂速度更快。風險避免程度越大,收斂速度越快,模型越穩定。針對風險系數k的變動進行了分析,并分析了它對配時方案和收斂性的影響。與風險中立Q學習模型相比,平均排隊長度差相當,但是,能夠保證模型收斂,且速度較快。因此,針對交通信號配時優化這類問題,由于其隨機性較大、干擾因素較多,應該采用風險敏感強化學習模型。又由于k的取值不同對模型的性能有較大差別,因此,采用k小步距遞增的方式,適合于交通信號配時優化。
(
):
[1] Oliveira D,Bazzan A L C,Silva B C,et al.Reinforcement learning based control of traffic lights in nonstationary environments:A case study in a microscopic simulator[A].Proceedings of the 4th European Workshop on Multi-Agent Systems[C].Lisbon,Portugal:[s.n.],2006:31-42.
[2] Ilva B C,Oliveira D,Bazzan A L C,et al.Adaptive traffic control with reinforcement learning[A].Proceedings of the 4th Workshop on Agents in Traffic and Transportation[C].Hakodate,Japan:[s.n.],2006:80-86.
[3] 黃艷國,唐軍,許倫輝.基于Agent的城市道路交通信號控制方法[J].公路交通科技,2009,26(10):126-129.(HUANG Yan-guo,TANG Jun,XU Lunhui.City road traffic signal control method based on Agent[J].Highway Traffic Science and Technology,2009,26(10):126-129.(in Chinese))
[4] Wiering M,Veenen J V,Vreeken J,et al.Intelligent traffic light control,institute of information and computing sciences[R].Dutch:Utrecht University,2004.
[5] 戴朝暉,吳敏.基于混合抽象機制的多智能體系統動態分層強化學習算法研究[D].長沙:中南大學,2011.(DAI Zhao-hui,WU Min.Multi-agent dynamic hierarchical reinforcement learning based on hybrid abstraction[D].Changsha:Central South University,2011.(in Chinese))
[6] 盧守峰,韋欽平.單交叉口信號配時的離線Q學習模型研究[J].控制工程,2012,19(6):987-992.(LU Shou-feng,WEI Qin-ping.Study on off-line Q-learning model for single intersection signal timing[J].Control Engineering,2012,19(6):987-992.(in Chinese))
[7] Heger M.Consideration of risk and reinforcement learning[A].Machine earning:Proceedings of the E-leventh International Conference[C].San Francisco:Morgan Kaufmann Publishers,1994:105-111.
[8] Howard R A,Matheson J E.Risk-sensitive markov decision processes[J].Management Science,1972,18(7):356-369.
[9] Singh S.Risk-sensitive reinforcement learning[J].Machine Learning,2002,49(2-3):267-290.
[10] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge,MA:MIT Press,1998.
[11] 盧守峰,韋欽平,沈文,等.集成 VISSIM、ExcelVBA和MATLAB的仿真平臺研究[J].交通運輸系統工程與信 息,2012,12(4):43-48.(LU Shou-feng,WEI Qin-ping,SHEN Wen,et al.Integrated simulation platform of VISSIM,Excel VBA and MATLAB[J].Journal of Transportation Systems Engineering and Information Technology,2012,12(4):43-48.(in Chinese))