999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向優先車輛感知的交通燈優化控制方法?

2021-11-09 02:45:36邵明莉陳聞杰陳銘松
軟件學報 2021年8期
關鍵詞:動作方法

邵明莉,曹 鶚,胡 銘,章 玥,陳聞杰,陳銘松

(上海市高可信計算重點實驗室(華東師范大學),上海 200062)

隨著城市化建設的進一步推進和經濟的飛速發展,汽車數量在不斷飆升.據上海交通出行網統計,截至2018年底,上海市實有小客車規模突破500 萬[1].與此同時,城市的交通需求與道路設施之間的矛盾日益突出,交通擁堵也成為了城市發展過程中一個不可忽視的問題.近年來,隨著物聯網與人工智能技術的發展,智能交通系統成為了現代交通發展的方向[2,3],越來越多的人開始嘗試從智能算法中尋求解決城市交通問題的方案,利用物聯網技術獲取車輛狀態以及道路設備狀態信息,然后再使用各種智能算法對獲取到的信息進行分析,給出緩解交通壓力的操作建議[4,5].

在城市交通中,位于道路交叉路口處的交通燈是指引車輛通行的關鍵設備,對出行效率起著至關重要的作用.合理的交通燈控制方案能夠有效地緩解路口交通壓力,提高通行效率.傳統的交通燈控制策略基本都是采用固定的時間間隔以及固定的相位序列來調整交通燈信號[6],這種方式雖然簡單,但卻無法適應不同的交通路況:比如,可能在某個十字路口只有一輛車或者只有一個方向上有車,但它卻不得不等待一輪紅綠燈之后才能通過,或者是等到了綠燈,但綠燈時間不足以通過路口.因此,如何設計一套智能交通燈控制算法,使其能夠根據路況動態改變交通燈相位,就是一個非常有意義的研究課題.

近年來,車聯網技術的發展使得交通燈智能控制成為了可能:通過GPS、傳感器等設備,車輛可以完成自身環境和狀態信息的采集,這些信息將通過互聯網技術匯聚到中央處理器,經過各種智能算法分析處理,進而控制交通燈相位切換.強化學習完成的目標就是讓智能體在與環境交互的過程中學習策略,以達成回報最大化或實現某個特定目標[7].它根據實時反饋來調整動作的特征,使其尤為適合解決智能交通燈控制問題.自從Thorpe 等人[8]于1997 年首次將強化學習方法應用于交通信號最優化控制以來,各種基于強化學習的交通燈控制算法層出不窮[9?13].但對于大部分目前已有的工作而言,它們的目標定位都是如何緩解道路交通壓力,即縮短車輛等待時間以及隊列長度,或者是提高路口吞吐率等.但是在實際場景中,某些執行任務的特殊車輛,比如警車、消防車或者救護車等,它們對通行效率的要求更高,相比于普通汽車,應該具有更高的優先級來通過路口[14].在車聯網場景下,傳統的控制特殊車輛優先通行的方法大多是基于信號搶占策略,通過識別路網中特殊車輛的位置、速度與周圍車流信息,切換交通燈相位,使其能夠盡快通過路口.但這種方式往往會對路口的整體流量造成過大的干擾,可能會導致道路發生大范圍擁堵,進而引起整個道路交通網崩潰.所以,如何在強化學習算法中引入優先級策略,平衡特殊車輛與普通車輛的通行效率,是本文重點關注與解決的問題.

基于以上現狀,為了適應動態交通流變化,并在控制特殊車輛優先通行的同時減少對普通車輛的干擾,本文提出一種面向優先車輛感知的交通燈優化控制方法,使用強化學習方法學到能夠適應動態交通流變化的交通燈控制策略.為了實現優先車輛感知,在設置狀態時,用不同的值對特殊車輛與普通車輛進行區分,并在計算獎勵時賦予特殊車輛更大的權重,以實現對特殊車輛的優先處理.此外,本文使用了Dueling DQN[15]結構來提高模型的學習效果,并在訓練過程中使用Double DQN[16]方法來避免過度估計問題.為了驗證本文方法的有效性,使用城市交通模擬器SUMO[17]分別在單路口場景與多路口場景中進行實驗.結果表明,本方法能夠有效地提升路口通行效率,在優先降低特殊車輛的等待時間的同時,也能對普通車輛的等待時間有一定的優化,并且能夠應用于多路口場景中.

本文第1 節主要介紹目前已有的利用深度強化學習方法控制交通燈以及控制特殊車輛優先通行的相關工作.第2 節從問題定義和算法模型兩方面詳細闡述本文提出的面向優先車輛感知的交通燈優化控制方法,詳細闡述狀態、動作、獎勵函數設置,以及本文所使用的Q網絡結構、模型架構與算法.第3 節通過在城市交通模擬器SUMO 上進行對比實驗,驗證本文方法能夠在提高車輛通行效率的同時,體現出對特殊車輛的優先處理,并且能夠擴展應用于多路口場景.第4 節對本文工作做出總結并給出未來的工作展望.

1 相關工作

智慧交通燈控制是構造智慧城市、解決城市交通問題的一個重要研究方向.在眾多研究方法中,深度強化學習以其根據實時反饋來調整動作的特征得到了廣泛的應用.這類方法通常把路口交通燈抽象成一個智能體,控制對象為道路交通網絡上的時變交通流,并且將智能體與控制對象的閉環交互過程抽象成馬爾可夫決策過程(Markov decision process,簡稱MDP)[18]:智能體將目標優化過程按照時間進程劃分為狀態相互聯系的多個階段,并在每個階段通過觀察交通環境的實時狀態,提取交通燈控制所需的交通狀態信息和反饋獎勵信息進行最優決策.Wei 等人[19]提出一種使用深度Q神經網絡的交通信號控制方法,它綜合使用隊列長度、車輛數量、車輛等待時間、路口圖像表示以及當前相位作為狀態輸入,以是否切換相位作為輸出,其優化目標在于縮減車輛隊列長度以及等待延遲,縮短旅行時間;Joo 等人[20]提出一種能夠處理多種路口結構的基于Q表的強化學習方法,它將隊列長度和路口吞吐量作為評價指標,其優化目標在于縮短車輛在路口的延遲;Zhang 等人[21]將基于值的元強化學習方法應用于交通燈控制場景中,它利用從已有的場景中學來的知識來加快在新場景中的學習過程,提高了訓練效率.以上方法的關注點都在通行效率上,Yan 等人[22]則認為,效率和公平性都應該被考慮到.因此,他們在設計獎勵函數時添加了公平性考量,以降低各輛車之間的旅行時間差異.但總體而言,以上這些方法都只針對于普通車輛通行的路口場景,它們將所有種類的車都一視同仁,沒有考慮到特殊車輛的優先通行性.

現有的控制特殊車輛優先通行的方法大多都是通過數學計算預測特殊車輛到達路口的時間,然后更改交通燈相位使其無需停車等待通過路口.比如Qin 等人[23]提出的控制策略,在傳感器檢測到特殊車輛到達時,切換交通燈為緊急車輛搶占(emergency vehicle preemption,簡稱EVP)模式,即打斷正常的交通燈相位,為特殊車輛提供綠燈指引,直至特殊車輛離開路口才恢復到正常模式;Kang 等人[24]提出一種交通信號協調方法,通過修改路口之間的相位偏移量來為特殊車輛構建綠波帶,保證了特殊車輛在一段區域內的無障礙通行;Noori 等人[25]則提出一種基于連接車輛的控制策略,在特殊車輛到達路口之前就搶占交通燈相位,清除該方向的車流隊列,確保特殊車輛不被其前面的車阻塞;Mei 等人[26]則利用公交信號優先與動脈信號協調相結合的方法,適用于帶有公交專用道的道路場景;Younes 等人[27]使用一種動態交通燈調度算法,能夠應對多輛特殊車從不同方向駛入路口的情況,選擇更擁堵的車流通過路口.然而這些方法在設計過程中都只著眼于滿足特殊車輛的通行需求,而不顧普通車輛的通行效率,所以很有可能引起普通車輛的大范圍阻塞,從而使得路網癱瘓.而這也會進一步影響到特殊車輛的通行,降低了路口的總體通行量.此外,這些方法也只適用于特殊車輛偶爾出現的情況,若是對于諸如消防局、醫院、警局附近的路口,特殊車輛出現的頻率相對較高,這些方法就無能為力了.

基于以上情況,為了能夠賦予特殊車輛優先通行權,并且盡可能地減小對普通車流的影響,本文采用基于Q值的強化學習方法,在設置狀態和獎勵函數時增加特殊車輛的權重,使其在與環境不斷交互的過程中學到一種能夠平衡特殊車輛與普通車輛通行效率的策略.

2 提出的方法

2.1 問題定義

在基于強化學習的交通燈控制方法中,將交叉路口中結合了控制算法的交通燈抽象為智能體(agent),被控對象為道路交通網絡中的環境(environment).如圖1 所示,在任意時刻t,智能體從環境中獲取當前環境的狀態st,并執行一個動作at,在下一時刻t+1,環境在動作at的作用下會產生新的狀態st+1;同時,智能體也會接收到一個回報rt+1.在這個不斷交互的閉環系統中,強化學習模型跟蹤評測智能體所選擇動作的控制效果,并以累積獎勵值最大化為目標來優化信號控制策略.將這一過程抽象為一個馬爾可夫決策過程,用一個五元組(S,A,P,R,γ)表示.其中,

?S:表示環境中的狀態集合.st∈S表示環境在t時刻的狀態;

?A:表示智能體能夠執行的動作集合.at∈A表示智能體t時刻采取的動作;

?P:表示狀態轉移概率.假設t時刻系統的狀態為st,智能體執行的動作為at,系統將根據狀態轉移概率P(st+1|st,at)到達下一個狀態st+1;

?R:表示獎勵.rt表示在執行完動作at之后得到的即時獎勵;

?γ:表示獎勵衰減因子.γ∈[0,1)表明了未來的回報相對于當前回報的重要程度.

Fig.1 Interaction process between agent and environment圖1 智能體與環境的交互過程

強化學習的目標是給定一個馬爾可夫決策過程,尋找最優策略.策略π即是一連串的狀態到動作的映射,它是指給定狀態s時,動作集上的一個分布,如式(1)所示.

在策略π中,狀態-行為值函數(也被稱為Q函數),即累積獎勵在狀態s及動作a處的期望可用式(2)表示.

根據上式,如果智能體知道后續狀態的最優Q值,即后續狀態選哪個動作能夠使得Q函數輸出最大,那么最優策略僅需要選擇能夠獲得最高累積獎勵的動作.用貝爾曼(Bellman)方程[28]表示如式(3)所示,最優策略π*可以通過遞歸計算獲得.

在狀態空間有限的情況下,該公式可以通過動態規劃求解.但在本文場景中,路口狀態空間復雜,因此采用神經網絡擬合函數f(θ)來近似計算Q(s,a).具體過程是:定義一個深度神經網絡——Q網絡,輸入是狀態s,輸出是包含每一個動作的Q值的向量.此時,智能體根據Q值的輸出選擇某個動作執行,并從環境中得到當前動作獲得的獎勵.Q網絡根據獎勵計算損失函數反向傳播對參數θ進行訓練,直至收斂.

綜上所述,狀態、動作、獎勵是Q網絡設計與實現過程中不可或缺的三要素.其中,狀態是從環境中獲取的信息,它作為Q網絡的輸入;動作是智能體的行為表征,它決定了Q網絡的輸出維度;獎勵是環境對于動作的反饋,它用于輔助Q網絡的訓練.下文將分別介紹本文場景中的狀態、動作及獎勵設置.

2.1.1 狀態設置

參考目前大多數的路口場景,本文所討論的道路交叉口如圖2 左圖所示,路口是四路交叉路口,分別是東、西、南、北這4 個方向.每個方向上的入向道路分為3 個車道,按圖中指向箭頭所示,最右邊車道允許直行和右轉,中間車道僅允許直行,最左邊車道僅允許左轉,即每個方向上的入向車道有4 種方向的車流.每個交通燈有紅、綠、黃這3 種狀態,每個交通燈只能控制一個方向的車流,因此,控制圖2 所示的路口需要4×4=16 個交通燈.對各個入向道不同方向所顯示的不同燈色的組合構成一個信號相位.在道路中行駛的汽車用圖中所示的不同形狀表示,其中,普通車輛由三角形表示,特殊車輛由矩形表示,它們都遵循統一的交通規則,即按照紅綠燈指示行駛.

本文根據車輛在路口的位置以及速度來定義狀態信息.通過車載網絡以及其他道路傳感器等設備,車輛的位置以及速度很容易就能獲得[29].把每條進入路口方向的車道劃分成一個個小格子,格子的寬度即為車道寬度,格子的長度即為每輛車的長度加相鄰車輛之間的最短距離,這樣就可以保證每個格子上最多只能放下一輛車.對于每個格子,使用一個二元組(p,s)來表示該格子上的小車狀態,其中,

?p表示該格子上是否存在小車以及存在哪種類型的小車,取值集合為{0,1,10}:如果格子上的車為普通車輛,那么p=1;如果格子上的車為特殊車輛,那么該格子上p=10;否則,如果格子上沒有車,那么p=0;

?s表示該格子中小車的速度,單位為m/s.當p=0 時,s也等于0,否則為該格子上小車的當前速度.

根據以上定義,圖2 左圖的路口環境對應的狀態如右圖所示.

Fig.2 Intersection scenario and state setting圖2 交叉口場景及狀態設置

2.1.2 動作設置

動作就是智能體所采取的行為.在本文的問題定義中,交通燈作為智能體,它所執行的動作就是設置不同的信號燈相位.針對圖2 所示的路口場景,一共存在4 種不沖突的相位,如圖3 所示,分別是:(1) 南北方向直行及右轉;(2) 南北方向左轉;(3) 東西方向直行及右轉;(4) 東西方向左轉.因此,智能體的動作空間為{0,1,2,3}.為了使紅綠燈狀態更穩定,每隔10s 來計算一次動作,當新選擇的相位與當前相位不同時,會在4s 的黃燈時間后再切換到下一相位.此外,設置每個相位的持續時間不得超過60s,保證其他方向的車輛及行人的等待時間在可容忍的范圍內.

Fig.3 Action setting圖3 動作設置

2.1.3 獎勵設置

設置獎勵的作用是向強化學習模型提供動作執行結果的反饋.恰當的獎勵設置能夠正確地指導學習過程,以使智能體學習到最佳的行動策略.衡量路口通行效率的指標通常有隊列長度、路口吞吐量、車輛通行時間和車輛等待時間.其中,隊列長度是指某一時刻路口各個車道上等待的車隊長度,路口吞吐量是指單位時間內通過路口的車輛數目.這兩種指標在計算過程中沒有對不同車輛進行區分,更適合衡量路口整體效率,無法體現出特殊車輛與普通車輛的差異.車輛通行時間是指車輛從駛入路網到駛出路網所用的時間,它雖然可以針對特殊車輛與普通車輛分別計算,但它適用于在一輪訓練結束后來計算,如果作為獎勵函數指標每步計算的話,會有許多車輛并沒有駛出路網,此時計算結果就會有比較大的偏差.而車輛等待時間既可以對特殊車輛和普通車輛分別計算,并且它不需要車輛駛出路網后才能計算,可以在智能體每一次執行動作后更新,因此本文采用車輛等待時間作為獎勵函數指標.同時,為了消除普通車輛與特殊車輛在數量上的差異所帶來的影響,分別使用兩種車輛的平均等待時間作為優化指標.

令Nt,normal表示在第t次動作執行結束后路口相連的入向道路上所有普通車輛的數量,Nt,special表示在第t次執行結束后路口相連的入向道路上所有特殊車輛的數量,表示在第t次動作執行結束后觀測到的第i輛普通車輛在該車道的累積等待時間,表示在第t次動作執行結束后觀測到的第i輛特殊車輛在該車道的累積等待時間.普通車輛及特殊車輛的平均等待時間計算方式分別如式(4)、式(5)所示.

智能體在執行完第t次動作后得到的獎勵就可以用式(6)計算得到,其中,α代表特殊車輛所占的權重,取值區間為(0,1).

根據公式可以看出,如果在執行完一次動作之后,發現車輛的平均等待時間比上一次要小,這就意味著有部分等待的車輛通過了路口,智能體將得到一個正值的reward.強化學習算法的目標是使reward最大化,這就會使平均等待時間朝著更小的方向優化.參數α可以用來調節特殊車輛與普通車輛在優化過程中所占的權重.

2.2 本文算法

2.2.1Q網絡結構

根據第2.1.1 節的狀態設置,每一時刻隨著交通燈相位的改變及車輛的行駛,狀態都會發生變化,所以狀態空間是無限的.因此,本文采用深度神經網絡即Q網絡來近似計算Q值,其結構如圖4 所示.其中,n代表場景中的路口個數.

Fig.4 Structure of our Q network圖4 Q 網絡結構

模型的輸入是從環境中獲得的各個路口的狀態,維度為(n,360,2),其中,360=12×30,12 代表12 條入向車道,30表示對每條車道,本文僅考慮距離路口最近的30 個格子;2 代表每個格子上的(p,s)二元組.輸出是當前狀態下各個路口不同動作對應的Q值,維度為(n,4),其中,4 對應第2.1.2 節定義的4 種動作.

在設計網絡結構時,本文采用了Dueling DQN[15]的思想,它與傳統DQN 的不同之處在于,它把Q值的計算分為兩部分:一部分是價值網絡,它只與當前狀態s有關,而與具體要采取的動作無關,所以它的維度是(n,1),用V(s;ω,α)表示;另一部分是優勢網絡,它表示執行每種動作的優勢值大小,因此它不僅與當前狀態s有關,也與具體要執行的動作a相關,所以它的維度應該與輸出層的維度相同,都是(n,4),用A(s,a;ω,β)表示.其中,ω表示公共部分的網絡參數,α表示價值網絡獨有部分的參數,β表示優勢網絡獨有部分的參數.

此時Q值的輸出由價值網絡的輸出和優勢網絡的輸出線性組合得到,在狀態s下,每個動作a的Q值等于狀態s的價值V與動作a的優勢值之和.此外,為了使結果更加穩定,這里對優勢值A做了一個中心化處理:對于每種動作,都將它的A值減去所有動作的平均A值.計算公式如式(7)所示.

其中,價值網絡V(s;ω,α)體現了當前狀態對Q值的影響;優勢網絡A(s,a;ω,β)體現了在當前狀態下,不同的動作對Q值的影響.綜合使用二者,能夠使Q值的計算結果更準確.

2.2.2 模型架構

本文提出的算法模型架構如圖5 所示,其中最核心的兩個組件分別是預測網絡Q和目標網絡Q′,二者都采用圖4 所示的Q網絡結構.其中,預測網絡是我們要訓練的網絡,它始終持有最新參數,用來計算預測Q值Qeval.目標網絡的作用是用來指引訓練方向,每隔一定的訓練輪數,會將預測網絡的參數都賦值給目標網絡.

Fig.5 Model architecture圖5 模型架構

在動作選擇過程中,首先從環境中獲得當前狀態st,并將其輸入到預測網絡Q中,計算得到當前狀態下各個動作的Q值,最后利用ε-greedy算法[30]選擇出要執行的動作at.ε-greedy算法是一種加入了隨機因子的貪心算法,目的是增加智能體的探索嘗試.智能體在選擇動作時,會以概率ε隨機在動作空間中選擇一個動作,以概率1?ε按照預測網絡預測的最優Q值選擇動作.在訓練初始階段,由于Q網絡還不穩定,此時給ε賦一個較大的值能夠幫助智能體做出更多的探索嘗試;隨著訓練的進行,Q值的預測結果會越來越準確,ε的值也會隨之減小,讓智能體逐步相信預測Q網絡的判斷.

在模型訓練過程中,本文采用了Double DQN[16]的思想,將目標Q值動作的選擇與目標Q值的計算這兩步解耦開.傳統的DQN 在計算目標Q值Qtarget時,直接在目標網絡輸出中找出各個動作的最大Q值,這樣雖然可以快速讓Q值朝著可能的優化目標靠攏,但很容易導致過度估計問題.而Double DQN 在計算目標Q值時,先在預測網絡Q中找到最大Q值對應的動作,然后再利用這個選擇出來的動作在目標網絡Q′中去計算Qtarget,降低動作選擇與目標Q值計算之間的相關性,能夠有效地避免過度估計問題.在Double DQN 中,目標Q值的計算方式如式(8)所示.

其中,st和at分別代表當前的狀態和動作,rt代表當前這步行為獲得的即時獎勵,st+1和a′分別代表下一步的狀態和選擇的行為,γ代表獎勵衰減因子.在計算目標Q值時,先在當前網絡中獲得最大Q值對應的動作,再將該動作放到目標網絡中計算Q值,最后與衰減因子相乘后,加上當前獎勵作為目標Q值.

在計算出Qtarget之后,本文算法的損失函數參照Huber 損失函數[31],定義如式(9)所示.

若目標Q值與預測Q值差值不大于1,損失值等于目標Q值與預測Q值差值平方的1/2;否則,損失值等于目標Q值與預測Q值差值絕對值減去1/2.

在選擇樣本進行訓練時,本文采用了經驗回放機制[32].之所以采用這一方法,是因為在學習過程中得到的樣本前后之間是有依賴關系的,樣本之間關聯性過大.而深度神經網絡作為有監督學習模型,要求數據滿足獨立同分布,經驗回放機制通過“存儲-采樣”操作能夠很好地打破相鄰樣本之間的數據關聯性.具體做法是,從以前的經驗回放池中隨機采樣進行訓練.這樣不僅能夠提高樣本利用率,使一個樣本能夠被多次使用,也能減少參與訓練的樣本之間的相關性.

2.2.3 算法描述

本文所使用的模型訓練算法偽代碼如下所示.

在每一輪開始,先從環境中獲得初始狀態,再利用ε-greedy算法,以概率ε隨機在動作空間中選擇一個動作,以概率1?ε,按照預測網絡預測的最優Q值選擇動作.在智能體執行完動作a之后,會得到環境反饋的即時獎勵r以及下一狀態s′.此時,本文會采取基于“存儲-采樣”操作的經驗回放機制,將狀態轉移四元組(s,a,r,s′)存儲進經驗回放池,再從池中隨機獲取B個樣本.對于每個樣本,分別利用預測網絡和目標網絡計算出它的預測Q值Qeval以及目標Q值Qtarget;最后,根據第2.2.2 節定義的損失函數,使用Adam 優化器[33]反向傳播更新預測網絡參數θ.預測網絡的參數每步都會更新,而目標網絡的參數每隔F輪才更新.

3 實 驗

為了驗證本文方法的有效性及可用性.需要進行實驗回答以下幾個問題.

?問題1:本文方法是否能夠提高車輛的通行效率?即在同一車流場景下,使用本文方法控制的交通燈與使用傳統固定時長控制的交通燈對比,對車輛的通行效率是否有明顯提升?

?問題2:本文方法是否能夠體現出對特殊車輛的優先性?即在區分車輛優先級的情況下,特殊車輛的平均等待時間是否會比不區分車輛優先級情況下的平均等待時間更短?

?問題3:本文方法是否能應用于不同的路口場景?即本文方法是否能夠有效地擴展到多路口場景中?

3.1 實驗設計

實驗使用城市交通模擬器SUMO 來完成,它能夠協助我們設計和實現道路設施的自定義配置與功能,并能在仿真運行期間提供關于車輛及交通燈的實時數據.本文把訓練過程分為多輪進行,每輪3 600 步,每步代表現實場景中的1s,所以說,每輪相當于現實場景中的1h.為了更好地模擬現實場景中的隨機車流,在實驗中設置車流以固定比例及流量隨機插入網絡,即特殊車輛與普通車輛的比例與流量固定,但車輛駛入的位置與行駛路線由SUMO 隨機生成.

為了回答以上3 個問題,本文進行了如下的實驗設計.

?針對問題1,需要進行對比實驗1.

在同一路口場景下,分別使用兩種紅綠燈控制方案:一個是本文方法訓練的模型,另一個是使用固定時長控制.對比兩種控制方式下,普通車輛與特殊車輛的平均等待時間差異.在實驗中,路口環境使用圖2 所示的四路交叉路口結構,每個方向的入向道路有3 個車道,每條車道的長度設為300m.車流由SUMO 隨機生成,為了更符合實際場景中特殊車輛的數目一般都遠小于普通車輛的事實,本實驗設置特殊車輛與普通車輛的比例為1:200,設置普通車輛每秒駛入兩輛,特殊車輛每100s駛入一輛.設置固定時長交通燈每隔30s切換相位,切換順序為“南北方向直行及右轉→南北方向左轉→東西方向直行及右轉→東西方向左轉”循環.

?針對問題2,需要進行對比實驗2.

在同一路口場景下,使用同一種模型結構,對比區分車輛優先級的模型與不區分車輛優先級的模型對特殊車輛的等待時間的影響.本實驗采用實驗1 相同的路口設置與車流設置.區分車輛優先級的模型使用的狀態和獎勵設置參照前文第2.1.1 節及第2.1.3 節的定義.不區分車輛優先級的模型在設置狀態時,只要格子上有車,不區分該車的類別,均將該格子上的二元組(p,s)中的p值設為1.在定義獎勵時,統一計算特殊車輛與普通車輛的平均等待時間,修改獎勵計算公式如式(10)所示.

?針對問題3,需要進行對比實驗3.

在同一個多路口場景中,分別使用本文方法訓練的模型與固定時長方法控制交通燈,對比兩種控制方式下車輛的通行效率.在本實驗中,使用3×3 一共9 個交通燈控制路口的環境設置,相鄰路口之間相互連通.每個路口的環境設置與對比實驗1 相同.與實驗1 類似,本實驗的車流也由SUMO 隨機生成,但本實驗的車流均從邊界駛入路網,并且經由邊界駛出路網.設置特殊車輛與普通車輛的比例為1:500,令普通車輛每秒駛入5 輛,特殊車輛每100s 駛入一輛.固定時長交通燈控制的設置與實驗1 相同.

實驗所使用的CPU 型號為Intel i7-8700k,使用的圖形處理器型號為GeForce GTX 1080Ti,操作系統為Ubuntu 18.04,Python 版本為3.7,機器學習平臺為Tensorflow v1.14.0 以及Keras v2.1.0.使用的城市交通模擬器為SUMO v1.6.0.實驗參數設置如下:模型訓練采用Adam 優化器,學習率設為0.000 1.設置經驗回放池大小為2 000,訓練批次大小batch_size為64.設置獎勵衰減系數γ為0.8.設置初始最大動作選擇系數εmax為1,動作系數衰減率εdecay為0.95,最小動作選擇系數εmin為0.01.

3.2 實驗結果分析

3.2.1 實驗1:單路口場景中本文算法與固定時長方法的結果對比

為了回答問題1,我們在單路口進行實驗,對比在同一種環境下,使用本文提出的方法控制交通燈與使用固定時長邏輯控制交通燈對車輛通行效率的影響.在本實驗中,設置獎勵平衡系數α為0.6.本實驗主要評價兩個通行效率指標.

?一是平均等待時間,以s 為單位,它的值等于在一輪訓練過程中所有經過路口的車在該路口的等待時間的總和除以車的數量.這里,為了區分對不同優先級的車輛的效果,分別計算特殊車輛與普通車輛的平均等待時間.

?二是平均隊列長度,以輛為單位,它是指在這一輪訓練過程中,每一步各個入向車道排隊總長度的平均值[34].

對比實驗1 訓練了150 輪,實驗結果如圖6 所示.

Fig.6 Results comparison of our algorithm and fixted-time method in single intersection secnario圖6 單路口場景中,本文算法與固定時長方法的結果對比

左圖表示特殊車輛與普通車輛的平均等待時間對比,可以看出,在使用固定時長邏輯控制交通燈時,特殊車輛的平均等待時間為170s 左右,普通車輛的平均等待時間為135s 左右.之所以出現特殊車輛的平均等待時間大于普通車輛的情況,原因有兩點:一是排在前面的普通車輛影響了在其后面的特殊車輛的通行;二是特殊車輛總體數量較少,單個車輛對平均等待時間的影響較大.在使用本文方法訓練的模型對交通燈進行控制之后,特殊車輛的平均等待時間降到了65s 左右,普通車輛的平均等待時間降到了90s 左右.與固定時長邏輯相比,特殊車輛的平均等待時間降低了105s 左右,普通車輛的平均等待時間降低了45s 左右.

右圖表示隨著訓練輪數的增加,路口處平均隊列長度的變化.在使用固定時長邏輯時,每一輪路口的平均隊列長度為125 輛左右;但在使用經本文方法訓練的模型之后,可以將平均隊列長度降低到100 輛左右.因此,圖5的實驗結果可以證明,本文方法能夠顯著提高車輛的通行效率,并且對特殊車輛的優化效果要好于普通車輛.

3.2.2 實驗2:單路口場景中考慮優先級與不考慮優先級的結果對比

為了回答問題2,我們對比不考慮優先級與考慮優先級的情況下,特殊車輛和普通車輛的平均等待時間的差距.本實驗使用的路口環境與對比實驗1 相同,在考慮優先級的方法中,設置獎勵平衡系數α為0.6.實驗結果如圖7 所示,左右兩圖分別表示特殊車輛和普通車輛的平均等待時間在不考慮優先級與考慮優先級的情況下的結果對比,其中,黃色線條表示在采用不考慮優先級的方法下的實驗結果,綠色線條表示采用本文方法,即考慮車輛優先級的方法控制下的實驗結果.對比可以看出,在訓練趨于穩定之后,對于特殊車輛而言,本文設計的優先級控制策略的確能夠降低其平均等待時間,對比數值降低幅度大概在35s 左右;對于普通車輛而言,使用本文設計的優先級控制策略雖然使得其平均等待時間有小幅度上升,但其大概15s 左右的上升于特殊車輛35s 的下降而言是值得的,因為在實際場景中,特殊車輛對通行時間的要求更高,對等待時間的容忍力更低.此外,雖然普通車輛的平均等待時間相比于不考慮優先級的方法有小幅度上升,但與實驗1 中使用固定時長控制方法對比還是有明顯下降的.因此,圖7 的實驗結果表明,本文所設計的優先級控制策略能夠體現出對特殊車輛的優先性.

Fig.7 Results comparison of considering priority and not considering priority in single intersection secnario圖7 單路口場景中,考慮優先級與不考慮優先級的結果對比

3.2.3 實驗3:多路口場景中本文算法的表現

為了回答問題3,我們將本文方法擴展到3×3 的聯通路口場景中,并進行了與單路口場景下類似的對比實驗.通過對比使用固定時長與使用本文方法的交通燈控制策略對特殊車輛和普通車輛的平均等待時間的影響,驗證本文方法對多路口場景的有效性,該實驗的結果如圖8 左圖所示;通過對比不考慮優先級與考慮優先級的方法對特殊車輛的平均等待時間的影響,驗證本文的優先級控制策略對多路口場景的有效性,該實驗的結果如圖8 右圖所示.在本實驗中,設置獎勵平衡系數α為0.65.在本實驗中,評價指標平均等待時間是指在一輪訓練過程中,各個路口的平均等待時間的平均值.

對比實驗3 訓練了200 輪,實驗結果如圖8 所示.

?圖8 左圖顯示,在使用固定時長邏輯的交通燈控制下,各路口特殊車輛與普通車輛的平均等待時間均為150s 左右;在使用本文方法訓練之后,各路口普通車輛的平均等待時間降至125s 左右,特殊車輛的平均等待時間降至90s 左右.可以看出,在多路口場景中,本文方法也能顯著提高車輛的通行效率.

?此外,右圖結果也顯示,本文的優先級設置策略在多路口場景下也能顯示出一定的有效性.

因此,圖8 的實驗結果表明,本文方法能夠擴展應用到多路口場景中.

Fig.8 Results of our algorithm in multi-intersection scenario圖8 多路口場景中,本文算法的結果

3.2.4 實驗分析與總結

由于本文算法根據實時的車輛位置、類型以及速度信息作為狀態,以這些實時信息作為輸入的神經網絡計算出的Q值是與當前的環境狀態相關的,因此本文算法所做的決策能夠適應動態交通流變化,相較于傳統的固定時長控制方法能夠顯著提高車輛的通行效率:分別使特殊車輛和普通車輛的平均等待時間降低68%和22%左右;與此同時,也使路口隊列長度降低了20%左右.本文所設計的優先級機制主要體現在兩個方面.

?一是在設計狀態時將各個入向道路以固定長度劃分為不重合的一個個小格子,并且給特殊車輛與普通車輛設置不同的值,使得Q網絡能夠根據狀態識別出車輛的位置以及類型;

?二是在獎勵設置時分別計算特殊車輛與普通車輛的平均等待時間,并設置了獎勵平衡系數α來平衡特殊車輛與普通車輛的權重,使得Q網絡在訓練過程中朝著更大幅度地縮小特殊車輛的等待時間的方向收斂;同時,為了使獎勵最大化,也不會使普通車輛的等待時間過大.

因此,使用本文所設計的優先級策略對比不使用優先級,在訓練趨于穩定之后,能夠使特殊車輛的平均等待時間降低35%左右.

多路口場景與單路口類似,將各個路口的實時狀態信息聚合起來統一輸入到Q網絡中,輸出針對各個路口上不同動作的Q值.在訓練過程中,各個路口利用自己的歷史狀態動作轉移元組,能夠學到適用于自己場景的決策,因此,本文方法能夠擴展應用到多路口場景中:對比固定時長控制方法,在訓練趨于穩定之后,分別使特殊車輛和普通車輛的平均等待時間降低40%和17%左右;同時,對比不考慮優先級的方法,特殊車輛的平均等待時間也降低了10%左右.

4 結論與展望

在城市交通網絡中,具有特殊任務的特殊車輛對于通行效率的要求更高.盡管傳統的信號搶占方法考慮到了特殊車輛的優先性,但對于普通車輛的通行干擾過大.基于以上情況,本文提出了一種面向車輛優先級感知的交通燈優化控制方法,使用Dueling DQN結構來提高模型的學習效果,并在訓練過程中使用Double DQN方法來避免過度估計問題.為了實現對特殊車輛的優先控制,在設置狀態時,用不同的值來區分特殊車輛與普通車輛,并在計算獎勵時賦予特殊車輛更大的權重,使得本文方法能夠在不干擾普通車輛通行的同時,大幅度降低特殊車輛在路口的等待時間,幫助其更快到達目的地.此外,本文方法也能接收多個路口的狀態輸入,并給出各個路口的動作決策,能夠擴展應用于多路口場景中.但由于多路口場景各個路口都是聯通的,相鄰路口之間的車流有一定的相關性,而本文方法沒有考慮到相鄰路口之間的信息交互,在多路口場景中的表現不如單路口場景中好.因此在今后的工作中,我們會將多智能體協同控制強化學習方法應用于多路口控制,以提升多路口場景下的優化效果.此外,如何高效地為不同的路口交通流路口尋找獎勵平衡系數α,也是未來亟需解決的問題.

猜你喜歡
動作方法
下一個動作
學習方法
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
非同一般的吃飯動作
主站蜘蛛池模板: 怡红院美国分院一区二区| 亚洲精品天堂自在久久77| 网友自拍视频精品区| 国产精品吹潮在线观看中文| 成人欧美在线观看| 91在线无码精品秘九色APP| 国产成人一区免费观看| 无码丝袜人妻| 四虎在线观看视频高清无码| 9啪在线视频| 毛片网站在线看| 国产系列在线| 99精品福利视频| 一级高清毛片免费a级高清毛片| 日本午夜在线视频| 成人无码一区二区三区视频在线观看 | AⅤ色综合久久天堂AV色综合| 在线观看免费AV网| 澳门av无码| 精品久久久久久中文字幕女| 精品伊人久久久久7777人| 午夜精品久久久久久久无码软件 | 成人在线欧美| 国产成人亚洲综合a∨婷婷| 国产性生大片免费观看性欧美| 无遮挡一级毛片呦女视频| 思思热在线视频精品| 91在线中文| 成人免费视频一区| 久久久久亚洲精品成人网| 成人国产一区二区三区| 午夜性刺激在线观看免费| 久久久精品久久久久三级| 亚洲日韩精品无码专区| 日韩成人免费网站| 毛片卡一卡二| 老司机午夜精品网站在线观看| 2020最新国产精品视频| 女人18毛片一级毛片在线 | 免费无遮挡AV| 无码一区中文字幕| 四虎永久免费地址在线网站| 国产一在线| 韩日无码在线不卡| 在线免费不卡视频| 亚洲乱强伦| 亚洲毛片在线看| 啊嗯不日本网站| 欧美成人精品一区二区| 亚洲三级a| 99999久久久久久亚洲| 欧美日韩在线国产| 成人午夜网址| 国产在线自揄拍揄视频网站| 久久这里只有精品8| 18禁高潮出水呻吟娇喘蜜芽| 91九色国产porny| 99青青青精品视频在线| 欲色天天综合网| 国产成人综合久久| 毛片免费高清免费| 国产成人精品综合| 首页亚洲国产丝袜长腿综合| 黄色网址手机国内免费在线观看| 欧美.成人.综合在线| 国产精品毛片在线直播完整版| 午夜欧美理论2019理论| 精品国产免费观看一区| 五月激情婷婷综合| 青草精品视频| 久久福利网| 精品无码国产一区二区三区AV| 97成人在线视频| 国产嫩草在线观看| 欧美精品色视频| 91青青在线视频| 欧美福利在线观看| 凹凸精品免费精品视频| 国产一级一级毛片永久| 亚洲高清在线天堂精品| 精品自拍视频在线观看| 热思思久久免费视频|