999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于策略梯度強化學習的列車智能控制方法

2020-04-16 13:22:20劉文韜周博淵
鐵道學報 2020年1期
關鍵詞:舒適度控制策略

張 淼 張 琦 劉文韜 周博淵

(1.中國鐵道科學研究院集團有限公司 研究生部,北京 100081;

2.中國鐵道科學研究院集團有限公司 通信信號研究所,北京 100081;3.國家鐵路智能運輸系統工程技術研究中心,北京 100081;4.北京交通大學 軌道交通控制與安全國家重點實驗室,北京 100044)

盡管城市軌道交通被稱為“綠色交通”方式,具有快速、便捷、運量大等特點,但大規模及高密度的運營使得城軌系統的能耗急劇增長。其中取決于列車站間控制策略的牽引能耗約占系統總能耗的50%。因此為減小系統能耗、削減運營成本,列車節能運行成為近年來的研究熱點。

為減小列車的牽引能耗,國內外諸多學者對列車控制策略的優化方法進行了大量研究。其中龐德里亞金極大值原理在早期的研究中得到了廣泛應用。Asnis等[1]分析了列車最優控制問題,得到了最優速度曲線的必要條件。徐凱等[2]針對城軌列車控制系統運行模式曲線的設計需求,在滿足安全、精確停車及各種約束條件下,以運行時間和能耗為目標,建立列車運行的多目標優化模型,并將粒子群優化PSO算法與布谷鳥搜索CS相結合,即多種群分層PSO-CS聯合優化算法。Albrecht等[3]考慮了信號顯示對列車運行的安全約束,利用經典的有約束優化方法,研究了在非水平軌道上同向而行的兩列車在滿足運行時分條件下的列車節能駕駛問題,得到了最小化總牽引能耗的必要條件,證明了每列車的最佳駕駛策略由每個區段上的最佳駕駛速度唯一確定??紤]到變化的坡度和限速條件,Khmelnitsky[4]利用極大值原理分析了最優解的解析性質,并提出了一個數值算法求解列車節能速度曲線。Liu等[5]應用極大值原理來求解節能駕駛策略,并給出最優工況序列和切換點的解析解。除此之外,Albrecht等[6-7]研究了列車在陡坡線路條件下運行的節能駕駛策略,得到了最佳切換點的必要條件,并通過擾動分析證明了最佳切換點的唯一性。Ke等[8]利用“最大-最小”蟻群算法求解了地鐵列車在區間的節能運行速度曲線,并有效提高了算法的計算效率。Su等[9-10]構建了牽引效率可變條件下的城軌列車節能控制優化模型,并提出了一種基于能量分配的數值算法求解列車節能駕駛策略。

另外,還有許多學者利用智能控制方法研究了列車運行優化控制問題。Cheng等[11]以安全、準點、節能和舒適度為優化目標,設計了包括專家系統和在線優化算法在內的高速列車智能駕駛方法(iDMS)。在不利用精確的列車模型和離線目標速度曲線的情況下,Yin等[12-14]基于專家知識,分別利用梯度下降法、強化學習和數據挖掘方法,提出了列車智能駕駛算法。另外,Zhang等[15]將數據挖掘算法與專家知識結合構建了3個數據驅動的列車運行模型(DTO),并通過一個啟發式的列車停車算法改進這些模型,從而保證停車精度。為了估計城軌列車的停車誤差,Chen等[16]引入軟計算方法構建了新的列車模型,并通過調整模型的參數有效地減少停車誤差。為解決列車自動停車控制問題,Chen等[17]利用強化學習方法,基于應答器提供的精確位置數據提出了一種在線學習控制策略。針對重載列車在長大下坡區段運行情景,Huang等[18]利用神經網絡設計的列車駕駛曲線生成方法,得到列車在循環制動時的減壓量,從而有效保障列車的運行安全。Wang等[19]提出了一種基于迭代學習控制的算法,該算法通過充分利用歷史運行數據中的可用信息來調整列車當前的駕駛策略。李誠等[20]提出一種基于粒子群算法的列車節能控制算法。

在實際中,列車牽引能耗取決于車載列車自動駕駛系統ATO中采用的控制策略。傳統ATO系統的控制方法包含兩層,其中上層為規劃層,旨在根據給定的站間運行時間設計一條目標速度曲線;下層則負責控制跟蹤該目標速度曲線。這種控制方式可以精確跟蹤目標速度,保證列車在站間的準點運行,但也會使得列車頻繁切換控制工況,導致乘客舒適度下降和運行能耗的增加。

現有ATO系統通過結合優秀司機的駕駛經驗來調整下層的控制方法,在目標速度vtarget附近進行牽引-惰行控制模擬司機的駕駛操縱過程。該控制方法可描述為“減a減b”策略,即當速度值達到目標速度減a時,列車采用惰行工況減速運行;當速度值降至目標速度減b時,列車切換為牽引工況加速運行,見圖1。這種控制方式能增大列車的惰行距離,從而減少列車牽引能耗,能夠有效減少工況切換次數,提高乘客舒適度。然而其站間運行時間可能會和列車時刻表中的計劃運行時間有一定偏差。特別是異常條件下,系統參數呈現出非線性和時變的特性,使得這種基于確定模型的控制策略將不再適用。

圖1 現有ATO系統的控制原理

綜上所述,當前列車控制問題的挑戰之一是如何得到一種靈活的控制策略,既能提高列車的準時性和節能性,還可以處理參數的不確定性?;趶娀瘜W習的智能控制是當前人工智能領域的重要發展方向,由于其不需要精確的模型信息,使之成為解決列車最優控制問題的有效方法之一[21]。因此,在現有的ATO控制原理和優秀司機的駕駛經驗的基礎上,本文提出了一種基于策略強化學習的列車智能控制算法,該算法在減少列車能耗的同時,可保證良好的準時性和乘客舒適度。相較于現有控制算法,本文提出的智能控制算法特點是:

(1)不依賴具體的列車動態模型,控制過程不需要參考速度曲線,可以利用歷史運行數據來訓練得到一個性能良好的控制器,使其適應系統參數的非線性和時變性。

(2)可以利用智能控制器生成的列車運行數據進行再訓練,不斷優化自身性能,從而實現控制器的自學習過程。

1 問題描述

城市軌道交通線路的站間距短,且列車的牽引和制動性能良好。一般城軌列車的站間控制過程分為出站啟動、站間速度保持和進站停車3個階段。在啟動階段,列車獲得在短時間內達到高速的牽引力,增加城軌系統的平均運行速度;在速度保持階段,列車利用牽引-惰行來保持速度;在停車過程中,列車減速并在站臺上精確停車。對于城軌交通系統列車的運行安全由列車自動防護系統ATP 防護。ATO系統旨在提高城市軌道交通系統的效率。考慮到ATO系統的控制策略,城市軌道交通的運行效率側重于提高運行準時性、節能性和乘客舒適度。這3個性能指標的定義分別為:

(1)準時性是城軌系統運營的一個重要指標。尤其是在高峰時段,相鄰兩列車的追蹤間隔短且行駛路徑有限。某列車發生的小延誤很容易傳播到其他多列車,甚至影響整個系統。此外大的延誤可能影響乘客對其他線路或其他運輸方式的換乘效率。列車的準時性可用列車計劃運行時間T和實際運行時間T′的時間誤差et來衡量

(2)舒適度 ATO系統決定了列車的控制策略。在慣性的作用下,車內乘客隨著車輛移動。在本研究中,用加速度和其變化率來量化車體運動對乘客舒適度的影響。在城軌系統中,基礎設施較為簡單且站間距短,因此本文不考慮曲線舒適度和連續的乘客舒適度,只考慮離散的乘客舒適度PDE,具體的評價方法將在2.1節中給出。

(3)節能性 隨著能源價格上漲和人們對環境問題的關注,列車運行中的能效顯得日益重要,這也是研發所提出的智能控制算法的主要考慮因素。列車在站間運行的牽引能耗[22]表示為

式中:F為列車牽引力;S為站間距離;v為列車速度;x為列車位置。

2 求解方法

2.1 專家系統

專家系統包括從文獻、司機經驗和運行數據中總結出來的節能控制工況,以及為滿足乘客舒適度而構建的列車控制規則。

考慮城軌列車的牽引效率,文獻[8]證明了列車的節能運行工況由最大牽引、惰行和最大制動構成,并對這種節能運行工況的描述為:

(1)最大牽引和最大制動 列車加速或制動的速度越慢,站間運行所需的時間就越長。為了以較低的加速度或制動速率獲得相同的運行時間,列車應該加速到更高的速度,而這將會消耗更多的能量。因此在啟動加速和制動停車階段,分別采用最大牽引和最大制動工況是最節能的控制方式。

(2)惰行 在不施加牽引力和制動力的惰行階段,列車依靠慣性向前運行且不消耗能量。因此,列車惰行越早,能耗越低。

具體操作時列車在啟動出站階段應施加最大牽引,加速至較高的速度;在途中運行時,列車采用最大牽引和惰行工況來節省能量,且為了滿足運行時分的要求,需在加速和惰行工況之間進行切換,在進站階段,列車采用最大制動停車。

(3)舒適度 基于文獻[23],本文將乘客舒適度簡化定義為與三維加速度相關的PDE。對于城軌系統,橫向和垂向加速度主要由基礎設施和車輛決定,縱向加速度則與ATO控制策略密切相關。通過分析列車啟動過程的運行數據可知,實際運營中的列車加速度符合乘客舒適度標準中的約束。因此啟動過程的控制策略可以直接用作專家系統的一部分。

綜上所述,構建了保障乘客舒適度的專家系統,利用該專家系統能產生列車啟動過程的控制策略和途中運行的“牽引-惰行”切換策略。用于列車控制的專家系統推理機制為:

①如果vt=0且F>0,則啟動階段的控制序列為F1。

②如果vt=vtarget-b且Ft+1>0,則惰行轉牽引的控制序列為F2。

③如果vt>0且x>xb,xb為停車位置,則制動階段的控制序列為B1,直到減速至0。

④如果vt=vtarget-a,則牽引轉惰行的控制序列為F3。

在專家系統中,所有控制序列均滿足舒適度的約束,并集成了特殊區段和場景下的節能駕駛經驗,即

2.2 基于策略的強化學習方法

本文提出的基于策略的強化學習算法PBRL(Policy-Based Reinforcement Learning),確定在每1個小區間內的最佳的a和b值,從而優化ATO系統的控制策略,算法主要包括:

(1)定義列車控制器

PBRL算法中將神經網絡作為列車控制器,并利用歷史運行數據來訓練神經網絡。神經網絡的輸入是列車當前的狀態,包括列車當前速度、列車位置和剩余運行時間。輸出為下一對牽引-惰行組合工況的控制策略,即下一次采取牽引-惰行時,采用某個a和某個b值的概率。定義列車控制器的神經網絡一般結構示意見圖2。其中上標1,2,…,J分別代表輸出層的節點。

圖2 神經網絡一般結構示意

(2)評估控制器性能

評估當前控制器的性能也是產生控制器參數更新值的基礎。其中,控制策略的累計獎賞值反映了每個控制動作對控制器性能的影響。本文定義動作ai為1個相應牽引-惰行準確的a和b值。

因此列車在站間的控制策略軌跡τ可表示成

式中:si為策略軌跡中第i步時的列車運行狀態;ai為第i步時列車的控制動作;ri為在第i步采取動作ai后所得獎賞值。

該控制策略軌跡的累積獎賞值為

每一步的獎賞值ri為

式中:Ei為每一步能耗,可用式(2)計算得到;λ為權重系數。需注意的是,由于專家系統保證了ATO系統的乘客舒適度,因此在獎賞函數中僅考慮能耗和準時性。為計算累計獎賞的期望值,利用當前控制器控制列車運行N次,通過求N次控制策略軌跡的平均累計獎賞來近似期望累積獎賞,即

(3)更新參數,獲得最佳控制器

訓練神經網絡的目的是得到一組最大化期望累積獎賞參數

PBRL算法利用策略梯度法來更新神經網絡的參數θ,以優化列車控制器。期望累積獎賞的梯度為

將列車站間的控制策略視為k步決策過程,其條件概率項為

由于式(10)中的p(s1)和p(rt,st+1|st,at)與控制器參數無關,對式(10)求梯度可得

將式(11)代入式(9)可得

式中:snt、ant分別為控制策略軌跡τn中第t步的狀態和控制動作。

最后,根據策略梯度法的更新規則對神經網絡參數進行更新

式中:θold、θnew分別為更新前、后的參數。

綜上,PBRL算法的具體步驟為:

Step1給定神經網絡參數θ,將其作為列車控制器,控制列車運行N次,產生N條控制策略軌跡。

Step2采集這N條軌跡中每一步的運行數據。

Step3利用式(6)計算每條控制軌策略的累積獎賞。

Step4利用式(13)更新控制器參數,產生一個新的控制器。

Step5返回Step1,重復上述步驟,終止滿足收斂條件。

3 算例驗證與分析

結合北京地鐵亦莊線的基礎數據進行仿真實驗,驗證列車節能控制方法的有效性。亦莊線的列車為6節車廂,采用3動3拖的編組形式,總長114 m,凈質量為192 t。列車的牽引制動特性和運行阻力特性見文獻[24]。

3.1 仿真實驗1

在本仿真實驗中,通過將PBRL算法計算得到的能耗與現有ATO控制算法進行比較,驗證PBRL算法的節能效果。將兩種算法的列車計劃運行時間均設為125 s,PBRL算法和現有ATO算法計算得到的列車運行速度曲線見圖3。從圖3可見,現有ATO算法使用的是“減2減5”的控制策略,即:限速為80km/h,當列車速度達到78km/h時,列車惰行;當減速至75km/h時,列車實施牽引工況加速運行。根據在仿真中列車運行時間的計時,其實際運行時間為125.07 s,根據公式(2)計算,列車牽引能耗為24.98 k W·h。利用PBRL算法得到的控制策略則更加靈活,其實際運行時間為124.99 s,能耗為23.27 k W·h。結果顯示PBRL算法比現有ATO算法節能6.85%。

圖3 PBRL算法與現有ATO算法的運行速度曲線

在不同計劃運行時間下,比較了PBRL 與現有ATO算法和傳統ATO算法的準時性、能耗和舒適度性能。仿真結果見表1,為了對表中數據進行更直觀地比較,可用(100-PDE)×100%表示乘客舒適滿意度,(et/T)×100%表示列車運行誤點率。由表1第4列數據計算,傳統ATO算法在125、129、132 s三個計劃運行時間下平均的乘客舒適滿意度為75.3%,而PBRL方法和現有ATO算法的平均乘客舒適滿意度分別為100%和99.3%。因此與傳統的ATO控制算法相比,PBRL 方法和現有ATO算法在乘客舒適度方面有了很大的改進。更進一步,由表1第2列數據計算,現有ATO算法在125、129、132 s三個計劃運行時間下根據列車運行誤點率公式計算,平均的列車運行誤點率為0.1%,而PBRL 方法的平均列車誤點率為(0.01/3)%。相較于現有ATO算法,PBRL方法的誤點率降低了30倍,列車運行的準時性大大提高。綜上所述,PBRL方法在舒適度和準時性兩方面具有明顯的性能優勢。

表1 PBRL算法與現有/傳統ATO算法的性能比較

3.2 仿真實驗2

本仿真實驗在不改變其他條件的情況下,將仿真實驗1中的運行阻力增大50%,驗證PBRL算法在處理可變參數方面的魯棒性。利用PBRL算法和現有ATO算法求解得到的列車運行速度曲線見圖4。由圖4可見,現有ATO算法仍然采用“減2減5”的控制策略,但由于運行阻力增大,列車平均運行速度變小,因此,根據在仿真中列車運行時間的計時,其實際運行時間增加到125.67 s,根據式(2)計算,運行能耗為25.43 k W·h。而PBRL算法的實際運行時間為125 s,能耗為23.37 k W·h。實驗結果表明:PBRL算法可以根據列車的運行狀態來調整控制策略,而不是使用固定的控制策略。即使在隨機場景中,依然可以使列車按照計劃時間運行,并盡可能地降低牽引能耗。

圖4 增大運行阻力后兩種算法的節能控制策略

3.3 仿真實驗3

本次仿真實驗通過改變PBRL算法中神經網絡隱藏層的神經元個數和式(6)中權重系數λ,分別研究了神經網絡結構變化和獎賞函數中權重系數對智能控制器性能的影響。本實驗給定的列車計劃運行時間為120 s,當隱藏層神經元個數num_h分別為16、32、48和λ取50、100、300時,列車運行的準時性和列車牽引能耗E的結果見表2。由表2可見,當λ取值一定,隱藏層神經元個數num_h=16時,控制器在準時和節能兩方面的性能最優。例如,當λ=300時,num_h=16控制器比num_h=48控制器的準時性提高了近1 s,能耗則降低了1.1 k W·h。當λ取值越小,則控制器的平均準時性越好。原因是當獎賞函數中λ越小,在控制器的學習訓練過程中會越注重減小列車實際運行時間與計劃運行時間的誤差,從而保證了列車運行控制過程中的準時性,所以表2中準時性最好的參數設置為λ=50,num_h=16。而當λ越大時,會更注重控制器的節能效果,因此表中牽引能耗最小的參數設置為λ=300,num_h=16。

表2 不同num_h和λ 取值時的性能比較

4 結束語

本文建立了列車控制的專家系統,在此基礎上提出了基于策略強化學習的列車智能控制算法。一方面,該控制算法能在滿足準時性和乘客舒適度的前提下,有效地減少列車牽引能耗,仿真結果表明該算法比現有ATO算法節能6.85%;另一方面,當模型參數發生變化時,該算法仍能保證列車準點運行,具備良好的魯棒性能。本文所提出的列車智能控制算法集成了現有ATO系統的控制原理和先進的人工智能方法,在實際列車運行控制系統中具有相當的應用潛力。

猜你喜歡
舒適度控制策略
纖維砂場地的性能及舒適度影響研究
基于用戶內衣穿著舒適度的彈性需求探討
考慮虛擬慣性的VSC-MTDC改進下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
改善地鐵列車運行舒適度方案探討
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
基于ArcGIS的四川地區城市氣候舒適度評價
現代企業會計的內部控制策略探討
消費導刊(2018年10期)2018-08-20 02:57:02
某異形拱人行橋通行舒適度及其控制研究
容錯逆變器直接轉矩控制策略
基于Z源逆變器的STATCOM/BESS控制策略研究
主站蜘蛛池模板: aaa国产一级毛片| 国产一级毛片网站| 亚瑟天堂久久一区二区影院| 免费aa毛片| 日本一区二区不卡视频| 国产制服丝袜91在线| 久久五月视频| 亚洲熟妇AV日韩熟妇在线| 美女无遮挡被啪啪到高潮免费| 亚洲色图欧美激情| 她的性爱视频| 国产免费久久精品44| 国产精品黄色片| 亚洲大尺度在线| 久久亚洲黄色视频| 99热这里只有免费国产精品 | 久久青青草原亚洲av无码| 婷婷午夜天| 日韩第八页| 毛片在线播放a| 国产91丝袜在线观看| 精品久久久久久久久久久| 四虎免费视频网站| 午夜丁香婷婷| 成人福利视频网| 久久香蕉国产线| 99精品久久精品| 日韩毛片在线播放| 国产网站一区二区三区| 日韩国产精品无码一区二区三区 | 夜色爽爽影院18禁妓女影院| 69综合网| 色综合中文字幕| lhav亚洲精品| 国产丝袜91| 91精品啪在线观看国产60岁 | 国产精品美女免费视频大全| 国产精品99久久久久久董美香| 欧美日韩国产精品va| 亚洲国产精品成人久久综合影院| 欧美精品v欧洲精品| 欧美亚洲国产一区| 伊人91视频| 黄色片中文字幕| 国产麻豆va精品视频| 国产一区二区三区精品久久呦| yy6080理论大片一级久久| 午夜限制老子影院888| 久久国产乱子伦视频无卡顿| 色综合天天综合中文网| 狠狠干欧美| 欧美精品1区| 九色视频线上播放| 色香蕉影院| yjizz视频最新网站在线| 国产91九色在线播放| 国产精鲁鲁网在线视频| 波多野结衣无码中文字幕在线观看一区二区| 国产亚洲视频免费播放| 亚洲国产精品一区二区第一页免 | 男人天堂伊人网| 人妻熟妇日韩AV在线播放| 婷婷亚洲视频| 一本久道久综合久久鬼色| 97在线观看视频免费| 黄片在线永久| 亚洲欧美日韩成人在线| 日韩少妇激情一区二区| 大陆国产精品视频| 国产chinese男男gay视频网| 国产va在线观看免费| 狼友视频一区二区三区| 又爽又黄又无遮挡网站| 99成人在线观看| 亚洲综合香蕉| 91最新精品视频发布页| 久久青青草原亚洲av无码| 亚洲国产日韩在线成人蜜芽| 青青国产成人免费精品视频| 国产精品天干天干在线观看| 三级视频中文字幕| 91久久国产成人免费观看|