999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于并行監督強化學習的車輛制動策略研究*

2021-01-14 03:31:18張濤孫曉霞趙寧
科學與信息化 2020年36期
關鍵詞:駕駛員監督系統

張濤 孫曉霞 趙寧

中國北方車輛研究所 北京 100072

引言

自適應巡航控制(Adaptive Cruise Control,ACC)是先進駕駛輔助系統(Advanced Driver Assistance Systems,ADAS)的重要組成部分[1],屬于車輛的主動安全性和舒適性控制系統。ACC系統的主車通過距離傳感器檢測與前方目標車輛之間的相對速度與相對距離等信息,自動調節主車的行駛速度,確保主車與前方目標車輛達到一種動態穩定的安全距離。ACC系統一方面減少人工駕駛操作失誤而增強車輛主動行駛的安全性,另一方面能夠提高駕駛的舒適性并減輕駕駛員的駕駛負擔。近年來,車對車(V2V)通信技術的發展,如DSRC和LTE-V[2],為主車提供了與周圍車輛交換信息的機會。這意味著ACC系統不僅僅通過主車傳感器來感知外部環境,還能通過車聯網設備直接獲得前車的速度、加速度等信息來進行系統控制,由此產生的車輛巡航功能稱為協作式自適應巡航控制(Cooperative Adaptive Cruise Control,CACC)系統。

關于ACC/CACC的研究最早可以追溯到美國的PATH項目[3]等。在早期的巡航控制系統中的跟蹤控制策略中,線性前饋和反饋控制器由于其算法簡單、硬件實現方便等優點被廣泛應用[4],然而由于車輛動力學的非線性和環境的不確定性,控制器的參數需要手動調整,控制器難以對未知干擾進行自適應和魯棒性。模型預測控制(Model Predictive Control, MPC)也被引入到巡航控制系統中,通過預測系統動力學和狀態約束來生成最優控制命令[5],但是MPC設計涉及的參數較多,需要更多的時間進行計算調整。此外為了獲得更好的駕駛舒適性,在控制器設計中有必要考慮駕駛員的心理和駕駛習慣。在文獻[6]中,將數據驅動的自學習算法與MPC相結合,提出了一種基于人的自主控制方案,結果表明在保持安全跟蹤距離的情況下,可以降低車輛的速度“顛簸”。然而目前大部分自適應學習算法存在收斂速度較慢,不能充分利用計算資源,無法進行在線學習等諸多弊端。

ACC/CACC系統歸根結底是一項駕駛員輔助系統,傳統基于PID、MPC等控制方法并不能很好的模擬駕駛員開車時的特性,尤其是在主車跟蹤前車進行減速停車時,有些駕駛員傾向于高速接近前車并進行急剎車,而有些駕駛員因駕駛風格較為平滑而傾向于緩慢減速接近前車。但是,現有的跟蹤巡航控制過程過于呆板,導致因為跟車距離或者控制效果不夠擬人化而讓駕駛員感覺不舒適,很可能由于駕駛員的感受不好而對系統產生了否定,因此就對自適應巡航控制系統提出了更高的要求。

為了提升自適應巡航系統的擬人化停車制動效果,本文提出一種基于多路并行監督強化學習(Supervised Reinforcement Learning, SRL)的CACC系統制動控制策略,該控制策略能充分利用計算資源、快速迭代縮短網絡訓練時間。通過在離線學習過程中加入模擬駕駛員特性的神經網絡,使得巡航制動控制單元的控制輸出量包含了離線學習過程中的駕駛員駕駛特性,又包含在線學習過程中對控制量的評價指標而添加額外的控制量,使得控制單元在駕駛員駕駛過程中能夠不斷在線學習更新控制策略來更好地模擬駕駛員特性。

1 系統架構與網絡組成

1.1 系統的控制框架結構圖

ACC/CACC系統的基本功能是調節主車輛的加速度,使得主車輛和其最近的前車之間的相對速度以及車輛間距離和期望距離之間的誤差收斂到零。圖1顯示了車輛輔助駕駛系統的控制框架結構圖

圖1 系統的控制框架結構圖

車輛系統通過總線信息以及車載測距系統采集主車車速、加速度等狀態變量以及與前車的相對車距、速度等環境變量,同時可以通過V2V模塊采集前車的加速度、航向角、GPS坐標等變量;離線訓練好的上層控制模塊根據當前主車狀態變量x(t)生成車輛期望加速度的控制量u(t);效果評價模塊根據狀態變量x(t)和期望加速度控制量,并結合人工駕駛時實際控制量對上層控制模塊的控制效果進行評價,如果評價結果為不符合要求,系統進入在線學習模式,如果評價結果為符合控制要求,則將控制量下發給下層控制模塊;離線學習用于生產系統的初始最優參數,在線學習用于根據控制誤差,實時修正網絡參數,滿足駕駛員使用需求后固定系統參數結束在線更新過程。下層控制模塊根據車輛動力學模型解算當前車速和需求加速度下的期望油門開度和制動壓力,結合執行器對加速和制動踏板進行控制。其中上層控制模塊的構建包括離線訓練和在線訓練兩部分,評價模塊用于估計上層控制模塊的代價函數,用來定量化指導上層控制單元的迭代優化。

1.2 監督強化學習神經網絡

強化學習(Reinforcement Learning,RL)算法是依靠神經網絡擬合學習控制的最優策略,即從當前狀態到當前行動的映射,以優化某些控制性能的標準[7]。然而僅僅依靠RL,學習網絡并沒有被告知當遇到某種狀態時應該采取何種行動最合適,而是必須通過反復學習來發現哪些行動會帶來最大的回報。研究人員提出,使用監督模塊對學習網絡進行正向引導可以使學習問題更容易解決[8]。對于車輛動力學控制問題,可以利用人類駕駛員實際駕駛操作的數據作為RL的監督引導者。

圖2所示為本文所采用的SRL的基本單元體結構體。行動-評價架構用于建立車輛狀態和動作之間的直接關系以及狀態、動作和控制性能之間的持續更新關系[9]。監督單元可以理解為駕駛員行為的數據庫,根據當前車輛狀態給出合理的“擬人化”控制量輸出,并與行動單元給出的“機械化”控制量輸出作比較,向行動單元提供關于哪些操作可能適合或不適合的更新提示;同時,由權重調節器混合兩種動作的復合動作被發送到車輛系統,系統從當前車輛狀態通過響應復合輸入動作轉換到下一個狀態x(t+1),并對該動作給予獎勵回報。

圖2 行動-評價監督強化學習的基本單元體

圖2中的實線表示數據流方向,虛線表示根據誤差進行學習的方向,定義輸入狀態變量x(t)=[Δd(t),Δv(t),Δa(t)],包括主車與前方目標車輛之間的距離誤差、速度誤差和前后加速度誤差。根據輸入的狀態變量x(t),監督單元生成的具有不同駕駛員特性的監督控制變量u s(t),行動單元輸出的直接控制變量為u a(t),權重調節器混合兩種控制量為u(t),將u(t)施加在仿真車輛系統或實際車輛系統上,由車輛下層執行器響應并產生下一時刻的狀態變量x(t+1)。根據每一次的動作響應效果給出獎勵回報r(t),評價單元根據行動u(t)及其對應的動作狀態x(t+1)計算得到代價函數的估計值J(t)。同時,監督單元的u s(t)與控制單元的u a(t)形成了行動單元學習的誤差E a1(t),控制變量輸入到評價單元并結合期望控制目標U(t)構造行動單元的另一種學習誤差E a2(t)。最后根據回報r(t)、當前代價估計值J(t)(帶學習率γ)和上一次代價值構造評價單元的學習誤差Ec(t),Z-1為Z的變換符號,將當前時刻的變量變換為前一時刻變量以便利用遞推法則。

1.3 監督網絡設計

在提出的SRL控制算法中有三種神經網絡:行動單元網絡、評價單元網絡和監督單元網絡。行動網絡負責根據狀態生成控制命令,利用評價網絡來近似折現的總獎勵,并對控制信號的性能進行評估。監督網絡用于模擬駕駛員的行為,提供駕駛員的預測控制信號,指導行動網絡和評價網絡的更新訓練。行動網絡和評價網絡均采用簡單的三層前饋神經網絡,其具體含義及公式化網絡已經在[9-10]中介紹,本文為簡化不再重復敘述。

駕駛員行為的建模可以采用參數模型,如智能駕駛員模型[11],也可以采用非參數模型,如高斯混合回歸模型和人工神經網絡模型。在文獻[12]中,研究了一種基于神經網絡的建模駕駛員行為的方法。在這一部分中,駕駛員的行為是由一個前饋神經網絡建模的,它與行動網絡的結構相同。收集真實場景主車人工駕駛跟隨前車在路口減速停車時的駕駛員的操作數據及車輛狀態,形成數據集D。使用數據集D= {e d(t),v r(t),a r(t),a des(t)}訓練監督網絡,可以根據給定狀態[e d(t),v r(t),a r(t)]預測駕駛員的命令a des(t)。監督網絡的權值通過預測誤差的反向傳播進行更新,并采用梯度下降的原則對網絡進行訓練,直到權值收斂。

需要注意的是,行動網絡、監督網絡和權重調節器生成一個用于主車輛的復合動作,公式如下所示:

其中u s(t)在[1,1]范圍內進行歸一化處理;u E(t)是行動單元的探索行為,且u E(t)=u a(t)+N(0,σ),N(0,σ)表示均值0和方差σ的隨機噪聲。權重ks為行動網絡和監督網絡之間的控制比例。這個參數在監督學習過程中非常重要,因為它決定了駕駛員特性參與的自主程度,也決定了監督網絡的指導強度。

2 基于并行監督強化學習的控制框架

本文所設計的上層控制模塊學習過程,一方面包括先進行駕駛特性的離線學習以使其達到接近駕駛員行為特性,再進行行駛過程中的在線學習進行控制算法的迭代與優化。在離線學習過程中,為了能夠充分利用計算機資源,且需要確保神經網絡快速收斂并能夠避免收斂于局部最優解,本文提出采用多路并行的學習方式,其完整的離線學習過程包括一個全局學習模塊以及n個子訓練模塊,如圖3所示。需要指出每個子訓練模塊與全局訓練模塊的結構相同,均為基本的行動-評價-監督網絡單元。

在車載系統訓練開始前,先根據控制器的計算資源確定子訓練模塊的數量,并初始化全局模塊和各子模塊的神經網絡參數;之后,各子單元在其各自監督單元的引導下進行獨立的訓練,由于采用了系統多線程資源,確保各子單元的訓練可以同時進行。當所有子單元的訓練過程結束后將各子訓練單元所獲得的神經網絡權值更新量上傳到全局單元,此時全局單元根據各子單元的權值更新量來更新全局單元內的神經網絡。由于全局單元直接獲得了更有“傾向性”網絡參數,有利于進行網絡的收斂訓練,在全局模塊網絡訓練結束后,將更加優秀的網絡參數下發到各子單元。此后,根據上述方式依次循環訓練,當訓練次數達到設定值或者全局單元的性能指標達到要求時停止訓練,此時得到的神將網絡參數即為離線學習的最終參數。該并行訓練方式與傳統串行訓練方式相比,相同時間步長內的訓練次數是其n倍,因此達到相同訓練效果所用時間是其1/n,與此同時,由于網絡隨機探索,因此一次訓練能夠進行更多的網絡探索行為,系統不容易收斂于局部最優,同時能夠更好地利用計算平臺的計算能力,達到更好的訓練效果。

3 數據仿真與試驗分析

3.1 個性化駕駛行為數據采集

為了建立滿足駕駛員停車駕駛風格的監督網絡,需要針對駕駛員跟車制動行為進行數據采集。現場測試中通過一輛改裝的純電動車輛進行駕駛數據的收集,車輛上配置了高精度定位導航儀,用于測量主車速度和加速度值,此外,安裝了Mobieye攝像頭與德爾福雷達融合的測距系統用于測量與前車的相對速度與距離,通信設備用于與前車交互獲得前車加速度,改裝車輛如圖所示。

圖4 用于駕駛員駕駛數據采集的車輛平臺

挑選市中心合適的城市道路,確保司機在行程中穿過了許多交通燈控制的交叉路口,針對不同駕駛員,收集主車在跟蹤前車到達路口并完成減速停車的完整行駛數據。圖5統計了兩種完全不同駕駛風格的駕駛員車輛距離與加速度圖,圖5(a)中的駕駛員跟蹤前車到達路口進行減速停車的過程中,往往在較遠的距離時便進行剎車減速,然后緩慢減速接近停車,而圖5(b)中的駕駛員更傾向于穩定的駕駛到路口車輛近距離處,在進行急剎車確保車輛停止在目標車輛的后方。

圖5 不同駕駛風格的車輛制動減速度圖

3.2 網絡訓練與數值仿真討論

選用沒有監督單元反饋的RL,SRL,以及并行SRL,分別針對圖5(a)的駕駛數據進行網絡訓練,仿真中設置的車輛動力學行為模型如下:

其中,s(t)表示車輛行駛的距離;a(t)表示經由下層執行器響應控制輸入u(t)之后得到的車輛加速度;τ表示執行器的延時;此外,期望的車間距離d d(t)與速度v(t)成正比,即d d(t)=d0+hv(t),h為車間時距[13],可近似代表駕駛員的跟隨駕駛風格。

設計一個包含最多1000個連續的訓練周期試驗。在試驗結束時(試驗次數小于1000次),如果主車能在期望的范圍內與前一輛車保持穩定狀態,則認為試驗成功。作為對比,針對與并行SRL相同的訓練過程,采用了沒有監督單元的RL算法以及僅有一個單元體的SRL算法進行相同網絡的訓練。每個實驗進行100次實驗。如表1所示的訓練結果表明,使用所提出的并行SRL算法,訓練收斂過程總是成功的,且需要的試驗比使用SRL和RL算法少很多。

表1 訓練結果

進一步,為了分析并行SRL的所達到的擬人化效果,進行下述的對比試驗:分別利用離線的監督網絡以及完整并行監督強化學習網絡并行網絡控制相同的車輛仿真模型,圖6展示了兩種不同的控制效果。在上述實驗中,監督網絡近似作為人類駕駛員,從實驗結果可以發現并行SRL網絡的輸出控制效果接近于人類駕駛員,且獲得的加速度更為平滑,同時在一定消除了部分減速過程中的“顛簸”。

圖6 并行監督強化學習的仿真控制效果

4 結束語

在本研究中,我們提出了一種基于并行SRL的框架,用于ACC/CACC系統的縱向車輛制動動力學控制。特別是通過引入真實駕駛數據搭建的監督單元,指導強化學習過程融入駕駛員的特性。其次并行學習的機制能夠充分利用了計算資源以實現神經網絡的在線與離線快速迭代,大大縮短了網絡訓練時間。通過數值仿真發現,該控制策略可以成功地模仿駕駛員的停車特征,從而提高駕駛員的舒適度并接受ACC/CACC系統。

猜你喜歡
駕駛員監督系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
基于高速公路的駕駛員換道意圖識別
駕駛員安全帶識別方法綜述
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
起步前環顧四周是車輛駕駛員的義務
公民與法治(2016年4期)2016-05-17 04:09:26
主站蜘蛛池模板: 久久久久夜色精品波多野结衣| 精品一区二区三区中文字幕| 高清欧美性猛交XXXX黑人猛交| 婷婷成人综合| 亚洲一区二区三区在线视频| 午夜三级在线| 伊人久久大香线蕉aⅴ色| 国产门事件在线| 亚洲一区精品视频在线| 久久特级毛片| 熟妇无码人妻| 无码人中文字幕| 亚洲三级电影在线播放| 日韩大乳视频中文字幕| 天堂网国产| 在线毛片网站| 国产成人综合久久精品尤物| 91久久精品国产| 国产成人亚洲综合A∨在线播放 | 911亚洲精品| 成年人视频一区二区| 久久黄色一级视频| 亚洲成人高清无码| 一级看片免费视频| 日本免费精品| 夜夜操狠狠操| 免费国产无遮挡又黄又爽| 日韩中文无码av超清| 国产全黄a一级毛片| 亚洲综合极品香蕉久久网| 四虎影视库国产精品一区| 成年人午夜免费视频| 成人小视频在线观看免费| 在线观看免费人成视频色快速| 久久婷婷五月综合色一区二区| 九九视频免费在线观看| 青草视频久久| 一级一级一片免费| 欧美精品二区| 91久久性奴调教国产免费| 久久青草免费91线频观看不卡| 亚洲精品天堂在线观看| 成人年鲁鲁在线观看视频| 精品伊人久久久久7777人| 国产极品嫩模在线观看91| 国产精品永久不卡免费视频| 亚洲香蕉久久| 自拍中文字幕| 国产欧美视频综合二区| 日本午夜三级| 无码中字出轨中文人妻中文中| 国产精品短篇二区| 不卡无码网| 国产亚洲欧美日韩在线一区二区三区| 伊人91视频| 色噜噜久久| 久久性视频| 色悠久久综合| 久久精品66| 欧美性猛交xxxx乱大交极品| 精品国产自在在线在线观看| 亚洲第一中文字幕| 91色爱欧美精品www| 激情午夜婷婷| 91色在线视频| 精品人妻一区无码视频| 一级毛片网| 亚洲黄网在线| 国产91九色在线播放| 国产va欧美va在线观看| 精品少妇三级亚洲| 亚洲成人精品在线| 国产一级二级三级毛片| 亚洲综合狠狠| yjizz国产在线视频网| 国产一区二区丝袜高跟鞋| 色天天综合久久久久综合片| 四虎在线高清无码| 国产sm重味一区二区三区| 国产菊爆视频在线观看| 日韩天堂视频| 欧美日韩久久综合|