999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

并行深度強化學習的柴油機動力系統VGT智能控制

2022-07-22 14:09:50賴晨光伍朝兵李家曦孫友長
關鍵詞:汽車智能策略

賴晨光,伍朝兵,李家曦,孫友長,胡 博

(1.重慶理工大學 汽車零部件制造及檢測技術教育部重點實驗室, 重慶 400054;2.重慶理工大學 車輛工程學院, 重慶 400054)

0 引言

隨著人工智能和物聯網技術逐漸應用于汽車,智能網聯汽車作為新興車種逐漸改變了傳統汽車行業的發展。在新四化(智能化、網聯化、共享化、電氣化)的浪潮下,汽車技術迎來巨大變革[1]。智能網聯汽車包含感知、決策、互聯、控制等技術, 每一部分都是一個復雜系統,目前這些系統大都整合在純電汽車上,純電汽車有相對簡單的動力系統,在純電動平臺安裝各個子系統比燃油車簡單[2]。傳統燃油汽車有復雜的動力系統,將其融合到自動駕駛難度大,所以目前燃油車主要搭載一些駕駛輔助系統。隨著智能網聯技術的發展,汽車實時獲取路況信息的能力越來越強,傳統汽車可以根據獲取的信息實現發動機智能控制。智能網聯是智能汽車和網聯技術的結合,最終目標是實現無人駕駛,當前各大廠商都在積極探索相關技術[3-4]。目前,Google研發的無人駕駛汽車累計已經行駛超過70萬英里[5],百度、美團、一汽等都推出了無人駕駛概念車,應用于載客、無人配送、運輸等不同場景,且正在進行大規模路測,它們大部分都是基于純電動平臺。目前的智能駕駛系統沒有與汽車動力系統相連,發動機控制仍采用傳統控制方法,不能做到智能控制。將汽車動力控制系統整合到智能網聯系統,打破傳統控制技術的限制是目前的研究重點。

傳統汽車動力系統控制通過標定加入簡單PID控制,并不能對參數進行動態調節。以增壓控制為列,Eltag等[6]在傳統PID控制方法上加以優化改進,采用模糊PID控制,利用模糊控制理論控制參數方式可以在一定范圍內進行自動調節。Karamanakos等[7]采用MPC控制,控制精度有很好的提升,但其取決于模型精度,建立精確的控制模型比較困難。Sun等[4]采用神經網絡去擬合模型節約建模時間,提升效率。這些基于規則的控制策略并不適應智能網聯汽車,特別是應對最新的排放法規,傳統控制方法捉襟見肘。在智能網聯時代,需要能夠自適應、自調節、搭建簡單,還能和整車進行網聯的新一代控制策略[8-10]。

深度強化學習作為機器學習鄰域的重要分支,是實現人工智能的重要方法。強化學習采用反饋學習的方式解決序貫決策問題,智能體通過對環境的觀察做出應對環境的動作,然后評估改變環境后的效果得出一個獎勵,不斷迭代可以得出一個較好的策略[11]。強化學習的目標是讓智能體學會獨立自主地處理復雜問題,因此首先需要把問題抽象為模型,在模型中進行實驗和探索,再把結果應用于實際[12]。強化學習研究目前在游戲、圍棋等領域取得巨大成功,例如,著名的人工智能Alphago被認為是第一個擊敗人類選手的程序。Alphago采用的強化學習原理是DQN,它是第一個將強化學習和深度神經網絡結合的算法。深度神經網絡可以擬合圍棋的復雜狀態空間,能夠更好地處理決策問題[13]。

王者榮耀作為目前最火的手游之一,在個人操作、團隊配合、整體決策等方面都有極大可操作性和挑戰性。2018年12月,騰訊天美工作室首次推出基于監督學習模型的人工智能,智能體通過不斷學習達到業余頂尖水平[14-15]。2019年5月,騰訊用強化學習替代原監督學習模型,游戲性能得到巨大提升,在1V1對戰模式中達到職業選手水平[16](職業選手代表人類頂尖玩家)。2019年8月,騰訊在原有算法基礎上加入多智能體,將1V1對站模式擴展為5V5模式,其狀態和動作空間成指數級增長,智能體要做出較好的策略變得非常困難,但經過不斷調整和學習之后,游戲效果已經達到職業戰隊水平。2020年,經過1 a的學習,“絕悟”算法的性能已經超過職業戰隊水平,在BP(游戲開始的禁用角色和角色選擇)、線上能力(開始階段都會在特定區域對戰)和團戰決策、資源搶奪(除了線上可以額外獲取經濟和經驗的方式)方面都能完美應對挑戰[17]。圖1展示了王者榮耀“絕悟”算法的框架。

圖1 王者榮耀“絕悟”算法框圖

將該方法應用于汽車領域,以期獲得更好的控制效果。傳統動力總成控制基于穩態工況標定的數據,這些數據會存儲在ECU中。汽車在行駛過程中的工況是瞬時變化的,傳統控制策略并不能根據實際情況做出調整,而強化學習則能很好地處理上述問題。

傳統汽車的增壓系統與EGR是強耦合非線性,增壓系統控制一直是研究難點。考慮到強化學習算法具有自適應、自學習的特點[18-22],故本研究的主要目的是構建基于深度強化學習的增壓系統智能控制。

1) 基于極端近似策略優化建立基于無模型端對端的控制算法,從零開始學習,力求得到更好的瞬態控制策略。

2) 本算法與其他算法最大的不同在于,邊緣設備與環境交互產生的數據直接傳輸到云端,云端接收全部數據,然后計算最優策略傳給邊緣設備,邊緣設備以最優策略和環境交互。

1 并行深度強化學習理論

1.1 多線程并行強化學習

2002年,并行強化學習概念被首次提出。并行強化學習可以通過多個智能體同時學習一個任務并共享經驗。通過多臂賭博機來測試算法,結果表明,每增加一個智能體,都相應地提高了訓練效率。目前,實現并行主要有2種辦法:一種是通過智能體收集數據直接上傳云端,通過云端計算出最優策略后分享給智能體;另外一種就是智能體通過本身策略與環境交互,將訓練好的參數共享給其他智能體,以此達到并行學習的目的[23-24]。

并行強化學習采用ROLLING和UPDATE兩個不同的線程分別進行數據采集和策略更新的計算,必須等待其他線程工作完成后再繼續進行。2個線程不能同時進行,線程之間停止時采用event.wait(),線程之間能否繼續要根據具體條件判定,當條件為event.clear()表示不能進行運算,當條件為event.set()表示可進行運算[25-27]。Actor部分被用來和環境進行交互,產生S、a、r、S′經驗數據并存儲,到達一定數量時傳送給云端。在實際運行過程中,Actor的策略會同步云端計算出的最新策略,并用最新策略不斷和環境進行交互。Global Server云端網絡負責接收所有worker傳來的數據,并整合這些數據計算出最優策略,然后推送給每個worker。DPPO算法結合云計算和并行多線程技術后能夠極大提高訓練效率,縮短訓練時間。仿真代碼采用DPPO代碼,算法整體框架如下:

DPPO Distributed Proximal Policy Optimization (chief)1.初始化各個參數,啟動每個worker2.worker與模型進行交互并收集數據3.當收集的數據達到一定數量時,線程停止,云端網絡開始更新,ROLLING_EVENT.wait(),UPDATE_EVENT.set()4.云端網絡更新完成,局部網絡接收新的策略,繼續和環境交互。ROLLING_EVENT.clear(),UPDATE_EVENT.set()5.在云端和局部網絡之間切換時,需要協調個線程之間開啟和關閉時間:COORD.request_stop()

1.2 VGT被控模型

將MCC和MEC結合是未來智能網聯汽車的一個發展趨勢。目前,汽車動力系統既不智能也不網聯,基于以上討論,將車云計算網絡運用在發動機增壓瞬時控制領域,多線程算法框架說明如圖2所示。控制模型為在GT-power建立的6缸3升增壓直噴柴油機,使用1個控制器控制VGT閥門開閉,使其在瞬態工況下能達到目標增壓。VGT閥門結構如圖3所示。

圖2 多線程算法框圖

圖3 VGT閥門結構

傳統增壓控制方法使用1個微調PID控制器控制VGT閥門開度來控制進氣壓力。P參數和I參數均采用負荷的映射,參數更加準確。將VGT葉片開度作為控制動作,將實際增壓、目標增壓、發動機轉速和葉片開度作為四維狀態空間。研究目標是通過算法實現瞬態工況下實際壓力和目標壓力的跟隨。獎勵函數設置為壓力跟隨和動作變化率,見式(1)所示。

(1)

采用DPPO算法。云計算框架整體更新過程見1.1節,展示worker與環境進行交互并收集數據過程的算法更新結構流程偽代碼如下:

DPPO Distributed Proximal Policy Optimization (worker)1:隨機初始化評價網絡 Q(s,a|θQ) 和演員網絡μ(s|θμ) 的權重2:初始化神經網絡 Q* and μ'3:初始化 Target、test、reward、buffer(s,a,r)4:從回合1開始到M5:觀察環境初始狀態s,并根據狀態計算出均值和方差,根據正態分布選出一個動作, a=tf.squeeze(pi.sample(1),axis=0)[0]6:將智能體選擇的動作施加給環境并獲取新的狀態,根據狀態和動作計算出實時獎勵值r7:將動作、狀態和獎勵值收集到buffer,每收集N步之后進行策略更新8:計算advantage = r+GAMMA * v_s_9:在updata函數中,我們把準備好的數據賦值給s,a,r,執行update_old_pi JPPO(θ)=∑Tt=1πθ(atst)πold(atst)A ^t-λKL[πoldπθ]-ξmax(0,KL[πoldπθ]-2KLtarget)210:Critic更新10次,計算出TD-error=gamma* V(s')+r-V(s)11:Actor利用TD-error更新10次

2 仿真與結果

仿真計算通過Windows操作系統、16G內存、CPU:Intel I5、GPU:GTX1050TI來完成。Python、GT-power經Simulink連接來進行聯合仿真實驗。在GT-power中搭建仿真模型,在Python中構建控制算法,通過 Python端的 matlab.engine庫調用 Matlab中編寫的 m文件,達到控制 GT-power仿真模型運行的目的。將GT-power端仿真模型產生的數據再以 m文件形式返回 Python,以此循環完成仿真實驗。

圖4 算法更新圖

驗證基于車云計算算法,將其與傳統PID控制方法進行對比。驗證工況選擇美國FTP-72(圖5)。該工況模擬1條12.07 km的城市線路,并經常進行急加速和急減速,最高時速為91.25 km/h,平均時速為31.5 km/h。選擇該工況是因為其模擬了具有大滯后、強耦合和非線性的真實VGT工作環境。若能在該類復雜環境中訓練出較好的控制策略,則認為算法在其他穩定區域(如歐洲NEDC)能夠表現得更好。

圖5 FTP72工況車速

2.1 增壓控制跟隨

根據FTP-72工況車速和發動機轉速可以得出瞬態下的目標增壓,并將該目標增壓作為控制目標,驗證DPPO算法在瞬態下的控制效果,即壓力跟隨。采用傳統PID控制結果作為對比,發現該控制結果滿足要求,但在某些局部區域容易出現超調,采用深度強化學習算法能顯著改善上述問題。由于整個工況數據過多,故無法清楚了解全部具體細節,如圖6 FTP75工況壓力跟隨圖,因此選取901~945 s區間與PID控制進行對比。45 s 對比結果如圖7 FTP75局部45 s壓力跟隨圖所示,表明采用DPPO算法的瞬態控制結果明顯好于PID控制。

圖6 FTP75工況壓力跟隨圖

圖7 FTP75局部45 s壓力跟隨圖

PID控制算法45 s的絕對誤差(IAE)為 0.622 9,并行深度強化學習算法4線程和8線程控制的絕對誤差分別為0.387 0和0.356 8(表1)。造成跟隨誤差較大的區域是由于渦輪遲滯引起的,無法通過控制本身來改善。

表1 絕對誤差

2.2 并行強化學習結果分析

Reward是評價算法是否收斂的一個重要值,獎勵函數前面詳細說過,采用同樣的方法計算出基準獎勵值,其結果如圖。基準獎勵值最終收斂在-22,強化學習從零開始學習,經過不斷探索獎勵值逐漸上升,在第28個回合就超過基準,在80個回合達到收斂,收斂之后獎勵值任然有小范圍波動,原因是設置有極小的動作探索并且仍在根據參數調整網絡,對策略穩定性基本沒有影響。采用智能算法控制的獎勵最終收斂在-5左右,要遠遠好于基準控制算法。

為了研究多線程并行對訓練結果的影響,分別進行了1個worker、2個worker、4個worker和8個worker的仿真計算,其結果如圖8所示。在其他參數條件設置相同下,1和2個worker在開始變化范圍較大且結果不能收斂,4個和8個worker能夠很好的收斂。隨著worker的增加數量增加,收集數據的效率增加,打亂數據之間的相關性,能夠達到控制目標。但是并不是worker越多越好,4個和8個worker的學習效果和速度之間差別極小,其中8個worker需要占用極大的計算資源。采用云計算框架的并行深度強化學習需要數量合適的worker,來滿足數據的無關性以及所需求的計算效率。

圖8 不同線程數reward結果

3 結論

1) 采用PID和深度強化學習方法對柴油發動機的可變幾何截面渦輪的葉片角度進行控制。通過不斷調節P、I2個參數使發動機瞬態進氣達到較好的控制效果,將其作為并行深度強化學習控制的對比基準。

2) 在不改變其他參數的情況下,1線程和2線程控制效果差沒有達到收斂效果,4線程和8線程控制效果好,達到收斂要求;這說明在同等參數條件下,合適的并行運算能夠收集更多的數據,并很快學習到較好的控制方法,節約時間成本。但并不是線程越多越好,4個線程和8個線程的控制跟隨效果相差不大,且最終收斂的獎勵值都在6左右,更多線程會消耗更多的計算資源,增加硬件成本。

猜你喜歡
汽車智能策略
例談未知角三角函數值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
汽車的“出賣”
汽車們的喜怒哀樂
3D 打印汽車等
決策探索(2014年21期)2014-11-25 12:29:50
主站蜘蛛池模板: a毛片免费在线观看| 色综合中文综合网| 成人午夜亚洲影视在线观看| 91无码网站| 伊人91在线| 欧洲极品无码一区二区三区| 精品亚洲麻豆1区2区3区| 亚洲视频一区| 婷婷丁香在线观看| 国产无码性爱一区二区三区| 免费人欧美成又黄又爽的视频| 成年人久久黄色网站| 国产精品第页| 亚洲国产综合第一精品小说| 亚洲第一成年网| 国产性精品| 国产特级毛片| 真实国产乱子伦视频| 宅男噜噜噜66国产在线观看| 免费看黄片一区二区三区| 亚洲无码在线午夜电影| 久久综合一个色综合网| 免费毛片视频| 91亚瑟视频| 全部毛片免费看| 一级毛片在线播放免费观看| 久久精品中文无码资源站| 亚洲伊人久久精品影院| 精品国产毛片| 国产99视频精品免费观看9e| 免费观看成人久久网免费观看| 久久福利片| 青青草综合网| 九九热这里只有国产精品| 国产精品夜夜嗨视频免费视频| 亚洲国产成人麻豆精品| 欧美精品不卡| 欧美黄网站免费观看| 91福利免费视频| 波多野结衣在线一区二区| 欧美高清国产| 久久99国产视频| 中文字幕永久视频| 欧美久久网| 国产午夜看片| 波多野结衣一区二区三区四区| 亚洲欧美在线精品一区二区| 不卡的在线视频免费观看| 国产经典三级在线| 亚洲久悠悠色悠在线播放| 又粗又大又爽又紧免费视频| 精品国产免费第一区二区三区日韩| 波多野结衣一区二区三区四区视频 | 亚洲第一成年网| 潮喷在线无码白浆| 日韩av无码DVD| 98精品全国免费观看视频| 97在线视频免费观看| 午夜影院a级片| 18禁影院亚洲专区| 欧美午夜精品| 国产精品久久久久久久久久98| 国产浮力第一页永久地址| 亚洲综合第一区| AV无码国产在线看岛国岛| 91av国产在线| 欧美一级大片在线观看| 亚洲黄色片免费看| 国产精品精品视频| 国产欧美日韩综合一区在线播放| 在线色综合| 无码国内精品人妻少妇蜜桃视频| 色综合天天操| 国产精品久久久久久影院| 亚洲欧美日韩成人在线| 丝袜亚洲综合| 一本大道无码高清| 日本道综合一本久久久88| 亚洲人成亚洲精品| 国产亚洲高清视频| 欧美不卡在线视频| 欧美日本在线观看|