并行深度強化學習的柴油機動力系統VGT智能控制

2022-07-22 14:09:50賴晨光伍朝兵李家曦孫友長

重慶理工大學學報(自然科學) 2022年6期

賴晨光，伍朝兵，李家曦，孫友長,胡博

(1.重慶理工大學汽車零部件制造及檢測技術教育部重點實驗室，重慶 400054；2.重慶理工大學車輛工程學院，重慶 400054)

0 引言

隨著人工智能和物聯網技術逐漸應用于汽車，智能網聯汽車作為新興車種逐漸改變了傳統汽車行業的發展。在新四化(智能化、網聯化、共享化、電氣化)的浪潮下，汽車技術迎來巨大變革[1]。智能網聯汽車包含感知、決策、互聯、控制等技術，每一部分都是一個復雜系統，目前這些系統大都整合在純電汽車上，純電汽車有相對簡單的動力系統，在純電動平臺安裝各個子系統比燃油車簡單[2]。傳統燃油汽車有復雜的動力系統，將其融合到自動駕駛難度大，所以目前燃油車主要搭載一些駕駛輔助系統。隨著智能網聯技術的發展，汽車實時獲取路況信息的能力越來越強，傳統汽車可以根據獲取的信息實現發動機智能控制。智能網聯是智能汽車和網聯技術的結合,最終目標是實現無人駕駛，當前各大廠商都在積極探索相關技術[3-4]。目前，Google研發的無人駕駛汽車累計已經行駛超過70萬英里[5]，百度、美團、一汽等都推出了無人駕駛概念車，應用于載客、無人配送、運輸等不同場景，且正在進行大規模路測，它們大部分都是基于純電動平臺。目前的智能駕駛系統沒有與汽車動力系統相連，發動機控制仍采用傳統控制方法，不能做到智能控制。將汽車動力控制系統整合到智能網聯系統，打破傳統控制技術的限制是目前的研究重點。

傳統汽車動力系統控制通過標定加入簡單PID控制，并不能對參數進行動態調節。以增壓控制為列，Eltag等[6]在傳統PID控制方法上加以優化改進，采用模糊PID控制，利用模糊控制理論控制參數方式可以在一定范圍內進行自動調節。Karamanakos等[7]采用MPC控制，控制精度有很好的提升，但其取決于模型精度，建立精確的控制模型比較困難。Sun等[4]采用神經網絡去擬合模型節約建模時間，提升效率。這些基于規則的控制策略并不適應智能網聯汽車，特別是應對最新的排放法規，傳統控制方法捉襟見肘。在智能網聯時代，需要能夠自適應、自調節、搭建簡單，還能和整車進行網聯的新一代控制策略[8-10]。

深度強化學習作為機器學習鄰域的重要分支，是實現人工智能的重要方法。強化學習采用反饋學習的方式解決序貫決策問題，智能體通過對環境的觀察做出應對環境的動作，然后評估改變環境后的效果得出一個獎勵，不斷迭代可以得出一個較好的策略[11]。強化學習的目標是讓智能體學會獨立自主地處理復雜問題，因此首先需要把問題抽象為模型，在模型中進行實驗和探索，再把結果應用于實際[12]。強化學習研究目前在游戲、圍棋等領域取得巨大成功，例如，著名的人工智能Alphago被認為是第一個擊敗人類選手的程序。Alphago采用的強化學習原理是DQN，它是第一個將強化學習和深度神經網絡結合的算法。深度神經網絡可以擬合圍棋的復雜狀態空間，能夠更好地處理決策問題[13]。

王者榮耀作為目前最火的手游之一，在個人操作、團隊配合、整體決策等方面都有極大可操作性和挑戰性。2018年12月，騰訊天美工作室首次推出基于監督學習模型的人工智能，智能體通過不斷學習達到業余頂尖水平[14-15]。2019年5月，騰訊用強化學習替代原監督學習模型，游戲性能得到巨大提升，在1V1對戰模式中達到職業選手水平[16](職業選手代表人類頂尖玩家)。2019年8月，騰訊在原有算法基礎上加入多智能體，將1V1對站模式擴展為5V5模式，其狀態和動作空間成指數級增長，智能體要做出較好的策略變得非常困難，但經過不斷調整和學習之后，游戲效果已經達到職業戰隊水平。2020年，經過1 a的學習，“絕悟”算法的性能已經超過職業戰隊水平，在BP(游戲開始的禁用角色和角色選擇)、線上能力(開始階段都會在特定區域對戰)和團戰決策、資源搶奪(除了線上可以額外獲取經濟和經驗的方式)方面都能完美應對挑戰[17]。圖1展示了王者榮耀“絕悟”算法的框架。

圖1 王者榮耀“絕悟”算法框圖

將該方法應用于汽車領域，以期獲得更好的控制效果。傳統動力總成控制基于穩態工況標定的數據，這些數據會存儲在ECU中。汽車在行駛過程中的工況是瞬時變化的，傳統控制策略并不能根據實際情況做出調整，而強化學習則能很好地處理上述問題。

傳統汽車的增壓系統與EGR是強耦合非線性，增壓系統控制一直是研究難點。考慮到強化學習算法具有自適應、自學習的特點[18-22]，故本研究的主要目的是構建基于深度強化學習的增壓系統智能控制。

1) 基于極端近似策略優化建立基于無模型端對端的控制算法，從零開始學習，力求得到更好的瞬態控制策略。

2) 本算法與其他算法最大的不同在于，邊緣設備與環境交互產生的數據直接傳輸到云端，云端接收全部數據，然后計算最優策略傳給邊緣設備，邊緣設備以最優策略和環境交互。

1 并行深度強化學習理論

1.1 多線程并行強化學習

2002年，并行強化學習概念被首次提出。并行強化學習可以通過多個智能體同時學習一個任務并共享經驗。通過多臂賭博機來測試算法，結果表明，每增加一個智能體，都相應地提高了訓練效率。目前，實現并行主要有2種辦法：一種是通過智能體收集數據直接上傳云端，通過云端計算出最優策略后分享給智能體；另外一種就是智能體通過本身策略與環境交互，將訓練好的參數共享給其他智能體，以此達到并行學習的目的[23-24]。

并行強化學習采用ROLLING和UPDATE兩個不同的線程分別進行數據采集和策略更新的計算，必須等待其他線程工作完成后再繼續進行。2個線程不能同時進行，線程之間停止時采用event.wait()，線程之間能否繼續要根據具體條件判定，當條件為event.clear()表示不能進行運算，當條件為event.set()表示可進行運算[25-27]。Actor部分被用來和環境進行交互，產生S、a、r、S′經驗數據并存儲，到達一定數量時傳送給云端。在實際運行過程中，Actor的策略會同步云端計算出的最新策略，并用最新策略不斷和環境進行交互。Global Server云端網絡負責接收所有worker傳來的數據，并整合這些數據計算出最優策略，然后推送給每個worker。DPPO算法結合云計算和并行多線程技術后能夠極大提高訓練效率，縮短訓練時間。仿真代碼采用DPPO代碼，算法整體框架如下：

DPPO Distributed Proximal Policy Optimization (chief)1.初始化各個參數,啟動每個worker2.worker與模型進行交互并收集數據3.當收集的數據達到一定數量時,線程停止,云端網絡開始更新,ROLLING_EVENT.wait(),UPDATE_EVENT.set()4.云端網絡更新完成,局部網絡接收新的策略,繼續和環境交互。ROLLING_EVENT.clear(),UPDATE_EVENT.set()5.在云端和局部網絡之間切換時,需要協調個線程之間開啟和關閉時間:COORD.request_stop()

1.2 VGT被控模型

將MCC和MEC結合是未來智能網聯汽車的一個發展趨勢。目前，汽車動力系統既不智能也不網聯，基于以上討論，將車云計算網絡運用在發動機增壓瞬時控制領域，多線程算法框架說明如圖2所示。控制模型為在GT-power建立的6缸3升增壓直噴柴油機，使用1個控制器控制VGT閥門開閉，使其在瞬態工況下能達到目標增壓。VGT閥門結構如圖3所示。

圖2 多線程算法框圖

圖3 VGT閥門結構

傳統增壓控制方法使用1個微調PID控制器控制VGT閥門開度來控制進氣壓力。P參數和I參數均采用負荷的映射，參數更加準確。將VGT葉片開度作為控制動作，將實際增壓、目標增壓、發動機轉速和葉片開度作為四維狀態空間。研究目標是通過算法實現瞬態工況下實際壓力和目標壓力的跟隨。獎勵函數設置為壓力跟隨和動作變化率，見式(1)所示。

(1)

采用DPPO算法。云計算框架整體更新過程見1.1節，展示worker與環境進行交互并收集數據過程的算法更新結構流程偽代碼如下：

DPPO Distributed Proximal Policy Optimization (worker)1:隨機初始化評價網絡 Q(s,a|θQ) 和演員網絡μ(s|θμ) 的權重2:初始化神經網絡 Q* and μ'3:初始化 Target、test、reward、buffer(s,a,r)4:從回合1開始到M5:觀察環境初始狀態s,并根據狀態計算出均值和方差,根據正態分布選出一個動作, a=tf.squeeze(pi.sample(1),axis=0)[0]6:將智能體選擇的動作施加給環境并獲取新的狀態,根據狀態和動作計算出實時獎勵值r7:將動作、狀態和獎勵值收集到buffer,每收集N步之后進行策略更新8:計算advantage = r+GAMMA * v_s_9:在updata函數中,我們把準備好的數據賦值給s,a,r,執行update_old_pi JPPO(θ)=∑Tt=1πθ(atst)πold(atst)A ^t-λKL[πoldπθ]-ξmax(0,KL[πoldπθ]-2KLtarget)210:Critic更新10次,計算出TD-error=gamma* V(s')+r-V(s)11:Actor利用TD-error更新10次

2 仿真與結果

仿真計算通過Windows操作系統、16G內存、CPU：Intel I5、GPU：GTX1050TI來完成。Python、GT-power經Simulink連接來進行聯合仿真實驗。在GT-power中搭建仿真模型，在Python中構建控制算法，通過 Python端的 matlab.engine庫調用 Matlab中編寫的 m文件，達到控制 GT-power仿真模型運行的目的。將GT-power端仿真模型產生的數據再以 m文件形式返回 Python，以此循環完成仿真實驗。

圖4 算法更新圖

驗證基于車云計算算法，將其與傳統PID控制方法進行對比。驗證工況選擇美國FTP-72(圖5)。該工況模擬1條12.07 km的城市線路，并經常進行急加速和急減速，最高時速為91.25 km/h，平均時速為31.5 km/h。選擇該工況是因為其模擬了具有大滯后、強耦合和非線性的真實VGT工作環境。若能在該類復雜環境中訓練出較好的控制策略，則認為算法在其他穩定區域(如歐洲NEDC)能夠表現得更好。

圖5 FTP72工況車速

2.1 增壓控制跟隨

根據FTP-72工況車速和發動機轉速可以得出瞬態下的目標增壓，并將該目標增壓作為控制目標，驗證DPPO算法在瞬態下的控制效果，即壓力跟隨。采用傳統PID控制結果作為對比，發現該控制結果滿足要求，但在某些局部區域容易出現超調，采用深度強化學習算法能顯著改善上述問題。由于整個工況數據過多，故無法清楚了解全部具體細節，如圖6 FTP75工況壓力跟隨圖，因此選取901～945 s區間與PID控制進行對比。45 s 對比結果如圖7 FTP75局部45 s壓力跟隨圖所示，表明采用DPPO算法的瞬態控制結果明顯好于PID控制。

圖6 FTP75工況壓力跟隨圖

圖7 FTP75局部45 s壓力跟隨圖

PID控制算法45 s的絕對誤差(IAE)為 0.622 9，并行深度強化學習算法4線程和8線程控制的絕對誤差分別為0.387 0和0.356 8(表1)。造成跟隨誤差較大的區域是由于渦輪遲滯引起的，無法通過控制本身來改善。

表1 絕對誤差

2.2 并行強化學習結果分析

Reward是評價算法是否收斂的一個重要值，獎勵函數前面詳細說過，采用同樣的方法計算出基準獎勵值，其結果如圖。基準獎勵值最終收斂在-22，強化學習從零開始學習，經過不斷探索獎勵值逐漸上升，在第28個回合就超過基準，在80個回合達到收斂，收斂之后獎勵值任然有小范圍波動，原因是設置有極小的動作探索并且仍在根據參數調整網絡，對策略穩定性基本沒有影響。采用智能算法控制的獎勵最終收斂在-5左右，要遠遠好于基準控制算法。

為了研究多線程并行對訓練結果的影響，分別進行了1個worker、2個worker、4個worker和8個worker的仿真計算，其結果如圖8所示。在其他參數條件設置相同下，1和2個worker在開始變化范圍較大且結果不能收斂，4個和8個worker能夠很好的收斂。隨著worker的增加數量增加，收集數據的效率增加，打亂數據之間的相關性，能夠達到控制目標。但是并不是worker越多越好，4個和8個worker的學習效果和速度之間差別極小，其中8個worker需要占用極大的計算資源。采用云計算框架的并行深度強化學習需要數量合適的worker，來滿足數據的無關性以及所需求的計算效率。

圖8 不同線程數reward結果

3 結論

1) 采用PID和深度強化學習方法對柴油發動機的可變幾何截面渦輪的葉片角度進行控制。通過不斷調節P、I2個參數使發動機瞬態進氣達到較好的控制效果，將其作為并行深度強化學習控制的對比基準。

2) 在不改變其他參數的情況下，1線程和2線程控制效果差沒有達到收斂效果，4線程和8線程控制效果好，達到收斂要求；這說明在同等參數條件下，合適的并行運算能夠收集更多的數據，并很快學習到較好的控制方法，節約時間成本。但并不是線程越多越好，4個線程和8個線程的控制跟隨效果相差不大，且最終收斂的獎勵值都在6左右，更多線程會消耗更多的計算資源，增加硬件成本。