岑崗 張晨光 岑躍峰 馬偉鋒 趙澄
(1.浙江科技學院,杭州 310023;2.浙江工業大學,杭州 310014)
主題詞:永磁同步電機 溫度預測 近端策略優化算法 強化學習
永磁同步電機是電動汽車和混合動力汽車的核心部件之一,但其負載能力會受到溫度等因素的影響[1-2]。為保證電機的安全、穩定運行,需要一種有效的溫度預測方法幫助其提升在溫度方面的抗風險能力。
在最近的研究中,Li 等人[3]通過構建基于半實物的溫度等效模型實現了電機的溫度預測,但該模型不能有效反映電機的真實運行環境。Kral 等人[4]構建了一種含有2個熱節點的電機等效熱傳遞模型,模型本身的溫度估計失真卻無法消除。Abdalla 等人[5]提出了一種永磁同步電機的集總參數熱模型(Lumped Parameter Thermal Network,LPTN),該模型能夠對電機的各部分溫度進行計算。Wallscheid 等人[6]提出了一種永磁同步電機溫度動態測量方法,但該方法要求電機在中、高速條件下運轉。蘭志勇等人[7]利用LPTN對永磁同步電機進行了溫度場分析,但對于電機過熱點的捕捉缺乏優化處理。Sciascera 等人[8]提出了一種LPTN 的變異熱模型,相對于原始LPTN的計算量更小、預測精度更高,但是模型設計的復雜度依然很高。劉平等人[9]利用信號注入方法實現了電機的溫度監測,但未給出電機過載情況下的溫度估計結果。Wallscheid等人[10]利用磁鏈觀測器實現了永磁同步電機的永磁體溫度實時預測,使歐式范數最壞的情況小于10。杜愛民等人[11]利用有限元分析法建立了電機的電磁場有限元模型,得到了額定工況下電機各部件的溫度分布。每個等效熱模型都需要準確描述電機運轉時的溫度變化特性,這將導致經驗豐富的設計人員需要在電機的熱模型設計方面做出更多的努力。
人工智能技術在許多溫度預測領域都得到了應用。Xu等人[12]提出了一種基于新型深度學習的公共建筑室內溫度預測方法,驗證了深度學習在室溫預測上的有效性。Liu等人[13]提出了一種基于時間相關性的海洋溫度預測方法,在預測性能上較支持向量回歸(Support Vector Regression,SVR)和多層感知器回歸(Multilayer Perceptron Regressor,MLPR)均具有更好的表現。Wallscheid 等人[14]將長短期記憶(Long Short Term Memory,LSTM)網絡在電機溫度預測領域進行了首次應用,但LSTM記憶塊的引入以構建更加復雜的拓撲關系為代價。
針對上述預測模型或方法存在的問題,本文通過引入近端策略優化(Proximal Policy Optimization,PPO)算法[15],并利用強化學習(Reinforcement learning,RL)網絡完成模型構建,實現永磁同步電機的溫度預測。
PPO最初應用于復雜智能體機器人的控制過程,其優勢體現在智能體訓練的監督過程中能夠很容易地實現訓練超參數的調節和梯度下降,在訓練的每一步迭代中都會更新策略,嘗試將訓練目標的損失函數最小化,同時保證相鄰2 次迭代產生的策略不會產生較大的偏差。PPO算法的目標函數L(θ)為:

式中,ε為算法的超參數;rt(θ)=πθ(at|st)/πθold(at|st)為新策略與舊策略的比值;為策略更新后相對于舊策略的優勢值,此處采用Crtic 網絡的預測偏差表示;為平均值計算函數;C為截斷函數,用來限制rt(θ)的更新范圍;πθ(at|st)為更新后的策略;πθold(at|st)為舊策略;at、st分別為t時刻的動作和狀態值。
目標函數L(θ)中,第1 部分是rt(θ)和的乘積,第2部分是將rt(θ)在區間[1-ε,1+ε]進行截斷后與的乘積,最終得到未截斷目標和截斷目標中的最小值。此處,選取Actor 網絡的損失誤差作為PPO 的目標函數,通過最小化該目標函數實現電機溫度的準確預測。
為了實現電動汽車永磁同步電機主要部件溫度的準確預測,考慮將強化學習通用的Actor-Critic 學習框架[16]作為本文預測網絡的基礎。Actor-Critic 兼備了Actor-Only 和Critic-Only 的優點,能夠在訓練過程的梯度更新中獲得更好的估計量,改善局部優化問題,圖1給出了該學習框架的一般結構。

圖1 Actor-Critic框架
Actor網絡和Critic網絡是該框架的主要組成部分,交互環境中的狀態值來自永磁同步電機的記錄數據集,動作值對狀態值的動態選取是模型訓練的基礎。模型的預測結果由Actor網絡給出,同時Critic網絡給出預測結果優劣的判斷,并將判斷結果通過值函數反饋到Actor網絡進行梯度更新策略調整,因此Critic網絡在預測過程中對Actor網絡的反饋顯得尤為重要。網絡的梯度優化由Nadam算法實現,而迭代過程的獎勵值在每一次策略更新時均會進行疊加,可進一步反映訓練的優劣。
電動汽車永磁同步電機溫度預測模型如圖2 所示,Actor 網絡和Critic 網絡分別含有1 層輸入層和1 層輸出層,hi(i=1,2,…,5)為隱含層。圖2 中,θ和θold分別為Critic 網絡關于預測值和真實目標值的映射關系。
模型中各隱含層的定義方法為:

式中,xt為t時刻的輸入數據矩陣;wi、bi、hi(i=1,2,…,5)分別為網絡各隱含層的權重、偏置和隱含層;wout、bout分別為網絡輸出層的權重和偏置;ot為網絡在t時刻的最終輸出;r函數為relu激活函數。

圖2 基于PPO-RL的電機溫度預測模型
設每次訓練輸入批次數量為N,預測過程如下:
a.根據式(1)確定訓練模型的損失目標函數,該目標函數中的和rt(θ)分別為:

式中,yt為真實目標值。
b.根據圖2 建立溫度預測模型,其Actor 網絡和Critic網絡共享5層隱含層,且第1~5層網絡神經元數量分別為512個、256個、128個、64個和32個,均使用relu函數作為激活函數。設輸出層神經元數量為1個。
c.取步長為5,依次選取5×Nn(Nn為輸入特征數量)的輸入序列作為模型的輸入數據,來預測下一時刻的目標值,通過選取步長為5,可以有效避免數據集中失真對預測精度的影響,降低預測誤差,本文模型的輸入特征數量為14 個。在逐次迭代訓練過程中,根據每一步更新得到的和rt(θ)計算模型訓練的目標L(θ)。
d.為了加速目標函數收斂,使梯度更快地達到全局極小值,利用Nadam 算法對訓練的梯度進行優化更新。該算法相比于Adam 算法引入了t時刻梯度gt的校正量,并引入一階矩估計mt的平均值替換其修正量用于計算更新后的梯度Δθt:

式中,ui為i時刻的一階矩估計的動量因子;η為Nadam算法學習率;為t時刻梯度的二階矩估計的校正量;ξ為接近于0但不為0的正數。
e.利用訓練好的預測模型進行測試集的預測驗證,最終獲得模型的預測輸出值。
在預測試驗中,選擇合適的評價標準能夠更直觀地體現預測方法的性能表現。在許多經典的預測研究中,常采用均方根誤差(Root Mean Square Error,RMSE)和平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)作為預測方法的定量評價指標[17]:

式中,R、M分別為均方根誤差和平均絕對百分比誤差;Rj為真實數據;Pj為預測的目標溫度;n為測試數據量。
為了全面評估不同方法的預測表現,僅使用上述評價指標是遠遠不夠的。范數具有長度的概念,在矢量空間中被描述為一個從原點出發的帶有箭頭的有向線段,可用于衡量向量的大小。本文通過引入歐幾里得2 范數L2和最壞情況無窮范數L∞,可以討論預測結果的逼近程度,進一步對不同方法的預測表現進行評估:

此外,采用擬合優度R2來計算預測結果的精度:

式中,T為真實數據;P為預測值。
試驗使用的基準數據來自Kaggle 數據科學競賽平臺,數據測量和收集工作由德國帕德博恩大學電力電子與電氣傳動系(LEA Department of Power Electronics and Electrical Drives)完成,且基準數據已規范化處理。基準數據標簽包括環境溫度Ka、冷卻液溫度Kc、電壓d軸分量ud、電壓q軸分量uq、電流d軸分量id、電流q軸分量iq、電機轉速nmech、扭矩Tm、永磁體溫度Kpm、定子軛溫度Ksy、定子齒溫度Kst、定子繞組溫度Ksw和唯一ID 標識Sid。測試目標包括定子軛溫度Ksy、定子齒溫度Kst和定子繞組溫度Ksw。基準數據共包含52 個測量會話,每個測量會話可通過Sid加以區分,所有測量記錄均以2 Hz的采樣頻率在安裝三相永磁同步電機的測試臺上完成。
基準數據中的測量序列基本涵蓋了永磁同步電機電熱變化的完整過程。但為節約計算成本,同時覆蓋電熱變化全部范圍,本文按照基準數據中每個測試會話的數據量平均分配30 000 條測試樣本進行采樣,并選取300條樣本作為測試數據集,剩余樣本作為訓練數據集。
在上述數據集基礎上,考慮部分額外特征量,包括以d-q坐標系為基準的電壓分量的合成電壓us、以d-q坐標系為基準的電流分量的合成電流is和電機功率Sel:

本文實際輸入的特征需要除去Sid和擬合目標,因此實際的輸入為1個含有14個特征量的張量。
使用64 位Windows 10 操作系統,計算機配置為3.4 GHz Intel Core i5 處理器,16 GB 內存。編譯環境為Spyder 3.3.4,Tensorflow 1.13.1框架。
表1列出了試驗過程中考慮的一些超參數,包括循環神經網絡(Recurrent Neural Network,RNN)、LSTM、PPO-RL 和指數移動加權平均(Exponentially Weighted Moving Averages,EWMA)4種預測方法。

表1 超參數
除表1中能夠自我解釋的參數類型外,未具體提及的超參數應當被解釋如下:預測網絡在進行權重初始化時,最簡單的方法是將權重的值隨機分配到[-1,1]區間。當然,一些更為復雜有效的權重初始化方法也可以考慮,如單位正態分布或均勻分布。
利用測試樣本進行測試,比較EWMA 網絡、RNN、LSTM網絡和本文預測方法對Ksy、Kst以及Ksw的擬合性能。
為了驗證本文所提出的預測方法的可行性,分別采用上述4種方法進行30次訓練迭代試驗,得出各預測網絡的預測精度、訓練時間和預測時間如表2所示。從表2可以看出,PPO-RL網絡的訓練時長較長,其預測時間較LSTM 增加了0.27 min,這是由于其網絡深度較深造成的,而且該網絡的神經元節點數量最高達到了512個,這也表明PPO-RL網絡具有較高的時間復雜度。

表2 定子軛溫度預測精度和訓練時間對比
定子軛溫度迭代損失變化情況如圖3 所示,由圖3可以看出,在迭代周期為10次時,定子軛溫度迭代的損失曲線趨于水平,說明模型能夠實現穩定的擬合。

圖3 定子軛溫度迭代損失變化曲線
圖4給出了4種預測方法對Ksy的擬合曲線。由圖4可知,在幾種預測方法中,LSTM網絡擬合的曲線存在較大波動,與真實目標值偏差較大,而使用PPO-RL 模型得到的預測曲線能較好地符合目標曲線的走勢。

圖4 定子軛溫度擬合曲線對比
4 種預測方法對定子齒溫度預測的精度和訓練時間如表3 所示,迭代損失變化情況如圖5 所示。由表3可知,雖然PPO-RL 訓練花費了較長的時間,但是在迭代訓練30次后,PPO-RL的預測精度仍能保持在90%以上,并且由圖5可以看出,在迭代次數達到5次時,定子齒溫度即可實現較好的擬合效果。
圖6 給出了4 種預測方法關于定子齒溫度Kst的擬合曲線。由圖6可知,EWMA方法給出的預測目標曲線雖然在走勢上與真實值曲線大致相同,但由于其自身伴隨有較大的時延特性,因此難以為實時的永磁同步電機溫度預測提供合適的觀測點,PPO-RL模型在幾種對比方法中依然具有較好的預測性能。

表3 定子齒溫度預測精度和訓練時間對比

圖5 定子齒溫度迭代損失變化曲線

圖6 定子齒擬合曲線對比
表4所示為4種預測網絡對定子繞組溫度的預測精度、訓練時間以及預測時間對比結果。由表4 可知,PPO-RL 的預測時間達到了0.30 min,其預測精度為92.05%,并且該精度較LSTM和RNN的預測精度分別高出4.63百分點和8.43百分點。同時,其迭代的損失變化曲線如圖7所示,由圖7可以看出,PPO-RL在迭代30次后,能夠得到較好的擬合性能。
圖8 所示為4 種預測方法對定子繞組溫度Ksw的預測曲線。由圖6 和圖8 可知,在預測目標Kst和Ksw的擬合曲線上,LSTM網絡和RNN在預測開始時能夠基本符合真實的目標曲線趨勢,但結束時卻存在較大的偏差。而在針對本文試驗的3 個預測目標進行測試的過程中,PPO-RL擬合的目標溫度曲線均表現出了較小的偏差。

表4 定子繞組溫度預測精度和訓練時間對比

圖7 定子繞組溫度迭代損失變化曲線

圖8 定子繞組擬合曲線對比
為了進一步對比不同預測網絡的溫度預測性能,表5、表6和表7分別給出了針對Ksy、Ksw以及Kst的定量評價指標,其中包括R、M、2范數和無窮范數。

表5 定子軛溫度預測誤差對比
表5 結果表明,PPO-RL 在4 種定量分析指標中均處于最低值。在相同的條件下,LSTM在Ksy的溫度預測方面沒有表現出明顯的優勢,甚至在4種預測網絡中的表現最差。進一步可以發現,EWMA 預測方法的預測性能似乎超過了經典的LSTM和RNN。

表6 定子繞組溫度預測誤差對比

表7 定子齒溫度預測誤差對比
由表6可知,PPO-RL相比其他3種方法整體上表現出良好的優勢,PPO-RL 在4 種評估指標上均達到最低值,且其MAPE 與LSTM 和RNN 相比分別降低0.136 0%和0.645 2%,同時其無窮范數減少到接近LSTM的一半。
由表7 可知,PPO-RL 在Kst預測方面相比其他3 種網絡具有更低的預測誤差,其2 范數的值達到0.755 9,相比LSTM降低了0.459 2,在一定程度上表明其預測性能優于其他3 種經典預測方法。值得注意的是,LSTM網絡雖然在預測Ksw和Kst時誤差值較RNN 和EWMA 明顯降低,但其在預測Ksy時卻達到了最大預測誤差。
本文借鑒了近端策略優化算法對目標函數裁剪的方法,構建了一種結合Actor-Critic 模型的永磁同步電機溫度預測模型。模型利用Actor 網絡實現數據集的訓練學習,并采用Critic 網絡的值函數反饋判斷模型訓練的優劣,通過30次迭代訓練,使PPO的目標函數達到最小值,并對基準數據集進行采樣和處理后,進行預測驗證。將該預測方法與其他3 種經典預測方法進行對比分析,驗證了提出方法的有效性。