王 力,馬 憲
(1.中國民航大學 職業技術學院,天津 300300; 2.中國民航大學 電子信息與自動化學院,天津 300300)
飛機輔助動力裝置(APU,auxiliary power unit)本質上是一個小型渦輪燃氣發動機,其結構簡單,重量小,功率大,主要用于輔助飛機主發動機啟動并為機載用電設備供電。APU作為第二動力系統,為飛機的安全性與乘客的舒適性提供保障,是一個不可缺少的重要子系統。
排氣溫度(EGT)作為一個關鍵的氣路性能參數,可以直接反應APU的健康狀態,因此可以利用歷史時刻EGT組成的時序數據預測未來一段時間APU的狀態。APU是一個復雜非線性系統,多個部件共同作用使EGT呈現出非線性的時變規律,故對EGT的預測要考慮到APU內各種性能參數。
國內外學者對排氣溫度預測展開了大量研究,文獻[4]利用排氣溫度與其他性能參數間的關系對EGT進行預測。文獻[5]采用遺傳算法優化支持向量機參數來提高預測精度。文獻[7]采用優化后的最小二乘支持向量機模型預測EGT。雖然上述的方法取得了較不錯的預測效果,但是對長時間序列,進行多變量和多時間步預測時效果不是很好。近些年深度學習發展迅速,在處理長時間多變量的時序數據有著明顯的優勢。長短期記憶網絡(LSTM)是循環神經網絡的一個變種,解決了序列長時間被遺忘的問題。卷積神經網絡(CNN)可以挖掘輸入數據的特征,提取深層次的變量間局部依賴關系,一定程度上提高預測精度。在時序預測中引入注意力機制可以為重要特征和時刻加權,加強重要信息的對輸出的影響,從而提高預測模型精度。粒子群算法(PSO)可以對長短期記憶網絡的超參數進行優化,提升預測模型的性能,從而提高預測精度。文獻[16]提出基于LSTM的多變量時間序列預測模型。文獻[17]提出了一種基于CNN和LSTM的混合模型預測短期電力負荷。文獻[18]提出了一種基于長短期記憶神經網絡和注意力機制的模型,對短期光伏功率進行預測。文獻[19]提出一種基于自適應PSO的LSTM預測模型,對股票價格進行預測。
本文提出一種基于DAM和CNN-LSTM的模型對APU的氣路參數EGT進行多變量預測,首先在CNN中引入通道注意力機制,對各特征通道進行加權,突出重要特征的表達,提高了CNN提取重要特征的能力;然后在LSTM輸出側引入時序特征注意力機制,加強歷史時刻重要信息對預測輸出的影響。最后利用改進的粒子群算法對該模型的關鍵參數進行尋優,使用優化后的模型對EGT進行預測。此方法旨在使用深度神經網絡的不同結構,更有效的處理EGT數據特征信息,達到準確預測EGT動態變化的目的。
CNN是一種得到深度學習領域廣泛使用的前饋神經網絡。其卷積層通過局部連接和權值共享的方式有效提取原始數據的局部特征信息,保留了平面結構信息。由于時序序列具有局部相關性,故可以使用1DCNN處理其局部特征。CNN結構如圖1所示,主要由卷積層、池化層和全連接層組成。卷積層對輸入數據進行特征提取,公式如下:
F
=f
(W
×X
+b
)(1)
式中,W
為卷積核權重矩陣,X
為輸入參數向量,b
為偏置向量,f
(·)為激活函數。
圖1 CNN結構
LSTM網絡是在在循環神經網絡(RNN,recurrent neural network)的基礎上改進而來,可以彌補RNN中固有的無法處理長距離的依賴的缺陷。LSTM在RNN的基礎上增加了細胞狀態和3個門,控制各個門的狀態來對上一時刻舊信息和輸入的新信息進行舍棄、保存和更新,最后得到的隱藏層輸出由多個函數共同作用,避免了梯度消失問題。這種復雜的網絡結構使LSTM比RNN能長期記住更多過去的有用信息。LSTM的網絡結構如圖2所示。

圖2 LSTM結構圖

f
=σ
(W
(h
-1,x
)+b
)(2)
i
=σ
(W
(h
-1,x
)+b
)(3)

(4)

(5)
o
=σ
(W
(h
-1,x
)+b
)(6)
h
=o
tanh(C
)(7)
式中,x
為t
時刻的輸入;h
-1和h
為t
-1時刻和t
時刻隱藏層狀態;f
,i
,o
分別為遺忘門、輸入門和輸出門;C
-1和C
分別為t
-1和t
時刻的細胞狀態;,,,分別為不同狀態門的權重矩陣;b
,b
,b
,b
分別是不同狀態門的偏移量;σ
表示sigmoid激活函數。注意力機制本質上是一種權重分配機制,受到人類視覺注意力機制的啟發而提出。深度學習中的注意力機制的核心目標是令神經網絡更加關注數據出現的趨勢和變化,對關鍵信息賦予更多的概率權重以提高神經網絡對關鍵信息的提取。在時序預測中,注意力機制既可以加入到CNN中,為重要的特征通道信息賦予更大的權重,從而降低無關特征信息對預測結果的影響,也可以作用到LSTM網絡輸出側,加大歷史時刻關鍵信息對當前輸出的影響。
粒子群算法是通過模擬鳥群覓食行為而發展起來的一種基于群體協作的隨機搜索算法,被廣泛的應用在各種優化問題。粒子群算法中每個粒子的初始位置都是隨機的,其位置代表優化問題的解。所有的粒子都有一個由被優化的函數決定的適應值,適應值是評價粒子位置是否為最優解的一個評價指標。粒子僅具有位置和速度兩個屬性,進行迭代尋優的過程中會不斷更新自身的位置和速度。在搜索空間內,每個粒子單獨搜索全局最優解,個體間通過協作和信息共享的方式來調整位置與速度。粒子速度、位置更新公式為:

(8)

(9)

長序列數據包含許多潛在的規律信息,傳統的預測模型處理數據時,無法提取數據特征信息之間的潛在規律,導致了相對較大的預測誤差。CNN通過局部鏈接和權值共享的方式對原始數據進行高維特征映射,能夠挖掘出數據的特征信息。但通過卷積進行特征提取時,產生的冗余特征會對預測精度產生影響,對含有不同特征的通道使用注意力機制,在訓練過程中學習各個通道的權重,給重要特征分配更大的權重,從而獲得預測模型更多的關注,降低無關特征對預測結果的影響。LSTM網絡通過門控狀態選擇信息的保存與更新,保存需要長時間記憶的關鍵信息,遺忘無關信息。在處理具有長期依賴的時序數據時有較好的表現。由于排氣溫度的預測值受歷史狀態影響較大,為了使預測值能自主處理歷史狀態信息,加強對當前時刻輸出影響大的歷史時刻信息表達,在LSTM網絡的輸出側加入時序注意力機制,能夠得到更接近真實值的預測值。因此提出基于雙階段注意力機制的CNN-LSTM混合模型,引入注意力機制加強模型對關鍵信息的關注,使網絡學習到更多關鍵信息的特征,進而提高預測精度。
為更好的利用重要的特征通道信息,在CNN卷積層后加入通道注意力模塊,突出重要特征通道的表達。具體細節如圖3所示。

圖3 通道注意力機制

F
)=σ
(MLP
(AvgPool
(F
))+MLP
(MaxPool
(F
)))=
(10)
其中:σ
代表sigmoid激活函數,δ
代表relu激活函數,∈R
×和∈R
×分別為全連接層的兩個權重矩陣。最后,將通道注意力矩陣(F
)與輸入特征圖F
相乘,并且通過殘差的方式與原始的輸入特征圖相加,得到該通道注意力模塊的最后輸出。最終,每個特征通道都乘上了學習到的相應權重,增強了網絡對某些重要通道信息的注意力,能夠更好的提取數據的時空特征。在EGT預測中,當前時刻的預測值與歷史時刻預測值有較大聯系,但每個歷史時刻信息對當前輸出的影響程度不同,為了突出重要歷史時刻信息的影響,在LSTM網絡的輸出側加入時序注意力模塊為重要歷史信息分配更大的權重。具體細節如圖4所示。

圖4 時序注意力機制
在t
時刻,CNN提取的特征參數向量r
與LSTM上一時刻隱層狀態h
-1一同輸入到LSTM網絡中,得到t
時刻的輸出h
,表示為:h
=f
(h
-1,r
)(11)
式中,f
表示LSTM網絡單元。時序注意力機制的輸入為經過LSTM網絡處理過的特征矩陣,隨后時序注意力機制會對歷史時刻隱層狀態信息分配權重系數,其計算公式如下:β
=V
tanh(W
[h
;C
] +U
h
+b
)(12)

(13)
式中,[h
;C
]是LSTM單元隱層狀態與細胞狀態的拼接;β
是LSTM單元隱層狀態h
和[h
;C
]的相關性分數;,,為時序注意力相應的權重矩陣;b
為偏差項;α
為經過softmax函數歸一化的注意力權重系數。
(14)
α
對t
時刻隱層輸出h
與當前時刻[h
;C
]的相關性進行了量化,提高與當前時刻輸出關聯密切的歷史信息的影響,最后各時刻的隱層輸出加權求和得到了時序注意力機制的輸出u
,u
經過全連接層進行維度變換得到最終的EGT預測值。ω
公式為:
(15)
式中,ω
和ω
分別為慣性因子的最大值與最小值,一般設ω
=0.9,ω
=0.4,t
為當前迭代次數,T
為最大迭代數。
(16)
慣性因子代表粒子對當前速度的繼承程度,上式為慣性因子的微分,代表慣性因子的變化率。在迭代次數t
較小時,ω
接近最大值,粒子能快速分布到整個搜索空間,以找出最優值的大概范圍;隨著迭代次數的增加,ω
下降的越來越快,粒子速度變小確保了局部搜索的精度。使用非線性慣性因子調節粒子速度,使搜索的全局性與局部性達到動態平衡,提高了粒子群算法尋優的性能。改進PSO算法對LSTM網絡超參數尋優的具體步驟如下:
1)輸入經過預處理的訓練集數據;
2)設置初始粒子群種群大小、迭代次數、學習因子等相關參數;
3)利用改進PSO算法對LSTM網絡的學習率lr,步長step進行尋優,并確定搜索范圍;
4)粒子的適應度計算與對比,以LSTM的預測平均絕對百分比誤差作為目標函數,計算各粒子的適應度值并進行比較,找到粒子的全局最優值gbest;
5)利用式(8)和式(9)對粒子的速度和位置進行更新;
6)判斷是否達到最大迭代次數或最小誤差。若兩個條件均不滿足則返回步驟4);
7)輸出LSTM網絡的最優學習率與步長。
在改進的粒子群算法中設置最大迭代次數為100,種群規模為20,學習因子c
=2,c
=2,慣性因子最大值與最小值分別為0.9,0.4。LSTM網絡訓練過程中使用adam優化器,損失函數采用均方誤差(MSE),學習率取值范圍為[0.001,0.01],步長的取值范圍為[1,10],改進PSO搜索到的最優組合參數學習率為0.003,步長為6。整個預測模型結構如圖5所示,原始數據經過輸入層進行預處理,然后輸入到1D卷積層進行特征提取,利用通道注意力機制為各特征通道分配權重,再經過池化層、全連接層的處理,信息進入LSTM網絡,其隱層狀態作為時序注注力機制的輸入,時序注意力機制實現了選擇不同時刻特征的重要性,加權后的特征信息經過全連接層維度變換后得到最后的預測值。

圖5 DAM和CNN-LSTM模型結構
模型中的每層描述如下:
1)輸入層:對原始輸入數據進行預處理,使輸入數據滿足預測模型的要求。
2)引入通道注意力機制的CNN層:對經過預處理的數據進行特征提取。CNN由卷積層、池化層和全連接層組成,APU性能參數為時序數據,具有局部相關性,故將卷積層設計為一維卷積便于處理其局部特征,該卷積層包含64個1×1的卷積核,其激活函數選取Relu函數,相比sigmoid函數和tanh函數,Relu函數緩解了梯度消失問題并加快了模型收斂速度。它將小于0的輸入直接輸出為0,使得神經網絡中的神經元具有了稀疏激活性,能夠一定程度上防止過擬合。通道注意力模塊為經過卷積層的特征分配權重,突出重要特征信息的表達。池化層選擇最大池化,能夠保留更多的特征信息。為了避免過擬合,在池化層和全連接層中增加Dropout層,以一定概率隨機斷開神經元的連接,最后經過全連接層轉換數據維度將其輸出。
3)引入時序注意力機制的LSTM層:LSTM網絡對CNN層提取的特征向量進行學習,挖掘出具有長期依賴性的特征。LSTM網絡學習率為0.003,隱層神經元節點數為128,步長為6,batch_size為64。時序注意力機制為LSTM網絡的輸出分配權重。時序注意力機制的輸入為LSTM輸出的特征向量H
=[h
,h
,…,h
]。4)輸出層:其輸入是時序注意力機制模塊的輸出。由全連接層輸出最后的預測值,激活函數選取sigmoid函數。
T
)、引氣壓力(P
)、引氣流量(W
)、發電機負載(G
)、APU轉速(N
)、EGT,共3 300組數據。EGT的變化受多個APU性能參數影響,但過多的輸入參數會造成預測模型網絡復雜化,還會使模型學習到與輸出無關的特征,從而影響預測精度。相關性是衡量不同參數間變化一致程度的指標,選擇與EGT相關的性能參數作為輸入數據可以保存大量特征信息并降低計算量。因此采用數據分析軟件SPSS計算各參數間的Pearson相關系數,如表1所示。

表1 不同參數的相關系數比較
通常情況下,相關系數絕對值大于0.8,認為參數間高度線性相關。在0.5~0.8之間,認為參數間具有顯著線性相關性。在0.4以下,一般認為有極弱線性相關性或不存在線性相關。在進行多步預測時,具有高度相關性的輸入數據有助于加強神經網絡模型的學習過程,提高預測結果的準確率。
根據表1不同參數相關系數選擇模型輸入參數為APU轉速N
、引氣流量W
、發電機負載G
。由于APU排氣溫度與相關的特征參數在APU工作過程中波動范圍較大,且各個特征參數的量綱級別也不同,為了防止各特征參數數值差異過大造成奇異解,加快模型收斂速度,需要對原始數據進行歸一化以適應模型訓練。
(17)
式中,x
為輸入數據x
的最大值,x
為最小值。對各特征參數數據進行min-max標準化,線性變換到[0,1]區間,適應sigmoid和tanh激活函數。在模型的輸出階段,需要對數據進行反歸一化,使得輸入數據和輸出數據保持一致。
本文選取3種誤差評價指標衡量模型的預測精度,分別是MAE(mean absolute error)、MAPE(mean absolute percentage error)與RMSE(root mean square error),計算公式如下:

(18)

(19)

(20)

設置最優模型參數后,需要對訓練過程中DAM和CNN-LSTM混合模型的收斂性進行驗證。計算該模型訓練過程中的損失值,并與CNN-CAM-LSTM模型、CNN-LSTM-TAM模型、CNN-LSTM模型進行比較。各模型收斂性如圖6所示。

圖6 不同模型進行EGT預測的損失收斂
實驗中各模型參數均相同,采用均方誤差MSE(mean square error)作為模型訓練的損失函數。由圖6可以看出各模型在經過200次迭代后其損失函數MSE趨于平穩。在整個訓練過程中本文所提模型的損失函數MSE的值均小于另外3種模型,具有更好的收斂效果。
為驗證雙階段注意機制對特征提取和時序依賴關系的有效性及優化效果,對樣本數據采用本文提出的DAM和CNN-LSTM混合模型、CNN-CAM-LSTM模型、CNN-LSTM-TAM模型、CNN-LSTM模型進行排氣溫度預測。上述模型中使用的LSTM網絡均采用相同的超參數(學習率為0.003,隱層神經節點數為128,步長為6,batch_size為64);1DCNN的卷積核個數為64,卷積核大小為1,最大池化層為2,dropout為0.3。數據集前90%作為訓練集,后10%作為測試集。在模型訓練過程中選擇Adam算法優化模型參數,Adam算法吸收了AdaGrad和RMSProp兩種梯度下降算法的優點,既能適應稀疏梯度,又緩解了梯度震蕩問題。文中預測模型的代碼都是用Python編寫,使用Pytorch深度學習框架進行開發。采用本文選取的3種誤差評價指標來評價不同模型的預測性能與精度,實驗對比結果如表2所示。

表2 不同模型預測精度比較
根據實驗結果分析,加入雙階段注意力機制對預測效果的提升顯著,MAE、RMSE、MAPE均有明顯下降。為驗證通道注意力機制和時序注意力機制對模型性能的提升效果,將兩種注意力機制單獨加入到CNN-LSTM模型(CAM為通道注意力機制; TAM為時序注意力機制)。由表2可以看出,在輸出側加入時序注意力機制對模型預測性能的提升更為明顯。
本文所提模型比CNN-LSTM模型,CNN-CAM-LSTM模型,CNN-LSTM-TAM模型的MAE分別降低了71.03%、50.26%、21.50%;RMSE分別降低了55.87%、36.79%、9.61%;MAPE分別降低了2.48%、0.93%、0.32%。本文算法在3種誤差評價指標上都有明顯的降低,證明了該模型在多步多變量排氣溫度預測的可行性。
各模型在測試集上的預測輸出曲線對比如圖7所示。

圖7 不同模型的EGT預測溫度比較
由圖7(d)可以看出CNN-LSTM模型在高低峰值和大幅波動區間的預測輸出值與真實值擬合程度較低,難以反映EGT真實值的變化趨勢。圖7(c)為CNN-CAM-LSTM模型的預測值,該模型在特征提取階段加入通道注意力機制對特征通道分配權重,加強了模型對重要特征通道的關注,在高低峰值區間的預測效果有一定的提升,但在高峰階段的預測值與真實值仍有較大誤差,無法準確的預測出排氣溫度的峰值,從而忽視因排氣溫度超溫而引起的故障。CNN-LSTM-TAM模型在LSTM輸出側加入時序注意力機制加強了歷史關鍵時刻信息對當前輸出的影響,由圖7(b)可以看到整個區間的預測精度均有明顯提升,在高低峰值和大幅波動區間的預測輸出值與真實值擬合度較高。由圖7(a)可以看出本文提出的DAM和CNN-LSTM混合模型在整個區間的預測輸出與EGT真實值擬合程度很高,準確的捕捉到了EGT變化規律。其他幾種預測模型在部分區間雖然也有較好的預測效果,但在高低峰值和大幅波動區間的預測精度均低于本文所提模型。
總體而言,提出的DAM-CNN-LSTM方法能夠有效地學習參數數據的內部變化規律,可以用于未來排氣溫度預測。該預測方法可為未來APU健康狀態預測提供預警作用,預測未來EGT,并結合其他APU性能參數,查看是否在合理的范圍內,及時排查潛在故障原因保障APU正常運行。
為了進一步驗證本文方法的泛化性和穩定性,使用不同步長進行EGT預測,采用上文提出的3種誤差評價指標對4種模型的預測性能進行評估與分析。
圖8和圖9分別為步長為10和15時,4種模型的MAE、RMSE、MAPE值。從圖中可以看出隨著步長的增加,3種誤差評價指標值均升高,說明步長的增加導致各模型的泛化性和穩定性變差。與6步預測結果相比,各模型在進行10步預測時,RMSE分別增長了32.11%、35.10%、33.67%、35.02%,在進行15步預測時,RMSE分別增加了37.33%、39.01%、42.37%、41.31%。本文方法的RMSE增幅還是較高,但與其他方法相比,RMSE增長率最低,說明在步長增加的情況下,預測精度下降的更緩慢,MAE和MAPE也明顯低于其他方法。總體而言,本文提出的預測模型在十步和十五步預測中,3種誤差評價指標是最低的,表明其預測性能要優于其他預測模型。

圖8 十步預測不同模型的評價指標值

圖9 十五步預測不同模型的評價指標值
步長的增加導致了各預測模型的預測性能下降,計算單位步長增加時各預測模型的誤差平均增長率,增長率越低,說明預測模型性能衰減的越慢,各預測模型誤差平均增長率如表3所示。

表3 不同預測模型平均誤差增長率
由表3可以看出,本文所提預測模型在MAE、RMSE、MAPE的平均增長率分別為9.02%、6.62%、6.90%,均低于其他預測模型。其中MAE是衡量預測模型精度的一個指標;RMSE主要反映模型的穩定性;MAPE百分比表現模型預測性能,該預測模型在引入雙階段注意力機制后,在多步長預測中精度和穩定性均優于CNN-LSTM-TAM模型、CNN-CAM-LSTM模型、CNN-LSTM模型,相比其他模型更適用于多步長預測。
DAM-CNN-LSTM預測模型利用通道注意力機制和時序注意力機制充分學習了特征參數間的內部相關性,可較為準確地對未來APU 的EGT進行預測。
本文提出一種基于DAM和CNN-LSTM的混合模型用來提高APU排氣溫度短期預測的精度與穩定性,得到了以下結論:
1)多維冗余的無關輸入數據會導致模型結構復雜且預測精度下降。為提升預測模型的效率與性能,對輸入數據進行相關性分析,選擇與EGT相關性較強的性能參數參與預測,提高數據可靠性。
2)在CNN中加入通道注意力機制學習各個特征通道的權重,為重要特征分配更大的權重,從而獲得預測模型更多的關注,降低無關特征對預測結果的影響,提高了CNN提取重要特征的能力。在LSTM網絡輸出階段加入時序注意機制可以捕捉時序數據間的依賴關系,加強歷史關鍵信息對當前輸出的影響,提高模型對長時間序列的預測性能。
3)非線性慣性因子提高了PSO的尋優能力,避免算法陷入局部最優值并加快收斂速度。利用改進的粒子群算法優化LSTM網絡的學習率和步長,找到最優組合參數。
4)雙階段注意力機制的加入使模型對重要特征及重要歷史信息投入更多的關注,通過實驗驗證了注意力機制對多變量多步EGT預測模型性能的提升。當預測步長增加時,雖然3種誤差評價指標均有所上升,但上升幅度較低,預測精度仍高于其他3種模型,證明了本文所提預測模型的穩定性。