張博一, 胡 雄, 唐 剛, 邵辰彤
(上海海事大學 物流工程學院, 上海 202003)
長短期記憶網絡(long short-term memory, LSTM)是一種時間循環神經網絡。由于其獨特的設計結構,解決了早期預測數據的梯度消失問題, 在時序預測的表現通常比時間遞歸神經網絡及隱馬爾科夫模型(HMM)更好。近年來在時滯系統的預測控制設計中,受到廣泛關注和應用[1]。
艦載設備屬于一種典型的時滯系統, 具有慣量大、載荷重的特點。同時由于艦載設備的工作環境相對較為封閉, 大多時候船舶運動只能通過慣性器件測量, 但由于慣性器件本身電學特性和積分算法存在的缺陷, 積分位移常出現低頻趨勢項干擾[12]。導致常規的LSTM神經網絡在對積分位移時序預測時,精度會隨時間序列縮短而明顯下降。
針對該問題, 本文在常規LSTM結構的基礎上進行了拆分和簡化, 設計改良了一種針對低頻擾動降趨預測的二元LSTM神經網絡結構, 并利用多組算例對網絡進行了驗證與誤差評價, 研究了網絡參數的選擇對結果的影響; 最后通過船舶模擬振動臺模擬船舶運動進行實時預測, 驗證了該二元LSTM神經網絡對模擬船舶積分位移預測具有良好的準確性和實時效率。
船舶升沉運動作為實際物理系統, 當前時刻輸出與相鄰時刻的輸出必然存在一定的相關性, 因此對慣性器件輸出序列的預測采用LSTM網絡是一種合適的構建形式。與傳統的循環神經網絡相比,LSTM對內部的結構進行了更加精心的設計, 加入了輸入門、遺忘門以及輸出門3個門和1個內部記憶單元ct(圖1)。輸入門控制當前計算的新狀態以多大程度更新到記憶單元中; 遺忘門控制前一步記憶單元中的信息有多大程度被遺忘掉; 輸出門控制當前的輸出有多大程度上取決于當前的記憶單元[1-3]。

圖1 LSTM神經網絡單元Fig. 1 LSTM neural network unit
該網絡模型中, 每個網絡單元包含3個邏輯門,分別是輸入門it、遺忘門ft和輸出門ot,

式中,Wi,bi,Wf,bf,Wo,bo為網絡待訓權重。σ(Sigmoid函數運算)為線性單元函數, 可以將自變量映射到[0,1]區間上, 前一個基本單元傳遞系數ct-1上式的計算結果作線性疊加, 即記憶層ct更新公式為:

Wc為待訓權重, tanh單元與σ單元類似, 表示將數值映射到區間[-1, 1]之間。式中包含了“遺忘門”的設計, 通過線性疊加確定本次輸入信息的權重和對之前信息的遺忘比例。遺忘門控單元的設計主要用于控制數據長期依賴性信息的流動, 近似于滑動平均的思想, 如果ft接近于1, 則可以記憶久遠地傳遞信息, 而ft接近于0, 則完全遺忘, 防止訓練中出現由長期依賴性導致的梯度消失[5-6]。輸出層ht計算公式為:

將基本單元按照問題的規模和預測輸出的長度連接為拓撲結構即可完成網絡主要部分的搭建。
為了驗證LSTM神經網絡對絕對式傳感數據和相對式傳感數據的預測效果, 通過船舶運動仿真平臺模擬船舶甲板運動, 通過絕對式傳感系統(慣性積分儀)測量平臺的運動, 并利用相對式傳感系統(激光測距儀)對測量結果進行校驗。分別構建10層和30層的LSTM神經網絡, 選取10組時序長度為500離線測量數據作為訓練樣本, 用訓練網絡分別對實時采集未校驗數據和校驗數據進行實時預測驗證, 統計均方根誤差(RMSE, root mean square error)。實訓預測效果如圖2所示。

圖2 LSTM神經網絡對絕對式傳感數據和相對式傳感數據預測對比Fig. 2 LSTM neural network prediction comparison of absolute sensor data and relative sensor data
可以看出, 在對無相對校驗數據預測時, LSTM神經網絡預測能力會隨著時間序列的縮短出現較大的退化。造成這種現象的主要原因是絕對式傳感系統由于電學傳感器的工作時, 存在無規律超低頻的直流信號偏置干擾[1]。而LSTM預測時, 干擾會隨著實時信號一起輸入到網絡單元中, 造成誤差累積。過度放大時間序列會影響網絡的學習效率和時效性,因此常規的LSTM神經網絡在干擾較多的惡劣工況下有很大局限性。
常規LSTM神經網絡對絕對式傳感信號預測能力會隨著時間序列的縮短出現較大的退化, 預測輸出的規模也會減小。因此, 常規的LSTM神經網絡雖然在條件較理想環境下能取得較為理想的預測效果,但在缺少校驗, 只能依賴絕對式測量法的實際海洋工況下, 其預測效果就會大打折扣。
針對這一問題, 本文構造了一個雙層記憶的LSTM神經網絡, 借鑒滑動均值法思路, 針對實測信號預測和趨勢項提取的物理意義改良網絡數學模型, 實測信號預測的短時學習權重高, 因此降低遺忘門, 提高輸入門的訓練權值, 趨勢項提取記憶學習權重高, 因此提高遺忘門, 降低輸入門的訓練權值, 如圖3所示。

圖3 二元LSTM神經網絡單元Fig. 3 Binary LSTM neural network unit
在第t個單元中,cn和pn分別表示趨勢記憶層和遞推記憶層,ht-1為前一個單元位移變量的傳遞輸出,首先將其還原為趨位移變量。其關系為

其中,ξc為趨勢項修正系數, 其范圍區間為[0, 1]。
輸入xt與連接后通過線性單元σ( Sigmoid函數運算) 轉化為區間[0, 1]之間的遞推遺忘門系數和遞推輸入門系數, 同樣通過tanh單元表示將數值映射到區間[-1, 1]之間, 這一部分的特征映射表達式為


更新遞推記憶層pt和趨勢記憶層ct:

根據遞推值和趨勢值的關系, 本單元位移變量輸出ht為:

將基本單元按照問題的規模和預測輸出的長度連接為拓撲結構即可完成網絡主要部分的搭建。由于趨勢擾動頻率遠低于船舶的實際運動頻率, 單次工況內, 輸入修正系數和遺忘修正系數可以視為固定值, 以此減少了相對需要訓練的網絡參數, 使該網絡在理論上具有更好的訓練效率。
趨勢待定權重可以參考帶權重的滑動平均值法設定, 對于時序輸入xt, 使用以下公式更新加權趨勢

常規運輸駁船的振蕩能量密度主要分布在0.05~0.25 Hz。實測對比發現, 加速度積分的趨勢干擾主頻率低于3 MHz, 因此分別取遺忘修正系數ξf為0.96、0.98和0.99進行驗證對比, 對應輸入修正系數ξi取0.04、0.02和0.01, 分別構建10層和30層二元LSTM神經網絡, 選取同樣10組時序長度為500離線測量數據作為訓練樣本對網絡進行初始訓練, 再對實時采集未校驗數據進行多次實時預測驗證并記錄, 統計均方根誤差(RMSE)。部分實時訓練效果對比如圖4所示。
其中初始輸入修正系數ξi取0.04(遺忘修正系數ξf為0.96)時, 網絡訓練效果最優, 分別對10層和30層網絡進行多次實訓預測, 預測結果與對應實際數據對比如圖5所示。
通過上述幾個網絡, 進行多組數據預測效果統計對比, 對比結果如表1所示。

表1 LSTM網絡與本文LSTM網絡預測誤差對比Tab. 1 Comparison of prediction error between LSTM network and binary LSTM network
本文測試, 10層的LSTM網絡預測結果測得峰差值均方差6.29%, 均值均方差18.59%, 峰值均方差27.87%, 而10層二元LSTM神經網絡預測結果有較大改善, 對應測得峰差值均方差0.64%, 均值均方差0.42%, 峰值均方差0.57%, 能更好地針對船舶運動積分位移特性, 在精確短周期預測的基礎上有效消除趨勢干擾, 更準確的還原預測實際的船舶運動軌跡。
可以看出, 在同樣的訓練規模下, 二元LSTM神經網絡相比常規LSTM神經網絡對船動數據擬合和預測精度較優, 尤其在時間序列較短時改善更為明顯。但在線預測過程中由于船舶振蕩幅頻出現波動, 以往修正系數和輸入修正系數的適應性出現了波動, 當然準確率下降的原因仍有訓練樣本不夠龐大和參數設置的原因。但通過觀察圖4、圖5, 可以看到預測對噪聲變化趨勢仍保證相當的契合度, 仍可以將這個結果作為有色噪聲范圍對濾波算法進行優化設計。

圖4 在線實時預測效果對比Fig. 4 Online predicted results

圖5 二元LSTM預測效果對比圖Fig. 5 Comparison of the predicted results
在船舶升沉位移預測過程中, 單傳遞層的LSTM神經網絡具有很好的準確性和訓練效率, 并能夠架構長短時深度學習網絡實現對船舶升沉運動的實時快速預測, 但在船舶升沉運動測量中, 由于慣性測量器件本身特性, 使單傳遞層的LSTM神經網絡預測中不可避免的產生偏差; 而本文架構的雙層記憶傳遞層LSTM 網絡, 針對慣性器件測量積分位移的誤差特性, 設計了一種雙層記憶神經單元架構, 能夠在準確預測船舶升沉位移信號曲線的同時消除慣性器件測量時引起的誤差。在線實時預測中本文LSTM 網絡預測能力會隨著環境變化出現一定的退化, 但可以通過疊加更多層LSTM 并減小預測輸出的規模使預測更為精準, 再根據其輸出對控制系統的濾波算法進一步優化設計。