徐高揚 鄭海濤 黃國慶 吳鳳波
1(西南交通大學數學學院 四川 成都 611756)2(重慶大學土木工程學院 重慶 400044)3(西南交通大學土木工程學院 四川 成都 611756)
在全球氣候變化背景下,臺風及其引發的大風、暴雨和風暴潮的強度和頻率有增大趨勢,臺風導致的災害可能更多。由于沿海地區的快速城市化和工業化,臺風災害對沿海地區造成的風險加大,嚴重威脅著人類社會生命和財產安全[1]。我國由于其獨特和復雜的地理環境,是一個自然災害頻發的國家,特別是臺風災害,其發生頻次高、破壞程度大、影響范圍廣。我國東南沿海平均每年遭受10次左右的強臺風,約占世界總數的1/3。強臺風可在方圓數千公里范圍內造成高層建筑圍護結構、大量低矮建筑以及交通電力基礎設施等的嚴重破壞[2]。例如2004年臺風“云娜”(Rananim)在浙江溫嶺登陸,導致272.2萬平方米的廠房倒塌,756.2萬平方米的廠房遭到嚴重破壞,直接經濟損失181.28億元[3]。近年來,人們對臺風暴雨的認識取得了相當的進展,但是在路徑預測等預報方面還存在較多困難,因此關于臺風路徑預測的研究十分迫切。
鄒亮等[4]提出了基于GIS空間分析的臺風路徑預測方法,其主要是基于空間關鍵點相似,再結合臺風移向建立一個預測臺風路徑趨勢的數學模型。黃小燕等[5]綜合考慮影響臺風路徑的因子,采用主成分分析與逐步回歸計算相結合的方法預測臺風下一時刻到達位置。在國外Kim等[6]將模糊k-means應用到臺風路徑預測問題中。臺風路徑的變化受到臺風環境場和臺風系統內部的熱力、動力等多種因素的綜合影響,是一個復雜多變的系統,傳統的數值預報方法和概率模型對臺風路徑的預測結果不太理想。
隨著人工智能技術的發展,人工神經網絡方法在很多學科領域取得了一些很好的研究成果。俞善賢等[7]提出了熱帶氣旋路徑的人工神經網絡預報方法,通過選取合適的預報因子,利用反向傳播算法實現臺風下一時刻位置預測。Kordmahalleh等[8]在全連接神經網絡的基礎上,提出了稀疏循環神經網絡的臺風路徑預測方法,利用遺傳算法篩選出最優的循環神經網絡拓撲結構,然后預測臺風下一時刻位置。但是該模型在神經網絡訓練過程容易出現梯度消失或爆炸問題。
本文利用動態規整算法[9],在對臺風進行分類的基礎上,提出了門控單元循環神經網絡預測方法。對比一般神經網絡預測方法,循環神經網絡考慮到了路徑信息的序列性;對比稀疏循環神經網絡,分類可以使循環神經網絡獲得更好的訓練集,而且門控單元網絡內部獨特結構能夠更好地捕獲臺風序列規律,同時避免在神經網絡訓練過程中出現的梯度消失或爆炸問題;網絡輸出層只在最后時刻有輸出,降低了模型計算量。
本文臺風路徑預測方法主要包含兩個步驟:用動態規整算法計算臺風之間的相似度,然后對臺風數據庫中臺風進行分類;分別利用普通循環神經網絡、長短時記憶網絡和門控單元網絡預測臺風未來6小時路徑信息。最后比較三種模型在測試集上的預測精度和模型復雜度,得到門控單元模型最優。
1.1.1動態時間規整
定義兩條時間序列A:a1,a2,…,ai,…an;B:b1,b2,…,bj,…,bm,長度分別為n和m。為計算這兩條時間序列的相似度,傳統的歐式距離不再適用,本文利用動態規整算法計算它們之間的相似度。該方法旨在通過扭曲來對齊兩個序列時間軸,直到找到兩個序列之間的最佳匹配。為了找到兩個序列之間的最佳對齊,需要找到一個通過網格的最佳路徑,最小化它們的累積距離[10-11],見圖1。

圖1 序列A和序列B之間的規整路徑
為了提高搜索效率,做出以下約束:
(1) 單調性:路徑不能往回走;
(2) 連續性:路徑一次向前移動一步;
(3) 有界性:路徑從左下方開始,到右上方結束;
(4) 扭曲度:路徑不能偏離對角線太遠;
(5) 斜率限制:路徑不能太陡或太平緩。
動態規整算法最初應用在語音識別領域[12],該算法主要通過損失矩陣尋找最優路徑,最后得到兩條時間序列的規整路徑,主要包含以下步驟:
(1) 設兩條時間序列的長度分別為n和m;
(2) 網格的規模為n×m;
(3) 計算損失矩陣C,Cij=Ai-Bj;
(4) 計算規整矩陣D,令D(1,1)=0,
(5) 得到動態規整的規整矩陣D,則動態規整距離為D(n,m)。
1.1.2計算相似度
從臺風數據庫中隨機選擇一條臺風計算它與剩余臺風中第i條臺風的動態規整距離為Di,為方便設置閾值,將相似度壓縮到0-1之間,定義相似度如下:
Si=e-Di
(1)
計算相似度并對相似度降序排列,設置閾值,大于該閾值的臺風歸為第一類;在小于該閾值的臺風中再隨機選擇一條臺風再次計算它與剩余臺風的相似度,再次對相似度降序排列并設置閾值,大于該閾值的臺風歸為第二類;同理可以將臺風數據庫中臺風分為若干類。
1.2.1普通循環神經網絡
在傳統的神經網絡模型中,輸入層到隱藏層再到輸出層,層與層之間是全連接的,但每層之間的節點是無連接的,因此這種普通的神經網絡對于很多序列問題無能為力。例如,要預測句子的下一個單詞是什么,需要用到前面單詞的信息,因為一個句子中前后單詞并不是獨立的。在序列問題中,循環神經網絡RNN(Recurrent Neural Networks)能夠對前面的信息進行記憶并應用于當前輸出的計算中,即隱藏層之間的節點不再是無連接而是有連接的,并且每一時刻隱藏層的輸入不僅包括輸入層當前輸入還包括上一時刻隱藏層的輸出[13-14]。
圖2是一個簡單的三層循環神經網絡,它由一個輸入層、一個隱藏層和一個輸出層組成,設置該網絡只在最后時刻有輸出。

圖2 循環神經網絡結構
在該網絡中將信息沿時間向前傳播:
Ot+1=V·St+1
(2)
St+1=f(U·xt+1+W·St)
(3)
如果反復把式(3)帶入式(2),我們將得到:
Ot+1=V·f(U·xt+1+W·f(U·xt+…))
(4)
式中:Ot+1表示該網絡輸出層在t+1時刻輸出;St+1表示該網絡隱藏層在t+1時刻激活值;Xt+1表示該網絡輸入層在t+1時刻輸入;V表示網絡隱藏層到輸出層的權重矩陣;W表示網絡隱藏層之間的權重矩陣;U表示網絡輸入層到隱藏層的權重矩陣。
可以看出,循環神經網絡的輸出值是受前面歷次輸入值影響的,這就是為什么循環神經網絡可以保存歷史信息的原因[15]。
1.2.2長短時記憶網絡
普通循環神經網絡很難處理序列長時間的依賴問題,而且當序列長度超過一定閾值時,普通循環神經網絡模型變得不穩健,在訓練神經網絡時還會出現梯度消失或梯度爆炸[15]。長短時記憶網絡[16]LSTM(Long Short-Term Memory Network)成功地解決了普通循環神經網絡的缺陷,成為當前比較流行的循環神經網絡并在語音識別、圖片描述、自然語言處理等許多領域中成功應用。
LSTM的關鍵就是怎樣控制長期單元c,在這里LSTM的思路是使用三個“門”,分別是“輸入門”、“遺忘門”和“輸出門”,通過門的開關控制信息的傳遞[16-17],如圖3所示。

圖3 LSTM網絡結構
前向傳播公式如下:
ft=σ(Wf·[ht-1,xt]+bf)
(5)
it=σ(Wi·[ht-1,xt]+bi)
(6)
(7)
(8)
ot=σ(Wo·[ht-1,xt]+bo)
(9)
ht=Ot° tanh(ct)
(10)
式中:f、i、o、c、h分別表示遺忘門、輸入門、輸出門、單元狀態、單元輸出;W表示權重矩陣,b表示偏置項;σ表示sigmoid激活函數,tanh表示雙曲正切激活函數;° 表示哈達馬乘積。
1.2.3門控單元網絡
門控單元網絡GRU[18](Gated Recurrent Unit)對長短時記憶網絡做了兩個大改動,如圖4所示。
(1) 將輸入門、遺忘門、輸出門變為兩個門:更新門zt和重置門rt。
(2) 將單元狀態與輸出合并為一個單元h。

圖4 GRU網絡結構
GRU網絡結構保持了LSTM的優良性能,同時簡化了LSTM的網絡結構,極大地減少了參數個數,前向傳播公式如下:
zt=σ(Wz·[ht-1,xt])
(11)
rt=σ(Wr·[ht-1,xt])
(12)
ht=tanh(W·[rt·ht-1,xt])
(13)
h=(1-zt)°ht-1+zt°ht
(14)
沿時間反向傳播算法BPTT[19-20](Back-propagation through time)是針對循環神經網絡的訓練算法,它的基本原理和全連接神經網絡反向傳播算法是相似的,步驟如下:
(1) 前向計算每個神經元的輸出值;
(2) 反向計算每個神經元的誤差項值,它是誤差函數對每個神經元的偏導數;
(3) 計算每個權重的梯度;
(4) 最后再用隨機梯度下降算法更新權重。
臺風路徑預測流程圖如圖5所示。

圖5 臺風路徑預測流程圖
本文數據來自中國臺風網“CMA-STI 熱帶氣旋最佳路徑數據集”,選自1949年-2016年西北太平洋(含南海,赤道以北,東經180°以西)海域,數據內容包括熱帶氣旋每 6 小時的位置、強度等信息。
從臺風數據庫中選取2006年-2015年10年的觀測數據作為本文臺風分類數據庫,共計267條臺風。根據上文的分類方法,閾值分別設置為0.75、0.70和0.65,將臺風數據庫中臺風分為4類,每類臺風數目分別為57條、76條、62條和72條。預測臺風為在2016年發生的多條臺風,本文展示有代表性4條臺風,分別是NEPARTAK、CHANTHU、OMAIS 和CONSON。為了提高模型預測準確率,方便神經網絡的訓練,在實驗前先對數據進行預處理,主要步驟包括刪除觀測點少于5個的臺風,對臺風數據統一進行z-score標準化處理,即原始數據減去均值再除以標準差。
考慮到臺風路徑預測的實效性,本文主要對臺風路徑進行一步快速預測,即預測臺風6小時后位置信息。設定不同的滑動窗寬,即用不同長度的歷史數據預測下一時刻臺風信息。為了避免過擬合,同時很好地調節網絡超參數,訓練集中的10%作為驗證集。設置訓練輪數為50,正則項系數設置為0.2,學習率為0.01,選擇均方誤差函數作為損失函數,最終選擇在驗證集上損失函數最小的模型作為最后測試模型。網絡輸入數據為二維數據經、緯度,輸出維度同樣為二維數據,隱藏層到輸出層只在最后時刻有連接。循環神經網絡具有靈活的網絡結構,理論上可以設置任意層數的網絡,且每層也可以設置任意的節點數。本文綜合考慮模型的復雜性與預測效果,選擇三層神經網絡,以窗寬為2,隱藏層神經元個數為2為例建立循環神經網絡結構,如圖6所示。

圖6 循環神經網絡模型
為使網絡有更好的記憶能力同時提高模型穩定性,嘗試循環神經網絡的變體長短時記憶網絡以及長短時記憶網絡的變體門控單元模型、窗寬選擇和隱層節點數不變,以均方誤差函數作為損失函數,比較三種不同網絡結構在參數相同的情況下的預測精度和模型復雜度,如表1所示。

表1 模型比較
由實驗結果表1可知,對比分析三種模型,在參數設置相同的情況下,Simple RNN模型最為簡單,擁有最少的參數;LSTM模型最為復雜;GRU模型在保持LSTM的優良特性的同時簡化了模型結構,降低了模型的復雜度。三種模型在窗寬設置為3時模型的預測效果要比窗寬設置為2時整體效果要好。
為了展示循環神經網絡模型對不同臺風路徑的預測效果,我們對預測的4條臺風采用相同的參數,窗寬設置為3,對比不同臺風的預測效果。首先我們利用Simple RNN分別預測2016年的四條臺風,由圖7可以看出該模型對于路徑波動較小的臺風有很好的預測效果,如臺風NEPARTAK,對于路徑波動很大的臺風效果就不太理想,如臺風CONSON。其次我們用LSTM模型及其變體GRU模型分別預測四條臺風,它們預測效果相差無幾,由于LSTM模型內部有更多控制信息傳遞的函數,模型復雜度更高,故GRU模型被采用。GRU模型預測結果如圖8,由對比分析可知GRU模型對臺風路徑的預測效果普遍上要優于Simple RNN模型,特別是在臺風路徑波動較大位置。通過表2和表3,對比同一條臺風預測的平均絕對誤差,GRU模型的平均絕對誤差普遍小于Simple RNN模型,也可以得到GRU模型預測結果優于Simple RNN模型。如果臺風移動路徑波動較小近似直線型,Simple RNN模型和GRU模型預測效果相差不大,GRU模型的平均絕對誤差略小于Simple RNN;如果臺風運動軌跡多變,如臺風OMAIS,那么GRU模型很明顯優于Simple RNN。這說明GRU模型內部結構能夠有效利用歷史臺風信息,從而修正下一時刻臺風位置信息。最后我們用訓練好的GRU模型去預測美國臺風數據集中的臺風SANDY和ISAAC,以平均絕對誤差函數作為指標,由表4對比可知門控單元模型優于稀疏循環神經網絡模型,但是本文模型復雜度更高。




圖7 普通循環神經網絡對測試集四條臺風預測效果圖




圖8 門控單元模型對測試集四條臺風預測效果圖

NameMAE(latitude°)MAE(longitude°)ComplexityNEPARTAK0.3250.70668CHANTHU1.1020.41768OMAIS0.4760.32868CONSON0.4310.81568

表3 GRU模型路徑預測誤差比較

表4 Sparse-RNN和GRU模型對臺風預測結果比較
本文提出了一種基于門控單元循環神經網絡的臺風路徑預測模型。該方法綜合考慮臺風路徑之間的相似性和路徑信息的序列性,利用三種循環神經網絡預測臺風未來6小時路徑信息,以平均絕對誤差為指標,最后得到GRU型循環神經網絡最優。
同時還對比了GRU型循環神經網絡與稀疏循環神經網絡模型對臺風路徑預測效果,前者具有更小的平均絕對誤差。
在分類過程中將歷史臺風數據庫中臺風分為多少類比較合理還需要深入研究,分類過多或過少顯然都會影響到預測效果??紤]到預測的時效性與精確性,本文統一對目標臺風進行一步預測,即預測臺風未來6小時位置信息,在將來工作中將對多步預測進行深入研究。