賀 琪,李汶龍,宋 巍,杜艷玲,黃冬梅,耿立佳
結合殘差時空注意力機制的海面溫度預測算法
賀 琪1,李汶龍1,宋 巍1,杜艷玲1,黃冬梅1,耿立佳2
(1. 上海海洋大學信息學院,上海 201306;2.國家海洋局東海標準計量中心,上海 201306)
海面溫度(SST)與全球氣候變化、海洋災害、海洋生態(tài)系統(tǒng)密切相關,因此準確地預測SST是一個重要課題。現有區(qū)域型SST預測方法將SST時間序列處理為二維矩陣序列并作為模型輸入,每個矩陣對應著特定時刻的區(qū)域SST,通過提取時空特征來實現其預測,但未充分考慮不同時空特征在時間維度和空間維度上對SST影響的不均衡性,限制了預測精度地提高。為了解決該問題,提出了一種結合時間注意力機制和空間注意力機制的區(qū)域SST預測方法(CRA-ConvLSTM),使得模型動態(tài)關注不同時刻的時間特征和區(qū)域內不同點的空間特征,賦予不同的影響權重,進而提高SST預測精度。具體來說,首先將輸入的區(qū)域SST時間序列通過卷積神經網絡(CNN)編碼為多層特征向量,提取局部特征;然后構建了殘差時間注意力模塊,自適應地學習不同時刻的注意力權重,提取時間維度上的關鍵特征,并設計了殘差空間注意力模塊,提取區(qū)域內不同點在空間維度上的關鍵特征,此外,將注意力機制結合殘差結構避免了網絡中信息量過少導致的性能下降問題;最后通過卷積長短時記憶神經網絡(ConvLSTM)將特征向量映射為SST預測結果。實驗結果顯示,該模型的均方根誤差(RMSE)和預測精度(PACC)分別達到了0.19和99.43%,均優(yōu)于其他方法,有效提高了SST的預測精度。
時間序列;海面溫度預測;時空特征;注意力機制;殘差結構
海面溫度(sea surface temperature,SST)是全球大氣系統(tǒng)的重要參數之一。近年來,隨著海洋環(huán)境保護[1]、漁業(yè)[2]、海洋氣候[3]等海洋相關領域受到越來越多的關注,準確預測SST已成為一個重要的研究課題。到目前為止,研究人員已提出了許多預測SST的方法,主要分為:①基于海洋物理學的數值預報方法[4]-6],即利用一系列復雜的物理方程來描述海溫的變化規(guī)律;②數據驅動模型,即從海量的SST數據中自動學習其變化趨勢和規(guī)律,如,LINS等[7]通過提取浮標數據中每個變量的曲率信息,建立支持向量機(support vector machine,SVM)模型研究了SST的季節(jié)性和季節(jié)內的規(guī)律;HOCHREITER和SCHMISHUBER[8]于1997年首次將長短時記憶網絡(long short-term memory,LSTM)成功用于時間序列的建模;ZHANG等[9]將LSTM網絡用于SST預測,并獲得了較好的預測效果。但這些方法僅考慮了SST在時間維度上的關聯關系,未關注SST隱藏的空間特性,因此限制了預測精度的提高。考慮到SST復雜的時空特性,目前已有研究者通過提取SST的時空特征進行建模。如,YANG等[10]提出了一種CFCC-LSTM算法,通過全連接的LSTM層提取時間特征,然后利用卷積神經網絡(convolutional neural network,CNN)提取空間特征,提高了SST的預測精度。HOU和MEMBE[11]提出的DC2L算法利用具備稠密連接的卷積長短時記憶神經網絡(convolution LSTM,ConvLSTM)提取時空特征,并取得了較好的預測效果,ConvLSTM不僅具有CNN的特征提取能力,還保留了LSTM的時序建模能力。但在SST預測任務中,在時間維度上可能僅有某些時刻的特征對未來SST預測影響較大;同樣,在空間維度上,也僅有某些點的特征對未來SST預測影響較大,即不同時空特征在時間維度和空間維度上對SST的影響具有不均衡性,而這些方法未能體現出這種影響,導致忽略了關鍵信息,限制了預測精度的提高。
注意力機制是一種能夠較好地選擇網絡中關鍵信息的方法。近年來,結合注意力機制的編碼器-解碼器網絡在自然語言處理[12]、語音識別[13]及計算機視覺任務[14]中均得到了廣泛地使用。如,CHEN等[15]在圖像字幕提取任務中使用CNN和LSTM構建了編碼器-解碼器網絡,并融入了通道和空間注意力機制動態(tài)地選擇與其相關的源單詞或子序列,取得了極大地成功。因此這也為SST預測任務提供了新的思路,如,ZHA等[16]提出了一種結合時間注意力機制的方法用于區(qū)域型SST預測,通過獲取SST的時間相關性有效提高了預測精度。但該方法僅使用CNN提取局部的空間特征,并未體現出更為重要的空間特征對未來預測SST的影響,因此忽略了關鍵的空間信息。針對區(qū)域SST時間序列的時空特性,本文構建了一種基于CNN和ConvLSTM的編碼器-解碼器結構,引入了時間注意力模塊和空間注意力模塊自適應地提取SST在時間和空間上的相關性。然而,單純地疊加時間注意力模塊和空間注意力模塊容易導致明顯的性能下降,這是因為重復地將從0到1的注意力權重與特征加權降低了深層特征值[17]。WANG等[18]在圖像分類任務中提出了一種殘差注意力網絡,該網絡能夠堆疊多個注意力模塊,并且每個模塊會隨著層次的加深而自適應改變。因此本文將時空注意力模塊與殘差結構相結合,在編解碼網絡結構中疊加了殘差時間注意力模塊和殘差空間注意力模塊,充分提取網絡中的時間特征和空間特征。
現有的SST預測方法未充分考慮時空特征對SST在時間維度和空間維度上不均衡的影響,導致忽略了關鍵的信息。為了解決該問題,進一步提高SST的預測精度,本文提出了一種結合時間注意力機制和空間注意力機制的SST預測方法(CRA-ConvLSTM),該模型是基于CNN和ConvLSTM的編碼器-解碼器網絡,其有2個殘差注意力模塊,引入注意力模塊可以定量地為矩陣序列特征的每個時間步和矩陣內每個元素賦予注意力權重,改善了SST預測方法注意力分散的缺陷。
CRA-ConvLSTM模型框架如圖1所示,包括數據預處理、編碼器、殘差時間注意力模塊、殘差空間注意力模塊、解碼器。和分別代表矩陣的寬度和高度。該方法的實現步驟如下:
步驟1. 首先經過數據預處理步驟,獲取SST矩陣序列,然后通過卷積層將SST矩陣序列編碼為多層特征向量,提取局部特征。
步驟2. 將獲得的特征向量作為殘差時間注意力模塊的輸入,利用時間注意力機制獲得注意力權重向量,與每個特征向量對應相乘得到加權特征,然后將加權特征與輸入的多層特征矩陣按照元素相加得到殘差特征。
步驟3. 將獲取的殘差特征作為殘差空間注意力模塊的輸入,進一步提取SST的空間特征,利用空間注意力機制訓練一個注意力權重矩陣,與多層殘差特征向量依次相乘得到加權特征,然后將加權特征與輸入的殘差特征按照元素相加得到最終的殘差加權特征。
步驟4. 將殘差時空注意力模塊輸出的多層加權特征作為解碼器ConvLSTM的輸入,建立時序依賴關系并將其映射為最終的SST預測結果,即未來1天或5天的SST。

圖1 CRA-ConvLSTM模型流程圖
編碼器-解碼器網絡在計算機視覺等領域已被廣泛使用,其核心思想是將輸入圖像編碼為多層特征圖,并使用解碼器生成結果單詞。本文構建了一種新的編碼器-解碼器網絡用于SST預測,利用卷積層將序列編碼為多層特征,ConvLSTM層解碼特征獲取SST預測結果。
具體來說,卷積層將大小為×的矩陣編碼為對應的特征向量,其中卷積核大小設置3×3,步長設置1×1。這里卷積編碼的過程實質上是提取矩陣序列局部特征的過程,卷積核按照1×1的步長進行滑動,每個3×3感受野對應激活計算為一個特征值,因此整個過程卷積核將經過?×?次移動,其值大小等于(-2)×(-2),獲取大小為?×?的特征向量。利用卷積層作為編碼器提取局部特征,不僅保存了SST原始的空間分布,還有利于后續(xù)殘差時空注意力模塊更好地提取網絡中重要的時空特征。
LSTM是一種適用于時間序列數據建模的循環(huán)神經網絡,能夠有效地捕捉序列的長期依賴,但在提取矩陣序列中的空間信息方面具有較大的局限性。而ConvLSTM是一種結合了CNN強大的局部特征提取能力及LSTM的時序建模能力的模型,較好地解決了LSTM對于時空序列建模的缺陷,因此本文將ConvLSTM作為解碼器,加權特征作為輸入,SST預測結果作為輸出。其計算式為












其中,為時間注意力函數;為空間注意力函數;?R為時間注意力權重向量;為空間注意力權重矩陣。
研究者利用通道注意力機制提取圖像的局部特征,通過卷積層獲取多層特征圖,每個通道由對應的卷積過濾器響應激活。受其啟發(fā),將卷積層編碼的多層特征向量作為每個時間步的輸入,構建殘差時間注意力模塊用于提取SST的時間相關性。即時間注意力機制為每層特征賦予對應的注意力權值,使得網絡更關注與當前目標SST更相關的特征向量,進而更好地獲取時間序列的長期依賴性。SST預測模型本質是利用了歷史天的SST對未來1天或5天的SST進行預測,因此對每個多層特征應用時間注意力機制可以看作學習SST之間的時間相關性。





其中,時間注意力權重的范圍為[0,1],因此越接近0,(,)將越接近原始特征,將該結構稱為殘差時間注意力模塊。
考慮到相鄰區(qū)域SST可能具有更密切的聯系,使用SST矩陣序列進行預測時可能會因不相關區(qū)域的存在而導致次優(yōu)的結果,因此模型在殘差時間注意力模塊之后,疊加了殘差空間注意力模塊進一步提取SST的空間相關性,使得模型能夠更關注與目標SST最相關的區(qū)域,而不是對整個區(qū)域。
首先將殘差時間注意力模塊獲得的殘差特征向量拉伸重塑為新的特征向量=(1,2,···,-1,),?R,=?×?,然后利用全連接層和softmax函數來獲得空間注意力權重




其中,為輸出的加權特征,可將該結構稱為殘差空間注意力模塊。
綜上,多層特征向量經過時間注意力函數和空間注意力函數獲取了時間注意力權重和空間注意力權重,通過和與特征向量的線性組合,最終獲取殘差加權特征。模型中殘差注意力模塊的計算過程為



其中,(·)為對特征矩陣進行時間和空間注意力加權的函數。
實驗采用了自然資源部第二海洋研究所提供的遙感反演數據集,空間分辨率為10 km,采集區(qū)域主要分布于30N和130E附近,時間周期為2004/01-2016/12,時間分辨率為天。為了確保模型預測的精確度和有效性,首先對數據進行了預處理,若所使用的SST數據缺少度量值時,其可被缺省值(MISSING_VAL=-999)所代替,而相對于沒有度量的記錄,可能為NAN,因此需將每個2×2矩陣的有效值的平均值來替換矩陣范圍的缺失值,邊緣數值僅取其臨近有效值的均值來替換缺失值。為了方便模型的訓練,將80×40的SST數據截取為30×30,將其作為模型的輸入。為了進行模型的訓練及效果的驗證,實驗采用75%的SST數據作為訓練數據,剩余25%數據用于測試。在搭建模型時,基于Keras Theano深度學習框架,使用Adam優(yōu)化器,學習率設置為0.001,epochs設置為200。在訓練模型時,利用EarlyStopping的早停機制,避免了模型迭代次數過多而出現過擬合的問題;此外,使用了ReduceLROnPlateau回調函數,避免模型過早地停止訓練,而是通過動態(tài)減小學習率,保證網絡充分收斂,進而獲得最優(yōu)的模型及參數。
本文使用預測精度(prediction accuracy,PACC)和均方根誤差(root mean square error,RMSE)來描述不同預測方法的性能,即


其中,y,i為矩陣中第個位置的SST真實值;y,i為預測值;為矩陣寬度和高度的乘積值。模型在預測時,首先需要確定結構和參數,然后通過比較模型的RMSE和PACC結果,說明不同方法的性能及預測效果。RMSE值越小且PACC值越大時,模型的性能越好。
不同的時間窗口大小會影響SST的預測效果,因此實驗設定不同的值分別預測了未來1天和5天的SST,通過比較模型測試集獲得的RMSE和PACC指標,確定最佳的值,以保證后續(xù)實驗的準確性。這里分別設置?{3,7,15}和?{10,15,25}來預測1天和5天的SST。
表1顯示了不同值下CRA-ConvLSTM模型測試的結果。實驗結果表明,=7時PACC為99.43%,RMSE為0.19,其在預測1天的效果均優(yōu)于=3和=15時的效果。而在預測5天時,=15時取得了最佳的效果,PACC為98.93%,RMSE為0.39。上述結果證明了時間窗口的大小對模型的預測結果會產生不同的影響,因此在后續(xù)實驗中均分別采用=7和=15預測1天和5天的SST,以保證模型預測結果的真實性。

表1 不同T值下CRA-ConvLSTM預測1天和5天SST的性能對比
注:加粗數據為最優(yōu)值
編碼器-解碼器結構作為一種模型框架,在計算機視覺等領域已被廣泛使用,并衍生出了很多不同的網絡結構。本文構建了一種新的編解碼器結構(CNN-ConvLSTM),因此為了驗證該結構對SST模型預測性能的影響,實驗還分析了CNN層對模型預測結果的影響。設置相同的數據集和模型參數,分別對比了RA-ConvLSTM和CRA-ConvLSTM預測不同天數時的PACC及RMSE指標,2種方法均使用ConvLSTM獲取最終的SST結果,其中RA-ConvLSTM未使用卷積層,CRA-ConvLSTM使用卷積層首先對序列進行了初步的特征提取。
表2中,CRA-ConvLSTM 1~5天的預測精度分別獲得了99.43%,99.32%,99.19%,99.09%和98.93%,而RA-ConvLSTM獲取的PACC值均低于CRA-ConvLSTM,而隨著預測天數的增加,預測精度逐漸下降,這是由于隨著序列長度的增加預測性能會逐漸下降。對于RMSE指標,CRA-ConvLSTM 1~5天的預測誤差指標均低于RA-ConvLSTM,分別為0.19,0.23,0.32,0.34和0.39。經過實驗比較PACC及RMSE結果表明,當預測1天SST時,CRA-ConvLSTM模型獲得了最佳的預測結果,且隨著預測天數的增加,CRA-ConvLSTM也表現出了同樣的優(yōu)勢,進一步說明了基于CNN和ConvLSTM編解碼器結構有利于SST預測性能的提高,進而確定了本文的編解碼器結構。
注意力機制能夠通過權重加權的方式提取網絡中的關鍵特征,而不同的注意力結構可能會對預測效果產生不同的影響,模型中引入了一種殘差時空注意力模塊,因此為了驗證注意力模塊的結構對預測性能的影響,實驗基于CNN- ConvLSTM,設置相同的模型參數,對比了單注意力模塊和疊加時間和空間注意力模塊時預測性能的差異,此外還關注了注意力模塊中融合殘差結構時的不同。其中RT-Attention只包括殘差時間注意力模塊,RS-Attention只包括殘差空間注意力模塊,TS-Attention未使用殘差結構,僅包括時間注意力機制和空間注意力機制,RTS-Attention是本文提出的注意力結構,疊加了殘差時間注意力模塊和殘差空間注意力模塊。
表3顯示了4種方法分別預測未來1~5天的SST的評價指標結果。對于PACC指標,使用RTS- Attention的預測精度分別是99.43%,99.32%,99.19%,99.09%和98.93%,均高于使用TS-Attention的預測精度,因此相比于單純的疊加注意力機制而未考慮殘差結構時,疊加殘差注意力模塊更有優(yōu)勢;對于RMSE指標,結果同樣如此,此外RT-Attention和RS-Attention的RMSE指標分別是0.23,0.25,0.30,0.36,0.43和0.24,0.25,0.31,0.37,0.42,其結果差異較小,這表明單注意力模塊中使用時間注意力或空間注意力對模型預測性能的提高均有限。總之,同時疊加殘差時間和殘差空間注意力模塊使得模型的性能提高更為顯著,進而確定了殘差時空注意力模塊的結構。

表2 RA-ConvLSTM和CRA-ConvLSTM性能對比

表3 模型使用不同注意力模塊的性能對比
在2.3~2.5節(jié)中,已確定了模型的編解碼器、殘差時空注意力模塊和合適的值,確保了消融實驗中預測結果的有效性,將提出的CRA-ConvLSTM模型與SVR,LSTM,ConvLSTM,CNN-ConvLSTM和CA-ConvLSTM 5種先進的SST預測方法進行了比較。對于上述方法,均采用相同數據集預測未來1天和5天的SST。其中SVR是時間序列預測任務中常見的機器學習算法,這里分別采用了線性基函數核、多項式基函數核和徑向基函數核,并選擇最優(yōu)結果,最終確定了徑向基核函數;LSTM是海面溫度預測方法中主流的深度學習算法,并使用其進行了SST預測實驗。但這2種方法均只能進行單點預測,因此對于區(qū)域型SST,實驗可根據各個實時記錄點分別構建模型進行SST預測;ConvLSTM是一種改進的LSTM,能夠綜合時間和空間特征,本文基于ConvLSTM構建了模型,因此為了消融實驗的對比,使用ConvLSTM進行實驗;CNN-ConvLSTM是基于ConvLSTM進一步結合CNN構建的編解碼器網絡;此外,實驗還對比了文獻[16]提出的CA-ConvLSTM算法,以進一步驗證本文算法的有效性。
表4對比了6種方法預測未來1天和5天的SST時獲得的RMSE和PACC指標結果。SVR和LSTM在預測1天時,PACC指標分別為98.96%和98.86%,RMSE指標分別是0.37和0.47;而ConvLSTM與SVR和LSTM相比在預測1天和5天時獲得了更好的預測結果,PACC及RMSE指標分別為99.04%,0.36和98.68%,0.47,進一步說明了ConvLSTM在時空序列預測問題中的優(yōu)越性;而基于CNN和ConvLSTM的編解碼器結構相比于ConvLSTM獲得了更好的結果,因此驗證了模型使用的編解碼器結構的有效性。CA-ConvLSTM算法在進行預測1天和5天的SST時PACC,RMSE分別獲得了99.33%,0.23和98.78%,0.43。但相比于上述方法,本文算法CRA-ConvLSTM取得了最優(yōu)的預測效果,其PACC和RMSE預測1天和5天時分別獲得了99.43%,0.19和98.93%,0.37,驗證了算法的有效性。通過使用殘差時間注意力模塊和殘差空間注意力模塊,定量地為每個時刻的特征向量和區(qū)域內每個點賦予注意力權重,使得模型動態(tài)關注不同時刻的時間特征和區(qū)域內不同點的空間特征,賦予不同的影響權重,因此能夠較好地反映時空特征在時間維度和空間維度上對未來預測的SST不均衡的影響,從而獲得最優(yōu)的預測效果。

表4 不同預測方法的性能對比
注:加粗數據為最優(yōu)值
為了更直觀地觀察SST的預測效果,分別在圖2(a)和(b)中展示了在測試數據集上模型在最后一個時刻輸出的5天SST預測結果圖和對應的海面溫度熱力圖。而熱力圖的顏色分布隨著溫度的降低而加深,且熱力圖的刻度取值范圍取決于當前時刻SST值的分布范圍,可以觀察到實驗中SST的真實值和預測值均分布在24.5℃到28℃之間,對比結果顯示,使用CRA-ConvLSTM進行預測時,其結果能夠較為準確地反映區(qū)域內SST的真實值變化。

(b)
本文使用區(qū)域型SST時間序列數據,提出了一種結合殘差時空注意力機制的SST預測算法(CRA-ConvLSTM),顯著提高了預測精度。為了實現這一目標,本文完成了:①將時間注意力機制和空間注意力機制相結合,使得模型動態(tài)關注不同時刻的時間特征和區(qū)域內不同點的空間特征,提取了關鍵的時空特征;②將注意力機制結合殘差結構,保留了豐富的特征信息,避免了梯度消失的問題。基于這2種殘差注意力模塊,CRA- ConvLSTM能夠充分考慮時空特征對SST在時間維度和空間維度上不均衡的影響。實驗結果表明,CRA-ConvLSTM模型在SST預測方面取得了最佳的性能,驗證了本文方法的有效性。
SST的變化不僅具有時間相關性和空間相關性,實際場景中也受其他海洋要素復雜的物理機制影響,如氣溫、氣壓、風速等,因而未來可以考慮在模型中嵌入多種海洋要素的統(tǒng)計特征模塊,以進一步考慮海洋環(huán)境要素帶來的影響。
[1] KOLSTAD E W, ?RTHUN M. Seasonal prediction from Arctic Sea surface temperatures: opportunities and pitfalls [J]. Journal of Climate, 2018, 31(20): 8197-8210.
[2] AHMAD M Z. Regional port state cooperation for the conservation of shared fisheries resources in the contested waters of the south China sea[C]//SOIS Conference on Global Studies 2021. Sintok: UUM Press, 2022: 196-215.
[3] WIEDERMANN M, DONGES J F, HANDORF D, et al. Hierarchical structures in Northern Hemispheric extratropical winter ocean-atmosphere interactions[J]. International Journal of Climatology, 2017, 37(10): 3821-3836.
[4] TAKAKURA T, KAWAMURA R, KAWANO T, et al. An estimation of water origins in the vicinity of a tropical cyclone's center and associated dynamic processes[J]. Climate Dynamics, 2018, 50(1-2): 555-569.
[5] ALIMOHAMMADI M, MALAKOOTI H, RAHBANI M. Sea surface temperature effects on the modelled track and intensity of tropical cyclone gonu[J]. Journal of Operational Oceanography, 2021 (3): 1-17.
[6] NOORI R, ABBASI M R, ADAMOWSKI J F, et al. A simple mathematical model to predict sea surface temperature over the northwest Indian Ocean[J]. Estuarine, Coastal and Shelf Science, 2017, 197: 236-243.
[7] LINS I D, MOURA M, SILVA M, et al. Sea surface temperature prediction via support vector machines combined with particle swarm optimization[C]//The 10th International Probabilistic Safety Assessment & Management Conference. London: Taylor & Francis Group, 2013: 3287-3293.
[8] HOCHREITER S, SCHMISHUBER J, et al. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[9] ZHANG Q, WANG H, DONG J Y, et al. Prediction of sea surface temperature using long short-term memory[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(10): 1745-1749.
[10] YANG Y T, DONG J Y, SUN X, et al. A CFCC-LSTM model for sea surface temperature prediction[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 15(2):207-211.
[11] HOU S, MEMBEW L. D2CL: a dense dilated convolutional LSTM model for sea surface temperature prediction[EB/OL]. [2021-05-12]. https://ieeexplore.ieee.org/document/9618770.
[12] ZHAO Y, KOMACHI M, KAJIWARA T, et al. Region-attentive multimodal neural machine translation[J]. Neurocomputing, 2022, 476: 1-13.
[13] ZHU T, CHENG C L. Joint CTC-attention end-to-end speech recognition with a triangle recurrent neural network encoder[J]. Journal of Shanghai Jiaotong University: Science, 2020, 25(1): 70-75.
[14] QIN Y, SONG D J, CHEN H F, et al. A dual-stage attention-based recurrent neural network for time series prediction[C]//The 26th International Joint Conference on Artificial Intelligence. California: International Joint Conferences on Artificial Intelligence Organization, 2017: 2627-2633.
[15] CHEN L, ZHANG H W, XIAO J, et al. SCA-CNN: spatial and channel-wise attention in convolutional networks for image captioning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6298-6306.
[16] ZHA C, HE Q, SONG W, et al. Regional sea surface temperature prediction algorithm combined with attention mechanism[J]. Marine Science Bulletin, 2020, 39(2): 9.
[17] CHO K, VAN MERRIENBOER B, BAHDANAU D, et al. On the properties of neural machine translation: encoder–decoder approaches[C]//Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. Stroudsburg: Association for Computational Linguistics, 2014: 103-111.
[18] WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6450-6458.
Sea surface temperature prediction algorithm combined with residual spatial-temporal attention mechanism
HE Qi1, LI Wen-long1, SONG Wei1, DU Yan-ling1, HUANG Dong-mei1, GENG Li-jia2
(1. Department of Information Technology, Shanghai Ocean University, Shanghai 201306, China; 2. East China Sea Standard Metrology Center, State Oceanic Administration, Shanghai 201306, China)
Sea surface temperature (SST) is closely related to global climate change, ocean disasters, and ocean ecosystems, so the accurate prediction of SST is an important topic. The existing regional SST prediction methods treat the time series of SST data as a series of matrixes, each corresponding to the regional SST at a particular time. The spatial and temporal features are extracted from the matrix series for later SST prediction. However, the existing SST prediction methods fail to fully consider the imbalanced influence of temporal and spatial features on the SST, leading to the neglection of some key information and limiting the improvement of prediction accuracy. To address this problem, we proposed a regional SST prediction method (CRA-ConvLSTM) combining temporal attention mechanism and spatial attention mechanism. This enabled the model to dynamically assign different influence weights to the temporal features at different times and spatial features at different locations, thereby improving the accuracy of SST prediction. Specifically, the input regional SST time series was first encoded into multi-layer feature vectors by a convolutional neural network (CNN), and local features were extracted. Then, the residual time attention module was constructed to learn the attention weight at different moments adaptively, and the key features of the time dimension were extracted. The residual spatial attention module was designed to extract the key features of different points in the region in terms of the spatial dimension. In addition, the attention mechanism combined with the residual structure can avoid performance degradation caused by information reduction in the network. Experimental results show that the proposed model could achieve 0.19 and 99.43% respectively in terms of the root mean square error (RMSE) and prediction accuracy (PACC), which is superior to other methods and effectively improves the prediction accuracy of SST.
time series; sea surface temperature prediction; spatial-temporal feature; attention mechanism; residual structure
25 November,2021;
National Natural Science Foundation of China (61972240); Youth Project of National Natural Science Foundation of China (41906179); Capacity Building Project of Some Local Universities of Shanghai Science and Technology Commission (20050501900)
HE Qi (1979-), associate professor, Ph.D. Her main research interests cover ocean big data analysis, big data storage, workflow and business process management, and service computing, etc. E-mail:qihe@shou.edu.cn
TP 391
10.11996/JG.j.2095-302X.2022040677
A
2095-302X(2022)04-0677-08
2021-11-25;
2022-03-15
15 March,2022
國家自然科學基金項目(61972240);國家自然科學基金青年項目(41906179);上海市科委部分地方高校能力建設項目(20050501900)
賀 琪(1979-),女,副教授,博士。主要研究方向為海洋大數據分析、大數據存儲、工作流與業(yè)務流程管理、服務計算等。E-mail:qihe@shou.edu.cn
耿立佳(1989-),女,工程師,碩士。主要研究方向為海洋大數據分析、海洋經濟監(jiān)測評估等。E-mail:genglj@ecs.mnr.gov.cn
GENG Li-jia (1989-), engineer, master. His main research interests cover ocean big data analysis, ocean economy monitoring and evaluation, etc. E-mail:genglj@ecs.mnr.gov.cn