關鍵詞:厄爾尼諾-南方濤動(ENSO);Nino3.4指數;Linformer-ST模型;時空預測中圖分類號:TP391.4 文獻標志碼:A 文章編號:1000-5137(2025)02-0194-07
Abstract:TheElNino-SouthernOscilation(ENSO)wasoneofthemostsignificant climate phenomena inthetropicalPacific region,exerting asignificantimpactontheglobal climatesystemandcapableof trigering extremeclimateeventssuchas drought,floods,and heatwaves.Accuratepredictionof ENSO wascrucial foragricultural production,waterrsource management,disasterpreventionandeconomic planning.However,duetoitsnonlinearandcomplexcharacteristics,it was chalenging toaccuatelypredictthe intensity,duration,andtiming.Toaddressthisissue,aspatiotemporaltransforermodel basedonlinearattntionmechanism(Linformer-ST)wasproposedinthispaper.IntheconstructedmodelthetraditionalSoftmax atentionmechanismwasreplacedwithalinearatentionmechanism,whichreducedthecomputationalcomplexityof spatiotemporal feature modeling from O(n2) to O(nlog(n)) ,and improved computational efficiency significantly. The model was pre-trainedontheCMIP6dataset,fine-tunedontheSODAdataset,andvalidatedontheGODASdataset.Experimentalresults demonstratedthat themodel performed exceptionallywellin predicting Nino 3.4 seasurface temperature anomalies,maintaining high correlation and accuracy over a 2O-month prediction horizon.
Key Words:ElNino-SouthernOscillation(ENSO);Nino3.4index;Linformer-STmodel;spatiotemporalprediction
0 引言
厄爾尼諾-南方濤動(ENSO)是指發生在熱帶太平洋地區的一種氣候現象,主要表現為海洋和大氣之間異常的相互作用[.準確預測ENSO對于農業、水資源管理、災害防控和經濟規劃至關重要.傳統的統計模型和基于物理的動力模型在捕捉ENSO非線性過程和高維動態交互方面存在局限性[2-4],尤其在長期預測中,預測精度仍有待提高.
隨著深度學習技術的發展,數據驅動的建模方法為預測ENSO提供了新的可能性.深度學習模型,如卷積神經網絡(CNN)[5]、循環神經網絡(RNN)[6及基于自注意力機制的Transformer架構7,在氣候系統復雜非線性建模中展現了顯著的優勢.傳統的ENSO預測模型在長時間序列預測中表現較差,主要原因在于難以有效捕捉時間和空間維度上的全局依賴性.特別是在深度學習方法中,現有的自注意力機制雖然能夠對復雜的時空關系進行建模,但計算復雜度通常為 O(n2)[8] ,處理長時間序列和高分辨率數據時,計算成本較高.為此,本文作者提出了一種基于線性注意力機制的改進方法,將計算復雜度降低到 O(nlog(n)) ,顯著提高了模型的效率,同時保留了自注意力機制在捕捉全局長程依賴關系中的強大能力.通過多頭時空注意力機制,模型能夠在時間和空間維度上靈活地提取關鍵特征,為預測ENSO長時間序列提供了可靠的技術支撐.
1 Linformer-ST模型
1.1 模型架構
本模型以連續12個月的多變量海洋和大氣異常數據作為輸入,包括海面風應力的東西向分量 τx 和南北向分量 τy ,以及上層海洋7個深度 (5,20,40,60,90,120 和 150m 的溫度異常9.輸入數據為三維場數據,數據的總維度為 Tin×C×Nlat×Nlon ,式中: Tin=12 ,表示輸入的時間維度 Tin 為12個月; C=9 ,表示變量通道數; Nlat 和 Nlon 分別表示緯度和經度的網格數.
為降低計算復雜度并有效提取局部和全局特征,輸入數據首先被劃分為固定大小的非重疊Patch編碼器模塊,通過多頭時空注意力機制提取輸入數據的時空特征.Patch劃分方式使模型能以較低的計算成本處理高維數據,同時保留空間上的關鍵信息.數據隨后通過嵌入模塊轉換為固定維度的符號表示,并輸人到編碼器中.對輸人數據的時間維度,編碼器應用注意力機制捕獲時間點之間的長期依賴關系.在注意力計算過程中,采用線性注意力機制,通過調整注意力公式,大幅提高計算效率.隨后應用空間注意力機制,進一步捕獲不同地理位置間的相關性和交互特性,最終將時間和空間維度的信息融合為一個高維特征表示矩陣,作為解碼器的輸入數據.
解碼器模塊接收編碼器輸出的高維特征表示矩陣并生成預測結果.解碼器由多個解碼塊組成,包括多頭時空注意力機制、殘差連接和前饋網絡.解碼器以未來20個月的預測目標為輸出,輸出數據的維度為 Tout×C×Nlat×Nlon=20×9×51×120 ,式中: Tout=20 ,表示輸出的時間維度 Tout 為20個月.通過多頭時空注意力機制,解碼器能夠對編碼器提取的特征和預測目標之間的依賴關系進行建模,從而實現對目標區域海表溫度異常的準確預測.
1.2嵌入模塊
在時間嵌入中,通過將輸入數據嵌入一個可理解的時間嵌入向量,以確保模型在處理時間序列數據
時能夠捕捉到序列中的相對位置信息.由于數據增強操作可能會打亂時間序列,時間嵌入至關重要.通過結合正弦和余弦函數生成時間編碼,


式中: P(pos,2i) 是使用正弦函數生成的偶數索引維度的嵌入值; P(pos,2i+1) 是使用余弦函數生成的奇數索引維度的嵌入值; dmodel 表示嵌入的總維度; pos 表示序列中的位置; i 表示維度索引的一半(每個位置生成2個值).在每個維度上以對數頻率分布的形式為時間點創建唯一的嵌入值,確保模型能夠識別時間點的正確順序,并保留時間序列數據中的相對位置信息.
在空間嵌入中,為學習海表溫度和風應力等數據在不同經緯度的位置關系,模型通過嵌入層將每個空間位置映射到高維空間中.通過為每個位置分配唯一的標識符,將嵌入向量添加到輸人數據中,從而為模型提供詳細的空間分布信息,使其能夠識別和理解不同空間位置之間的關系,更好地捕獲和建模數據的空間特性.
最后,通過線性層將原始數據轉換為高維空間,保留數據的原始特征信息.通過將輸入數據從原始維度轉換到嵌入空間維度,使時間和空間嵌入向量能夠有效地結合到模型輸入中.
1.3 編碼器
傳統自注意力機制的計算公式為

式中: Sim 表示查詢 Q 和鍵 K 之間的相似性函數; V 表示查詢操作的數值.

式中: d 表示特征維度.傳統自注意力機制需要對每一個查詢
和鍵 K 成對計算,在處理長序列數據時候,計算負擔較重.
本模型的編碼器模塊對Transformer架構進行了優化設計,引人了多頭時空注意力機制,以捕獲輸入數據中復雜的時空依賴關系.首先,模型在時間維度上通過多頭注意力機制計算不同時間步之間的相關性,提取時間序列中長期和短期依賴關系.注意力權重矩陣為不同時間點對當前預測任務的重要性進行動態調整.模型在空間維度上通過獨立的多頭注意力機制對每個網格點進行操作,捕獲不同地理區域間的交互和依賴關系.通過這一時空注意力機制,模型能同時關注全局空間特性和局部時間動態,從而為預測任務提供更全面的特征表示.
在線性注意力機制中,使用一個映射函數 φ 來近似模擬 Sim 函數,

傳統自注意力公式被改寫為:

在線性注意力中,模型將查詢、鍵和值的計算順序重新排列,不僅減少了注意力計算的冗余,還保留了對全局依賴關系進行建模的能力.此外,通過引入特定的映射函數 φ(Q) 和 φ(K) ,注意力機制能夠進一步優化矩陣的計算,使得模型在保持高效計算的同時,提高了對復雜時空依賴的表達能力.
編碼器的整體結構由多個重復堆疊的編碼塊組成,每個編碼塊包括3個主要部分:多頭時空注意力機制、歸一化層和前饋網絡.在每個編碼塊中,輸人數據首先經過多頭時空注意力模塊,提取出時間和空間維度上的多變量依賴關系.接著,模型通過殘差連接將原始輸人與注意力輸出相加,并通過歸一化層確保數值穩定性,減輕梯度消失現象.隨后,歸一化后的輸出被輸入到前饋網絡中,該網絡由一系列非線性激活函數和線性變換組成,進一步增強了模型的表達能力和對復雜非線性關系的建模能力.通過多層編碼塊的堆疊,模型能夠在每一層逐步捕獲更高層次、更抽象的特征,從而有效支持對ENSO長期、復雜的預測任務.
1.4 解碼器
在本模型中,解碼器模塊旨在將編碼器提取的高維時空特征轉化為目標時間序列的預測結果.解碼器模塊的設計與編碼器相輔相成,特別針對ENSO預測中復雜的時空交互特性,采用多頭時空注意力機制,通過引入動態學習機制,提高預測的準確性和穩健性.
解碼器的輸入包括兩部分:一是來自編碼器的特征矩陣,表示從輸入時間序列提取的全局時空特征;二是解碼器自身的歷史預測值,用于捕獲預測序列的自回歸特性.通過結合這兩部分數據,解碼器能夠在多時間尺度上整合歷史輸入與當前特征,強化其對未來狀態的建模能力.
在解碼過程中,首先將歷史預測值輸人到解碼器的多頭時空注意力模塊中,以捕獲預測時間步之間的時間相關性和空間交互關系.解碼器的多頭時空注意力機制由兩部分組成:時間注意力機制和空間注意力機制.時間注意力機制通過引入掩碼矩陣,確保模型只能訪問當前時間步及其之前的時間點,從而有效避免信息泄漏問題;空間注意力機制通過計算不同網格點之間的相互依賴性,捕獲地理空間上的全局動態關系.
多頭注意力機制后的輸出通過歸一化層和前饋網絡作進一步處理.歸一化層在每個時間步和空間位置上執行標準化操作,從而提升模型的數值穩定性并加速收斂.前饋網絡由一系列線性變換和非線性激活函數構成,其作用是對注意力模塊的輸出進行非線性變換,挖掘更深層次的特征關系.多層解碼塊的堆疊進一步增強了模型對復雜非線性時空關系的建模能力.
所有解碼器的輸出將通過一層線性映射轉化為預測目標的異常值.線性映射層不僅保留了解碼器提取的核心時空特征,還將其調整為與目標數據一致的空間分辨率和時間尺度.
2 評價指標
本研究的評估指標包括皮爾遜相關系數 Pcc 、異常相關系數 Acc 均方根誤差 RMSE 和平均絕對誤差MAE ,分別用于評估 Nino 指數的空間分布精度和預測效果.
首先,將模型的預測值 yp 和真實值 yt 分別進行中心化處理(即對數據進行中心化消除偏差操作,減去其平均值),以消除整體偏差,

式中: n 表示預測的月份數量; i 表示特定的月份; ε 是一個小的正數,用于防止分母為零. Pcc 反映了調整后的預測值和觀測值之間波動模式的一致性.
基于經驗構造一個加權向量 WNino ,為每個預測月份分配不同的權重.對預測精度有較大影響的關鍵月份,被賦予更高的權重,以確保評估結果的準確性和實用性,

RMSE 是通過計算預測值和真實值之間差異的L2范數,取均值平方根,來量化模型預測誤差的程度,

結合 Acc 和 RMSE 計算綜合得分

Acc 衡量了模型預測值與觀測值之間的相關性.較高的 Acc 值表明模型有效捕獲了實際數據的趨勢.相反, RMSE 量化了預測值與真實值之間的平均誤差,較低的 RMSE 值表明模型具有較高的預測精度.S通過結合這兩個指標綜合評估了模型的預測性.
MAE 也被用于評估預測值與實際觀測值之間的平均絕對差異,

3實驗
本文使用了1850—2014年參加耦合模式比較項目第6階段(CMIP6)[10]的23個氣候模式數據對模型進行初步訓練.然而,由于CMIP6數據集是模擬數據集,與真實數據集存在一定的偏差,會影響所構建模型的預測精度,在遷移訓練中使用了1871—1979年的小目標檢測數據集(SODA)[]的再分析產品來進一步校準預訓練模型,包括連續12個月的預測因子和在預訓練中具有相同空間分辨率的未來20個月的預測因子.然后,將這些數據集按照9:1的比例分成訓練集和驗證集.此外,利用1980—2021年全球海洋資料同化系統(GODAS)2再分析的目標場進行交叉驗證分析,評價預測能力.
為了適配本模型的輸入需求,所有數據集均進行了統一的處理流程,包括去趨勢化、異常值計算和空間網格化.具體而言,選取海表風應力以及不同深度的海洋溫度作為核心變量,覆蓋范圍為太平洋區域.數據分辨率在經緯度上被調整至統一的網格格式,時間維度則按月度進行序列化,確保模型能夠充分學習時空特征.此外,缺失值通過插值法進行填補,陸地區域設置為零,確保輸入數據的完整性.
通過 Pcc RMSE 和 MAE 等指標評估模型性能,并在測試集GODAS上進行了驗證,結果表明該模型在短期到中期預測中表現出顯著的優勢,如圖1(a)所示.隨著預測提前時間的增加,相關性有所下降,但模型仍能夠保持一定的預測能力.同時, RMSE 和 MAE 指標呈現出類似趨勢:初始誤差值隨著預測周期逐漸增加,但總體增長率相對平緩,表明模型在整個預測周期中有效控制了誤差的增長.

本研究采用了綜合處理方法,減少季節性波動對預測性能評估的影響.首先,通過對所有預測起始時間的數據進行整體處理,避免了單月季節性波動引起的評估偏差.具體而言,使用窗口大小為3個月的移動平均函數處理數據,從而減少短期波動并突出長期趨勢.
此外,為詳細分析季節性波動對預測性能的影響,本研究還計算了不同起始月份的預測能力.圖1(b)是相關性的等值線圖,展示了ENSO預測模型性能的季節性變化,通過評估不同起始月份和預測提前時間,對 Pcc 值進行可視化.縱軸顯示模型預測的起始月份(從1月到12月),橫軸為預測提前時間,即從預測起始月份到目標月份的時間間隔.等值線和顏色陰影表示相關系數的水平.由圖1可知,當預測起始月份為12月至次年8月時,模型在提前1\~5個月的預測中表現出較高的準確性 (Pcc 值接近或超過0.9).然而,在春季,尤其是從2月至5月,其性能顯著下降,即使僅提前3個月進行預測, Pcc 值也低于0.8,反映了模型特有的春季預測障礙,這可能與春季期間復雜的大氣-海洋相互作用有關[13],使模型難以準確識別ENSO的演化特征.
圖2展示了1980—2020年Nino3.4指數的預測值與實際觀測值的對比,包含4個子圖,分別對應不同的預報時效:提前1個月、提前3個月、提前6個月和提前12個月.實際的 Nino3.4 指數值用藍色實線表示,而預測值則用紅色虛線表示.從圖2中可以看出,隨著預報時效的增加,預測準確性逐漸下降.對于1個月和3個月的短期預報,模型能夠較好地捕捉 Nino3.4 指數的時間依賴性和變異性,預測值與實際值高度一致,表現出較高的準確性.然而,隨著預報時效延長到6個月和12個月,預測準確性有所下降,尤其是12個月的預報,模型難以準確捕捉實際數據中的急劇波動,導致某些波峰和波谷較為平滑,這一現象表明,隨著預報周期的增加,氣候模式的復雜性和不可預測性也逐漸增大,微小誤差可能導致較大的預測結果偏差.盡管如此,12個月的預報結果仍能較好地反映實際Nino3.4指數的長期趨勢.

4結語
本文提出了Linformer-ST模型,通過直接對時空全局關系進行建模,有效解決了傳統模型在長時間序列預測中較高的計算復雜度問題,顯著提升了計算效率和預測性能.實驗結果表明,該模型能夠捕捉
ENSO時空動態特征,但在特定季節(如春季)下,性能仍不穩定.未來工作可探索更復雜的注意力機制和動態建模方法,以進一步提升模型的泛化能力和極端天氣預測的適應性.
參考文獻:
[1]MU B,QINB,YUAN S.ENSO-GTC:ENSO deep learning forecast model with a global spatial-temporal teleconnection coupler[J].Journal of Advances in Modeling Earth Systems,2022,14(12):e2022MS003132.
[2]ZHANG R H,GAO C,FENG L. Recent ENSO evolution and its real-time prediction challenges [J].National Science Review,2022,9(4):1-3.
[3] MU B,QIN B,YUAN S.ENSO-ASC 1.0.0: ENSO deep learning forecast model with a multivariate air-sea coupler[J]. Geoscientific Model Development,2021,14(11) :6977-6999.
[4] LATIFM,ANDERSOND,BARNETT T,et al.A review of the predictability and prediction of ENSO[J]. Journal of Geophysical Research:Oceans,1998,103(C7) :14375-14393.
[5] LECUNY,BOTTOUL,BENGIOY,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[6] RUMELHART D E,HINTON G E,WILLIAMS R J. Learming internal representations by error propagation[M]/ ParallelDistributed Processing:Explorations intheMicrostructureof Cognition,Volume1:Foundations.Cambridge: MIT Press,1986:318-362.
[7] VASWANIA,SHAZEERN,PARMARN,etal.Attention isallyou need[C]//AdvancesinNeural Information Processing Systems.Long Beach: NIPS,2017:5998-6008.
[8] HAND,PANX,HANY,etal.Flatten transformer:vision transformer using focused linear attention[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Paris:IEEE,2023:10012-10022.
[9] HAMYG,KIMJH,LUOJJ.Aself-attention-based neural network for three-dimensional multivariate modeling and itsskillfulENSO predictions[J].ScienceAdvances,2019,5(1O):1-11.
[10] EYRING V,BONY S,MEEHL G A,et al. Overview of the coupled model intercomparison project phase 6(CMIP6) experimental design and organization[J]. Geoscientific Model Development,2016,9(5):1937-1958.
[11] CARTON JA,GIESE B S.Areanalysis of ocean climate using simple ocean data assimilation (SODA)[J].Monthly WeatherReview,2008,136(8):2999-3017.
[12] BEHRINGER DW,XUEY.Evaluationof the global ocean data assimilation system at NCEP: the Pacific Oean[C]/ Proceedingsof theEighth Symposiumon Integrated Observingand Assmilation Systems forAtmosphere,Oceans,and Land Surface.American Meteorological Society,2O04:2.3.
[13]ZHANG Z,WANG J,WANG F.A new subsurface precursor across the spring predictability barrier for the ENSO prediction [J].Deep Sea Research Part I: Oceanographic Research Papers,2O24,203:104213.
(責任編輯:包震宇,郁慧)