郭亞楠,曹小群,周夢鴿,彭柯澄
(1.國防科技大學 氣象海洋學院,湖南 長沙 410073;2.海軍航空大學,遼寧 葫蘆島 125001)
大氣系統是一個高度復雜的系統,包括大氣運動、輻射傳輸、湍流等多個物理過程的相互作用,數值模式成為深入理解和研究這些復雜過程的有效工具。通過模型的建立和改進,可以揭示天氣系統中的非線性、時空耦合、不確定性等特征,為深入研究氣候變化、氣象災害等提供基礎。數值天氣預報從20世紀50年代進行了首次成功嘗試以來,經過七十多年的發展,已經成為一個跨學科的復雜系統性工程,使得天氣預報從傳統的以統計和經驗為主的天氣圖方法轉變成為客觀定量的科學[1-3]。
近年來,大數據技術的出現,深刻改變了現代科學技術的發展,極有可能引起新一輪的技術變革[4-7]。在地球科學領域,新一代地球觀測系統的不斷完善,對地觀測數據迅速增加,正逐漸積累形成獨具特色的地球大數據。對數值天氣預報研究而言,如何高效合理地利用氣象海洋大數據,對于提高預報的精度有重要意義。隨著大數據的出現以及算力的提升,以深度學習為代表的人工智能技術蓬勃發展,成為了聯系氣象海洋大數據與數值天氣預報模式的關鍵技術。隨著大模型技術的興起,大數據驅動的天氣預報快速發展,涌現出大量氣象預報大模型。其中,針對部分預報任務,華為盤古氣象大模型的預報精度已超過傳統數值預報方法,并且其預報速度相比傳統數值預報提速10 000倍以上。目前,盤古氣象大模型能夠提供全球尺度的天氣要素預報,其時間精度可達秒級,其氣象要素預報產品包括溫度、海平面氣壓、濕度、風速、位勢等,可以直接服務于天氣預報業務,并且已被歐洲中期預報中心所應用。
本文從論述氣象海洋大數據的起源、概念和本質開始,介紹了氣象海洋大數據的分類,闡述了氣象海洋觀測數據、模式數據以及再分析數據特點,針對氣象海洋大數據與數值天氣預報融合發展中面臨的關鍵問題,其中包括大氣海洋資料同化、物理過程參數化、數值預報產品訂正以及機理與數據融合的模式開發等前沿方向,對相關研究進行了深入探討和展望,以期為氣象海洋大數據與數值天氣預報的融合發展提供參考依據。
地球大氣與海洋系統是一個極其復雜的非線性系統,涉及大氣物理、大氣化學、大氣探測學、物理海洋學等諸多學科。目前,氣象海洋大數據可以定義為基于多源觀測手段,其中包括衛星、飛機、船舶浮標等方式,對大氣和海要素進行觀測得到的一類大數據[8-10]。
傳統大數據特征主要表現為海量性、快速性、多樣性的特點,具有高維度以及動態性的特征。根據來源不同,氣象海洋大數據可以分為觀測大數據、模式大數據以及再分析大數據等。氣象海洋觀測大數據是指基于衛星、飛機、雷達、浮標、氣象站、氣球等觀測手段獲取的海量數據,目前一體化的地球觀測體系如圖1所示。

圖1 一體化的地球觀測系統
數值預報模式產生了模擬數據產品,在氣象海洋大數據占據重要位置,成為氣象海洋大數據的基礎來源之一。與地面觀測、雷達探測以及衛星探測等觀測手段相比,數值模擬產品具有時空連續性的優勢,圖2給出了2019年9月1日在巴哈馬登陸的颶風“多利安”的數值模擬信息(云層結構)。

圖2 颶風“多利安”的數值模擬結果(云層結構)
再分析數據是利用數據同化等技術,將不同來源及不同結構的觀測數據與數值模擬數據進行融合,從而得到滿足時間與空間上連續的數據集。再分析數據在地球科學研究中具有重要的價值和地位,圖3給出了一類再分析產品(地表空氣溫度)的可視化結果。

圖3 再分析產品(地表空氣溫度)
通過分析可以看出,氣象海洋大數據具有明顯的異構性,一方面表現為觀測系統異構,即不同的觀測系統和觀測手段具有較大差異,例如衛星觀測與站點觀測存在明顯不同;另一方面表現為數據格式的異構性,即不同類型數據的存儲形式及結構差異較大,這些特性成為了氣象海洋大數據的應用巨大挑戰。
目前,數據同化方法主要有變分同化方法和集合卡爾曼濾波方法,借助先進的數據同化技術能夠將高質量的大氣和海洋觀測有效地集成到預報場(第一猜測場)[11-14],從而提升初始條件的精度,圖4展示了一個數據同化循環的流程。目前,數值天氣預報系統借助數據同化技術廣泛吸收了地面、衛星、船舶等大量觀測數據,提供了大氣、海洋和陸地表面的重要信息(例如A-train等衛星觀測的大氣要素信息)。隨著觀測數據質量的改善,特別是來自衛星的觀測數據不斷增加,以及地球系統模型和數據同化技術的不斷升級,現代中期天氣預報水平得到了大幅提升。然而,隨著高時空分辨率的地球系統觀測數據呈指數級增加,以及物聯網背景下全新觀測系統的應用,傳統的數據處理技術已經捉襟見肘。為應對氣象海洋觀測大數據的挑戰,以深度學習為代表的數據驅動方法成為了資料同化領域研究人員關注的熱點。

圖4 數據同化流程圖
近年來,深度學習算法快速發展,在觀測數據質量控制、觀測偏差校正等方面表現出巨大的潛力,為改善數據同化技術提供了新的途徑和手段[15-17]。相關研究表明,機器學習和傳統數據同化方法在數學上具備等價性,使得神經網絡在數據同化領域的應用具備了堅實的理論支撐。有關學者利用神經網絡模型代替傳統數據同化算法(例如三維變分同化、集合卡爾曼濾波以及粒子濾波),結果表明,在訓練數據充足且準確性高的情況下,基于神經網絡的數據同化模型能夠獲得理想的分析場,其同化質量接近于傳統的同化方法,但其計算效率更高、實現過程更加簡單。然而,基于神經網絡的數據同化模型存在的問題也不可忽視,即神經網絡模型對于觀測數據的質量極其敏感,當觀測數據存在噪聲干擾以及觀測數據量不足時,同化質量將會明顯降低。因此,如何提高神經網絡模型的魯棒性,高效利用不同程度噪聲干擾的觀測數據,提升數據同化效果,充分挖掘氣象海洋觀測大數據的潛在價值、發揮深度學習的優勢,仍面臨諸多挑戰,需要進一步加強理論研究和實踐探索。
近年來,數值天氣預報模式不斷向著精細化方向發展,模式分辨率顯著提高。然而,即使最先進的數值天氣預報模式仍然難以描述許多小尺度天氣過程,圖5展示了地球系統模式中的次網格過程。目前,為了解決上述小尺度天氣過程難以描述和預報的問題,一般采取次網格物理過程參數化方法。對于無法被模式解析的次網格過程,例如大氣系統內部以及與外界的小尺度輻射、對流和擴散過程,研究人員開發了各種參數化方案,通過這些參數化方案描述次網格過程中的熱量和動量收支,從而提升數值預報的質量。

圖5 地球系統模式中的次網格過程
相關研究表明,借助海量的氣象海洋大數據,深度學習能夠顯著改善數值預報模式物理過程參數化效果,有效提升計算效率及精度[19-20]。在訓練數據充足的情況下,深度神經網絡模型能夠有效地刻畫次網格物理過程,與傳統的次網格物理過程參數化方案相比,大數據驅動下的深度神經網絡參數化方案能夠顯著提升模式預報效果,且計算效率得到顯著提升。然而其劣勢也不可忽視,由于缺乏物理規律的約束,基于神經網絡的參數化方案往往不滿足能量守恒等物理性質。盡管存在諸多問題,但采用數據驅動的神經網絡模型替換傳統的參數化方法依然方興未艾。
由于大氣系統的混沌特性,數值天氣預報產品質量嚴重依賴于初始場的準確性。此外,數值模式中存在對大氣與海洋系統的近似假設,導致模型預測結果不可避免地存在誤差,因此量化天氣預報的誤差及其不確定性是一項極其重要的任務,特別是對于預測極端天氣事件。集合預報是目前解決大氣與海洋預報不確定性問題的重要手段,由于集合預報系統由加入不同擾動的數值天氣模式組成,因此計算量巨大。鑒于集合系統高昂的計算成本,并且經常涉及大量的統計學后處理過程,尋求簡單且廉價的數值產品訂正與后處理方式成為了現階段的重要任務。
目前,機器學習算法已經被廣泛應用于預報模式產品的校正與后處理[21-23],如基于支持向量機的海霧預報校正、基于深度神經網絡的風速預報校正、基于對抗神經網絡的降水位置訂正等。研究表明,深度學習方法能夠從數值天氣預報的海量模擬數據中挖掘隱藏的高維信息,從而構建數值天氣預報產品偏差特征,為數值天氣預報偏差訂正研究和業務實踐開辟了新的方向。在足夠多的訓練數據支撐下,機器學習模型的結果普遍優于傳統的統計后處理方法。可以預見,在氣象海洋大數據的驅動下,通過不斷改進神經網絡模型以及優化算法,將顯著提升預報產品的質量,進而提升對災害性天氣氣候的預警能力。圖6給出了一個氣象海洋大數據驅動下的智能化數值天氣預報產品訂正模型。

圖6 氣象海洋大數據驅動下的智能化數值天氣預報產品訂正模型
在天氣預報領域,數據驅動的深度學習模型具有設計方法簡單的優勢,且相比于龐大的數值天氣預報模式,其計算成本大大降低,并且可以利用GPU資源進行加速,因此研究人員致力于開發數據驅動的天氣預報模型[24-26]。基于再分析數據或觀測值進行訓練,數據驅動模型可以避免數值預報模型中存在的限制,例如對流參數化方案中的偏差將嚴重影響降水預報。此外,與只能包含少量集合成員的傳統數值天氣預報模型相比,大數據驅動的集合可以改善次季節到季節的預測。大集合有助于改善短期和長期預測中極端天氣事件的預測水平。
深度神經網絡代理模型的預報水平嚴重依賴于訓練數據集的大小以及天氣過程的時空尺度。不可忽視的是,純數據驅動的預報模型的預報結果往往缺乏物理可解釋性。地球系統作為一個復雜系統,受到不同時空尺度物理規律的制約。在過去幾十年里,關于多尺度物理過程相互作用的研究取得了巨大進展,通過使用有限差分、有限元以及譜方法數值求解偏微分方程(PDE),取得巨大成功。如何將物理規律融合到數據驅動的機器學習模型,成為了當前數值天氣預報發展的挑戰與機遇。圖7給出了預報模型對數據及物理規律的依賴。近年來,內嵌物理神經網絡的發展為機理與數據融合的數值天氣預報研究提供了重要方向[27-29]。圖8給出了基于內嵌物理神經網絡求解大氣運動方程組的示意圖。未來,通過深入研究內嵌物理約束的人工智能框架,發展出數據驅動與物理驅動相互支撐的新一代數值天氣預報系統,可以保證數值預報產品的準確性、實時性以及可靠性要求。

圖7 預報模型對數據及物理規律的依賴

圖8 基于內嵌物理神經網絡求解大氣運動方程組的示意圖
隨著大數據和新一輪人工智能技術的興起,數值天氣預報模式正在發生革命性轉變,不斷向以數據驅動為核心的新范式發展。本文針對氣象海洋大數據在數值天氣預報中的應用這一重要課題,對氣象海洋大數據的內涵、分類及其特征進行簡要介紹和分析,論述了氣象海洋大數據在資料同化、物理過程參數化、數值預報產品訂正等方面的應用現狀及巨大潛力。相信在未來氣象海洋大數據將廣泛應用于數值天氣預報領域,人工智能與大數據挖掘技術將成為推動數值天氣預報發展的重要驅動力。最后,仍需要高度重視數據驅動模型的可解釋問題,深入研究內嵌物理約束的人工智能框架,發展數據驅動與物理驅動相互支撐的新一代數值天氣預報系統,保證數值預報產品的準確性、實時性以及可靠性。