高佳琦,李東宇,朱曉晨*,王燦月
(1.南京水利科學研究院,南京 210017;2.水利部南京水利水文自動化研究所,南京 210012;3.南京信息工程大學應用氣象學院,南京 210044)
梅雨是東亞地區獨特的天氣氣候現象,在中國主要于每年6、7月發生在江淮流域[1],常年平均降水量可達200 mm以上,占該區域夏季降水總量的40%以上[2]。在氣候變化背景下,極端降水事件發生期顯著延長,與國民經濟發展和人民生活關系更為密切[3]。學術界對梅雨的早期研究著眼于鋒和氣團[4],后期開始重視梅雨與環流背景的聯系尤其是副熱帶高壓的作用,陸續有學者提出長江中下游梅雨與副熱帶高壓脊線、副熱帶高壓單體分布和西南氣流等有關。陳隆勛等[5]數值模擬指出,青藏高原熱源是形成梅雨的主要因子。王裁云[6]分析認為南海高壓強度可用于梅雨量預報。費建芳等[7]研究表明,江淮梅雨受夏季印度熱帶季風環流、東亞熱帶環流及副熱帶環流系統相互作用。徐海明等[8]研究發現,北半球冬季大型環流顯著影響入梅早晚。李曾中等[9]研究認為,越赤道氣流異常是造成梅雨期暴雨的主要原因。侯建華等[10]研究認為ENSO(El Nino Southern Oscillation)事件會使皖西地區當年春夏季降水增加超過50%。
21世紀以來,學術界普遍采用先進信息技術與降水相關研究結合的方法。王坤等[11]利用綜合采樣人工合成數據算法(SMOTE)和邏輯回歸模型算法建立短時強降水潛勢預報模型。劉全金等[12]將基于遺傳算法的BP(back propagation)網絡應用于安徽安慶市區的梅雨量預測。朱天一等[13]利用支持向量機(support vector machines,SVM)結合多種算法進行梅雨量預測研究。霍鳳嵐等[14]將隱馬爾可夫鏈應用于安徽降水特征研究。宋星原等[15]將小波分析-支持向量機組合模型應用于流域降水量預測研究。
自組織映射(self-organizing map, SOM)是基于無監督神經網絡的客觀分型方法,它能在保持高維數據拓撲結構的同時將其映射到低維空間,實現降維的作用[16],不僅可以對氣象數據進行聚類,還可以反映不同聚類的氣象數據典型特點,結合理論實際得出氣象數據與實際天氣特征的內在聯系。Elizabeth等[17]將其應用于極地地區大氣環流分型。Skific等[18]基于SOM算法討論北極大氣水汽輸送與地面環流的關系。閔晶晶等[19]利用SOM將京津冀地區強對流天氣形勢分為四類,并具體分析了各個分型下強對流天氣發生的基本特征。吳勝男等[20]分析得出長江中下游夏季25種地面天氣型及其系統演變特征。周璞等[21]用SOM降尺度方法進行了江淮流域逐日降水的模擬與預估,但該算法在西太副高與梅雨相關的研究尚屬空白。
鑒于此,利用1951—2016年西太平洋副熱帶高壓(Western Pacific subtropical high,WPSH,簡稱西太副高)西伸脊點和脊線位置數據,采用SOM算法進行聚類分析,并利用中國雨季歷年信息表梅雨監測數據、國家青藏高原科學數據中心中國1 km分辨率逐月降水量數據集[22-25]結合分析不同副高分型下的梅雨降水特征,研究梅雨期西太副高的變化特征及其對梅雨降水的影響,分析不同類型副高與梅雨降水特征的對應關系,有助于開展梅雨形勢預測研究。
SOM網絡,是最早由赫爾辛基理工大學教授Teuvo Kohonen提出的一種由全連接神經元組成的無監督網絡[26-29]。生物學研究指出,人腦細胞具有自組織性,在接收相似信息時,大腦皮層對應的區域會連續興奮,而不同區域則對應著不同類型的信息。SOM網絡應用了自組織性的生物學基礎,常被用于無監督的聚類計算。
經典的SOM網絡拓撲結構[29]如圖1所示,由輸入層和競爭層組成,競爭層即是輸出層。輸入層的節點為n維向量X=(X1,X2,…,Xn),對應n個輸入神經元,競爭層是由a×b=m個神經元構成的二維平面,其中a、b分別為競爭層二維平面神經元的行列數。輸入與輸出神經元之間通過權值向量相連,近鄰的輸出神經元之間也通過權值向量相連。

圖1 SOM網絡結構
SOM網絡的訓練步驟[30]如下。
步驟1輸入向量。輸入n維向量X=(x1,x2,…,xn)以及輸入神經元i與m個輸出神經元之間的權值向量Wi(k)=[ωi1(k),ωi2(k),…,ωim(k)],其中k為訓練次數,初始值為0。
步驟2初始化。權值使用生成隨機值的方式進行初始化,隨機值取值范圍為[0,1],并對輸入向量和權值向量進行歸一化,可分別表示為

(1)

(2)

向量a的歐幾里得范數可表示為

(3)
選取與輸出神經元j鄰域值為d的鄰域神經元,如圖2所示。以Sj(k)表示k時刻神經元j的鄰域神經元集合,隨著訓練次數的增加,鄰域值d會逐漸降低,集合Sj(k)也會逐漸減小。

白色圓圈為鄰域神經元
除初始化輸入和權值向量之外,還需要初始化學習率η(k),并設定最大訓練次數km,初始學習率取值范圍為0<η(0)<1。
步驟3內積競爭。在競爭層,計算各神經元權值向量和輸入向量的內積,內積最大的輸出神經元為獲勝神經元。對于已經歸一化的數據,求內積最大等價于求歐氏距離最小,即兩向量之差D的歐幾里得范數最小,其表達式為

(4)
標記歐氏距離最小的神經元為獲勝神經元,即輸出神經元,記為j*,并給出其鄰域神經元集合。
步驟4更新參數。更新輸出神經元j*及其鄰域神經元的權值,可表示為
ωij(k+1)=ωij(k)+η(k)[xi(k)-ωij(k)]
(5)
式(5)中:ωij為權值向量;學習率η(k)為隨著訓練次數k增加而逐漸下降到0的函數,可表示為

(6)
更新鄰域神經元集合Sj(k),并對訓練后的權值重新歸一化
步驟5判斷退出條件。判斷訓練次數k是否達到預設的最大值,若沒有則跳轉到步驟3,否則結束訓練。
研究區域基于《梅雨監測指標》(GB/T 33671—2017)規定的梅雨監測區,由南到北分為江南區(Ⅰ)、長江中下游區(Ⅱ)和江淮區(Ⅲ)。區域內共277個各級氣象觀測站,如圖3所示。其中江南區65站,長江中下游區157站,江淮區55站。提取其代表氣象站所在市級行政區合成作為研究的梅雨區,區域橫跨7個省份,包含58個市(地級市、直轄市和省直轄市)。

圖3 梅雨區及氣象站位置示意圖
梅雨監測信息采用國家氣候中心(東亞季風活動中心)編寫的《東亞季風年鑒》的中國雨季歷年信息表[31],將江淮梅雨3個監測區1951—2016年梅雨期、雨量、梅雨強度及空梅情況匯總,如圖4所示。降水數據采用國家青藏高原科學數據中心提供的中國1 km分辨率逐月降水量數據集(1901—2020年),按梅雨區提取1951—2016年6月、7月降水量數據,每幅柵格圖像共計746 980個降水格點,如圖5所示。

白色方框為空梅

圖5 1951—2016年6月、7月平均降水量分布
國家氣候中心氣候系統診斷預測室提供的74項環流指數中,與西北太平洋副熱帶高壓有關的監測指標有面積指數(GM)、強度指數(GQ)、脊線指數、北界指數和西伸脊點指數,分別定義[32]如下。
(1)面積指數(GM)。描述西太副高范圍大小的指標,以500 hPa天氣圖上,10°N以北的110°E~180°E范圍內588位勢什米等值線包圍區域相對面積表示。
(2)強度指數(GQ)。描述西太副高強弱程度的指標,以500 hPa天氣圖上,10°N以北的110°E~180°E范圍內位勢高度大于588位勢什米等高度面為底的副熱帶高壓體的相對體積表示。
(3)脊線指數。描述西太副高南北位置的指標,以500 hPa天氣圖上,10°N以北的110°E~150°E范圍內位勢高度大于588位勢什米等值線的西太副高內緯向風切邊線的緯度平均值表示。
(4)北界指數。描述西太副高北部邊緣位置的指標,以500 hPa天氣圖上,10°N以北的110°E~150°E范圍內西太副高脊線以北位勢高度為588位勢什米等值線的緯度平均值表示。
(5)西伸脊點。描述西太副高最西點位置的指標,以500 hPa天氣圖上,10°N以北的90°E~180°E范圍內以西太副高西側位勢高度為588位勢什米的最西點經度值表示。
由2.3節中西太副高監測指數的定義可知,面積指數、強度指數、脊線位置、西伸脊點以及北界位置存在著部分趨同和相關特征。如北界指數表征西太副高最北邊緣緯度位置,脊線指數以西太副高北部緯向風切邊線位置的緯度平均定義。一般而言副高北部邊緣位置越偏北,北部緯向切變線理應同樣偏北,即北界指數和脊線指數可能存在某種相關性。由于預報因子的重復輸入會造成聚類結果誤差增大,因而需要提取代表因子以避免預報因子之間的相關性影響聚類結果。
參考趙俊虎等[33]的研究方法,對66年(1951—2016年)6月、7月平均的西太副高相關指數進行相關分析,計算結果如表1所示。結果表明:西伸脊點與強度指數和面積指數的相關性達到了-0.7以上,且均通過了顯著性檢驗,而脊線與北界位置相關系數為0.738,且通過了0.01的顯著性檢驗。因此,采用6月、7月西北太平洋副熱帶高壓西伸脊點和脊線位置作為西太副高的代表指標進行SOM聚類,進而研究不同副高分型下的梅雨降水特點。

表1 1951—2016年6月、7月平均西太副高指數相關系數
將西伸脊點作為經度參數,脊線位置作為緯度參數,對1951—2016年6月、7月西太副高西伸脊點、脊線指數作時間序列如圖6所示,可以看出,年際變化上,4組數據均表現出較大波動性,可見西太副高歷年位置變動波動較大,且會對梅雨降水產生重要影響。
月際變化上,如圖6所示,西伸脊點6月、7月平均值分別為118°E和120.8°E,方差分析得F值為1.375,查表得P=0.243,故在0.05顯著性水平下,二者總體均值并非顯著地不同,即西太副高6—7月的東移趨勢不顯著。脊線指數6月、7月平均值分別為20.5°N和25.4°N,方差分析得F值為165.334,查表得P<0.01,故在0.01顯著性水平下,二者總體均值是顯著不同的,即西太副高6—7月具有明顯的北跳特征。西太副高在同一年間6—7月的位置變化,尤其是緯向變化會對梅雨降水產生重要影響。

圖6 1951—2016年6月、7月西伸脊點、脊線指數年際變化
SOM算法要求提前確定分型數目,分型數目過多會造成各個分型所含的樣本過少,各分型之間失去區分度;分型數目過少則會加大同一分型內部的差異,降低分型的代表性。結合前人對副高分型研究和多次數值實驗后,選取分型數目為3×3。以6月、7月副高西伸脊點與脊線位置為輸入參量,對1951—2016年梅雨期副高SOM建立分型模型,計算結果如表2所示,其中輸出的SOM分型1-9型只表示類別,與具體的副高指數大小無關。

表2 1951—2016年6月、7月西太副高SOM分型
采用輪廓系數法[34]分析聚類分型結果,輪廓系數越接近于1,說明簇內樣本相似性好,且不同簇樣本差異性好,聚類結果就越好。將1951—2016年6月、7月西太副高西伸脊點、脊線指數歸一化后針對分型結果計算輪廓系數,如圖7所示。

圖7 不同SOM分型下輪廓系數圖
每個分型均包含輪廓系數大于0.5的樣本,過半數樣本輪廓系數大于0.4的分型有1型、3型、4型、5型、6型、8型。說明利用SOM算法對66年間(1951—2016年)梅雨區西太副高分型具有合理性,可以進行進一步研究。取各分型中輪廓系數最高樣本作為該分型典型年,如表3所示。

表3 西太副高不同分型典型年
將西伸脊點作為經度參數,脊線位置作為緯度參數,將9種分型典型年6月、7月西伸脊點和脊線位置分別投影到橫縱坐標繪圖如圖8所示。

數字為SOM分型
如圖8所示,SOM分型結果在空間上具有一定的規律性:1型西太副高偏東南且7月份北跳幅度較小,有明顯的東移;2型北跳幅度大,東西位置居中;3型偏中西部,北跳幅度小;4型居中,移動幅度小;5型偏中西部,北跳幅度小;6型偏西且遠離其他年份,北跳幅度大;7型6月份偏西北,7月有明顯西進;8型位于東北部,北跳東移幅度大;9型偏西,北跳幅度大。9種西太副高分型呈現不同位置和變化特點。
按梅雨區提取1951—2016年6月、7月降水格點數據,并分別計算6月、7月降水距平百分率,取各分型典型年6月、7月降水距平百分率圖代表本分型。
由圖9可知,9種副高分型下均對應呈現出不同的降水特點。結合不同分型的西太副高位置及變動分析,說明6月、7月西太副高的SOM分型對梅雨期降水研究和預測具有一定的指示作用,緯向上,當西太副高偏東時,梅雨區降水強度偏低(如1型7月、7型6月、8型7月),西太副高偏西時降水強度偏高(如3型)。可能的機理是:西太副高偏西偏強年份,副高外環流水汽輸送強,同時經向環流偏強冷空氣活躍,形成梅雨區普遍多雨;副高偏東偏弱年份,水汽輸送弱,冷空氣缺少,導致梅雨區普遍少雨。經向上,在西太副高主體位于中國陸地的前提下,西太副高偏北(脊線指數超過25°N)時,梅雨區大部被副熱帶高壓控制,整體降水偏少或在靠近北部、西部邊緣時降水增多(如6型7月、7型7月、9型);西太副高偏南時,副高控制區位于梅雨區南部邊緣及以南地區,此時降水整體偏多,或整體降水多帶有南部邊緣偏少,或降水呈現南多北少特點(如2型7月、3型7月)。可能的機理是受副高外圍風場水汽輸送影響,整體降水偏多,而當副高控制南部邊緣地區時就會造成對應位置高溫少雨,當副高位于更南位置時,梅雨區北部受副高外圍風場輸送作用弱,受其他因素影響會造成北部降水偏少。

圖9 不同分型下6月、7月降水量
分析利用西太副高五項監測指標,構建梅雨期西太副高SOM分型模型,得到9種西太副高SOM分型,并利用中國1 km分辨率逐月降水量數據集和中國雨季歷年信息表體現的降水特征進行不同西太副高分型下梅雨降水的特征分析。得出如下結論。
(1)66年間(1951—2016年)西太副高位置跳動頻繁,造成梅雨降水特點變化多:西太副高偏東時,梅雨區降水強度偏低,反之則強度偏高,副高控制梅雨區大部時,整體降水偏少,副高控制梅雨區南側時,水汽輸送導致梅雨偏強。
(2)相較于前人對西太副高與梅雨特征的研究,使用SOM 方法對西太副高進行聚類,既能對研究數據進行有效降維分析,又有得到比傳統分類方法更客觀的分型結果。在梅雨預測研究等方面仍有較大提升空間,如使用西伸脊點和脊線指數完全表征西太副高特征的精度有限,未來可以結合海溫、ENSO指數多種梅雨影響因子建立SOM梅雨特征預報模型,用于梅雨形勢預測等研究。