王式太,張定紅,殷 敏* ,張博宇,程 波
(1.桂林理工大學 測繪地理信息學院,廣西 桂林 541006;2.廣西空間信息與測繪重點實驗室,廣西 桂林 541006;3.山東省地質測繪院,山東 濟南 250002)
降雨作為最常見的氣象活動之一,對人們的生產生活產生著重要影響。雖然降雨現象在不同的氣候、區域和季節會表現出一定的差異性[1],但目前一般認為降雨是在溫度、氣壓、相對濕度和大氣可降水量(Precipitable Water Vapor,PWV)等多種要素的綜合影響下發生,且PWV在很大程度上決定降雨強度[2]。相比探空站、微波輻射計等傳統PWV測量手段,全球導航定位系統(Global Navigation Satellite System,GNSS)反演PWV由于能得到低成本的連續觀測值[3-4],在降雨短臨預報中得到了廣泛的應用。文獻[5]通過最小二乘方法擬合GNSS-PWV時序,通過分析PWV變化閾值達到預報強降雨的目的,并指出僅使用PWV閾值作為預報降雨的方式會導致誤報率偏大;文獻[6]通過對浙江地區連續運行參考站數據的分析,在不同月份設定不同PWV閾值作為判斷降雨的條件建立模型,達到80%降雨準確預報率;神經網絡模型由于能夠擬合復雜過程被廣泛應用于降雨預報[7-9];文獻[10]通過基于PWV的多種數據,逐個月份構建多隱層的反向反饋神經網絡預報降雨模型,能夠預報出95%以上的降雨,并且誤報率與傳統方法相當。
然而在降雨發生的過程中,PWV數值會產生規律性變化,基于單個時段內PWV數值的降雨預報可能會忽視PWV連續變化的時間特性對于實際降雨現象的影響。因此,本文提出使用LSTM神經網絡擬合PWV時序數據,在顧及時序變化的基礎上,試圖分析多種氣象要素對構建模型的影響,來提高模型的預報能力;并在不同的時間尺度下分別構建預報模型,以評估模型對不同時間尺度降雨信息的敏感性,得到一個基于局部地區的最優預報模型。
由地基GNSS接收文件可解算得到對流層天頂總延遲(Zenith Total Delay,ZTD),并使用Saastamoinen模型計算天頂干延遲(Zenith Hydrostatic Delay,ZHD),結合式(1)、式(2)即可求得天頂濕延遲(Zenith Wet Delay,ZWD)和測站上空的PWV[11]:
ZWD=ZTD-ZHD,
(1)
(2)

為計算PWV,還需要得到測站實時的大氣加權平均溫度(Tm),Tm真實值是由測站上空水汽壓和絕對溫度沿天頂方向積分計算,整理可以得到如下形式:
(3)
式中,T為地表溫度;e為水氣壓;dH中的H為位勢高度;Δhi表示第i層大氣的高度差,n表示層數;Ti和ei分別表示第i層大氣的平均溫度和水汽壓數值[12-14]。
水汽壓為:
(4)
式中,es為飽和水汽壓;Td為大氣溫度;RH為大氣濕度。
使用探空站計算的Tm時間間隔為12 h,因此需要擬合Tm模型,用于解算逐小時觀測的GNSS數據[15-16]。
由于在實際的氣象活動中降雨發生的時刻遠少于不發生降雨的時刻,因此選取降雨較為頻繁的海南省海口市作為研究區域,減弱神經網絡訓練中過擬合現象。2015—2017年海口探空站的Ts和Tm的如圖1所示。

圖1 海口站Ts和Tm散點Fig.1 Scatter plot of Ts and Tm at Haikou station
從圖1中的散點分布可知,Ts和Tm存在明顯正相關的線性關系,利用最小二乘法擬合Ts和Tm,得到的Tm模型:
Tm=109.24+0.60×Ts。
(5)
將Tm模型應用于海口陸態網站點,結合式(1)和式(2)即可獲取1 h分辨率的高精度PWV序列。
使用2015—2017年海口陸態網站點的觀測數據,分4個季節驗證單個PWV數值對于降雨的影響。將同一季節所有降雨發生時刻前一小時PWV的均值作為閾值條件判斷是否降雨,當PWV數值大于閾值時判定為發生降雨,使用閾值重新判斷未發生降雨的歷元,當未發生降雨歷元的PWV大于閾值時,即認定為誤報降雨,以誤報降雨的歷元和實際不降雨的歷元的比值作為評價標準,當其數值越小則表明PWV數值對降雨的影響越大。結果如表1所示。

表1 PWV預報降雨方法的錯誤預警率Tab.1 Error warning rate of PWV rainfall forecasting method
由表1可以看出,在不同季節,PWV數值存在較大差異,如在2—4月中降雨PWV均值為36.29 mm,在8—10月中降雨PWV均值為60.34 mm,因此,在分析PWV對于降雨的影響時需要分季節驗證。使用PWV閾值方法總體的錯誤預警率為28.3%,此種統計方法還未算入實際發生降雨,但PWV小于閾值被錯誤判斷為不降雨的現象,因此僅僅使用單個PWV數值作為判斷是否降雨的依據缺乏可靠性。
通過構建4個不同季節降雨過程中PWV和降雨量的時序對比,初步分析PWV變化特征與實際降雨發生時間的關系,PWV和實際降雨的時序對比如圖2所示。
由圖2可知,在降雨發生前一定時間內PWV會迅速增加,表現出峰值,在峰值出現后的一定時間內發生降雨,當降雨實際發生時PWV會由于冷凝現象減少,而且PWV的降低會隨著降雨持續時間和降雨強度的增加表現出更大的幅度,如年積日為11的降雨現象中,由于降雨的持續時間近36 h,導致PWV數值在此時間段內表現出持續的降低。整體而言,PWV在降雨發生時伴隨著降低的趨勢,且PWV數值的減小先于降雨發生,因此利用PWV與降雨的負相關關系來預報降雨具備可行性。

(a) 年積日

(b) 年積日

(c) 年積日

(d) 年積日圖2 2015年PWV和逐小時降雨量的時序對比Fig.2 Time series comparison of PWV and hourly rainfall in 2015
為了驗證PWV出現峰值與發生降雨的確切關系,通過延長對比時間構建PWV逐小時的變化量與實際降雨量的時序對比,如圖3所示。

(a) 年積日

(b) 年積日

(c) 年積日

(d) 年積日圖3 2015年PWV逐小時變化值和逐小時降雨量的時序對比Fig.3 Time series comparison of hourly variation of PWV and hourly rainfall in 2015
當降雨發生前一定時間內PWV變化值存在一個迅速增加,繼而迅速減小的過程,但是當實際無降雨發生時PWV也會因為大氣活動(如大氣環流)而出現類似的波狀起伏。雖然無降雨發生時PWV波動相比于強降雨時的PWV波動幅度較小,但仍會對普通降雨產生干擾。這一結論表明,降雨現象作為一個復雜的大氣演變結果,PWV單一數值難以準確預報降雨,因此在LSTM降雨短臨預報模型的構建中還應加入地面溫度、地面氣壓、大氣濕度、PWV變化值等其他參數輸入,以達到提高預報降雨準確率的目的。
LSTM是一種計算時間序列的神經網絡,通過對存在時序特征的數據樣本訓練,能夠達到對數據擬合和預測的目的[17]。LSTM神經網絡的輸入數據為一個指定長度的時序信息,相鄰時間步的隱含層分別計算權重,具備前后時間相連的特點;在模型回歸過程中通過忘記門機制抑制梯度消失,從而更好地收斂;LSTM還具備記憶性,能夠匹配時序數據長期特征的同時顧及短周期的變化特征,這一擬合機理與實際降雨現象的季節性周期變化具有類似的特點。
實驗中地面溫度、地面氣壓、大氣濕度3種數據從氣象站獲取,由于海口氣象站和海口陸態網站點高度不同,使用氣溫垂直插值公式和氣壓垂直插值公式[18]將溫度和氣壓歸算至陸態網站點同一高度,PWV變化值通過2個相鄰的時刻數值相減得出,逐小時降雨量采用氣象站觀測數據。
對數據的預處理包括剔除存在數據缺失的序列,并且由于LSTM模型需要輸入連續12個時刻的觀測值,所以對于存在空缺值的時序數據都需要剔除,避免錯誤數據對模型產生干擾。
以海口陸態網站點2015—2016年的觀測數據作為訓練樣本,通過輸入連續12個時序的地面氣壓、地面溫度、大氣濕度、PWV和PWV變化值5種參數訓練模型,用2017年的數據作為測試集,檢驗LSTM神經網絡模型短臨預報降雨的能力,最終的數據樣本數量如表2所示。

表2 數據樣本量Tab.2 Data sample size
用準確率(True Detection,TD)和誤報率(False Alarm,FA)兩個參數來評估LSTM模型預報降雨的可靠性、穩定性,其計算方法如式(6)和式(7)所示。其中錯誤預報降雨次數指實際沒有發生降雨,但模型預報該時段發生降雨的次數;錯誤預報不降雨次數指實際發生降雨,但模型預報該時段不發生降雨的次數,即:

(6)

(7)
通過控制變量的方法依次剔除地面溫度、地面氣壓、大氣濕度和PWV變化值訓練短臨降雨預報模型,以全部5種數據輸入的樣本訓練作為對比,比較分別缺失4種數據對于LSTM模型構建短臨降雨預報的影響,訓練中均已1~2 h尺度內是否降雨作為預測結果,預報降雨的能力如圖4所示。

圖4 不同氣象數據對降雨預報的影響Fig.4 Influence of different meteorological data on rainfall forecast
由圖4可知,氣壓、地面溫度、PWV變化值和大氣濕度均能一定程度上提升LSTM模型短臨預報降雨的能力。其中地面溫度對于模型的改善較弱,在準確率和誤報率基本相同的情況下僅能略微提升降雨預報率;PWV變化值和大氣濕度均能明顯增加準確率;氣壓的加入能全面提升預報能力。因此將地面溫度、地面氣壓、大氣濕度、PWV變化值和PWV五種數據作為訓練樣本的輸入參數能提高模型的可靠性。
為了探究海口地區LSTM網絡模型對于預報降雨的最佳預警時間,在以相同的輸入數據的前提下,分別以輸入時序的1~2 h內是否降雨、1~3 h內是否降雨、1~4 h內是否降雨、1~5 h內是否降雨、1~6 h內是否降雨一共5種時間尺度的預報作為訓練結果,比較不同時間尺度預報對應的準確率、誤報率以及準確預報降雨次數,從而得出最佳的預報時間。訓練模型的準確率、誤報率、準確預報降雨次數和降雨預報率如表3所示。

表3 不同時間尺度預報對應的TD和FATab.3 TD and FA corresponding to different forecast time scales
從表3中可知,使用LSTM預報降雨,其平均準確率為66.8%,略優于傳統方法63%的準確率;平均誤報率為10.7%,相較于傳統方法36%有較大改善,但總體準確預報目標區域降雨的比例偏低,約37.4%,分析其原因可能為熱帶氣候的水汽變化迅速,具備一定混沌性,LSTM模型在訓練過程中存在部分過擬合現象。從表中可知針對海口地區的LSTM神經網絡短臨預報降雨模型,當預報時間設為1~6 h的情況下,其總體預報能力最優,準確率65.8%與傳統方法相當,誤報率為7.8%,能夠準確預報47.3%的降雨;設置預報時間為1~5 h的情況下,預報能力次優,準確率和誤報率都有所改善,能夠預報31.3%的降雨;當設置預報時間為1~2 h的情況下,準確率達到最大值67.5%,同時維持較低的誤報率,但只能預報25.1%的降雨;1~4 h預報時間到得的模型各項指數都比較均衡;1~3 h預報時間的模型整體性能最差。
通過對比不同時間尺度對應的準確率和誤報率可知,1~6 h預報時間訓練得出的模型整體預報降雨性能最優,1~5 h的預報模型性能較優。
本文構建了基于多氣象參數的連續12個時序數據輸入的LSTM神經網絡降雨短臨預報模型,結論如下:
① 通過分析不同季節降雨發生過程中PWV的變化特性,均發現PWV在目標區域具有較為明顯的引導降雨作用,在降雨發生前約1~6 h PWV呈現規律性升高,表現出峰值,其中峰值突出越明顯則預示著實際降雨量越大,使用PWV作為預報降雨的參數具備可行性。并且相比使用單個時刻的PWV數值預測降雨,一個連續時序的PWV數據預測降雨具有更優的可靠性。
② 地面溫度、地面氣壓、大氣濕度和PWV變化值均能增加模型可靠性,使用連續12個時間序列的地面溫度、地面氣壓、大氣濕度、PWV和PWV變化值作為LSTM模型輸入參數,以預測時段內是否發生降雨作為訓練結果,得到的所有模型的平均準確率和平均誤報率2個參數分別優于傳統閾值方法約5%和25%。通過設置不同的預警時間進行訓練,最終得出針對目標區域1~6 h的預警的整體預報能力最優,1~5 h預報能力次優,整體誤報率下降顯著。