郭佰匯,吳 丹,范蘭艷,馮雪菲,王夢琳
(1.遼寧省朝陽市氣象局,遼寧 朝陽 122000;2.遼寧省朝陽市龍城區氣象局,遼寧 朝陽 122005;3.遼寧省朝陽縣氣象局,遼寧 朝陽 122000)
朝陽地區降水概率預報模型構建
郭佰匯1,吳 丹2,范蘭艷3,馮雪菲1,王夢琳1
(1.遼寧省朝陽市氣象局,遼寧 朝陽 122000;2.遼寧省朝陽市龍城區氣象局,遼寧 朝陽 122005;3.遼寧省朝陽縣氣象局,遼寧 朝陽 122000)
以朝陽地區2005—2013年5—9月降水量記錄為基礎資料,通過經驗法和Spearman、Pearson、Kendall's Tau-b相關系數3種相關性檢驗法,選出與預報對象相關性好的氣象要素作為預報因子。用Logistic回歸方法進行有無降水的概率預報,建立了朝陽地區降水概率預報模型。該預報方程具有較高的歷史擬合率,為90.7%。將2014年5月1日至10月31日個例作為樣本對方程進行檢驗,當規定降水概率≥40%為有降水時,晴雨預報準確率最高,為86.26%,高于朝陽地區本地晴雨預報準確率3.29百分點,表明該方法對朝陽地區降水具有很好的預報效果。
降水概率預報;Logistic回歸;相關系數法
降水是大氣系統相互作用的結果,它具有小尺度易變性等特點,在時空分布上具有隨機性,因此發布絕對準確的降水預報是不可能的。以往的定性預報用簡單的“有”或“無”來描述降水,人為的增大了預報誤差。概率預報則以百分率形式對降水出現的可能性大小作出判斷,較真實地反映了降水的不確定性,使預報更科學,更客觀,更具參考價值。
Logistic回歸模型在建立公式時較簡單,在理論、數學模型及實用上卻都具有很強的生命力。該方法首先是CoxD.R.提出,后經Day N.E.和Korriage D.F.發展,又由Anderson J.A.改進[1-3]。由于大氣是一個高度非線性的混合系統,而模式的初始場只是大氣真實狀態的近似,數值模式所描述的大氣過程也是非真實的大氣過程,所以單一的確定性預報水平的提高已經變得越來越困難,概率預報成為天氣預報發展的必然趨勢。Logistic回歸模型試用于大量的觀測因變量是二分類變量[4],符合降水發生和不發生的特性,并且它是非線性的,符合大氣是非線性的系統的本質。
1.1 資料選取
選用朝陽地區國家基準站朝陽縣氣象觀測站(站號54324)2005—2013年5—9月常規地面氣象觀測站觀測歷史數據文件(A文件)實況氣象資料作為建立預報方程的基礎資料,選用2014年5—10月朝陽縣站的A文件資料作為預報方程檢驗的資料,選用朝陽市2014年5—10月晴雨預報資料作為方程檢驗結果的對比資料。
1.2 方法
1.2.1 相關系數 Pearson相關系數用來判定兩個數據集合是否在一條線上面,它用來衡量定距變量間的線性關系。當兩個變量都是正態連續變量,而且兩者之間呈線性關系時,表現這兩個變量之間的相關程度用Pearson相關系數。
Spearman相關系數利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬于非參數統計方法,適用范圍要廣些。對于服從Pearson相關系數的數據亦可計算Spearman相關系數,但統計效能要低一些。
Kendall's Tau-b相關系數用于反映分類變量相關性的指標,適用于兩個分類變量均為有序分類的情況。

1.2.3 因子篩選 因子的選擇是影響預報模型準確性的一個重要因素。先對因子進行粗選,以將日常進行降水預報的經驗為依據,選擇降水預報時會考慮到的各氣象要素,包括降水、氣壓、10 min風向風速、相對濕度、總云量、低云量作為入選因子;這些入選物理量的平均值、最大值、最小值、變化值都作為建立預報模型的一個因子,其中考慮引入24 h變壓(P24)、平均氣壓(Pagv)、最高氣壓(Pmax)、最低氣壓(Pmin)、平均相對濕度(Uagv)、最大相對濕度(Umax)、最小相對濕度(Umin)、平均總云量(Zagv)、最大總云量(Zmax)、最小總云量(Zmin)、平均低云量(Dagv)、最大低云量(Dmax)、最小低云量(Dmin)、10 min平均風速(FV10agv)、2時次10 min風向(F2)、8時次10 min風向(F8)、14時次10 min風向(F14)、20時次10 min風向(F20),將這些要素作為待選的預報因子,降水量(R)作為預報對象。
完成因子粗選后進行因子的精選,通過計算粗選因子與預報對象R之間的線性相關系數,挑選相關系數的絕對值較大的各物理量為入選因子,入選因子要通過信度為0.05的相關檢驗,才能作為精選因子,最后建立預報模型。
在進行相關性檢驗時,選用Spearman相關,Pearson相關和Kendall's Tau-b相關3種相關性檢驗方法對粗選因子進行篩選,根據以上3種相關性檢驗方法,計算得降水量R與各要素之間的相關性如表1。

表1 R與各要素間相關性檢驗
對各檢驗方法得出的檢驗統計量進行分析,Pearson相關的檢驗統計量的平均值明顯大于Spearman相關和Kendall's Tau-b相關,Spearman相關和Kendall's Tau-b相關的檢驗統計量的平均值基本相同,表明這兩種相關性檢驗中各要素對R的總體相關性更優。以 Spearman相關和Kendall's Tau-b相關檢驗的結果作為因子精選的參考,發現這2種檢驗方法篩選出的因子是相同的,最終選取了13個物理量(Pagv、Pmax、Pmin、Uagv、Umax、Umin、Zagv、Zmax、Zmin、Dagv、Dmax、Dmin、FV10agv)作為建立預報模型的因子。
利用2005—2013年5—9月共1 377 d的歷史個例樣本,由所篩選出的13個氣象要素因子,通過Logistic回歸方法建立朝陽地區降水概率預報方程如下。

經檢驗,該預報方程具有較高的歷史擬合率,為90.7%,采用似然比檢驗、SCORE檢驗、Wald檢驗,Pr>ChiSq且都小于0.000 1,說明預報因子對預報對象的影響是顯著的,所建立的降水概率預報方程是有意義的。將2014年5月1日至10 月31日8:00~8:00時時段共182 d的個例作為樣本進行試報,182 d的天氣個例中,48 d出現降水(其中5 d為微量降水),134 d無降水。分別以10%~50%作為劃分是否預報出現降水的概率,對降水預報結果如表2。

表2 晴雨預報準確率 %
從結果可以看出,當劃分概率為40%時,晴雨預報準確最高,為86.26%。對比朝陽市本地預報結果,在2014年5—10月期間朝陽地區8:00~8:00時時段的晴雨預報準確率為82.97%,這比本文預報方法的準確率低了3.29百分點,可見用logistic回歸模型建立的降水預報模型對于朝陽地區的預報效果是非常好的。
將降水作為預報對象,以A文件中部分資料作為預報因子,并用經驗法和相關性檢驗法對預報因子進行粗選和精選,通過logistic回歸方法,建立了朝陽地區降水概率預報模型。利用2005—2013年5—9月資料建立的方程具有較高的歷史擬合率,為90.7%。將2014年5月1日至10月31日個例作為樣本對方程進行檢驗,當規定降水概率大于等于40%為有降水時,晴雨預報準確率最高,為86.26%,高于朝陽地區本地晴雨預報3.29百分點,表明該方法對朝陽地區降水具有很好的預報效果。當然,該預報方法還有一定的不足,在建立方程以及檢驗方程時,只應用了降雨資料,未考慮降雪以及秋冬季、冬春季交替時常出現的雨夾雪等情況,這些需要在以后的研究中不斷補充。
[1] COX D R.Some procedure associated with the logistic qualitative response cure[C]//Neyman Ed,F N David Research Rapers in Statistics:Festschrift for J.New York:Wiley,1966.
[2] BOCCHIERI J R.Use of the logicmodel to transform predictors for precipitation type forecasting[C]//Amer:Preprint 6th Conf.on Probability and Statistics in Atmos Sci Amer:Meteor Soc,1979.
[3] 紀玲玲,王昌雨,張志華.Logistic回歸及其在概率降水預報中的應用[J].解放軍理工大學學報,2003,4 (5):92-94.
[4] 汪海波,羅莉,吳 為,等.SAS統計分析與應用[M].北京:人民郵電出版社,2013.
[5] 呂純濂,陳杰倫.Logistic及其在氣象上的應用[J].南京氣象學院學報,1982,5(1):112-123.
[6] 萬夫敬,袁慧玲,宋金杰,等.南京地區降水預報研究.南京大學學報,2012,48(4):513-525.
[7] 湯 浩.新疆降水概率預報技術研究.新疆氣象,2003,26(1):5-7.
[8] 黃永新.南寧市降水概率預報方法研究.廣西氣象,1997,18(1):49-52.
(本文責編:陳 珩)
P456.8
A
1001-1463(2015)07-0031-03
10.3969/j.issn.1001-1463.2015.07.011
2015-04-23
遼寧省朝陽市項目《基于logistic模型的降水概率預報》
郭佰匯(1989—),女,遼寧朝陽人,助理工程師,主要從事天氣預報預警研究工作。聯系電話:(0)13591876815。E-mail:guobaihui@sina.com