彭宇翔,文繼芬,李 皓,劉 濤,唐辟如,郭 茜
(1.貴州省人工影響天氣辦公室,貴州 貴陽 550081;2.貴州省氣象災害防御技術中心,貴州 貴陽 550081;3.貴州省氣象信息中心,貴州 貴陽 550002)
FY-2G衛星觀測資料是目前我國人工影響天氣業務主要使用的衛星資料,中國氣象局人工影響天氣中心基于FY-2G衛星提供的云頂高度、云頂溫度、過冷層厚度、光學厚度、有效粒子半徑、液水路徑、黑體亮溫等7項反演產品在我國人工影響天氣監測預警業務中發揮了重要作用。
近年來,很多學者利用衛星紅外云圖、可見光、中波紅外等資料針對對流云的識別開展了研究[1-5],倪煜淮等[3]利用FY-2D逐小時亮溫資料對2019年一次冰雹天氣過程進行了分析研究;針對衛星反演產品也有相關研究,安曉存等[5]分析了云頂亮溫、云頂亮溫梯度特征與冰雹的關系;孫玉穩等[7]分析了1987年5次降雹個例的云系的云頂溫度與地面雹雨分布特征;劉小艷等[8]利用CPAS系統統計分析了冰雹個例中FY-2G衛星反演產品的特征參數及其時間變化。但是,現階段還沒有學者利用FY-2G衛星反演產品進行降雹識別研究。FY-2G衛星提供的反演產品雖已用于貴州人工影響天氣監測預警業務,但針對冰雹云的監測還主要是依靠地面雷達,衛星反演產品主要是對全省云系發展進行較大范圍的宏觀監測,且主要是依靠個人經驗進行主觀定性判斷,針對反演產品對降雹是否具有實質性的指示作用還沒有進行過深入研究。因此,本研究主要基于FY-2G衛星反演產品,建立決策樹降雹識別模型,驗證衛星反演產品對冰雹的識別作業。
本文以FY-2G衛星的反演產品為輸入參數建立決策樹模型,利用檢驗集數據檢驗模型識別效果,檢驗衛星反演產品對降雹識別研究的有效性。
FY-2G是風云二號(03批)衛星中的第二顆衛星,于2014年12月31日成功發射,自2015年7月1日開始定位于105°E赤道上空,并提供觀測服務,是目前我國人工影響天氣業務主要使用的衛星資料,中國氣象局人工影響天氣中心基于FY-2G衛星提供的云頂高度、云頂溫度、過冷層厚度、光學厚度、有效粒子半徑、液水路徑、黑體亮溫等7項反演產品在我國人工影響天氣監測預警業務中發揮了重要作用。
本文收集了2020年3—5月11個冰雹日136組FY-2G衛星反演產品數據,其中包括了68個降雹點數據和68個未降雹點數據,每個降雹點選取降雹時段之前或者之后15 min內的反演產品作為該時段的反演數據,選取該11個冰雹日中未降雹點的反演數據作為對比。將該數據集分為模型訓練集和模型檢驗集。從中隨機選取116組數據作為模型訓練集用于訓練模型(其中包括58組降雹點和58組未降雹點數據),剩余20組數據作為模型檢驗集(其中包括10組降雹點和10組未降雹點數據)。
決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。樹中每個節點表示某個對象,每個分叉路徑代表某個可能的屬性值,每個葉結點對應從根節點到該葉節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復數輸出,可以建立獨立的決策樹以處理不同輸出。數據挖掘中決策樹是一種經常要用到的技術,可以用于分析數據,同樣也可以用來作預測。

圖1 決策樹模型示意圖Fig.1 Schematic diagram of decision tree model
從數據產生決策樹的機器學習技術叫做決策樹學習。每個決策樹都表述了一種樹型結構,由它的分支來對該類型的對象依靠屬性進行分類。每個決策樹可以依靠對源數據庫的分割進行數據測試。決策樹如果依靠數學的計算方法可以取得更加理想的效果。
在2020年3—5月11個冰雹日136組FY-2G衛星反演產品數據中隨機選取116組數據作為模型訓練集用于訓練模型(其中包括58組降雹點和58組未降雹點數據),利用MATLAB軟件完成決策樹模型建立。
2020年3—5月11個冰雹日136組FY-2G衛星反演產品數據中建模隨機選取116組數據后剩余的20組數據作為模型檢驗集(其中包括10組降雹點和10組未降雹點數據)對模型識別效果進行檢驗,結果顯示:所建決策樹模型對訓練集中10個降雹點準確識別了7個,3個降雹點被識別為未降雹點;對10個未降雹點準確識別了9個,1個未降雹點被識別為了降雹點。
可見,所建決策樹模型對降雹與未降雹點總的識別準確率為80%,其中對10個未降雹點識別準確率為90%,對10個降雹點識別準確率為70%。這表明該模型對所建立數據集中的未降雹點識別準確率高于降雹點的識別準確率;將降雹點識別為未降雹會導致實際業務中的漏報,而將未降雹點識別為降雹點會導致空報,因此,所建立的模型空報率為10%,漏報率為30%,空報率低于漏報率。
本文以FY-2G衛星的反演產品為輸入參數建立決策樹模型,對2020年貴州冰雹云進行識別研究,所使用的7項反演產品包括:云頂高度、云頂溫度、過冷層厚度、光學厚度、有效粒子半徑、液水路徑、黑體亮溫。將收集的2020年3—5月11個冰雹日136組FY-2G衛星反演產品數據,其中包括了68個降雹點數據和68個未降雹點數據分為模型訓練集和模型檢驗集。從中隨機選取116組數據作為模型訓練集用于訓練模型,完成決策樹模型建立,利用剩余20組數據作為模型檢驗集,驗證模型識別效果。結果表明,所建模型冰雹識別準確率為80%,其中對10個降雹點識別準確率為70%,對10個未降雹點識別準確率為90%,這表明該模型對所建立數據集中的未降雹點識別準確率高于降雹點的識別準確率。將降雹點識別為未降雹會導致實際業務中的漏報,而將未降雹點識別為降雹點會導致空報,所建立的模型空報率(10%)低于漏報率(30%),這表明該模型如果投入人工影響天氣冰雹識別業務,則該模型的空報率較低,但存在一定程度的漏報。