李曼,徐楠楠
(南京郵電大學通信與信息工程學院,南京210000)
準確地預知降水量的時空分布對農業、畜牧業、放牧、能源生產有著重要且直接的影響,與臺風、洪水、干旱和泥石流等災害也存在密切聯系。受地形、水汽來源等多因素影響,降水的時空差異性較大[1],因此,如何精確估計降水的時空特征仍然面臨著巨大的挑戰。降水的測量包括傳統的地面氣象站的測量,以及衛星遙感監測[2]。在偏遠山區,氣象站的雨量計相對稀少且分布不佳導致降雨量的測量困難。近幾十年來,衛星遙感監測在不斷地發展與進步,新一代的全球衛星降水(Global Precipitation Measurement,GPM)計劃[3],與以往的降水產品相比具有更高的精度,更大的覆蓋范圍,更高的時空分辨率[4]。但是衛星降水產品使用的是可見光/紅外傳感器、微波估計降雨量,其間接估計的性質,不可避免存在區域和季節性系統偏差和隨機誤差[5-6]。氣象測量站空間分布的局限性以及衛星遙感數據較低的準確性使極端天氣事件的預報、氣候預報、洪水、干旱和泥石流等災害的預報有很大的困難[7]。
關于衛星降水校準方法的研究已有許多,并取得了一些成果且發現地理位置、高層、季節、溫度均有助于衛星降雨量的校準[8-9]。如:Yang 等人從數字高程模型中提取地形變量,確定其旋轉主分量,建立調整TMPA 降水量的逐步回歸模型,還建立了反傳播(BP)神經網絡來校正TMPA 降水量[8]。Shi 等基于EVI 和TRMM月降水數據研究了一種統計降尺度校準程序,利用EVI(Enhanced Vegetation Index)、海拔、坡度、坡向、緯度、經度與降水相關的非參數統計關系,實現了從0.25°到1km 的空間降尺度并且采用加法(additive method)對降尺度降水資料進行了校正[9]。
近年來,許多研究表明降水與植被覆蓋[10]關系密切。植被是連結土壤、大氣和水分的自然“紐帶”,在全球變化研究中起到“指示器”作用[11]。Chen 等人提出了一種新的降尺度方法——地理加權回歸(GWR),通過對TRMM、歸一化植被指數(NDVI)、數字高程模型(DEM)數據集進行分析和探索,能更準確地生成降尺度的降雨數據[12]。因此在進行衛星降水校準方面的研究時,應將植被作為一個重要的考慮因素。此外,衛星降水數據的偏差和誤差與季節季風有很大的相關性[13-14]。Prakash 等人廣泛評估印度地區的TMPA 產品,通過分析季風前、季風中和季風后的降雨量,表明將TMPA 數據集應用到水文領域之前,需要對TMPA 數據集進行適當的區域和季節相關偏差校正[14]。
近年來,遺傳編程技術作為遺傳算法的分支,被廣泛的應用于數據分析、數據挖掘方面。Rampone 等人利用人工神經網絡和遺傳編程預測未來季節平均氣溫[15]。Kisi 等人利用小波-遺傳編程(Wavelet-Genetic Programming)和小波-神經模糊(Wavelet-Neuro-Fuzzy)結合模型進行日降水預報[16]。從這些研究可得,遺傳編程技術能夠進一步發現影響衛星降水產品測量的相關變量之間可能存在的關系。然而,目前從遺傳編程角度分析降雨量的研究很少。
大多數衛星降水產品的校準和評估都是基于月尺度和年尺度,很少對日降水尺度的數據進行分析。因此,考慮植被對降水的影響,在本研究中,我們利用遺傳編程挖掘衛星降水數據、全國氣象站降水數據與相關因素(經緯度、高程、溫度、時間、植被類型)之間的關系,構建了一種校正方法,以提高我國衛星日尺度降水數據的精度。
在本研究中,主要用到數據包括:全國氣象站點數據,GPM 降水數據集和全國植被區劃數據集。
(1)氣象站點數據選取來源于中國氣象數據網(http://data.cma.cn/)的日尺度數據集,選取全國地區氣象站點2016 年1 月至2016 年12 月的日降水序列,其中研究區內氣象站點660 個(見圖1 全國站點分布)。

圖1全國站點分布
(2)GPM 數據集通過美國國家航空航天局戈達德航天飛行中心(NASA-GSFC)獲取(https://pmm.nasa.gov/precipitation-measurement-missions),收集2016 年1 月至2016 年12 月的日尺度降水序列,覆蓋范圍為17.95N~54.95N,72.05E~133.95E,空 間 分 辨 率 為0.1°×0.1°。
(3)全國植被區劃數據來源于中國科學院資源環境科學數據中心(http://www.resdc.cn),該數據根據植被和氣候類型,將全國劃分為八個區域。為了方便統計,本研究將八個植被區域用數值1-8 代替,替換結果如表1 所示。

表1 植被區劃數值表
根據全國氣象站2016 年的可用數據以及對衛星校準方面的研究分析,我們考慮8 個評價降水條件的參數(表2)。所有的特性都表示為數值變量。

表2 參數列表
遺傳編程是在遺傳算法的基礎上引入自動程序設計的一種算法,它可以通過自身的學習快速發現數據與數學表達式之間的關系,通常由樹形結構表示[7]。遺傳編程開始于一群由隨機生成的千百萬個計算機程序組成的“人群”,然后根據一個程序完成給定的任務的能力來確定某個程序的適合度,應用達爾文的自然選擇(適者生存)確定勝出的程序。計算機程序間也模擬兩性組合、變異、基因復制,基因刪除等代代進化,直到達到預先確定的某個中止條件為止[17]。遺傳編程流程圖如圖2 所示。

圖2 遺傳編程流程圖
本研究中由于地形、高程、溫度、氣候類型,植被覆蓋等因素對衛星降雨測量產品的影響不明確,將遺傳編程用作挖掘降水與相關因素之間關系的工具。在運用遺傳編程前,需要確定所需的數據集和函數集。PA(氣象站降水)為遺傳編程的目標,輸入數據集包括X(緯度)、Y(經度)、E(高程)、t(時間)、T(溫度)和PS(衛星降水)。函數集如下:

利用遺傳編程生成校準公式的步驟為:
(1)將數據集隨機分為兩個獨立的集合:訓練集和驗證集。設置函數集PA= f(PS,X,Y,E,T,t),產生初始的校準群體。初始種群由數據集和函數集隨機生成。
(2)數據集隨機分為兩個獨立的集合:訓練集和驗證集,訓練集經過遺傳操作(選擇、交叉、變異)得到初步的校準公式。
(3)定義種群的適應度函數,用于評估種群中的每個公式的適應度。在本研究中,我們使用均方根誤差(RMSE)作為適應度函數。驗證集用于評估步驟(2)中公式的適應度。

其中i 為氣象站點秩數,M 為氣象站總數,PS 為衛星降水數據,PA 為氣象站降水數據。
(4)重復步驟(2-3),直到訓練時間達到停止準則(本研究中為500 小時)。
(5)程序結束,由公式得到的校準后的降水量與實際衛星降水量的擬合優度判定系數R2選出最終最優公式。

受季風影響,我國降水季節特征顯著。基于此,本研究按照季節尺度(春、夏、秋、冬)對2016 年GPM 日降水量進行校準。各季節的最終最優校準公式如表3所示。

表3 2016 年全國區域最終校準公式
我們使用泰勒圖來表示春夏秋冬四個季節的衛星降雨量原始數據和校準值與氣象站實測日降水數據之間的對應程度(圖3)。它利用了相關系數(CC)和標準差(SD)之間的三角轉換關系。可以看出,春夏秋冬衛星日降水量原始數據與氣象站實測日降水量的相關系數均在0.4-0.5 之間,經過遺傳編程校準后校準值和實測值的相關系數在0.5-0.7 之間,CC 提高了10%左右,且標準差和均方根誤差均明顯降低。總的來說,對于日降水量的校準,夏季校準效果較好一些,冬季校準雖然CC 較大,SD 較小,但由于部分校準值出現了負值,總體校準效果較差。主要是因為冬季溫度較低,冰雹、雪固體降雨量難測量,氣象站的實際測量與衛星遙感數據偏差較大,導致校準精度不高。而夏季降雨量充沛,校準精度相對較高。

圖3 春夏秋冬的GPM日降水量與氣象站實測日降水量的泰勒分布圖
上面的結論充分利用了衛星降水數據空間分辨率高,探測范圍廣的特點,但仍存在部分地區校準效果不佳。造成這種校準效果不佳的原因較多,主要是因為地理位置、溫度、植被覆蓋、氣候類型存在較大的不同。故本研究根據植被和氣候類型,將全國劃分為八種區域,分別進行衛星日降水量的校準,進而提升衛星降水產品的可靠性。
將2016 年的數據集按照植被區劃分為八個獨立的數據集分別進行校準。不同的植被區域校準的效果不同,其中熱帶季風雨林區域(區域4)和亞熱帶常綠闊葉林區域(區域8)校準效果較好,溫帶草原(區域5)、溫帶荒漠(區域6)效果較差。

表4 2016 年植被區劃最終校準公式
圖4 分別給出了八個植被區域的衛星降水量原始數據和校準值與站點實測日降水數據的泰勒分布。可以看出,八個植被區域衛星日降水量的原始數據與站點實測日降水量的相關系數相差較大,分布在0.3-0.6之間,校準值和實測值的相關系數主要分布在0.4-0.8之間。八個植被區域校準值的均方根誤差和標準差均比原始數據減少了50%左右,相關系數提高15%左右。其中,熱帶季風林和亞熱帶常綠闊葉林的校準后的相關系數均大于其他地區,而溫帶荒漠與溫帶草原植被區校準后的相關系數相對較小。暖溫帶落葉闊葉林、溫帶針葉落葉闊葉混交林、青藏高原高寒植被區域校準效果一般。

圖4 全國植被區域的GPM日降水量與站點實測日降水量的泰勒分布圖
綜上分析,基于遺傳編程的衛星降水量的校準適合降水量充沛的中國東南部地區的校準,降水量越大,相關性越大,校準效果越好。即在考慮植被對GPM 降水產品影響的基礎上,遺傳編程對GPM 衛星降水量的校準有了進一步的改進。
本研究從日降水尺度的數據出發,利用遺傳編程挖掘數據,得出衛星降水量與影響因素中的潛在關系,生成直觀的公式,實現了衛星降水量的校準。研究表明,空間分布、季節和溫度對衛星降水量的校正具有重要價值。夏季溫度高且降水量較多,校準后CC 提高了15%左右,校準效果最好;中國東部和南部,溫度偏高,降水量充沛,衛星降水容易高估數據,CC 相比其他地區提高10%-20%;中國西部和北部地區降水量相對少,溫度普遍較低,冰雹、雪固體降水量難測量,且土壤濕度低,降水量蒸發較快,衛星降水容易低估數據,導致校準效果較差。基于遺傳規劃的衛星降水量的校準適合降水充沛季節和地區的校準,降水量越大,相關性越大,校準效果越好。