999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林模型的干旱預測研究

2016-03-22 06:54:11陳元芳余勝男河海大學水文水資源學院南京210098
中國農村水利水電 2016年11期
關鍵詞:分類模型

吳 晶,陳元芳,余勝男(河海大學水文水資源學院,南京 210098)

全球氣候變化異常,人類活動影響,導致發生干旱的頻率逐年增加,影響范圍還在不斷擴大。進行干旱預測,能夠及時采取有效防災措施,減少干旱對農業,工業,生態等社會各行各業的影響。如何更加準確的對干旱進行預測,具有重大的現實意義。干旱預測主要有基于物理成因的方法和基于統計理論的方法。因氣候變化、水文機制等影響干旱發生的因素十分復雜,傳統的基于物理成因的方法只是建立在線性平穩、多變量模型等隨機模擬技術基礎上,存在局限性,對具有非線性特征的氣象要素或天氣現象的預報有其明顯的不足之處。為了描述預測干旱氣候的這種非線性,神經網絡(Artificial Neural Network ANN)、灰色系統模型(Grey System、GM)、支持向量機(Support Vector Machine,SVM)等智能方法被運用到干旱預測之中。但是,ANN雖有較強的非線性擬合能力,但其固有的弱點是在運行過程中初始權值、網絡結構以及學習參數,動量因子難以確定,容易出現過擬合的問題,影響網絡的泛化能力[1]。灰色GM(1,1)模型雖然有輸入數據量小、原理簡單、計算量適中、預測精度較高等優點,但是GM(1,1)一般只適用于短期干旱預測,當預測時間尺度較長時間時,預報準確度低[2]。李曉輝[3]利用灰色預測模型與人工神經網絡相結合提高降水量的預測精度,但仍然僅適用于短期干旱預測,且輸入的訓練樣本的大小以及訓練篩選模式對預測結果影響較大。樊高峰[4]利用支持向量機的方法來預報干旱,SVM雖然避免了維數過高和過擬合等問題,但其內部參數和核函數比較難優選的,并且在分類預測中,還需對樣本數據及影響因子進行標準化或歸一化的預處理,而只能將結果分為兩類,一定程度上不能滿足當前對干旱預測的要求。

隨機森林模型(Random Forest)是一種基于CART(Classifition and Regression Tree)分類決策樹的組合分類模型。RF模型可以處理非線性問題,且不需對數據進行預處理,通過對大量分類樹的匯總提高了模型的預測精度,是取代ANN、GM等傳統機器學習方法的新模型,在各行各業得到越來越多的應用,并且已在在水文上應用得到較好效果,趙銅鐵鋼[5]利用隨機森林模型對長江枯水期進行徑流預報。

隨機森林可以對影響影子進行分類,同時對各個影響因子的重要性進行評分,并將評分作為篩選重要因子的依據,采用簡單多數投票法進行投票表決決定其最終分類。本文期望通過建立隨機森林模型來對干旱進行分類預測。應用1962-2012年淮河流域21個代表站的數據,進行氣象干旱分析,選用氣象干旱指標:標準化降雨指數(SPI)分析干旱等級。并初步優選出372個因子作為因子篩選集,利用RF模型挑選出前30個重要性因子,進而進行RF干旱模型的檢驗及預報。

1 研究內容

1.1 研究區域概況

淮河流域(30.55′~36.20′N,111.55′~121.20′E)是我國東部最重要河流之一,位于黃河長江之間,發源于河南南陽桐柏山,整體自西向東流至江蘇揚州三江營入長江, 流域全長1 000 km,面積為27萬km2。淮河流域地處我國南北氣候過渡帶,天氣系統異常復雜,變化多樣,降雨時空分布極不均勻,災害性天氣(干旱、洪災等)發生的頻率高,尤其是冬春少雨易發干旱。淮河流域包括江蘇、山東、安徽、河南、湖北五省40個地(市),181個縣(市),總人口為1.65億人,居各大江大河流域人口密度之首。若流域內區域發生干旱,其影響范圍及損失將非常巨大。為提前采取相應措施應對旱災,對干旱性天氣進行合理準確的預測顯得尤為重要,為此,本文利用1962-2012年淮河流域內21個代表站的降水以及相關氣象要素的觀測資料,結合隨機森林模型預測淮河流域干旱情況。

1.2 干旱分類指標選取

干旱為某地理范圍內降水,徑流等自然水源在一定時期持續少于正常水平,導致河流、湖泊等水量虧缺的自然現象。干旱涉及氣象、水文、農業和社會經濟等學科,本質為水的短缺,其中影響干旱最重要的因子為降雨量。其中與降水量聯系最緊密的為氣象干旱,氣象干旱也是四類干旱中最重要的。根據聯系的重要性等因素選用基于氣象的干旱評判指標評判干旱。氣象干旱指標選用標準化降雨指數(SPI)。SPI以(小于或等于)某降雨值的累積頻率對應的標準正態分布相同累計頻率的分為點為該降雨量的標準化降雨值指數。其計算公式如下:

(1)

因SPI假定所有地點的旱澇情況發生概率相同,無法區分干旱頻發地區。本文分別對21個站進行干旱分類,這樣能夠獨立分析每一個站真實的干旱情況。為防止時間步長較長的指標應用于降水相對較少的地區時,以月為分析尺度。

基于SPI的定義以及分析實際的情況確定SPI的閾值將干旱分成三類。頻率小于30.9%的降雨所對應的SPI值定義為干旱的閾值,降雨出現頻率高于30%所對應的SPI值定為濕澇的閾值,介于兩閾值之間的SPI值所對應的月份即為正常月份。如表1為淮河流域21個站基于SPI的干旱分類情況。

表1 淮河流域21個站基于SPI的干旱程度等級劃分Tab.1 Result of drought classification based on SPI with 21 stations of Huaihe basin

以3月王家壩為例列舉出基于SPI分類干旱等級的年份分類情況表(表2)。

表2 淮河流域王家壩站3月干旱等級劃分結果表Tab.2 Result of March month drought classification on Wangjiaba staion

2 研究方法

隨機森林(RF)[6]是由Leo Breiman于2001年提出來的一種統計學習理論。隨機森林與其他機器學習的算法相比預報精度高,且運算快捷,它集成了Bagging和隨機選擇特征分裂兩種方法的特點;具有很好的泛化性能,對異常噪聲具有很好的魯棒性,在不同領域已取得較好的應用。隨機森林包括隨機森林回歸與隨機森林分類。

隨機森林分類(Random Forest for Class,RFC)[7,8]是一個多決策分類器,具有由諸多CART分類模型{h(X,θk),k=1,2,…}(基本結構)組成的組合分類模型[9](圖1),其中參數集{θk}是獨立同分布的隨機向量,輸入自變量 的最終分類結果是由每個決策樹分類模型進行投票來選擇的最優的分類結果(定義y為輸出結果)。

圖1 Bootstrap重抽樣過程圖Fig.1 Schematic diagram of bootstrap resampling

RFC的基本思想:首先,利用Bootstrapping抽樣從原始訓練集(x,y)抽取k個樣本,且每個樣本的基本容量都與原始訓練集容量一樣,流程詳見圖1;再對k個樣本分別建立k個決策樹模型({h1(x),h2(x),…,hk(x)}),得到k種分類結果,最后,根據k種分類結果采用簡單多數投票法對每個記錄進行投票表決決定其最終分類,詳見圖2。由此看來,RF模型使用Bagging方法(隨機采樣選用自舉法-Bootstrapping)形成新的訓練集,隨機選擇特征進行分裂,使得隨機森林能較好地容忍噪聲,并且能降低單棵樹之間的相關性;單棵樹不剪枝能得到低的偏差,保證了分類樹的分類效能。用Bagging方法生成訓練集,原始樣本集中接近37%的樣本不會出現在訓練集中,這些數據稱為袋外(Out-Of-Bag,OOB)數據,可用OOB數據來估計決策樹的泛化誤差。對于每一棵決策樹,可以得到對應的一個OOB誤差估計,將隨機森林中所有決策樹的OOB誤差估計取平均值,即可得到隨機森林的泛化誤差估計。Breiman通過實驗已經證明,OOB誤差是無偏估計,并且相對于交叉驗證,OOB估計是高效的,且其結果近似于交叉驗證的結果。所以,本研究模型性能的評估方法采用的是以OOB估計作為泛化誤差估計的方法[10]。

圖2 隨機森林分類模型結構圖Fig.2 Schematic diagram of random forest structure

3 實例分析

3.1 RF預報模型的步驟

本研究以前期12個月的降雨和國家氣象中心發布的74項水文-氣象特征量作為預報因子,分別對淮河流域21個代表站的各月的干旱情況進行研究及預報。選用 1962-2012年,共 51 組經過三性審查的樣本數據(來自水文年鑒)。以王家壩站的3月干旱情況預報為例,干旱預報步驟如下:

(1)預報因子初步選取:為提高模型篩選影響因子的能力和預報的精度,解釋變量的選擇應注重因子與預報對象之間的物理相關程度或天氣學上的相關關系。充分考慮因子影響區域大氣的時空狀態變化及其特征的緊密程度、氣象干旱成因機理并結合相關文獻[5,11],從74項水文-氣象特征量初步篩選出與形成氣象干旱有關的30個因子(表3)。

(2)預報因子的篩定。為減少在重要性因子評價時加入的噪聲對隨機森林的預測準確率的影響,運用Incnodepurity指數評判因子的重要性,該值通過計算所有樹的變量分割的節點不純性減少值來比較因子的重要性,該值越大表示該因子在RF預測中的重要性越大。根據這個原則可以得出在建立的隨機森林非線性關系中重要性排在前30的因子。

以次年3月-本年2月份的逐月降雨量和選取的30個水文-氣象特征量逐月觀測值共計372個水文-氣象特征量作為備選解釋變量,因子排列順序為前期12個月的降水量序號排至12和按月排列12個月的篩選出的30項大氣環流特征量,序號排至372。以王家壩站每年3月份的干旱等級作為目標變量,將所有觀測樣本作為訓練樣本集,構建基于隨機森林模型對解釋變量進行重要性評價。對解釋變量依據其重要性進行降序排列,選取前30個變量作為最終預報因子。影響因子重要性指數見圖3,各月干旱預測的預報因子篩定結果如表4所示。

表3 隨機森林模型初步篩選的影響因子表Tab.3 Result of preliminary screening influence factors of random forest model

圖3 隨機森林對影響干旱分類等級的因子的重要性排序Fig.3 Ranking variable importance that associated with drought classification by random forest

(3)預報模型構建:應用基于 R 語言隨機森林程序包( http:∥cran. r-project.org/) 進行干旱預報研究。以步驟(2)選取的30個預報因子作為解釋變量,以1962-2012年王家壩站的3月份干旱分類作為目標變量。以1962-2006為模型訓練期和2007-2012為模型檢驗期,以訓練期樣本構建預報模型對檢驗期樣本進行預報,并對檢驗期干旱預報結果進行精度評價。在本次分析中,模型參數M為子預報模型的數量,參數N為回歸樹的節點中劃分待選的變量的數目,根據文獻[5]一般M取值越大越好,N取值一般為總的解釋變量數目的1/3。本次RF模型篩選預報因子階段,M取3 000,N取124,預報階段,M取3 000,N取10。

表4 基于RF模型3月王家壩站的預報因子Tab.4 Prediction factors based on RF of March month at Wang jiaba station

3.2 RF模型訓練與預報結果

以1962-2006年為模型訓練期的3月份王家壩站的基于RF干旱預測模型構建的OOB誤差見表5。

表5 模型訓練期OOB預測誤差表 Tab.5 The error of OOB at training period of RF model

由表5可以看出,劃分的3個等級中,實況1級有13年,實況2級有18年,實況3級有14年,運用OOB數據進行預報,預報結果中有13年是1級,21年是2級,11年是3級,OOB預測的誤差1級是0.23,2級是0.17,3級是0.36。檢測期模型的平均OOB誤差為25%,效果較好。隨機森林預測2級(正常)的效果最好,其樣本容量最大,且未被選取的RF干旱預測模型的預報因子可能對其干旱分類等級影響甚微。隨機森林預測實況3級(干旱)的效果最差,可能與其樣本容量和影響干旱分類等級的因子未被RF模型選用預報有關。

參考氣候預報業務評分標準[9],按3級進行Ts評分(Ts=總得分/總預報次數),見TS評分表6。

根據建立的RF模型,對2007-2012年的干旱類別進行預報,預報結果見表7。

表6 3級TS評分表 %Tab.6 Ts score standard of 3 level

由表7可知,6年的獨立預報樣本,報對3年,報差一級為3年(實況為濕澇或干旱,預報為正常),結合表6的評分標準,可以求得建立的王家壩站3月份的隨機森林模型平均預報準確率為75%。根據以上預測流程分析淮河流域21個站的干旱情況并得出預報結果。每個站的各月的干旱等級預報準確率、各站年均預報準確率以及12個月的月平均預報準確率如表8所示。

表7 2007-2012年王家壩站3月份干旱等級預報情況Tab.7 Class forecast result of drought from 2007 to 2012 in Wang jiaba station

表8 基于RF模型的淮河流域21站的每月的干旱等級預測結果表 %Tab.8 Drought prediction result of every month of 21stations at the huaihe river basin based on RF model

RF干旱預測模型預報淮河流域21站的12個月的平均預報準確率為73.0%。在預報結果中,預報準確率最高的為100%,分別是王家壩站6月份預報準確率,高良澗閘站6月份準確率,徐州站6月份準確率;最低的為50%,分別是靈璧站1月份準確率,石漫灘站1月份準確率;其中王家壩站的年平均預報準確率為77.1%,最高;靈璧站的年平均預報準確率為68.8%,最低;21個站的平均預報準確率最高月份為6月,其準確率為90.1%,最低月份1月,其準確率為60.3%。

經分析,對于準確率較高的站點和月份,RF模型篩選出影響因子對該地區干旱發生有及緊密的聯系,因果相關性較大,模型可以較為準確的預測出干旱等級。準確率較低的月份和站點,其干旱成因機理受更多因素影響,如1月份的干旱等級更多的受冬季氣溫、ENSO等影響;可能還與基于SPI進行干旱分類在某區域和月份上適用性較差有關。

4 結 語

(1)秉承理論與實踐相結合的思想,按SPI值將干旱等級劃分成三類,以單站為分析單元,以一個月為分析尺度,對淮河流域21個站的干旱情況應用RF干旱預測模型預測,模型目標變量為基于SPI的模型樣本的干旱分類等級,并且基于物理成因和統計特性初步選擇了與干旱密切相關的預測因子集,再從中篩選出的重要性前30的因子作為最終預報的影響變量進行隨機森林分類模型檢驗與預測。

(2)RF干旱預測模型的預測結果較好,總體的平均預報準確率為73.0%,高于氣候系統的天氣預報準確率65%。其中王家壩站的年平均預報準確率為77.1%,最高;靈璧站為68.8%,最低;各站平均預報準確率最高月份為6月,其準確率為90.1%,最低月份1月,其準確率為60.3%。經分析及驗證,對于準確率較高的站點和月份, RF模型篩選出影響因子對該地區干旱發生有極其緊密的聯系,因果相關性較大,模型可以較為準確的預測出干旱等級。反之對于準確率較低的站點和月份,其區域或月份的干旱程度與其他因素聯系更為緊密,致使預測準確率降低。

(3)基于SPI的干旱分類的RF干旱預測模型的預報結果表明RF預測模型從物理成因等方面選擇因子進而直接對干旱等級進行預測,得出相對較高的預測準確率,但此RF預報模型只是基于淮河流域21個站預報干旱較為準確,模型的適用條件還需進一步檢驗,可將此模型在不同區域進行試驗,若能得出較高的預報準確率可以進行推廣及應用。此外模型的分類依據只為氣象干旱指標SPI,在今后分析,可以考慮將氣象干旱、水文干旱、農業干旱等指標進行耦合,更加科學地將干旱從不同成因角度進行等級劃分,使預報結果更具準確性和說服力。

[1] 汪春秀. 基于支持向量機的氣象預報方法研究[D]. 南京:南京信息工程大學, 2011.

[2] 劉代勇,梁忠民,趙衛民,等.灰色系統理論在干旱預測中的應用研究 [J].水力發電,2012,38(2):10-12.

[3] 李曉輝,楊 勇,楊洪偉.基于 BP 神經網絡與灰色模型的干旱預測方法研究[J].沈陽農業大學學報,2014,45(2):253-256.

[4] 樊高峰,張 勇,柳 苗,等.基于支持向量機的干旱預測研究[J].中國農業氣象,2011,32(3):475-478.

[5] 趙銅鐵鋼,楊大文,蔡喜明. 基于隨機森林模型的長江上游枯水期徑流預報研究 [J]. 水力發電學報, 2012,31(3):18-24,38.

[6] 李欣海.隨機森林模型在分類與回歸分析中的應用[J].應用昆蟲學報,2013,50(4):1 190-1 197.

[7] BREIMAN L. Random forests [J].Machine Learning, 2001,45(1):5-32.

[8] Gislason P O, Benediktsson J A, Sveinsson J R. Random forests for land cover classifiction [J].Pattern Recognition Letters, 2006,27(4):294-300.

[9] 方匡南,吳見彬,朱建平,等.隨即森林方法研究綜述[J].統計與信息論壇,2011,26(3):32-38.

[10] Hongyan Li, Miao Xie, Shan Jiang. Recognition method for mid-to long-term runoff forecasting factors based on global sensitivity analysis in the Nenjiang River Basin[J].Hydrological Processes,2012,26(18):2 827-2 837.

[11] 董 亮,陸桂華,吳志勇,等.基于大氣環流因子的西南地區干旱預測模型及應用[J].水電能源科學,2014,32(8):5-8.

[12] 常 軍, 路振廣,李素萍,等. 基于SVM 方法的水文年型預報[J]. 人民黃河, 2009,31(4):29-30,33.

[13] 康 有,陳元芳,顧圣華,等.基于隨機森林的區域水資源可持續利用評價[J].水電能源科學,2014,32(3):34-38.

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产精品无码一二三视频| 男人天堂伊人网| 久久久久无码国产精品不卡| 精品99在线观看| 无遮挡一级毛片呦女视频| 又爽又大又黄a级毛片在线视频 | 国产精品亚欧美一区二区三区| 欧美一级特黄aaaaaa在线看片| 久久国产毛片| 搞黄网站免费观看| 手机成人午夜在线视频| 日日拍夜夜操| 99资源在线| 国产精品毛片一区视频播| 天堂av高清一区二区三区| 日韩精品一区二区三区免费| 国产97色在线| 视频一区视频二区中文精品| 久热精品免费| 香蕉久久永久视频| 亚洲午夜国产精品无卡| 99久久精彩视频| 99无码熟妇丰满人妻啪啪| 在线免费看片a| 国产Av无码精品色午夜| 人人91人人澡人人妻人人爽| 亚洲一区无码在线| 精品国产污污免费网站| 国产精品免费福利久久播放| 国产精品专区第1页| 波多野结衣一区二区三区88| 91麻豆国产精品91久久久| 女人一级毛片| 尤物成AV人片在线观看| 91最新精品视频发布页| 欧美黄网在线| 丁香亚洲综合五月天婷婷| 色悠久久久| 国产成人精品2021欧美日韩| 欧亚日韩Av| 97国产在线视频| 福利在线不卡| 福利一区在线| 国产精品福利社| 狠狠色综合久久狠狠色综合| 国产主播喷水| 国产亚洲精品91| 亚洲成在线观看 | 免费福利视频网站| 中文国产成人精品久久| 免费看美女毛片| 这里只有精品免费视频| 亚洲精品免费网站| 久久综合色天堂av| 午夜精品久久久久久久无码软件| 国产欧美一区二区三区视频在线观看| 秋霞一区二区三区| 国产sm重味一区二区三区| 成人精品视频一区二区在线| 亚洲国产精品一区二区高清无码久久| 久久久久无码国产精品不卡| 欧美一区二区人人喊爽| 亚洲三级视频在线观看| 日韩精品无码免费专网站| 国产啪在线| 国产av色站网站| 国产成人高清精品免费5388| 极品国产在线| 91无码视频在线观看| 国产精品美人久久久久久AV| 亚洲第一香蕉视频| 日韩福利在线视频| 国国产a国产片免费麻豆| 在线观看的黄网| 日韩国产综合精选| 欧美精品成人| 香蕉伊思人视频| 免费毛片全部不收费的| 久久精品只有这里有| 91色爱欧美精品www| 久久国产精品无码hdav| 国产又粗又爽视频|