999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R語言的面向需水預測的隨機森林方法

2012-01-07 09:14:10明均仁
統計與決策 2012年9期
關鍵詞:方法模型

明均仁,肖 凱

(1.武漢大學 信息管理學院,武漢 430072;2.長江水利委員會網絡與信息中心水利發展研究所,武漢 430010)

0 引言

水是生命之源、生產之要、生態之基。隨著我國社會經濟的發展,水資源短缺的問題日益凸現,這就需要對水資源進行更加嚴格而有效的管理。水資源管理的基礎工作是要對水資源量的準確掌握,其中包括供水量和需水量。因此需水預測就有著舉足輕重的地位和作用。本世紀以來,人口增加、氣候變化、耕地減少以及城市化進程更導致了地區需水量的變動加劇。尋找一種合理方法來預測地區需水量對于社會、經濟和環境的協調發展具有重要的意義。

傳統的需水預測方法[1,2]多是利用定額法、回歸分析法、投入產出法、常規趨勢法、時間序列法等進行預測,但由于影響未來需水量的外生變量均受到各種外界環境的影響,具有一定的不確定性和模糊性,這些預測方法不能夠得出準確的結果。近年來也有學者利用神經網絡模型[3]和模糊數學方法對區域需水量進行預測,這類方法充分考慮了外生變量的影響,能以任意精度逼近任何非線性連續函數,可以利用歷史數據得出精確的未來數據。但其缺點在于對訓練樣本的依賴程度較大,由訓練數據得出的預測模型對檢驗數據的穩健性不足,而且有可能因為過度訓練而造成過度擬合。為此,本文引入隨機森林方法,對需水預測研究提供有益的參考思路。

1 隨機森林理論方法

隨機森林方法是傳統決策樹方法的擴展,它將多個決策樹進行組合,來提高預測精度。下面首先回顧決策樹模型和組合算法,再對隨機森林理論進行介紹。

1.1 分類回歸樹

本文使用的隨機森林是利用分類回歸樹(CART)作為其基本組成單元,也可稱之為基學習器或是子模型。CART是決策樹技術的一種,也稱為二元回歸分解技術。利用CART可以自動探測出高度復雜數據的潛在結構、重要模式和關系;探測出的知識又可用來構造精確和可靠的預測模型。CART模型可分為分類樹和回歸樹兩種。分類樹用于因變量為分類數據的情況,樹的末端為因變量的分類值;回歸樹則可以用于因變量為連續變量的情況,樹的末端可以給出相應類別中的因變量描述或預測。

1.2 集成學習方法

隨機森林是集成學習[4]算法的一種。集成學習是一種機器學習范式,它試圖通過連續調用單個學習算法,獲得不同的學習器,然后根據規則組合這些學習器來解決同一個問題,可以顯著的提高學習系統的泛化能力。組合多個學習器主要采用加權平均或投票的方法。常見的集成學習算法有裝袋算法、提升算法以及隨機森林三種方法。集成學習可以改善單一方法的不足。因此,集成學習已成為國際機器學習界的研究熱點。

其中裝袋算法是利用自助法的思路,對訓練樣本進行有放回抽樣,以建立多個樹模型,然后集成其預測結果提高預測效果。提升算法與裝袋算法相似,但其區別在于集成預測時會考慮不同子模型的權重,對表現優良的子模型會給予較大的權重。

隨機森林方法與前兩者相似之處在于,它們都會對樣本進行有放回抽樣和集成預測,但區別在于隨機森林還對解釋變量進行了隨機抽樣。隨機森林不需要對樹模型進行剪枝,而是生成多個完整深度的樹模型。在回歸問題中,將多個樹模型的預測值進行平均,以計算最終預測值。對于分類問題,則通過多數投票方式來產生最終預測。

1.3 隨機森林計算步驟

(1)從原始訓練樣本中隨機抽出M個樣本。

(2)從解釋變量中隨機抽出N個樣本,從抽中變量中選擇最能有效分割數據的變量,使分割后的子集內部變異性最小。對于連續數據通常是采用均方誤作為判斷指標,對于離散數據則多采用基尼值。

(3)依據步驟二得到的變量將數據分割為兩個純度較高的子集。

(4)對子集重復步驟三直到分割停止。這就完成了單棵樹的建模。

(5)重復步驟(1)到步驟(4)X次,就構建了有X棵樹的隨機森林模型。

2 需水預測建模

2.1 確定模型變量

為了建立需水預測模型,首先要確定必要解釋變量作為模型的輸入。根據資料條件,本文選取10個用水指標以充分表述需水預測的影響因素,這10個指標為:農業灌溉畝均用水量(V2)、萬元GDP用水量(V3)、城鎮人均日用水量(V4)、地區生產總值(V5)、第一產業份額(V6)、第二產業份額(V7)、第三產業份額(V8)、有效灌溉面積(V9)、地區人口(V10)、地區糧食產量(V11)。上述10個影響因子為隨機森林需水預測模型的輸入,地區總需水量(V1)為模型的輸出變量,即被解釋變量。

2.2 數據處理

利用2003~2008年之間的湖北統計年鑒和湖北水資源公報,從中收集整理了96個樣本數據。將其中一半數據作為訓練樣本建立模型,剩下一半數據作為檢驗樣本以衡量模型的預測能力。由于隨機森林方法對數據的量綱和單位并不敏感,所以并不需要進行標準化或歸一化處理。部分樣本數據列示在表1。

表1 部分樣本數據列表

2.3 模型的性能評價標準

為了評價模型的擬合及預測能力,本研究根據以下三種指標來做出評價。分別是平均絕對誤差(MAE)、平均誤差平方和(MSE)、相對誤差平方和(NMSE)。指標數字越小則說明模型的預測值與真實值之間差異越小,模型的預測能力越強。

2.4 建模工具

本研究用以實現的軟件工具是開源軟件R語言[6-8],其中的randomForest程序包可以方便的建立隨機森林模型。由于R語言比其他統計學或數學專用的編程語言有更強的面向對象功能,所以該軟件在國外被廣泛使用,包括Google和Facebook公司均使用它進行數據分析的各項工作。

表2簡單羅列了randomForest包中用到的主要函數。

表2 randomForest包主要函數名稱與功能

2.5 建模步驟

首先讀入樣本數據,然后輸入如下命令以建立模型。

rf=randomForest(V1~.,data,ntree=500,mtry=3,importance=T)a

其中V1表示輸出變量,data表示數據集存放名,ntree表示模型中包括的單棵樹數量,樹太少對建模有一定影響,一般建議不要少于100,不過數量太多并不會對模型造成影響。mtry表示在分割數據時抽取多少個變量,這里通常的做法是選擇解釋變量數目的平方根,本文的輸入變量有10個,所以這里的參數設置為3。建模結果存入rf變量,之后再利用predict命令得到需水量的預測值,表3將部分預測值與真實值進行比較,可初步了解模型的預測能力。

表3 隨機森林預測值與真實值對照

3 模型檢驗

3.1 模型誤差分析

首先繪制模型的誤差曲線圖如圖1所示,其縱軸為模型的均方誤,橫軸為隨機森林中包括樹的個數。從圖1中可以看到隨著森林中樹的數量增加,模型誤差逐漸遞減,在100的時候達到相對最小,之后有所回升,但總體來看數量越大模型誤差越小。

圖1

為了評價模型的預測能力,根據3.2節所述的三個指標,計算隨機森林模型的對應結果,為了對比分析不同建模方法之間的預測能力,還利用相同的訓練樣本建立了BP神經網絡模型和多元線性回歸模型,其結果均在表4中列示。由表4可見,隨機森林模型在三種指標上都為最小值,相對其它建模方法預測誤差較小,體現其預測能力和抗干擾能力很強。

表4 三種建模方法的預測誤差比較

表4中模型的指標有可能是樣本的偶然性造成的,為了盡量減少訓練樣本分布對建模結果的影響,本文采用六重交叉檢驗的方法再次評價三種模型的預測能力。六重交叉數據檢驗的思路就是:先將全部訓練數據隨機地分為等量的6部分,選擇其中的5份作為訓練數據,剩下1份作為檢測數據來計算模型的相對誤差平方和。然后更換其中的1份數據,重復實驗。這樣得到6組不同的相對誤差平方和,最后綜合評判各模型的表現。其結果如表5如示。隨機森林模型相對其它建模方法NMSE值最小,顯示預測能力較強。

表5 六重交叉檢驗得到三種模型的誤差數據

3.2 解釋變量分析

利用隨機森林模型進行解釋變量的重要性排序,這樣可以使研究者了解在需水量中,哪些解釋變量是比較重要的。從圖2可以看到變量重要性度量,變量重要性度量就是假設某個變量不包括在模型中,會對模型的誤差造成多大的影響。左側圖形的誤差計算依據是袋外數據(OOB data),因為隨機森林方法會有放回地隨機從原始訓練集中抽取N個樣本,組成一個新的訓練集,對于單棵樹而言,有近37%的數據可能未被選中,這部分數據稱為袋外數據,可以用它來作為測試數據對該樹模型的誤差進行估計。右側圖形的誤差計算是依賴劃分后子集的純度。根據圖形顯示,本模型中最重要的解釋變量是V10人口,其次是V9有效灌溉面積,之后則是V5地區生產總值與V11糧食產量。因此,在實際工作中對模型進行外推預測的時候,要注意對這四個變量的預測精度進行控制。

圖2 各解釋變量的重要性度量

4 結語

本文建立的隨機森林模型對需水預測研究提供了一種新的方法,具有一定的參考意義。隨機森林擅長計算大規模數據,而本文由于資料所限,所用的樣本數偏少。在實際研究工作中加大采樣范圍可以彌補預測精度的不足。樣本中所涉及的解釋變量還可以增加。這些都是影響模型結果準確率的主要原因。另外實驗還發現模型在預測極端數據時誤差較大,在這一點上不如神經網絡模型精度高。因此利用隨機森林方法時,預測范圍不要外推超過訓練樣本范圍。

隨機森林方法是一種樹型分類器的組合算法。它的優點在于能高效的處理大數據集,而且預測精度較高。數據在分析前不需要過多的預處理,不需要標準化或是歸一化,但需將缺失值補足。在有大量相關的解釋變量情況下,也不需要進行變量篩選工作,隨機森林可以自動辨識最重要的輸入變量。從模型運行結果分析可以看出,相比較BP神經網絡和多元線性回歸等方法,其預測誤差較小。由于隨機森林的抽樣特性,其子模型之間相互獨立,因此隨機森林不會受到異常值和噪聲的影響而出現過度擬合的情況。隨機森林建模過程中產生的OOB數據可用來估計模型的泛化誤差。還能同時處理連續型變量和分類變量,模型預測穩健性較高。隨機森林的缺點在于因為沒有剪枝過程,對某些數據集可能會形成過度擬合。

[1]賀麗媛,夏軍,張利平.水資源需求預測的研究現狀及發展趨勢[J].長江科學院院報,2007,(2).

[2]張成才,崔雅博,胡彩虹.需水量預測方法研究[J].氣象與環境科學,2009,(2).

[3]凌和良,桂發亮,樓明珠.BP神經網絡算法在需水預測與評價中的應用[J].數學的實踐與認識,2007,(11).

[4]Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].范明,孟小峰譯.北京:機械工業出版社,2008.

[5]Luis Torgo.Data Mining with R:Learning by Case Studies[M].New York:Chapman and Hall/CRC,2010.

[6]Venabl Esen,Ripl Eybd.Modern Applied Statistics with S[M].Berlin:Springer,2002.

[7]Joseph Adler.R in a Nutshell[Z].O'reilly,2010.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲成人一区在线| 大香伊人久久| 欧美福利在线| 国产精品黄色片| 国产又色又爽又黄| 国产一区二区三区在线观看免费| 91视频首页| 九九热精品免费视频| 亚洲男人的天堂久久香蕉网| 国产熟睡乱子伦视频网站| 亚洲丝袜第一页| 亚洲国产成人综合精品2020 | 亚洲成人动漫在线观看| 欧日韩在线不卡视频| 亚洲最猛黑人xxxx黑人猛交| 亚洲天堂网在线观看视频| 综合人妻久久一区二区精品 | 国产夜色视频| 一本大道香蕉高清久久| 国产精品无码一二三视频| 亚洲免费福利视频| 国产麻豆精品在线观看| 欧美在线视频不卡| 天堂网国产| 人妻熟妇日韩AV在线播放| 天天综合网亚洲网站| 波多野结衣国产精品| 成年网址网站在线观看| 中文字幕佐山爱一区二区免费| 欧美国产综合视频| 欧美亚洲一区二区三区导航| 国产在线观看91精品| 国产综合精品日本亚洲777| 大香网伊人久久综合网2020| 国产99精品视频| 免费国产不卡午夜福在线观看| 国产福利微拍精品一区二区| 日韩 欧美 国产 精品 综合| 欧美日韩北条麻妃一区二区| 午夜性爽视频男人的天堂| 欧美激情第一欧美在线| 国产美女自慰在线观看| 精品久久久无码专区中文字幕| 国产欧美日韩另类| 99资源在线| 99人妻碰碰碰久久久久禁片| 久久动漫精品| 色哟哟国产精品一区二区| 波多野结衣二区| 天天综合网在线| 97av视频在线观看| 欧美另类视频一区二区三区| 国产精品九九视频| 久久婷婷五月综合97色| 一级毛片免费不卡在线 | 中文国产成人久久精品小说| 日韩欧美国产综合| 亚洲视频四区| 久久精品午夜视频| 香蕉精品在线| 无码一区18禁| 亚洲娇小与黑人巨大交| 久久国产亚洲偷自| 精品欧美一区二区三区久久久| 亚洲五月激情网| 18禁黄无遮挡免费动漫网站| 99视频只有精品| 国产精品人成在线播放| 99久久精品无码专区免费| 日本一本在线视频| 成人午夜免费视频| 亚洲日韩精品无码专区| 国产h视频免费观看| 婷婷色一二三区波多野衣| 国产中文一区二区苍井空| 亚洲第一区在线| 国产成人免费| 在线看片中文字幕| 国产一级毛片高清完整视频版| 亚洲 成人国产| 亚洲精品国偷自产在线91正片| 国产永久无码观看在线|