999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的溫瑞塘河總氮模擬與預測

2017-08-16 05:18:22王學東王振峰
浙江農業科學 2017年7期
關鍵詞:重要性模型

王學東,黃 宏,梅 琨,商 栩,夏 芳,王振峰*

(1.溫州醫科大學 浙南水科學研究院,浙江 溫州 325035; 2.浙江省流域水環境與健康風險研究重點實驗室,浙江 溫州 325035)

?

基于隨機森林的溫瑞塘河總氮模擬與預測

王學東1,2,黃 宏1,2,梅 琨1,2,商 栩1,2,夏 芳1,2,王振峰1,2*

(1.溫州醫科大學 浙南水科學研究院,浙江 溫州 325035; 2.浙江省流域水環境與健康風險研究重點實驗室,浙江 溫州 325035)

為快速獲得水體中總氮含量,采用隨機森林方法建立總氮預測回歸模型。結果顯示,較少的數據異常值仍會造成隨機森林模型較大的誤差,去除4.6%的異常值后,模型均方根誤差(MSE)降低了42.4%。隨機森林模型可對自變量的相對重要性做出評估,對總氮而言,最重要的變量是氨氮,模型2個主要參數隨機樹數量(ntree)和隨機分割變量數(mtry)的值分別為400和2。在選擇合適的參數值時,隨機森林模型不易出現過擬合顯示,建立的隨機森林模型可以快速預測水體中總氮的含量。

隨機森林; 回歸模型; 溫瑞塘河; 總氮

溫瑞塘河是溫州重要的河網水系,位于甌江以南、飛云江以北的溫瑞平原,屬于典型的城市平原河網。其水源主要來自瞿溪、雄溪、郭溪(通稱三溪)以及大羅山和集云山的山澗溪流,流域面積740 km2,水域面積22 km2,主河道33.85 km,大小河流共1 178 km,正常蓄水量6 500萬m3。從20世紀80年代起,由于經濟過度發展、人口急劇增加和環境基礎設施不完善,溫瑞塘河水環境逐漸惡化,水體污染,河床淤積,多數河段水質長期處于劣V類。目前,溫瑞塘河主要污染源為城市生活污水,主要超標指標為氨氮和總磷。自2013年以來,溫州市全面實施“五水共治”,建設浙南美麗水鄉專項整治行動,水環境明顯改善。但是,由于地表水環境標準中未對河流總氮規定限值,一般地,總氮并未被納入城市河流治理過程中。根據溫州市2017年最新行動計劃,在2017年底前將全面消除市控以上斷面的劣V類水。2016年最新監測數據顯示,即使在氨氮指標優于V類水的站位,其水體總氮含量仍在2.15~8.83 mg·L-1,富營養化程度仍然很高。因此,在城市河道治理中,對總氮指標也應給予足夠的重視。

在以生活污水為主要污染源的城市河流中,氨氮是主要污染指標之一,且總氮往往與氨氮有較強的相關性[1-2]。隨著傳感器技術的發展,部分水質指標已可通過YSI等便攜式儀器現場獲得,如溶解氧、氨氮、溫度等,但仍有許多指標需要在實驗室檢測獲得,如硝氮、總氮、總磷等。在總氮檢測過程中,由于水樣處理及硝化等多個環節可能存在問題,導致經常出現總氮檢測值小于無機氮之和的現象[3-4]。部分研究利用水質模型和統計方法建立起總氮預測模型,取得了較好的結果,如模糊線性回歸模型[5]、馬爾可夫鏈[6]、神經網絡[7]、多元回歸模型[8]等。本研究通過對溫瑞塘河現場監測獲得的各項水質指標數據,建立總氮預測模型,旨在為現場快速計算總氮濃度提供方法參考。

1 材料與方法

1.1 數據獲取

從2008年開始,在溫瑞塘河溫州市區段布設40個監測點,每月監測1次。監測站點如圖1所示。本研究所用的數據是2008年6月至2010年12月以及2015年12月至2016年12月的監測數據。監測范圍僅限于溫瑞塘河溫州市區范圍。在2008—2010年,共設置監測點40個;2015—2016年,在上述40個點中僅選取布設了17個監測點。除水體總氮和濁度指標在實驗室檢測獲得外,其他指標均由YSI現場測得。

其中,總氮采用堿性過硫酸鉀消解—紫外分光光度法分析,濁度采用分光光度法分析。

圖1 水質監測點的分布

1.2 模型建立

隨機森林是較常用的一種機器學習方法,由Breiman于2001年正式提出[9],并給出了完整原理和證明。其本質是由多棵分類與回歸樹(classification and regression tree,CART)構成的一種集成算法,能夠同時處理分類和回歸問題。隨機森林無須考慮變量假設條件,可同時接受分類變量和數值變量,可評估變量重要性,對變量的統計分布也不敏感,不會過擬合,不需交叉驗證,模型參數少。這使其成為較受歡迎的分類模型之一。隨機森林算法已在許多常用統計軟件或數據挖掘軟件中實現,如R、Matlab、Weka等。本研究選擇R軟件中常用的randomForest包作為平臺。

建立隨機森林回歸模型時,模型默認評價變量為均方根誤差(mean of squared residuals,MSE)和R2,其計算公式分別為:

建立隨機森林模型的過程為:1)確定自變量和因變量;2)建立初始模型;3)分析并處理異常值;4)重建模型;5)優化模型變量和參數;6)模型誤差分析與評價。

因隨機森林模型結果具有不確定性,為獲取確定結果,所有模型運行100次,分別取MSE和R2的平均值為模型最終結果。

2 結果與分析

2.1 水質指標數據概況

經過處理,去除無效數據及空值數據后,剩余有效記錄1 178條。數據共包含7個水質指標,各指標信息概況如表1所示。

1.平時加強公豬心肌能力和后肢能力的鍛煉及相關營養元素(尤其是維生素A、D、E的補充,建議用“高燒多維微(威能全營養素復合維生素粉)”拌料。

2.2 初始模型構建

RandomForest包提供的隨機森林模型主要包含2個參數,隨機樹的數量ntree和隨機樹分割變量數mtry,在本研究中其默認值分別為500和2。由此,利用所有數據以及所有變量建立總氮的基本隨機森林模型,模型參數及結果如表2所示。

2.3 異常值

如圖2所示,總氮中包含許多異常值,且主要位于高值一側。使用R軟件的boxplot.stats方法統計總氮,獲得異常值54個,約占總記錄的4.6%。在模型參數不變時,去除這些異常值記錄后,模型M1性能有較大改善,MSE值由3.21降至1.85,下降了約42.4%,R2由91.2%微降至87.0%。

表1 水質指標的信息

表2 總氮基本隨機森林模型

圖2 總氮含量分布

Breiman[9]認為,當數據樣本中異常值少于5%時,對隨機森林性能影響不大;但本研究結果顯示,即使不多于5%的異常值,對隨機森林模型的性能仍有較大影響,特別是對誤差值的影響較大。這可能是因為前項結論針對的是分類問題,而非回歸模型。為獲得合理的模型精度,本研究后續模型使用的數據均排除異常值。

2.4 變量重要性

隨機森林可以評估各個變量對模型的相對重要性。圖3為模型M1顯示的變量重要性。在隨機森林模型中,去除任何一個自變量,模型整體誤差MSE的值增加百分比(%IncMSE)越大,即模型精度下降越快,說明該變量越重要??梢钥闯?,模型M1中自變量的重要性從高到低依次為nh4>ec>temp>ph>do>turb。氨氮重要性最高,即模型中自變量氨氮對因變量總氮的預測最重要,主要原因是溫瑞塘河中總氮的主要組成部分是氨氮,且樣本中二者相關性最高,約為0.92。

圖3 變量的重要性

隨機森林評估的變量重要性結果只代表相對重要性。若要為模型選擇合適的自變量,仍需要按照變量重要性依次建立模型,并對各個模型性能進行評估。為便于選擇不同自變量時比較模型的性能,將所有模型參數設定為ntree=500,mtry=1,表3為按變量重要性依次選擇不同自變量組合的隨機模型模擬結果,最佳組合為nh4+ec+temp+ph,即模型M24。

2.5 模型參數設定

隨機森林中主要的控制參數為ntree和mtry,分別表示隨機森林中樹的數量和變量分割數。ntree的目的主要是讓森林中的樹足夠多,以便模型能夠穩定或收斂,mtry是分割時隨機選擇變量的個數,主要影響模型的性能;因此,可以先選擇一個足夠大的ntree使模型穩定,將mtry參數調整好后,再調整ntree。在randomForest中,ntree默認值為500,在本研究中,該默認值足以使模型快速收斂(圖4),mtry在回歸模型中的默認值計算方法為n/3,其中,n為自變量總數。

表3 變量選擇及模型性能

圖4 模型M24隨機樹總數對模型誤差的影響

對mtry取值1、2、3、4分別建模,模型運行結果如表4所示。當mtry=2,其他參數不變時,模型性能最好。根據randomForest提供的計算規則,當變量個數為4時,mtry默認值為1,但模型運行結果顯示,默認值并非最優選擇。

表4 mtry取值對模型的影響

過大的ntree在模型穩定后雖然不影響模型性能,但會影響模型運行時間。本研究使用的樣本數和變量數均較小,模型運行時間影響不大。表5顯示了ntree參數對模型的影響,隨著隨機ntree值的增大,模型運行時間有較大的增加。當ntree=400時,模型性能不再提升。至此,在樣本數為1 124時,最優隨機森林模型為M37=randomForest(tn~nh4+ec+temp+ph, ntree=400, mtry=2),此時模型誤差MSE=1.79,R2=87.3%。

表5 ntree取值對模型的影響

2.6 模型預測

按照上述建模過程,將去除異常值后的樣本數據隨機抽取70%用于建模,30%用于預測。建立的最優模型M41及預測結果如表6和圖5所示。預測精度與模擬精度相當,說明該模型未出現明顯過擬合現象。且模型模擬和預測的平均相對誤差分別為14.8%和18.4%,均在可接受范圍內。

表6 隨機森林模型模擬與預測

線條函數為y=x圖5 模型M41的預測結果

Breiman[9]曾證明,當隨機森林產生的樹無窮多時,根據大數定律,隨機森林模型訓練誤差與測試誤差趨于相同。由此可知,在選擇合適的ntree值時,隨機森林模型不易過擬合。

3 小結

本研究顯示,隨機森林回歸模型可用于水質數據模擬與預測,且誤差在可接受范圍內。數據異常值對隨機森林模型影響較大,本研究中去除不超過5%的異常值后,模型均方根誤差(MSE)下降40%以上。隨機森林模型可用于變量選擇,其評估結果給出了變量的相對重要性:氨氮濃度>電導率>溫度>酸堿度>溶解氧濃度>濁度。隨機森林模型默認參數值并非模型最優參數,需要對不同的參數值進行測試分析,才能獲得模型的最優參數值。隨機森林模型有較好的穩定性,不易出現過擬合現象。利用隨機森林模型,通過實時監測的方式快速預測總氮濃度值是可行的。

[1] 李文杰, 王冰. 地表水中氨氮和總氮的相關性分析[J]. 環境保護科學, 2012, 38(3):79-81.

[2] 張濤, 胡冠九, 范清華, 等. 太湖入湖河流總氮與氨氮相關性特征分析研究[J]. 環境科學與管理, 2015, 40(2):21-23.

[3] 黃慧坤. 環境樣品監測中總氮低于氨氮的原因[J]. 環境科學導刊, 2004, 23(增刊):219-220.

[4] 趙楠, 李建坡, 丁致英, 等. 地表水檢測中氨氮高于總氮的原因探討[J]. 中國給水排水, 2006, 22(22):89-91.

[5] 周九州, 劉強, 榮湘民, 等. 模糊線性回歸模型在河流水體總氮濃度預測中的應用[J]. 生態學雜志, 2009, 28(12):2628-2632.

[6] 趙繼東, 胡婷, 杜慶治. 馬爾科夫鏈在彌苴河總氮量預測中的應用[J]. 環境科學導刊, 2015, 34(4):18-20.

[7] RAJAEE T, SHAHABI A. Evaluation of wavelet-GEP and wavelet-ANN hybrid models for prediction of total nitrogen concentration in coastal marine waters[J]. Arabian Journal of Geosciences, 2016, 9(3):176.

[8] DIMBERG P H, BRYHN A C. Predicting total nitrogen, total phosphorus, total organic carbon, dissolved oxygen and iron in deep waters of Swedish lakes[J]. Environmental Modeling & Assessment, 2015, 20(5):411-423.

[9] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1):5-32.

(責任編輯:高 峻)

2017-03-01

溫州市水體污染控制與治理科技創新項目(S20140041,S20140040,S20140039,S20140038,S20140037)

王學東(1967—),男,河南淮陽人,研究員,博士,研究方向為環境化學,E-mail:zjuwxd@163.com。

王振峰(1983—),男,湖北荊州人,助理研究員,博士,研究方向為水環境保護,E-mail: wangzf@iwaterlab.com。

10.16178/j.issn.0528-9017.20170756

X832

A

0528-9017(2017)07-1269-04

文獻著錄格式:王學東,黃宏,梅琨,等. 基于隨機森林的溫瑞塘河總氮模擬與預測[J].浙江農業科學,2017,58(7):1269-1272,1276.

猜你喜歡
重要性模型
一半模型
土木工程中建筑節能的重要性簡述
“0”的重要性
論七分飽之重要性
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
論七分飽之重要性
3D打印中的模型分割與打包
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
主站蜘蛛池模板: 超碰91免费人妻| 国产午夜精品一区二区三| 国产欧美又粗又猛又爽老| 成人在线观看一区| 亚洲综合在线网| 亚洲天堂网2014| 日a本亚洲中文在线观看| 国产美女无遮挡免费视频| 亚洲毛片一级带毛片基地| 日韩大乳视频中文字幕| 在线免费亚洲无码视频| 性做久久久久久久免费看| 91麻豆国产视频| 国产精品久久国产精麻豆99网站| 精品人妻一区二区三区蜜桃AⅤ| 亚洲三级视频在线观看| 中文无码日韩精品| 亚洲 欧美 日韩综合一区| 99精品伊人久久久大香线蕉| 国产制服丝袜无码视频| 伊人中文网| 蜜芽一区二区国产精品| 青青草原国产精品啪啪视频| 中文字幕在线观看日本| 一本综合久久| 国产成人一级| 亚洲综合激情另类专区| 国内毛片视频| 欧美日韩成人| 露脸国产精品自产在线播| 亚洲综合第一区| 精品综合久久久久久97超人该| 亚洲 欧美 偷自乱 图片| 经典三级久久| 国产精品亚洲一区二区三区z| 国产粉嫩粉嫩的18在线播放91| 国产精品亚洲一区二区三区z| 成人亚洲视频| 成人欧美日韩| 美女一级毛片无遮挡内谢| 九九久久99精品| 免费不卡在线观看av| 国产精品美乳| 成人福利在线视频| 国产美女在线观看| 3344在线观看无码| 日本高清成本人视频一区| 欧美69视频在线| 免费毛片网站在线观看| 毛片视频网| 国模视频一区二区| 国产精品主播| 视频二区亚洲精品| 一区二区影院| 香蕉视频在线观看www| 五月婷婷精品| 九色综合视频网| 欧美日韩在线亚洲国产人| www.99在线观看| h视频在线观看网站| 青青青国产视频| 欧美日韩综合网| 国产偷国产偷在线高清| 91精品小视频| 色偷偷综合网| 在线精品亚洲一区二区古装| 直接黄91麻豆网站| 亚洲一级毛片免费看| 亚洲无码四虎黄色网站| 丝袜亚洲综合| 亚洲性影院| 91久久偷偷做嫩草影院免费看 | Jizz国产色系免费| 99热这里只有精品免费| 67194在线午夜亚洲| 国产成人精品男人的天堂下载| 午夜福利网址| 色综合成人| 亚洲国产中文在线二区三区免| 自拍欧美亚洲| 欧美一级在线播放| 免费又爽又刺激高潮网址|