999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機(jī)森林算法的水華預(yù)警模型

2018-09-10 08:50:18劉云翔吳浩
人民黃河 2018年8期

劉云翔 吳浩

摘要:針對(duì)湖泊水華預(yù)警模型中的數(shù)據(jù)具有噪聲較復(fù)雜和非線性的特點(diǎn),而傳統(tǒng)預(yù)警方法難以解決穩(wěn)健性差和過(guò)度擬合等問(wèn)題,采用機(jī)器學(xué)習(xí)分類算法——隨機(jī)森林,根據(jù)葉綠素a的濃度判斷水華是否發(fā)生,選取水溫(T)、pH值、氮磷比(TN:TP)、化學(xué)需氧量(COD)、總氮(TN)、總磷(TP)作為影響因子,構(gòu)建基于隨機(jī)森林分類算法的穩(wěn)健性較好、泛化性能強(qiáng)、實(shí)用性強(qiáng)的水華預(yù)警模型。選取太湖西半湖作為研究區(qū)域進(jìn)行實(shí)例分析,結(jié)果表明:該模型預(yù)測(cè)精度達(dá)到91.67%,泛化誤差小,能夠有效進(jìn)行短期預(yù)測(cè);在水華發(fā)生的各個(gè)影響因子中,總磷和總氮是相對(duì)重要的影響因子。

關(guān)鍵詞:隨機(jī)森林;CART決策樹;水華;預(yù)警模型;太湖

中圖分類號(hào):X52; TP39

文獻(xiàn)標(biāo)志碼:A

doi:10.3969/j.issn.1000-1379.2018.08.018

水華是淡水水體中藻類繁殖聚集到一定程度的一種自然現(xiàn)象,目前已成為全球性的水環(huán)境污染問(wèn)題之一,并且隨著經(jīng)濟(jì)的快速發(fā)展和人類活動(dòng)范圍的急劇擴(kuò)大而越來(lái)越嚴(yán)重。我國(guó)多數(shù)江河湖泊和水庫(kù)有不同程度的水華現(xiàn)象。利用有效的方法預(yù)測(cè)水華的發(fā)生并進(jìn)行預(yù)警,有利于有針對(duì)性地采取預(yù)防措施。為了解決水體水華預(yù)警問(wèn)題,國(guó)內(nèi)外學(xué)者從不同角度、采取不同方法進(jìn)行了研究,如多變量統(tǒng)計(jì)回歸、模糊數(shù)學(xué)、遺傳算法和神經(jīng)網(wǎng)絡(luò)方法等,不過(guò)這些方法各有不足,建立的預(yù)測(cè)模型存在不同的問(wèn)題。

把水華暴發(fā)的影響因子作為輸人變量,以葉綠素a的濃度為輸出變量,構(gòu)建水華預(yù)測(cè)模型,可以判斷水體是否發(fā)生水華,進(jìn)行短期預(yù)測(cè)。這種通過(guò)分析已有的水體水質(zhì)、水文等數(shù)據(jù)來(lái)判斷水華是否發(fā)生,是一個(gè)典型的分類問(wèn)題,因此可以采用決策樹算法生成水華預(yù)警模型。決策樹算法具有模型簡(jiǎn)單和規(guī)則提取簡(jiǎn)單的特點(diǎn),其中CART算法是決策樹算法中的經(jīng)典算法,但基于傳統(tǒng)CART算法生成的水華預(yù)測(cè)模型在進(jìn)行判斷時(shí),依然存在準(zhǔn)確率不高、易過(guò)度擬合等問(wèn)題。隨機(jī)森林是一種基于CART算法的組合分類器,能夠提高分類正確率并解決過(guò)度擬合問(wèn)題,因此筆者基于隨機(jī)森林算法建立水華預(yù)警模型,對(duì)水體水華是否發(fā)生進(jìn)行預(yù)測(cè)。

1 研究方法

1.1 隨機(jī)森林算法原理

隨機(jī)森林算法是一種具有監(jiān)督性的數(shù)據(jù)挖掘算法,隨機(jī)森林是一種利用大量CART決策樹形成的分類器。把當(dāng)前樣本集的所有屬性的GINI指數(shù)計(jì)算出來(lái),對(duì)所有屬性的GINI指數(shù)進(jìn)行排序,選擇GINI指數(shù)最小的屬性作為CART決策樹的根節(jié)點(diǎn),然后以該屬性的GINI指數(shù)為分割閾值將樣本集分割成兩部分。在生成CART決策樹的過(guò)程中要充分利用二叉樹,在分割后的子集上不斷遞歸重復(fù)上述操作,使得最終生成的非葉子節(jié)點(diǎn)都具有左有兩個(gè)分支,直到所有葉子節(jié)點(diǎn)中樣本的類別基本屬于同一類,或者沒(méi)有下一個(gè)分裂屬性為止。

GINI指數(shù)反映數(shù)據(jù)分區(qū)E的不純凈程度,定義如下:式中:pi=|Ci|/|E|,為E中的樣本屬于類Ci的概率,|Ci|為E中屬于Ci的數(shù)量;m為樣本分類數(shù)。

當(dāng)屬性A將訓(xùn)練樣本集E劃分成E1和E2后,E的GINI指數(shù)公式為式中:|Ei|/|E|為樣本集中樣本屬于第j(j=1,2)個(gè)子集的概率。

隨機(jī)森林是由許多沒(méi)有經(jīng)過(guò)剪枝的CART分類樹{h(x,@k)|k|=l,2,…}(x為輸入變量,@k為服從獨(dú)立同分布的隨機(jī)向量)形成的一種組合分類模型。隨機(jī)森林的構(gòu)建具有兩種隨機(jī)化思想:一是根據(jù)bootstrap重抽樣創(chuàng)建k個(gè)隨機(jī)向量@1、@2、@3、@4,再將每個(gè)隨機(jī)向量@i變?yōu)橐粋€(gè)無(wú)剪枝的決策樹h(x,@i)(簡(jiǎn)稱hi(x)),得到k棵決策樹序列{h1(x),h2(x),…,hk(X)},每棵決策樹之間沒(méi)有任何關(guān)聯(lián),第k棵樹的形成流程見圖1:二是在生成決策樹時(shí),選擇的屬性也是隨機(jī)生成的,需要在所有的屬性集中等概率隨機(jī)選擇特征屬性值,構(gòu)成特征屬性子集,再利用這些特征屬性子集中的特征屬性構(gòu)成需要的決策樹。形成的大量決策樹組合在一起稱為隨機(jī)森林,簡(jiǎn)稱RF。假設(shè)y為輸出變量,由(x,y)所構(gòu)成的樣本數(shù)據(jù)集稱為原始樣本數(shù)據(jù)集。最終的分類結(jié)果由上述序列中所有決策樹的分類結(jié)果綜合決定,本文采用的是最簡(jiǎn)單的投票決定法,輸入變量x的類別為得票數(shù)最多的類別。最終的分類結(jié)果可用公式表示如下:式中:H(x)表示組合分類器模型;hi為第i個(gè)決策樹分類模型;I(·)為示性函數(shù)(示性函數(shù)是指使集合中有該數(shù)值為1,沒(méi)有則為0);argmax表示其后表達(dá)式取得最大值時(shí)對(duì)應(yīng)的變量x、y取值。

1.2 隨機(jī)森林算法模型的建立

隨機(jī)森林算法模型建立的步驟如下。

(1)用bootstrap方法從原始數(shù)據(jù)中選取k個(gè)不同的樣本集數(shù)據(jù),每個(gè)樣本集是每棵決策樹的訓(xùn)練數(shù)據(jù),且每個(gè)樣本集的樣本數(shù)量與原始數(shù)據(jù)集相等。

(2)用選取的k個(gè)樣本集構(gòu)建k個(gè)未剪枝的決策樹。在生成每棵決策樹的過(guò)程中,為了生成決策樹的節(jié)點(diǎn),需要從原始數(shù)據(jù)集中的所有M個(gè)特征屬性中等概率選出m個(gè)(m≤M)特征屬性作為候選特征屬性。利用隨機(jī)選出的m個(gè)候選特征屬性構(gòu)建決策樹,并且使每棵樹不進(jìn)行剪枝地完整生長(zhǎng),得到k棵完整的決策樹,每棵決策樹都對(duì)輸出變量做出分類,最終得到k個(gè)分類結(jié)果。

(3)根據(jù)得到的k種分類結(jié)果,對(duì)輸出變量的最終分類進(jìn)行投票,得票最多的類別為輸出變量的最終類別。1.300B估計(jì)和屬性變量重要性

采用bootsrap重抽樣方法生成k個(gè)數(shù)據(jù)集時(shí),在原始數(shù)據(jù)中將有近37%的樣本可能沒(méi)有被選中,這些樣本稱為Out-Of-Bag(OOB)數(shù)據(jù)。隨機(jī)森林的每棵樹都有一個(gè)OOB誤差估計(jì),取所有樹OOB誤差估計(jì)的平均值作為模型的泛化誤差估計(jì),用來(lái)檢驗(yàn)?zāi)P偷姆诸愋阅堋4罅吭囼?yàn)表明,只要樹的數(shù)量足夠大,OOB誤差與交叉驗(yàn)證得到的誤差就相差不大。對(duì)于生成的隨機(jī)森林模型,給其中某一個(gè)特征屬性增加噪聲,獲取增加噪聲前后的OOB準(zhǔn)確率,用來(lái)檢驗(yàn)?zāi)P托阅?,增加噪聲后OOB值的減小幅度越大,這個(gè)特征屬性就越有用。

2 實(shí)例應(yīng)用

2.1 研究區(qū)域和數(shù)據(jù)來(lái)源

選取太湖西半湖作為研究區(qū)域,該地區(qū)曾多次暴發(fā)水華。研究所用水質(zhì)數(shù)據(jù)來(lái)源于太湖水華在線監(jiān)測(cè)基站。將葉綠素a的濃度作為判斷水華發(fā)生的標(biāo)準(zhǔn):大于0.003mg/L,表示有發(fā)生水華的可能性,需要進(jìn)行預(yù)防:小于0.003mg/L,表示水環(huán)境狀況良好,水華暴發(fā)的可能性不大。把水華是否發(fā)生作為隨機(jī)森林模型的輸出變量,將水溫(T)、pH值、氮磷比(TN:TP)、化學(xué)需氧量(COD)、總氮(TN)、總磷(TP)等水質(zhì)水文數(shù)據(jù)和輸出變量一起構(gòu)成原始數(shù)據(jù)集。共有124組原始樣本數(shù)據(jù)(見表1,表中只列出一小部分),將其中前100組樣本用于建立水華預(yù)測(cè)模型,后24組樣本用于檢驗(yàn)?zāi)P偷姆诸愋阅堋?/p>

2.2 模型分類性能評(píng)價(jià)標(biāo)準(zhǔn)

采用總體分類準(zhǔn)確率(Acc)來(lái)評(píng)估RF模型的分類性能。Acc為最終分類預(yù)測(cè)值與真實(shí)值(實(shí)測(cè)值)的比值,其值越大表示模型的分類性能越好,計(jì)算公式為式中:Tp為正確分類的樣本數(shù);TN為總樣本數(shù)。

2.3 隨機(jī)森林模型的構(gòu)建

采用RandomForest()函數(shù)來(lái)構(gòu)造基于RF算法的水華預(yù)測(cè)模型,該函數(shù)有2個(gè)主要參數(shù)ntree和mtry,其中:ntree表示樹的數(shù)量,其值越大表示過(guò)擬合的可能性越小,一般取100,經(jīng)計(jì)算可以得到OOB誤差與ntree的關(guān)系,見圖2:mtry表示待選特征屬性的個(gè)數(shù),取值一般為所有特征屬性個(gè)數(shù)的平方根,本研究特征屬性個(gè)數(shù)為6,所以mtry的取值為2。由圖2可知,當(dāng)ntree>80時(shí)OOB誤差趨于穩(wěn)定,表明隨機(jī)森林模型的分類性能較高。由文獻(xiàn)可知,當(dāng)ntree為100左有時(shí),RF的分類性能與支持向量機(jī)相當(dāng),所以把ntree的值設(shè)為100,mtry的值設(shè)為2。用原始數(shù)據(jù)集的前100組數(shù)據(jù)進(jìn)行訓(xùn)練,得到隨機(jī)森林水華預(yù)警模型,把后24組數(shù)據(jù)作為測(cè)試數(shù)據(jù)輸入隨機(jī)森林模型,對(duì)這24組數(shù)據(jù)進(jìn)行分類判定,最終的分類準(zhǔn)確率為22/24,而支持向量機(jī)的分類準(zhǔn)確率為21/24,說(shuō)明隨機(jī)森林水華預(yù)警模型行之有效。

另外利用隨機(jī)森林預(yù)警模型還可以對(duì)水華影響因子的相對(duì)重要性進(jìn)行比較,以獲得太湖水華發(fā)生各影響因子的重要程度,結(jié)果見圖3。由圖3可知,在所有影響水華發(fā)生的因子中,TP濃度的相對(duì)重要性較高,其次是TN濃度,所以為預(yù)防水華暴發(fā),要特別注意TP濃度和TN濃度。

3 結(jié)語(yǔ)

隨機(jī)森林模型不需要先設(shè)定屬性的權(quán)重、怎樣去分類,模型需設(shè)置的參數(shù)少,計(jì)算過(guò)程簡(jiǎn)單、計(jì)算量較小,適合平臺(tái)廣泛,是一種快捷有效的機(jī)器學(xué)習(xí)模型?;跈C(jī)器學(xué)習(xí)算法——隨機(jī)森林,把影響水華發(fā)生的6個(gè)因子作為隨機(jī)森林的輸人變量、把葉綠素a的濃度作為輸出變量,建立水華預(yù)警模型。測(cè)試結(jié)果表明,其最終分類準(zhǔn)確率達(dá)到了91.67%,與支持向量機(jī)模型的分類性能相當(dāng),能夠解決其他算法穩(wěn)健性不足和過(guò)擬合等問(wèn)題,能保證預(yù)測(cè)正確率且可以分析影響水華暴發(fā)的主要因子,為水環(huán)境管理提供理論支持。

主站蜘蛛池模板: 老色鬼欧美精品| 日韩高清无码免费| 精品亚洲欧美中文字幕在线看| 国产黑丝视频在线观看| 日韩精品亚洲一区中文字幕| 综合久久五月天| 欧美日韩在线成人| 女人18毛片久久| 自慰网址在线观看| 国产内射在线观看| 国产sm重味一区二区三区| 99热这里只有精品2| 亚洲国产91人成在线| 国产女人喷水视频| 嫩草国产在线| 日韩高清成人| 久草青青在线视频| 71pao成人国产永久免费视频| 国产亚洲高清在线精品99| 欧美性久久久久| 91成人免费观看在线观看| 欧美激情视频一区| 欧美中文字幕一区| 亚洲天堂在线免费| 欧美一级高清片久久99| 国产情侣一区| 毛片基地视频| 亚洲精品波多野结衣| 国产国产人在线成免费视频狼人色| 欧洲极品无码一区二区三区| 精品国产www| 亚洲日韩精品欧美中文字幕| 2021国产精品自产拍在线| 亚洲热线99精品视频| 国产午夜无码专区喷水| 免费欧美一级| 欧美a在线看| 亚洲天堂久久新| 亚洲第一视频区| 黄片在线永久| 亚洲欧美国产视频| 日韩国产黄色网站| av在线手机播放| 亚洲精品欧美日本中文字幕| 在线欧美a| 色综合成人| 99成人在线观看| 国内精品久久久久久久久久影视| 中文天堂在线视频| 亚洲国产亚综合在线区| 午夜视频在线观看区二区| 亚洲三级成人| 老司机久久精品视频| 久久99蜜桃精品久久久久小说| 欧美日韩国产在线人| 日韩欧美网址| 欧美一级高清片欧美国产欧美| 久久永久视频| 国产区在线看| 人妻丰满熟妇AV无码区| 国产日本欧美在线观看| 久久一级电影| 中文字幕久久波多野结衣| 人人艹人人爽| 国产无码精品在线| 在线免费无码视频| 久久精品波多野结衣| 日韩东京热无码人妻| 日韩成人高清无码| 午夜精品区| 欧美午夜网| 精品国产自在现线看久久| 亚洲无码四虎黄色网站| 日韩免费毛片| 免费观看精品视频999| 一级毛片免费观看久| 亚洲侵犯无码网址在线观看| 久久香蕉国产线看观看精品蕉| 国产日韩av在线播放| 久久精品这里只有精99品| 欧美另类精品一区二区三区 | 伊人成人在线|