999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林算法的洪水災害風險評估研究

2019-06-13 09:01:00陳軍飛
水利經濟 2019年3期
關鍵詞:分類模型

陳軍飛,董 然

(1.河海大學商學院,江蘇 南京 211100;2.水文水資源與水利工程科學國家重點實驗室,江蘇 南京 210098)

洪水災害是人類面臨的最嚴重的自然災害之一[1],具有發生突然、頻率較高和危險系數較大等特征。受到全球氣溫上升、海平面升高以及部分區域地表下沉等因素的影響,洪水災害風險有明顯增加的趨勢[2-3]。全世界范圍內每年洪水災害引發的死亡人數占自然災害死亡人數的55%,引發的經濟損失占自然災害引發經濟損失的31%[4]。

在地形上,中國東南沿海城市以山地丘陵為主,多數河流是獨流入海的中小型河流,流域面積小,調蓄能力差,山區洪水急速上漲、下跌,再加上臺風等海洋災害的影響,極易造成洪水災害[5]。

經濟上,東南沿海城市交通便利、經濟發達、人口眾多。全國約有50%的人口和70%的財產分布在洪水威脅區[6]。因此我國每年因洪水造成的經濟損失占國民經濟總產值的35%左右[7],尤其從1990年開始,隨著洪泛區人口數量增加、經濟發展和財產聚集,洪災損失呈現逐年上升的趨勢[8-10]。

洪水災害風險包含未來洪水災害造成的潛在損失大小及其發生的可能性,通常涉及人和自然界因洪流產生的有利或有害的關系。為了能夠準確掌握洪水災害風險的規律與格局,從而控制洪水災害的風險,更需要對洪水災害進行風險評估。洪水災害風險評估是涉及多方面指標的綜合評估。致災因子的危險程度、孕災環境的穩定程度、承災體的抗破壞程度均會影響洪水災害的程度。

目前,越來越多的領域開始進行洪水災害風險評估,如洪水相關保險、避難場所安置、洪水災害預警以及由洪水所引發的相關評估工作等。及時對洪水災害風險實施評估是洪災預警管理的前提和依據[11]。洪水災害風險是由3個不同的性質共同組成的一個三維觀點,三個維度分別從不利性、不定性和復雜性考慮[12]。由于洪水災害風險評估的指標會受到多種內外因干擾,評估過程中指標數據都具有不確定性的特點[13],不同的評價方法得到的結果往往相差較大,所以洪水災害風險評估工作到目前為止依舊是全球各科學領域研究的重點和難點。

近年來,人工智能技術快速發展,諸多學者趨向于把智能算法應用到各類評估工作之中。隨機森林為利用多棵樹對樣本進行訓練并預測的一種分類器,其中子樣本數據集在構建過程中利用Bootstrap方法,以重抽樣的方式從全部數據集中抽取得到,然后再對每一個子樣本數據集構建相應的分類樹,最終將所有分類樹的預測結果進行統計組合,并以投票的方式得到最后的結果。隨機森林經過該投票方式,將諸多弱小的分類器聚集在一起,構成一個強大的分類器,縱使每一個弱小分類器精度不足或錯誤率很高,但每個弱小分類器之間卻能夠相互補充,從而降低了整體的錯誤率,提高了預測精度。

本文基于隨機森林算法對洪水災害進行風險評估,以海河流域邱莊段為例,構建基于隨機森林算法的洪水災害風險評估模型,以期為流域洪水風向管理提供相關研究基礎。

1 基于隨機森林算法的洪水災害評估模型原理及構建步驟

構建洪水災害風險評估模型流程包含以下幾個步驟:①根據致災因子、孕災環境、承災體的特性選取風險指標[14];②選取樣本數據確定人工識別風險等級,將樣本數據分成訓練集和測試集兩類;③將訓練樣本集輸入隨機森林算法中,構建基于隨機森林算法的洪水災害風險評估模型,并確定指標的重要性。

1.1 隨機森林算法原理

隨機森林(Random Forest)是由Leo Breiman[15]創造出的機器學習方法。隨機森林算法主要由兩部分組成:一是分類回歸樹,一是Bagging方法,兩者相結合,形成一個嶄新的分類算法。

隨機森林利用一系列樹型分類器{h(X,Θk),k=1,2,3,…,K}組成組合分類器,分類器h(X,Θk)是用風險分類樹算法構造出的沒有經過剪枝的分類回歸樹。其中,Θk為獨立分布隨機向量,它對每棵樹的形成過程進行決策。每棵樹都有一次投票權,通過多次投票方式,得出隨機森林的最終結果。

如圖1所示,隨機森林算法生成過程相關描述如下:

圖1 隨機森林生成步驟

a. 在整個樣本集中使用Bootstrap方法,從中重抽樣出K個子訓練樣本集{D1,D2,…,DK},并構建出K棵分類樹;

b. 在分類樹的任何一個節點上,從所有指標中隨機選取幾個指標,選擇最優分割指標進行分割;

c. 重復以上步驟;

d. 將所有的樹聚集在一起,構建整個隨機森林。

將隨機森林算法運用到洪水災害風險評估時,需要將待測洪水樣本數據集帶入由訓練集訓練出的隨機森林分類樹中,葉子節點上分散的等級對應著該樹的評估結果。因為森林中每一棵樹都會對應得出一個結果,需要將所有結果進行平均運算,從而得到基于隨機森林算法的洪水災害風險待測樣本結果。

(1)

式中:T為隨機森林中樹的數目;c為某一風險等級;P(c|v)為風險等級c在葉子節點v處發生的概率。

在抽樣過程中,Bootstrap隨機抽樣得到待輸入的訓練集,同時分割節點隨機性選擇指標,使得各個分類樹之間的聯系降低。由于剪枝操作會提高偏差,整個過程不對單棵樹進行剪枝操作,從而保持分類樹處于低偏差狀態,以保證測試集能夠精準分類。

1.2 風險分類樹

風險分類樹的工作針對相應的指標實施評估。該組指標對應得到一個風險等級。整個基于隨機森林算法的洪水災害風險評估模型都是以各類指標變量為相關基礎。風險分類樹的實質就是二叉樹(CART)。CART自身包括了根節點、子節點及葉子節點。CART中有多重路徑可走,每條路徑都是一條判別規則,最終走到的葉子節點便是這條路徑所對應的等級。對樣本集進行訓練,實際是使分類樹生長,樣本集從根節點向下分割,分割點的判斷標準不統一,因此可以得到不同的分類樹。創建分類樹的步驟可以歸納為4步:

a. 使用Bagging方法得到訓練集。從整個樣本數據集中,隨機性有放回地抽取其中一部分作為子樣本,將這些子樣本構建成單棵樹訓練集,如圖2中的S1。

b. 隨機選取節點風險指標。節點指標數不能大于指標總個數。一般情況下,選取指標個數的平方根數作為結點風險指標的個數。節點指標的選取是隨機的。

c. 在構建分類樹的時候,每棵樹上都會出現多個節點,節點的分割方式一般會選取最小基尼系數作為標準,并按最優分割實施。節點的基尼系數描述的是節點的不純度,可以通過式(2)得到:

(2)

式中:Gini(t)為節點t處的基尼系數;P(j|t)為風險等級j在節點t處發生的概率。

當Gini(t)=0時,表示在t節點處,樣本數據均為相同的風險級別;當Gini(t)>0且越大時,t節點的數據越分散,越表明樣本數據處于不同的風險等級。

d. 任其生長,不需要給風險分類樹剪枝。

單棵完整的風險分類樹如圖2所示。

圖2 單棵風險分類樹

1.3 隨機森林算法誤差及其指標分析

隨機森林采用Bagging方法完成對訓練集的隨機性抓取。首先假設樣本總容量為N。由于隨機抽取時采用有放回的方式,因此在所有隨機抓取過程中,沒有被抓取的概率為P=(1-1/N)N。隨著N的不斷變大,P逐漸趨于穩定,P≈0.368。因此可以說明,接近2/3的樣本都會被采樣到訓練數據集中。將剩下沒有被采集的數據稱為袋外數據(Out-Of-Bag,OOB)。構建完成風險分類樹后,計算風險分類樹在分類過程中發生錯誤的概率,即為OOB誤差。OOB誤差計算過程需要運用袋外數據,求出整個森林中的OOB誤差并取平均,結果便是隨機森林算法的泛化誤差。隨機森林的OOB誤差無偏差性,因此無需測試集。

隨機森林算法中,共有兩種方法可對指標進行重要程度計算:①分別對每個分類樹進行OOB誤差計算,然后再計算加入噪聲的風險指標數據的OOB誤差,這樣能夠得到兩組OOB誤差值,兩組誤差值的差對森林中所有的分類樹取平均,然后采用同一化處理,最終可以得該風險指標的重要程度。②通過對某項風險指標在相應節點處分割基尼系數減少的值DGini實施計算;將森林中所有的DGini進行求解和運算,然后對所有數取平均,得到的結果就是該項指標的重要程度。

相關公式為

(3)

式中:Qk為第k個指標在所有指標中重要程度的百分比;m為相關風險指標整體數量;n為整個隨機森林中構建分類樹的數量;t為單棵分類樹中節點個數;DQkij為第k個指標在第i棵分類樹上第j個節點處的基尼系數減少值。

由于在處理高維度洪水災害數據過程中,采用方法②可以有效避免特征選擇,且數據集的適應能力強,既能處理離散型數據,也能處理連續型數據,數據集無需進行規范化。因此采用基于基尼系數減小值的方式對洪水災害風險指標進行重要性判斷。

1.4 模型對比方案

為突出隨機森林算法在洪水災害風險評估中的數據挖掘優勢,選取支持向量機算法(SVM)作為對比。支持向量機模型擁有極強的非線性處理能力,同樣是一種高效、可靠的人工智能方法。

支持向量機是建立在統計學習理論中VC維理論和結構風險最小原理基礎上的機器算法模型,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢。支持向量機最初是為求解二分類問題而誕生的,其基本思想可以表述為:尋找一個最優分類超平面(sepa-rating hyperplane),使兩類平面間相鄰最近的樣本點之間的邊緣(margin)最大化。在最大化邊緣邊界上的樣本點被稱為支持向量(support vectors),邊緣的中間切面為最優分類超平面。被邊緣誤分的點,其權重將被降低,以減少其影響。當數據線性不可分時,通過核函數將數據點映射到高維空間,使其線性可分。

對比方案中的支持向量機采用徑向基核函數,主要原因有:①線性核函數只能處理線性關系;②Sigmoid核函數在某些參數上近似徑向基核函數的功能,徑向基核函數取一定參數也可得到Sigmoid核函數的性能;③多項式核函數參數較多,不易于參數優選。

2 實例分析

海河地處我國華北京津冀地區,為該地區最大的河流。北運河、永定河、大清河、子牙河、南運河這5條河流匯集于海河的干流之上,共同組成整個海河流域。海河全長共計1 050 km,干流長76 km,河道不寬且曲折多彎。海河流域橫跨8個省,面積20余萬km2。流域以山區為多,人口超過7 000萬人,耕地面積近兩億畝。由于海河流域所處位置的原因,受季風氣候影響嚴重,加上流域的特殊地形地勢,有記錄以來常受到洪水災害侵襲。由于北方較為干旱缺水的自然環境,一旦發生洪水災害,海河流域的承受能力明顯不足[16]。如1963年的特大洪水,對當地人們的生活造成嚴重破壞。因此,對該流域實施洪災風險評估可以為洪災管理、洪災保險等領域研究提供強有力的支撐[17]。海河流域邱莊段位于河北省豐潤縣,距離豐潤縣縣城20 km,與遵化縣相接。該流域位于還鄉河之上,流域面積 525 km2。本文僅選取邱莊水庫段監測點數據繼續分析,減小分析面積,從而提高該地區的相關準確度。

2.1 研究樣本與數據獲取

在基于隨機森林算法的洪水災害評估模型構建過程中,確定指標體系是災害風險評估的重要環節。已知導致洪水災害發生的因素眾多,可用于風險評估的指標也很多[18]。目前國內外的評估體系大體是從致災因子[19-20]、孕災環境[21]、承災體三方面著手研究,隨后再進行細化考慮,從而得到具體的指標。指標選取的基本原則為:①指標在該領域研究中出現的頻率;②指標能否反映相應的資料信息;③指標的可獲得性[22]。

本文基于流域災害系統相關理論,遵循易獲取、易操作、客觀性和準確性原則,參考相關研究,根據海河流域邱莊水庫段1966—1998年洪水相關數據材料,在承載體、孕災環境、致災因子基礎上選取9個指標(表1)進行研究。其中由于數據時間跨度較大,承載體的相關因素指標獲取困難。根據指標獲取的系統性和典型性原則,選取的人口和國民生產總值指標可分別代表人文和經濟兩個方面,孕災環境和致災因子中的指標可反映生態環境的變化情況,數據年份跨度遵循了動態性原則。所以三因子中的9個指標構成了人文-生態-經濟的綜合性評價體系,從而可以全面綜合地進行洪水災害風險評估。

表1 研究指標及其來源

在構建洪水災害風險評估模型時,選擇樣本數據尤為重要。樣本數據是否合適、是否具有代表性等都影響著最后評估結果的準確度。根據需求獲取1966年7月28日—1988年7月13日之間海河流域邱莊段的洪水相關記錄,通過噪聲處理后,共選取1 000條有效的樣本數據。

結合海河流域北方自然環境干旱的特點,對海河流域洪水災害風險分級不按洪水重現期進行分類,而是采用對歷史數據進行分級的方法,根據當地環境特點,劃分出洪水災害等級。在所有有效數據中,實測流量最小為0 m3/s,最大為1 227.77 m3/s。將該河段洪災風險等級劃分成為3個等級,A級風險最低,實測流量值小于150 m3/s;B級風險中,實測流量值大于等于150 m3/s,小于500 m3/s;C級風險高,實測流量值大于等于500 m3/s。

2.2 模型實現及參數設定

對基于隨機森林算法洪水災害風險評估模型的建立將在R語言(https://www.r-project.org/)平臺上運用randomForest軟件包實現。作為對照的支持向量機模型同樣建立在R語言平臺,采用e1071軟件包實現。兩個模型采用相同的數據集進行評估,以便比較評估結果。整個模型的實現過程分為5步。

2.2.1訓練數據

采用五折交叉驗證方法:首先將數據集D隨機分成相等容量的5份子數據集D1、D2、D3、D4、D5;然后選取其中的一份子數據集Di作為測試數據集testing,其他4份子數據集(D~Di)作為訓練數據集training,從而構成第i組訓練測試集(trainingi,testingi)(i=1,2,3,4,5)。

2.2.2設置參數

該模型的參數包含分類樹的數量以及節點分叉數量。對隨機森林算法的參數進行調整,得出的結果存在差異。默認情況下,樹的節點交叉數取指標數量的平方根,樹的數量固定500棵,但是需要進一步測試是否需要改變參數的設定。而樹的數量越大,模型越穩定,其對應的OOB誤差波動越小。固定樹中節點mtry的數量為3,對樹的數目T分別取為500,1 000,2 000,3 000,結果如圖3所示。

隨著樹的數量變多,模型的穩定性也越來越好。但是由于樹的數量越多,計算時間越長,消耗計算機的內存越大。經過多輪測試后,得到一個最佳參數。最終將隨機模型分類樹數量設置為3 000,節點的分叉數設置為3。

圖3 T在取不同數值的情況下對應的OOB誤差

通過圖3可以發現,在3個分類中,第C等級的錯誤率明顯高于前兩類,這是洪水數據中各等級的數據量存在較大差距造成的。由于流量越小數據量越多,而流量越大數據量越小,各等級數據量不平衡問題在洪水災害風險評估過程中不可避免。在隨機森林算法中,這類問題被稱為不平等分類問題。然而越是稀缺的數據,通常越是數據挖掘的重點目標。在洪水災害中,低流量數據的預測失誤影響并不大,但是高流量數據預測失誤將會造成極其嚴重的后果。因此,在R語言的隨機森林算法中提供了cutoff方法,專門用來解決這類不平等分類問題。cutoff方法設置了一個投票閾值,可以對每一個分類設置一個cutoff值,所有分類的cutoff值之和為1。若某項分類的cutoff值小于0.5,投票結果會偏向于該分類,cutoff值越小越偏向。經過多次嘗試之后,將cutoff值設為(0.7,0.2,0.1),重新繪制OOB誤差圖(圖4)。

圖4 加入cutoff閾值的OOB誤差

結果表明,通過設置cutoff閾值,能夠將C等級洪水預測誤差大大降低。這個過程雖然會影響A等級的誤差,但是考慮C等級洪水預測比A等級重要,因此降低C等級的誤差更為重要。

支持向量機模型核函數選用徑向基函數,徑向基函數系數γ=0.1,懲罰系數C=10。

2.2.3指標重要性計算

將完整的樣本數據全部帶入構建好的隨機森林模型中,利用隨機森林模型的自檢測功能,得到各個指標的重要程度結果。

2.2.4流域洪水風險等級評判

將需要測試的樣本輸入到上一步驟得到的模型之中,對其進行評估。

2.3 結果分析

2.3.1評判精度分析

根據隨機森林算法的自評估功能顯示,洪水災害風險評估模型在不引入cutoff閾值時的OOB誤差為9.5%,對A、B、C等級洪水預測誤差分別為3.46%、22.92%、24.24%。造成B、C等級誤差變大的原因是,在所有數據集中,A類數據占69.4%,B類占24.0%,C類僅占6.6%。引入cutoff閾值后,OOB誤差為13.00%,對A、B、C等級預測誤差分別為13.26%、13.75%、7.57%。雖然OOB誤差上升了3.50%,但是較為重要的B、C等級洪水風險評估誤差分別降低了9.17%、16.43%,因此采用cutoff方法對數據分類進行修正。

2.3.2指標重要性分析

基于隨機森林算法的洪水災害風險評估采用根據節點平均基尼系數減小值的方法來計算指標的重要程度。洪水災害風險評估模型中各指標對應的重要程度值如表2所示。

表2 洪水災害風險評估模型平均基尼系數減小值

表3 五折交叉驗證訓練和測試精度評估

根據圖5可以得出:12 h內降雨量為最重要指標,占所有指標重要程度百分比的35.1%;其次為洪水持續時間、土壤含水量,分別占13.5%和13.3%。說明這3項指標對洪災風險的影響程度最大,與洪災的關系最為密切。同時采用6 h降水量作為對比指標,可以發現6 h降水總量的重要程度遠低于12 h,說明該地區雨水匯流時間長、泄洪慢的情況,因此在經歷長時間降雨時,要格外加強洪水災害的預防。其次,該地區土壤含水量對洪水災害影響的重要性也很高。

圖5 洪水災害風險評估模型指標重要性

2.3.3模型效果對比

為了綜合評價模型性能,采用相同的樣本再次建立基于支持向量機(SVM)的洪水風險評估模型。隨機森林算法內置自評估功能,可不進行交叉檢驗,但為了構建與支持向量機模型相同的比較環境,兩模型均采用五折交叉驗證,訓練和測試精度評估見表3。由表3可知,支持向量機模型的訓練平均精度為86.63%,而隨機森林算法可達89.05%;支持向量機模型的測試平均精度為87.30%,而隨機森林算法達到89.10%。因此隨機森林算法的訓練精度較支持向量機模型高2.42%,測試精度較支持向量機模型高1.8%,這主要是因為隨機森林算法中的自驗證功能使模型中的OOB誤差具有無偏差性,其計算更高效,因此精度更高。

同時將五折交叉檢驗中的測試結果匯總為混淆矩陣,以進一步對比兩模型的準確性。混淆矩陣中錯分率計算為

(4)

式中:ei為混淆矩陣錯分率;xij為混淆矩陣。

基于隨機森林算法的洪水災害評估模型和基于支持向量機模型混淆矩陣如表4所示。

表4 洪水評估模型混淆矩陣

結果顯示,隨機森林算法的混淆矩陣中,A等級錯分率較支持向量機略高4.9%,但B、C等級中的錯分率較支持向量機分別小18.33%、16.66%,說明經過優化的隨機森林算法洪水災害風險評估模型對高危洪水風險把控更加穩定。

3 結 論

a. 根據流域洪水災害系統理論,綜合致災因子、孕災環境以及承災體三大基本因素,選取9個評價指標,以隨機森林算法為模型,海河流域邱莊段為例,構建一套洪水災害風險評估系統。

b. 在運用隨機森林模型對洪水災害等級的評估過程中,經過參數調整,精度可以達到89%,因此可以將模型運用到洪水預警、洪災保險等領域。

c. 通過隨機森林算法自評估的結果,可以直觀得到各指標對洪水災害影響作用的大小。在本文涉及的相關因素中,12 h內降水總量、洪水持續時間和土壤含水量在兩個模型中的重要程度值為前3名,因此在海河流域邱莊段,這3個因素為造成洪水的主要因素,在平時應作為重點監測對象。

d. 與基于向量機方法對比結果顯示,基于隨機森林算法的平均訓練精度、平均測試精度分別較支持向量機模型高2.42%和1.80%,基于隨機森林算法對高危等級洪水風險識別率精度更比基于向量機模型高16.66%,說明基于隨機森林算法有較好的正確率和穩定性,對洪水災害能夠起到更好的預測防范作用。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久 午夜福利 张柏芝| a天堂视频在线| 毛片视频网| 熟妇人妻无乱码中文字幕真矢织江| 秋霞国产在线| 国产免费观看av大片的网站| 亚洲精品国产综合99久久夜夜嗨| 日韩成人在线网站| 国产成熟女人性满足视频| 国产亚洲精品精品精品| 国产在线观看一区精品| 国产精品久久久免费视频| 91尤物国产尤物福利在线| 自慰网址在线观看| 无码国产伊人| 国产精品乱偷免费视频| 全免费a级毛片免费看不卡| 波多野结衣视频网站| 欧美成人怡春院在线激情| 久久久久国产一区二区| 欧美在线综合视频| 福利片91| 久久精品国产亚洲AV忘忧草18| 久久99热66这里只有精品一| 久久综合亚洲色一区二区三区| 白丝美女办公室高潮喷水视频| 波多野结衣第一页| av在线5g无码天天| 亚洲天天更新| 91九色最新地址| 亚洲精品欧美日本中文字幕| 97超碰精品成人国产| 精品少妇人妻av无码久久| 国产一级妓女av网站| 久夜色精品国产噜噜| 亚洲精品视频免费观看| 国产97公开成人免费视频| 91小视频在线观看免费版高清| 久久中文无码精品| 国内丰满少妇猛烈精品播| 国产欧美中文字幕| 无码aⅴ精品一区二区三区| 亚洲天堂网在线视频| 亚洲AⅤ波多系列中文字幕| 免费不卡视频| 国产婬乱a一级毛片多女| 国产最新无码专区在线| 亚洲精品桃花岛av在线| 伊人AV天堂| 亚洲精品自拍区在线观看| 五月婷婷精品| 国产福利一区二区在线观看| 免费jizz在线播放| 新SSS无码手机在线观看| 国产专区综合另类日韩一区| 九色免费视频| 香蕉久久国产超碰青草| 青青青亚洲精品国产| 天天色天天综合| 欧美福利在线播放| 美女无遮挡免费视频网站| 久久精品一品道久久精品| 欧美日韩国产在线观看一区二区三区 | 日日拍夜夜操| 人妻丰满熟妇啪啪| 国内精品久久久久鸭| 无码专区国产精品一区| 欧日韩在线不卡视频| 日韩精品无码一级毛片免费| 日韩在线视频网| 欧美午夜视频在线| 欧美精品啪啪| 综合亚洲网| 成人综合网址| 少妇精品网站| 一级毛片在线免费视频| 夜夜操天天摸| 日韩无码黄色网站| 欧美三级自拍| 亚洲人成网7777777国产| 亚洲精选高清无码| 亚洲视频一区|