基于隨機森林模型判別礦井涌(突)水水源

2020-06-30 08:48:52穆文平鄧若晨胡博遠

科學技術(shù)與工程 2020年16期

關(guān)鍵詞：方法模型

郝謙，武雄，穆文平，鄧若晨，胡博遠，高原

(中國地質(zhì)大學(北京) 水資源與環(huán)境學院，北京 100083)

隨著礦井開采深度的增加，礦井涌(突)水災害發(fā)生頻率也逐步增高，對井下的安全生產(chǎn)造成了嚴重威脅[1-2]?？焖贉蚀_判別礦井涌(突)水水源是近年來礦井水害治理研究的熱點問題之一。在過去的幾十年里，學者們已經(jīng)提出了許多研究方法來判斷礦井涌(突)水水源，這些方法可分為三種類型：地下水動力學判別方法、地下水溫度判別方法[3]、水化學判別方法[4-5]。Wu等[6]對比了上述三種方法后，得出了水化學判別方法在實際運用當中更具優(yōu)勢的觀點。溫廷新等[7]、朱慶偉等[8]、朱樂章[9]在對礦井涌(突)水水源判別問題研究時，都利用水化學判別方法選取地下水中的7種主要離子進行礦井涌(突)水水源判別。

對于利用水化學成分進行礦井涌(突)水水源判別時，應用了許多數(shù)學方法，例如，模糊數(shù)學理論[10]、灰色關(guān)聯(lián)分析[11-12]、熵權(quán)-模糊綜合判別[13]等。模糊數(shù)學理論評判和灰色關(guān)聯(lián)分析等方法都要事先假定模式或主觀規(guī)定一些參數(shù)，導致其評價結(jié)果具有主觀性。近幾年，隨著計算機技術(shù)的進步和數(shù)據(jù)挖掘技術(shù)的顯著提升，利用機器學習手段能避免上述問題，提高判別精度。例如，吳巖等[14]利用BP(back propagation)神經(jīng)網(wǎng)絡；邵良杉等[15]利用支持向量機(support vector machine，SVM)；王亞等[16]、唐立力[17]利用極限學習機(extreme learning machine，ELM)等機器學習分類器進行礦井涌(突)水水源研究。BP神經(jīng)網(wǎng)絡由Rumelhart提出[18]，其原理是按照誤差逆向傳播算法訓練多層前饋神經(jīng)網(wǎng)絡，學習訓練樣本使得輸出結(jié)果誤差最小。SVM方法由Vapnik提出[19-20]，其原理是將數(shù)據(jù)構(gòu)建到高維空間，然后在這個新空間中求取最優(yōu)線性分類面對數(shù)據(jù)樣本進行分類。ELM方法由黃廣斌提出[21-22]，其原理是利用廣義逆實現(xiàn)求解輸出權(quán)重的單隱藏層前饋神經(jīng)網(wǎng)絡，可以快速地完成學習過程。雖然這些方法均可直接應用于礦井涌(突)水水源判別，但是模型的性能各有千秋。BP神經(jīng)網(wǎng)絡雖然可以求解復雜的非線性映射，但是存在學習過度，收斂速度慢等缺點；SVM雖然有堅實的理論基礎，較快的運算速度，但是只可使用間接的方法來完成多分類，可能導致精度不足；ELM雖然參數(shù)設置少適用范圍廣，但是輸入層權(quán)重隨機生成可能導致預測結(jié)果不穩(wěn)定等問題。

鑒于此，迫切需要一種高精確度、高穩(wěn)定性、并且擁有良好魯棒性的新方法。Breiman[23]提出的隨機森林模型(random forest,RF)滿足上述條件。在相關(guān)領(lǐng)域隨機森林模型已經(jīng)用于預測礦石的屬性，采空區(qū)自燃[24]等問題并取得了良好成績。本文將其應用于礦井涌(突)水水源判別，建立RF 水源判別模型，并與傳統(tǒng)分類模型SVM和ELM進行比較[25]。分析隨機森林模型在礦井涌(突)水水源判別中的適用性，探索其應用方法，最后通過實例驗證，證明方法的有效性。

1 隨機森林模型判別水源原理

1.1 模型步驟

隨機森林模型是一種基于Bagging的集成學習方法，該方法隨機有放回的選擇訓練數(shù)據(jù)構(gòu)造組合分類器進行分類。模型具體步驟如下：

對一個包含N個樣本的訓練數(shù)據(jù)樣本集S，令i(i=1,2,…,N)表示樣本序號，則第i個樣本的數(shù)據(jù)信息可記作 (xi,yi)，其中，xi為M維向量，表示該樣本的M個特征，令j(j=1,2,…,M)表示該樣本的第j個特征，則第i個樣本的第j個特征可記作xij；yj為一個元素，表示樣本i的所屬類別，假設所有樣本可分為n個類別，用l(l=1,2,…,n)表示樣本的一個類別，則該訓練數(shù)據(jù)樣本集可表示為

S={(xi,yi),i=1,2,…,N}

(1)

訓練數(shù)據(jù)樣本集S也可表示為矩陣的形式：

(X,Y)∈RM×R

(2)

式(2)中：X=(x1,x2,…,xn)T表示N個樣本的特征矩陣；Y=(y1,y2,…,yn)T表示N個樣本的分類組成的列向量。

Step 1有放回的隨機抽樣。從原始訓練數(shù)據(jù)樣本集中利用bootstrap采樣方法進行抽樣，即從整個訓練數(shù)據(jù)樣本集合中，有放回的進行k次隨機抽取，形成k個樣本子集Sd(d=1,2,…,k)其中每個子集包括原訓練樣本集S中的大約2/3個樣本數(shù)據(jù)。

Step 2構(gòu)建決策樹。針對每個樣本子集Sd，從樣本的M個特征中隨機挑選m個特征(m?M),將挑選好的m個特征數(shù)據(jù)輸入CART算法(該算法在下一小節(jié)中進行介紹)構(gòu)建決策樹。每一個樣本子集Sd可以構(gòu)建一顆決策樹，一共構(gòu)建k棵。

Step 3進行決策。根據(jù)生成的k棵決策樹分類器對新的測試數(shù)據(jù)xt進行預測，分類結(jié)果按每棵樹分類器的投票多少而決定。詳細計算過程如圖1所示。

圖1 隨機森林模型計算原理Fig.1 Principles of random forest

1.2 隨機森林決策樹構(gòu)建原則

CART(classification and regression trees)算法是隨機森林構(gòu)建決策樹的算法，其構(gòu)建過程為：對于一個特定樣本子集Sd，從隨機挑選的m個特征中先選取一個特征mj，按照mj大于等于或者小于某個實數(shù)，將樣本子集Sd劃分成兩個集合Sd1與Sd2，按照式(3)計算Gini(Sd)。計算過程如下：

(3)

對樣本集合T(一次劃分中可能的取值是Sd1與Sd2) Gini系數(shù)計算方法如下：

(4)

式(4)中：T表示樣品集；n表示樣本集中所有可能出現(xiàn)類別的總數(shù)；Pi表示樣本集合中第i類樣本出現(xiàn)的概率。

對劃分好的集合Sd1如果其Gini(Sd1)大于設定值則選取另一個特征值重復上述劃分過程。經(jīng)過上述不斷的劃分會形成如圖2所示的一棵樹。新的測試數(shù)據(jù)xt會按照m的條件分配到不同劃分好的集合中。決策樹將分配到的集合中概率最高的類別認為是xt的類別。經(jīng)過多次不同的劃分后找到實數(shù)C#使得Gini(Sd)最小。

圖2 隨機森林中的一棵CART樹Fig.2 A CART tree in a random forest

2 判別模型的工程應用

2.1 研究區(qū)概述

研究區(qū)為大孤山鐵礦周邊地區(qū)，距鞍山市東南12 km。研究區(qū)為丘陵地形，南北高中間低，多年平均降雨量720.6 mm，礦坑西部有河流從南向北流過。研究區(qū)主要地層為第四系地層、下白堊統(tǒng)地層、太古宇地層。其中第四系地層主要為黏土，其余地層為同時期侵入巖以花崗巖為主。受寒嶺斷裂的控制，形成一系列的斷層和破碎帶。具體地質(zhì)情況如圖3。大孤山鐵礦礦坑內(nèi)主要為花崗巖、磁鐵礦、變質(zhì)巖(圖4)。依據(jù)礦區(qū)水文地質(zhì)條件將該地區(qū)可能的礦井涌(突)水水源分為第四系松散孔隙水、花崗巖基巖裂隙水、地表水三大類。

圖3 研究區(qū)地質(zhì)與實驗樣本分布Fig.3 Geological and experimental sample distribution of the study area

圖4 1-1′ 剖面圖Fig.4 1-1′ profile map

第四系孔隙水，補給來源主要為大氣降水，多以人工開采形式排泄為主，部分補給花崗巖基巖裂隙水，主要為SO4-Ca、SO4-Ca-Mg型水，簡稱孔隙水。

花崗巖基巖裂隙水，補給來源主要是大氣降水，人工開采排泄為主，主要為HCO3-Ca，HCO3-SO4-Ca型水，簡稱裂隙水。

地表水，大氣降水補給為主，礦化度最高，蒸發(fā)現(xiàn)象顯著，主要為SO4-Mg-Ca型水。

大孤山鐵礦西北巷道為本次預測涌水水源研究樣本。起點坐標：123°3′17.45″E，41°3′16.09″N，巷道始建于1986年，該巷道為礦石運輸發(fā)揮了難以替代的作用近年來巷道內(nèi)部裂隙多發(fā)并伴有涌水現(xiàn)象。礦井巷道取樣點如圖5所示，取樣巷道入口地面高程68 m，巷道總長632 m。

圖5 取樣點與巷道位置圖Fig.5 Location map of sampling points and roadway

2.2 評估指標選取

圖6 piper三線圖Fig.6 The piper diagram

矩陣X中數(shù)據(jù)xij標準化的計算公式如下：

(5)

(6)

實驗結(jié)果證明，通過標準化可以加快收斂速度并提高精度(表2)。

2.3 隨機森林參數(shù)確定

RF通過使樹從不同的訓練數(shù)據(jù)子集中生長來增加樹的多樣性。每棵樹生長所選擇的子集通常包含大約2/3的數(shù)據(jù)，子集中不存在的樣本，包含在另一個名為袋外數(shù)據(jù)(out-of-bag,OOB)的子集中。利用OOB計算模型的錯誤率er表示如下：

表1 水樣數(shù)據(jù)Table 1 Sample data

表2 通過10次十折交叉驗證實驗測試標準化RF性能Table 2 Standardized RF performance was tested by 10-fold cross validation experiments

(7)

式(7)中：er表示第k棵樹的OOB錯誤率；A表示第k棵樹OOB數(shù)據(jù)的總數(shù)；a表示第k棵樹分類結(jié)果錯誤的數(shù)據(jù)個數(shù)。

按照上述方法每個決策樹都可以得到一個OOB錯誤率er，將其平均值作為估計模型的分類性能的指標，稱為OOB錯誤率。圖7說明隨著樹的棵數(shù)的增加，OOB錯誤率逐漸減少并趨于穩(wěn)定。樹的棵數(shù)k=50的時候模型比較理想。如果樹的棵數(shù)繼續(xù)增加會導致運算量加大，但是精度提高不明顯。節(jié)點預選變量過多會導致模型過擬合判斷精度下降，根據(jù)圖7、表3可以看出m=3時效果較好，穩(wěn)定性較強。因此，選取的RF模型參數(shù)為：樹的棵數(shù)k=50，樹節(jié)點預選的變量m=3。

表3 k=50時OOB錯誤率Table 3 OOB dislocation rate with k=50

2.4 對比實驗

交叉驗證是一種統(tǒng)計學中將數(shù)據(jù)樣本切割成較小子集用來測試模型的準確性的實用方法。選取十折交叉驗證，其原理是將數(shù)據(jù)集隨機分成十份，輪流將其中9份作為訓練數(shù)據(jù)，1份作為測試數(shù)據(jù)，進行實驗，測試結(jié)束即完成了10次實驗。本文中采用隨機森林模型，對表1中的水化學數(shù)據(jù)標準化處理后進行10次十折交叉驗證并與SVM和ELM預測結(jié)果進行對比。

SVM利用libsvm工具箱，選擇高斯核函數(shù)。采用工具箱自帶SVMcgForClass函數(shù)尋找最優(yōu)懲罰系數(shù)C與高斯核函數(shù)幅寬影響系數(shù)γ的值。根據(jù)計算結(jié)果最優(yōu)的C=5.15，γ=0.01。

ELM利用十折交叉驗證的方法尋求ELM最優(yōu)參數(shù)。分別對1～100個隱含層神經(jīng)元進行十折交叉驗證，將得到的正確率取均值繪制成圖8。從圖8中可以看出雖然在40個隱含層神經(jīng)元的時候訓練樣本正確率穩(wěn)定維持在100%，但是測試樣本的正確率先上升后下降大約在12個神經(jīng)元時達到最高，過高的神經(jīng)元個數(shù)容易導致模型過擬合，達不到預測的效果。因此，本次實驗選取12個神經(jīng)元。激活函數(shù)如下：

g(x)=1/(1+e-x)

(8)

圖8 ELM性能測試Fig.8 ELM performance test

2.5 對比結(jié)果

進行10次十折交叉驗證并將每次預測的正確率進行統(tǒng)計繪制出圖9。從圖9中可以看出RF的訓練樣本100%擬合。RF構(gòu)建決策樹的時候遵循隨機抽樣的原則根據(jù)統(tǒng)計學中的大數(shù)定律，重復實驗次數(shù)越多，隨機事件的頻率越近似于它的概率的原則。隨著樹的棵數(shù)的增加只是增加計算量，不會導致模型過擬合使RF可以更好地利用全部數(shù)據(jù)。

對比圖9(a)及圖9(b)、圖9(c)可以看出隨機森林可以更好地降低噪聲對預測結(jié)果的干擾，擁有更好的魯棒性。不會像SVM與ELM一樣因為部分噪聲導致正確率波動。對比圖9(b)與圖9(c)可以看出SVM的穩(wěn)定性比ELM更優(yōu)秀，這可能與ELM隨機賦予輸入權(quán)重有關(guān)，導致ELM預測結(jié)果波動性比較強。RF，SVM在不同十折交叉驗證中表現(xiàn)出較高的穩(wěn)定性。根據(jù)表4的總用時可以看出SVM的速度最快、ELM次之、RF較慢。但是礦井涌(突)水問題的研究訓練樣本數(shù)目不會太大。100次用時32 s的速度可以滿足預測要求。

表4 10次十折交叉驗證正確率與總用時Table 4 Accuracy rate and total time of 10 10-fold cross validation

圖9 交叉驗證結(jié)果Fig.9 Cross validation results

3 巷道涌水水源預測

經(jīng)過上述實驗可以看出利用標準化以后的RF模型預測結(jié)果最優(yōu)，將礦井巷道內(nèi)取得的水化學數(shù)據(jù)輸入訓練好的RF模型中即可快速得到預測結(jié)果。礦井巷道水化學數(shù)據(jù)見表5，預測結(jié)果見表6。RF模型會利用生成的決策樹分類器對數(shù)據(jù)K1～K5進行預測，每個決策樹分類器都會給出一個預測結(jié)果，將預測結(jié)果占據(jù)所有結(jié)果的比重稱為得分，最終分類結(jié)果為得分最高的類別。從結(jié)果得分情況可以看出大孤山鐵礦礦井巷道內(nèi)涌水主要來源于孔隙水，巷道深部有部分源于裂隙水。

表5 礦井巷道中水化學數(shù)據(jù)Table 5 Hydrochemical data of mine roadway

表6 預測結(jié)果Table 6 Predicted results

4 結(jié)論

以大孤山鐵礦為例對礦井涌(突)水水源判別問題進行了全面的研究，在判別時充分考慮人類活動影響因子，將反映水天然化學性質(zhì)的指標與反映人類活動的指標相結(jié)合對水源進行判別，并利用上述指標訓練了RF模型、SVM模型、ELM模型，得出如下結(jié)論。

(1)經(jīng)過交叉驗證實驗得出RF正確率均值97.38%，優(yōu)于SVM與ELM的87.14%、84.10%。

(2)RF擁有極高的魯棒性和穩(wěn)定性，參數(shù)可以通過對OOB錯誤率進行簡單的分析后快速取得，并且參數(shù)擁有寬廣的適應范圍，即使將樹的棵數(shù)k設定的很大也只是增加計算時間不影響精度，可以較容易地實現(xiàn)模型建立。

(3)SVM與ELM對參數(shù)的選取較敏感，需要借助交叉驗證方法或?qū)ｉT為選取參數(shù)開發(fā)的算法進行參數(shù)選取，操作較為復雜。

(4)得出了大孤山鐵礦巷道內(nèi)涌水主要來源于孔隙水，巷道深部有部分源于裂隙水的結(jié)論為以后的防治提供了參考意見。

利用RF進行礦井涌(突)水水源判別預測結(jié)果準確率高，操作簡便。對此類問題具有普適性，可以進一步在不同類型礦井中研究利用。