郝 謙,武 雄,穆文平,鄧若晨,胡博遠,高 原
(中國地質(zhì)大學(北京) 水資源與環(huán)境學院,北京 100083)
隨著礦井開采深度的增加,礦井涌(突)水災害發(fā)生頻率也逐步增高,對井下的安全生產(chǎn)造成了嚴重威脅[1-2]??焖贉蚀_判別礦井涌(突)水水源是近年來礦井水害治理研究的熱點問題之一。在過去的幾十年里,學者們已經(jīng)提出了許多研究方法來判斷礦井涌(突)水水源,這些方法可分為三種類型:地下水動力學判別方法、地下水溫度判別方法[3]、水化學判別方法[4-5]。Wu等[6]對比了上述三種方法后,得出了水化學判別方法在實際運用當中更具優(yōu)勢的觀點。溫廷新等[7]、朱慶偉等[8]、朱樂章[9]在對礦井涌(突)水水源判別問題研究時,都利用水化學判別方法選取地下水中的7種主要離子進行礦井涌(突)水水源判別。
對于利用水化學成分進行礦井涌(突)水水源判別時,應用了許多數(shù)學方法,例如,模糊數(shù)學理論[10]、灰色關(guān)聯(lián)分析[11-12]、熵權(quán)-模糊綜合判別[13]等。模糊數(shù)學理論評判和灰色關(guān)聯(lián)分析等方法都要事先假定模式或主觀規(guī)定一些參數(shù),導致其評價結(jié)果具有主觀性。近幾年,隨著計算機技術(shù)的進步和數(shù)據(jù)挖掘技術(shù)的顯著提升,利用機器學習手段能避免上述問題,提高判別精度。例如,吳巖等[14]利用BP(back propagation)神經(jīng)網(wǎng)絡;邵良杉等[15]利用支持向量機(support vector machine,SVM);王亞等[16]、唐立力[17]利用極限學習機(extreme learning machine,ELM)等機器學習分類器進行礦井涌(突)水水源研究。BP神經(jīng)網(wǎng)絡由Rumelhart提出[18],其原理是按照誤差逆向傳播算法訓練多層前饋神經(jīng)網(wǎng)絡,學習訓練樣本使得輸出結(jié)果誤差最小。SVM方法由Vapnik提出[19-20],其原理是將數(shù)據(jù)構(gòu)建到高維空間,然后在這個新空間中求取最優(yōu)線性分類面對數(shù)據(jù)樣本進行分類。ELM方法由黃廣斌提出[21-22],其原理是利用廣義逆實現(xiàn)求解輸出權(quán)重的單隱藏層前饋神經(jīng)網(wǎng)絡,可以快速地完成學習過程。雖然這些方法均可直接應用于礦井涌(突)水水源判別,但是模型的性能各有千秋。BP神經(jīng)網(wǎng)絡雖然可以求解復雜的非線性映射,但是存在學習過度,收斂速度慢等缺點;SVM雖然有堅實的理論基礎,較快的運算速度,但是只可使用間接的方法來完成多分類,可能導致精度不足;ELM雖然參數(shù)設置少適用范圍廣,但是輸入層權(quán)重隨機生成可能導致預測結(jié)果不穩(wěn)定等問題。
鑒于此,迫切需要一種高精確度、高穩(wěn)定性、并且擁有良好魯棒性的新方法。Breiman[23]提出的隨機森林模型(random forest,RF)滿足上述條件。在相關(guān)領(lǐng)域隨機森林模型已經(jīng)用于預測礦石的屬性,采空區(qū)自燃[24]等問題并取得了良好成績。本文將其應用于礦井涌(突)水水源判別,建立RF 水源判別模型,并與傳統(tǒng)分類模型SVM和ELM進行比較[25]。分析隨機森林模型在礦井涌(突)水水源判別中的適用性,探索其應用方法,最后通過實例驗證,證明方法的有效性。
隨機森林模型是一種基于Bagging的集成學習方法,該方法隨機有放回的選擇訓練數(shù)據(jù)構(gòu)造組合分類器進行分類。模型具體步驟如下:
對一個包含N個樣本的訓練數(shù)據(jù)樣本集S,令i(i=1,2,…,N)表示樣本序號,則第i個樣本的數(shù)據(jù)信息可記作 (xi,yi),其中,xi為M維向量,表示該樣本的M個特征,令j(j=1,2,…,M)表示該樣本的第j個特征,則第i個樣本的第j個特征可記作xij;yj為一個元素,表示樣本i的所屬類別,假設所有樣本可分為n個類別,用l(l=1,2,…,n)表示樣本的一個類別,則該訓練數(shù)據(jù)樣本集可表示為
S={(xi,yi),i=1,2,…,N}
(1)
訓練數(shù)據(jù)樣本集S也可表示為矩陣的形式:
(X,Y)∈RM×R
(2)
式(2)中:X=(x1,x2,…,xn)T表示N個樣本的特征矩陣;Y=(y1,y2,…,yn)T表示N個樣本的分類組成的列向量。
Step 1有放回的隨機抽樣。從原始訓練數(shù)據(jù)樣本集中利用bootstrap采樣方法進行抽樣,即從整個訓練數(shù)據(jù)樣本集合中,有放回的進行k次隨機抽取,形成k個樣本子集Sd(d=1,2,…,k)其中每個子集包括原訓練樣本集S中的大約2/3個樣本數(shù)據(jù)。
Step 2構(gòu)建決策樹。針對每個樣本子集Sd,從樣本的M個特征中隨機挑選m個特征(m?M),將挑選好的m個特征數(shù)據(jù)輸入CART算法(該算法在下一小節(jié)中進行介紹)構(gòu)建決策樹。每一個樣本子集Sd可以構(gòu)建一顆決策樹,一共構(gòu)建k棵。
Step 3進行決策。根據(jù)生成的k棵決策樹分類器對新的測試數(shù)據(jù)xt進行預測,分類結(jié)果按每棵樹分類器的投票多少而決定。詳細計算過程如圖1所示。

圖1 隨機森林模型計算原理Fig.1 Principles of random forest
CART(classification and regression trees)算法是隨機森林構(gòu)建決策樹的算法,其構(gòu)建過程為:對于一個特定樣本子集Sd,從隨機挑選的m個特征中先選取一個特征mj,按照mj大于等于或者小于某個實數(shù),將樣本子集Sd劃分成兩個集合Sd1與Sd2,按照式(3)計算Gini(Sd)。計算過程如下:

(3)
對樣本集合T(一次劃分中可能的取值是Sd1與Sd2) Gini系數(shù)計算方法如下:

(4)
式(4)中:T表示樣品集;n表示樣本集中所有可能出現(xiàn)類別的總數(shù);Pi表示樣本集合中第i類樣本出現(xiàn)的概率。
對劃分好的集合Sd1如果其Gini(Sd1)大于設定值則選取另一個特征值重復上述劃分過程。經(jīng)過上述不斷的劃分會形成如圖2所示的一棵樹。新的測試數(shù)據(jù)xt會按照m的條件分配到不同劃分好的集合中。決策樹將分配到的集合中概率最高的類別認為是xt的類別。經(jīng)過多次不同的劃分后找到實數(shù)C#使得Gini(Sd)最小。

圖2 隨機森林中的一棵CART樹Fig.2 A CART tree in a random forest
研究區(qū)為大孤山鐵礦周邊地區(qū),距鞍山市東南12 km。研究區(qū)為丘陵地形,南北高中間低,多年平均降雨量720.6 mm,礦坑西部有河流從南向北流過。研究區(qū)主要地層為第四系地層、下白堊統(tǒng)地層、太古宇地層。其中第四系地層主要為黏土,其余地層為同時期侵入巖以花崗巖為主。受寒嶺斷裂的控制,形成一系列的斷層和破碎帶。具體地質(zhì)情況如圖3。大孤山鐵礦礦坑內(nèi)主要為花崗巖、磁鐵礦、變質(zhì)巖(圖4)。依據(jù)礦區(qū)水文地質(zhì)條件將該地區(qū)可能的礦井涌(突)水水源分為第四系松散孔隙水、花崗巖基巖裂隙水、地表水三大類。

圖3 研究區(qū)地質(zhì)與實驗樣本分布Fig.3 Geological and experimental sample distribution of the study area

圖4 1-1′ 剖面圖Fig.4 1-1′ profile map
第四系孔隙水,補給來源主要為大氣降水,多以人工開采形式排泄為主,部分補給花崗巖基巖裂隙水,主要為SO4-Ca、SO4-Ca-Mg型水,簡稱孔隙水。
花崗巖基巖裂隙水,補給來源主要是大氣降水,人工開采排泄為主,主要為HCO3-Ca,HCO3-SO4-Ca型水,簡稱裂隙水。
地表水,大氣降水補給為主,礦化度最高,蒸發(fā)現(xiàn)象顯著,主要為SO4-Mg-Ca型水。
大孤山鐵礦西北巷道為本次預測涌水水源研究樣本。起點坐標:123°3′17.45″E,41°3′16.09″N,巷道始建于1986年,該巷道為礦石運輸發(fā)揮了難以替代的作用近年來巷道內(nèi)部裂隙多發(fā)并伴有涌水現(xiàn)象。礦井巷道取樣點如圖5所示,取樣巷道入口地面高程68 m,巷道總長632 m。

圖5 取樣點與巷道位置圖Fig.5 Location map of sampling points and roadway



圖6 piper三線圖Fig.6 The piper diagram

矩陣X中數(shù)據(jù)xij標準化的計算公式如下:

(5)


(6)
實驗結(jié)果證明,通過標準化可以加快收斂速度并提高精度(表2)。
RF通過使樹從不同的訓練數(shù)據(jù)子集中生長來增加樹的多樣性。每棵樹生長所選擇的子集通常包含大約2/3的數(shù)據(jù),子集中不存在的樣本,包含在另一個名為袋外數(shù)據(jù)(out-of-bag,OOB)的子集中。利用OOB計算模型的錯誤率er表示如下:

表1 水樣數(shù)據(jù)Table 1 Sample data

表2 通過10次十折交叉驗證實驗測試標準化RF性能Table 2 Standardized RF performance was tested by 10-fold cross validation experiments

(7)
式(7)中:er表示第k棵樹的OOB錯誤率;A表示第k棵樹OOB數(shù)據(jù)的總數(shù);a表示第k棵樹分類結(jié)果錯誤的數(shù)據(jù)個數(shù)。
按照上述方法每個決策樹都可以得到一個OOB錯誤率er,將其平均值作為估計模型的分類性能的指標,稱為OOB錯誤率。圖7說明隨著樹的棵數(shù)的增加,OOB錯誤率逐漸減少并趨于穩(wěn)定。樹的棵數(shù)k=50的時候模型比較理想。如果樹的棵數(shù)繼續(xù)增加會導致運算量加大,但是精度提高不明顯。節(jié)點預選變量過多會導致模型過擬合判斷精度下降,根據(jù)圖7、表3可以看出m=3時效果較好,穩(wěn)定性較強。因此,選取的RF模型參數(shù)為:樹的棵數(shù)k=50,樹節(jié)點預選的變量m=3。

表3 k=50時OOB錯誤率Table 3 OOB dislocation rate with k=50
交叉驗證是一種統(tǒng)計學中將數(shù)據(jù)樣本切割成較小子集用來測試模型的準確性的實用方法。選取十折交叉驗證,其原理是將數(shù)據(jù)集隨機分成十份,輪流將其中9份作為訓練數(shù)據(jù),1份作為測試數(shù)據(jù),進行實驗,測試結(jié)束即完成了10次實驗。本文中采用隨機森林模型,對表1中的水化學數(shù)據(jù)標準化處理后進行10次十折交叉驗證并與SVM和ELM預測結(jié)果進行對比。
SVM利用libsvm工具箱,選擇高斯核函數(shù)。采用工具箱自帶SVMcgForClass函數(shù)尋找最優(yōu)懲罰系數(shù)C與高斯核函數(shù)幅寬影響系數(shù)γ的值。根據(jù)計算結(jié)果最優(yōu)的C=5.15,γ=0.01。
ELM利用十折交叉驗證的方法尋求ELM最優(yōu)參數(shù)。分別對1~100個隱含層神經(jīng)元進行十折交叉驗證,將得到的正確率取均值繪制成圖8。從圖8中可以看出雖然在40個隱含層神經(jīng)元的時候訓練樣本正確率穩(wěn)定維持在100%,但是測試樣本的正確率先上升后下降大約在12個神經(jīng)元時達到最高,過高的神經(jīng)元個數(shù)容易導致模型過擬合,達不到預測的效果。因此,本次實驗選取12個神經(jīng)元。激活函數(shù)如下:
g(x)=1/(1+e-x)
(8)

圖8 ELM性能測試Fig.8 ELM performance test
進行10次十折交叉驗證并將每次預測的正確率進行統(tǒng)計繪制出圖9。從圖9中可以看出RF的訓練樣本100%擬合。RF構(gòu)建決策樹的時候遵循隨機抽樣的原則根據(jù)統(tǒng)計學中的大數(shù)定律,重復實驗次數(shù)越多,隨機事件的頻率越近似于它的概率的原則。隨著樹的棵數(shù)的增加只是增加計算量,不會導致模型過擬合使RF可以更好地利用全部數(shù)據(jù)。
對比圖9(a)及圖9(b)、圖9(c)可以看出隨機森林可以更好地降低噪聲對預測結(jié)果的干擾,擁有更好的魯棒性。不會像SVM與ELM一樣因為部分噪聲導致正確率波動。對比圖9(b)與圖9(c)可以看出SVM的穩(wěn)定性比ELM更優(yōu)秀,這可能與ELM隨機賦予輸入權(quán)重有關(guān),導致ELM預測結(jié)果波動性比較強。RF,SVM在不同十折交叉驗證中表現(xiàn)出較高的穩(wěn)定性。根據(jù)表4的總用時可以看出SVM的速度最快、ELM次之、RF較慢。但是礦井涌(突)水問題的研究訓練樣本數(shù)目不會太大。100次用時32 s的速度可以滿足預測要求。

表4 10次十折交叉驗證正確率與總用時Table 4 Accuracy rate and total time of 10 10-fold cross validation

圖9 交叉驗證結(jié)果Fig.9 Cross validation results
經(jīng)過上述實驗可以看出利用標準化以后的RF模型預測結(jié)果最優(yōu),將礦井巷道內(nèi)取得的水化學數(shù)據(jù)輸入訓練好的RF模型中即可快速得到預測結(jié)果。礦井巷道水化學數(shù)據(jù)見表5,預測結(jié)果見表6。RF模型會利用生成的決策樹分類器對數(shù)據(jù)K1~K5進行預測,每個決策樹分類器都會給出一個預測結(jié)果,將預測結(jié)果占據(jù)所有結(jié)果的比重稱為得分,最終分類結(jié)果為得分最高的類別。從結(jié)果得分情況可以看出大孤山鐵礦礦井巷道內(nèi)涌水主要來源于孔隙水,巷道深部有部分源于裂隙水。

表5 礦井巷道中水化學數(shù)據(jù)Table 5 Hydrochemical data of mine roadway

表6 預測結(jié)果Table 6 Predicted results
以大孤山鐵礦為例對礦井涌(突)水水源判別問題進行了全面的研究,在判別時充分考慮人類活動影響因子,將反映水天然化學性質(zhì)的指標與反映人類活動的指標相結(jié)合對水源進行判別,并利用上述指標訓練了RF模型、SVM模型、ELM模型,得出如下結(jié)論。
(1)經(jīng)過交叉驗證實驗得出RF正確率均值97.38%,優(yōu)于SVM與ELM的87.14%、84.10%。
(2)RF擁有極高的魯棒性和穩(wěn)定性,參數(shù)可以通過對OOB錯誤率進行簡單的分析后快速取得,并且參數(shù)擁有寬廣的適應范圍,即使將樹的棵數(shù)k設定的很大也只是增加計算時間不影響精度,可以較容易地實現(xiàn)模型建立。
(3)SVM與ELM對參數(shù)的選取較敏感,需要借助交叉驗證方法或?qū)iT為選取參數(shù)開發(fā)的算法進行參數(shù)選取,操作較為復雜。
(4)得出了大孤山鐵礦巷道內(nèi)涌水主要來源于孔隙水,巷道深部有部分源于裂隙水的結(jié)論為以后的防治提供了參考意見。
利用RF進行礦井涌(突)水水源判別預測結(jié)果準確率高,操作簡便。對此類問題具有普適性,可以進一步在不同類型礦井中研究利用。