999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林回歸算法的回采工作面瓦斯涌出量預測

2024-01-12 11:16:40張增輝馬文偉
工礦自動化 2023年12期
關鍵詞:特征模型

張增輝, 馬文偉

(1. 國家能源集團神東煤炭集團有限責任公司 保德煤礦,山西 忻州 036600;2. 中煤科工集團沈陽研究院有限公司,遼寧 撫順 113122;3. 煤礦安全技術國家重點實驗室,遼寧 撫順 113122;4. 西安交通大學 人居環境與建筑工程學院,陜西 西安 710049)

0 引言

瓦斯災害是煤礦生產過程中的重大災害之一,《煤礦安全規程》明確規定,新建礦井或生產礦井新水平都必須進行瓦斯涌出量預測,以確定新礦井、新水平、新采區投產后瓦斯涌出量的大小,將預測結果作為礦井和采區通風設計、瓦斯抽采及瓦斯管理的依據[1-3]?;夭晒ぷ髅媸堑V井瓦斯涌出的主要場所,精準預測回采工作面的瓦斯涌出量,進而有針對性地提出防治措施,對保證礦井安全生產具有重要意義。

應用最廣泛的礦井工作面瓦斯涌出量預測方法包括分源預測法和礦山統計法[1]。分源預測法以煤層瓦斯含量為主要基礎數據,結合煤層開采情況進行工作面瓦斯涌出量預測。礦山統計法以瓦斯帶內煤層相對瓦斯涌出量與開采深度的關系為基礎,利用線性梯度預測延伸水平的瓦斯涌出量。這2 種方法雖然操作性強,現場應用廣泛,但在預測過程中考慮的影響因素有限[4]。礦井瓦斯涌出規律和涌出量因地而異,且影響瓦斯涌出量的地質因素較多,各因素之間的非線性關系錯綜復雜,難以控制。隨著信息與計算科學的發展,學者們將灰色理論、神經網絡、支持向量機等非線性映射方法用于瓦斯涌出量預測[5-8]。趙建會等[9]運用灰色預測理論,分析了回采工作面瓦斯涌出量的關鍵影響因素,建立了工作面瓦斯涌出量預測模型。熊祖強等[10]利用無偏灰色模型代替傳統灰色模型,建立了動態無偏灰色馬爾科夫模型,消除了傳統灰色模型自身固有的偏差,提高了預測精度。李樹剛等[11]構建了因子分析與BP 神經網絡相結合的瓦斯涌出量預測模型,采用因子分析法對瓦斯涌出量影響因素進行分析降維,解決了因預測指標過多導致瓦斯涌出量預測精度降低的問題。付華等[12]采用蟻群聚類算法獲取最優Elman 神經網絡權值和閾值,完成了瓦斯涌出量與影響因素之間的非線性逼近,并提出了基于蟻群聚類(Ant Colony Clustering,ACC)和Elman 神經網絡(Elman Neural Network,ENN)算法的絕對瓦斯涌出量預測模型,實現了動態預測目標。

在實際工程應用中,工作面瓦斯涌出量的影響因素眾多且復雜,灰色理論往往精度相對較低,支持向量機預測方法對超參數的選取有較高要求,神經網絡算法預測精度依賴于樣本容量,且訓練速度慢,泛化能力相對較差,在進行工作面瓦斯涌出量預測時有一定局限性[13]。隨機森林回歸算法能處理高緯度的離散型及連續性數據,具有較強的抗噪聲能力和準確性,且理論易于理解,計算簡單,故也被應用于工作面瓦斯涌出預測中[14-16]。本文在前人研究的基礎上,以工作面實測瓦斯涌出量數據為原始樣本,通過Bootstrap 抽樣方法進行樣本選取,以袋外數據(Out-of-Bag,OOB)作為測試集,通過OOB 評估分數oob_score 進行模型參數調優,建立最優化的隨機森林回歸模型,進行回采工作面的瓦斯涌出量預測,從而提高預測精度及預測效率。

1 瓦斯涌出量預測方法

1.1 隨機森林回歸算法原理

隨機森林回歸算法是由多個決策樹構成的一種基于引導聚集算法(Bootstrap aggregating,Bagging)的集成算法[17],能夠有效地在大數據集上運行,處理分類和回歸問題。

隨機森林回歸算法原理如圖1 所示。首先,利用Bootstrap 抽樣方法從原始訓練集中抽取k個與原始訓練集樣本容量一致的樣本;其次,針對k個樣本,從M個輸入特征中隨機選擇m個作為決策樹分支節點的備選特征(M>m);然后,根據特征不純度指標確定最佳節點和最佳分支,分別建立k個決策樹回歸模型,得到k個回歸預測結果;最后,根據k個回歸預測結果求得平均值P,作為最終預測結果。

圖1 隨機森林回歸算法原理Fig. 1 Principle of random forest regression algorithm

1.2 模型性能評估方法

Bootstrap 抽樣方法通過有放回的隨機抽樣技術形成不同的訓練數據。在一個含有K個樣本的原始訓練集中進行隨機采樣,每次采樣1 個樣本,并在抽取下一個樣本之前將該樣本放回原始訓練集中,共采集K次,最終得到1 個與原始訓練集大小相同的由K個樣本組成的自助集。由于是隨機采樣,每次的自助集和原始數據集均不相同,這樣即可獲得互不相同的自助集。由于是有放回的抽樣,某些樣本可能在同一自助集中反復出現,而其他有些樣本則可能會被忽略。每一個樣本被抽到自助集中的概率為當K趨向于無窮大時,概率收斂域為1-1/e,其值約為0.632,即數據集中會有36.8%的訓練數據沒有參與建模,這一部分數據為OOB。這些OOB 可作為模型的測試集來評估模型性能。評估結果以oob_score 表示,oob_score 返回R2:

式中:u為殘差平方和;v為總平方和;N為樣本數量;i為樣本序號;fi為模型回歸值;yi為樣本點真實數值標簽;y?為真實數值標簽的平均值。

按照式(1),隨機森林中每棵決策樹都會產生一個oob_score,將所有決策樹的oob_score 進行平均,可得隨機森林的oob_score,以此來評估模型性能。

1.3 特征變量重要性評估

數據集中往往特征較多,特征變量重要性評估對模型的降維具有重要作用。用隨機森林進行特征重要性評估的思想是判斷每個特征在隨機森林中每棵樹上所作的貢獻,而評價貢獻大小通常使用基尼指數Gini 或袋外數據錯誤率oob_error 作為評估指標,本文以oob_error 為例進行說明。

首先,對隨機森林中的每一棵決策樹,使用相應的OOB 來計算誤差,記為 ε1;其次,隨機對OOB 所有樣本的特征I加入噪聲干擾,再次計算OOB 誤差,記為 ε2;由于在特征I中加入噪聲后,OOB 數據預測準確率會有一定程度下降,假設隨機森林中有T棵樹,那么特征I的重要性可通過計算得出,其值越大,說明特征I對樣本回歸結果的影響越大,即重要性越高。

2 數據測試分析

2.1 數據樣本

影響工作面瓦斯涌出量的因素眾多,根據資料查閱及現場考察,選取14 種特征,包括瓦斯含量X1、煤層埋深X2、開采層厚度X3、煤層傾角X4、回采高度X5、日進尺X6、工作面長度X7、采出率X8、日產量X9、頂板管理方式X10、鄰近層瓦斯含量X11、鄰近層煤層厚度X12、鄰近層與本煤層間距X13、鄰近層與本煤層層間巖性X14。測試數據來源于相關文獻中山西、江西、安徽等地多個礦井的72 組回采工作面的瓦斯涌出量及相關特征數據[16,18-19],部分樣本數據見表1,其中Y為瓦斯涌出量。為了便于準確對比分析,將每個礦井80%的數據用于模型訓練,20%的數據作為模型驗證測試對比樣本。

表1 回采工作面瓦斯涌出量特征樣本數據Table 1 Sample data of gas emission characteristics in the mining face

2.2 模型構建及參數調整

隨機森林回歸模型以Python 語言為基礎,借助Sklearn 機器學習中的RandomForestRegressor 進行構建。Sklearn 中隨機森林回歸模型的待調參數共有16 項,其中最主要的待調參數見表2。

表2 隨機森林回歸模型主要待調參數Table 2 The main parameters to be adjusted in the random forest regression model

通過試算表明,隨機森林回歸模型中的n_estimators, criterion, random_state, max_features 都對計算結果有一定的影響。由于回采工作面瓦斯涌出量預測數據樣本量較少,所以模型將不進行剪枝,只對n_estimators,criterion,random_state,max_features進行調參。利用Python 語言編制程序, 設置n_estimators 為1~200,criterion 分別為mse,mae 和friedman_mse,random_state 為1~200,max_features為1~14,計算模型的最大obb_score,結果見表3。

表3 隨機森林回歸模型調參結果Table 3 Parameter adjustment results of random forest regression model

由表3 可看出,當criterion 為mae,n_estimators為20,max_features 為14,random_state 為70 時,根據數據樣本所建立的隨機森林回歸模型obb_score 最大,其值為0.921 164 29。

為了更直觀地說明模型所調各參數之間的關系, 繪制criterion 為mae, max_features 為14 時,n_estimators、random_state 與obb_score 的關系熱力圖,如圖2 所示。

圖2 隨機森林回歸模型參數關系熱力圖Fig. 2 Thermodynamic diagram of random forest regression model parameter relationship

由圖2 可看出,針對工作面瓦斯涌出量數據樣本,總體上各種調參組合的obb_score 可達80%以上,只有在n_estimators 較小時,會出現obb_score 較低的情況,但也并非呈現n_estimators 越大,obb_score越高的趨勢。從圖2(a)中可明顯看到,當random_state 不同時,縱向條帶分布較為明顯,故調整適當的random_state 能夠在一定程度上提高模型預測的準確性。

當random_state 為70 時,不同的max_features 所對應的n_estimators 與obb_score 的關系曲線如圖3所示。由圖3 可看出,針對該數據集,隨著n_estimators的增大,obb_score 先急劇增大,后降低至某一水平并逐漸趨于穩定。無論max_feature 為何值,n_estimators在20 左右,obb_score 達到最大值。

圖3 n_estimators 與obb_score 的關系曲線Fig. 3 The relationship curves of n_estimators and obb_score

2.3 特征變量分析

對回采工作面瓦斯涌出量樣本數據涉及的14 種特征變量進行重要性評估,重要性占比如圖4 所示。按特征重要性排序依次為瓦斯含量X1(33.51%)、煤層埋深X2(21.40%)、日進尺X6(12.97%)、回采高度X5(6.93%)、鄰近層與本煤層間距X13(6.57%)、煤層傾角X4(3.21%)、鄰近層瓦斯含量X11(2.83%)、開采層厚度X3(2.60%)、鄰近層與本煤層層間巖性X14(2.25%)、采出率X8(2.11%)、日產量X9(2.10%)、工作面長度X7(1.87%)、鄰近層煤層厚度X12(1.65%)。由于本次數據采集中所有工作面頂板管理方式一致,均設置為1,特征含有效信息,所以頂板管理方式X10的重要性評估為0。

圖4 特征變量重要性占比Fig. 4 The proportion of importance of characteristic variables

分析圖4 可知,與本煤層相關的特征變量重要性占比總和為86.7%,與鄰近層相關的特征變量重要性占比總和為13.3%??梢娫谝劳斜緮祿⒌碾S機森林回歸模型中,本煤層開采時的數據對于工作面瓦斯涌出量的預測更為重要。

為了分析特征變量的數量對預測模型的影響,按照特征變量重要性排序,分別計算前2~14 個特征變量所構建的13 個隨機森林回歸模型的最大oob_score,結果如圖5 所示??煽闯鲭S機森林回歸模型的性能隨著特征變量數的增加并不會呈現規律性的變化,特征變量數的增加有時降低了模型性能。

圖5 特征變量數與oob_score 關系Fig. 5 The relationship between the number of characteristic variables and oob_score

分析圖5 中不同特征變量數對應的obb_score可知,特征變量個數為2 時oob_score 最低,為0.858 15,當特征變量個數為3 或者4 時,oob_score 為0.94 以上,明顯高于其余得分,所以當特征變量個數為3 或4 時,可能存在過擬合的情況。

2.4 預測結果分析

按照特征重要性排序,構建特征變量個數為3~14 時的隨機森林回歸模型,對14 個工作面的瓦斯涌出量預測樣本進行預測,預測值與實測值的誤差見表4。

分析表4 可知,當特征變量個數為3 或4 時,雖然在訓練集中的obb_score 均大于0.94,但在測試集中平均絕對誤差和平均相對誤差均相對較大,說明當特征變量個數為3 或4 時,存在一定過擬合。當特征變量個數為14 時,平均絕對誤差僅為0.005 m3/min,平均相對誤差僅為0.77%,預測效果最好。

特征變量數與平均絕對誤差、平均相對誤差的關系曲線如圖6 所示??煽闯鲱A測值與實測值的平均絕對誤差、平均相對誤差隨著特征變量數的增加呈下降趨勢,增加特征變量數可在一定程度上提高隨機森林回歸模型的預測效果。

圖6 特征變量數與誤差平均值關系曲線Fig. 6 The relationship between the number of characteristic variables and mean value of error

將特征變量個數為14 時建立的工作面瓦斯涌出量隨機森林回歸模型與文獻[20]提出的主成分回歸分析法進行對比,結果見表5。由表5 可知,隨機森林回歸模型最小相對誤差為1.63%,最大相對誤差為5.97%,平均相對誤差為4.26%,具有較高的準確性,完全能夠滿足現場瓦斯涌出量預測需求。與主成分回歸分析法相比,隨機森林回歸模型的平均相對誤差降低了14.29%,預測效果更好。此外,相比主成分分析法,隨機森林回歸模型原理更簡單,調參更容易,計算速度更快,能夠快速高效地為礦井回采工作面瓦斯涌出量預測提供有力的理論支撐。

表5 不同預測模型預測結果對比Table 5 Comparison of prediction results of different prediction models

3 結論

1) 以礦井實際工作面瓦斯涌出量數據樣本為基礎,通過隨機森林回歸模型進行工作面瓦斯涌出量預測。以Bootstrap 抽樣方法隨機抽取樣本,通過oob_score 作為模型調參的標準,得到隨機森林回歸模型的最優參數。

2) 計算各特征變量的重要性占比并進行排序,按照重要性排序進行隨機森林回歸模型性能分析,結果表明,隨著特征變量數的增加,模型性能不會呈現規律性的變化。當特征變量數較少時,可能存在過擬合的情況。

3) 測試結果表明,所創建的隨機森林回歸模型預測值與實測值的平均絕對誤差、平均相對誤差隨著特征變量數的增加呈下降趨勢,特征變量數的增加可在一定程度上提高模型的預測效果。

4) 針對同一組數據,與主成分回歸分析法相比,隨機森林回歸模型平均相對誤差降低了14.29%,預測效果更好,且原理更簡單、調參更容易、計算速度更快,能夠為礦井回采工作面瓦斯涌出量預測提供有力的理論支撐。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲性影院| hezyo加勒比一区二区三区| 国产在线视频自拍| 538精品在线观看| 欧美亚洲日韩中文| 欧美视频在线不卡| 国产电话自拍伊人| 日日噜噜夜夜狠狠视频| 久草青青在线视频| 国产青青操| 香蕉综合在线视频91| 国产又爽又黄无遮挡免费观看| 人妻精品久久无码区| 9啪在线视频| 亚洲日韩每日更新| 国产香蕉在线| 日韩av手机在线| 少妇极品熟妇人妻专区视频| 亚洲欧美日韩综合二区三区| 欧美第二区| 久久毛片免费基地| 亚洲最新在线| 国产人成在线观看| 天天操天天噜| 四虎亚洲精品| 久久精品国产免费观看频道| 亚洲伊人电影| 99热这里都是国产精品| 欧美激情综合一区二区| 国产精品伦视频观看免费| 欧美日韩国产精品va| 成年人久久黄色网站| 91外围女在线观看| 三上悠亚精品二区在线观看| 黄色网址免费在线| 日韩精品亚洲精品第一页| 91破解版在线亚洲| 四虎国产永久在线观看| 91娇喘视频| 欧美午夜在线视频| 国语少妇高潮| 国产福利影院在线观看| 久久免费视频6| 国产欧美另类| 亚洲精品无码久久久久苍井空| 久久精品免费看一| 污污网站在线观看| 国产理论精品| 亚洲国产天堂在线观看| 亚洲美女一级毛片| 欧美特黄一级大黄录像| 日韩欧美中文| 99re免费视频| 亚洲日本中文字幕天堂网| 国产精品伦视频观看免费| 日韩无码视频专区| 六月婷婷精品视频在线观看 | 99精品视频播放| 久久 午夜福利 张柏芝| 97国产一区二区精品久久呦| 欧美国产成人在线| 日韩中文无码av超清| 91www在线观看| 一级毛片免费高清视频| 在线观看免费人成视频色快速| 日韩天堂网| 色综合天天视频在线观看| 91精品国产麻豆国产自产在线| 欧美午夜视频在线| 国产无码精品在线| 一本一道波多野结衣av黑人在线| 亚洲综合片| 精品福利一区二区免费视频| av在线无码浏览| 91无码人妻精品一区| 日本尹人综合香蕉在线观看| 又粗又大又爽又紧免费视频| 久久99久久无码毛片一区二区 | 色有码无码视频| 亚洲69视频| 亚洲国产精品无码AV| 国产视频久久久久|