鄭學召, 李夢涵, 張嬿妮, 姜鵬, 王寶元
(1.西安科技大學 安全科學與工程學院, 陜西 西安 710054;2.國家礦山應急救援西安研究中心, 陜西 西安 710054)
我國是一個以煤炭為主要能源的國家,隨著煤炭資源的不斷開采,煤自燃災害時有發(fā)生,嚴重影響著煤礦安全生產(chǎn),成為煤礦生產(chǎn)面臨的主要災害之一[1-3]。這不僅會造成煤炭資源的浪費,還會威脅煤礦工作人員的生命安全。因此,預測煤自燃溫度對于煤礦安全生產(chǎn)具有重要意義[4-5]。
常用的煤自燃預測方法有測溫法[6]、氣體分析法[7]及磁力預測法[8]等。氣體分析法因具有靈敏度高、可檢測性強及規(guī)律性好等特性而被廣泛使用[9],其通過測量煤與氧氣發(fā)生化學反應時產(chǎn)生的指標性氣體濃度并分析各氣體濃度與煤自然發(fā)火之間的規(guī)律,實現(xiàn)對煤自燃溫度的預測。然而,煤自燃溫度與指標性氣體濃度之間的關(guān)系是非線性的[10],準確描述這種非線性關(guān)系是進行煤自燃溫度預測的關(guān)鍵。眾多學者對氣體分析法和煤自燃預測法之間的關(guān)聯(lián)展開了研究。張?zhí)煊畹萚11]基于支持向量機(Support Vector Machine,SVM)分類算法和多種指標性氣體構(gòu)建了多煤種煤自燃危險性預測模型,得出由網(wǎng)格搜索法確定參數(shù)的模型分類準確率最高,但該模型確定參數(shù)的方法較為復雜。劉寶等[4]針對基于徑向基神經(jīng)網(wǎng)絡(luò)方法和基于SVM方法等傳統(tǒng)的機器學習方法存在誤差較大的問題,提出了一種基于相關(guān)向量機的煤自燃溫度預測方法,該方法使用的模型泛化能力強、預測誤差小,但對參數(shù)選取的要求很高。文獻[12-13]采用氣體分析法和神經(jīng)網(wǎng)絡(luò)算法建立BP(Back Propagation,反向傳播)神經(jīng)網(wǎng)絡(luò)預測模型,可以預測早期煤自燃情況,但該方法在測試時易出現(xiàn)過擬合現(xiàn)象。
隨機森林(Random Forest,RF)算法具有預測精度高、不易過擬合、參數(shù)優(yōu)化過程簡單的優(yōu)點[14-15]。鑒于此,本文利用煤自燃程序升溫實驗選取的O2濃度、CO濃度、C2H4濃度、CO/ΔO2比值、C2H4/C2H6比值作為煤自燃預警指標,構(gòu)建了基于RF算法的煤自燃溫度預測模型,引入均方誤差值(Mean Square Error,MSE)和判定系數(shù)R2對模型參數(shù)進行優(yōu)化。實驗對比結(jié)果表明,與基于粒子群優(yōu)化BP(Particle Swarm Optimization-Back Propagation,PSO-BP)神經(jīng)網(wǎng)絡(luò)算法和基于SVM算法的煤自燃模型相比,基于RF算法的煤自燃溫度預測模型性能最好,預測精度最高,具有較高的準確率和魯棒性,可為煤自燃溫度預測及煤自燃火災早期預防提供參考。
RF算法最早由L. Breiman[15]在2001年提出,它是以決策樹為基礎(chǔ)的一種機器學習算法,主要用于解決回歸和分類問題。根據(jù)決策樹的分裂標準主要有ID3、C4.5、CART等[16]決策樹算法。當決策樹的數(shù)量較多時,可以在一定程度上解決單一決策樹過擬合、分類效果差等問題。RF算法具體流程如圖1所示。

圖1 RF算法流程Fig.1 RF algorithm flow
(1) 利用Bootstrap隨機有放回地從原始學習集抽取m個樣本,一共進行N次抽樣,形成N個學習樣本子集。被抽中的樣本稱為袋內(nèi)數(shù)據(jù),未被抽中的數(shù)據(jù)則稱為袋外數(shù)據(jù)。
(2)對于N個學習樣本子集,發(fā)展N個決策樹;由于樣本是隨機選取的,各個決策樹之間相互獨立。
(3)對于每一個決策樹,假設(shè)共有M個特征屬性,利用信息增益率選取一個最優(yōu)屬性作為該決策樹的根節(jié)點,然后依次進行分裂。
(4)每個決策樹都按照最優(yōu)特征進行分裂,在這個過程中不需要進行剪枝,形成隨機森林。
(5)按照每個決策樹的回歸結(jié)果,平均后得到最終結(jié)果。
基于RF算法的煤自燃溫度預測模型構(gòu)建流程如圖2所示,模型基于Matlab環(huán)境實現(xiàn)。

圖2 基于RF算法的煤自燃溫度預測模型構(gòu)建流程Fig.2 Construction process of prediction model of coal spontaneous combustion temperature based on RF algorithm
(1) 通過實驗采集煤自燃預警指標氣體濃度,分為學習集和測試集。
(2) 采用Bootstrap對學習集樣本進行N次抽樣,形成N個決策樹;每個決策樹按照最優(yōu)特征進行分裂,形成隨機森林。
(3) 采用均方誤差值和判定系數(shù)R2對RF算法中的參數(shù)進行優(yōu)化并確定RF模型參數(shù)。
(4) 將測試集樣本指標氣體濃度輸入由學習集樣本確定參數(shù)的RF模型,得到煤溫預測結(jié)果。
通過采集山東鄒城東灘煤礦煤樣進行煤自燃程序升溫實驗。通過程序升溫裝置對煤體進行加熱,然后通入均勻的氣流,檢測并記錄煤氧復合反應的氣體產(chǎn)物濃度和煤體溫度,并進行特征溫度分析,以此確定煤自燃預警指標。對該實驗中的625組數(shù)據(jù)進行缺失值和歸一化處理后得到521組數(shù)據(jù),將這些數(shù)據(jù)按照2∶1的比例分為學習集和測試集。不同氣體產(chǎn)物濃度與煤溫之間的關(guān)系如圖3所示。

(a) CO體積分數(shù)和C2H4體積分數(shù)與煤溫的關(guān)系

(b) CO/ΔO2比值和C2H4/C2H6比值與煤溫的關(guān)系
從圖3(a)可看出,CO在26.8 ℃開始產(chǎn)生,其濃度隨著煤體溫度升高而不斷增大。煤溫為50~100 ℃時,CO濃度增長速率較小,煤溫高于100 ℃時,CO濃度增長速率明顯增大,因此,CO濃度可以作為煤自燃早期預警指標[17-18]。C2H4在80 ℃開始出現(xiàn),其濃度隨煤體溫度的增加逐漸增大,當煤體溫度升至400 ℃時,其濃度達到最大值,具有很好的規(guī)律性,因此,C2H4濃度也可以作為煤自燃預警指標[19]。
從圖3(b)可看出,隨著煤體溫度不斷升高,C2H4/C2H6比值的變化趨勢為先降低后升高再降低,CO/ΔO2比值的變化趨勢為先增大后降低,C2H4/C2H6比值在150 ℃時出現(xiàn)極大值,同時CO/ΔO2比值增加速率變大,說明煤氧化反應會產(chǎn)生大量的C2H4氣體和CO氣體,這一特征能夠和煤溫變化規(guī)律對應,因此C2H4/C2H6比值和CO/ΔO2比值也可作為煤自燃預警指標。
從圖3(c)可看出,隨著煤體溫度增加,O2濃度不斷降低。O2濃度在50 ℃后迅速下降,而此時CO和C2H4濃度開始呈增大趨勢,煤體溫度升至150 ℃后,O2濃度降到最低,說明煤氧復合反應是階段性的、非線性的。因此,O2濃度也可以作為煤自燃預警指標[20]。
綜上所述,根據(jù)煤自燃程序升溫實驗,最終確定了煤自燃預警指標為CO濃度、O2濃度、CO/ΔO2比值、C2H4濃度及C2H4/C2H6比值。
在使用基于RF算法的煤自燃溫度預測模型時,為了得到更準確的預測結(jié)果,需要對模型參數(shù)進行優(yōu)化,尋找最優(yōu)參數(shù)。基于RF算法的煤自燃溫度預測模型需要優(yōu)化的參數(shù)有n_estimators、oob_sore、max_depth、min_samples_split和min_samples_leaf。在該模型中,用于測試和學習的數(shù)據(jù)量較少,因此min_samples_split參數(shù)即決策樹節(jié)點劃分時使用的最小樣本數(shù)量設(shè)為2,min_samples_leaf參數(shù)即葉子節(jié)點需要的最少樣本數(shù)量設(shè)為1。為了保證樣本選取的隨機性,該模型采用oob誤差估計法進行誤差估計,即oob_sore參數(shù)是否使用袋外數(shù)據(jù)設(shè)置為true。n_estimators、max_depth參數(shù)優(yōu)化如下。
2.2.1 n_estimators參數(shù)優(yōu)化
n_estimators表示決策樹的數(shù)量,如果決策樹的數(shù)量過多,會導致模型計算量太大,決策樹的數(shù)量太少,會影響預測結(jié)果的精準度,因此,必須找到最合適的決策樹數(shù)量,使模型達到最優(yōu)。
為了更好地對n_estimators參數(shù)進行優(yōu)化,引入MSE對其進行分析。MSE越小,說明模型的精度越高。將n_estimators參數(shù)設(shè)置為0~200,不同深度下的決策樹與MSE的關(guān)系如圖4所示。

圖4 決策樹數(shù)量與MSE的關(guān)系Fig.4 Relationship between the number of decision trees and MSE
從圖4可看出,不同決策樹最大深度(max_deep)下,隨著決策樹數(shù)量的增加,MSE均不斷降低,直至決策樹的數(shù)量達到100后,MSE趨于平緩,變化較小。這說明決策樹數(shù)量達到100后,模型達到了最高精度,不受其他因素影響。
為了驗證上述決策樹的數(shù)量是否為最優(yōu),本文引入判定系數(shù)R2進行再次驗證。R2越大,說明預測值與真實值越接近,模擬的效果越好。本文將n_estimators參數(shù)設(shè)置為0~300,不同深度下的決策樹數(shù)量與R2之間的關(guān)系如圖5所示。

圖5 決策樹數(shù)量與R2之間的關(guān)系Fig.5 Relationship between the number of decision trees and R2
從圖5可看出,在不同決策樹最大深度(max_deep)下,隨著決策樹數(shù)量的增加,R2不斷增大,直到?jīng)Q策樹的數(shù)量達到100時,R2呈平緩趨勢且數(shù)值達到最大。這說明模型的預測值不斷接近真實值,擬合程度達到最理想狀態(tài)。
綜合考慮,基于RF算法的煤自燃溫度預測模型的n_estimators參數(shù)設(shè)為100。
2.2.2 max_deep參數(shù)優(yōu)化
max_deep參數(shù)表示限制決策樹的最大深度,該模型輸入樣本數(shù)量較少,因此設(shè)max_deep參數(shù)為1~10,分析其對煤自燃溫度預測模型性能的影響,如圖6所示。

圖6 決策樹深度與R2的關(guān)系Fig.6 Relationship between the depth of decision tree and R2
從圖6可看出,隨著決策樹的深度不斷增加,R2呈現(xiàn)先增大后降低的趨勢。當決策樹的深度為4.5~5.5時,R2達到0.869 7,為其最大值,并保持不變,表示該模型擬合效果達到最好。
綜上所述,基于RF算法的煤自燃溫度預測模型的n_estimators參數(shù)設(shè)為100,max_deep參數(shù)的取值范圍設(shè)為4.5~5.5。
為了對基于RF算法的煤自燃溫度預測模型進行誤差分析,本文選擇了以下4項指標對模型進行評價。
(1) 平均絕對誤差(Mean Absolute Error,MAE):
(1)
式中:fi為第i個樣本的煤溫預測值,℃,i=1,2,…,n,n為樣本數(shù)量;yi為第i個樣本的煤溫真實值,℃。
式(1)中的差值被絕對化,可以很好地解決誤差相互抵消的問題,從而可精準地評估模型的預測誤差。MAE越小,說明該模型擬合誤差越小。
(2) 平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE):
(2)
MAPE越小,說明模型的誤差越小,模型預測精度越高,模型的擬合性能越好。
(3) 均方根誤差(Root Mean Square Error,RMSE):
(3)
RMSE越小,說明模型的預測誤差越小,模型的性能越好。
(4) 判定系數(shù)R2:
(4)

R2為模型的判定系數(shù),取值為0~1,R2越接近1,說明模型的精度越高,即模型的性能越好。
為了驗證基于RF算法的煤自燃溫度預測模型預測的準確性,在保持與RF算法相同的學習集和測試集的基礎(chǔ)上,引入了廣泛采用的PSO-BP神經(jīng)網(wǎng)絡(luò)算法和SVM算法對煤自燃溫度進行預測[21-22],并對其預測結(jié)果和基于RF算法的煤自燃溫度預測模型預測的結(jié)果進行對比分析。
以上3種模型都有5個輸入,1個輸出。輸入分別為CO濃度、C2H4濃度、O2濃度、CO/ΔO2比值、C2H4/C2H6比值,輸出為溫度。3種模型測試樣本的煤溫預測值和真實值如圖7所示。

(a) RF模型測試樣本的煤溫真實值與預測值對比

(b) PSO-BP模型測試樣本的煤溫真實值與預測值對比

(c) SVM模型測試樣本的煤溫真實值與預測值對比
從圖7可看出,基于RF算法的煤自燃溫度預測模型重合度高于其他2個模型,這說明基于RF算法的煤自燃溫度預測模型的性能最為優(yōu)越。
不同模型預測性能指標對比見表1。從表1可看出,基于RF算法的煤自燃溫度預測模型無論在訓練過程還是在測試過程,其MAE、MAPE、RMSE以及R2指標均優(yōu)于其他2個模型。而基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預測模型和基于SVM算法的煤自燃溫度預測模型在測試階段的MAE、MAPE、RMSE明顯增大,R2明顯減小,說明這2個模型在測試階段出現(xiàn)了過擬合情況,導致模型的魯棒性降低,預測結(jié)果精度下降。基于RF算法的煤自燃溫度預測模型在學習階段和測試階段的4個指標并沒有明顯偏差,這說明該模型具有較強的泛化性及魯棒性。

表1 不同模型預測性能指標對比Table 1 Comparison of prediction performance indexes between different models
不同模型測試樣本相對誤差箱如圖8所示,基于RF算法的煤自燃溫度預測模型測試樣本的最大相對誤差為0.523 5,基于SVM算法的煤自燃溫度預測模型的最大相對誤差為1.052,基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預測模型的最大相對誤差高達1.179 2。基于RF算法的煤自燃溫度預測模型的預測結(jié)果誤差要低于其他2個模型。

圖8 不同模型測試樣本相對誤差箱Fig.8 Relative error box diagram of test samples for different models
(1) 結(jié)合氣體分析法和RF算法構(gòu)建了基于RF算法的煤自燃溫度預測模型,并對模型參數(shù)進行了優(yōu)化。與基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預測模型和基于SVM算法的煤自燃溫度預測模型預測結(jié)果相比,基于RF算法的煤自燃溫度預測模型精度最高,基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的煤自燃溫度預測模型和基于SVM算法的煤自燃溫度預測模型容易出現(xiàn)過擬合現(xiàn)象。
(2) 基于RF算法的煤自燃溫度預測模型中,當決策樹的數(shù)量達到100后,MSE和R2趨于穩(wěn)定,且MSE達到最小,R2達到最大,說明模型所預測的溫度與實際溫度的誤差最小,其相似度最大。
(3) 通過計算,RF測試階段的R2為0.869 7,PSO-BP測試階段的R2為0.783 6,SVM測試階段的R2為0.835 0,說明基于RF算法的煤自燃溫度預測模型能夠較為準確地對煤自燃溫度進行預測,具有較強的魯棒性和普適性,相比其他預測模型,預測結(jié)果更為準確,且不需要復雜的參數(shù)優(yōu)化。