999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息增益優化支持向量機模型的煤礦瓦斯爆炸風險預測

2021-04-29 08:55:08齊金平
科學技術與工程 2021年9期
關鍵詞:分類模型

萬 宇, 齊金平, 張 儒, 閆 森

(蘭州交通大學機電技術研究所, 蘭州 730070)

目前,隨著社會經濟的蓬勃發展,中國已成為世界上最大的煤炭生產、消費國,安全生產已經成為一個重要現實問題[1]。煤炭行業是典型的高危行業,其事故主要包括瓦斯、頂板、底板、放炮、機電、火災、水害、運輸以及其他事故,其中瓦斯事故一般被認為是威脅性最大的災害事故。中國高瓦斯礦井數占到了接近總量的一半,每年因瓦斯事故帶來的傷亡人數不計其數,而其中瓦斯和煤塵爆炸事故占大多數[2]。煤炭的安全開采是經濟增長的重要保障,“十三五”規劃中國家也對能源安全和綠色生產提出了明確的要求。因此,為了響應國家號召,應將未來的工作重心從事后響應轉移到預控預防,做到從根源上遏制安全事故的發生,減少人員傷亡率。

瓦斯爆炸是瓦斯事故中典型的一種,傳統預測方法主要依賴專家判斷,具有較強的主觀性,預測精度不能達到分析任務的要求,近年來隨著計算機技術的進步與發展,機器學習算法的引入極大地推動了風險預測領域的進步,田水承等[3]利用反向傳播神經網絡(back propagation neural network, BPNN)對掘進面瓦斯爆炸危險進行了安全評價,李潤求等[4]構建了基于區間層次分析法和功效系數法結合(interval analytic hierarchy process-efficacy coefficient method, IAHP-ECM)的瓦斯爆炸災害風險評估模型,邵良杉等[5]針對數據缺失問題將隨機森林算法引入對瓦斯災害進行預測,李爽等[6]將極限學習機與貝葉斯網絡結合對風險進行預測。上述方法從不同角度對瓦斯爆炸風險預測進行了研究,機器學習的應用很大程度上提升了預測的精準度,除了各種算法上的進步,改變優化特征向量的輸入也是提升速度精度的一大方向。

現將本質安全理念引入評價指標集的構建,從人、機、管理、環境四個角度構建了28個指標,并針對煤礦瓦斯爆炸災害的特點,選取支持向量機(support vector machine,SVM)模型來進行分類預測,在此基礎上選擇信息增益法(information gain,IG)根據熵值優化輸入變量,組成了IG-SVM的組合模型,以期能夠實現對瓦斯爆炸風險的快速、高精預測。

1 分類預測模型的構建

1.1 支持向量機

支持向量機是一種基于VC維(Vapnik-Chervonenkis dimension)理論和結構風險最小化準則的監督學習算法[7],最早起源于分類、回歸領域,Vapnik[8]引入核理論,將原始低維數據映射到高維空間,在維數足夠高的空間中利用超平面來進行分類,在數學上可歸結為求解一個二次規劃問題。SVM在面對非線性、小樣本等問題時表現出色,計算復雜度取決于支持向量的數目,從而避免了“維數災難”,并且具有良好的魯棒性和泛化性能[9]。目前已廣泛應用于計算機視覺、時間序列預測、人工智能等領域。

設樣本數據集(xi,yi)(i=1,2,…,l),xi∈Rn,yi∈{-1,+1},l為訓練樣本總數,n為空間的維數,xi為待分類數據,yi為標記類別,對線性可分的樣本,存在一個超平面H能夠將不同類的樣本分開,用法向量表示其方向,H1、H2分別表示過兩類樣本點中與超平面H距離最近的平行平面,其間的距離稱為分類間隔,在保證能夠正確分類的前提下分類間隔最大的平面稱為最優超平面。超平面方程為wx+b=0,d維空間中的線性判別函數為g(x)=wx+b,其中w∈Rn,w為參數向量,即超平面的法向量,b∈R為分類閾值。

歸一化使|g(x)|≥1,離分類面最近的樣本的|g(x)|=1,此時分類間隔為2/‖w‖,要求分類間隔最大,即要求‖w‖最小,要求所有樣本分類正確,則需要滿足:

yi[(wxi+b)]≥1,i=1,2,…,l

(1)

上述條件可以轉化為下面帶約束條件的優化問題進行求解:

(2)

樣本線性可分的情況下,求解即可得到最優分類超平面,對于線性不可分的情況,存在一定的訓練誤差,一部分無法滿足式(1)的樣本數據將被視為噪聲,為了給這樣的噪聲數據引入容錯性需要在表達式中增加一個松弛變量ξi(ξi≥0),則式(1)變成

yi[(wxi+b)]≥1-ξi,i=1,2,…,l

(3)

(4)

由此可以得到線性不可分時的最優分類超平面,稱為廣義分類超平面,可以表示為

(5)

(6)

式(6)中:αi為拉格朗日乘子。在處理非線性問題時,低維空間中樣本數據的離群點數量非常多,引入松弛變量也無法取得較好的分類效果。根據泛函理論,只要一種核函數K=(xi,xj)滿足Mercer條件,就可以代替原空間中的內積。本文擬采用的核函數有雙曲正切(Sigmoid)核函數、徑向基核函數(radial basis function, RBF)、線性核函數(linear kernel function, LKF)以及多項式核函數(polynomial function, PF)。利用核函數技巧后的最優分類函數為

(7)

1.2 信息增益

信息增益是一種優化特征選取的方法[10]。信息量是對信息的度量,信息的大小與隨機事件的概率有關,概率越小產生的信息量越大,設離散隨機變量X的概率分布為P(X=xi)=pi(i=1,2,…,n)。信息熵代表所有可能發生事件信息量的期望,也可以理解為離散隨機變量的復雜度,表達式為

(8)

設有隨機變量(X,Y),其聯合概率分布為P(X=xi,Y=yi)=Pij(i=1,2,…,n,j=1,2,…,m)。條件熵H(Y/X)代表在已知隨機變量X的條件下隨機變量Y的不確定性,表達式為

(9)

信息增益代表了在X已知的條件下,信息復雜度減少的程度,即信息熵與條件熵的差值,特征T對訓練數據集D所帶來的信息增益為

g(D,T)=H(D)-H(D|T)

(10)

某個特征的信息增益值越大,也就是說根據這個特征所做決定的不確定度減少越多。用這種方法可以考量特征信息對整個系統的貢獻,貢獻越大說明這個特征對分類決策的影響越深。

1.3 IG-SVM模型

IG-SVM模型流程如圖1所示。

圖1 IG-SVM模型流程示意圖Fig.1 Flow diagram of IG-SVM model

模型運行步驟如下:

步驟1基于本質安全理論從人、機器、管理、環境4個方面構建瓦斯爆炸事故風險評價指標體系。

步驟2通過實際調查煤礦監控系統以及問卷調查法獲取大量現場數據(包括實時數據與非實時數據),組成原始數據集{D1,D2,…,Dm}。

步驟3將步驟2所得的原始數據集進行信息增益處理,可以獲得各指標的增益值排序,選擇最優指標組成新的數據集{I1,I2,…,Im}。

步驟4用mapminmax函數對數據進行歸一化處理,將原始數據映射到[0,1]區間內,這樣可以避免量綱不同對分類結果的影響,得到的新數據集為{G1,G2,…,Gm},用新實驗數據集訓練SVM模型,重復訓練優化參數后可以得到分類預測模型f(Ii)。

步驟5將未知風險的數據集導入模型訓練,獲得預測結果。

2 實驗分析

2.1 樣本的采集

瓦斯爆炸事故是煤礦特有的極其嚴重的一種災害,利用事故發生與否在指標上的差異化表現可以對瓦斯爆炸風險進行預測,對事故的預控預防具有指導意義。以甘肅、山西、內蒙古自治區等地區100家中小煤礦企業為研究對象,收集他們的瓦斯爆炸事故數據,定性指標以問卷調查法獲取,調查問卷向目標企業相關部門的管理人員發放。此次研究共發放問卷170份,收回141份,有效問卷為110份。對數據進行統計整理,共獲得110個樣本點,包括20個有風險樣本(事故樣本),90個無風險樣本。在此基礎上,還需要對用于訓練和測試的樣本數據集進行劃分,本文選取訓練和測試的樣本數量比例為8∶2,分別在有風險和無風險的樣本中按比例隨機抽取共88個作為預測模型的訓練樣本,剩下22個作為檢驗模型預測效果的測試樣本,如表1所示。

表1 實驗樣本分布情況Table 1 Distribution of experimental samples

2.2 風險評價指標

本質安全是一種以事故致因論為基礎的科學全面的安全理論,完全符合國家安全生產的法律法規以及“十三五”發展規劃,其核心理念是從人、機器、管理、環境四個要素的角度,做到各方面協調統一,消除不安全因素,建立本質安全型企業。本文將本質安全理念結合煤礦生產的實際情況,建立了一套較為全面的指標體系,如表2所示。為達到簡化SVM模型提高預測正確率的目的,通過IG模型分析輸入變量,提取對瓦斯爆炸風險分類結果有顯著影響的指標,影響程度以信息增益值表示,信息增益的排序結果如表3所示,本文選擇信息增益值大于0.015所對應的14個特征變量組成新數據集合。

表2 瓦斯爆炸風險指標體系

表3 特征指標信息增益排序表

2.3 參數設置及核函數的選取

本文建立的預測模型由Windows系統下的MATLAB19.0實現,采用MATLAB中的mapminmax對原始數據進行歸一化,得到的新數據集與原數據集具有高度緊密性。SVM中核函數的選取對特征空間起著決定性的作用,目前還沒有算法用于選取最適合核函數的方法,一般采取試湊法,本文選取最常用的4種核函數分別是:Sigmoid核函數、LKF、PF、RBF,對分類結果進行對比,選取最優的核函數,其中LKF沒有需要專門設置的參數,其余參數如表4所示。

表4 核函數參數情況Table 4 Parameters of kernel function

瓦斯爆炸事故風險實際上是一個二元分類問題,即將煤礦開采區域分為兩類有風險、無風險,采用混淆矩陣來評價分類模型的性能,如表5所示。

表5 混淆矩陣

P/N(positive/negative)表示預測對象的所屬類別,T/F(true/false)表示分類的正確與否,例如TP即將實際有風險的煤礦預測為有風險的樣本數量,利用混淆矩陣可以計算出一些評價模型性能的指標如:正確率Acc=(TP+TN)/(TP+TN+FP+FN)、準確率Precision=TP/(TP+FP)、召回率Recall=TP/(TP+FN)等[11]。以上指標雖然能夠一定程度上的評價模型性能,但是應用于本文的分類器模型評價中大致有兩方面的問題:一是煤礦瓦斯事故屬于低概率事件,那么在收集數據時極大可能發生正負樣本數量懸殊,例如事故樣本數量占總量1%時,分類器只需將所有樣本判定為無風險,則準確率也可達到99%,這顯然是不合理的。其次風險的發生雖然是一個二元分類問題,但是所選對象歸屬類別的程度不同,簡單地用0或1概括會導致一些信息丟失。

ROC(receiver operating characteristic)曲線也稱受試者工作特性曲線,其橫縱坐標分別是假陽性率(false positive rate,FPR)和真陽性率(true positive rate,TPR),坐標(0,1)對應的是理想的分類模型,用曲線下的面積(area under curve,AUC)來表示分類器的性能,AUC的大小一般在0.5~1,越靠近1表示越接近理想分類模型。選擇ROC曲線不僅能夠解決前文提出的兩方面問題,而且能直觀地反映不同核函數模型分類情況的優劣。

將數據代入不同核函數的模型,ROC曲線如圖2所示,ROC曲線越靠近左上角表示分類效果越好,為了更加準確地描述可以計算曲線下面積,即AUC值,如表6所示。

圖2 模型輸出的ROC曲線Fig.2 ROC curve of model output

表6 不同核函數AUC比較Table 6 Comparison of AUC values of different kernel functions

由表6可知使用RBF核函數構造的模型輸出的AUC最高,而使用Sigmoid核函數、PF、LKF的構造的模型輸出的AUC都在0.7~0.8,效果不甚理想且相互之間差別不大。LKF作為RBF的一種特殊形式,在實驗過程中發現兩種核函數差距較大,推測可能是由于煤礦瓦斯爆炸風險并不是線性可分的。Sigmoid核函數可能在某些參數下是無效的,因此給參數選取帶來困難。PF的支持向量較多分布于邊界處,可能對分類預測產生干擾。此外,RBF有很強的映射復雜非線性關系的能力,且學習規則簡單、調試參數迅速,魯棒性強。綜上所述,本文選用RBF作為核函數建立預測模型。

2.4 結果與討論

為了體現本文選用的IG-SVM模型的效能,將該模型的預測結果與一些常用的分類器在同樣的樣本條件下進行比較,為了簡化比較結果,僅對預測結果作二元分類(+1表示有風險,-1表示無風險),結果以樣本的分類正確率表示,如表7所示。

表7 各模型分類預測結果對比Table 7 Comparison of prediction results of different models

實驗結果表明:在4種單一分類模型中,SVM對訓練樣本的分類正確率為85.23%,略低于決策樹(decision tree, DT)模型和隨機梯度下降(stochastic gradient descent, SGD)模型,而對測試樣本的分類正確率最高,達到了86.36%,而本文建模分類的目的是預測瓦斯爆炸風險,顯然測試樣本的結果更加重要,在有風險樣本和無風險樣本中,SVM的表現要優于3種其他模型。比較使用了IG優化后的各種模型,4種分類正確率均有所提高,例如IG-SVM模型相對于SVM模型4種正確率分別提高了12.5%、9.09%、5%、7.78%,說明了經過IG特征提取后的模型分類性能有所提高。此外,實驗還使用了核主成分分析法(kernel principal component analysis, KPCA)進行特征選取優化作為對比,可以看出,經過KPCA優化后的模型,雖然整體水平也有所提升,但普遍低于IG優化后的模型,充分說明了IG在特征選取優化方面的表現十分優異。

3 結論

依據本質安全理念建立了指標集,研究了IG-SVM在處理煤礦瓦斯爆炸風險預測上的表現,具體結論如下:

(1)針對煤礦瓦斯爆炸風險問題,使用SVM進行分類預測取得了不錯的效果,但是過于龐大的指標體系在一定程度上形成了特征信息的冗余,從而影響計算機仿真的速度與正確率。因此,優化評價指標體系是十分必要的。

(2) IG通過對信息增益值進行排序精簡指標體系,刪除了不必要的冗余信息,降低了模型整體的運算維度,從而優化了模型的速度與正確率,并通過實驗證明IG與SVM的組合在解決本文問題時要優于其他模型,最終測試樣本的正確率達到了95.45%,在防控災害上有很好的應用價值。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 玖玖精品在线| 欧美中文字幕无线码视频| 精品无码视频在线观看| 国产成人亚洲欧美激情| 91九色视频网| 鲁鲁鲁爽爽爽在线视频观看| 久久国产精品无码hdav| 亚洲AⅤ波多系列中文字幕| 国产真实自在自线免费精品| 亚洲乱码精品久久久久..| 成人在线观看一区| 午夜丁香婷婷| 精品免费在线视频| 国产日本欧美在线观看| 亚洲综合片| 女高中生自慰污污网站| 麻豆精品在线视频| 天天做天天爱夜夜爽毛片毛片| 色综合国产| 国产精品极品美女自在线| 欧美日韩精品综合在线一区| 激情六月丁香婷婷| 毛片大全免费观看| 国产后式a一视频| 波多野结衣在线se| 朝桐光一区二区| 亚洲国产综合自在线另类| 美女无遮挡被啪啪到高潮免费| 91免费观看视频| 国产欧美日韩资源在线观看| 国产精品嫩草影院av| 久久黄色一级片| 伊人久久久久久久| 欧美高清日韩| 在线综合亚洲欧美网站| 美女啪啪无遮挡| 亚洲最新地址| 日韩欧美国产精品| 伊在人亞洲香蕉精品區| 国产99视频在线| 亚洲综合中文字幕国产精品欧美 | 国产欧美日韩另类| 日本精品一在线观看视频| 98精品全国免费观看视频| 久久这里只有精品国产99| 91黄视频在线观看| 波多野结衣无码AV在线| 毛片免费试看| 亚洲成综合人影院在院播放| 国产精品第| 欧美激情视频在线观看一区| 自拍偷拍欧美日韩| 日本影院一区| 98超碰在线观看| 99re66精品视频在线观看| 午夜视频免费一区二区在线看| 国产亚洲精久久久久久无码AV| 亚洲人成网站在线观看播放不卡| 亚洲欧美综合在线观看| 中文字幕亚洲另类天堂| 国产a在视频线精品视频下载| 久久国产精品国产自线拍| 亚洲综合色区在线播放2019 | 亚洲人成亚洲精品| 99热精品久久| 五月激情婷婷综合| 国产一区三区二区中文在线| 亚亚洲乱码一二三四区| 91破解版在线亚洲| 国产精品久线在线观看| 亚洲日本一本dvd高清| 黄色在线不卡| 国产成人免费| 欧美激情视频二区三区| 日韩精品中文字幕一区三区| 久久精品最新免费国产成人| 欧美福利在线| 久久这里只有精品免费| 久久久久久久97| 亚洲欧美国产五月天综合| 亚洲美女一级毛片| 欧美乱妇高清无乱码免费|