基于過采樣支持向量機的煤與瓦斯突出預測

2021-10-20 13:04:06齊金平

科學技術與工程 2021年28期

關鍵詞：分類

萬宇，齊金平，張儒，閆森

(蘭州交通大學機電技術研究所，蘭州 730070)

煤與瓦斯突出是一種影響安全生產的動力災害[1]，形成原因復雜，影響因素眾多，突出的發生會造成嚴重的社會經濟損失。基于已發生突出案例的特征參量進行分類研究，有利于利用突出發生與否在指標上的差異化表現準確識別突出，進而對未開采區域的突出危險進行預測，對事故的預控預防具有指導意義。在實際生產中，過去人們常常使用單項指標法、瓦斯地質統計法、DK法對突出進行預測。隨著機器學習理論和計算機硬件的發展，基于機器學習的危險預測以其強大的數據分析能力成為學術研究中的熱點，如神經網絡、深度信念網絡、支持向量機(support vector machine, SVM)等在不同預測問題上的表現可圈可點。

付華等[2]提出了一種改進的極限學習機對煤與瓦斯突出強度進行預測；汪瑩等[3]構建了基于粗糙集理論(rough set，RS)結合支持向量機(support vector machine，SVM)的煤與瓦斯突出預測模型；顧能華等[4]將核主成分分析(kernel principal component analysis，KPCA)與Takagi-Sugeno(T-S)模糊神經網絡結合對突出風險進行預測；邵良杉等[5]將隨機森林算法引入突出預測模型解決了數據缺失問題。這些方法的在一定程度上提升的突出預測的精度，但是在最大化全體分類準確率的過程中，容易忽略少數類樣本的正確分類，若想訓練出優秀的模型需要大量的突出數據，這在實際生產中是很難搜集的。為解決這個問題，引入過采樣算法對基于支持向量機的分類預測提供樣本支持。

1 支持向量機

1.1 支持向量機原理

支持向量機是一種基于Vapnik-Chervonenkis(VC)維理論和結構風險最小化準則的監督學習算法[6]，在面對非線性、小樣本問題時表現出色，計算復雜度取決于支持向量的數目，從而避免了“維數災難”，并且具有良好的魯棒性和泛化性能。目前已廣泛應用于計算機視覺、時間序列預測、人工智能等領域。SVM的基本思想是在特征空間中尋找一個最優超平面，以期兩類樣本分隔間距最大化。設樣本數據集(xi,yi)，i=1,2,…,l,x∈Rn，yi∈{-1,+1}，其中，l為訓練樣本總數，n為空間的維數，xi為待分類數據，yi為標記類別，在SVM算法中，滿足Mercer條件的核函數K=(xi,xj)可以代替原空間中的內積，也就是將原空間中線性不可分的樣本映射到高維空間使其變得線性可分，為了增加對噪聲的容錯性同時引入松弛變量ξi與懲罰因子C，上述條件可以轉化為式(1)帶約束條件的優化問題進行求解。

(1)

通過引入拉格朗日對偶定理將上述最優分類問題轉化為式(2)，決策函數如式(3)所示。

(2)

(3)

式中：w、b分別為超平面的法向量和截距；Φ、L為函數；ξ為松弛變量；αi、αj為拉格朗日乘子。

1.2 支持向量機缺點

以二分類為例，在兩類樣本數量懸殊的情況下SVM的分類效果會變差，具體失效原因如下。

(4)

(5)

(6)

(7)

(8)

(9)

(10)

設經過過采樣后的Np=Nn=m，可將式(10)轉化為

(11)

2 過采樣算法

2.1 BSMOTE算法

Fernandez等[7]提出了合成少數類過采樣技術(synthetic minority oversampling technique，SMOTE)，與以往簡單復制的方法不同，它的核心思想是在少數類樣本的連線上隨機合成新樣本以實現數據均衡，一定程度上解決了分類過擬合問題。王坤等[8]使用SMOTE算法合成氣象要素中的少數類樣本，再結合邏輯回歸模型對短時強降水進行預測取得了較好的效果，但是這種采樣使得一些新合成的樣本沒有提供有效信息且增加了類之間重疊的可能性。Smiti等[9]提出了一種考慮樣本分布特點采樣的Borderline-SMOTE算法，該算法認為樣本越靠近決策邊界，其分類意義越高，因此引入k-近鄰法(k-nearest neighbor，k-NN)找出邊界樣本，分別計算少數類樣本集中每一個樣本的m個近鄰樣本，近鄰樣本既可能是同類也可能是異類，如果異類樣本數量大于同類，則認為該樣本靠近邊界，并將其放入一個新集合中以備合成新樣本，否則就將該樣本點剔除。黃景林等[10]將Borderline-SMOTE算法與卷積神經網絡相結合構造了輸電線路故障分類模型，提高了對少數類故障樣本的識別能力。Borderline-SMOTE算法只對靠近邊界的樣本進行過采樣，使得新合成的樣本也處于分類邊界附近，保持了正負類邊界支持向量的數量一致，根據SVM的原理可知，這對分類器性能的提升是很有幫助的。但是該算法同時也右在3個缺點：①數據呈多簇分布時，合成樣本可能會產生新噪聲；②如果近鄰或參數k值大小設置不當，可能會將位于邊界附近的重要樣本視作噪聲，而k值的大小很難預先確定；③k-NN法不能找到所有的邊界點。

2.2 改進的BSMOTE算法

針對第一個缺點，可以將樣本點作為一個簇，合并距離最近的兩個簇，不斷重復直到聚類數為2(少數類和多數類)，選出少數類簇，用同樣的方法合并最終得到n個簇。

(12)

(13)

綜合二者考慮噪聲為真的概率，具體表達式為

(14)

針對③缺點，可以通過考慮樣本超平面位置改進合成公式解決，經SVM訓練生成超平面可產生圖1所示的3種情況:①決策平面輕微偏移，沒有錯分的正類樣本。此時距離超平面越近樣本點，越容易為邊界點；②決策平面一般偏移，存在部分正類樣本錯分，對于錯分的正類樣本點，距離超平面越遠的，越容易為邊界點，反之，對于正確分類的部分，越近的正類樣本點越容易為邊界點；③決策平面嚴重偏移，正類樣本全部錯分。此時，距離超平面越遠的正類樣本點越靠近邊界。

圖1 超平面偏移的3種情況Fig.1 Three cases of hyperplane migration

因此，簇中正類樣本信息量的計算公式為

(15)

(16)

合成新樣本的計算公式為

ε′∈{0.5y∈0，1,…,N/k;(1-0.5y∈0，1,…,N/k)}

(17)

整體的算法流程如圖2所示。

圖2 改進的Borderline-SMOTE算法流程圖Fig.2 Flow chart of improved Borderline-SMOTE algorithm

步驟1 通過聚類分析將少數類樣本分成n個簇。

步驟2 在第i∈{1,2,…,n}個簇中，利用k-NN法識別出疑似噪聲點，總數記作qi。

步驟3 若沒有疑似噪聲點，進入步驟5；否則計算疑似噪聲點為真的概率。

步驟4 按概率順序剔除j∈{0,1,…,qi}個噪聲點得到簇i′。

步驟5 結合負類樣本導入SVM訓練，計算正類樣本信息量并排序。

步驟6 合成新樣本，記為簇i″。

步驟7 訓練由簇i″組成的新訓練集，計算正確率后返回步驟4直到噪聲點全部剔除完，記下準確率最高的簇i″。

步驟8 返回步驟3直到所有簇訓練完，將所有的簇i″合并存儲。

3 基于過采樣SVM的突出預測

3.1 突出機理與樣本的采集

由于突出本身的復雜性以及突出發生時采集實時數據困難，使得關于該災害的機理研究尚未形成一套完整的理論體系，但是經過中外學者們不斷地總結經驗和模擬實驗提出了四類假說：瓦斯主導假說、化學效應假說、地應力主導假說以及目前認同度最高的綜合作用假說[11]。

依據綜合作用假說，選取垂深、瓦斯含量、煤層厚度、瓦斯壓力、堅固性系數5個指標作為影響突出的指標。煤層垂深的大小一方面代表開采地點的應力狀況，一般垂深越大，受到地下能量影響破壞內部平衡的可能性越高；另一方面，深部地下土壤環境的密閉性通常高于淺層，這種現象將導致積聚的瓦斯氣體不利于揮發而增加突出風險；瓦斯作為形成突出災害的主要氣體，可以在開采過程中通過取樣試驗初步測量，通常煤層中的瓦斯含量越高，因采掘作業破壞煤層平衡后發生的突出風險也就越高；一定的煤層厚度也是突出發生的必備條件，因煤層滲透性較差，厚煤層的分層會阻止瓦斯逸散，形成瓦斯分層從而增加突出發生可能性；瓦斯壓力影響著突出爆發時瓦斯噴出的劇烈程度，因此對確定煤層的突出風險起著至關重要的作用，一般情況下，瓦斯壓力越大突出風險程度越高；堅固的煤層由于采掘作業中不易破壞而能夠較好地保存吸附的瓦斯氣體，通常情況下發生大規模突出風險的概率較小，因此堅固性系數也可作為判斷突出風險的指標。

以中國煤與瓦斯突出事故為研究對象，通過整理資料、問卷調查共獲得210個樣本點，包括50個突出樣本，160個非突出樣本。從兩類樣本中分別選取20個作為測試樣本，剩下作為訓練樣本，在此基礎上，再將突出樣本數逐步縮減至20個、10個共3個訓練集，以觀察在正類樣本數量逐步縮小的情況下算法的表現。具體分布如表1所示，部分數據如表2所示。

表1 實驗樣本分布情況Table 1 Distribution of experimental samples

表2 部分預測指標集數據Table 2 Partial forecast indicator set data

3.2 預測流程與評價方法

基于過采樣算法的SVM預測流程如圖3所示。煤與瓦斯突出預測的本質是不平衡數據分類問題，引入混淆矩陣如表3所示。

表3 混淆矩陣Table 3 Confusion matrix

圖3 基于過采樣算法的SVM預測流程圖Fig.3 SVM prediction flow chart based on oversampling algorithm

P/Ne(positive/negative)表示預測對象的所屬類別，T/F(true/false)表示分類的正確與否，如TP即將實際有突出的煤礦預測為有突出的樣本數量，并選取由此產生的5個指標:敏感性(sensitivity，SEN)、特異性(specificity，SPE)、幾何平均值(Geometric mean，G-mean)、F測度(F-measure)、曲線下面積(area under curve，AUC)來評價分類情況的好壞[12]，前四者求解公式分別為

SEN=TP/(TP+FN)

(18)

SPE=TN/(TN+FP)

(19)

(20)

PRE=TP/(FP+TP)

(21)

F-measure=2SEN PRE/(SEN+PRE)

(22)

AUC值需要通過計算工作特性曲線(receiver operating characteristic curve，ROC)下面積得到，ROC曲線也稱受試者工作特性曲線，其橫縱坐標分別是假陽性率(false positive rate,FPR)和真陽性率(true positive rate,TPR)，坐標(0,1)對應的是理想的分類模型。曲線越靠近左上角表示分類效果越好，定量指標AUC需要通過積分求面積獲得，其大小一般在0.5～1，越靠近1表示越接近理想分類模型。

除上述評價指標外，考慮算法的綜合魯棒性[13]，其計算公式為

bm=Rm/max(Ri)，i=1,2,…,k′

(23)

式(23)中：bm為算法m的魯棒性性能，其值越接近1代表相對性能越好；Rm為算法m的調整蘭德系數(adjusted rand index，ARI) 值。算法在不同數據集上的整體表現可以通過對bm求和得到。

3.3 算法對比和參數設置

共使用4種算法：SVM、BSMOTE-SVM、SC-SVM、改進的BSMOTE-SVM，對3種不同訓練集下預測結果的性能指標進行對比。算法參數盡可能選取最優值，BSMOTE-SVM算法的近鄰域參數k在3個訓練集中分別選擇3、4、4；譜聚類(spectral clustering，SC)保留相同數目的正負類樣本；改進的BSMOTE取δ=10-13，α=0.5，k=4；SVM的核函數選擇RBF，其中Rδ=10、0.5，C=10，并利用粒子群算法(particle swarm optimization，PSO)對Rδ、C尋優，其中，Rδ為徑向基核函數自帶的參數，C為懲罰參數，PSO的初始種群與迭代次數分別設為20、100。

3.4 結果分析及對比

利用上述所有方法對煤與瓦斯突出進行分類預測，SEN、SPE、G-mean、F-measure、AUC準確率的結果如表4～表6所示。魯棒性的結果如圖4所示。

表4 不同算法的預測結果比較(Rδ=10)Table 4 Comparison of prediction results of different algorithms(Rδ=10)

表5 不同算法的預測結果比較(Rδ=0.5)Table 5 Comparison of prediction results of different algorithms(Rδ=0.5)

表6 改進的PSO-BSMOTE-SVM的預測結果Table 6 Prediction results of improved PSO-BSMOTE-SVM

圖4 不同算法的魯棒性比較Fig.4 Robustness comparison of different algorithms

分析表4～表6、圖4可知:①過采樣算法與支持向量機的組合在G-mean值、AUC值、魯棒性值上的表現均優于單一支持向量機，說明該組合在煤與瓦斯突出預測領域是適用的，而以SC為例的欠采樣算法組合預測效果不如單一支持向量機，推測可能是由于在數據偏少的情況下，欠采樣算法刪除的樣本點包含影響分類決策的重要信息，從而導致決策面發生偏移；②改進的BSMOTE-SVM相比BSMOTE-SVM在分類器性能上有所提升，雖然隨著訓練集中突出樣本的減少，各類算法的性能指標均有不同程度的下降，但是改進的BSMOTE-SVM依然保持了預測結果最優的特點，說明在重采樣方面的改進方法是有效的;③不同的Rδ值對應算法的預測效果相差很大，因此對SVM分類器參數Rδ與C進行優化是有必要的。經粒子群算法優化參數后，改進的BSMOTE-SVM算法表現出了更加優秀的性能。

4 結論

依據綜合作用假說建立了預測指標集，研究了過采樣算法與支持向量機的組合在煤與瓦斯突出危險預測方面的應用。針對BSMOTE算法的缺點作出了相應的改進，通過聚類、去噪、合成新樣本為SVM提供樣本支持，此外仿真實驗還使用了以SC為代表的欠采樣算法作為對比，可以看出經過SC重采樣的樣本集訓練后的效果反而有所下降，充分說明了過采樣算法在煤與瓦斯突出危險預測領域的優勢，針對SVM調參復雜還采用了PSO算法進行參數尋優，取得了非常好的預測效果，在防控災害上有很好的應用價值。