李 勝,韓永亮,李軍文
遼寧工程技術大學 礦業學院,遼寧 阜新 123000
瓦斯涌出是造成礦井安全事故發生和制約煤礦安全生產的災害之一。由于我國高瓦斯礦井所占的比重較高,隨著工作面機械化開采、集約化大生產以及深度開采的步伐逐步增大,瓦斯涌出量隨之增加,事故危險性增大[1]。迄今為止,眾多學者關于煤礦絕對瓦斯涌出量預測方法進行了深入的研究,積累了大量的研究成果,主要包括:統計預測法[2]、分源預測法[3]等線性預測法,灰色理論[4]、神經網絡[5]、卡爾曼濾波法[6]、隨機森林法[7]及其他耦合預測方法[8]等非線性預測方法。以上是在瓦斯涌出量預測研究中取得的有益探索,然而,絕對瓦斯涌出量預測是一個受多重因素影響的復雜動力學系統[9],通常預測算法只涉及相互關聯的少數影響指標,算法在精度和泛化能力上需進一步提高。
支持向量機(SVM)[10]遵循結構風險最小化準則,在處理小樣本事件具有很好的預測能力,然而,瓦斯涌出量影響指標間非線性、耦合性及信息冗余特征顯著,若將影響指標直接作為模型輸入向量,會干擾模型的預測精度和泛化能力,并且模型參數的選擇對預測精度和泛化性能較敏感,因此,為提高模型預測精度,須采用優化算法對模型進行改進。主成分分析法避免影響指標間的信息冗余,通過提取主要因數建立不相關影響因子,可簡化網絡結構;果蠅優化算法(FOA)是一種先進的全局智能優化方法,適用于模型參數尋優,但算法存在易陷入局部收斂問題,須進一步改進[11]。鑒于此,筆者提出首先運用主成分分析法(PCA)對數據進行預處理,實現樣本數據壓縮和降維處理,使輸入向量更具有典型代表性,同時,采用改進的果蠅算法優化支持向量機進行參數動態尋優,建立基于PCA-MFOA-SVM的回采工作面絕對瓦斯涌出量耦合預測模型,并通過仿真實例驗證模型的優越性。
主成分分析法(PCA)是應用多元統計技術將影響事物發展的多個相關因素組合為少量不相關且蘊涵大量原始信息的新變量。信息量的多少主要反映在新變量的方差上,方差越大所蘊涵的信息量就越大。通過對原始數據求取自相關矩陣,然后根據自相關矩陣求取特征值,計算貢獻率和累計貢獻率,并根據相應的特征向量確定主成分[12],具體分析過程如下:
(1)中心標準化處理。為消除原始變量不同量綱、數量級及數值的差異,首先對原始數據進行中心標準化處理,得無量綱數據新矩陣Y=[yij]。
(2)由新矩陣Y構建相關系數矩陣R,求解矩陣R的k個非負特征值 (λ1≥λ2≥…≥λk)及其對應的特征向量HP(p=1,2,…,k)。
(3)確定主成分個數n。特征值λ為對應主成分的方差,主成分個數n的選取取決于方差貢獻率累加和即累計貢獻率?n,通常選取累計貢獻率滿足85%以上作為主成分個數n選取的指標,即前n個主成分蘊涵了原始變量的絕大部分信息。

(4)構建新變量。n個主成分對應的特征向量Hn構建矩陣Z=Ym×kHk×n,代替原始變量進行后續計算。
支持向量機(SVM)在做回歸預測時,其基本思路是通過采用內積函數定義的非線性映射將非線性樣本空間轉換為一個高維空間[13],進而在這個高維空間中對轉化后的樣本進行分析。

(2)引入不敏感損失系數ε、非負松弛變量ξi,ξi*,建立尋找未知參數ω,b的數學規劃問題。
(3)引入拉格朗日函數,令核函數K(xi,xj)=φ(xi)φ(xj),將數學規劃問題轉換為對偶形式。
(4)求解最優解a,a*,并求取參數ω*和b*,進而建立支持向量機回歸函數表達式:

核函數K(xi,xj)存在多種形式,在缺少先驗知識的條件下,為保證算法更好地實現非線性化,通常選取正定核函數——徑向基(RBF)函數K(xi,xj)=exp(-g||xi-xj||2)作為模型核函數。
SVM參數的選擇對模型收斂精度和泛化能力有重要影響,而標準FOA在對參數迭代尋優過程中,所有個體只聚集在當前迭代的最優個體位置上,種群多樣性特征表現不明顯,降低了迭代搜索效率,若該個體不是全局最優,算法易陷入局部收斂和早熟的問題,這就會降低算法的收斂精度和效率[14]。鑒于此,本文采用三維搜索空間代替二維空間以擴大果蠅搜尋的空間自由度,利用群體味道濃度方差判定作為FOA局部收斂判定依據,根據混沌映射規則,將優化變量映射為混沌變量,利用混沌變量的遍歷性和內在規律性實現全局尋優,即建立改進的果蠅優化算法(MFOA)并對參數迭代尋優,MFOA優化SVM的流程(見圖1)和具體步驟如下:

圖1 MFOA優化SVM流程圖
(1)初始化果蠅參數,設定果蠅的初始位置X1,Y1,Z1,果蠅群體規模k,最大迭代次數n,給定方差閾值ξ和混沌遍歷次數N。
(2)設定果蠅個體利用嗅覺在三維空間下尋找食物的隨機方向的搜尋距離值Rvalue,鑒于優化參數為(C,g),X,Y,Z分別取為k行2列。

(3)由于先前無法確定食物源的具體位置,根據個體與原點的距離Li,計算個體味道濃度判定值Si,并對優化參數(C,g)賦值。

(4)yij為樣本實際值,f(xij)為回歸預測值,學習樣本采用3折交叉驗證,將S(i,:)帶入適應度函數(fitness function),計算果蠅群體中每個個體的適應度值ft。
(5)在群體中找出味道濃度最優的個體。

(6)記錄并保留最優濃度值及其對應的X,Y,Z位置,果蠅憑借其視覺向該位置飛去。


式中,VXi為第i個混沌變量,VX(m)i為變量VXi在第m步變換后的值,Xi∈(ai,bi),VXi∈[0,1]且VXi≠{0.25,0.5,0.75},Xi'為混沌變量VXi轉化后獲得的新的變量值,新變量值Yi',Zi'獲取過程亦同。
(8)執行進程(3)~(6)計算果蠅個體新位置的味道濃度判定值Si',將其帶入適應度函數計算果蠅個體的適應度值fti'。若fti'<fbest,則fbest=fti',同時記錄對應果蠅個體的新位置,并轉向進程(7)。否則,直接轉向進程(7)。
(9)迭代執行步驟(2)~(8),達到目標精度要求閾值或迭代次數最大值n時,迭代終止。
絕對瓦斯涌出量預測是一個復雜的動態系統,傳統預測研究方法只考慮少量幾個參數,存在模型預測精度低、泛化能力不足等現象,要達到準確預測瓦斯涌出量的目的,需綜合考慮各復雜因素間的不確定關系[15]。因此,為提高算法預測精度,根據開灤集團某一礦區的實測數據,選取煤層原始瓦斯含量X1(m3/t)、煤層深度X2(m)、厚度X3(m)、推進速度X4(m/d)、采出率X5、臨近層瓦斯含量X6(m3/t)、臨近層厚度X7(m)、層間距X8(m)、層間巖性X9、開采強度X10(t/d)作為輸入樣本,瓦斯涌出量X11(m3/t)作為輸出樣本(見表1)。模型首先采用主成分分析法(PCA)對輸入樣本進行預處理,消除影響指標的相關性,實現數據壓縮和降維處理;將主成分計算的樣本數據作為SVM的輸入向量,瓦斯涌出量作為其輸出向量,結合MFOA優化算法,優化回歸函數得相關參數,建立基于PCA-MFOA-SVM的回采工作面瓦斯涌出量預測耦合模型。當對未知絕對瓦斯涌出量進行預測時,根據上述主成分影響因素輸入值,模型自動根據確定的回歸函數預測出瓦斯涌出量,具體流程(見圖2)。

圖2 基于耦合模型的回采工作面瓦斯涌出量預測流程
由于瓦斯涌出量影響因素數值間存在不同的量綱和數量級,且數值間差異性明顯,因此,首先對輸入樣本(X1~X10)進行中心標準化轉化,利用MATLAB軟件對轉化后的10項指標進行主成分分析,計算結果見表2。
應用殘差均方根和相對誤差均方根分析由主成分重建樣本數據與原始數據之間的差距,用以評價信息量損失的大小。由表2可以看出,第一主成分的方差貢獻率為65.386 0%,前四個主成分累積貢獻率達到94.437 1%,殘差均方根為0.119 8,相對誤差均方根為5.316%。根據通常采用的主成分擇取標準,累積貢獻率達到85%可作為主成分個數選擇的指標,因此,10項影響指標可用前4個主成分代替,且信息損失量較小。由表2中前4個主成分與原始變量的關系,寫出主成分與原變量的線性組合:

表1 瓦斯涌出量與影響因素監測數據統計樣本

表2 主成分計算結果

其中,Y為樣本X按中心標準化轉化后的矩陣,按照式(18)分別計算樣本的主成分得分,并由主成分得分構建模型樣本數據(見表3)。
以主成分作為模型輸入參數,瓦斯涌出量作為輸出參數,此時,模型原始輸入樣本經PCA處理方法由10維降為4維,將表3樣本空間分為訓練樣本集和預測樣本集,其中前1~15組數據作為訓練樣本集,用于進行訓練學習機器和計算回歸參數,后16~18組數據作為測試樣本集,用以檢驗模型預測的精度。采用MFOA優化SVM參數C和g,模型參數確定如下:隨機初始化果蠅起始位置及方向,設定果蠅群體規模為20,最大迭代次數為500,混沌遍歷次數為2,方差閾值設置為0.000 01,采用三折交互驗證模式,由經驗一般設取C∈[0 200],g∈[0 100];SVM模型以徑向基核函數為模型核函數,損失函數值設為0.01。按照圖2所示的模型預測流程,經MFOA算法優化求得參數C=38.653 0,g=3.092 2,將所得參數帶入SVM模型中并對訓練樣本集中的前15組樣本進行訓練,以獲取參數最優訓練模型。為了測試模型的優越性,對測試樣本集中的3組數據進行仿真預測,訓練和預測結果見圖3~4。由圖可知,訓練后模型預測的均方誤差mse為0.002 45,模型決定系數R2為0.960 59,預測結果表明基于PCA-MFOA-SVM模型預測具有較好的擬合泛化能力。

表3 瓦斯涌出量與主成分得分數據統計

圖3 訓練樣本集預測結果
為進一步凸顯模型的優越性,將該模型與PCA-FOASVM、PCA-GA-SVM[16]預測模型在相同配置條件下進行工作面瓦斯涌出量預測對比分析,選取絕對誤差、相對誤差、標準差、模型預測決定系數、訓練時間作為模型評價指標,預測結果對比見表4。

圖4 測試樣本集預測結果
由表4可知,運用PCA-MFOA-SVM模型預測的平均絕對誤差為0.077 5 m3/t,平均相對誤差為1.323 7%,標準差為0.002 5,預測誤差值明顯低于其他模型,表明該模型具有較高的預測精度;模型決定系數為0.960 6,表明該模型具有很強的擬合能力;模型預測時間為22.966 5 s,預測效率須進一步提高。綜合評價指標表明,基于PCA-MFOA-SVM的預測模型具有較高的預測精度和擬合泛化能力,將其應用于工作面瓦斯涌出量預測中能夠實現理想的預測結果。
本文針對回采工作面絕對瓦斯涌出量預測提出了一種新的預測方法,預測結果表明應用該模型具有顯著的優越性,并在研究中得出以下結論:
(1)運用主成分分析法對10個影響指標進行主成分特征提取,通過選取4個主成分進行回歸分析,消除了信息冗余,實現了模型數據壓縮和降維處理,從而簡化了模型結構。

表4 三種模型預測結果對比
(2)引入混沌映射準則,建立三維搜索空間下的改進的果蠅優化算法,并利用該算法訓練支持向量機預測模型并進行參數動態尋優,提高了模型的預測精度和效率。
(3)仿真結果表明,基于PCA-MFOA-SVM回采工作面瓦斯涌出量模型與其他模型相比具有較高的預測精度和擬合泛化能力,且綜合性能優于其他模型,可運用于瓦斯涌出量動態預測。
[1]李潤求,施式亮,羅文柯.煤礦瓦斯爆炸事故特征與耦合規律研究[J].中國安全科學學報,2010,20(2):69-74.
[2]姜文忠,霍中剛,秦玉金.礦井瓦斯涌出量預測技術[J].煤炭科學技術,2008,36(6):1-4.
[3]戴廣龍,汪有清,張純如,等.保護層開采工作面瓦斯涌出量預測[J].煤炭學報,2007,32(4):382-385.
[4]李勝,寧志勇,朱小強,等.基于灰色理論預測五陽礦未受采動影響煤層瓦斯含量[J].科技導報,2012,30(32):71-74.
[5]梁曉珍,宋存義,王依.唐山礦瓦斯涌出量動態預測模型[J].北京科技大學學報,2012,34(3):260-263.
[6]王曉路,劉健,盧建軍.基于虛擬狀態變量的卡爾曼濾波瓦斯涌出量預測[J].煤炭學報,2011,36(1):80-85.
[7]溫廷新,張波,邵良杉.煤與瓦斯突出預測的隨機森林模型[J].計算機工程與應用,2014,50(10):233-237.
[8]付華,史冬冬.基于IGA-LSSVM的煤礦瓦斯涌出量預測模型研究[J].中國安全科學學報,2013,23(10):51-55.
[9]何利文,施式亮,宋譯,等.回采工作面瓦斯涌出的復雜性及其度量[J].煤炭學報,2008,33(5):547-550.
[10]戴宏亮.小波支持向量回歸在瓦斯涌出量預測中的應用[J].計算機工程與應用,2010,46(7):15-17.
[11]韓俊英,劉成忠.自適應混沌果蠅優化算法[J].計算機應用,2013,33(5):1313-1316.
[12]周松林,茆美琴,蘇建徽.基于主成分分析與人工神經網絡的風電功率預測[J].電網技術,2011,35(9):128-132.
[13]李勝,韓永亮.基于MFOA-SVM露天礦邊坡變形量預測研究[J].中國安全生產科學技術,2015,11(1):11-16.
[14]楊書佺,舒勤,何川.改進的果蠅算法及其在PPI網絡中的應用[J].計算機應用與軟件,2014,31(12):291-294.
[15]張少帥,楊勝強,鹿存榮,等.基于瓦斯涌出量預測的近距離煤層群開采順序優化選擇[J].中國安全生產科學技術,2011,7(9):60-63.
[16]徐國祥,楊振建.PCA-GA-SVM模型的構建及應用研究[J].數量經濟技術經濟研究,2011(2):135-147.