郭凱維 郭傳超 史耀凡 于 水
(山東科技大學 測繪與空間信息學院, 山東 青島 266590)
煤炭資源的不斷開發能夠帶來巨大的社會經濟效益,但也能夠影響礦區生活環境,為保證煤炭資源開挖帶來的持續效益以及減少煤炭資源開挖帶來的負面影響,條帶開采在我國礦區被廣泛運用。條帶開采通過對煤層采取開采一條、保留一條的方法,使得保留下的煤柱足以支撐上覆載荷,進而有效控制地表沉陷[1],而且不增加或減少正交生產成本,是“三下”(建筑物下、水體下、鐵路下)煤層開采的有效手段之一。條帶開采地表下沉系數是煤層開采地表沉陷預計中的一個重要參數,其取值的準確性會影響到地表移動變形計算和預計分析的精確度[2]。然而,影響地表下沉系數的因素十分復雜,存在著一定的相關性、不確定性以及非線性,難以用數學或力學的方法精確求取。目前,針對地表下沉系數難以求取的特點,眾多學者引入非線性回歸模型。郭文兵等利用BP神經網絡(Back Propagation Neural Network)求取地表下沉系數[3],于寧鋒等建立了粒子群法和向量機法相結合的地表下沉系數預測分析模型[4],趙保成等采用了基于隨機森林算法的地表下沉系數求取方法[5]。條帶開采地表下沉系數存在較多的干擾因素,并且存在冗余信息,直接對初始因素進行算法求取會降低預測模型精度,本文引用主成分分析法對原始數據進行預處理,降低原始數據維度并消除多余信息,進而使得模型網絡結構更加簡化;應用遺傳算法對神經網絡的初始權值與閾值進行優化,防止陷入局部最優值,提高預測準確性。結果表明,利用主成分分析法與GA-BP模型相結合可使預測精度更高,為地表下沉系數的求取提供了又一種方法。
在統計分析多影響因素時,變量之間信息疊加使問題變得更為煩瑣。主成分分析(Principal Component Analysis,PCA)是一種把變量之間互相關聯的復雜性進行簡化的統計分析方法,它能夠在保留原始數據大部分信息的原則下,用較少的主成分對多變量進行最佳簡化[6]。簡言之,通過主成分分析既可以起到“降維”作用,又能保留原數據的大部分信息,便于問題的解決。主成分分析的具體步驟如下[7-8]:
(1)獲取原始數據并對數據進行標準化處理;
(2)由標準化矩陣計算獲得相關系數矩陣,求解相關系數矩陣的特征值和特征向量;
(3)計算主成分貢獻率和累計方差貢獻率,由累計貢獻率達到80%~95%所對應的特征值個數確定主成分個數;
(4)建立主成分因子載荷矩陣,對主成分進行詮釋。由此可得主成分分析的數學模型為
(1)
式中,Zp為原始變量的第p主成分;Xm為原始變量;apm為變量Xm所對應的載荷。
BP神經網絡因其研究起步早、理論完備,是目前應用最為廣泛的多層前饋神經網絡模型之一[9]。BP神經網絡在非線性映射、自適應和自學習能力、泛化和容錯能力等方面有著顯著優勢,被廣泛應用于模式識別、預測評估等多個領域,并取得了許多突出成果[10]。
已有研究證實,一個三層的神經網絡在理論上可以以任意精度與任意的連續函數相擬合。如圖1所示,BP神經網絡是一個含有輸入層、隱含層和輸出層的三層神經網絡[11],其算法的具體步驟如下:

圖1 三層BP神經網絡結構圖
(1)確定學習與測試樣本,并進行歸一化處理,消除數據間數量級的影響;
(2)初始化BP神經網絡的權值與閾值,設置BP網絡誤差平方和;
(3)輸入信號的正傳播與誤差逆傳播;
(4)對權值與閾值進行更新;
(5)判斷BP網絡誤差平方和是否滿足條件。若滿足,則迭代結束;否則,返回第(2)步,重復執行。
遺傳算法(Genetic Algorithm,GA)是一種高效并行的隨機全局搜索和優化算法。遺傳算法具有群體搜索和隨機搜索的特性,不易在尋優過程中陷入局部最優解,它可擴展性高,易于同別的技術相融合,在各個領域中都有著廣泛應用[12]。
遺傳算法的基本思想為:對于一個最優化問題,將問題中的候選解抽象為一個初始種群,借鑒進化生物學中的一些現象,如算法中的選擇、交叉、變異、倒位操作,開始種群的繁衍,根據“優勝劣汰,適者生存”原理,以適應度函數為評價標準,對子代進行篩選,獲取每一代中的最優個體,逐代演化直至產生最優個體。
條帶開采是一種減小地表移動變形造成的地面建筑物破壞的主要開采方法,其地表下沉系數是條帶開采移動變形預計分析的關鍵性參數,大量實測數據與理論研究已經證明,條帶開采地表下沉系數主要與以下因素有關:釆深、采厚、采寬、留寬、松散層厚度、煤層傾角、頂板管理方法等[13]。
由于礦區條帶開采缺少對地表下沉系數影響因素的材料積累,現在僅對釆深、采厚、采寬、留寬、頂板管理方法五個影響因素進行分析。根據有關文獻[14],獲取國內外53個條帶開采實例數據,以此運用“統計產品與服務解決方案”軟件(Statistical Product and Service Solutions,SPSS)進行主成分分析。條帶開采實例數據如表1所示,其中頂板全部垮落時用0表示,進行填充時用1表示。

表1 訓練與預測樣本
KMO(Kaiser-Meyer-Olkin)檢驗值和Bartlett球形度檢驗值用來判斷變量是否可進行主成分分析,當KMO在0.5以上且越接近1時就越適合做主成分分析。Bartlett球形檢驗值小于顯著水平0.05或者0.01時,適合進行主成分分析。由表2可知:KMO>0.5,Sig<0.01。因此該例中各變量之間的相關性較大,存在信息重疊,符合降低數據維數的要求,可以用較少的主成分來代替較多的原始變量。

表2 KMO和Bartlett球形檢驗結果
主成分個數的選取可根據相關系數陣或協方差陣的特征值來確定。方差是各個變量數據所含有的信息重要判據之一,而在主成分分析中,相關系數陣或協方差陣的特征值與主成分的方差相等。由特征值決定主成分的數目的準則:特征值大于1;累計貢獻率大于85%;由表3所示,根據累計貢獻率大于80%準則可以得到該例的主成分個數為2。

表3 特征值貢獻率
由表4中主成分系數可得主成分表達式為:
F1=0.567X1+0.158X2+0.551X3+0.581X4+0.114X5
F2=0.068X1+0.671X2-0.214X3-0.179X4+0.683X5
(2)
利用主成分表達式F1、F2計算標準化后的數據,將原始數據的5維變為2維,起到了降維作用,對改進BP神經網絡的數據輸入進行了簡化處理。

表4 主成分系數
BP神經網絡在非線性映射和容錯能力等方面有著一定的優勢,但在權值和閾值的初始優化方面缺陷較大,導致預測不夠準確,為了克服這一缺陷,利用遺傳算法在隨機全局尋優中難以陷入局部最優解的優勢,對BP神經網絡的權值和閾值進行初始優化處理,提高BP神經網絡預測未知樣本的準確度。
利用遺傳算法改進的BP神經網絡簡稱為GA-BP模型,其主要思路包括BP神經網絡結構的確定、遺傳算法優化初始權值與閾值、模型預測[15-17],其計算流程如圖2所示。采用MATLAB軟件對基于主成分分析的GA-BP模型進行編程實現,以表1中的前45組數據為訓練樣本,后8組數據為預測樣本。

圖2 GA-BP神經網絡流程圖
為了進一步分析GA-BP模型的預測效果,構建了傳統BP神經網絡模型與PCA-BP模型,開展了三種模型用于條帶開采地表下沉系數預測的性能對比研究。根據選取的參數,在MATLAB中進行仿真模擬獲得輸出結果,通過分析輸出結果和實際測量值之間的誤差是否滿足要求來對比模型的預測效果及驗證模型的精度與可靠性。不同模型的預測輸出結果如圖3所示,不同模型誤差如表5所示。

圖3 不同模型的仿真預測結果

表5 模型誤差
由圖4可知,三種模型均能較好地擬合真實值,但PCA-GA-BP模型的擬合效果要優于其他模型,更為接近真實值。表5表明,BP神經網絡模型的相對誤差均值為19.108%,PCA-BP模型的相對誤差均值為9.973%,這說明主成分分析降低了原始數據維度,消除了原始數據的冗余性,使得PCA-BP模型有著更好的預測精度。PCA-GA-BP模型的相對誤差均值為4.020%,預測精度遠高于BP模型,優于PCA-BP模型,這說明該模型的預測值與實測真實值更為吻合,精度更高,為求取地表下沉系數提供了一種準確可行的方法。
由上述分析可知,GA-BP模型的預測效果與現場實測值更為吻合,可靠性高。現利用該模型進行條帶開采優化設計,以優化條帶開采尺寸為例,保持其他開采條件(釆深、采厚、采出率等)不變,通過比較不同采寬與留寬下的地表下沉系數來獲得最佳的采寬與留寬。
以某礦區為例。該礦區煤層屬于近水平煤層,平均釆深為960 m,采厚為1.95 m,用全部垮落法管理頂板。固定采出率為50%,根據礦區開采情況選取不同的開采方案,開采方案與相應的預測參數如表6和圖4所示。

表6 下沉系數預測結果

圖4 不同方案的下沉系數
以條帶開采地表下沉系數最小為原則進行條帶開采優化設計,由計算結果可知,當采出率固定為50%時,方案3的地表下沉系數最小,能夠更有效地減少地表移動變形,降低地表建筑物的破壞程度。
用SPSS20軟件對原始數據進行主成分分析,數據維數由五維變為兩維,起到了降維作用,簡化了模型的輸入參數。同時,在保留了原始數據的大部分信息的基礎上,消除了各變量之間的相互影響,有利于提高模型預測的訓練效率與精度。
基于主成分分析,構建了預測條帶開采地表下沉系數的GA-BP模型。與傳統的BP神經網絡模型及PCA-BP模型相對比,由預測誤差分析可知,基于主成分分析的GA-BP模型預測精度可達到3%,遠優于其他模型,因此,具有更高的利用價值。利用該模型進行了條帶開采優化設計,通過對比不同的采寬與留寬,在保證地表下沉系數最小的前提下,獲得最優的采寬與留寬,這對優化條帶開采尺寸起著重要的參考作用。
模型的預測精度受樣本容量的影響很大,又因為地表下沉影響因素的實測數據缺乏,所以該模型的預測精度有待進一步提高。隨著煤礦開采資料的積累,該模型的預測結果將更為可靠,利用價值也有著更高的提升空間。