劉永紅 屈希峰



隧道巖爆一旦發生,破壞力較大,可能傷及人員和設備。傳統隧道巖爆分級:一是通過工程類比、經驗判據;二是利用數值分析,主要有剪切抗壓強度比法、應力比法、臨界深度法等。文章旨在研究國內外22個項目104組巖爆分級數據,通過機器學習LGBM分類算法預測隧道巖爆分級。該分析方法可用在其他室內試驗或監測檢測領域,為工程決策提供依據。
隧道; 巖爆分級; 機器學習; LGBM算法
U456.3+3B
[定稿日期]2021-06-22
[作者簡介]劉永紅(1979~),男,碩士,高級工程師,從事巖土工程設計與施工工作。
隧道巖爆是隧道掌子面或洞壁在高地應力條件下出現巖塊爆裂、剝落、彈(拋)射、氣浪、發聲甚至產生震動的現象,它是由于原先巖體在三向應力狀態所積蓄的應變能在開挖暴露形成臨空面后,使圍巖失穩,突然瞬間轉換為沖擊動能的地質災害,破壞力較大,可能傷及人員和設備[1]。
2009年11月28日四川涼山州冕寧錦屏水電站發生巖爆坍塌事故,造成多人死亡,數億元人民幣的經濟損失[2];2014年3月9日,云南貢山縣獨龍江公路隧道內發生因巖爆造成的巖石結構坍塌風險事故,3名施工管理人員不幸被墜落的巖石砸中遇難[3];2015年5月31日,巴基斯坦NJ水電站引水隧洞發生巖爆,造成TBM嚴重損壞、3人死亡17人受傷[2].隨著埋深的增加和應力水平的增高,地下工程巖爆呈頻發趨勢[3]。
傳統隧道巖爆分級:一種方法是通過經驗判據、工程類比;二是利用數值分析,主要有剪切抗壓強度比法、應力比法、臨界深度法等。隨著數據挖掘技術和深度學習技術的不斷發展,全面考慮多個影響因素的非線性巖爆預測方法取得了良好的預測效果,是一種值得研究、推廣的方法[4]。
本文通過研究天生橋二級水電站、龍羊峽水電站、李家峽水電站、挪威Sewage隧道、意大利Raibl鉛硫化鋅礦、秦嶺隧道、江邊水電站、金川二礦、馬路坪礦、北洺河鐵礦、錦屏二級電站、蒼嶺隧道、二郎山隧道等22個工程,共104組巖爆分級數據,通過機器學習LGBM分類算法預測隧道巖爆分級。
1 數據描述
本次所采用的數據主要由4個參數組成每組數據,分別為:X1隧道巖石最大切向應力與巖石單軸抗壓強度之比σθ/σc;X2巖石單軸抗壓強度與單軸抗拉強度之比σc/σt;X3彈性能量指數Wet;X4爆烈分級。巖爆可分為4個等級,輕微巖爆(Ⅰ級)、中等巖爆(Ⅱ級)、強烈巖爆(Ⅲ級)和極強巖爆(Ⅳ級)。
巖爆的發生是多因素導致的,但是從根本上來講,巖體的內部因素與外部條件決定了巖爆的發生。其中,內部因素是指巖體本身的巖石力學性質,包括巖體自身的脆性、巖石的抗壓強度和儲存彈性能等因素;外部條件是指巖體工程的整體地質環境以及環境的變化,如工程圍巖的地應力水平和工程開挖方法等因素(表1、表2)。
從表2檢測結果整體描述可以看出該數據集無缺失值以及各數據的分布范圍。
2 特征重要性分析
2.1 特性向量相關性
在統計分析中,會用到相關系數進行表達,常用的相關系數有3種:Pearson相關系數、Spearman相關系數和Kendall相關系數。其中,Pearson相關系數是英國統計學家皮爾遜于20世紀提出的一種計算直線相關的方法,按照線性代數學水平理解,可以看做是兩組數據的向量夾角的余弦,計算如式(1)所示。
ρx,y=cov(X,Y)σxσy=EX-μxY-μyσxσy
=E(XY)-E(X)E(Y)EX2-E2(X)EY2-E2(Y)(1)
r通常表示樣本相關系數,希臘字母ρ用于表示總體參數。相關系數的取值范圍為(-1,1),相關系數的正負號表示相關的方向,相關系數的含義理解如下:
(1)正值表示正相關,負值表示負相關,絕對值表示相關的程度。
(2)越接近1,表明兩個變量相程度越高。
(3)r=1為完全正相關,r=-1為完全負相關,r越接近0,表明兩個變量相關程度越低,r=0為零相關。
經計算分析,與隧道巖爆分級相關因素之間的相關性如圖1所示。
根據圖1可以看出,X1與X3呈正相關;X2與X3呈負相關。假定巖石單軸抗壓強度為定值,圍巖最大切向應力越大,X1越大,即X3彈性能量指數越大;單軸抗拉強度越小,X2越大,X3彈性能量指數越小。這些規律與巖爆多發生在高地應力區硬質巖中的常識是一致的。
2.2 特征重要性排行
為進一步分析各因素對的影響程度,對各特征向量的重要性進行排行,如圖2所示。
根據圖2,可以看出對于巖爆分級的影響X1>X3>X2,硬質巖在高賦能下,開挖出現臨空面,在剪應力(切向應力)作用下,極易發生巖爆。
3 LGBM回歸分析
3.1 LGBM計算原理
LGBM在原理上與GBDT及XGBoost類似,都是利用損失函數的負梯度作為當前決策樹的殘差逼近來擬合新的決策樹。LGBM采用histogram算法,Histogram算法的基本思路是先把連續的浮點特征值離散化成k個整數,同時構造一個寬度為k的Histogram。在遍歷數據的時候,根據離散化后的值作為索引在Histogram中累積統計量,當遍歷一次數據后,Histogram累積了需要的統計量,然后根據Histogram的離散值,遍歷尋找最優的分割點[7]。
假設訓練集中有n個實例x1,…,xn。每次梯度迭時,模型分析數據研究變量的損失函數的負梯度發展方向可表示為g1,…,gn,決策樹通過一個最優分割點(最大信息系統增益點)將數據分到各個不同節點[6]、[8]。GBDT通過分割后的方差來度量信息增益,例如O表示一個固定節點的訓練集,d表示特征j的分割,定義為:
Vj|O(d)=1nO∑xi∈O:xij≤dgi2njl|O(d)+∑xi∈O:xij>dgi2njr|O(d)(2)
式中:nO=∑Ixi∈O,njlo=∑Ixi∈O:xi≥d,njr|O=∑Ixi∈O:xi>d
遍歷每個特征的每個分裂點,找到dj=argmaxdVj(d),并計算得到最大的信息系統增益Vj(dj),然后,將數據可以根據不同特征j的分裂點dj將進行數據分到左右子節點[5]。
3.2 LGBM訓練分類
本文分析使用Python語言,安裝LGBM庫,在Jupyter Notebook中加載數據進行分析[10]。
圖3中,y軸1~4分別對應巖爆分級Ⅰ~Ⅳ,y軸分別為精確率(Precision)、召回率(Recall)、F1分數、每行標簽出現的次數(support)。由于訓練數據相對較少,模型整體得分71.5。
在分類模型混淆矩陣中T、F、P、N的含義:T真,F假,P陽性,N陰性。其兩兩組合后,TP:預測為1,實際為1,預測正確;FP:預測為1,實際為0,預測錯誤;FN:預測為0,實際為1,預測錯誤;TN:預測為0,實際為0,預測正確[9]。
精確率(Precision)=TPTP+FP(3)
召回率(Recall)=TPTP+FN(4)
精確率和召回率以稱為查準率和查全率,通常情況下,根據他們發展之間的平衡點,定義進行一個新的指標:F1分數。F1評分兼顧了精確率和召回率,讓兩者同時達到最高水平,取得平衡。
F1=21Precision+1Recall(5)
3.3 模型測試
隨機選擇10行數據進程測試,用機器學習訓練好的模型進行預測,結果見表3。
4 結論
(1)巖石切向應力與蓄能指數正相關,在工程中通過超前鉆孔注水,提前釋放巖石中蓄積的能量,可以有效降低巖爆發生的風險。
(2)單軸抗拉強度與蓄能指數負相關,也就是說硬巖抗拉強度越小,巖爆的風險越大。
(3)數據集樣本數量偏少,在實踐中需要繼續搜集相關數據,以提高預測的準確度。
(4)本文的分析方法可用在其他室內試驗或監測檢測領域,為決策提供依據。
參考文獻
[1] 馮夏庭,陳炳瑞,張傳慶,等.巖爆孕育過程的機制、預警與動態調控[M].北京:科學出版社,2013.
[2] Feng X T.Rockburst: Mechanism,Monitoring,Warning and Mitigation[C] Elsevier - Health Sciences Division,2017.
[3] 中新網云南頻道.近期隧道坍塌事故匯總[OL].[2014-09-16].http://www.yn.chinanews.com/pub/html/spe-cial/2014/0916/20967.html.
[4] 王超,李岳峰,張成良.基于大樣本數據挖掘分析的巖爆烈度分級預測模型[J].昆明理工大學學報: 自然科學版,2020,45(1):26-31.
[5] 李航.統計學習方法.清華大學出版社,2012.
[6] 盧錦玲,郭魯豫,張夢雪,等.基于MGS-LGBM算法的電力系統暫態穩定評估[J].電力科學與工程,2020(3):1-9.
[7] 張旭東,錢仲文,沈思琪,等.一種基于LSTM與LGBM的電力負荷預測算法[J].系統工程,2019,37(1):152-158.
[8] 王向鵬. 基于不平衡三分類LGBM模型的貸后風險預警研究[D].蘭州:蘭州大學,2019.
[9] 唐華松,姚耀文.數據挖掘中決策樹算法的探討[J].計算機應用研究,2001,18(8):18-19.
[10] XGBoost:A Scalable Tree Boosting System. Chen T,Guestrin C. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . 2016.
2166500520339