999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進XGBoost的地震多屬性地質構造識別方法

2023-11-06 12:04:40楊楚龍王懷秀劉最亮
科學技術與工程 2023年29期
關鍵詞:特征模型

楊楚龍, 王懷秀*, 劉最亮

(1.北京建筑大學電氣與信息工程學院, 北京 102616; 2.華陽新材料科技集團有限公司, 陽泉 045000)

煤炭在現在以及將來很長一段時間仍為中國的最主要能源來源,是中國賴以生存和發展的物質基礎[1]。進入21世紀以來,大型化和向深處掘進成為煤礦的發展趨勢,許多煤礦的地質條件處于不穩定狀態,而煤礦的地質構造會引起礦井突水、瓦斯爆炸、塌方等一系列安全問題[2-4]。地質構造的存在嚴重威脅著礦井生產的安全,為此急需解決地質構造位置的預測,為提高煤炭的產量和保證煤礦安全提供有力的支持[5]。地震屬性可以用來預測地質構造,而這些地震屬性可以從三維地震勘探成果數據體中提取出來[6-7]。地震數據經過一系列數學變換和處理,從中可以提取出關于地震波的幾何屬性、動力學屬性、運動學屬性和統計學屬性,這些屬性就稱之為地震屬性。地震屬性經提取后對其進行分析利用,最后用來預測[8]。礦井中的地質情況十分復雜,影響地質構造的因素眾多,利用單一的地震屬性往往不能夠準確地識別出構造,因此利用地震多屬性融合技術十分有必要。

地震屬性的研究早在20世紀90年代就開始了,何隆運[9]于1992年將波形合成追蹤法融合地質屬性,該方法建立了地震信息與地質信息間的對應關系,并利用此對應關系解決了許多復雜的地質問題,取得了良好的地質勘探成果。進入21世紀以來,隨著機器學習和人工智能的蓬勃發展,地震多屬性融合技術與各種算法的結合更加緊密。金龍等[10]將支持向量機(support vector machine,SVM)應用于地震屬性融合,SVM是一種理論基礎嚴密、魯棒性強的機器學習算法,但是其在解決大數據量樣本以及多分類問題上具有一定的局限性。丁峰等[11]用主成分分析(principal component analysis,PCA)根據主分量對多個地震屬性進行排序,取前3個主分量進行RGB顏色融合,該方法可在一定程度上提高地震屬性分析的效率。但是PCA屬于“有損失”壓縮,會損失一些有用的信息。楊久強等[12]把深度神經網絡應用于地震屬性的融合中,深度神經網絡一般含多個隱藏層,理論上可以模擬任何的復雜函數,對模型的擬合能力十分強大,但是其容易出現過擬合、梯度爆炸的問題。上述研究雖然取得了一定的成果,但是仍然存在著屬性選擇較為單一、不能全面反映地質構造特征的問題。

在大數據時代,各行各業都面臨著海量的數據,但是這些數據大部分都存在類別不均衡的問題。面對此類問題,傳統的分類算法會自動地忽略少數類,并把少數類樣本歸類到多數類樣本中以提高分類準確率[13]。例如,在二分類問題中,多數類樣本的比例為98%,少數類樣本的比例為2%,分類器即使把任意樣本都預測為多數類,該分類器的準確率都可以達到98%。該分類器會導致大量的少數類被分為多數類,這種情況在一些特殊應用場所會造成嚴重后果。例如在醫院的癌癥診斷中,正常病例占大多數,而真正的病例只占少數,醫生關心的是怎么把這些真正的病例識別出來,在這種情況下把真正病例判斷為正常病例的代價非常大。類似的情況在電信詐騙檢測、煤礦地質構造識別中也很常見。

在實際礦區中,構造體只占礦區的極少數部分,礦區大部分區域都為無構造,而目前關于地質構造識別的研究大都沒有考慮這一因素。因此,在不平衡數據的情況下識別構造體具有重要的現實意義。

為了克服上述問題,現提出一種基于邊界樣本分類算法(boundary sample classification,BSC)的合成少數類過采樣技術(synthetic minority over-sampling technique,SMOTE)算法BSC-SMOTE。BSC-SMOTE算法把處于正負樣本邊界的樣本進行分類,只對“邊界樣本”進行合成,有效地避免正負樣本邊界模糊的問題。再用平衡后的數據集訓練極限梯度提升(extreme gradient boosting,XGBoost)分類器,并使用貝葉斯優化(Bayesian optimization,BO)算法對該分類器進行超參數尋優,最后使用優化后的XGBoost分類器對構造體進行識別。

1 方法原理及其改進

1.1 SMOTE算法原理及其改進

合成少數類過采樣技術(SMOTE)[14]是由Chawla等于2002年提出的,該算法的提出主要是為了改進隨機過采樣的弊端。隨機過采樣在合成新的少數類樣本時,只是簡單的對樣本進行復制,這種簡單的隨機復制容易導致算法模型過擬合,不利于模型的泛化能力。而SMOTE算法不是對少數類樣本進行簡單的復制,而是根據一定的規則合成新的少數類樣本。但是SMOTE在生成新樣本時容易受樣本集分布的影響,容易發生分布邊緣化的問題,模糊樣本的邊界,如表1所示。

表1 SMOTE算法Table 1 SMOTE algorithm

SMOTE過采樣的主要思想是:對樣本集中每一個少數類樣本Xi,計算其到其他所有少數類樣本的歐式距離,然后對這些距離按從小到大的順序進行排序,找出與其最近的K個樣本,最后按照式(1)對該樣本Xi與其K近鄰Xk進行插值處理生成新的少數類樣本Xnew,其中rand(0,1)表示0~1的隨機數。SMOTE算法合成少數類的示意圖如圖1所示。

圖1 SMOTE示意圖Fig.1 Schematic diagram of SMOTE

Xnew=Xi+rand(0,1)|Xi-Xk|

(1)

SMOTE在生成新樣本時容易受樣本集分布的影響,發生分布邊緣化的問題。對處于多數類樣本與少數類樣本分界處的少數類樣本,在其選擇K近鄰樣本時,這些鄰居樣本也分布在邊界上,因此插值產生的新樣本也處于邊界上,反復迭代產生的新樣本會模糊邊界。極端情況下,如果有少數類樣本分布于多數類樣本之中,那么由它合成的新樣本也會落在多數類樣本之中。在這種情況下,樣本集雖然得到了平衡,但是無形中給模型的分類增加了難度。

針對SMOTE算法容易模糊邊界的問題,提出了基于邊界樣本劃分的BSC-SMOTE算法,該算法強化了邊界的界限,使之更有利于算法的分類,如表2所示。該算法的主要思想是:對樣本集中每一個少數類樣本Xi,計算其到其他所有樣本的歐式距離,然后對這些距離按從小到大進行排序,找出與其最近的K個樣本,如果其K個最近鄰中全部為多數類樣本則將此少數類樣本劃分為噪聲樣本,如果其K個最近鄰中有一半以上為多數類則將此少數類樣本劃分為邊界樣本,如果其K個最近鄰中有一半以上為少數類樣本則將此少數類樣本劃分為安全樣本。最后,只對邊界樣本按照式(1)進行插值處理,對安全樣本和噪聲樣本不做處理。BSC-SMOTE算法合成少數類的示意圖如圖2所示。

表2 BSC-SMOTE算法Table 2 BSC-SMOTE algorithm

圖2 BSC-SMOTE示意圖Fig.2 Schematic diagram of BSC-SMOTE

1.2 XGBoost算法

在解決不平衡數據的分類問題時,通常有兩種解決思路[15],一種是對數據集進行平衡,使得改造后的數據集均衡;另一種思路是對算法層面進行一些改進,例如使用集成學習算法。

XGBoost的全稱為extreme gradient boosting,可翻譯為極限梯度提升算法,是集成算法的一種。XGBoost是由陳天奇等[16]于2016年所提出的,自XGBoost提出以來,各種機器學習競賽均由XGBoost算法所統治。XGBoost具有運行速度快,同時支持分類和回歸、精度高、擁有正則化、防止過擬合等優點。XGBoost是在梯度提升樹(gradient boosting decision tree,GBDT)的基礎上進行改進的,GBDT只使用了一階導數信息,XGBoost在GBDT的基礎上還使用了二階導數信息,并且XGBoost可以自己定義代價函數,其代價函數引入了正則項用于控制模型的復雜度,使XGBoost學習出來的模型更簡單,泛化性能更高。其主要思想為:先訓練一棵樹,得到預測結果,把預測值和真實值的差值記作殘差,用殘差代替真實值。然后在第一棵樹的基礎上訓練第二棵樹,得到第二棵樹的殘差,用殘差代替真實值,以此類推直到第K棵樹,最后把K棵樹的預測值加起來得到最終結果。

XGBoost是由k個基分類器集成的一個分類器,例如第t次迭代的樹模型是ft(xi),有

(2)

(3)

表3 XGBoost常用超參數Table 3 XGBoost common hyperparameters

用BSC-SMOTE算法平衡后的數據集訓練XGBoost分類器,得到BSC-SMOTE-XGBoost模型。

1.3 貝葉斯優化算法

貝葉斯優化(BO)是一種全局優化算法,具有高效性和魯棒性的優點,能夠在非常少的采樣次數下快速找到全局最優解,因此被廣泛地運用在超參數優化、機器學習模型優化、神經網絡結構搜索等領域。貝葉斯優化算法的原理是通過貝葉斯公式,將先驗分布和觀測數據結合起來,計算后驗分布,并不斷更新后驗分布,最終找到全局最優解[17]。貝葉斯公式為

(4)

式(4)中:f為待優化的函數;D為已知數據;P(f|D)為已知數據D的情況下,待優化函數f的后驗概率;P(D|f)為函數f的似然函數,表示在函數f下,數據D出現的概率;P(f)為先驗概率,表示對函數f的先驗分布的假設;P(D)為歸一化因子,用于將后驗概率歸一化為概率分布。通過最大化后驗概率P(f|D),可以找到最優函數f*。在每次迭代中,貝葉斯優化算法使用已知的數據D來更新函數f的后驗概率分布,然后根據后驗概率分布選擇下一個函數參數進行評估。這個過程不斷迭代,直到找到最優的函數參數。

用貝葉斯優化算法對所得到的BSC-SMOTE-XGBoost模型進行超參數尋優得到BO-BSC-SMOTE-XGBoost模型,其中待優化函數f為XGBoost的目標函數obj。找到最優函數f*就找到了XGBoost的最優超參數組合。

2 地震屬性融合與篩選

2.1 數據獲取與分析

地震屬性可以用來解釋與預測地質構造,因此地震屬性被廣泛地運用在煤礦地質構造的識別。以山西新元煤礦三維地震勘探成果數據體為基礎,提取出12種地震屬性。這12種地震屬性分別為:傾角、最小振幅、最大振幅、瞬時相位、瞬時頻率、均方根振幅、方差體、相干體、曲率、主頻、瞬時振幅和平均能量。這12種地震屬性的最大值、最小值和平均值如表4所示。可知,各個屬性之間極差以及平均值差異較大,加上各屬性的量綱不同,如果直接對這些屬性進行融合,各個屬性之間的差異會影響最后數據融合的效果。為了消除各個地震屬性之間的差異,就需要對屬性進行數據標準化處理。采用離差標準化消除各個屬性之間量綱的差異,并把各個屬性通過線性變換映射到[0,1]。離差標準化的轉換公式為

表4 地震屬性的數據分布情況Table 4 Data distribution of seismic attributes

(5)

式(5)中:x為原始屬性的值;min(x)為屬性最小值;max(x)為屬性最大值;x*為標準化后的屬性值。

以經過標準化處理后的12種地震屬性作為數據集的特征,以山西新元煤礦有限公司前方實際揭露的地質構造作為數據集的標簽,由此構成數據集的特征和標簽。數據集的標簽為3類:無構造(標簽記為0)、陷落柱(標簽記為1)、斷層(標簽記為2)。其中斷層破壞了煤巖體內部應力場的初始平衡狀態,使煤層發生滑動位移,大規模的斷層會造成煤礦停產和工作面搬家,甚至會造成透水、瓦斯突水等安全問題[18]。陷落柱會影響煤層分布的連續性及穩定性,同時陷落柱會對工作面的布置和推進產生巨大影響,導致工作面的開采效率大幅降低[19]。通過對礦方提供的數據進行分析,發現已揭露的礦區中,無構造區域占絕大多數,而斷層和陷落柱只占一少部分。新元煤礦已揭露礦區數據分布情況如表5所示。

表5 已揭露礦區數據分布Table 5 Data distribution of exposed mining areas

由表5可知東翼勘探區無構造標簽數最多,數據的不平衡程度最高,且斷層和陷落柱較為發育,具有一定的典型性,故選取東翼勘探區作為研究區域。

2.2 地震屬性優選

在選擇特征時,如果特征選擇偏少,模型學習不到足夠的信息,會影響模型的效果。如果特征選擇過多,其中可能存在著噪聲,也不利于模型的學習。特征重要性是用來描述特征對于標簽的重要性,特征重要性越大表明特征對于標簽的貢獻越大,反之特征對于標簽的貢獻越小。互信息法是一種用來衡量特征與標簽相關性的過濾方法,互信息法既可以用于回歸也可以用于分類,它的返回值在0~1,返回0證明特征與標簽不相關,返回1證明特征與標簽完全相關。互信息的計算公式為

(6)

式(6)中:X和Y為兩個隨機變量;x為隨機變量X可能取的值;y為隨機變量Y可能取的值;X和Y的邊緣分布分別為p(x)與p(y),聯合概率分布為p(x,y)。利用互信息法計算特征與標簽之間的關系如圖3所示。

圖3 特征相關性Fig.3 Feature correlation

如圖3所示,所有的特征對于標簽的相關性都大于0,證明所有的特征都與標簽相關,其中瞬時振幅與標簽的相關性最大為0.141。但曲率、均方根振幅等特征與標簽的相關性比較低,為了找出真正對算法模型有效的特征,以特征相關性為變量畫出學習曲線。首先以0~0.141為特征相關性的范圍畫出學習曲線,如圖4所示,可以看出,當特征相關性閾值設為0.10左右時,分類算法的準確度可以達到最高。

圖4 大范圍學習曲線Fig.4 Large scale learning curve

進一步縮小閾值范圍,以0.09~0.11為范圍畫出學習曲線如圖5所示。

圖5 小范圍學習曲線Fig.5 Small range learning curve

從圖5可以看出,當特征相關性為0.102 5時,算法準確率達到最高,所以設置特征相關性閾值為0.102 5,即只保留相關性大于等于0.102 5的特征,小于0.102 5的特征全部舍去。通過屬性篩選,最后只保留了瞬時振幅、平均能量、最小振幅、主頻、瞬時相位和最大振幅這6個特征。

3 實驗驗證與分析

3.1 評價指標

通常情況下,分類器性能的好壞可以使用準確率(accuracy)作為評價指標,但是在數據集不平衡的情況下,單純比較分類器準確率的高低沒有太大的意義。因為準確率把多數類分類錯誤的代價和少數類分類錯誤的代價沒有區分開,顯然把少數類分類錯誤的代價比把多數類分類錯誤的代價要大。此時可以使用精確率(precision)、F1(F1score)和召回率(recall)這些更加科學的指標來評價模型,這些指標都是建立在混淆矩陣的基礎上,混淆矩陣如表6所示。

表6 混淆矩陣Table 6 Confusion matrix

精確率的定義是所有預測為正類的樣本中真正是正類的比例,其計算公式為

(7)

召回率的定義是所有正確預測為正的樣本占所有實際為正的比例,其計算公式為

(8)

F1同時兼顧了精確率和召回率,是兩者的調和平均值,F1的值越大表示分類器越有效,其計算公式為

(9)

3.2 模型構建

首先把東翼勘探區數據集按照7∶3分成訓練集和測試集,對訓練集運用BSC-SMOTE算法進行平衡,然后用平衡后的訓練集訓練XGBoost,再用貝葉斯優化算法對XGBoost進行超參數尋優,最終形成了BO-BSC-SMOTE-XGBoost模型。貝葉斯優化算法尋優的過程和模型訓練過程如圖6和圖7所示。

圖6 貝葉斯優化過程Fig.6 Bayesian optimization process

圖7 模型訓練過程Fig.7 Model training process

如圖6所示,當迭代次數為30次時,模型取得了最小誤差值,即XGBoost的目標函數obj取得最小值,此時模型對應的超參數為最優超參數組合,并且如圖7所示此時模型的準確率最高,最優參數組合如表7所示。

表7 最優超參數組合Table 7 Optimal hyperparametric combination

將改進后的XGBoost算法與KNN、隨機森林,SVM以及未改進的XGBoost算法進行對比,對比結果如表8所示。

表8 算法對比(東翼)Table 8 Algorithm comparison (Dongyi)

通過實驗對比發現,提出的改進XGBoost算法在精確率、召回率、F1均有明顯的提升,改進XGBoost算法模型的預測精確度為0.95,比未改進的XGBoost算法提高了0.16,比KNN、隨機森林和SVM等傳統算法提高了0.15以上。把算法模型獲取的模型參數應用于東翼勘探區,得到東翼勘探區構造預測結果,并把預測結果經軟件可視化得到如圖8所示的預測構造圖。經過與東翼實際揭露構造(圖9)對比,可以發現預測構造的數量與實際構造的數量基本相同,且預測構造的坐標與實際構造的坐標吻合,說明本文算法模型能夠克服類別不平衡的影響,較為精確地識別出地質構造。

淺藍色區域為開采的范圍;紅色區域為陷落柱;深藍色區域為斷層

棕色線條為開采的巷道;紅色線條圍成的區域為陷落柱;藍色線條圍成的區域為斷層

4 結論

為研究不平衡數據條件下的地質構造體識別的問題,通過理論分析與實例驗證。得出以下結論。

(1)煤礦的地質構造體(斷層,陷落柱)是造成煤炭減產,煤礦事故頻發的因素之一,預測煤礦的地質構造體具有重要的現實意義。通過對三維地震勘探成果數據體的地震屬性進行融合分析后可以用來預測構造體。

(2)在眾多地震屬性中,不是所有的地震屬性都對算法模型的構建有用,篩選出與標簽相關的屬性能夠提高模型的準確率和效率。

(3)實際的應用中,構造體的數量只占勘探區的極少部分,這種分布的不均衡會直接影響算法模型的分類性能,可以通過改善這種分布的不均衡來提高模型的分類性能。

(4)XGBoost具有運行速度快,同時支持分類和回歸、精度高、擁有正則化、防止過擬合等特點。貝葉斯優化算法考慮之前的參數信息,不斷地更新先驗,能夠又快又準地找到XGBoost的最佳超參數組合。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 精品久久久久成人码免费动漫 | 欧美日本在线观看| 欧美成在线视频| 亚洲动漫h| 99热国产这里只有精品无卡顿"| 国产麻豆永久视频| 青青草一区二区免费精品| 婷婷色婷婷| 欧美日韩国产成人在线观看| 一级成人a毛片免费播放| 国产亚洲视频免费播放| 欧美人与动牲交a欧美精品| 一级一级一片免费| 一级毛片在线播放免费观看| 亚洲天堂成人在线观看| 国产av无码日韩av无码网站| 色老头综合网| 54pao国产成人免费视频| 伊人国产无码高清视频| 国产99视频精品免费观看9e| 国产理论最新国产精品视频| 国产精品入口麻豆| 欧美综合成人| 国产在线视频导航| 一区二区三区四区精品视频 | 九九久久精品国产av片囯产区 | 亚洲国产中文欧美在线人成大黄瓜 | 3D动漫精品啪啪一区二区下载| 精品国产成人av免费| 91在线播放国产| 国产欧美日韩18| 97亚洲色综久久精品| 亚洲国产亚综合在线区| 亚洲手机在线| 不卡午夜视频| 国产一区二区福利| 无码福利视频| 国产va欧美va在线观看| 国产欧美日韩另类| 亚洲国产午夜精华无码福利| 在线无码av一区二区三区| 中国特黄美女一级视频| 热思思久久免费视频| 久久综合色视频| 一级毛片在线播放| 天天婬欲婬香婬色婬视频播放| 国产免费人成视频网| lhav亚洲精品| 精品伊人久久久香线蕉| 午夜爽爽视频| 国产乱码精品一区二区三区中文 | 久无码久无码av无码| 日韩A∨精品日韩精品无码| 久久人与动人物A级毛片| 亚洲精品爱草草视频在线| 黄色网在线| 中文无码日韩精品| 九九热免费在线视频| 中文字幕人妻无码系列第三区| 岛国精品一区免费视频在线观看 | 日韩欧美中文字幕在线韩免费| 免费日韩在线视频| 亚洲欧美自拍中文| 午夜性爽视频男人的天堂| 伊人中文网| 视频在线观看一区二区| 久久久久久国产精品mv| 欧美一级爱操视频| 中文字幕永久视频| 久久久久久久蜜桃| 夜夜拍夜夜爽| 青青草原国产av福利网站| 久久国产精品夜色| 日韩A级毛片一区二区三区| 污污网站在线观看| 精品自窥自偷在线看| 欧美另类视频一区二区三区| 国产免费看久久久| 一本久道久久综合多人| 国产综合在线观看视频| 国产一级毛片yw| 国产精选自拍|