熊玖琦, 劉星
(安徽理工大學(xué)地球與環(huán)境學(xué)院, 淮南 232001)
為發(fā)展智能化煤礦建設(shè)進(jìn)程,必須解決地質(zhì)條件的透明化問(wèn)題,以確保采掘過(guò)程的可視、可控和可預(yù)[1]。三維地質(zhì)建模是實(shí)現(xiàn)地質(zhì)數(shù)據(jù)可視化、地質(zhì)空間分析以及透明地質(zhì)的關(guān)鍵技術(shù)[2-3]。由于地質(zhì)構(gòu)造錯(cuò)綜復(fù)雜及地下空間可見(jiàn)性低,目前主要采用鉆探、地震勘探、電法探測(cè)等方法獲取地下空間構(gòu)造數(shù)據(jù)。根據(jù)建模過(guò)程是否以數(shù)學(xué)模型為核心過(guò)程,主要將建模方法分為顯式建模和隱式建模[4]。針對(duì)隱式三維地質(zhì)建模,郭甲騰等[5]使用徑向基函數(shù)對(duì)礦體進(jìn)行隱式自動(dòng)三維建模方法,Zhong等[6]融合地質(zhì)規(guī)則約束對(duì)復(fù)雜礦體進(jìn)行隱式建模,王博等[7]使用自動(dòng)化提取與量化地層特征參數(shù)實(shí)現(xiàn)地質(zhì)體隱式建模。近些年來(lái),將傳統(tǒng)地學(xué)與移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能技術(shù)相融合也正在推進(jìn)地質(zhì)調(diào)查工作的發(fā)展,并且將人工智能核心的機(jī)器學(xué)習(xí)與地質(zhì)工作結(jié)合也成為近期研究的熱點(diǎn)[8]。杜炳毅等[9]建立了基于機(jī)器學(xué)習(xí)應(yīng)用地震數(shù)據(jù)識(shí)別復(fù)雜儲(chǔ)層微小斷裂系統(tǒng),向杰等[10]應(yīng)用機(jī)器學(xué)習(xí)算法準(zhǔn)確的預(yù)測(cè)出成礦產(chǎn)量,李昊陽(yáng)[11]將機(jī)器學(xué)習(xí)與地質(zhì)統(tǒng)計(jì)學(xué)相結(jié)合,使得建模結(jié)果與地質(zhì)資料更加符合。現(xiàn)將機(jī)器學(xué)習(xí)與地質(zhì)建模工作相結(jié)合,先構(gòu)建地質(zhì)體SGrid柵格模型,將建模問(wèn)題轉(zhuǎn)換為柵格單元的屬性分類(lèi)問(wèn)題,通過(guò)機(jī)器學(xué)習(xí)算法根據(jù)已知地質(zhì)數(shù)據(jù)預(yù)測(cè)柵格單元的地層類(lèi)別得到地層界線清晰的三維模型,并將該建模方法應(yīng)用于顧北煤礦北一礦區(qū)的三維模型構(gòu)建,為礦區(qū)的災(zāi)害防治、區(qū)域治理等工作提供參考依據(jù)。
顧北煤礦隸屬于安徽省淮南市,位于淮南煤田中部,潘集背斜西部與陳橋背斜東翼的銜接帶,總體呈南北走向、向東傾斜的單斜構(gòu)造形態(tài),地質(zhì)比較平緩,5°~15°傾角。據(jù)鉆孔揭露,地層由新到老依次為第四系(Q)、二疊系(P)、石炭系(C)、奧陶系(O)及寒武系,由于研究區(qū)范圍廣,數(shù)據(jù)量龐大,選取顧北煤礦北一礦區(qū)進(jìn)行隱式三維地質(zhì)建模,該礦區(qū)主要涉及四條勘探線、共有23個(gè)鉆孔勘探點(diǎn),總面積10.08 km2,不含斷層、褶皺等復(fù)雜地質(zhì)構(gòu)造,研究區(qū)鉆孔二維分布如圖1所示及三維顯示如圖2所示,從二維分布圖可以看出鉆孔在礦區(qū)內(nèi)呈分散分布,提取的鉆孔數(shù)據(jù)對(duì)該礦區(qū)地層劃分具有一定代表性,從三維顯示圖可以看出鉆孔揭露地層分層良好,地層層序能夠清楚劃分。

圖1 研究區(qū)鉆孔二維分布圖Fig.1 Two-dimensional distribution map of boreholes of study area

圖2 研究區(qū)鉆孔三維顯示圖Fig.2 Three-dimensional display of boreholes of study area
支持向量機(jī)[12](support vector machine,SVM)是一種基于統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)算法,將輸入向量通過(guò)預(yù)先提供的非線性關(guān)系映射到更高維的空間,并尋找一個(gè)最優(yōu)超平面進(jìn)行分類(lèi),使得不同類(lèi)別之間的分類(lèi)間隔最大。考慮一個(gè)線性分類(lèi)器y=sign(wT+b),簡(jiǎn)稱(chēng)(w,b),訓(xùn)練樣本集D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{-1,+1}。為了評(píng)估分類(lèi)與數(shù)據(jù)的適合度,可以使用鉸鏈損耗,即

(1)
從xi到超平面wTxi+b歐氏距離為

(2)
式中:w為超平面的法向量;b為超平面的截距。


(3)
s.t.yi(wTxi+b)≥1-ξi, ?i=1,2,…,m)
ξi≥0, ?i=1,2,…,m
式(3)中:C為一個(gè)參數(shù);ξi為松弛變量。
本文中三維地質(zhì)建模方法,規(guī)避地質(zhì)數(shù)據(jù)有限的客觀因素和傳統(tǒng)建模方法專(zhuān)家經(jīng)驗(yàn)的主觀因素,基于少量數(shù)據(jù)判斷出地質(zhì)構(gòu)造及地層信息,基于機(jī)器學(xué)習(xí)的三維地質(zhì)建模流程如圖3所示。
2.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化
原始的地質(zhì)數(shù)據(jù)包括勘探點(diǎn)的三維地理坐標(biāo)(X,Y,Z)、地層類(lèi)別(A、B、C、D)、各地層起止深度以及各地層厚度,而計(jì)算機(jī)無(wú)法根據(jù)各地層起止深度認(rèn)識(shí)到地層起止點(diǎn)之間為同一類(lèi)別地層的地學(xué)意義,并且原始數(shù)據(jù)特征空間過(guò)于稀疏,訓(xùn)練結(jié)果不理想,所以需要對(duì)原始鉆孔數(shù)據(jù)進(jìn)行預(yù)處理。根據(jù)各地層類(lèi)別起止埋深,以1 m為單位對(duì)其進(jìn)行加密處理,把地質(zhì)數(shù)據(jù)變成一系列具有三維坐標(biāo)和地層屬性類(lèi)別的點(diǎn),數(shù)據(jù)預(yù)處理示意圖如圖4所示,并且對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理以消除不同坐標(biāo)量級(jí)之間的影響。

圖3 三維地質(zhì)建模流程圖Fig.3 Flow chart of 3D geological modeling

圖4 數(shù)據(jù)預(yù)處理示意圖Fig.4 Data preprocessing diagram
2.2.2 分類(lèi)器選擇及參數(shù)尋優(yōu)
每個(gè)分類(lèi)器的算法不同也導(dǎo)致預(yù)測(cè)結(jié)果不同,因此分類(lèi)器的選擇會(huì)從根本上影響建模的效果,選擇一種合適且高效的分類(lèi)器也是本文工作的重要內(nèi)容。同時(shí)為避免數(shù)據(jù)出現(xiàn)過(guò)擬合現(xiàn)象以及使用相同的驗(yàn)證方案比較會(huì)話(huà)中的所有模型,在訓(xùn)練分類(lèi)器之前,對(duì)樣本數(shù)據(jù)進(jìn)行折數(shù)為5的交叉驗(yàn)證。利用各類(lèi)分類(lèi)器對(duì)預(yù)處理過(guò)的鉆孔數(shù)據(jù)逐一訓(xùn)練,并在訓(xùn)練過(guò)程中對(duì)分類(lèi)器進(jìn)行優(yōu)化以及搜索最佳超參數(shù),目前常見(jiàn)的有貝葉斯優(yōu)化、網(wǎng)格搜索和隨機(jī)搜索等優(yōu)化方法進(jìn)行超參數(shù)尋優(yōu),由于數(shù)據(jù)量比較大,網(wǎng)格搜索和隨機(jī)搜索需要耗費(fèi)大量時(shí)間,而貝葉斯優(yōu)化通過(guò)迭代的形式對(duì)超參數(shù)進(jìn)行觀察,收集預(yù)期具有良好分類(lèi)結(jié)果的超參數(shù),拋棄結(jié)果不確定的超參數(shù),此方法減少了儲(chǔ)存空間并且計(jì)算速度快,從最小分類(lèi)誤差圖(以支持向量機(jī)為例)如圖5所示中也可以看出,此優(yōu)化器可以很好地將最小誤差點(diǎn)作為最佳超參數(shù),所以本文選用貝葉斯優(yōu)化器進(jìn)行超參數(shù)尋優(yōu)。研究區(qū)不同分類(lèi)器分類(lèi)結(jié)果如表1所示,可以看出,支持向量機(jī)和決策樹(shù)的分類(lèi)效果較好,以支持向量機(jī)分類(lèi)算法進(jìn)行預(yù)測(cè)結(jié)果分析以及三維地質(zhì)建模。

圖5 最小分類(lèi)誤差圖Fig.5 Minimum classification error map

表1 分類(lèi)器分類(lèi)結(jié)果
支持向量機(jī)算法中影響分類(lèi)效果最顯著的超參數(shù)是核函數(shù),核函數(shù)是為避免高維空間中“維數(shù)災(zāi)難”問(wèn)題而引入的,常用的核函數(shù)有高斯(徑向基,RBF)核函數(shù)、線性核函數(shù)以及多項(xiàng)式核函數(shù)[13]。對(duì)幾種核函數(shù)使用默認(rèn)參數(shù)在該樣本數(shù)據(jù)上的分類(lèi)結(jié)果進(jìn)行對(duì)比,核函數(shù)分類(lèi)結(jié)果如表2所示,其中高斯(徑向基)核函數(shù)分類(lèi)準(zhǔn)確度最高,因?yàn)槠淠軌驅(qū)⒃继卣饔成涞綗o(wú)窮維的特征空間,對(duì)處理非線性問(wèn)題非常有效,這正符合鉆孔數(shù)據(jù)三維地質(zhì)建模的高度非線性特征,所以選擇高斯核函數(shù)作為支持向量機(jī)的最優(yōu)核函數(shù)。
2.2.3 建立地質(zhì)體柵格單元
由于地質(zhì)構(gòu)造發(fā)育紛繁復(fù)雜,地質(zhì)勘察中獲取的鉆孔數(shù)據(jù)離散且不完備,為了提高分類(lèi)結(jié)果準(zhǔn)確度,根據(jù)所建地質(zhì)體邊界點(diǎn)坐標(biāo),以一定步長(zhǎng)建立大小相等、分布均勻的柵格單元,構(gòu)建規(guī)則的地質(zhì)體三維空間數(shù)據(jù)場(chǎng)。研究區(qū)總面積10.08 km2,模型取900 m深度,建立大小為30 m×20 m×10 m的柵格單元,共計(jì)約150萬(wàn)個(gè)。

表2 核函數(shù)分類(lèi)結(jié)果
2.3.1 分類(lèi)器性能
該研究區(qū)地層共分為4個(gè)類(lèi)別,為了解SVM分類(lèi)器在每個(gè)類(lèi)別中的執(zhí)行情況,是否有分類(lèi)性能不佳的區(qū)域,繪制混淆矩陣如圖6所示和ROC(receiver operating characteristic curve)曲線如圖7所示,真正類(lèi)率(ture positive rate, TPR)表示每個(gè)真實(shí)類(lèi)正確分類(lèi)的觀察值比例,假正類(lèi)率(false positive rate, FNR)表示每個(gè)真實(shí)類(lèi)中錯(cuò)誤分類(lèi)的觀察值比例。從圖6中可以看出第1類(lèi)TPR達(dá)到99.2%,第2、第4類(lèi)在90%左右,ROC曲線呈直角走向且曲線下面積AUC=0.99,說(shuō)明SVM分類(lèi)器性能很好,分類(lèi)結(jié)果可信。

圖6 混淆矩陣圖Fig.6 Confusion matrix

圖7 ROC曲線圖Fig.7 ROC curve graph
2.3.2 模型構(gòu)建
一系列三維建模軟件的涌現(xiàn),如GOCAD、Surpac、3DMINE、Earth Vision以及三維可視化技術(shù)的發(fā)展,為地質(zhì)數(shù)據(jù)的可視化提供了便捷條件,大大提高了地質(zhì)建模的精度[14]。選用GOCAD軟件對(duì)預(yù)測(cè)數(shù)據(jù)進(jìn)行三維模型構(gòu)建,COCAD軟件具有強(qiáng)大的地質(zhì)解譯、可視化、三維建模和分析的功能,在礦業(yè)開(kāi)發(fā)、地質(zhì)工程、水利工程等領(lǐng)域受到廣泛應(yīng)用,并且該軟件主要采用離散光滑插值(discrete smooth interpolation, DSI)算法[15],該算法思想是將地質(zhì)界面看作離散化的不連續(xù)界面,然后根據(jù)地質(zhì)點(diǎn)、剖面線數(shù)據(jù)等約束條件求解目標(biāo)函數(shù)(全局粗糙度函數(shù)),將相同屬性的節(jié)點(diǎn)拼接起來(lái)獲取最優(yōu)地質(zhì)界面,正符合本文根據(jù)地質(zhì)體柵格單元分類(lèi)屬性進(jìn)行隱式建模的思想。為使所建模型在訓(xùn)練集和測(cè)試集上都能取得良好的預(yù)測(cè)結(jié)果,因此,在機(jī)器學(xué)習(xí)之前,將預(yù)處理后的鉆孔數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),并且確保數(shù)據(jù)的均勻性和隨機(jī)性。然后選取合適的分類(lèi)器進(jìn)行訓(xùn)練,并用最佳的訓(xùn)練分類(lèi)器對(duì)柵格單元進(jìn)行分類(lèi)預(yù)測(cè)。
將已知類(lèi)別的地質(zhì)體柵格單元數(shù)據(jù)導(dǎo)入GOCAD軟件中,建模結(jié)果如圖8、圖9所示。同時(shí),對(duì)該模型進(jìn)行開(kāi)挖顯示,可以看出模型內(nèi)部并未出現(xiàn)地層穿插現(xiàn)象,并且地層分界處光滑自然,建模結(jié)果符合實(shí)際。為檢驗(yàn)所建模型的準(zhǔn)確性,將根據(jù)實(shí)際鉆孔數(shù)據(jù)建立的剖面圖與預(yù)測(cè)模型進(jìn)行對(duì)比,以五勘探線為例如圖10所示,可以看出地層走向、各地層厚度基本一致,說(shuō)明預(yù)測(cè)模型結(jié)果可靠。

圖8 研究區(qū)三維地質(zhì)模型圖Fig.8 3D geological model map of the study area

圖9 模型刪狀圖Fig.9 Model deletion diagram

圖10 原始地質(zhì)剖面與預(yù)測(cè)模型剖面對(duì)比Fig.10 Comparison between original geological section and prediction model section
(1)基于機(jī)器學(xué)習(xí)的三維地質(zhì)建模方法,將地質(zhì)建模問(wèn)題轉(zhuǎn)換為地質(zhì)柵格單元的屬性分類(lèi)問(wèn)題,不需復(fù)雜處理和專(zhuān)家經(jīng)驗(yàn),通過(guò)少量稀疏地質(zhì)數(shù)據(jù)就可以準(zhǔn)確構(gòu)建區(qū)域三維地質(zhì)模型。
(2)通過(guò)對(duì)機(jī)器學(xué)習(xí)的各種分類(lèi)器及其超參數(shù)的比較分析,針對(duì)此研究區(qū),支持向量機(jī)和決策樹(shù)分類(lèi)器較其他分類(lèi)器分類(lèi)準(zhǔn)確度較高,并且采用RBF核函數(shù)的支持向量機(jī)分類(lèi)器分類(lèi)結(jié)果較好。同時(shí)對(duì)預(yù)測(cè)模型進(jìn)行開(kāi)挖顯示并與實(shí)際剖面對(duì)比驗(yàn)證,建模結(jié)果可靠,符合實(shí)際,并且對(duì)于地層尖滅位置,無(wú)需進(jìn)行復(fù)雜處理,可以直接準(zhǔn)確構(gòu)建。
(3)該方法成功應(yīng)用于顧北煤礦北一礦區(qū)的三維地質(zhì)模型構(gòu)建,有效直觀地表達(dá)了該礦區(qū)地層走向及各地層分布特征,為礦區(qū)的災(zāi)害防治、區(qū)域治理等工作提供參考依據(jù)。