覃本學, 沈疆海*, 馬丙鵬, 宋文廣
(1. 長江大學計算機科學學院, 荊州 434023; 2. 中國科學院大學計算機科學與技術學院, 北京 100190)
巖屑作為母巖巖石的碎塊,保持了母巖的結構和大多數特征,對鉆取上來的巖屑進行巖性分析,可生成地下巖性的三維分布特征,進一步分析可掌握地下的巖石成分、性質、地層變化和油、氣層情況[1]。對于巖屑的巖性分析,傳統的做法是由專業人員進行人工鑒定,通過對巖屑進行觀察、觸摸、嗅、滴稀鹽酸、元素分析、硬度檢測、成分檢測、伽馬測井等方式。近些年來,隨著機器學習方法在工業應用中的快速發展[2],人工神經網絡在巖性自動化識別上得到了廣泛應用[3],程國建等[4]使用普通卷積神經網絡訓練巖石薄片圖像得到的模型,可對巖石的薄片圖像進行自動粒度識別;張野等[5]和夏毅敏等[6]分別將普通卷積網絡替換為更為深層次的Inception-v3和更為輕量化的MobileNet[7],對巖石照片進行訓練,得到的模型對于常規巖石如花崗巖、石灰巖、大理巖等擁有較高的準確率。然而,巖性問題在鉆井條件下則更復雜一些,馬隴飛等[8]以鄂爾多斯盆地油田致密儲層鉆取的巖心為研究對象構建了全連接神經網絡,準確率達71%;Alzubaidi等[9]將普通卷積網絡替換為深度殘差網絡ResNeXt-50,可在加深網絡深度的情況下避免網絡退化問題,提高了識別準確率;Zeng等[10]提出了基于柵極循環單元(gate recurrent unit, GRU)神經網絡的注意機制模型,建立了雙向GRU網絡,沿深度方向提取正后向測井數據特征,引入注意力機制,為隱藏層分配權重,以此提高了預測精度;Ao等[11]提出了一種概率的模糊表征結合隨機森林算法的方法,相比于確定性巖性表征方法能獲取更多關于韻律、非均質性和地層性質的信息; Gu等[12]提出了結合平均值影響(mean impact value, MIV)與粒子群優化(particle swarm optimization, PSO)的概率神經網絡(probabilistic neural network, PNN)模型,充分考慮測井資料隨深度的變化趨勢、不同測井序列的相關性以及實際的深度積累效應,達到了較好的應用效果。地質領域,針對巖性識別的方法則更偏重于鉆取物本身的物理、化學等特征,南澤宇等[13]對致密含鈣砂礫巖地層鉆井數據進行分級分類得到多級交會圖,識別結果與巖心、薄片吻合良好,整個過程從粗分到細分,涉及電阻率、伽馬、中子等測井方法,也是地質領域較為傳統的方法。
以上方法分為兩個方向,首先是偏重于圖像的機器學習方法,此方法利用計算機的高性能計算,追求更深更復雜的網絡,以計算性能換取識別精度;其次是利用測井方法與高精度儀器的傳統地質學方法。兩種方法各有優劣,前者更為方便,模型訓練好即可實現自動識別,但是僅圖像上的特征往往不足以作為分類的標準,因為圖像特征易受拍攝環境、拍攝設備的影響,拍攝得到的特征并不完全可靠,得到的結果可信度和普適性不高;后者依賴的儀器價格高昂,而且便攜性差,對于無法滿足現場需要及時獲取地層信息的需求,且識別過程繁瑣、對專業領域知識依賴度高。
針對上述問題,結合現場錄井的實際工作情況,現開展設計結合傳統深度學習方法與傳統錄井方法的融合模型工作,利用二者的優勢以達到更加準確可信的結果,同時使得模型能更加方便地應用到現場錄井當中,以提高通用性和可移植性。
本文的訓練樣本數據來自某油田的十口探井的巖屑數據,包含巖屑圖像,和石油、地質專業人員對于巖屑巖性的鑒別記錄表。其中巖屑圖像為工業相機拍攝的高分辨率圖像。為突出本文方法對于外觀相近的巖屑的識別能力,選擇5類巖屑圖像比較接近的沉積巖進行實驗,這5類分別是:白云巖(dolomite)、泥巖(mudstone)、石灰巖(limestone)、砂巖(sandstone)、頁巖(shale),如圖1所示。
由圖1可以看出這幾類沉積巖外觀十分相似,僅憑肉眼幾乎無法區分。即使通過高分辨率采集、補光拍攝、圖像增強(image enhancement)等操作提高了圖像質量與辨識度,但近似巖屑間的外觀差異還是很難被人眼捕捉,即使是專業人員也需要對圖像進行不斷放大觀察顏色、紋理,并結合自身經驗和巖屑的本身物理、化學特征才能明確給定巖性,可見圖像外特征不容忽視。

圖1 5類巖屑圖像Fig.1 Five types of debris images
巖屑有大量的巖性信息無法被攝像機捕捉,如硬度、所含成分等,這些特征可由分析實驗獲得。有些復雜實驗涉及昂貴的光學儀器,例如若想獲得完整的、可靠性高的巖屑巖性,需要傅里葉紅外光譜儀[14]、X射線衍射儀[15]、拉曼光譜儀[16]、掃描電鏡[17]等儀器。但如果僅作現場分類,一些簡單方便的實驗即可獲得很多有效的圖像外信息,如滴加稀鹽酸、元素分析、觸摸、使用錘子敲擊等,表1為地質工作者在現場記錄的部分巖屑描述。

表1 巖屑圖像外特征表Table 1 Exterior feature table of rock debris image
為了將這些傳統描述特征應用到機器識別過程,設計了一套量化規則。
(1)鹽酸特征:巖屑與稀鹽酸反應的程度可用氣泡的多少來度量,如果巖屑中含有碳酸鹽,則會與稀鹽酸反應,氣泡越多說明反應越劇烈。劇烈程度用數字1~10來度量,1表示不反應,10表示反應劇烈,由小到大表示反應越來越劇烈。
(2)純度特征:巖屑的礦物純度主要是檢測巖屑的成分,巖屑所含成分復雜且多則為雜,巖屑主要成分占比高且比較單一則可定為純。最純取值為10。
(3)元素分析特征:元素分析也是鑒別巖屑種類的一種方法。當高能X射線轟擊樣品時,原子核外電子釋放出來,出現電子空位。這時處于高能態電子會躍遷到低能態來填補電子空位,并釋放出特征X射線,X射線熒光具有物質元素的指紋效應,使用X射線熒光(X-ray fluorescence,XRF)分析儀可以檢測出巖石中元素的含量。元素錄井技術重點關注Si、Al、Fe、Ca、Mg、S、K、Ti共8種元素。本文元素檢測作為外加參數無需測出每種元素含量,僅以Ca—Si兩種巖屑中主要元素作為參照,使用式(1)即可得到一個在[1, 10]范圍內的可以表示Ca—Si含量差異的值,V值越大,說明Ca相對于Si含量越高,反之則Si含量越高,PCa和PSi分別表示Ca和Si所占比例。
V=4.5[1+(PCa-PSi)]+1
(1)
(4)硬度特征:硬度的主要依據就是普氏系數,又稱巖石堅固性系數、緊固系數,計算公式為
f=R/10
(2)
式(2)中:R為巖石的單軸抗壓強度,MPa。一般根據巖石普氏系數將巖石分為10級,正好對應本文圖像外參數取值的1~10,故以普氏系數分級作為度量,最硬(即分級為Ⅰ級) 在本文中取值為10。
將表1的特征轉化為可訓練的參數后,獲得如表2所示的圖像外特征數據。例如,一塊標準的白云巖巖屑的圖像外特征可表示為特征向量:(1, 7, 8.2, 4)。

表2 巖屑圖像外特征參數示例表Table 2 Sample table of external characteristic parameters of rock debris image
本文模型如圖2所示。

圖2 模型示意圖Fig.2 Model diagram
本文所用數據集在錄井現場獲取,是圖像數據和圖像外特征描述的合集。使用隨機函數對數據進行打亂,選取數據的80%作為訓練集,20%作為驗證集。
在對巖屑圖像外特征進行量化時,一些特殊情況下某一特征并不好界定,則可輸入范圍,根據混合同余法在給定范圍給出一個均勻分布隨機數,如式(3)所示,或任其為空。

(3)
式(3)中:zi為在范圍[a, b]產生的隨機數;A、C、M為參數;modM為取余操作。本文中A=2 045,C=1,M=220。
巖屑圖像本身包含著淺層的像素信息,如像素值大小、像素值分布情況與位置關系。但這些分布太過具體,無法作為區分類別的依據,所以需要神經網絡對圖像進行不斷的卷積操作,獲取圖像的深層信息,深度越深特征越抽象,同類物質之間的共性越明顯。本文選取深度可分離卷積與殘差連接結合的Xception網絡為圖像特征提取器。其中殘差連接能夠在堆疊網絡深度的情況下有效避免網絡退化問題(degradation problem),同時Xception將卷積神經網絡的特征圖中跨通道相關性和空間相關性的映射進行完全解耦[18],采用深度可分離卷積,在保證精度的情況下大幅度降低卷積計算的參數數量[19],即

(4)
式(4)中:rNp為深度可分離卷積與傳統卷積的參數量之比;Sk為卷積核的尺寸;CI為輸入特征的通道數;CO為輸出特征的通道數。由式(4)可以發現,使用深度可分離卷積代替普通卷積后參數量可減少大約CO倍。
選取交叉熵作為損失函數。交叉熵可度量多個概率分布間的差異性信息,作為損失函數可辨識和消除訓練過程中的歧義,且方法簡單有效易于計算機自適應,計算公式為

(5)
式(5)中:Loss為損失值;S為樣本的數量,本文取值為10 000;C為類別的數量,本文取值為5;i、j分別為樣本編號和類別編號;Fij為指示變量,取值為0或1,如果該類別和樣本i的類別相同則為1,反之為0;Pij為對于觀測樣本i屬于類別j的預測概率。
此外,模型還需要優化器來更新和計算影響模型訓練和模型輸出的網絡參數,使其逼近或達到最優值,從而最小化(或最大化)損失函數。本文模型采用的是Adam優化器[20],Adam優化器結合了AdaGrad和RMSProp兩種優化算法,對梯度的一階矩估計(firstmomentestimation)和二階矩估計(secondmomentestimation)進行綜合考慮,即綜合考慮梯度的均值與梯度的方差,計算更新步長,即

(6)


(7)

(8)

本文模型使用了ReLU和Softmax兩個激活函數,其中ReLU用來使神經網絡每一層的輸出由線性變為非線性;Softmax函數用來做分類,輸出每一類對應的概率值。
3.4.1 ReLU函數
函數表達式為

(9)
由于該函數為分段函數,在x=0處不可導,所以需要次梯度來實現模型的模型優化和反向傳播,次梯度公式為

(10)
式(10)中:c為次梯度;x0為x變化前的值。當x≥0時,其導數為1;當x≤0時,其導數為0,將導數結果代入式(10)不等號右邊,得到

(11)
則ReLU函數在x=0的次梯度是c∈[0,1],次梯度可取0~1的任意值,本文取0。
3.4.2Softmax函數
Softmax(歸一化指數)函數的計算公式為
(12)
式(12)中:Oi為第i個結點的輸出值;C為類別個數,本文中取值為5。由式(12)計算,經過Softmax函數之后每個類別的輸出值會除以所有類別輸出值的和,這樣得到的就是每一個類別的概率值,各個類別概率值之和為1,以此概率值為依據就可對訓練樣本進行預測,選取預測概率值最大的一類作為樣本的預測類別。


圖3 數據變換示意圖Fig.3 Schematic diagram of data transformation

(13)
式(13):i為圖像編號。
在程序中已經使用交叉熵損失函數和準確率(accuracy)來動態度量模型在訓練過程中的預測情況,為全面了解模型在樣本上的預測性能,本文使用混淆矩陣來查看每一類樣本被預測的情況,然后根據混淆矩陣求出精確率(precision,P),召回率(recall,R)和F-measure(F1),即

(14)

(15)

(16)
式中:NTP為預測為正類且預測正確的樣本數量;NFP為預測為正類但預測錯誤的樣本數量,即將其他類預測為該類;NFN為負類且預測錯誤的樣本數量;C為類別數量,本文中為5。
為反映融合特征的性能表現,整理了兩組實驗數據集進行對比。兩組數據集各包含10 000張圖片共計5類巖屑,每類2 000張圖片。兩組數據集的區別:第一組圖片如圖1中所示,特征較為模糊,人眼很難識別;第二組則特征相對明顯,人眼辨識性較強,如圖4所示。

圖4 5類高質量巖屑圖像樣本Fig.4 Five types of high-quality debris images
在兩組數據集上,分別開展僅圖像特征和融合特征的深度學習與測試實驗,將識別結果代入式(14)~式(16),得到表3中的結果。實驗結果表明,融合圖像外特征的模型,巖屑的分類準確率得到了明顯提升。在人眼辨識度較高的高質量數據集上提高了3.45個百分點,而在低質量數據集上提升達到20.92個百分點。由此可見融合了圖像外特征的模型,普適性與魯棒性都更優。

表3 兩種模型對比Table 3 Comparison of two models
針對僅圖像訓練模型與融合特征訓練模型的收斂能力,在數據集1上設計消融實驗。保證除模型不同的情況下其他參數均相同,使用交叉熵來度量損失,訓練準確率就是在每張圖片被預測為正確類別的概率。訓練過程如圖5和圖6所示。

圖5 僅圖像特征的訓練損失值與準確率變化圖Fig.5 Chart of training loss and accuracy of only image feature

圖6 融合特征的訓練損失值與準確率變化圖Fig.6 Chart of training loss and accuracy of mixed feature
僅圖像訓練模型經過30次訓練,在驗證集上得到的綜合損失值為0.032 0,綜合準確率為96.50%。
融合特征模型經過30次訓練,在驗證集上得到的綜合損失值為0.003 5,綜合準確率為99.95%,高于僅圖像訓練3.45個百分點。
對比圖5和圖6可得,融合特征訓練的模型在訓練過程中隨著迭代次數增加,損失值和正確率曲線較為平穩,無較大波動,反觀僅圖像訓練模型的曲線,驗證集損失值在多次迭代之后仍上下起伏,幅度達到0.1,可見融合特征訓練較僅圖像訓練魯棒性更優。
保證損失函數、優化器、迭代次數、批次大小、學習率等參數均不變的情況下,將模型圖像特征提取器更換為以下幾種常見網絡:VGG16、ResNet和DenseNet在數據集1進行訓練,計算其損失值和準確率得到表4。結果表明Xception作為特征提取器時準確率達到最高。

表4 不同網絡學習模型對比Table 4 Comparison of different networks
本文提出的融合圖像特征與圖像外特征的巖屑識別模型,結合傳統錄井與機器學習的優勢,簡化了錄井過程、提高了識別精度,在應用神經網絡優秀學習能力與抽象特征提取能力的同時,將巖屑本身的特性抽象為向量,與圖像特征結合為更為全面、具體的特征,以此提高了模型的識別準確率與普適性,尤其是在低質量巖屑圖像數據集上的效果更為顯著。而且,隨著需求和現場工作條件的變化,圖像外參數還可以進一步量化其他巖性指標,在實際應用中靈活地改變和增加其他特征,以獲得更好的實際工作效果,為油田開發提供了一種可靠、高效的方法。