周 游 張廣智* 張圣澤 劉俊州 韓 磊
(①中國石油大學(華東)深層油氣重點實驗室,山東青島266580; ②中國石油大學(華東)地球科學與技術學院,山東青島266580; ③中國石油化工股份有限公司石油勘探開發研究院,北京100083)
致密油氣是一種非常重要的非常規資源,是接替常規油氣資源、支撐油氣革命不可或缺的力量[1]。中國擁有豐富的致密油氣資源,儲層普遍經歷了復雜的成巖和構造作用,多以基質致密、儲集空間類型多樣、特低孔低滲的縫控型為主[2]。縫控型致密儲層中的裂縫不僅控制有效儲層的規模和油氣儲量,同時還是油氣開采過程中重要的運輸通道。由于儲層含油氣性和產能高度依賴裂縫,裂縫的有效性評價是分析儲層質量以及油氣勘探部署的重要依據[3-4]。裂縫開度(FVA)作為定量描述裂縫發育特征的參數,是評價裂縫有效性的基礎,對于指導致密油氣儲層勘探開發具有重要的參考價值[5]。
目前,裂縫開度的計算方法主要包括實驗測量、數值模擬及測井計算等三種。Ponziani等[6]利用實驗裝置準確測量巖心的裂縫開度,但受取心技術的限制,測量結果數量較少且在深度上不連續; Van Stappen等[7]依靠微CT成像和三維激光掃描設備獲取了不同圍壓下的裂縫開度,但裝備適用范圍有限,無法真實還原地層條件; 丁文龍等[8]基于數學模型,運用有限元方法對構造應力場進行數值模擬,得到了裂縫發育區的裂縫開度信息,但應力場有限元模擬需考慮地質體的巖石物理特征,所需參數較多,且參數的選取依賴研究者的主觀經驗; Boadu[9]通過數值模擬實驗建立了地震信號特征與裂縫開度之間的關系,利用地震屬性預測裂縫開度等儲層特征參數,但預測結果存在垂向分辨率低、多解性強等問題; Aghli等[10]采用圖像處理的方法對電成像測井資料進行處理、計算,得到了連續且垂向分辨率高的裂縫開度數據,但由于成像測井測量成本高昂,計算的開度數據受測量深度的限制。地球物理常規測井資料具有縱向分辨率高、連續性好、信息量大、成本低等優點,對大多數油氣田而言,如何利用常規測井信息建立裂縫的測井響應機理模型,進而計算地層裂縫開度,是亟需解決的實際問題[11]。
在常規油氣儲層中,成巖作用差異往往導致巖石成分和結構發生變化,產生不同的測井響應,可以利用多元線性回歸(MLR)等線性方法預測儲層參數[12]。而縫控型致密油氣儲層的強非均質性導致常規測井數據與裂縫開度之間存在復雜的非線性關系,簡單的線性模型并不能準確表征地下裂縫張開程度的變化趨勢,因此需要建立一個非線性預測模型表示常規測井數據與裂縫開度之間的轉換關系。機器學習可通過模擬人類、自然行為對歷史數據進行學習,找出其中的規律,進而利用新的數據對目標進行預測[13-14]。國內外許多學者借助機器學習模型強大的非線性映射能力,對常規測井資料的數據特征進行深度挖掘,在儲層參數預測方面取得了良好的應用效果[15-19],但單一機器學習模型仍存在泛化性差、易受噪聲數據干擾等缺點[20]。
委員會機器(CM)采用集成的思想,模仿人類委員會的決策機制,將一個復雜的計算任務分給多個計算能力優異的專家,各個專家各自獨立求解,然后利用某種組合機制組合這些專家的解,得到最終的全局最優解[21-23]。委員會機器可將訓練好的學習模型全部利用起來,整合各個學習模型的優勢,在儲層參數預測方面得到了有效應用[24-25]。盡管委員會機器方法取得了成功,但各專家模型的組合權重一般是通過人工平均賦值或優化算法獲得,這些組合策略易受到人為經驗和模型各種參數調節的影響。如何得到合理、有效的組合策略,是模型面臨的難題之一[26-27]。
為了提高組合權重的計算精度,增加模擬組合策略的可解釋性,本文利用遞階層次結構模型和門神經網絡模型對傳統委員會機器進行改進,基于條件交替期望變換理論,綜合考慮各個專家網絡的預測性能,添加組合權重自適應生成的層次網絡模塊,形成了一個新的委員會機器模型——層次專家委員會機器模型(HECM)。運用該模型在研究工區實現了井中裂縫開度預測,并與單一機器模型和傳統委員會機器模型的預測結果進行了對比。結果表明,HECM的預測結果與巖心測量結果更吻合。
委員會機器網絡由幾個訓練有素的專家機器組成,專家機器通常是由多種智能算法并行構建的機器學習模型。每個專家機器使用完全相同的輸入,基于不同的初始網絡條件獨立完成訓練,最后將各專家機器輸出的結果進行線性加權平均并作為委員會機器的輸出。委員會機器的網絡結構如圖1所示。

圖1 委員會機器的網絡結構
在使用單一機器學習模型預測裂縫開度時,通常會訓練多種機器學習模型,最終選取預測效果最好的一個,其余的模型則被舍棄,從而造成學習資源的浪費。當各學習模型預測效果相當時,則會出現難以選擇的情況。此外,模型的泛化性能很大程度上取決于數據本身,在某一樣本集取得最佳預測效果的模型并不一定適用其他的獨立樣本集。而委員會機器能夠充分利用這些訓練好的模型,整合各模型的優勢,有效提高自身的泛化性和預測性能[28]。
類似于委員會機器的搭建思想,本文提出的HECM也要對各專家機器的輸出進行加權組合,但不同的是,這些權重不再是人為指定或無條件求和平均,而是由一個額外的層次網絡模塊自適應生成。該模塊主要由遞階層次結構模型和門神經網絡模型構成,可對基礎專家的輸出結果進行評價、分析,決定各個基礎專家在全局輸出中的貢獻。基于層次網絡模塊自適應計算權重的步驟如下[29]。
(1)構建遞階層次結構。將影響預定目標的因素進行分組,并將每一組作為一個層次,按最高層(目標層)、多重中間層(準則層)以及最低層(方案層)的形式排列起來。層與層之間可以建立子層次,上、下層因素之間的聯系可用連接線表示,形成具有自上而下主導關系的遞階層次結構。
(2)構造判斷矩陣。當確定好上、下層之間的主導關系后,需計算聯系上層某因素(目標A或某個準則U)的下層各因素在上層因素之中所占的比重。
假定A層中的某一因素與下一層次B中的因素有聯系,則可構造A、B層次之間的判斷矩陣
(1)
式中bij表示對于A層某一因素而言,因素bi對bj的相對重要性的判斷值。一般取1、3、5、7、9等5個等級標度,其中1表示bi與bj同等重要,3表示bi較bj稍重要,5表示bi較bj明顯重要。按照該準則,因素之間的相對重要性依次上升。當5個等級不夠用時,可采取2、4、6、8表示相鄰判斷的中值。
(3)層次單排序。層次單排序是為了確定同一層次因素對于上一層次某因素相對重要性的排序權值。通過求解判斷矩陣的最大特征根λmax所對應的歸一化后的特征向量W,其分量即為對應因素單排序的權重值
PW=λmaxW
(2)
為了檢驗層次單排序的合理性,需要對判斷矩陣進行一致性檢驗。可用隨機一致性比率(Random Conformance Rate,CR)對判斷矩陣進行檢驗
(3)
(4)
式中:CI(Consistency Index)為矩陣一致性指標; RI(Mean Random Consistency Index)為平均隨機一致性指標,其取值規則如表1所示[30]。當CR<0.01時,判斷矩陣具有令人滿意的一致性,否則需要對判斷矩陣進行調整,直到CR<0.01為止。


表1 平均隨機一致性指標的取值規則
(5)
其中U(k)中的第j列為第k層m個因素對于第k-1層上第j個因素為準則的單排序向量。

w(k)=U(k)w(k-1)
(6)
從而得到各基礎方案對應的初始權重
(7)
同樣,為了評價層次總排序的計算結果的一致性,也需要計算與單排序類似的檢驗量。第k層的總排序的一致性比率計算公式為
(8)

(5)門網絡模塊更新權重。利用單層感知器(SLP),構建一個由多元非線性函數和交替條件期望變換(ACE)算法激活的門神經網絡模塊,即
(9)
式中:θ是關于因變量Y的期望轉化函數;φ是關于自變量X的期望轉化函數;ε為回歸誤差;p為變量的個數。
按照ACE算法的理論[31],利用式(9)進行非線性回歸得到的誤差方差方程為
(10)
據此建立以誤差方差最小為優化目標的優化方程
(11)
為了求解誤差方差方程,每個變量建立如下的單一條件期望函數
(12)
(13)

那么,在變換空間中,最優的期望變換方程可表示為
(14)
式中ε*遵循均值為零的正態分布。
因此,通過門神經網絡模塊更新權重后,可進一步提高基礎方案的預測精度。
如圖2所示,為了獲得最佳的預測性能,以目標預測精度作為總體評價目標,選取平均絕對誤差(MAE)、均方根誤差(RMSE)、總絕對誤差(TAE)、決定系數(R2)等4個參數為目標評價準則因素; 將每個準則因素作為基礎專家網絡單元的性能評價指標,構建相應的判斷矩陣,兩兩比較每個基礎專家網絡單元的性能表現,以確定各自重要性; 將核嶺回歸(KRR)、支持向量回歸(SVR)、BP神經網絡(BPN)等3個機器學習模型作為基礎專家網絡單元,把每個基礎網絡單元的輸出結果選為待評價方案,送入性能評議模塊進行評判打分。最后利用單層感知器和ACE算法構成一個門神經網絡模塊(主席決策層),對打分結果進行綜合決策,從而得到最優的解決方案。

圖2 HECM的網絡結構
研究區位于四川盆地川西坳陷孝泉—豐谷隆起帶的新場氣田。受龍門山造山帶抬升的影響,目的層須家河組經歷了由海相向陸相的變遷,經過印支期、燕山期和喜山期等多期次構造運動,形成了氣水關系復雜的致密碎屑巖氣藏。須二段(須家河組二段)為主要含氣層段,儲層巖性主要為淺灰色中粒巖屑石英砂巖,受構造、沉積以及差異成巖作用等多種因素的影響,不同深度的儲集性能差異明顯[32]。
統計、分析工區的高產氣井S井4000~5400m段的105組巖心和井壁成像測井資料,發現該段裂縫以低角度斜縫為主,裂縫充填程度較低,裂縫開度最小值為0.018mm,最大值為1.950mm,平均值為0.410mm,裂縫開度主要集中在0.100~0.700mm。將裂縫開度與實際產能關聯分析,發現主要產氣層的裂縫開度與產氣量存在明顯的正相關。因此,本文以巖心和成像測井資料計算的裂縫開度作為預測對象,基于提出的HECM,選取常規測井數據當作模型驅動,研究適用于致密砂巖儲層的裂縫開度預測方法。
在機器學習中,學習樣本的有效性和代表性是決定預測效果的兩個重要因素。儲層裂縫張開程度受巖性的控制,而各類測井曲線又能夠從不同角度反映地下巖石的物理特性,因此可結合不同測井資料的響應特征,篩選對裂縫開度敏感的測井參數作為預測模型的學習樣本。
巖石礦物組成的差異對裂縫的形成和發育具有控制作用,因而能夠揭示泥質含量的測井曲線會對開啟裂縫較為敏感。對于裂縫開度較大的地層,泥漿濾液會在井壁滲透形成泥餅,導致井徑(CAL)測量值變小。同時,泥漿和地層水的流動不僅使地層產生電動勢,也使鈾元素更易被裂縫或井壁吸附而發生沉淀,導致自然電位(SP)和自然伽馬(GR)測量值變大。另外,致密砂巖孔隙結構的不同導致地層非均質性和流體壓力產生差異,也能影響裂縫的形成與分布,因而揭示孔隙度的測井曲線也對裂縫較為敏感。由于裂縫開啟,井壁內充填密度較小的流體造成聲波能量衰減嚴重、地層中含氫指數增大、密度測井儀器極板不能較好地貼合井壁,導致密度(DEN)測量值降低,聲波時差(AC)和中子孔隙度(CNL)測量值升高。與巖性和孔隙度系列測井相比,電阻率系列測井提供的信息能更好地反映裂縫的張開程度。致密砂巖作為高阻地層,其電阻率變化主要取決于地層巖性和流體性質,裂縫的存在會引起地層水和泥漿的入侵,導致深側向(RD)和淺側向(RS)電阻率明顯降低,且裂縫的張開程度越大,深、淺側向電阻率之間的差異越小[33]。
定性分析測井資料變化規律不足以獲得實際工區敏感的測井參數,需要結合實際工區樣本集的數據分布特征,進行相關系數定量計算,排序、篩選出敏感的測井參數,結果如圖3所示。從圖中可以看出,各常規測井參數與裂縫開度雖具有一定的相關性,但整體的相關系數都較低。直接利用測井參數進行訓練,預測難度較大,需要進一步的數據處理以提升樣本集的質量。因此,基于計算結果,初步選擇AC、CNL、RS、SP這4個參數構建預測模型的學習樣本數據集。
利用Z-Score標準化處理和主成分分析(PCA)構建數據預處理模塊,可以消除數據間量綱不同和相關冗余性對模型預測精度的影響[34]。數據處理后的結果如圖4所示。從圖4a中可以看出,處理后的學習樣本前三個主成分的累計貢獻率就超過90%,能夠較好地代替原有輸入樣本變量。從圖4b中可以看出,處理后的學習樣本之間的偽相關性消失,各主成分之間的相關系數為0,各主成分變量與裂縫開度的整體相關性有所提升。因此,經數據預處理后的學習樣本屬性由4個減少到3個,不僅減輕了模型的學習負擔,還進一步提高了學習樣本的質量。
工區的研究樣本數量較少,裂縫開度的預測本質上屬于極小樣本的非線性回歸問題。利用HECM

圖3 不同測井參數與裂縫開度相關性分析(a)測井參數與裂縫開度的散點交會圖; (b)各變量間的相關系數熱力圖

圖4 數據處理后的結果(a)各主成分貢獻率; (b)各變量間的相關系數熱力圖
預測裂縫開度主要包括兩個階段:第一階段,通過KRR、SVR、BPN等不同的機器學習模型構建基礎專家網絡單元,每個網絡單元接收相同的輸入數據并給出獨立的裂縫開度預測結果,評判專家以各性能評價指標表現作為評判標準,為各基礎專家網絡單元的預測結果進行打分,再由大會評議層討論、確定各基礎專家網絡單元所占的初始權重; 第二階段,利用SLP模型和ACE算法構建主席決策層,對大會評議層討論的結果進行迭代更新,從而得到模型的最終輸出。
將經過預處理后的樣本數據按2∶1的比例進行分區,隨機選取70個樣本數據作為訓練集,剩余的35個樣本數據作為測試集。先將帶有標簽的訓練集輸入到各基礎專家網絡單元中進行訓練,再利用測試集進行結果的驗證,各模型的超參數設置及預測的性能表現如表2、圖5所示。
從表2中可以看出,KRR網絡單元超參數設置少,網絡復雜度低,訓練集預測結果穩定,但容錯能力較差,測試集預測效果不佳; BPN網絡單元超參數調節簡單,非線性映射能力強,訓練集預測結果極為優秀,但在訓練中過于追求經驗風險最小,出現了過擬合的現象,面對小樣本的測試集數據時泛化能力不足,預測效果一般; SVR網絡單元雖超參數設置較多,但基于結構風險最小化原則,對噪聲數據的容忍度高,訓練集和預測集預測效果均較好。
從圖5可以看出,面對無規律的實際數據,單個網絡單元在小樣本訓練中易受方差和偏差的影響,各基礎專家網絡單元輸出誤差波動性大,穩定性不足,預測結果與實際結果有差異,預測精度仍需提升。各基礎網絡單元之間的預測結果差異較大,因此需要通過專家評判層和大會評議層依據模型性能評價指標,從不同角度對各基礎專家網絡單元的性能進行綜合評判、打分,并根據打分結果確定每個基礎網絡單元的初始權重。
將各基礎專家網絡單元的預測結果當成門神經網絡的自變量,利用SLP模型將各自變量輸入到ACE算法的變換空間,以回歸誤差方差最小為期望,通過反復交替條件期望,迭代更新各自變量的初始權重。最后將取得最優變換后的自變量總和作為HECM的輸出,并將輸出的結果與傳統的CM和SVR回歸模型進行對比(圖6)。
從圖6可以看出,SVR回歸模型作為基礎網絡單元中綜合性能表現最好的學習模型,預測結果的箱線圖與實測結果差異明顯。SVR模型的上、下界限相對于中位數的跨度遠高于實測結果,上、下四分位數和中位數也都大于實測結果,導致箱體之內的正常數據波動較大,對離群值的預測精度較低。CM模型雖然整體數據分布與實測結果類似,但箱體特征與實測結果差異較大,四分位間距遠大于實測結果,箱體之內的正常數據分布不穩定,上、下界限波動范圍較廣,對離群值的預測能力有限。HECM模型無論是整體數據分布,還是箱體特征,都與實測結果吻合程度較高,對離群值尤其是特殊極端值仍有穩定的預測能力,具備較高的預測精度。

表2 各基礎網絡單元超參數設置及模型性能評估指標

圖5 基礎專家網絡單元KRR(a)、BPN(b)、SVR(c)的裂縫開度預測結果及性能得分雷達圖(d)

圖6 各模型的預測結果與實測結果的箱線圖
為了進一步驗證HECM在實際資料中的應用效果,利用訓練好的模型對工區的高產S探井的裂縫開度進行預測,并與常用的裂縫開度計算經驗公式進行預測效果對比(圖7)。
由圖可見,基于雙側向電阻率經驗公式[35]計算

圖7 不同方法預測的裂縫開度結果對比(a)HECM; (b)經驗公式
的裂縫開度與實測結果吻合較差,受限于公式形式和經驗參數的選取,在某些非裂縫因素引起的電阻率降低的深度段,得到的裂縫開度誤差較大; 另外在裂縫非常發育的深度段,由于雙側向的深、淺電阻率的差異較小,導致計算的裂縫開度過于穩定,從而無法準確表征實際地層裂縫張開程度的變化趨勢。從整體上看,HECM預測的裂縫開度與實測結果更加吻合,預測的裂縫開度曲線變化趨勢更符合地下的實際情況,可為后續利用地震數據進行三維裂縫開度反演提供可靠的井中裂縫開度信息。
(1)致密油氣儲層巖性復雜、儲集空間類型多樣、縱向非均質性極強,常規裂縫開度預測方法難以準確估算井中裂縫開度。基于層次專家委員會機器模型有效地建立了常規測井數據、成像測井、巖心資料與巖石裂縫張開程度之間的非線性映射關系,可以很好地應用于致密油氣儲層的裂縫開度預測。
(2)層次專家委員會機器模型在計算復雜度沒有明顯增加的情況下,能夠發揮各個機器學習模型的優勢,充分挖掘測井數據中蘊含的地質信息,克服了經驗公式的巖性適用限制,為致密油氣儲層裂縫開度的定量預測提供了新的思路。
(3)致密油氣儲層裂縫開度預測本質上屬于含噪聲的小樣本復雜、無規律回歸問題,數據質量的好壞直接關系到模型的預測精度。如果能增加實測樣本的數量,豐富測井曲線的類型,選擇相關性更好的測井數據參與訓練,那么模型的預測精度能夠得到提升。另外,如何剔除性能較差的基礎網絡單元,挑選性能更強、差異更大的基礎網絡單元進行組合,進一步提高模型的泛化能力,仍需要進行更深層次的研究。