












關鍵詞:地震屬性,儲層預測,Stacking集成學習,分頻,智能融合
0引言
地震屬性能有效反映地下地質信息,在油氣勘探、開發的各個階段均扮演著重要角色,已廣泛應用于構造與地層解釋[1-3]、儲層預測[4-6]、烴類檢測[7-8]等方面。目前地震屬性分析技術主要有兩個研究方向[9],分別是研發新的地震屬性[10-11]和發展地震多屬性融合技術[6,12-13]。地震屬性種類繁多,能夠在不同角度表征油氣儲層。新研發的地震屬性易與現有的地震屬性之間存在“明顯”的數據冗余問題,由此增加了研發“高優勢”地震屬性的難度。相反,地震多屬性融合技術在儲層預測領域已取得良好的應用效果,其方法眾多,可大致分為線性模型融合、非線性模型融合和顏色模型融合(如RGB顏色模型)等[9,14-15]。近年來,隨著人工智能技術的迅速發展,機器學習方法逐步用于地震多屬性融合。此類方法主要是通過學習井點儲層的先驗信息,建立井、震數據之間的非線性映射關系,再利用支持向量機(SVR)[16-17]、BP神經網絡[18]、極限學習機[19-20]和隨機森林[21]等機器學習方法定量預測儲層。
常見的地震屬性融合方法主要是基于單類機器學習算法,缺少對多類算法的集成[16-18,21]。由于地下儲層結構復雜、非均質性強[22-23],不同油氣田甚至同一油氣田的不同位置或不同層段,適合的融合算法也不同,因此亟需探索多算法集成的屬性融合方法,以提升地震屬性融合方法的泛化能力。
為此,本文提出了一種基于Stacking集成學習的分頻地震屬性融合方法,旨在提高儲層預測精度。首先,將地震資料進行分頻處理,分析不同頻段數據體的地震屬性特征;其次,采用相關性分析和無監督聚類技術,優選地震屬性;然后,設計Stacking框架,集成Bagging-SVR(Bg-SVR)、Multi-LayerPerceptron(MLP)、LightGBM(LGB)、Bagging-KNearestNeighbor(Bg-KNN)和核主成因多層感知機(KPCA-MLP)模型,并利用集成后的模型融合多個頻段的地震屬性,實現儲層定量預測;最后,使用線性公式定量分析等方法評估Stacking模型的預測性能,并通過渤海灣盆地埕島油田河流相儲層的實例應用驗證Stacking分頻屬性融合方法的可靠性。
1儲層智能預測模型
首先,優選在儲層預測領域具有良好應用效果并存在明顯差異的幾類模型:SVR、KNN(KNearestNeighbor)、LGB和MLP;然后,根據儲層預測需求,分別對SVR、KNN和MLP模型進行改進,并綜合這幾類模型優勢設計出Stacking集成學習框架,以得到更準確、穩定的預測結果。
2.1常規預測模型
2.1.1單類模型算法
(1)Bg-SVR和Bg-KNN模型。傳統的SVR和KNN模型在小樣本預測方面均具有獨特的優勢。其中,SVR模型可利用核函數(通常是徑向基函數)將地震數據從低維映射到高維,并在高維空間建立回歸擬合模型,實現地震屬性到儲層信息的非線性映射;KNN模型能夠基于相鄰井點的數據關系,充分挖掘井震數據特征。但在儲層預測時,SVR模型的非線性表達能力容易受少數幾個支撐向量的影響,而KNN模型也只是考慮了鄰近幾口井的樣本數據。因此,上述兩類模型的泛化能力仍有不足,需要進一步改進。
大量研究實例表明集成學習模型普遍具備更好的預測性能[24],其中Bagging模型便是一種能夠降低模型泛化誤差的集成方式。這種方式通常是基于同類模型的集成,在地震屬性融合時,能夠實現地震數據樣本、特征的隨機抽選,可提高模型的泛化性能。
因此,本文利用Bagging算法,以相同的方式分別對SVR模型和KNN模型進行改進。以改進的KNN模型,即Bg-KNN模型為例(圖1),其預測流程可分為4步:①訓練時,進行N次最大采樣率為η1的樣本自助采樣(Bootstrap),每次形成一個新訓練樣本集,其中N為采樣次數;②按照η2的最大特征抽樣率,為每個樣本隨機選取輸入特征;③分別在每個子訓練集上開展模型訓練,得到N個KNN模型;④將N個模型的預測結果取平均作為最終的輸出結果。
(2)MLP模型。MLP模型是一種前饋式監督學習神經網絡,包含輸入層、隱層和輸出層。如圖2所示,該MLP模型的輸入層為6分量,輸出層為1分量,具有4個隱層,每層分別包含10、6、4和3個神經元,并選用ReLU作為激活函數,以增強模型的非線性表達能力。MLP算法主要分為兩個步驟,分別是正向傳播和反向傳播。正向傳播公式為
誤差δhv由下層誤差δh+1v反向計算得到。通過反向傳播,不斷調整系數,使輸出結果不斷逼近真實數據。模型訓練時,采用Adam(AdaptiveMomentEstimation)作為優化器,其參數更新不受梯度伸縮變換的影響,適用于復雜的儲層預測場景。
(3)LGB模型。LGB模型是基于梯度提升決策樹的集成算法,能夠通過梯度下降算法更新殘差,隨著迭代次數增加,可擬合復雜的鉆井、地震數據。此外,LGB模型還在原有梯度提升樹算法上進行了改進,采用互斥特征捆綁稀疏化地震屬性特征以增強模型的數據處理性能。
2.1.2KPCA?MLP組合模型算法原理
當數據維度較高、非線性關系復雜時,模型容易為了追求擬合效果而出現過擬合現象。為此,設計了一個兼備高效數據降維和強非線性擬合能力的KPCA-MLP模型(圖3)。
KPCA模型可利用核函數將地震屬性樣本向高維特征空間映射,并在高維空間實現數據降維,其核函數可表示為
式中:k(xi,xj)為核函數矩陣,其中xi、xj分別表示第i、第j個多維地震屬性樣本;σ為核函數的寬度。
KPCA-MLP模型便是在MLP模型的輸入端加入了KPCA模型(圖3),利用KPCA模型對輸入數據進行非線性降維與特征提取,然后基于MLP模型分析KPCA模型提取的主成分,從而有效挖掘復雜數據特征信息。因此,本文將使用KPCA-MLP模型算法進一步處理Bg-SVR、MLP、LGB和Bg-KNN模型的預測結果。
2.2Stacking集成學習模型結構
盡管上述幾類模型在儲層預測中具有良好的應用性能,但這些模型多屬于單類預測模型,并且設計的組合模型(圖3)也未能基于高效架構實現多模型融合。因此,各模型的預測精度容易呈現邊際效用遞減的趨勢[25]。為了提高儲層預測準確率,本文將采用Stacking集成學習方式,實現多模型優勢互補、深度協同。
該Stacking集成學習模型主要包含兩層結構(圖4)。第一層結構由多個基學習器模型組成,為了使各模型間能夠“取長補短”,需選取泛化效果良好且存在明顯差異的幾類模型,因而將Bg-SVR、MLP、LGB和Bg-KNN作為基學習器模型。第二層結構由元學習器模型組成,其數據集來自上層的預測結果。若直接將基學習器模型的訓練集預測結果作為元學習器的輸入,可能會造成過擬合。因此,在第一層的基學習器模型訓練前,利用5折交叉驗證將數據劃分為不重疊的5等份。當每個基學習器訓練時,選取不重復的4等份作為訓練集,余下的1等份作為驗證集。訓練完畢后,將5份基于驗證集的預測結果重新組合,以得到與原數據集相同樣本量的新數據集。新數據集來源于上層模型對驗證集的預測結果,因此具有較強的客觀性。
然而,各基學習器模型的自身性能不同,當部分模型預測誤差較大時,會增加元學習器輸入數據的噪聲,直接影響模型的預測精度。鮑海波等[26]提出了為預測結果賦予權重的方法以抑制各模型中預測效果較差的部分,能夠提高集成模型的預測性能。但這種方式是一種主觀的線性加權,并且賦予的權重值也難以充分表征各模型的預測性能。為了降低噪聲數據的影響、充分挖掘基學習器模型預測結果的關鍵信息和擬合復雜的非線性數據,本文將選用KPCAMLP模型作為元學習器模型。
Stacking模型的實現流程(圖4)如下。
(1)利用RobustScaler對輸入的地震屬性進行數據預處理,即
式中:x和x′分別對應數據預處理前、后的多維地震屬性樣本;median為多維地震屬性數據的中位數,IQR為多維地震屬性數據的四分位距。
(2)使用5折交叉驗證隨機劃分數據集,并利用Bg-SVR、MLP、LGB和Bg-KNN模型分別訓練數據,訓練過程中基于隨機搜索[27]為每個基學習器模型優選超參數。
(3)將交叉驗證的驗證集在基學習器上的預測結果組合為新訓練數據集。
(4)利用KPCA-MLP模型處理新訓練數據集,生成訓練集的最終預測結果。
(5)將測試集經過訓練好的基學習器處理、數據平均和訓練好的KPCA-MLP模型處理等步驟,得到測試集的預測結果。
(6)根據訓練集和測試集的預測結果,評估模型合理性,若合格,便輸出模型;反之,則返回步驟(2)。
3分頻地震屬性融合方法
以埕島油田中區為研究區,基于Stacking集成學習模型,開展分頻地震屬性智能融合儲層預測方法。
研究區面積約30km2,主力含油層館陶組上段為河流相沉積,砂體較薄,儲層非均質性強,平均埋深約為1500m。地震資料主頻為33Hz,頻寬為17~49Hz。
具體應用過程中,本文方法主要包含3個模塊:地震頻段優選、地震屬性優選和多屬性智能融合儲層預測(圖5)。
3.1地震頻段優選
不同頻段地震數據體蘊含不同的地質信息,深度挖掘不同頻段地震數據與儲層之間的關系,有利于提高儲層預測精度。
根據不同厚度儲層的振幅與頻率關系[4,9,14]可知:當砂體厚度小于1/4波長時,振幅與砂體厚度具有明顯的正相關趨勢;高頻地震信息的分辨率較高,能夠更好地反映薄砂體分布特征;低頻數據體的分辨率較低,能夠更好地反映厚砂體分布特征。采用小波分頻技術,可將原始地震資料分為不同頻段的地震數據體(圖5,A部分),但在分頻的過程中需要注意兩個原則:①分頻數據體的總頻寬需控制在原始地震資料的有效帶寬內,以保留有效信息;②分頻數據體數量不宜太多,防止地震數據冗雜[9]。綜合考慮不同頻段的地震信息,可降低地震資料的多解性。
由于館陶組上段砂體厚度差異大,原始地震資料難以識別薄層砂體,所以在分頻時需在有效頻寬內盡可能保留高頻數據體。對原始地震數據體(圖6a)進行分頻,高頻地震數據的主頻為40Hz(圖6b),對應的頻寬為30~50Hz,可反映原始數據中的高頻信息。為了避免分頻數據體過多和有效信息缺失,優選出主頻為20Hz、頻寬為13~30Hz的低頻數據體(圖6c),可反映原始數據中的低頻信息。優選的兩個分頻數據體總頻寬可覆蓋原始地震數據,既保留了原始數據的有效信息,又減少了重復信息。
3.2地震屬性優選
不同地震屬性能夠從不同角度表征儲層特征,其中振幅類屬性可以有效指示巖性、刻畫砂體厚度;相位類屬性有助于識別儲層邊界、斷層等;頻率類屬性更適合反映儲層在垂向上的巖性變化[6,9,28]。由于部分地震屬性間共線性較強(較強的相關性),因而在地震多屬性融合前需要優選屬性(圖5,B部分)。
選取測井資料齊全的317口井,從井旁道目的層段提取不同類別的12種地震屬性,分析各屬性與砂體厚度相關性,共得到6種與砂體厚度相關系數大于0.15的地震屬性(圖7a);然后利用無監督聚類技術將6種地震屬性進一步劃分為3類(圖7b),結合各類地震屬性與砂體厚度的相關系數(圖7a),最終優選出的敏感屬性分別為平均谷值振幅、最大振幅和平均瞬時頻率。
從分頻地震數據體中分別提取上述三種屬性。以最大振幅為例,可以看出,原始數據體最大振幅高值區能體現主河道砂體的分布,但反映的砂體連續性差,并且河道邊界不清晰(圖8a)。由于目的層段砂體較薄,低頻數據體的最大振幅只能體現主河道上局部厚砂體的分布(圖8b)。高頻數據體的最大振幅高值區明顯增多,主河道邊界更加清晰(圖8c),砂體連續性也更好(圖8c紅色箭頭所指)。
3.3多屬性智能融合儲層預測
計算半徑為25m范圍的井旁道地震屬性值,將測井資料解釋的砂體厚度與井旁道地震屬性作為智能屬性融合的數據樣本,按照8:2的比例分別劃分為訓練集和測試集;再利用Stacking集成學習模型(圖5,C部分)融合低頻、高頻地震屬性(平均谷值振幅、最大振幅和平均瞬時頻率),建立砂體厚度與分頻地震屬性數據的映射關系;最后,將訓練好的Stacking模型應用于館陶組上段儲層的定量預測。
4方法評估
4.1井點儲層預測結果
井點處的儲層預測結果能夠用于定量化評估模型預測精度和可靠性。為證實Stacking集成學習模型具備較強的預測性能,將Bg-SVR、MLP、LGB和Bg-KNN等4個基學習器模型作為參照組進行對比。訓練過程中各模型的超參數設置見表1。
評估指標除了皮爾遜相關系數(R)、平均絕對誤差(MeanAbsoluteError,MAE)和均方根誤差(RootMeanSquaredError,RMSE)外,本文還引入了決定系數(R2_score)和校正決定系數(R2_adjusted)。其中R2_score用來表示回歸分析中自變量對因變量的解釋程度,取值為0~1,越接近1表示解釋效果越好;R2_adjusted是在R2_score基礎上,將特征數量納入了分析。部分指標的公式分別為
式中:yi、y?i分別為第i個樣本的測井資料解釋的砂體厚度(實際值)和預測值;yˉ表示測井資料解釋砂體厚度的均值;m為樣本數量;p為地震屬性特征數量。
由圖9可見,Bg-SVR、MLP、LGB和Bg-KNN模型屬性融合預測結果與實際砂體厚度的MAE分別為1.81、1.72、1.98和1.47m,而Stacking模型屬性融合結果與實際砂體厚度的MAE僅為1.30m。盡管地震屬性能夠反映儲層厚度,但是兩者間的映射關系較為復雜,因而導致單類模型的預測精度不夠,其中LGB模型的屬性融合結果與實際砂體厚度的RMSE達到了2.48m,遠高于Stacking模型的1.69m(圖9)。由此可看出Stacking集成學習模型的屬性融合結果平均誤差較小,預測性能比其他單類模型更穩健。
以測試集為例,Stacking集成模型的屬性融合結果與實際砂體厚度的R為0.916、R2_score為0.814、R2_adjusted為0.794(圖10),較Bg-SVR、MLP、LGB和Bg-KNN模型的提升率范圍分別為:3.6%~15.4%、9.6%~35.4%和10.9%~42.0%(表2),這表明了Stacking模型具有更高的儲層預測精度。
地震多屬性融合儲層預測時需要將模型建立的井震數據映射關系應用于全研究區,因而基于多屬性融合的儲層預測準確度受映射關系影響。通常來說,模型在訓練集上學習數據特征,然后利用測試集檢驗模型的合理性。本文的訓練集和測試集都是按照特定比例隨機、均勻劃分,因而當模型在訓練集和測試集的預測結果與真實砂體厚度之間展現相似的數據分布規律時,便可證明該模型建立的井震映射關系具有可靠性。為了有效評估模型的可靠性,本文利用線性關系式定量表征這種映射關系,即式中:a為權重;b為偏置。如表3所示,相較于單類預測模型,Stacking集成學習模型對應的線性擬合公式差距最小,其訓練集和測試集的線性擬合公式的權重相差小于0.003,偏置相差小于0.03,反映了Stacking模型在訓練集上建立的井、震映射關系,完全適用于測試集的數據預測,相應的預測結果與實際數據的分布規律具有較高的一致性。這是因為單類模型的數據分析角度單一,難以深挖井、震數據關系,在模型優化時容易陷入局部極值點,而Stacking模型可以綜合多類模型的算法對井、震數據全局尋優,在相同數據集上具有更低的泛化誤差。由此可證明,本文Stacking模型能精確表征地震屬性與儲層信息的非線性關系,對應的儲層定量預測結果可靠性較強。
4.2屬性融合結果綜合分析
原始數據體最大振幅屬性與砂體厚度相關性較低(圖11a),雖然能夠初步反映主河道的展布趨勢,但是河道邊界模糊,并且屬性高值區連續性較差(圖12a)。
Bg-SVR模型的屬性融合圖上可見河道形態(圖12b),主河道的邊界較為清晰,但在CD5井處顯示為屬性低值,指示河道斷開,與單井砂體解釋結論不符(圖12g)。同時,該屬性圖中的E區域的屬性呈現零散分布,無明顯的分支河道形態(圖12b)。MLP和LGB模型的屬性融合結果展現出主河道砂體連續性較好(圖12c,圖12d),能夠準確表現E區域的分支河道展布特征,但是與Bg-SVR模型的屬性融合結果(圖12b)相比,MLP和LGB的屬性融合結果中主河道外的屬性分布更為雜亂。根據測井解釋結果,在CD2井附近發育厚砂體(圖12g),在F區域內,MLP模型的屬性融合結果展現了“大面積”的低值分布(圖12c),并且圖12b和圖12d的對應位置也體現了不同程度的屬性低值特征,反映的砂體連續性較差。Bg-KNN算法能基于相鄰井的空間位置關系,挖掘井旁道地震屬性和儲層信息特征。如圖12e所示,Bg-KNN模型的屬性融合圖中主河道分布更加明確,主河道外的屬性雜亂度明顯降低,同時F區域的砂體連續性變好。由于分支河道對應的屬性為窄條帶狀,其鄰近區域尤其是邊界位置的屬性差異較大,因而基于Bg-KNN的屬性融合方法難以通過分析鄰近空間數據精確預測分支河道砂體(圖12e紫色箭頭所指區域)。
與單類預測模型的屬性融合結果相比,Stacking集成模型的屬性融合結果在E、F區域的砂體連續性更好,屬性圖的高值區形態清晰,分支河道砂體展布特征也更加明確。同時,該模型的屬性融合結果的單井吻合率更高,與實際砂體厚度相關性也可達到0.92(圖11b)。一方面是因為優選的單類模型自身預測性能較強,另一方面是由于各模型在屬性分析時存在相應的“預測短板”,而Stacking模型能高效融合多個單類模型并實現“優勢互補”,由此提升了集成模型的預測精度。
根據Stacking集成模型的屬性融合結果(圖12f),結合單井沉積微相解釋結果(圖12g),可刻畫出目的層沉積微相平面展布特征(圖12h)。由圖可見,主河道呈寬條帶狀分布,分支河道為窄條帶狀分布,在主河道北西方向發育1條分支河道,南東方向發育有2條分支河道,分支河道延伸較遠且有一定擺動幅度。主河道擺動不頻繁,兩側均發育有天然堤,河漫灘砂呈孤立狀分布在泛濫平原內部,展現了典型的河流相沉積特征。
5結論
(1)基于Stacking集成學習的分頻地震屬性融合方法,能夠綜合考慮不同頻段的“優勢”地震屬性信息,并可以對多個差異化模型“取長補短”,有利于提高儲層預測精度。
(2)本文提出的線性公式定量分析法,可以有效評估模型的預測性能。在埕島油田的實例應用中,相對于單類預測模型,Stacking集成學習模型的預測性能和可靠性均有顯著提升,其屬性融合結果高值區形態清晰,砂體連續性更好。
(3)本文基于Stacking分頻屬性融合儲層預測方法具有良好的應用前景,可為類似研究區的儲層預測提供借鑒。