龐河清, 匡建超,2, 蔡左花, 王 眾, 黃耀綜
( 1. 成都理工大學 能源學院,四川 成都 610059; 2. 成都理工大學 管理科學學院,四川 成都 610059; 3. 西南油氣分公司 勘探開發研究院貴陽所,貴州 貴陽 550004; 4. 勝利油田分公司 孤東采油4廠,山東 東營 257237 )
油氣井產能預測是油氣經濟評價的重要環節,其預測準確性對后續井網布置、合理高效開發,乃至整個油氣工業投資與決策都會產生深遠影響[1].然而受地下復雜地質情況的限制,即使同一油氣藏相鄰兩井產能也不一樣,加上鉆井取心的困難和巖心歸位的不正確,使得儲層產能預測成為油氣勘探開發的難點.隨著油氣勘探難度的增加,傳統經驗預測方法已難以滿足實際生產需要.為了利用常規測井方法表征地下復雜的地質條件,從而與儲層產能建立聯系,一些學者陸續提出逐步回歸[2]、模糊模式識別[3]、灰色關聯[4]、動態聚類[4]等儲層產能預測方法,并取得一定成效.這些方法大多基于均質地層和線性映射的假設,沒有充分考慮地質條件的復雜性,難以大范圍推廣利用[5].近年來,隨著神經網絡和支持向量機等智能機器學習方法發展,使得儲層產能預測由線性領域推廣到非線性領域,預測精度得到提高.此外,基于算法改進及輸入變量優化的復合模型的大量應用,較好地解決神經網絡、支持向量機的收斂速度慢、降噪效果差等問題.
支持向量機包括支持向量分類機(SVC)和支持向量回歸機(SVR)功能,目前在油氣儲層分類和產能預測中都有應用[5-6],但鮮見把2種功能組合起來進行儲層識別及產能預測.嚴衍祿和安欣在光譜分析實驗中發現,模型分析準確度和訓練集樣本的組分濃度范圍有關,即樣本數據的組分濃度范圍越大,分類越多,模型分析準確度越低;反之,分析準確度越高[7-8].儲層產能預測亦具有相同原理,模型預測效果很大程度取決于訓練樣本的分類級別,即分類范圍越大,模型的分析準確度越低;反之,準確度越高.在支持向量分類機和支持向量回歸機特點的基礎上,筆者提出一種新的建模方法——逐類組合支持向量機方法(Termwise-combination Support Vector Machine,TCSVM).該建模思路是首先用支持向量分類機對樣本數據進行歸類,實現儲層類別判識;然后根據判識結果,用支持向量回歸機(SVR)按類別分別建立產能預測模型;最后對相應類別的儲層進行逐類產能預測.該建模方法不僅充分考慮各數據類別范圍對儲層判識的干擾,改善傳統支持向量回歸機的預測性能,而且還與主成分分析等方法結合起來,建立主成分分析逐類組合支持向量機等復合模型,通過前期降噪、降維的屬性優化作用后,提高儲層判識和產能預測的準確率.
支持向量機(Support Vector Machine,SVM)是Vapink等基于統計理論和結構風險最小化原則提出來的一種新型學習機器[9-11],具有分類和回歸功能.支持向量機優點:(1)用全局尋優取代局部尋優,避免神經網絡的局部極值問題,從而獲得最優解;(2)引入結構風險函數提高機器學習的泛化能力;(3)通過核函數取代內積運算,使得運算量大大減少,因此避免神經網絡固有的“維數災難”問題.在支持向量機的實際應用中,無論從事分類還是回歸,其基本原理相同,都是應用非線性映射函數將映射到高維特征空間中;然后在高維特征空間中巧妙利用核函數取代內積運算,求解最優近似值超平面或最優擬合值超平面,實現結構風險最小化;通過構建決策函數,最終實現線性分類和線性回歸.分類機的原理參考文獻[11-14].
假設存在樣本集S={(x1,y1),…,(xl,yl)}?Rn×R,要實現回歸功能,首先尋找最優近似超平面,即達到‖w‖2最小化,那么滿足表達式[11]
(1)
引入拉格朗日函數,求解優化問題的對偶式[12],即
(2)
對于非線性問題,應用映射函數映射到高維特征空間中,然后在高維空間中利用核函數求解最優超平面,所構建決策函數[13-14]為
(3)
式中:K(xi,xj)為核函數.目前滿足mercer條件的核函數主要有:(1)線性核函數,K(x,y)=xTy;(2)多項式核函數,K(x,y)=(s(x·y)+c)d;(3)高斯徑向基核函數,K(x,y)=exp(-‖x-y‖2/2σ2);(4)指數徑向基核函數,K(x,y)=exp(-‖x-y‖/2σ);(5)神經網絡核函數,K(x,y)=tanh[s(x·y)+c][14].
考慮高斯核函數的抗噪能力較其他核函數強及其對參數的不敏感性[15],在儲層判識和產能預測時選用高斯核函數.
由于模式識別等智能機器學習與訓練樣本的組分濃度、類別范圍有關[7-8],即樣本數據的分類范圍影響模型的預測效果,分類越多,模型的分析準確度越低;反之,準確度越高.所以模型TCSVM是先將檢驗樣本SVC分類,然后分別按類別建立訓練模型,最后對相應類別的檢驗樣本進行SVR逐類預測,其實現步驟見圖1.模型的回歸分析準確率與前置分類正確率密切相關,因此,為了提高模型分類正確率,還需對樣本數據進行降噪處理,消除數據之間的冗余信息.分別采用主成分分析、核主成分分析和粗糙集方法作為模型前置功能,實現輸入變量的預處理、刪除冗余信息、降低噪音等目標.

圖1 逐類組合支持向量機建模思路
陜甘寧中部氣田位于鄂爾多斯盆地中部,在榆林、烏審旗、定邊和延安之間,面積超過1×104km2[9].該氣田的主力氣藏馬五1氣藏的巖性主要有泥-細晶白云巖、細粉晶白云巖、中粗粉晶白云巖、角粒狀粉晶白云巖、粉晶砂屑白云巖等.儲集空間及孔隙類型有溶孔(洞)、晶間孔、粒內孔、鑄模孔等.儲層孔隙度巖心分析值最高為16.6%,最低的為0.14%;滲透率最高為61.955×10-3μm2,最低的為0.020 3×10-3μm2,平均為5.63×10-3μm2.受多因素影響,孔洞發育具有較強的非均質性,縱向上總體表現為由上到下儲層孔洞密度升高、孔徑變大、充填程度變低、充填物中黏土量減少等[16].隨著氣田勘探開發的進行,儲層判識和氣水層識別問題日益嚴重,給氣田勘探開發的科學管理及高效開采帶來危害.因此,對氣藏進行儲層判識及產能預測,分析主力氣藏馬五1儲層各小層的產能縱橫分布特征及氣水組合關系十分必要.以該氣藏19口井已測試的92個層位作為建模樣本,用78個(85%)樣本進行模型訓練,剩下14個(15%)樣本進行模型回判檢驗.
根據長慶中部氣田儲層分級標準,將儲層分為氣層、含氣層、干層、水層共4類(其中在92個已測試層位中氣層35個、含氣層17個、干層25個、水層15個)[17].根據研究區實際地質情況和測井相應特征,挑選10種與氣水層密切相關的屬性參數作為模型的輸入變量,即深側向電阻率(RLLD)、深淺雙側向電阻率幅度差(ΔR)、自然伽馬(GR)、測井聲波孔隙度(φs)、產能系數(Kh)、滲透率(K)、有效厚度(h)、儲滲因子(Kφs)、可動水指數(RR)和介質類型因子(EE)(見表1和表2).

表1 長慶中部氣田各產量區間的賦值原則
注:qg為產氣量;qw為產水量.
首先將挑選的屬性參數作為支持向量分類機的輸入變量,實現樣本數據的歸類;然后按儲層類別分別用支持向量回歸機建立訓練模型;最后對相應類別的檢驗樣本進行逐類回歸檢驗.為與傳統方法進行比較,也用傳統建模思路對儲層產能進行回歸分析.儲層判識和產能預測是在libsvm-2.88工具箱中實現的,運用的核函數為高斯徑向基核函數;而且在儲層判識時約定訓練樣本回判率大于90%,對檢驗樣本進行判識歸類(見表3).
使用逐類組合支持向量機模型進行產能預測時,前期歸類正確與否直接影響回歸預測的準確率.因此,為了提高儲層判識的吻合度,分別嘗試使用主成分分析支持向量機模型(PCA-SVM)、核主成分分析支持向量機模型(KPCA-SVM)、粗糙集支持向量機模型(RS-SVM)、支持向量機模型(SVM)進行儲層判識.由表3可知,PCA-SVM模型和KPCA-SVM模型的分類吻合率最高,達到100%;RS-SVM和SVM的分類吻合度只有92.86%.由此說明在進行模式識別時,對樣本數據進行適當預處理是必不可少的.以主成分分析與核主成分分析方法的降噪效果最好,不僅能較好地消除數據之間的冗余信息,提高運算速度,而且還保留原始數據的絕大部分信息,保證預測的吻合度.

表2 樣本參數輸入匯總(歸一化數據)

表3 回判結果
注:*表示識別有誤.
根據表3分類結果,用逐類組合支持向量機方法按類別分別進行逐類儲層產能預測.同時,分別用傳統支持向量機模型進行儲層產能預測(見表4和表5).由表3-5可知,逐類組合模型的平均絕對誤差和平均相對誤差都比傳統的建模方法小.在逐類組合模型中尤以PCA-TCSVM模型的誤差最低(平均絕對誤差為0.359,平均相對誤差為0.036),KPCA-TCSVM模型次之(平均絕對誤差為0.417,平均相對誤差為0.041).這表明,逐類組合模型預測效果的優劣取決于SVC歸類的正確率,即檢驗樣本錯分率越低,模型預測效果越高;反之,模型的預測效果越低.
文獻[18]用多項式自組織神經網絡方法(MOSN)對文中實例作過研究(平均絕對誤差為1.751,平均相對誤差為0.367).傳統的支持向量機方法中,只有PCA-SVM模型的預測誤差(平均絕對誤差為1.447,平均相對誤差為0.317)較MSON的低,其他模型的誤差較MSON的高.文中建模方法誤差比MSON的低,其中尤以KPCA-TCSVM、PCA-TCSVM模型最為顯著,其誤差不僅比MOSN的要低1個數量級,而且相關因數也比MOSN的高,達到0.996,可信度最高(見表4和表5).

表4 陜甘寧馬五1儲層檢驗樣本預測結果誤差分析

表5 不同模型預測誤差
(1)使用主成分分析、核主成分分析以及粗糙集對樣本數據進行降噪,然后作為變量輸入支持向量分類機,實現儲層類別判識,其分類效果以PCA-SVM和KPCA-SVM模型的最好,吻合度達到100%.
(2)對儲層產能預測,逐類組合支持向量機模型的預測效果較傳統的支持向量機模型要好,可信度高,尤其以主成分分析支持向量機模型的應用效果最好,預測誤差最低,相關因數最高.原因是先歸類再預測的建模方法,指定每類模型的適用范圍,從而減少其他類別樣本對模型預測的干擾,提高模型預測準確率.
(3)逐類組合支持向量機模型的預測效果和前期歸類的準確率息息相關,儲層歸類準確率越高,其相應的產能預測效果越好;反之,其產能預測效果越差.