陳 娟, 黃浩勇, 劉俊辰, 曾 波, 楊昕睿
(1.中國石油西南油氣田公司頁巖氣研究院,成都 6100017; 2.中國石油西南油氣田公司四川頁巖氣公司,成都 610017)
頁巖氣以其儲量豐富、開采潛力巨大在世界能源中占有重要地位。四川盆地頁巖氣資源豐富,具有廣闊開采前景,是中國天然氣規模生產的重要組成部分[1-4]。目前,頁巖氣井水平井產能預測技術仍處于起步階段。產能預測是實現頁巖氣藏經濟效益開發的關鍵科學問題,準確預測進行體積壓裂后水平頁巖氣井的產能是確定合理開發決策的重要前提,對四川盆地頁巖氣田勘探開發進程具有重要意義。
目前,中外專家從不同角度對頁巖氣井產能開展了相關研究,主要有經驗圖版、解析模型和數值模型等3種方法[5]。Li等[6]建立了Barnett頁巖氣藏雙曲線遞減圖版,并利用圖版對Barnett頁巖氣藏超過8 700口水平井進行了分組評價。李龍龍等[7]基于半解析方法,建立了頁巖氣井體積壓裂產能計算模型。Yu等[8]考慮了應力敏感和吸附解析的作用,采用數值模擬方法建立頁巖氣壓裂水平井產能預測模型。通過經驗法、解析法以及數值模擬法對頁巖氣產能進行描述和評估[9-14],推動了頁巖氣產能研究的理論進步,在解決實際問題中,均提供了巨大的幫助。但是,由于研究方法主要基于理論模型,需要理想化假設條件和不易得到的參數,同時,在排采測試初期,缺乏歷史擬合數據,無法應用理論模型開展產量預測,且受地質與工程參數的綜合影響,地質參數和壓裂工程參數與頁巖氣水平井產量之間存在復雜的非線性關系,常規的線性回歸方法預測精度較低。
人工神經網絡是在生物學研究基礎上發展起來的新型信息處理網絡系統,具有通過學習獲取知識并解決問題的能力,是一種通過自學習的方法求解復雜非線性問題的有效方法。近些年來,一些學者[15-17]用人工神經網絡來解決油田實際生產過程中的一些復雜性及模糊性的參數預測問題。2011年Arabjamaloei[18]利用人工神經網絡方法開展了機械鉆速的預測,訓練樣本有330組,實際預測準確度可以達到74%。2012年,雪佛龍采用Hadoop技術來實現地震數據分析[19],可以快速準確地定位油藏的位置,顯著降低了地震數據處理的時間和花費。2013年,英國石油公司也采用類似的技術,采用更高性能計算中心,對地震成像進行模擬和處理,以估算油藏狀況,使團隊更好地了解地下情況,減少地震數據分析時間,并在鉆井之前提供更精細的地層信息[19]。2016年,田亞鵬等[20]根據遺傳算法改進的反向傳播(back propagation,BP)神經網絡,建立了以時間、累計產量、地層壓力作為輸入層,頁巖氣日產量作為輸出層的頁巖氣產量遞減預測模型,產量預測精度較高。2017年,朱紅等[21]提出了一種適用于高維小規模頁巖氣儲層改造產量預測的自適應閾值去噪法神經網絡模型(ATD-BP),該模型首先利用自適應閾值去噪法(adaptive treshold denoising,ATD)算法去除噪聲,再運用BP神經網絡對儲層改造數據進行非線性擬合,得到頁巖氣井產量預測模型,與傳統的BP神經網絡模型相比,該預測模型有效提高了預測的準確率和穩定性。2017年Manshad[22]采用多層神經網絡開展了機械鉆速的預測,通過332組參數的訓練,最終預測精度達到96.2%。2019年,張遠汀等[23]應用機器學習技術預測強雨雪天氣過程中的積雪;2019年,Zhao等[19]鑒于傳統油氣生產的復雜性和不確定性以及難度,提出了一種基于大數據挖掘的潛在解決方案。通過大數據分析和處理,可以對油氣井生產狀態進行診斷、預測和警告。
在頁巖氣田開發過程中,解決眾多地質、工程參數與頁巖氣井產能之間的非線性問題是BP神經網絡的重要挑戰之一。首先利用灰色關聯度計算影響頁巖氣壓后產能的地質和工程因素的權重,然后利用遺傳算法優化BP神經網絡的權值和閾值,通過數據挖掘技術直接從地質參數和工程參數入手,突破傳統理論模型的局限,建立長寧地區頁巖氣藏體積壓裂水平井產能預測模型,提高頁巖氣水平井產能預測效率和精度。
影響頁巖體積壓裂井產能的因素有很多,包括總有機碳含量(total organic carbon,TOC)、孔隙度、含氣量、脆性礦物指數、I類儲層鉆遇長度、巷道位置距離優質頁巖底部等地質參數,單井百米液量、單井百米砂量、平均分段段長、排量、脆性礦物指數、巷道位置距離優質頁巖底部、平均停泵壓力、井筒完整性等工程參數。為研究頁巖氣井體積壓裂后產能與各因素之間的關系,利用灰色關聯度確定影響長寧地區57口頁巖氣水平井壓后產量的主控因素及權重,為下一步的神經網絡產能預測模型提供重要的指導。
灰色關聯方法的基礎是灰色系統理論,能夠統計多種因素之間的關聯度。多因素之間的關聯度是通過計算參考數列和比較數列的關聯系數來實現,若參考數列和比較數列變化趨勢不一致,則說明關聯度較低,反之關聯度較強。
設X0={X0(k)|k=1,2,…,n}為參考數列,Xi={Xi(k)|k=1,2,…,n}(i=1,2,…,m)為比較數列,其中m表示因素個數,n表示每個因素的實驗次數。灰色關聯度分析方法的具體計算步驟如下。
(1)數據無因次化。

(1)
(2)求差序列記。
(2)
(3)計算兩級最大差M與最小差m。
(3)
(4)
(4)計算關聯系數。
(5)
式(5)中:ξ∈(0,1),一般ξ=0.5。
(5)計算灰色關聯度。
(6)
將TOC、含氣量、孔隙度、脆性礦物指數、巷道位置距離優質頁巖底部、Ⅰ類儲層鉆遇長度、平均分段段長、排量、單井百米液量、單井百米砂量、平均停泵壓力、井筒完整性等參數與測試產量的關聯度進行排序,如圖1所示。通過計算得到的各因素對單井測試產量的影響程度由大到小排序依次為:TOC>單井百米液量>單井百米砂量>脆性礦物指數>含氣量>Ⅰ類儲層鉆遇長度>孔隙度>平均停泵壓力>巷道位置距離優質頁巖底部>排量>平均分段段長>井筒完整性;TOC的關聯度最高,井筒完整性的關聯度最小;關聯度在0.7以上有TOC、單井百米液量、單井百米砂量、脆性礦物指數4個參數。據推斷,在與測試產量相關的地質工程參數中,TOC含量非常關鍵,同時頁巖氣水平井體積壓裂的規模和復雜程度對頁巖氣水平井的開發初期影響更大。

圖1 影響產量的因素與測試產量的關聯度大小排序Fig.1 Sorting the degree of correlation between factors affecting production and test production
將TOC、含氣量、孔隙度、脆性礦物指數、巷道位置距離優質頁巖底部、Ⅰ類儲層鉆遇長度、平均分段段長、排量、單井百米液量、單井百米砂量、平均停泵壓力、井筒完整性等參數與3個月累產量的關聯度進行排序,如圖2所示。通過計算得到的各因素對單井測試產量的影響程度由大到小排序依次為:TOC>單井百米液量>脆性礦物指數>單井百米砂量>巷道位置距離優質頁巖底部>平均停泵壓力>含氣量>孔隙度>Ⅰ類儲層鉆遇長度>平均分段段長>排量>井筒完整性;TOC的關聯度最高,井筒完整性的關聯度最小;關聯度在0.7以上的有TOC、單井百米液量、單井百米砂量、脆性礦物指數等4個參數,其中TOC含量相關性還是最高。與地質參數相比,壓裂工程參數在此階段與3個月累產的相關性更大。據推斷,頁巖氣水平井體積壓裂的規模和復雜程度對頁巖氣水平井的開發初期影響更大。

圖2 影響產量的因素與3個月累產量的關聯度大小排序Fig.2 Sorting the relationship between factors affecting production and the production of three months
將TOC、含氣量、孔隙度、脆性礦物指數、巷道位置距離優質頁巖底部、Ⅰ類儲層鉆遇長度、平均分段段長、排量、單井百米液量、單井百米砂量、平均停泵壓力、井筒完整性等參數與12個月累產量的關聯度進行排序,如圖3所示。通過計算得到的各因素對單井測試產量的影響程度由大到小排序依次為:TOC>Ⅰ類儲層鉆遇長度>孔隙度>含氣量>脆性礦物指數>平均停泵壓力>單井百米砂量>巷道位置距離優質頁巖底部>排量>單井百米液量>平均分段段長>井筒完整性;TOC的關聯度最高,井筒完整性的關聯度最小;關聯度在0.7以上的有TOC和Ⅰ類儲層鉆遇長度2個參數。與地質參數相比,壓裂工程參數在此階段與12個月累產的相關性顯著下降,基本處于關聯度排序的后半段。據推斷,頁巖氣藏地質條件對頁巖氣水平井的開發穩產階段影響更大。

圖3 影響產量的因素與12個月累產量的 關聯度大小排序Fig.3 Sorting the relationship between factors affecting production and the production of twelve months
BP神經網絡是一種自學習的非線性擬合建模方法,根據輸入的訓練樣本,即可自動適應和確定各神經元的連接權重[19]。通過神經網絡系統進行多次訓練后,神經網絡的各層權值將存儲擬合信息,該擬合信息是從樣本數據集中提取而來的。最終,通過輸入數據和權值的運算即可得到所需的預測值。
盡管BP神經網絡具有很多優點,比如計算量小和并性強等,但是它的網絡收斂速度慢,造成學習效率低,可能會使神經網絡性能變差,甚至無法使用。需要尋求一種方法來克服BP神經網絡的缺點,通過遺傳算法來對BP算法進行優化。
遺傳算法是通過迭代算法實現計算的,是在全局內進行優化搜索的一種算法[20]。利用基因編碼的染色體來組成一個種群,該種群即表示遺傳算法中需要求解的問題集。通過選擇、交叉以及變異的遺傳操作方法和選擇適應度函數來對每個染色體進行處理,淘汰適應度值差的染色體。如此反復循環,直到達到所要求的條件。遺傳算法參數關系如圖4所示。

圖4 遺傳算法參數關系示意Fig.4 Schematic of genetic algorithm parameters
GA-BP神經網絡充分利用遺傳算法和神經網絡的優點,在神經網絡的初始權值和閾值計算階段,利用遺傳算法對其進行優化,獲得更加準確的模型初值,避免發生收斂速度慢、局部最小值等問題。
GA-BP神經網絡優化算法的主要流程如下:
(1)對原始數據進行編碼,建立初始種群。
(2)建立適應度函數。將預測的測試產量數據Ok與實際測試產量數據Yk之間的誤差平方和定義為E(i),將E(i)的倒數設定為適應度函數f(i),適應度越大,則預測精度越高。
(7)
(3)選擇操作。首先計算每口訓練井的適應度之和,定義為F,并由式(9)得到每口訓練井的相對適應度pk,并以此作為該個體遺傳到下一代種群中的概率。
(8)
(9)
(4)交叉操作。采用算術交叉算子,交叉操作示意如圖5所示。
(5)變異操作。采用變異算子產生新個體,變異操作示意如圖6所示。
(6)輸出結果并設置BP網絡的初始權值與閾值。
設置兩種判斷條件終止計算:①設定最大迭代次數,迭代到最大代數時計算自動停止;②設置誤差最小值,當滿足誤差要求,停止計算。此時輸出最優的BP網絡初始權值與閾值。
綜上,GA-BP神經網絡算法流程圖如圖7所示。

圖5 交叉操作示意Fig.5 Cross operation diagram

圖6 變異操作示意Fig.6 Variation operation diagram

圖7 GA-BP神經網絡算法流程Fig.7 GA-BP neural network algorithm flow
為了保證頁巖氣產能預測模型的真實有效性,樣本數據來源于長寧地區已壓裂井的統計數據,保證了模型的可靠性。本模型的樣本庫數據來自于長寧A2、A3、A4、A5、A6等11個平臺的57口井數據,部分參數如表1所示。
常規氣藏壓裂后影響產能的主要參數有儲層厚度、滲透率、裂縫條數、裂縫半縫長等,而由于頁巖氣藏基質滲透率極低,無自然產能,必須通過水力壓裂才能實現商業開采,因此常規參數無法充分考慮頁巖氣井產量特征。
選取影響頁巖氣井產能的地質參數和工程參數作為模型的指標參數[24-29],其中影響頁巖氣井產能的地質參數指標為TOC、含氣量、有效孔隙度、脆性礦物含量、地層壓力等5個參數,其中脆性礦物含量由脆性礦物指數替代,由于水平井段的鉆井液密度同地層壓力存在相關,地層壓力可由鉆井液密度替代;影響頁巖氣水平井體積壓裂改造效果的重要工程參數為巷道位置距離優質頁巖底部距離、Ⅰ類儲層鉆遇長度、有效改造段長度、平均分段段長、泵壓、總液量、總砂量、平均單段砂量、100目粉砂總量、40/70目陶粒用量、平均停泵壓力、井筒完整性等參數。

圖8 GA-BP神經網絡算法結構圖Fig.8 GA-BP neural network algorithm structure
產能預測模型選用經典的3層神經網絡模型來構建。其中17個與產能相關的地質及工程參數作為輸入參數,則輸入層節點個數為17;頁巖氣井壓裂后測試產量作為輸出參數,則設定輸出層節點個數為1。經過多次試驗,本網絡的隱含層節點數確定為35,最終構建的網絡拓撲結構圖如圖8所示。根據模型調試計算的結果和經驗,本模型設定的最大訓練次數為10 000次,訓練要求的精度為0.000 01。綜合考慮模型的精度和穩定性要求,將學習速率設定為0.05,種群規模設定為80,進化次數設定為20,交叉概率設定為0.4,變異概率設定為0.2。利用實數編碼方式來編碼閾值、權值,采用遺傳算法優化獲得個體最優解,作為BP網絡的初始權值和閾值。
綜上,基于MATLAB軟件平臺,選用經典三層BP神經網絡模型,利用遺傳算法對各層間權值和層內閾值進行了優化,結合長寧地區已生產井的地質、工程參數和產量數據,構建了頁巖氣水平井體積壓裂產能預測模型。
為了保證頁巖氣產能預測模型的真實有效性,樣本數據來源于長寧地區已壓裂井的統計數據,保證了模型的可靠性。本模型的樣本庫數據來自于長寧A2、A3、A4、A5、A6等11個平臺的57口井數據,部分參數如表1所示。
利用建立的GA-BP神經網絡模型,對樣本庫中隨機選取的54口井的數據進行訓練,建立頁巖氣水平井體積壓裂產能預測模型。留下3口井的數據不參加學習,作為模型精度檢驗。模型的訓練結果如圖9所示,54口井的預測測試產量與實測測試產量相比誤差值為1.29 m3/d至3.49×102m3/d,最大相對誤差在A8-4井(本井采用了不同壓裂工藝),誤差為1.247%,訓練精度高。
為了進一步驗證頁巖氣水平井體積壓裂產量預測模型的適用性,將長寧地區B1井、B2井和B3井的地質、工程參數輸入到軟件中(具體參數如表2、表3所示),開展測試產量預測,并將預測結果與現場實測數據以及多元回歸法[26]進行對比,結果如表4所示。

圖9 訓練數據誤差對比Fig.9 Training data error comparison
由表4可得,訓練后的頁巖氣水平井體積壓裂產量預測模型最大相對誤差為17.57%,平均誤差為8.76%;多元回歸模型預測結果最大相對誤差為69.752%,平均誤差為56.55%。這表明,基于GA-BP神經網絡建立的頁巖氣產量預測模型可以很好地表達測試產量與各個影響因素之間的內在規律和聯系。對比多元回歸模型預測產能值和GA-BP神經網絡預測值,GA-BP神經網絡預測值的精度明顯遠高于多元回歸的預測值,且預測精度的誤差率較小,為預測頁巖氣體積壓裂產量提供了一個高效、可行、較精確的方法。

表1 樣本數據庫部分參數Table1 Some parameter of sample database

表2 壓裂井的地質參數Table 2 Geological parameters of fracturing wells

表3 壓裂井的工程參數Table 3 Engineering parameters of fracturing wells

表4 預測數據同實際數據對比Table 4 Comparison of forecast data with actual data
(1)利用灰色關聯度,確定了影響頁巖氣產能的地質因素和工程因素的排序大小。根據計算結果,TOC的影響權重最大,同時頁巖氣水平井體積壓裂的規模和復雜程度對頁巖氣水平井的開發初期影響更大,而頁巖氣藏地質條件對頁巖氣水平井的開發穩產階段影響更大。
(2)基于MATLAB軟件平臺,選用經典三層BP神經網絡模型,利用遺傳算法對各層間權值和層內閾值進行了優化,同時,根據影響頁巖氣產量的因素,利用現場實際數據,建立了以有機碳含量、含氣量、有效孔隙度、脆性礦物含量等17種地質、工程參數作為輸入層,測試產量作為輸出層的GA-BP神經網絡模型。
(3)以長寧地區54口實際壓裂井數據作為訓練學習樣本,利用GA-BP神經網絡模型建立了頁巖氣水平井產能預測模型具有較高的準確度,擬合數據最大誤差僅為1.247%。利用3口實際井數據作為檢驗樣品,結果表明最大誤差為17.57%,平均誤差為8.76%,該模型同多元回歸法相比,具有操作靈活和預測精度高的特點,這種基于數據挖掘的分析方法為長寧地區頁巖氣井的產能預測提供了一種新思路,提高了產能預測效率。