王娟 梅啟亮 鄒永玲 蔡亮 蘇建華 田榆杰 黃瑞,5
1. 中國石油長慶油田分公司數字和智能化事業部;2. 中國石油天然氣集團有限公司勘探開發人工智能技術研發中心;3. 中國石油長慶油田分公司勘探開發研究院;4. 清華四川能源互聯網研究院;5. 北京思達威云石油工程技術研究院有限公司
油藏產量是代表油藏發展趨勢的主要參數,也是油藏開發方案調整的重要參考依據。油藏產能預測是表現油藏未來生產能力的主要方法,能夠有效地反映油藏未來開發狀況[1]。傳統的產量經驗方法雖然已得到廣泛認可,但只能對產量趨勢進行簡單的預估,無法滿足精確預測的需求,同時不斷擴增的數據體量也增加了傳統方法預測的難度和成本[2]。近年來,隨著人工智能技術在石油工業領域的應用與推廣[3-5],油田進入信息化、數字化、智能化的時代。油田開發的各個環節都積累了大量的歷史生產數據且形式多樣、結構復雜。傳統的分析預測方法已無法充分體現數據的價值,難以滿足以數據驅動為主的油藏動態分析技術在生產的應用需求。因此,探索一種基于機器學習算法的油藏產量預測方法具有重要的意義。
合理地引入人工智能方法,建立適應于油田開發數據的機器學習模型,是進行油田數據智能分析的關鍵,也對實現油藏產量智能預測具有重要價值。2017 年Martin 等[6]提出了一種采用兩步機器學習方案進行產量預測的自動化數據驅動方法,實現了油藏產量的預測與影響因素的相關性分析。2018 年潘有軍等[7]使用多元線性回歸方法建立了火山巖壓裂水平井的產能模型,分析了多因素對產能的影響規律,指出了線性模型的表征仍不夠完善,導致出現應用過程部分井的預測相對誤差較大的情況。2019 年Noshi 等[8]探討了梯度增強樹(GBT)、Adaboost 和支持向量回歸(SVR)3 種機器學習算法在產量預測方面的潛在應用,并對3 種算法的應用效果進行了對比分析,優化了產量預測模型的計算結果。2020 年王洪亮等[9]基于長短期記憶神經網絡模型,考慮產量數據隨時間變化的趨勢與歷史關聯性,進行了特高含水期油藏產量的預測,對油藏產量指標的預測結果取得了優化效果。2021 年張瑞等[10]提出了基于多變量時間序列及向量自回歸模型的油藏產量預測方法,進一步提升了產量預測的準確率。2022 年陳浩等[11]通過多個相似系數篩選出7 個主控因素,優化計算效率,并基于支持向量機實現了水平井的產能預測方法。2022 年馬先林等[12]利用SHAP 方法對建立的產能預測模型進行全局和局部解釋,增加了模型的可信性和透明度。由此可見,近年來利用機器學習算法進行油藏產量預測技術的研究,并獲得準確的預測結果,一直是廣大學者探索的重點科研方向之一,而且取得了大量的技術成果。
綜合考慮多參數關聯性、時間序列模型調參優化、油藏產量預測模型動態更新等技術需求[13],結合前期學者的研究經驗與多參數時序預測方法、長短期記憶神經網絡(LSTM)、粒子群優化算法(PSO)、動態建模等技術特點。針對利用機器學習算法進行油藏產量預測過程中,因缺乏考慮時間序列模型的參數調整優化技術,以及新數據疊加進行預測模型動態更新技術,導致產量預測的準確率不高且時效性不強,難以滿足實際生產應用需求等問題。研究了基于多參數時間序列的LSTM 模型及PSO 算法的油藏產量動態預測模型與技術,可根據油藏生產歷史數據與新增實時數據,利用機器學習算法,進行油藏產量指標動態預測,進一步優化產量預測的準確率與實用性,并通過長慶油田多個油藏實際生產案例的應用,進行了結果對比分析。
油藏產量預測模型框架流程如圖1 所示,共包含參數降維、模型優化以及模型主線3 個模塊。(1)參數降維。對初始的多參數油藏產量數據集進行主控因素分析,篩選出主控參數。(2)模型優化。基于長短期記憶網絡搭建多參數的LSTM 預測模型,并利用粒子群算法對其參數進行調優。(3)模型主線。監控油藏產量數據狀態,一旦更新則對現有數據進行訓練與動態建模后,預測未來指定時長的油藏日產油水平、綜合含水率等油藏的生產指標。于對鳥群捕食行為的研究,目前已被廣泛應用于各類優化問題,其基本思想是尋找最優解[17]。PSO算法中粒子僅具有位置和速度兩個屬性,其中位置代表移動的方向,速度代表移動的快慢。首先初始化粒子群的各項參數,然后不斷地進行進化迭代計算,直到尋找到最優解。假設一個種群由M個粒子構成,在進行多次迭代計算過程中,當迭代到第t次時,第i個粒子的屬性記為位置Xi,t和速度Vi,t,粒子通過式(1)和式(2)來更新粒子的位置和速度,即尋找兩個最優解,一個是個體極值p,另一個是全局最優解g。

圖1 油藏產量預測模型主框架流程Fig. 1 Main framework of the reservoir production prediction model
LSTM 是循環神經網絡的一個變體,由德國學者Hochreiter 和Schmidhuber[14]于1997 年提出。LSTM 通過有針對性設計避免了長期依賴問題,在大量實驗中證明了其優越性。不同于普通RNN 的單一隱藏層,LSTM 將信息存放在RNN 正常信息流之外的控制單元中,即引入一個新的狀態單元c[15]。LSTM 的設計核心是門限機制,包括輸入門、遺忘門和輸出門。其中,輸入門的作用是篩選新信息,遺忘門的作用是確定丟棄信息,輸出門的作用是決定最終輸出和保留的信息。
針對油藏多個參數數據間具有一定的相關性,提出了改進的多參數LSTM 傳感器時序預測模型,且模型框架分為輸入層、隱含層、模型訓練、輸出層4 個部分。輸入層是對原始變量時間序列集進行分割、標準化處理,以滿足網絡輸入要求。隱含層是利用LSTM 單元結構對參數進行權重更新、優化。模型訓練是模型采用粒子群優化算法進行網絡權重更新。輸出層是輸出預測結果、反標準化處理、驗證誤差。
針對模型訓練過程,采用粒子群優化算法對多參數LSTM 預測模型進行參數調優,使模型損失最小。粒子群PSO 算法是一種進化計算方法[16],源
式中,i為粒子序號,i=1,2,···,n,n為群體粒子總數;ω為慣性因子;c1和c2為學習因子,通常c1=c2=2。
將輸入數據與目標數據之間的初始誤差作為粒子群算法的適應度值,根據條件判斷粒子群的性能,適應度函數為
式中,Q為適應度值;K為數據集的大小;y為實測值;y′為預測值。
產量預測模型構建過程的主要步驟如下:(1)將預測油藏產量的所有輸入數據進行主控因素分析,進行參數降維;(2)將主控參數放入LSTM 模型中,搭建出多參數LSTM 初始預測模型;(3)將LSTM模型中的時間窗長度、數據批處理量、隱藏層單元數目作為優化對象,隨機生成一組待優化參數作為粒子初始化坐標;(4)將預測結果的平均絕對百分比誤差作為適應度值,根據式(3)計算適應度值;(5)將每個粒子的個體最優解p設置為粒子的當前位置,并計算每個粒子的適應度值,其中適應度值最大的粒子的個體最優解是當前種群g的最優解;(6)將每個粒子的適應度值與p進行比較,保留較好的結果值;同理,將每個粒子的適合度值與g進行比較,保留較好的結果值;(7)根據式(1)和式(2)更新粒子的位置和速度;(8)若滿足迭代終止條件,利用獲得的最優粒子構建多參數LSTM 神經網絡預測模型;若不滿足迭代終止條件,則返回上述第(5)步,進行粒子更新;(9)將歷史測試集或最新樣本數據集輸入所構建的歷史預測模型,實現模型的動態更新,并輸出未來指定時長油藏產量指標的預測值。
選取長慶油田某采油廠64 個油藏區塊的生產數據作為模型訓練與驗證的樣本源。數據樣本集包括時間、日產水、日產油、累計產油、累計產水、綜合含水率、月注水量、總井數、油井數、水井數、油井實際開井數、水井實際開井數、新/老井產油量、月生產天數、動液面、生產層位等35 個輸入參數,針對樣本集參數采用Pearson 系數進行相關性分析,結果如表1 所示,其中目標參數為日產油水平和綜合含水率2 項油藏生產指標參數。

表1 參數相關性分析結果Table 1 Results of parameter correlation analysis
通過結果分析,并校驗各參數間的物理規律與參數表征的意義,上述部分參數之間存在一定的強相關性。可依據實際應用需求,對具備強相關性特征的參數進行訓練樣本集的降維處理。將降維后的參數集作為產量預測模型構建與訓練的輸入樣本集。通過隨機森林算法[18]對應用案例油藏的目標參數進行建模計算,可獲得各輸入參數與日產油水平、綜合含水率等目標預測參數之間的特征重要性表征參數值。
針對應用案例的目標預測參數的特征重要性表征參數排序,提取排名前十的輸入參數分析結果,如圖2 所示,對于油藏日產油水平預測的特征重要性分析結果可知,主要影響因素包括了油井開井數、注水井開井數、月注水量、單井產油量等,體現了增加實際投產油井數可保持油藏日產油水平能力與穩產等特點。在生產過程中,注水井的數量與月注量,也對油藏保持日產油水平的能力具有較大的影響,與現場實際的生產情況相符。同時,如圖3 所示,對于油藏生產過程綜合含水率預測的特征重要性分析,主要影響因素包含了年月時序、單井平均日注量、實際注水井數以及對應的油井投產數,符合長慶油田水驅油藏的開發特征以及注采生產規律。

圖2 日產油水平預測特征重要性分析Fig. 2 Feature importance analysis of daily oil production level prediction

圖3 綜合含水率預測模型特征重要性分析Fig. 3 Feature importance analysis of comprehensive water cut prediction model
針對長慶油田以水驅油藏為主且油、水井數量龐大等生產特征,上述案例所展示的日產油水平與綜合含水率兩項預測指標相關參數特征重要性模型的分析結果符合實際的生產情況,具有較好的應用價值。
所述預測模型應用效果的驗證,可分為5 個連續優化方案:原始LSTM 模型、多參數LSTM 模型、參數降維LSTM 模型、粒子群優化算法的LTSM 模型、引入動態建模技術的LSTM 模型。選取5 個案例油藏樣本數據集對模型的產量預測計算結果與歷史生產數據進行擬合分析,預測結果擬合優度如表2 所示。

表2 油藏產量預測模型優化效果分析Table 2 Optimization effects of reservoir production prediction model
從統計結果表可分析出,油藏產量預測模型LSTM 在不斷優化的過程中,模型產量指標的擬合優度也隨之提升。當加入動態更新方法后,擬合優度的提升幅度最大。其中,日產油水平平均擬合優度約0.952,綜合含水率平均擬合優度約0.916。因此,考慮多參數時序LTSM 模型與PSO 參數優化算法的動態建模技術,可滿足油藏實際生產過程的產量預測,具有預測結果準確率提升效果。
利用長慶油田64 個油藏真實生產數據,進行產量預測模型的應用與研究,并選取其中2 個實際油藏生產應用為例,案例油藏皆具有 10 年以上生產歷史特點。為分析所研究的日產油水平、綜合含水率等油藏生產指標預測方法的應用效果,選擇案例油藏前5 年生產歷史數據樣本作為預測模型初始訓練集,進行初始預測模型訓練與應用。投產第6 年開始進行隨時間變化預測模型動態更新,模型更新步長與預測步長為1 個月。案例油藏生產應用過程中的日產油水平、綜合含水率實際值與預測值進行計算輸出。
油藏1、油藏2 投產時間分別為2007 年6 月、2005 年2 月,產量指標預測應用統計結束日期為2022 年1 月。油藏生產應用過程利用所述技術構建了日產油水平、綜合含水率動態預測模型,進行產量指標的預測。如圖4、圖5 所示,針對日產油水平的預測,無論是前5 年的初始模型(即未進行動態更新的靜態訓練模型)的應用結果,還是后續生產時間持續的動態更新模型的應用結果,整體預測效果較好,平均擬合優度分別達0.967、0.982,展現了良好的準確率與實用性。同時,如圖6、圖7 所示,針對綜合含水率的預測,利用所述方法構建的模型,可隨著新增生產數據的錄入,及時地完成模型更新與指標預測,實現了預測指標的準確率隨模型的更新進行優化特點,以及整體預測效果提升的優勢。可見,基于多參數LSTM 及粒子群優化算法的油藏產量動態預測模型在實際油藏案例中的應用中,預測準確率較高,可滿足生產應用產量預測的需求。其中,R2表示生產時間內的平均擬合優度。

圖4 油藏1 日產油水平計算模型應用效果Fig. 4 Application of oil production rate model in Case 1

圖5 油藏2 日產油水平計算模型應用效果Fig. 5 Application of oil production rate model in Case 2

圖6 油藏1 綜合含水率計算模型應用效果Fig. 6 Application of comprehensive water cut model in Case 1

圖7 油藏2 綜合含水率模型應用效果Fig. 7 Application of comprehensive water cut model in Case 2
(1)基于多參數時間序列的LSTM 模型,綜合考慮多個參數維度對目標參數未來趨勢的影響,進而提升油藏產量預測的準確率。同時,模型能分析出各維度參數對油藏產量的影響因素權重值,從而在輔助實際生產中,可以調整重要因素達到影響未來油藏產量走勢。在不同的生產應用場景下,針對同一套參數的LSTM 模型無法完全適配生產數據的變化趨勢情況,引入粒子群優化算法,具有保持油藏產量預測模型在時間維度上的動態最優性特點。
(2)油藏產量是隨時間動態變化的生產指標,基于LSTM 的動態預測模型在考慮油藏生產歷史數據的同時,將新增生產數據與歷史訓練模型進行信息融合,實現預測模型的動態建模與模型更新。對于生產歷史較短、樣本量較少等情況的生產數據,動態更新預測模型不僅可快速完成日產油水平、綜合含水率等指標參數的預測,還能不斷優化預測結果的準確率。
(3)在實際油藏生產的應用過程中,針對油藏產量預測模型構建過程未考慮多個參數作用的影響、未對時間序列模型調參優化、未隨時間動態更新模型等問題。通過基于多參數時間序列的LSTM 模型及粒子群優化算法的油藏產量動態預測的方法,既能考慮多參數對產量指標預測的影響,又能動態地進行模型優化與更新,較好地解決了上述問題,從而進一步提升了油藏產量預測的準確率與實用性。該方法不僅可為產量指標的預測提供方案,還可為油藏配產方案設計、經濟評價等環節提供技術支撐,展現出了較好的應用價值。