(大慶油田有限責任公司第一采油廠 信息中心,黑龍江 大慶 163000)
大數據分析技術作為新興的主流技術在越來越多的領域中逐步展現出其特有的技術魅力。目前,隨著低油價時代的來臨,各大石油公司實行降本增效,大數據的發展是很多石油公司的突破口,由于地質條件復雜,微觀尺度的精細描述很難實現,為了找到油氣井高產的主控因素,可以把油田的采油、油藏、作業的歷史數據作為油田開發領域大數據分析中的基礎數據庫,可以在這些浩瀚的數據海洋中運用現有基本成熟的數據挖掘方法進行規律分析、因次分析、關聯分析以及經驗相關式的統計回歸,進而指導實際油田的生產實踐。
壓裂是油田開發過程中的重要增產措施,壓裂效果將會對油田開發效果的評價和開發方案的調整產生直接的影響。目前,老油田處于特高含水期,壓裂措施面臨著很多不利因素,主要有以下3 種:一是油田進入高含水開發階段后,壓裂井的層條件越來越差,措施挖潛的難度逐漸變大,壓裂增油效果變差;二是油田儲層相對致密,油水井間的連通性較差,油井的受效程度相對低;三是部分儲層裂縫不發育,壓裂后油井含水上升快,容易出現水淹。傳統的方法是基于統計和經驗方法,根據上壓裂井的一些特性采用一些壓裂方法來提高油產量,但是根據經驗判斷上壓裂井的方式,可能不會產生很大作用,需要繼續實施壓裂措施。
因此,以提高油井單井產量為目的,快速準確地進行優化壓裂選井及壓裂選層就顯得愈發重要,本文運用大數據分析技術和人工智能算法,通過讀取油水井動靜態開發數據,從不同層位、有效厚度、注水情況、采出程度等指標,對已經上壓裂井進行壓裂井產量效果的影響因素分析,從而確定下一步選取井進行壓裂的原則,根據已有的壓裂井的數據進行訓練,構建壓裂選井模型,來預測井的日增油產量情況,以此來判斷油井是否需要上壓裂,為油田油井提高產油量提供快速、有效的決策方法。
影響壓裂決策的因素較多,決策參數的規模較大,不能只依靠專家的經驗和建議。需要根據因素的全面性、獨立性、泛化性進行科學的分析和篩選,綜合考慮油氣藏特性、地質特征、物性參數、測試數據和動態生產數據等多方面的因素。這些因素不是相互獨立的,而是有聯系的,需選出對壓裂效果影響較大的因素。
影響壓裂效果的指標分為3 類:①地層靜態數據,包括油層深度、厚度、層數、孔隙度、滲透率、含油飽和度等;②壓裂施工數據,包括支撐劑用量、粒度、壓裂液用量、壓裂液名稱等壓裂工藝數據;③動態生產數據,包含壓裂前后6 個月的平均日產油量。
油田開發數據存在不完整性、不一致性及異常值等侵擾,質量較低的數據將直接導致數據挖掘結果質量下降,因此需要對原始數據進行處理。①數據清洗。將原有缺失的值進行補充填寫,平滑數據噪聲,刪除離群較遠的點,解決數據的不一致性問題。②數據集成。使用靜態數據、動態數據、作業數據等多個數據庫進行集成。③數據歸約。用替代的、較小的數據表示形式替換元數據,使得到信息內容的損失最小化。④數據變換。如生成新的數據字段,利用壓裂井信息表中的壓裂日期和井號身份標識號(Identity document,ID)字段拼接,與油井月數據關聯匹配出壓裂日期前6 個月,壓裂后6 個月、12 個月、18 個月、24 個月的數據。
數據關聯的主要目的是實現不同數據庫之間的跨庫查詢及數據使用,將不同數據來源及不同數據庫中的數據,通過共有的關聯字段或變量整合為一個統一的數據庫。將某采油廠2011-2018 年的全部壓裂井相關信息做數據關聯,壓裂井的單井沉積單元儲層數據與油井月生產數據做關聯,計算壓裂井前和壓裂后的日產油、日產水開發指標。同時,用同樣的計算方法計算壓裂井前和壓裂后的油井產液量和含水變化、油壓、套壓、流壓、靜壓變化以及動液面變化。
壓裂井選取分析可采用簡單參數的梯度提升決策樹算法構建回歸模型。梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結論累加起來得出最終答案。GBDT 主要結合回歸樹和提升樹的思想,來做回歸預測,調整后也可以用于分類(設定閾值,大于閾值為正例,反之為負例),可以發現多種有區分性的特征以及特征組合。下文先介紹回歸樹和提升樹,然后詳細闡述梯度提升決策樹的算法步驟。
回歸樹是根據最小化平方誤差的準則,遞歸構建二叉決策樹。假設x 與y 分別為輸入輸出變量,并且y 是連續變量,給定訓練數據:

一個回歸樹將輸入空間(即特征空間)劃分為M 個單元{R1,R2,…,RM},回歸樹的每個葉子節點對應一個單元,其相應的有一個固定的輸出值cm。當輸入特征為x 時,回歸樹會將其判定到一個葉子節點,將這個葉子節點對應的輸出值cm作為回歸樹的輸出。這樣,回歸樹模型可以表示為:

其中,I(x ∈Rm)為指示函數,當回歸樹判定x 屬于Rm時,其值為1,否則為0.
建立回歸樹的目標是針對數據集D 選擇合適的空間劃分方式(即決策樹的生產方式)和相應的輸出值,來最小化平方誤差:
提升樹模型實際是將多個決策樹進行簡單疊加,數學模型可表示為:

其中,T(x,Θm)表示決策樹,Θm表示決策樹的參數;M 為樹的個數。
針對樣本D={(x1,y1),(x2,y2),…,(xN,yN)},提升樹模型的訓練:選擇決策樹的參數(Θ1,Θ2,…,ΘM) 以最小化損失函數∑L(yi,fM(xi)),即:

這里,損失函數用來反映“樣本標簽yi”與提升樹的輸出fM(xi)之間的差別,可以選擇平方誤差損失函數表示:

針對歷史壓裂井的日增油量數據,采用回歸算法建立日增油量預測模型,從而預測壓裂后增油效果較好的井,將訓練好的模型應用于2019 年的待壓裂井預測,進行壓裂日增油量預測。想完成這一目標首先要將數據集分為訓練集和測試集,利用訓練集建立日增油量產量預測模型,將訓練好的模型用于測試集進行預測,并分析哪些因素對壓裂井有影響。若日增油量大于0,認為該井上了壓裂之后能提高產能;若小于等于0,認為該井在上了壓裂之后不會提高產能,有可能降低產能。
將歷史數據進行拆分,訓練數據和測試數據按照60%和40%的比例隨機拆分,通過評估檢驗回歸模型的準確性和可靠性。從訓練集的誤差表和誤差圖中可以看出,使用梯度提升決策樹對訓練集訓練的平均相對誤差為0.16,平均絕對誤差為1.39,誤差相對較少,說明模型效果較好。前1 月的含水量對該井的壓裂效果后產油量的影響最大,符合一般的認知,同時影響最大的變量有前6 月平均含水量、前1 個月的連通井日產油總和。
根據本文建立的壓裂選井模型,當面對未壓裂井時,可以使用建立的梯度提升決策樹回歸算法的規則進行選井,建立井的日增油量預測模型來進行壓裂井的選取;讀取并利用訓練好的回歸模型,預測井上壓裂后的產量情況;與“水驅井信息表”進行關聯,對某區塊水驅井利用該模型進行預測。
①本文建立了一套基于大數據分析技術的壓裂選井設計方法,包括關聯動靜態開發數據進行影響因素分析、壓裂選井預測模型構建方法的判斷。通過預測對比,該方法是可行的。②通過與人工判斷選取壓裂井的對比來看,利用大數據分析平臺基于人工智能算法快速構建預測壓裂選井模型,能夠大大提高開發人員的工作效率。③未來油田開發過程中,“智能+油田”還需深度融合,只有油田開發專業人員深入應用大數據分析技術,同時結合生產實際進行不斷探索,才能更好地為油田開發決策提供更加高效、準確、全面的參考依據。