李婧璇
(中國石油大港油田信息中心,天津 300280)
隨著信息化的發展,石油勘探開發中逐漸大規模應用計算機網絡、智能控制和數據挖掘等新興技術來實現高效管理。然而,當前數字化系統存在信息共享性差、數據綜合應用率低、報警準確率低等問題。對此,不少石油企業以數字油田為基礎逐漸向智能油田建設方向發展。其智能決策控制中心通過分析大數據,實時進行資源合理調配、異常狀況判斷和生產風險預警,從而實現油田資產的智能化開發和管理。油水井生產異常狀況診斷和管理系統是智能油田建設的一項具體應用,主要針對注采井組進行動態分析。注采井組是以注水井為中心,聯系周圍的油井和水井共同構成的油田開發基本單元。該系統可以實現井組實時診斷檢測、提出相應管理措施、跟蹤進度等功能。
數據挖掘指的是從已有數據庫大體量、有損壞且具體含義模糊的實際數據中進行抽取、轉換、分析以及模塊化處理,發現其中具有潛在價值的可歸納信息的過程。數據挖掘過程中需要保證數據統計的有效性及準確性。決策樹作為一種預測模型,代表的是對象屬性與對象值之間的映射關系。決策樹模型算法簡單,仿真結果準確率高,易于理解和使用,常用于生產故障預測和目標追蹤檢測等。本研究以數據挖掘技術中的決策樹模型來構建系統的核心診斷算法。基于井組生產中的實時數據,工作人員可以通過決策樹模型對生產異常狀況作出判斷和管理,還可以對歷史數據進行分析,設置保護設定值,對各類生產異常相關的指標進行預警監測。模型性能優異,分類精確度高,能夠保障生產穩定安全,為油水井生產異常狀況管理提供參考。
油水井生產異常狀況診斷模型屬于分類模型,決策樹算法挖掘出的分類規則準確性高且易于理解,算法運算速度快。因此,本文選擇使用分類回歸樹(Classification and Regression Tree,CART)決策樹對油水井生產數據進行分析,初步建立生產異常狀況診斷模型。CART 決策樹由根節點、中間節點和葉節點構成,通過計算基尼系數增益來確定分割點,采用二元分割法對數據進行分類,最終形成分類二叉樹。相較于其他決策樹,CART 決策樹在分析大規模樣本時不用進行大量的排序運算和對數運算,運算效率更高。
隨機變量x 對應i 種狀態下的概率為p,p,…,p,使用基尼指數(Gini index)來選擇最佳的節點劃分特征?;嶂笖荡韺傩苑诸惖牟淮_定性,值越小,代表不確定性越低。兩點分布的隨機變量x 的基尼指數為:

式(1)中,Gini 代表基尼指數,p代表樣本屬于i 類別的概率,1-p代表樣本錯誤分類的概率。
對于訓練數據集A,假設有j 個類別,而C代表第j 類樣本的子集,|A|為A 的大小,|C|為C的大小,則集合A 的基尼指數為:

假設數據集A 被特征L 劃分,若L 是離散型,則由L 的某個可能值l 將A 劃分為A、A:

若L 為連續型,則可以得到Gini(A,L):

A、A表示數據集A 被特征屬性L 的最佳分割點分割后的兩部分,|A|、|A|分別表示A、A中樣本的個數。Gini(A,L)取值越大,樣本數據集被標簽劃分的不確定性就越高,因此,對于CART 決策樹,可以選擇Gini(A,L)的最小值作為最佳分割點。
本文引入提升算法提升決策樹分類精度,在初步構建完成CART 決策樹后改變樣本權重,構建新的訓練集得到一系列弱分類二叉樹{T,T,T,…,T},將其進行加性組合,最終得到一個更加穩定高效的強分類二叉樹F。
第n 個弱分類器的誤差率E為:

式(5)中,W表示第n 個弱分類器、第m 個樣本的權重;T(m)表示數據集A 的第m 個樣本經弱分類器T分類后得到的值;y表示樣本真實值;I 為指示函數,取值為0 或1;N 為樣本集A 的樣本個數。當預測值T(m)=真實值y時為0,當預測值T(m)≠真實值y時為1。
分類器加性組合系數α為:

權重W為:

規范因子Z為:

最終的強分類器函數表達式為:

F對數據集的誤分類次數達到最低值時,新的弱分類器即停止構建。
本文所使用的原始數據來源于某油田注采井組施工現場各底層傳感器采集的生產動態資料,具體包括產能資料、壓力資料、水淹狀況資料、原油和水的物性資料以及井下作業資料等。
將原始數據按照生產時間保存日志文件,通過編程進行解析。對解析后得到的數據中重復、缺失和有明顯錯誤的數據分別采取合并、臨近數值補全和直接舍棄的措施進行初步處理。從不同時間段隨機抽取2020—2021 年生產正常時的數據4 500 組,等概率抽取2020—2021 年生產異常時的數據3 500 組共同組成數據集A。將數據集中的正常數據和異常數據進行隨機混合,將其中的5 000 組數據作為訓練集,剩下的3 000 組數據作為測試集。利用CART 決策樹模型對訓練集進行訓練。
油水井生產異常狀況可以細化為決策樹深度為9的二叉樹,且在輸入因素中,電網波動、電潛泵控制柜故障、地層壓力、含水變化、原油相對密度黏度和施工單位規模這6 個因素集中在決策樹中的前3 層,表明這些因素對油水井生產影響較大。為了進一步清晰地展示油水井生產異常狀況的具體分類預測情況,本文根據決策樹細化了生產異常因素分類規則及其樣本分布,部分樣本數量較多的分類情況如表1 所示。

表1 部分油水井生產異常狀況的分類規則及樣本分布情況
學習率是機器學習中重要的超參數,合適的學習率能夠使模型在一定時間內收斂到局部最小值,達到最優性能。根據實驗結果,本文繪制了強分類器分類精確度與學習率關系曲線以及受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC 曲線),具體如圖1 所示。

圖1 強分類器ROC 曲線及精確度與學習率關系曲線
理論上,學習率的取值也會影響強分類器分類精度,但在實際測試中,學習率變化對分類精度的影響較小。圖1 中可以看出在學習率為[0,0.1]時,分類器處于欠擬合狀態;學習率大于0.1 后,分類精度逐漸增高后降低;當學習率取0.8 時精度最大,為87%,此時ROC 曲線如圖1 所示。ROC 曲線中越靠近圖1 左上角,模型預測結果越準確,曲線下面積(Area Under Curve,AUC)約為0.90,表明該模型性能優異。
對油水井生產異常狀況進行診斷和管理能夠有效穩定原油產量,保障生產工人的生命財產安全。模型仿真形成的決策樹可以對生產異常狀況輸入因素進行分類,直觀顯示出影響油水井生產的不同因素及其比重。模型學習率變化對分類精度的影響較小,ROC 曲線下面積基本大于0.90,表明模型性能優異,可為油水井生產異常狀況管理提供參考。但是,模型僅對生產異常狀況進行了初步分類,對于油水井生產異常情況的管理依然需要人工操作,還需針對異常管理進行智能化改進。