張中慧
(中國石化勝利油田分公司石油工程技術研究院,山東 東營 257000)
抽油機井作為油田的核心生產單元,深入分析其免修期的內在影響因素和影響規律至關重要。這不僅有助于降低作業工作量,更能有效延長免修期,為油田的穩定生產提供有力保障[1,2]。
徐麗萍[3]針對游梁式抽油機的平衡度問題,提出了電流平衡法和功率平衡法,旨在提升其工作性能,進而延長油井壽命。楊凱瀾等[4]在油田現場進行了實證研究,對比了多種防蠟、除蠟技術,并從生產管理制度層面提出了改進措施,進一步提高了井筒治理的有效性,延長了抽油機井的免修期。劉春杰[5]則關注清防蠟措施,結合熱洗和井口加藥等方法,有效地延長了抽油機井的免修期。F.A.Aliev[6]開發了一種計算機模型,該模型能監測泵的主要運行參數和儲層系統的特性,進而確定油井-油藏系統中沉積物的主要特征和有桿抽油機的參數。而T.A.Aliev[7]則基于傳感器數據,提出了一種檢測算法,用以觀察采油器械的老化損失情況,及時采取措施延長免修期。
長期以來,研究人員從采油工程理論出發,對油井免修期過短的原因進行了深入研究,并提出了一系列延長免修期的措施。這些措施在油田的機采管理工作中起到了一定的推動作用,但由于免修期影響因素的復雜性,問題并未得到根本解決。近年來,隨著大數據和人工智能技術的迅猛發展,取得了大量突破性成果[8]。在油田中,抽油機井數量眾多,長期開發過程中積累了大量運行數據。這些數據中蘊含著豐富的價值信息。如果能夠利用先進的數據挖掘技術對這些數據進行充分挖掘,從海量的油井歷史數據中探索免修期的內在因素,并輔助配套工藝措施的決策[9],將有力地支持采油工程的技術革新。為此,本研究將抽油機井作為研究對象,廣泛搜集油井免修期相關數據,通過數據挖掘方法探究影響抽油機井免修期的各種因素,以期為抽油機井長壽運行提供支撐。
針對油井設計任務需求,結合專家經驗,設計了面向油井設計的指標體系,并從數據庫中搜集各油井數據(表1),形成特征樣本庫,包含抽油機井34000 余口,涵蓋稠油油藏、低滲透油藏、復雜斷塊油藏、海上油藏、特殊巖性油藏、中高滲透整裝油藏這6種不同類型的油藏。搜集的數據指標方面,包括地質數據、流體數據、機采數據、生產數據、作業數據等多個維度。

表1 原始數據表
為了提升數據的可靠性,將指標體系中的數據進行了數據清洗。對于缺失數據,通過填補、插補的方式進行了補充。其中包括數據異常點監測,并結合專家經驗對數據進行核對和校正,對類別型的數據進行數字化處理,對指標體系中的廠名等類別數據進行數字化,使得任意兩個類別數據之間的距離相同;制備得到規范化的抽油機井運行大數據集。
我們采用孤立森林算法[10]等進行數據異常點監測,孤立森林是一種基于集成學習的異常檢測算法,它可以高效地識別出數據集中的異常點。其核心思想是將正常點分割成不同的區域所需要的路徑長度比異常點少,因此可以通過路徑長度來判斷樣本是否為異常點。孤立森林算法通過隨機選擇特征,然后隨機選擇特征的分割值,遞歸地生成數據集的分區。和數據集中正常的點相比,要隔離的異常值所需的隨機分區更少,因此異常值是樹中路徑更短的點,路徑長度是從根節點經過的邊數。識別出異常數據后,結合專家認識對這些數據進行了核對和校正。
運用孤立森林算法,對區塊1 的116 口油井免修期數據進行篩選,識別出10 口免修期異常低井,如圖1 所示。通過識別出免修期異常低的油井,并將其納入免修期異常井樣本庫,共得到1311 個樣本集,從而更好地分析和管理油井的免修期情況。

圖1 區塊1 異常井篩選
從地質、流體、生產、舉升系統、配套工藝等多角度開展參數分析,選取22 個指標,應用指標相關性統計方法對分析結果進行歸納統計,找出特異參數與免修期異常之間的相關程度,明確免修期的主要影響因素。我們利用皮爾遜相關性與斯皮爾曼相關性的分析方法對兩者進行分析,其中皮爾遜適于正態分布或近似正態分布的數據[11],斯皮爾曼適于非正態分布的數據[12],皮爾遜相關系數僅評估線性關系,斯皮爾曼相關系數用來評估指標的單調關系。相關系數是最常用的統計度量,用一個數來描述兩個變量之間的相關聯的程度。相關系數的取值范圍為[-1,1]。負值表示隨著一個變量值的增大另一個則減小;正值表示隨著一個變量值的增大另一個也跟著增大;0 則表示一個變量的增大減小對另一個的取值沒有影響。
2.1.1 皮爾遜相關性
通過對皮爾遜相關性系數的研究,現將樣本值代入進行檢驗,22 種指標間的皮爾遜相關系數如圖2所示。

圖2 皮爾遜相關系數熱力圖
依據圖2 可以得出以下認識:與免修期呈正相關的指標共有15 個,呈負相關的指標共7 個;與其相關性強度由大到小排序依次為日液能力、月產水量、年產水量、排量、泵徑、沖次、泵效、泵深、含水、下行最小負荷、動液面、上行最大負荷、沖程、年產氣量、月產油量、年產油量、日油能力、套壓、系統效率、原油黏度、原油密度、未動管柱天數。
2.1.2 斯皮爾曼相關性
通過對斯皮爾曼秩相關系數的研究,將樣本值代入進行檢驗,具體22 種指標間的斯皮爾曼相關系數如圖3 所示。

圖3 斯皮爾曼相關系數熱力圖
依據圖3 可以得出以下認識:與免修期呈正相關的指標共有16 個,呈負相關的指標共6 個;與其相關性強度由大到小排序依次為日液能力、月產水量、年產水量、排量、泵效、沖次、含水、泵徑、泵深、下行最小負荷、系統效率、上行最大負荷、動液面、原油黏度、原油密度、沖程、月產油量、年產氣量、年產油量、套壓、日油能力、未動管柱天數。
2.1.3 差異分析
根據皮爾遜相關系數研究的結論,與免修期呈中等相關及以上的指標有6 個,分別是日液能力、月產水量、年產水量、排量、泵徑、沖次。而根據斯皮爾曼相關系數研究的結論,與免修期呈中等相關及以上的指標有9 個,分別是日液能力、月產水量、年產水量、排量、泵效、沖次、含水、泵徑、泵深。兩種方法產生差異的原因在于皮爾遜相關系數更適用于符合線性分布的數據,對不符合線性關系或不滿足正態分布的數據,皮爾遜相關系數難以準確描述其相關關系。而斯皮爾曼相關系數是基于秩次進行計算,不容易受到異常值的影響,具有更好的魯棒性。綜合來看,日液能力、月產水量、年產水量、排量、泵效、沖次、含水、泵徑、泵深這9 個指標對免修期影響較為明顯。
基于皮爾遜算法和斯皮爾曼算法的相關性分析明確了各參數與免修期的相關程度,而其參數在免修期異常井中的體現模式尚不直觀,為此加入基于箱型圖的定量分析。我們繪制區塊各指標箱型圖,圖中包含了六個數據節點,將一組數據從大到小排列,分別計算出他的上邊緣,上四分位數,中位數,下四分位數,下邊緣,橙色橫線為平均數,綠色三角為中位數,空心圓點是異常值,紅色點為所選井數據。
樣本中的參數,有些參數的數據很大,有些參數的數據則相對很小,難以將其直接整合到一起進行比對,于是將其進行標準化和歸一化處理。經過數據處理,繪制出標準化后的箱型圖,如圖4 所示。

圖4 標準化后的箱型圖
定義對于各個指標繪制的箱型圖,大于上四分位數的數據作為異常高的值,小于下四分位數的數據作為異常低的值,在上下四分位之間的視為正常值。例如圖5 所示某井中的參數,所選井沖次數據介于下四分位數和下邊緣之間,可知該參數為異常低。而所選井年產氣量參數介于上四分位數和上邊緣之間,則該參數即為異常高。同樣地,統計各個指標異常值與正常值的個數,對比免修期異常油井與常規油井在各參數上差異性,找出免修期異常油井的特異性參數。

圖5 免修期異常低井統計數據
分析了22 個指標出現異常高、正常、異常低的頻次,計算了3 種情況的標準差,用于確定主控因素。
結合圖6 和表2 分析可知,標準差小于6 的指標有5 個:上行最大負荷、日油能力、未動管柱天數、系統效率、泵效;各個指標異常值與正常值的個數,無太大區別,對免修期影響不大。沖次、套壓、年產油量、年產水量、年產氣量、日油能力、月產油量、排量、泵徑、月產水量這10 個指標異常低,對免修期異常低有影響。下行最小負荷、原油密度、動液面、原油黏度、泵深這5 個指標異常高,對免修期異常低有影響。沖程、含水這2 個指標不在正常區間,對免修期異常低有影響。泵徑出現頻次92 次,在統計的10 個異常低指標對免修期異常低有影響中最高,泵徑指標越低,對免修期異常低影響越大。泵深出現頻次83 次,在統計的5 個異常高指標對免修期異常低有影響中最高,泵深該指標越高,對免修期異常低影響越大。

圖6 免修期異常低井各指標標準差

表2 免修期異常低井各指標出現頻次
兩種指標相關性定量分析方法明確了各參數與免修期的相關程度,即日液能力、月產水量、年產水量、排量、泵效、沖次、含水、泵徑、泵深這9 個指標對免修期影響較為明顯。而基于箱型圖的定量分析在明確各參數相關性的基礎上,進一步展現了參數對免修期的影響模式,從中可以看出沖次、套壓等10 個指標異常低和下行最小負荷、原油密度等5 個指標異常高對免修期異常低有影響;沖程、含水這2 個指標不在正常區間,對免修期異常低有影響;另外,泵徑、泵深等指標也對免修期異常低影響顯著。皮爾遜相關系數和斯皮爾曼相關系數都是通過衡量變量之間的相關性程度來探究其變化趨勢,而箱型圖定量分析則是在大量的數據積累上對其進行加工處理,進而整合到一張張直觀的圖中,來總結其數據的分布規律。這兩類方法各有長短,綜合來看,日液能力、月產水量、年產水量、排量、泵效、沖次、含水、泵徑都與免修期呈正相關,而泵深與免修期呈負相關。
針對各區塊免修期異常的油井,通過搜集其相關數據,并使用算法對其進行處理。利用這些數據,我們從地質、流體、生產、舉升系統、配套工藝等多角度開展參數分析,重點對比免修期異常油井與常規油井在各參數上差異性,在此基礎上統計歸納,明確免修期影響因素及影響規律。通過箱型圖定量分析,結合皮爾遜相關性和斯皮爾曼相關性分析方法,從中發現,對免修期影響較為明顯的因素有日液能力、月產水量、年產水量、排量、泵效、沖次、含水、泵徑、泵深等,其中日液能力、月產水量、年產水量、排量、泵效、沖次、含水、泵徑都與免修期呈正相關,而泵深與免修期呈負相關。