張海軍, 張高峰, 王國娜, 王立輝, 劉洋, 任陽峰, 鄭雙進*
(1.中國石油天然氣股份有限公司大港油田分公司, 天津 300450; 2.中國石油天然氣股份有限公司西南油氣田分公司, 成都 610000;3.長江大學石油工程學院, 武漢 430100)
在油氣鉆探領域,機械鉆速(rate of penetration,ROP)是評估鉆井效率的重要指標,直接影響著鉆井周期和鉆井成本。針對機械鉆速,中外學者大多運用傳統方法建立模型進行預測,每種模型均有其適用性。Bahari等[1]建立了W.C.Maurer方程,但該方程考慮因素不夠全面;Adebayo等[2]建立了巖石特性、物理性質與機械鉆速之間的經驗模型,但未考慮鉆井參數對機械鉆速的影響;Kumar等[3]研究得到了一套機械鉆速預測模型,但該模型參數受巖性影響較大,且模型較為復雜;Hung等[4]研究得到了基于旋轉沖擊鉆頭的機械鉆速預測模型,僅在硬度高的地層中較為適用;巨滿成等[5]、杜鐮等[6]基于巖石可鉆性對機械鉆速預測進行了研究,但研究僅引用了少量的鉆井參數,基于大量統計數據并應用各種數學方法進行處理而建立了鉆速方程,由于不具有普遍性,致使其應用受到限制;田璐等[7]通過綜合應用油基鉆井液、旋轉導向地質導向、雙凝雙密度水泥漿等技術,并進行了鉆頭優選和鉆具組合優化,有效提高了機械鉆速。李琪等[8]提出了一種人工智能算法與結合粒子群的神經網絡算法(particle swarm optimization-back propagation, PSO-BP)神經網絡相結合的鉆進機械鉆速預測模型,并根據實際工況對其進行了模型評價,結果表明PSO-BP機械鉆速模型具有良好的預測精度。李昌盛[9]利用多元回歸方法改進了B-Y(Bourgoyne-Young)鉆速方程,但該方程只適用于鉆井液鉆井;景寧等[10]提出了一種基于層析分析法和神經網絡相組合的智能模型,利用巖石抗壓強度、鉆頭尺寸等影響因素進行鉆速預測;劉勝娃等[11]研究了一種基于人工神經網絡技術的定向井機械鉆速預測模型,該模型能在數據量較充足、數據質量較高的條件下得出較高預測準確度;石祥超等[12]評價了隨機森林、支持向量機、梯度提升樹、人工神經網絡4種人工智能算法在四川盆地某區塊的機械鉆速預測精度,結果表明隨機森林算法對區塊內各單井數據的預測精度能達到90%,對整個區塊數據預測的準確度能達到88%;左迪一[13]通過采用隨機森林回歸方法對5種類別的井建立鉆速預測模型并進行現場應用驗證,結果均取得了較好的效果,說明隨機森林回歸方法具有非常強的針對性和準確度。
調研分析發現,現有的機械鉆速預測大多依靠經驗,或是在前人已建立的模型基礎上行改進,或是依靠控制變量等方法進行實驗,尋找影響機械鉆速的主要因素,這些預測方法難免會造成較大誤差,難以滿足當前鉆井施工需求。近年來,隨著大數據與機器學習技術的興起,基于歷史鉆井數據運用機器學習方法進行大數據分析,開展機械鉆速預測不失為一種好方法。現通過分析東部某油田機械鉆速的影響因素,結合鉆井歷史數據建立了機械鉆速預測模型,并利用遺傳算法進行優化,測試模型的精度和泛化性,得到了滿足施工設計及現場作業需要的機械鉆速預測方法,有助于指導該區塊鉆井施工參數優化,提高鉆井施工效益。
現場鉆井施工過程中,鉆壓、轉速、鉆井液密度、循環排量、漏斗黏度、鉆頭尺寸及牙齒磨損等因素都會影響機械鉆速。鉆壓通過影響破巖作用來影響機械鉆速,如果在硬度較高的地層施加小鉆壓,會直接影響機械鉆速的提高[14];轉速也會對鉆頭破巖產生較大影響,但影響略小于鉆壓,當鉆遇較軟地層時提高轉速可明顯提高機械鉆速,但當鉆遇較硬地層時,提高轉速并不能很好地提高機械鉆速[14];鉆井液的密度、排量、漏斗黏度共同影響井底巖屑清理程度和輔助破巖程度,進而影響機械鉆速[15];增大鉆頭尺寸會降低鉆頭破巖效率,進而降低機械鉆速,但減小鉆頭尺寸又會影響油氣開采效率,所以鉆頭尺寸設計需要權衡鉆頭尺寸與機械鉆速的關系來滿足油田開發需求[16]。另外,鉆頭牙齒磨損、老化、結構設計不合理等因素也會造成機械鉆速降低[16]。本文中搜集了來自東部某油田的現場鉆井施工數據,考慮機械鉆速影響因素包含鉆壓、轉速、鉆頭直徑、鉆頭壓降、鉆頭出入井新度、鉆頭磨損程度、鉆井液密度、漏斗黏度及排量,基于以上影響因素建立滿足施工設計及現場作業需要的機械鉆速分類預測方法。
本文建模數據來自東部某油田的現場鉆井施工數據,原始數據如表1所示,總計398組,變量名稱包括入井新度、出井新度、牙齒磨損量、鉆壓、轉速、鉆井液排量、鉆井液密度、鉆井液漏斗黏度、鉆頭壓降、鉆頭直徑及平均機械鉆速。其中以前十組變量作為建立模型時的輸入變量,平均機械鉆速為模型的輸出變量。
為了提高機械鉆速分類預測的針對性,需要對機械鉆速進行分級,鉆速分級使得機械鉆速數值大小不受鉆頭尺寸制約,且將建模任務從回歸問題轉化為分類問題,有利于提高模型的精度。根據現場實際工況,將不同鉆頭尺寸對應的機械鉆速進行分級(“低鉆速”“中鉆速”“高鉆速”),分級規則如表2所示。
按照表2所示的分級規則對表1中的機械鉆速數據按不同鉆頭直徑進行分級,分級后的數據如表3所示(低鉆速為1;中鉆速為2;高鉆速為3),為消除各特征之間量綱不同造成的數值規模差異,需要對除機械鉆速外所有特征數據進行歸一化處理,歸一化的計算方法為

(1)

表1 順南區塊現場鉆井施工原始數據(前十行)

表2 不同鉆頭尺寸對應的機械鉆速分級
式(1)中:x′i為歸一化后的數據;xi表示為歸一化前的原始樣本數據;xmin表示為原始樣本數據特征值的最小值;xmax表示為原始樣本數據特征值的最大值。歸一化處理后的施工數據見表3所示。
隨機森林是集成學習算法之一[17-19],它的基學習器是決策樹;該算法的核心思想是采用多顆決策樹的投票機制,解決分類和預測問題。對于回歸預測問題,將多棵樹的回歸結果進行平均得到最終結果;對于分類問題,將多棵樹的判斷結果進行投票,基于少數服從多數得到最終的分類結果;該算法有運行速度快,精度高等特點。
K近鄰算法[20-22](K-nearest neighbor,KNN)寓意K個靠近的“鄰居”,屬于監督式學習算法;該算法不會預先生成一個分類預測模型,而是將建模與預測、分類工作同時進行,模型構建好后進行分類、預測結果也將輸出;該算法可以對離散型變量進行分類,也可以對連續型變量進行預測。
支持向量機[23-25](support vector machine,SVM)的核心思想是結構風險最小化原則和統計學習理論VC(Vapnik-Chervonenkis)維理論,該算法屬于監督式機器學習算法,可用于離散因變量的分類和連續因變量的預測。
基于預處理后的鉆井施工數據,由Python軟件在數據中隨機選出建模所需的訓練集和評估模型精度所需的測試集,運用隨機森林算法、K近鄰算法、支持向量機算法分別建立模型,建模過程全程使用Python自編程序,隨機森林算法、K近鄰算法、支持向量機算法通過Sklearn庫實現。

表3 機械鉆速分級預處理后的數據集(前10行)
以數據集中的鉆頭入井新度、鉆頭出井新度、牙齒磨損量、鉆壓、轉速、鉆井液排量、鉆井液密度、鉆井液漏斗黏度、鉆頭壓降、鉆頭直徑作為輸入變量,以平均機械鉆速作為輸出變量,訓練數據與測試數據的劃分為9∶1,基于隨機森林算法、K近鄰算法、支持向量機算法建立默認參數的機械鉆速分類預測模型;3種算法模型默認參數如表4所示,默認模型分類預測結果如表5~表7所示。
由機械鉆速等級預測結果可知,隨機森林算法、K近鄰算法、支持向量機算法在39組測試數據集的分類準確率分別為69.2%、59%、71.8%,分類效果最好的是支持向量機算法,其次是隨機森林算法、K近鄰算法。考慮隨機森林算法、K近鄰算法的分類準確率不高,需要針對模型參數進行優化,以提高模型預測精度。

表4 3種算法對應的模型默認參數

表5 隨機森林算法預測機械鉆速等級結果混淆矩陣

表6 K近鄰算法預測機械鉆速等級結果混淆矩陣

表7 支持向量機算法預測機械鉆速等級結果混淆矩陣
遺傳算法(genetic algorithm,GA)[26-28]。是基于自然界遺傳機制和生物進化論的一種高效隨機搜索和優化方法,其具有全局優化性能,能夠找到機器學習算法參數最合適的值,使得算法達到最優配置,從而更加準確地預測機械鉆速分類。遺傳算法優化模型參數流程圖如圖1所示。
遺傳算法的種群數量設定為200,繁衍最大代數設置為80,染色體交叉概率為80%,染色體變異概率為染色體長度的倒數,適應值函數設定為39組測試數據在各優化模型的準確率。基于遺傳算法優化后的3種算法模型參數如表8所示。

圖1 遺傳算法優化模型參數流程圖Fig.1 Flow chart of optimizing model parameters by genetic algorithm

表8 基于遺傳算法優化后的3種算法模型參數
將優化后的模型參數輸入對應模型,利用39組測試數據驗證優化后各模型的精度和泛化性,優化后的3個模型預測結果如表9~表11所示。

表9 優化后的隨機森林算法預測機械鉆速等級結果混淆矩陣

表10 優化后的K近鄰算法預測機械鉆速等級結果混淆矩陣

表11 優化后的支持向量機算法預測機械鉆速 等級結果混淆矩陣
機械鉆速分類預測結果表明,經遺傳算法優化后3種算法的準確率均有提升,隨機森林算法的分類準確率提高了12.9%,K近鄰算法的分類準確率提高了12.8%,支持向量機算法的分類準確率提高了5.2%,其中隨機森林算法的分類準確率最高為82.1%,其次是支持向量機算法和K近鄰算法,該方法東部某油田機械鉆速預測提供了新思路。
該井是東部某油田的一口四開井身結構井,設計井深6 190 m。一開φ660.4 mm鉆頭鉆至井深494 m,下入φ508 mm套管,鉆井液密度1.10 g/cm3,漏斗黏度8 s,鉆壓40 kN,轉速50 r/min,鉆井液循環排量60 L/s;二開φ444.5 mm鉆頭鉆至井深2 236 m,下入φ339.7 mm套管,鉆井液密度1.25 g/cm3,漏斗黏度55 s,鉆壓220 kN,轉速80 r/min,鉆井液循環排量65 L/s;三開φ311.2 mm鉆頭鉆至井深4 720 m,下入φ244.5 mm套管,鉆井液密度1.40 g/cm3,漏斗黏度60 s,鉆壓80 kN,轉速80 r/min,鉆井液循環排量60 L/s;四開φ215.9 mm鉆頭鉆至井深6 166 m,下入φ139.7 mm套管,鉆井液密度1.20 g/cm3,漏斗黏度45 s,鉆壓40 kN,轉速60 r/min,鉆井液循環排量30 L/s。該井累計使用鉆頭27只,其中一開使用鉆頭1只,二開使用鉆頭2只,三開使用鉆頭4只,四開使用鉆頭3只,機械鉆速范圍在1.03~123.67 m/h。
選用皮爾遜相關系數法進行分析評價,該方法可用于考量兩個變量X和Y之間的相關度,其值介于-1~1,1表示變量完全正相關,0表示無關,-1表示完全負相關。總體相關系數定義為

(2)

估算樣本的協方差和標準差的公式為

(3)


圖2 機械鉆速預測值與實際值相關性對比圖Fig.2 Correlation diagram between predicted and actual ROP values
運用遺傳算法優化后的隨機森林模型進行機械鉆速分類預測,預測值與實際值對比如圖2所示。從圖2可以看出,皮爾遜相關系數r=0.987 3,機械鉆速分類預測值與實際值之間具有很好的相關性,二者之間誤差很小,表明運用遺傳算法優化后的隨機森林模型可用于東部某油田機械鉆速分類預測,根據多因素敏感性分析可進一步開展鉆井施工參數優化。
(1)分析了東部某油田機械鉆速的主要影響因素,基于該油田的鉆井歷史數據分別運用隨機森林算法、K近鄰算法及支持向量機算法建立了機械鉆速分類預測基礎模型,測試得以上3種算法的分類預測準確率分別為69.2%、59%、71.8%,模型預測精度有待提高。
(2)運用遺傳算法針對隨機森林算法、K近鄰算法及支持向量機算法建立的機械鉆速分類預測基礎模型進行優化,優化后3種模型的分類預測準確率分別為:82.1%、71.8%、77%,其中經遺傳算法優化后的隨機森林模型精確度最高,可用于該油田機械鉆速分類預測及施工參數優化。