富 浩,張 濤,李玉梅,劉永輝
(1.北京信息科技大學信息與通信工程學院,北京 100192;2.北京信息科技大學高動態導航技術北京市重點實驗室,北京 100101;3.冀東油田公司鉆采工藝研究院,河北 唐山 063004)
近年來,隨著工業發展的需求,世界范圍內的油氣勘探開發逐漸面向“新領域、新類型、新地區、新深度”的儲層。然而在鉆井過程中存在大量的模糊性、隨機性和不確定性,在任意時刻都存在一定的風險,這些風險會使鉆速減慢、增長建井周期、提高鉆井成本、使安全風險增加,而憑經驗鉆井往往更加事故不斷。在眾多的井下復雜工況中,卡鉆是最常見的井下復雜事故之一。在鉆井過程中,卡鉆事故并不是瞬時發生的,在卡鉆發生前絕大多數情況下存在某些征兆,具體表現為某些鉆井參數的異常。卡鉆事故從征兆出現到事故發生有多種參數變化,例如時間長短不一,鉆井參數變化種類不一、變化幅度不一等。但如今預測卡鉆還有以下難點:①在地面上,難于獲取與卡鉆事故密切相關的近鉆頭處相關信息;②由于隨鉆測量技術數據傳輸速率的限制,在近鉆頭處測量得到的大量數據無法傳輸至地面;③由于鉆井工程影響因素過多(如鉆具組合、鉆頭類型、鉆頭尺寸、鉆頭磨損程度、鉆井液體系、地層條件等),通過測量數據的絕對值難以發現卡鉆征兆。所以如今還沒有較為成熟的卡鉆預測方法與模型。
支持向量機(Support Vector Machine,SVM)是一種二分類模型,采用結構風險最小化,使模型擁有良好的分類結果。從2000年至今,SVM就被廣泛應用于數據分類、結果識別和預測等領域。在2009年劉明等人[1]針對傳統核函數下SVM性能不理想的問題,提出了一種新的混合核函數來提高性能,該核函數分類性能優于由sigmoid核函數或高斯核函數構成的支持向量機;仲志丹等人[3]在2018年針對傳統人工示功圖識別抽油機井故障診斷較低的問題進行研究,提出了一種卷積神經網絡(Convolutional Neural Networks,CNN)和SVM相結合的智能識別模型,CNN-SVM可以快速且準確的診斷,從而減少因故障診斷較低、較慢造成的損失;在2018年,石志標等人[4]為了能更快且準確的對汽輪機轉子故障進行診斷,提出基于云粒子群優化算法(Cloud Particle Swarm Optimization,CPSO)優化SVM的故障診斷方法,該方法與PSO-SVM方法相比提高了準確率與速度;在2019年,劉南艷等人[7]針對預測短期電力負荷不準確的問題,提出一種結合鄰域粗糙集理論和PSO算法的最小二乘支持向量機短期電力負荷預測模型,結果顯示平均絕對誤差僅為1.95%。在2015年Mengqi-Zhang等人[10]針對軌道電路故障問題,提出了一種先經過重構算法與小波分解,之后再使用PSO-SVM的模型,經過仿真該預測模型的預測準確率可高達99.5%;H.Xiangdong等人[12]在2018年針對煤層氣井井底流壓預測問題,使用了遺傳算法與SVM相結合的算法模型,結果表明預測結果有很高的精度。所以SVM在處理分類、預測問題方面有良好的性能,而卡鉆分為正常鉆進階段與卡鉆前鉆進階段,也是一種分類問題,所以SVM可以很好的對卡鉆進行分類、預測。
2017年冀東油田某井作業過程中發生了卡鉆復雜工況,本課題組自主研發的井下工程參數測量短節記錄了整個過程中的8種井下工程參數。本文就是以此次復雜工況為例,使用基于主成分分析法(Principal component analysis,PCA)的SVM方法,對此次鉆井事故進行仿真與識別,并探討PCA-SVM方法對井下鉆具卡鉆的可行性與有效性。
主成分分析法(PCA)是一種可以對數據進行壓縮,并提取數據特征的方法,使用PCA可以對數據降維,優化運算時間。對于卡鉆問題來說,任意時刻的數據都有多個特征值,如內外壓、溫度、三維震動數據、扭矩等。如直接使用原始數據,會導致維數災難,并使運算時間增加,而使用PCA降維可以解決維數災難以及運算時間過長的問題。
設p維隨機向量X=(x1,x2,…,xp)T,協方差矩陣為V,均值為u。通過線性變換,得到m個不相關的新向量y1,y2,…,ym(m
對樣本矩陣X進行變換,矩陣X如式(1)所示,主成分分析步驟如下

(1)
1)將原數據進行標準化處理,即對樣本集中元素xik做式(2)中的變換

(2)
2)由標準化處理的矩陣,得到相關系數矩陣如式(3)

(3)
3)所求新的綜合變量的方差值λi是滿足式(4)的p個非負特征值,其中其中特征值λi滿足λ1≥λ2≥…≥λp>0,相應的特征向量為式(5)
|R-λ|=0
(4)

(5)
4)從式(4)求得的的λi中,選取m(m

(6)
2.2.1 線性SVM
假設n個樣本的集合為D={(xi,yi)|i=1,2,…,n},其中yi∈{-1,+1},SVM的目的是找到一個最優超平面將不同值y值的數據分開。在樣本空間中,超平面的線性方程可寫為式(7)
ωTx+b=0
(7)
其中ω=(ω1;ω2;…;ωd)是方程法向量,b是位移項,分別代表超平面方向和超平面與原點之間的距離。超平面可以用ω和b確定,可寫為(ω,b)。可以根據二維平面上點到直線距離公式得到空間中任意一點到超平面的距離公式

(8)
目的是要得到兩類數據離超平面最近的點的總距離最大。即將式(8)整理得到式(9)即

(9)
其中y的正負與ωTx+b相同,兩項相乘可以替換掉絕對值,對之后建模有很大幫助。假設超平面分類正確,即有如下不等式組

(10)
如果數據如圖1所示,其中左面的是yi=+1的樣本,右面的是yi=-1的樣本,兩條虛線是ωT+b=±1。落在這兩條虛線上的樣本叫支持向量,可以將之前的公式簡化為式(11)

圖1 SVM的最優分類
SVM就是要找到d最大時的超平面的方程,而對式(11)求最大值比較困難,將式(11)轉換為式(12),并求式(12)的最小值

(12)
添加拉格朗日乘子αi≥0到式(12)中,將條件與所求結合,得到式(13)

(13)
其中α=(α1,α2,…,αm)。對L分別求ω與b的偏導,當偏導等于零時可得極值點

(14)

(15)
將式(14)帶回式(13)中,可將ω與b都消去,同時考慮約束條件即式(15),可得式(16)

(16)
可解出α的值,得到了超平面方程(ω,b)的解,找到了決策面的方程即式(17)。

(17)
2.2.2 非線性SVM
而數據分布更多的是線性不可分的情況,如圖2所示。此時超平面不好直接找出,要引用一個核函數,將問題映射到高維空間,從高維空間找到一個超平面解決低維下線性不可分的問題,如圖3所示。

圖2 非線性樣本點

圖3 使用核函數后進行空轉換
超平面模型可表示為式(18):
f(x)=ωTφ(x)+b
(18)
其中ω和b與線性時表示相同的參數,二次規劃問題變為式(19)

(19)
其解法與線性解法相同,引入拉格朗日乘子到式(19)可得到式(20)

(20)
式(19)內積很難運算,引入核函數,使得xi和xj在特征空間的內積等于它們在原始樣本空間內通過這個核函數計算出的結果。核函數表達式為
K(xi,xj)=〈φ(xi),φ(xj)〉=φ(xi)Tφ(xj)
(21)
所以將式(21)帶入式(20)中得到式(22)

(22)
所以超平面方程為式(23)

(23)
使用由中國石油大學研制的井下多參數測量短節測量的冀東油田某井鉆井作業的實測數據進行分析。該井下多參數測量短節的參數測量范圍及測量精度如表1所示:

表 1 儀器參數測量范圍及測量精度
多參數測量短節在井下一共工作了33.5小時。在測量短節大約工作到26小時7分鐘時,出現振動突然劇烈增加,此段為卡鉆前的征兆。測量數據如圖4所示,區域1為下鉆數據,區域2為正常鉆進數據,區域3為卡鉆前的征兆及卡鉆數據,區域3之后為起鉆數據。

圖4 冀東油田某井鉆井作業過程井下工程參數實測數據
選用部分正常鉆進數據(區域2)和卡鉆數據(區域3)來進行模型的訓練和測試。首先通過PCA降維,計算各個主成分累計的貢獻率,根據貢獻率,選取使用主成分數量,其中第一、第二主成分的總貢獻率達到了99.75%,所以第一、第二主成分可以近似代表原始數據。根據表2將得到的結果進行分類,其中TP與TN表示判斷正確數據,FP為虛警數據,FN為漏警數據。之后通過式(24)-(27)分別計算準確率、查準率、召回率與F1-score來分析模型的效果。

(24)

(25)

(26)

(27)

表2 二分問題分類方法
SVM的核函數分別使用的是線性核函數和徑向基核函數如式(28)、(29),經過仿真測試徑向基核函數得到的結果準確率更高,使用徑向基核函數的PCA-SVM的測試得到的準確率達到97.99%,查準率97.46%,召回率達到99.97%,最后F1-score達到98.70%。具體分類結果如圖5所示。
K(xi,xj)=xty
(28)

(29)

圖5 PCA-SVM訓練與測試分類結果
之后分別比較了基于線性核函數與徑向基核函數情況下,SVM與PCA-SVM準確率與所用時間的值,如表3所示。

表3 不同核函數下SVM與PCA-SVM所用時間與準確率
1)本文提出了一種基于PCA-SVM的卡鉆預測方法,試驗結果表明,PCA-SVM井下卡鉆識別模型具有很高的準確率、查準率、召回率與F1-score。
2)PCA-SVM方法與傳統SVM相比,在相同核函數情況下,在準確率幾乎保持不變的情況下,訓練及測試所用時間明顯下降。
3)仿真結果表明,PCA-SVM在井下卡鉆識別的可行性,為之后工程實際運用提供了理論支持。但是由于實測數據限制,該模型只使用了一口井的測量數據,只能對井眼不清潔引起的卡鉆類型有效。而引起卡鉆的原因有多種,其它情況的卡鉆預測還有待驗證。隨著未來數據的增多,該方法可以對不同原因引起的卡鉆進行預測,并且可以將準確率提高。