富 宇,李 滕,郭曉萍
(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)
大慶薩中開發區經過長期的水驅開發,儲層結構發生非均質性變化,儲層內形成優勢滲流通道,在注采井之間形成了滲透率很高的流動通道,被稱之為優勢滲流通道。優勢滲流通道形成后,儲層內微觀流場發生巨大變化,這些變化會在測井曲線上形成響應特征。提取這些響應特征,將響應特征組成特征向量,利用機器學習相關理論建立智能識別模型,從而實現優勢滲流通道的識別[1]。目前國內外優勢滲流通道主要識別方法有生產動態監測法、試井資料法、示蹤劑監測法、測井解釋資料法、大孔道的模糊識別和灰色判別方法等[2]。近幾年,隨著機器學習理論及其技術的快速發展,其應用的場景和范圍越來越廣,效果也越來越明顯。如何有效地將優勢滲流通道識別和機器學習方法結合起來,將機器學習相關理論應用到優勢滲流通道的識別中,建立測井曲線與優勢滲流通道的識別之間合理的預測模型,提高預測的精度和可靠性,具有重要的意義和價值[3]。
支持向量機(SVM)[4]是Cortes和Vapnik于1995年首先提出的,基于VC維理論和結構風險最小化原則。它在解決小樣本、非線性及高維模式識別等問題中表現出許多特有的優勢。但是,支持向量機存在參數難以選取、選取不當的問題。粒子群算法具有易實現、精度高、收斂快等優點[5]。粒子群算法可以通過調節種群數目、迭代次數等參數,確保優化參數的質量。利用粒子群算法對這兩個參數進行優化選擇,尋找全局最優解,以降低人為因素對模型的影響,進一步提高SVM分類模型判別的精度和運行效率。
支持向量機方法是建立在VC維理論和結構風險最小原則的基礎上,根據對特定訓練樣本的學習精度和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的泛化能力。支持向量機有兩個參數需要在模型的建立過程中選取。
(1)正則化參數C[6]。
給定訓練樣本(x1,y1),…,(xk,yk),x∈Rn,y∈R,x為優勢滲流通道識別的測井曲線響應特征組合。支持向量機需要解決的非線性問題是在[7]
(1)
前提下尋找到
(2)
的最優解。其中,訓練向量xi通過函數φ被映射到一個更高維的空間中。
(2)核函數g[8]。
內積函數K(x,xi)=φT(xi)φ(xj)被稱為核函數,核函數引入后,在更高維的空間中SVM可以用線性函數對樣本進行線性判別,最終得到最優判別函數為:
(3)
文中選取了使用最廣泛的高斯徑向基核函數(RBF):
(4)
為了便于計算、表示,令:
(5)
傳統的參數選擇方法有實驗法、網格搜索法等,由于耗時過長和不必要的驗證流程等缺點,目前更常用的方法是群智能算法,如蟻群算法、遺傳算法和粒子群算法等[9]。
假設F維空間中,有N個粒子[10]:
粒子i的位置:Xi=(xi1,xi2,…,xiF)
粒子i的速度:Vi=(vi1,vi2,…,viF)
個體最優位置:pbi=(pi1,pi2,…,piF)
全局最優位置:gb=(g1,g2,…,gF)
其中,1≤d≤F,1≤i≤N。
則粒子i的迭代公式如下[11]:
速度:
vi+1=ωvi+c1r1(pbi-xi)+c2r2(gb-xi)
(6)
位置:
xi+1=xi+vi+1
(7)
粒子群算法優化支持向量機參數步驟見圖1。

圖1 粒子群算法優化參數
粒子群算法優化參數具體步驟[12]:
(1)隨機生成參數C和g作為粒子群中每個粒子的初始位置。
(2)根據支持向量機模型所要求的精度和泛化性能,構建相應的適應度函數,作為評價粒子優劣的計算公式。
(3)計算粒子適應度值,據此判斷粒子當前位置好壞,并更新粒子速度和位置,準備下一次迭代搜索。
(4)若滿足終止條件,則停止整個搜索過程,輸出得到的最優參數C和g,否則轉步驟(3),繼續循環操作。
(5)最后利用求得的最優參數C和g組合重新構建支持向量機模型,并對測試樣本進行預測評價,得到模型最終性能。
依據測井曲線特征建立的SVM的特征向量,它的組成參數一般來說有二類[13]:第一類是常規測井曲線進行的特征參數提取;第二類是依據當前的測井曲線,采用測井曲線特征比值法獲取合成曲線的特征參數提取,這類參數常見的有三個:自然電位與微電極幅度的比值(SP/RMN)、深側向與微電極幅度的比值(R3LLD/RMN)、自然電位與深側向幅度的比值(SP/R3LLD)[14]。在本研究中,發現特征比值法獲取的參數并沒有明顯使用效果,所以,實際使用的還是依據常規測井曲線進行的特征參數提取[15]。簡要介紹一下特征參數提取的8種方法,包括平均波峰振幅、總絕對值振幅、平均能量、平均振幅、振幅的峰態、均方根振幅、能量半衰時、復數道平均瞬時振幅。下面詳細介紹2種方法[16]。
(1)能量半衰時。
在所研究的層段內,依據樣點數從上到下求能量總和。當能量之和達到計算時窗內總能量的一半時,到這點的樣點個數除以總的樣點個數為這點的能量半衰時。能量半衰時是在一個周期內時間是總測量時間一半所消耗的能量。用這個周期的時間域的百分數來表示。能量半衰時計算如圖2所示。

圖2 能量半衰時計算
在分析層段內能量這一屬性是定量分布,地層的變化或由流體含量、不整合或巖性有關所造成的振幅異常可能是能量半衰時的橫向變化表示的。與油氣含量有關,能量半衰時也能對振幅異常描述有幫助,當這些異常改變了分析層段內能量的分布時,能量半衰時中的變化就可以被看到。
(2)復數道平均瞬時振幅。
復數道由實部(常規道f(t))和虛部(正交道h(t))組成。
F(t)=f(t)+ih(t)
(8)
其瞬時振幅強度的計算方法如下:
(9)
此屬性可以突出表示振幅的異常,特別適合用于描述優勢滲流通道形成時的振幅異常。
首先從2018到2019年中區西部高臺子油水井措施庫中篩選出24個優勢滲流通道層段作為分析處理對象,再依據數模結果人工選取23個典型的不存在優勢滲流通道的層段,形成兩類提供給SVM進行學習的分類學習樣本。
對于作為學習樣本的每一對油水井,選擇8種測井曲線(AC、CAL、R25、RLLD、RLLS、RMG、RMN、SP)作為特征提取的對象,采用前述的8種特征提取方法,這樣就形成了一個學習樣本具有128個特征值組成的特征向量。圖3所示為一個優勢通道訓練樣本的特征向量(共128維)的一部分。

圖3 特征向量
經過反復試驗,SVM算法最終的參數設置為:正則化參數的取值范圍C∈[0.01,100],核函數的參數取值范圍g∈[0,100];粒子群算法的參數設置為:粒子種群數量N=25,粒子維度F=2;慣性權重ω=0.6,局部學習因子c1=2,全局學習因子c2=2,算法最大迭代次數maxgen=100,算法收斂精度ξ=0.001。r1,r2為(0,1)的隨機數。
為了驗證所提改進理論的效果,將實驗分為3組:
(1)Ⅰ組:采用常規的支持向量機來識別測試樣本中是否存在優勢滲流通道。
(2)Ⅱ組:對第一組的支持向量機進行粒子群參數優化,在測試樣本集不變的情況下,識別優勢滲流通道的存在與否,并做與第一組相同屬性數據的統計。
(3)Ⅲ組:為了更全面地利用測井曲線資料,本組考慮增加測井曲線的種類,試驗是否能達到更好的識別效果。本組新增了兩種測井曲線,地層傾角、自然伽馬能譜二項。
實驗結果如表1所示。

表1 實驗結果對比
實驗結果分析:
(1)Ⅰ組由于SVM沒有進行參數的優化選取,得到的SVM參數不夠精確,使得SVM不能進行充分學習,致使分類器泛化能力受到了很大影響,所以總體識別率較低。
(2)Ⅱ組分類效果有了較大程度的改善,主要是因為采用粒子群算法,對SVM模型參數進行了優化選取,在一定程度上提高了分類器的泛化能力。
(3)Ⅲ組的實驗結果說明當前測井曲線的種類已經足夠,測井曲線的種類對實驗結果的影響不大,說明優化SVM的泛化能力依然較好。
優勢滲流通道形成后,會在測井曲線上形成響應特征,提取這些特征,通過8種特征處理方法,組成特征集。同時通過粒子群算法優化支持向量機參數,確保最終選擇的支持向量機參數組合最優,以期達到最佳的識別效果。通過對比實驗,傳統的支持向量機識別,由于參數的選擇,最終的識別結果并不是很好,而通過粒子群算法的擇優,證明通過優化的支持向量機有更好的識別率。