汪旭穎+閆沖
收稿日期:2014-02-28
作者簡介:汪旭穎(1990—),女,黑龍江大慶人,碩士研究生,研究方向:信息智能分析與處理。
文章編號:1003-6199(2014)02-0130-03
摘 要:傳統的油田開發動態生產預警采用獨立性指標閾值判別方法,從而帶來預警結果不準確、異常事件發生時報警而不是預警等問題。本課題提出一種油田生產預警模型,該方法將支持向量回歸機(Support Vector Regression,SVR)用于油田生產預警中,通過分析歷史生產動態數據,找到它們的變化規律,總結出生產異常警報形成模式,在油田異常事件的初期給出預警信號,提前分析處理潛在隱患,以便保證油田采收效率的穩定性。實驗結果證明模型對于油田生產中發生的異常情況具有較高的預測準確性。
關鍵詞:油田;預警;支持向量回歸機
中圖分類號:TP311文獻標識碼:A
Research on Early Warning Model of Oilfield Production Based on Support Vector Regression
WANG Xuying,YAN Chong
(School of Computer and Information Technology Northeast Petroleum University , Daqing,Heilongjiang 163318 China)
Abstract:The discrimination method of independent index threshold is used in The traditional Oilfield development dynamic production warning,so it brings inaccurate warning results or it will alarm instead of early warning when an abnormal event occurs. This paper puts forward a early warning model of oilfield production,the method uses support vector Regression (SVR) for early warning of oilfield production. By analyzing dynamic data of historical production,finding their variation,summing up abnormal alarm formation mode, giving signal in the early warning,early analyzing and processing potential risks in order to ensure the stability of oil recovery efficiency is necessary. The experimental results show that the model for oilfield production abnormal condition has a high prediction accuracy.
Key words:oilfield;early warning;SVR
1 引 言
在油田生產開發過程中,積累的生產數據包含了反映其內在變化規律的信息。通過對某種生產異常事件某時間區間的數據進行綜合分析,一定會發現產生這種石油生產異常事件的數據變化規律或經驗,通過有效應用這些經驗,用實時油田開發動態數據可預測未來可能出現的類似生產異常事件,并在異常事件的初期進行預警,以便提前采取預防措施,避免影響生產。因此為確保原油產量的穩產和高產,需要建立生產預警體系。支持向量機(support vector machines,SVM)是 Vapnik 等人在1995年提出的一種建立在統計學習理論結構風險最小化原則之上的模式分類方法[1]。支持向量回歸機是SVM在回歸估計問題中的應用,與SVM相比,同樣具備數學理論完備、全局優化性能好、泛化能力強、采用結構風險最小化原則等優點,同時還考慮了訓練樣本的擬合性和復雜性,具有較好的推廣性能。因而本文提出一種基于支持向量回歸機的油田生產預警模型,可對將要出現的產量異常的情況進行報警,具有較高的可行性。
2 支持向量回歸機概述
回歸分析又稱函數估計,是多元統計分析的一個重要分支。它的基本思想是通過有限多個樣本數據,建立起反映輸出和輸入之間聯系的函數關系[2]。即給定數據樣本集合:
{(xi,yi)},i=1,2,…,l,xi∈Rn,yi∈R
其中yi可取任意實數,找到一個最優函數關系y=f(x)來推斷輸入x所對應的輸出y。這里的最優都是通過針對某一誤差函數而言的,Vapnik定義的ε-不敏感誤差函數[3]常用于SVM回歸分析中的誤差函數由于油田生產數據是非線性數據,因而下面簡要講解非線性支持向量回歸機的原理。
對于非線性支持向量回歸機,可通過非線性映射將樣本映射到高維特征空間上,將在高維空間中的線性回歸與低維空間中的非線性回歸相對應,其關鍵問題在于在最優回歸函數中選擇合適的核函數K(x,y)。在高維空間中構造決策超平面,求解最大化目標函數:
計算技術與自動化2014年6月
第33卷第2期汪旭穎等:基于支持向量回歸機的油田生產預警模型研究
W(α,α*)=-12∑li,j=1(αi-α*i)(αj-α*j)K(xi?xj)-
ε∑li=1(αi+α*i)+∑li=1yi(αi-α*i) (1)
約束條件:
s.t.∑li=1(αi-α*i)=0
αi,α*i∈0,C,i=1,2,…,l (2)
對應的回歸函數為:
y=f(x)=∑li=1(αi-α*i)K(xi?x)+b (3)
3 基于支持向量回歸機的油田生產預警模型的建立
預警是指事物發展處在復雜系統之中,各種風險因素相互依存、相互作用,當預測到事物的發展趨勢可能偏離正常的軌道或產生損失時,如危險、危害、危機或災難等不正常的狀況,及時發出警報,提醒人們注意,并采取措施予以防范[4]。預警方法的優劣直接影響預警系統的結果輸出。根據預警的機制,預警方法主要可以分為黑色 、白色、紅色、綠色、黃色預警方法。其中黃色預警方法可劃分為三類:指標預警、統計預警和模型預警。
3.1 產量預警主要方法
產量預警方法是油田中較為常用的預警方法,由于它只考慮到產量與時間這兩個影響因素,因而造成預警結果準確性較低。它主要包括:單指標波動預警分析方法、基于功圖量油的預警方法分析和油藏產量遞減規律方法。針對油藏產量遞減規律的預測預警方法有很多種,主要是按照油藏不同的遞減規律采用不同的函數進行預測預警,其主要方法如下所示[5]:
表1 遞減規律預警方法
油藏遞減
類型
時間與產量之間
的關系
時間與累計產量
的關系
雙曲線遞
減函數
q(t)=q′(1+nDt)1n
Q=q′[1-(1+nDt)(n-1)n][(1-n)D]
指數遞減
函數
q(t)=q′eDt
Q=q′(1-eDt)D
調和遞減
函數
q(t)=q′1+Dt
Q=q′ln (1+Dt)D
直線遞減
函數
q=q'(1-Dt)
Q=q′[1-(1-Dt)2]2D
其中q′為起始產油量;Q為油藏或者油井的累計產量;D為起始遞減率;t為油藏開發時間;n為遞減指數。
3.2 基于SVR的油田生產預警模型的建立
SVR油田生產預警模型的建立過程主要分為三個階段:第一階段是數據預處理階段。將已有的油田生產歷史數據先進行去噪聲值處理,再將數據進行規范化處理,之后選擇適當的一組作為測試樣本數據;第二階段是選擇支持向量回歸機的參數,確定核函數和懲罰系數,保證測試樣本預測準確率達到最高;第三階段是將測試樣本數據作為輸入空間,利用SVR模型得到預警結果。具體步驟如下:
1) 數據預處理。在油田生產歷史數據中選擇適當的一組作為樣本數據,主要包括以下步驟:
(1) 缺失值的填充,“光滑”數據去掉噪聲值,將人為因素及地理環境因素引起的產量異常情況排除。
(2) 數據規范化處理,把屬性數據按比例縮放,是指落入一個特定的小區間內。常用的規范化方法有最小-最大規范化、z分數規范化和按小樹定標規范化。本文采用最小-最大規范化:
ν′i=νi-min Amax A-min A(max ′A-min ′A)+min ′A (4)
其中max A和min A是屬性A的最大值和最小值,通過計算,把A的值νi映射到區間min ′A,max ′A中的ν′i。本文的新區間取[-1,1]。
2) 選擇核函數和懲罰系數c。在支持向量回歸機中關鍵問題在于核函數的選擇[6],核函數將在高維空間中的線性回歸與低維空間中的非線性回歸相對應,在計算復雜度基本不變的情況下解決了非線性回歸問題。目前常用的核函數主要有:
(1)線性核函數:
K(xi,xj)=(xi,xj);(5)
(2)多項式核函數:
K(xi,xj)=(xi,xj)+1nn=1,2,…;(6)
(3)徑向基核函數:
Kγ(xi,xj)=exp {-γxi-xj2})(7)
該式中γ為參數;
(4)Sigmoid核函數:
K(xi,xj)=tanh (γ(xi?xj)+c)(8)
該式中γ>0,c>0。
本文參照臺灣林智仁教授于2001年開發設計LIBSVM軟件包[7],并通過對樣本進行分組交叉驗證尋找支持向量回歸機的最優參數。
3) 用測試樣本對支持向量回歸機模型進行測試,最后得到油田生產預警模型。
4 仿真結果分析
4.1 實驗結果及分析
以大慶油田某采油區塊的實際產油數據為例進行實驗分析。
表2 SVR模型驗證結果
標號
核函數
c
ε
準確率
1
多項式核函數
1
0.1
80.5%
0.01
83.2%
2
Sigmoid核函數
1
0.1
73.3%
0.01
76.1%
3
徑向基核函數
1
0.1
82.8%
0.01
85.5%
4
多項式核函數
2
0.1
83.6%
0.01
84.7%
5
Sigmoid核函數2
0.1
81.4%
0.01
82.5%
6
徑向基核函數
2
0.1
88.2%
0.01
92.6%
如表2所示當核函數為徑向基核函數,懲罰因子為2,誤差ε取0.01時模型對測試樣本預測的準確率最高,準確率達到92%。
4.2 與其他方法的性能比較
BP神經網絡是一種按誤差逆傳播算法訓練的多層前饋網絡,是目前應用最廣泛的神經網絡模型之一[8]。由于它具有實現任何復雜非線性映射的功能和具有自學習能力,也常用于預警研究。本文將相同油田數據樣本下的SVR方法與BP神經網絡方法用于油田預警進行比較,結果如下表所示。
表3 SVR方法與BP神經網絡方法性能比較
測試方法
測試樣本
預警正確數
正確識別率
BP神經網絡
100
83
83%
SVR
100
94
94%
從上表可以看出,在相同樣本情況下,支持向量回歸機方法優于BP神經網絡方法,預警正確率較高,由此,本文提出了基于支持向量回歸機的油田生產預警模型,克服了神經網絡方法的過學習、局部極小值等問題。
5 結束語
文中在對傳統預警方法的學習分析基礎之上,提出了基于支持向量回歸機的油田生產預警模型,通過實驗結果證明,本文提出的基于支持向量回歸機的方法能更好地對油田生產進行預警,提供了一種有效的預警方法,具有很好的應用價值。同時,文中僅僅對油田生產的單井預警進行了初步分析和研究,其中影響油田產量的因素、生產狀況預警區間的劃分還要進一步研究和深化。
參考文獻
[1] 鄧乃揚,田英杰.數據挖掘中的新方法——支持向量機[M].北京:科學出版社,2004:51-52.
[2] 薛薇.SPSS統計分析方法及應用[M].北京:電子工業出版社,2009:234-291.
[3] VAPNIK VN.The nature of statistical 1earning theory[M].New York:Springer,1995.
[4] 羅有剛.油井生產動態預警研究[D].北京:中國石油大學,2009.
[5] 魏軍. 基于抽油機效率的油田開發預警模型研究[D].大慶:東北石油大學,2013.
[6] 李卓,劉斌,劉鐵男,等.基于支持向量機的抽油機故障診斷研究[J].微計算機信息,2006,22(7):209-211.
[7] CHIHWei hsu, CHIHChung chang,CHIHjen lin.A Practical Guide to Support Vector Classification[J].Taiwan.National Taiwan University.2008.
[8] 邢志偉,張輝.基于支持向量機的飛機地面結冰冰型分類預測[J].計算機技術與發展,2012,22(6):247-250.
油藏遞減
類型
時間與產量之間
的關系
時間與累計產量
的關系
雙曲線遞
減函數
q(t)=q′(1+nDt)1n
Q=q′[1-(1+nDt)(n-1)n][(1-n)D]
指數遞減
函數
q(t)=q′eDt
Q=q′(1-eDt)D
調和遞減
函數
q(t)=q′1+Dt
Q=q′ln (1+Dt)D
直線遞減
函數
q=q'(1-Dt)
Q=q′[1-(1-Dt)2]2D
其中q′為起始產油量;Q為油藏或者油井的累計產量;D為起始遞減率;t為油藏開發時間;n為遞減指數。
3.2 基于SVR的油田生產預警模型的建立
SVR油田生產預警模型的建立過程主要分為三個階段:第一階段是數據預處理階段。將已有的油田生產歷史數據先進行去噪聲值處理,再將數據進行規范化處理,之后選擇適當的一組作為測試樣本數據;第二階段是選擇支持向量回歸機的參數,確定核函數和懲罰系數,保證測試樣本預測準確率達到最高;第三階段是將測試樣本數據作為輸入空間,利用SVR模型得到預警結果。具體步驟如下:
1) 數據預處理。在油田生產歷史數據中選擇適當的一組作為樣本數據,主要包括以下步驟:
(1) 缺失值的填充,“光滑”數據去掉噪聲值,將人為因素及地理環境因素引起的產量異常情況排除。
(2) 數據規范化處理,把屬性數據按比例縮放,是指落入一個特定的小區間內。常用的規范化方法有最小-最大規范化、z分數規范化和按小樹定標規范化。本文采用最小-最大規范化:
ν′i=νi-min Amax A-min A(max ′A-min ′A)+min ′A (4)
其中max A和min A是屬性A的最大值和最小值,通過計算,把A的值νi映射到區間min ′A,max ′A中的ν′i。本文的新區間取[-1,1]。
2) 選擇核函數和懲罰系數c。在支持向量回歸機中關鍵問題在于核函數的選擇[6],核函數將在高維空間中的線性回歸與低維空間中的非線性回歸相對應,在計算復雜度基本不變的情況下解決了非線性回歸問題。目前常用的核函數主要有:
(1)線性核函數:
K(xi,xj)=(xi,xj);(5)
(2)多項式核函數:
K(xi,xj)=(xi,xj)+1nn=1,2,…;(6)
(3)徑向基核函數:
Kγ(xi,xj)=exp {-γxi-xj2})(7)
該式中γ為參數;
(4)Sigmoid核函數:
K(xi,xj)=tanh (γ(xi?xj)+c)(8)
該式中γ>0,c>0。
本文參照臺灣林智仁教授于2001年開發設計LIBSVM軟件包[7],并通過對樣本進行分組交叉驗證尋找支持向量回歸機的最優參數。
3) 用測試樣本對支持向量回歸機模型進行測試,最后得到油田生產預警模型。
4 仿真結果分析
4.1 實驗結果及分析
以大慶油田某采油區塊的實際產油數據為例進行實驗分析。
表2 SVR模型驗證結果
標號
核函數
c
ε
準確率
1
多項式核函數
1
0.1
80.5%
0.01
83.2%
2
Sigmoid核函數
1
0.1
73.3%
0.01
76.1%
3
徑向基核函數
1
0.1
82.8%
0.01
85.5%
4
多項式核函數
2
0.1
83.6%
0.01
84.7%
5
Sigmoid核函數2
0.1
81.4%
0.01
82.5%
6
徑向基核函數
2
0.1
88.2%
0.01
92.6%
如表2所示當核函數為徑向基核函數,懲罰因子為2,誤差ε取0.01時模型對測試樣本預測的準確率最高,準確率達到92%。
4.2 與其他方法的性能比較
BP神經網絡是一種按誤差逆傳播算法訓練的多層前饋網絡,是目前應用最廣泛的神經網絡模型之一[8]。由于它具有實現任何復雜非線性映射的功能和具有自學習能力,也常用于預警研究。本文將相同油田數據樣本下的SVR方法與BP神經網絡方法用于油田預警進行比較,結果如下表所示。
表3 SVR方法與BP神經網絡方法性能比較
測試方法
測試樣本
預警正確數
正確識別率
BP神經網絡
100
83
83%
SVR
100
94
94%
從上表可以看出,在相同樣本情況下,支持向量回歸機方法優于BP神經網絡方法,預警正確率較高,由此,本文提出了基于支持向量回歸機的油田生產預警模型,克服了神經網絡方法的過學習、局部極小值等問題。
5 結束語
文中在對傳統預警方法的學習分析基礎之上,提出了基于支持向量回歸機的油田生產預警模型,通過實驗結果證明,本文提出的基于支持向量回歸機的方法能更好地對油田生產進行預警,提供了一種有效的預警方法,具有很好的應用價值。同時,文中僅僅對油田生產的單井預警進行了初步分析和研究,其中影響油田產量的因素、生產狀況預警區間的劃分還要進一步研究和深化。
參考文獻
[1] 鄧乃揚,田英杰.數據挖掘中的新方法——支持向量機[M].北京:科學出版社,2004:51-52.
[2] 薛薇.SPSS統計分析方法及應用[M].北京:電子工業出版社,2009:234-291.
[3] VAPNIK VN.The nature of statistical 1earning theory[M].New York:Springer,1995.
[4] 羅有剛.油井生產動態預警研究[D].北京:中國石油大學,2009.
[5] 魏軍. 基于抽油機效率的油田開發預警模型研究[D].大慶:東北石油大學,2013.
[6] 李卓,劉斌,劉鐵男,等.基于支持向量機的抽油機故障診斷研究[J].微計算機信息,2006,22(7):209-211.
[7] CHIHWei hsu, CHIHChung chang,CHIHjen lin.A Practical Guide to Support Vector Classification[J].Taiwan.National Taiwan University.2008.
[8] 邢志偉,張輝.基于支持向量機的飛機地面結冰冰型分類預測[J].計算機技術與發展,2012,22(6):247-250.
油藏遞減
類型
時間與產量之間
的關系
時間與累計產量
的關系
雙曲線遞
減函數
q(t)=q′(1+nDt)1n
Q=q′[1-(1+nDt)(n-1)n][(1-n)D]
指數遞減
函數
q(t)=q′eDt
Q=q′(1-eDt)D
調和遞減
函數
q(t)=q′1+Dt
Q=q′ln (1+Dt)D
直線遞減
函數
q=q'(1-Dt)
Q=q′[1-(1-Dt)2]2D
其中q′為起始產油量;Q為油藏或者油井的累計產量;D為起始遞減率;t為油藏開發時間;n為遞減指數。
3.2 基于SVR的油田生產預警模型的建立
SVR油田生產預警模型的建立過程主要分為三個階段:第一階段是數據預處理階段。將已有的油田生產歷史數據先進行去噪聲值處理,再將數據進行規范化處理,之后選擇適當的一組作為測試樣本數據;第二階段是選擇支持向量回歸機的參數,確定核函數和懲罰系數,保證測試樣本預測準確率達到最高;第三階段是將測試樣本數據作為輸入空間,利用SVR模型得到預警結果。具體步驟如下:
1) 數據預處理。在油田生產歷史數據中選擇適當的一組作為樣本數據,主要包括以下步驟:
(1) 缺失值的填充,“光滑”數據去掉噪聲值,將人為因素及地理環境因素引起的產量異常情況排除。
(2) 數據規范化處理,把屬性數據按比例縮放,是指落入一個特定的小區間內。常用的規范化方法有最小-最大規范化、z分數規范化和按小樹定標規范化。本文采用最小-最大規范化:
ν′i=νi-min Amax A-min A(max ′A-min ′A)+min ′A (4)
其中max A和min A是屬性A的最大值和最小值,通過計算,把A的值νi映射到區間min ′A,max ′A中的ν′i。本文的新區間取[-1,1]。
2) 選擇核函數和懲罰系數c。在支持向量回歸機中關鍵問題在于核函數的選擇[6],核函數將在高維空間中的線性回歸與低維空間中的非線性回歸相對應,在計算復雜度基本不變的情況下解決了非線性回歸問題。目前常用的核函數主要有:
(1)線性核函數:
K(xi,xj)=(xi,xj);(5)
(2)多項式核函數:
K(xi,xj)=(xi,xj)+1nn=1,2,…;(6)
(3)徑向基核函數:
Kγ(xi,xj)=exp {-γxi-xj2})(7)
該式中γ為參數;
(4)Sigmoid核函數:
K(xi,xj)=tanh (γ(xi?xj)+c)(8)
該式中γ>0,c>0。
本文參照臺灣林智仁教授于2001年開發設計LIBSVM軟件包[7],并通過對樣本進行分組交叉驗證尋找支持向量回歸機的最優參數。
3) 用測試樣本對支持向量回歸機模型進行測試,最后得到油田生產預警模型。
4 仿真結果分析
4.1 實驗結果及分析
以大慶油田某采油區塊的實際產油數據為例進行實驗分析。
表2 SVR模型驗證結果
標號
核函數
c
ε
準確率
1
多項式核函數
1
0.1
80.5%
0.01
83.2%
2
Sigmoid核函數
1
0.1
73.3%
0.01
76.1%
3
徑向基核函數
1
0.1
82.8%
0.01
85.5%
4
多項式核函數
2
0.1
83.6%
0.01
84.7%
5
Sigmoid核函數2
0.1
81.4%
0.01
82.5%
6
徑向基核函數
2
0.1
88.2%
0.01
92.6%
如表2所示當核函數為徑向基核函數,懲罰因子為2,誤差ε取0.01時模型對測試樣本預測的準確率最高,準確率達到92%。
4.2 與其他方法的性能比較
BP神經網絡是一種按誤差逆傳播算法訓練的多層前饋網絡,是目前應用最廣泛的神經網絡模型之一[8]。由于它具有實現任何復雜非線性映射的功能和具有自學習能力,也常用于預警研究。本文將相同油田數據樣本下的SVR方法與BP神經網絡方法用于油田預警進行比較,結果如下表所示。
表3 SVR方法與BP神經網絡方法性能比較
測試方法
測試樣本
預警正確數
正確識別率
BP神經網絡
100
83
83%
SVR
100
94
94%
從上表可以看出,在相同樣本情況下,支持向量回歸機方法優于BP神經網絡方法,預警正確率較高,由此,本文提出了基于支持向量回歸機的油田生產預警模型,克服了神經網絡方法的過學習、局部極小值等問題。
5 結束語
文中在對傳統預警方法的學習分析基礎之上,提出了基于支持向量回歸機的油田生產預警模型,通過實驗結果證明,本文提出的基于支持向量回歸機的方法能更好地對油田生產進行預警,提供了一種有效的預警方法,具有很好的應用價值。同時,文中僅僅對油田生產的單井預警進行了初步分析和研究,其中影響油田產量的因素、生產狀況預警區間的劃分還要進一步研究和深化。
參考文獻
[1] 鄧乃揚,田英杰.數據挖掘中的新方法——支持向量機[M].北京:科學出版社,2004:51-52.
[2] 薛薇.SPSS統計分析方法及應用[M].北京:電子工業出版社,2009:234-291.
[3] VAPNIK VN.The nature of statistical 1earning theory[M].New York:Springer,1995.
[4] 羅有剛.油井生產動態預警研究[D].北京:中國石油大學,2009.
[5] 魏軍. 基于抽油機效率的油田開發預警模型研究[D].大慶:東北石油大學,2013.
[6] 李卓,劉斌,劉鐵男,等.基于支持向量機的抽油機故障診斷研究[J].微計算機信息,2006,22(7):209-211.
[7] CHIHWei hsu, CHIHChung chang,CHIHjen lin.A Practical Guide to Support Vector Classification[J].Taiwan.National Taiwan University.2008.
[8] 邢志偉,張輝.基于支持向量機的飛機地面結冰冰型分類預測[J].計算機技術與發展,2012,22(6):247-250.