高麗潔,檀朝東*,葛岢岢,闞唱軒
?
抽油機井生產及措施數據特征分析
高麗潔,檀朝東*,葛岢岢,闞唱軒
(中國石油大學(北京)石油工程學院,北京昌平102249)
石油行業的大數據時代已經來臨,抽油機井生產及措施數據的使用更加廣泛和重要,但關于抽油機井的生產及措施數據的基本認識,如概念、來源、特征等并沒有得到充分認識。本文在分析生產及措施數據的概念和來源的基礎上,對其基本特征,如海量特征、不完整特征、多粒度特征、多因素特征進行了詳細說明。
生產數據;措施數據;數據特征
近年來,我國石油行業信息化已由“數字油田”逐漸步入“智慧油田”發展新階段,面臨著云計算、物聯網、移動互聯網和社交網絡等新一代信息技術全面應用的新格局,石油工業的大數據時代已經來臨。伴隨著大數據時代的到來,石油工業數據正以前所未有的速度不斷增長和累積,那么石油工業數據的管理勢必進入數據密集型科學階段。石油生產過程中產生的資源數據開始由傳統意義的信息系統管理對象轉變為一種基礎性資源,對數據的使用也從單純的數據存儲、管理、簡單的報表和一般的查詢應用轉變為挖掘分析,人們利用各類大數據挖掘方法充分挖掘隱藏在數據背后的規律,并應用于實際的生產中。
抽油機井生產及措施數據在石油工業數據中占據很重要的位置,無論是油井措施的診斷、評價還是措施的優化評價,都需要在抽油機井生產及措施數據的基礎上,運用各類數據挖掘方法進行分析。但由于抽油機井生產及措施數據的多維度性、數據污染、數據量大等特點,我們能利用的數據只是冰山一角,所以基礎數據庫難以建立,造成后續工作的困難。所以為了促進抽油機井生產及措施數據的高效管理和利用,有必要對抽油機井生產及措施數據的界定和基本特征進行研究。
1.1 生產及措施數據的界定
數據與信息有一定的區別和聯系。“數據”是“信息”的載體,“信息”是存在于“數據”之中對應者有價值的抽象內容[1]。信息是物質存在和運動形式的一般描述[2],是客觀世界在人腦中的反映,數據是由數字、字母和符號等表達的信息[3],是描述事物的狀況、行為及其結果的有特定含義的字符或數字[4]。數據指由觀測者記錄下來、并存貯到計算機中的數值;而信息則是數據使用者理解的這些數值的意思[5],如數字形式的產量值是數據,而這些數據數值表達的生產狀況則是信息。
抽油機井生產及措施數據是石油工業數據中的一部分。從石油工業經營管理過程中數據流的角度來看,抽油機井生產及措施數據是指,抽油機井生產過程中,利用各種數據采集、傳輸、交匯、匯集、處理、存儲和分析等技術手段,對抽油機井生產及措施實施過程進行觀察和監測,得到生產數據和措施數據。生產數據包括舉升方式、原油粘度、含蠟量、滲透率、日產液量、含水率、系統效率、泵效、沉沒度、動液面、噸液耗電等;措施數據包括洗井、檢泵、調參、清蠟、沖砂等措施的施工參數,如井號、作業時間、作業周期、洗井液類型等。
1.2 生產及措施數據的來源
生產及措施數據的來源概括起來可分為以下幾種:
(1)實測數據 在石油生產現場,通過測井、錄井等方法獲得生產靜態數據并進行記錄,不同的位置都安裝的測試儀器對生產動態數據進行監測和記錄。
(2)數據庫數據 石油工業具有海量數據,不同類型的數據儲存在不同的數據庫中。目前已經有多個數據庫在建或已經完成并在逐步完善過程中,包括:勘探與生產技術數據管理系統(A1)、油氣水井生產數據管理系統(A2)、管道生產和管理系統(A3)、地理信息系統(A4)、采油與地面工程運行管理系統(A5),數字盆地系統(A6)、工程技術生產運行管理系統(A7)、油氣生產物聯網系統(A11)等。生產及措施數據分別儲存在A2、A5等數據庫中。
(3)歷史數據 指歷史文獻中記錄下來的各種生產數據或措施數據記錄,經過基于石油知識關聯的整理和完善,這些信息將成為可用的數據。但這些數據中常存在不確定描述性信息、錯漏、重復、不系統、不規范等問題,應根據各種專業和非專業背景知識修訂。
(4)理論推理與估算數據 在不能通過其它方法直接獲取數據的情況下,常用有科學依據的理論推測得到數據。如地質狀況相同或相似的兩口井,依據專家經驗和生產規律,借鑒鄰井的生產制度;如超深井動液面太深,用常規的回聲探測法已經無法測量,常采用有依據的估算方法。
(5)實驗數據 模擬油田實際生產或地層狀況,實驗測出的數據。如模擬流體地層和油管內的流動、模擬地層巖石受力情況等獲得各種實驗數據。試驗數據與實測數據的結合使用效果較好。
如何有效管理和利用石油工業的大數據,是管理人員、研究人員和信息人員都非常關注的問題,而數據挖掘(Data Mining)正是解決這一問題的有效途徑之一,它可以將數據轉換成有用的信息和知識,從而實現從“大數據”到“大信息”、“大知識”的跨越。大數據的特點可以總結為4個V,即volume(體量浩大)、variety(模態繁多)、velocity(生成快速)和value(價值巨大但密度很低)[6]。這樣的數據特點在石油行業同樣存在,數據量大、數據格式多、存儲分散、非結構化數據多、研究對象非均質性強、專業應用軟件多等數據特點,使石油行業數據挖掘工作進行困難。為了更好的利用生產及措施數據進行研究,弄清數據的特點是必須的。
2.1 海量特征
生產及措施數據雖然只是石油工業數據的一部分,但是其數據量之大也以難以想象,正如冰山一樣,我們能管理和利用的數據還僅是冰山一角。傳統記錄數據的方法是人工讀表,每兩小時進行一次記錄,一天12條記錄。油井生產及措施數據涉及石油生產的多個流程及環節,所以多口油井多個環節一天的記錄是一個客觀的數字。隨著物聯網信息技術的應用,油田生產逐漸更數字化、智能化,自動化和信息化程度不斷提高,不同生產環節均可進行數據實時讀取,采集頻繁采集密度大,時效性強數據量大,處理速度更快,生產及措施數據的增長速度從MB級迅速發展到TB、PB、EB、ZB級,經過“十五”以來約15年的統一建設,已經有約70個大型信息系統完成了建設并上線運行,僅在其中的“勘探與生產技術數據管理系統”(A1系統)中,就管理著約1500TB的數據和約30萬口井的結構化數據[7]。而尚未入庫、分散在各個單位和個人手中的數據更是難以統計。大數據時代的到來形成數據量的急劇膨脹和數據分析需求增加的趨勢。
2.2 不完整特征
在實際油井生產中,采集的油井生產及措施數據中的數據一般都是有“噪音”的,存在不完整、不一致等問題。由于設備測量或傳輸故障、記錄人員的失誤、記錄表的丟失、上載數據有問題等原因,造成原始數據的缺失、重復、異常、錯誤等。而石油工業的數據分析挖掘,由于涉及數據量大、變量多等因素,加之數據的不完整,通常都需要花費大量時間對這些復雜的數據進行分析,不完整的數據記錄會使得分析挖掘難以進行(特別是做交互式數據挖掘時),對分析結果的準確性也有很大的影響。
所以對油井生產及措施數據進行數據挖掘分析前,需要解決數據文件中的人為誤差,進行數據預處理,提高數據挖掘質量。數據預處理是將原始的真實數據庫轉換成適于數據挖掘的挖掘數據庫。常用的數據預處理有數據清洗、集成、轉換、規約等[8],都是在保證數據的完整性和挖掘結果可靠性的前提下,剔除或補充不完整數據,減少用于挖掘的數據屬性和樣本數,以提高挖掘的速度和精度。
2.3 多粒度特征
油井生產及措施數據的多粒度包括時間粒度(如日、月、年)、空間粒度(如井組、區塊、油田等)、屬性維度粒度等[9]。油氣生產數據可從時間粒度進行單日、單月或一年的數據統計分析;也可以從空間粒度出發,分別考慮單井、井組、區塊或整個油田的生產數據。
油井維護措施包括洗井、檢泵、調參、熱洗、清蠟等。措施數據占油井生產及措施數據的主要部分。從空間粒度上分析單井、井組、區塊和油田的作業參數及效果。以單井年度措施記錄為例,繪制單井年度措施記錄圖,有圖1和圖2兩種展示方式。一口油井在一段時間內會有多種措施交替進行,各類措施同一時間軸上無規律非等周期出現。由于每次作業參數不同,作業后效果有好有壞,作業周期也不盡相同,各個措施非等周期出現,造成措施有效期疊加,使措施效果不清,無法判斷一系列措施中哪一項對當前生產狀況產生影響,積極影響或消極影響。

圖 1 單井年度措施記錄

圖1 單井年度措施記錄
油井措施作業以生產時間為主線,各措施非等周期交替發生,相鄰兩事件標號距離表示兩事件發生的間隔。
2.4 多因素特征
油井生產及措施數據包括原油和地層的靜態數據、生產數據、洗井、檢泵、調參、熱洗、清蠟參數數據等。每類數據有眾多的影響因素[10-15],包括:
1)原油和地層的靜態數據:井號、滲透率、原油粘度、含蠟量、地層能量、油層溫度、油層中深、開采方式;
2)生產數據:井號、日產液量、日產油、含水率、系統效率、泵效、沉沒度;
3)洗井參數:井號、洗井作業時間、洗井液類型(油洗、水洗)、洗井方式(正洗井、反洗井、正反洗交替)、洗井液用量、洗井進出口溫度、排量、泵壓、作業恢復期、洗井周期;
4)檢泵:井號、檢泵作業時間、施工原因(活塞磨損、上凡爾罩斷、固定凡爾漏、卡泵、管桿磨斷、管桿偏磨、管漏)、檢泵周期、排量;
5)調參:井號、調參作業時間、沖程、沖次、泵徑、作業有效期;
6)沖砂:井號、沖砂作業時間、沖砂方式(正沖砂、反沖砂、正反沖砂、聯合沖砂)、沖砂液類型(油、水、乳狀液、汽化液)、沖砂液用量、砂柱高度、排量、作業恢復期、洗井周期;
7)清蠟:井號、清蠟日期、結蠟井段、清蠟方式(機械清蠟、熱力清蠟(熱洗、電熱、熱化學)、微生物清蠟)、洗井液溫度、洗井液類型(采出液、水、脫氣原油、蒸汽)、洗井液用量、排量、洗井周期、作業恢復期;
8)措施效果衡量指標:油井產量、系統效率、措施成本。

圖 3 措施參數E-R圖
用E-R圖(圖3)表示各個措施數據及油井生產數據參數間的關系。可以看出影響生產和措施效果的事件和因素繁多,且相互關聯性強,給油井生產參數優化、措施模式及參數選擇工作帶來了巨大挑戰。
抽油機井生產及措施數據來源廣泛,包含內容龐雜,具有數據量大、數據不完整、數據多粒度、影響因素眾多等特點。油井生產過程中影響生產和措施效果的事件和變量繁多,且相互的關聯性強,給油井生產參數優化、措施模式及施工參數優選工作帶來了巨大挑戰。了解數據才能更好的運用數據,對抽油機井生產及措施數據的研究意義在于認識其內在規律,了解其特點,以更好的服務于大數據挖掘中油井維護措施的診斷、預警、優化、推薦,充分利用數據資源優勢,突破傳統方法的主觀性和局限性,有針對的提高措施效果,降低措施成本。
[1] 李軍, 周成虎. 地學數據特征分析[J]. 地理學, 1999, 02:63-67.
[2] 周蔭清. 信息理論基礎[M]. 北京:北京航空航天大學出社, 2006.
[3] 陳學詮, 陳洪亮. 數據庫原理與工程應用[M]. 北京: 中國科技大學出版社, 1996.
[4] Martin E. Model Data Analysis. Data Modeling and Classification. McGraw-Hill.Inc, 3-15.
[5] David J.Maguire.Computer in Geography.Longman Scientific& Technical 1989. 15
[6] 張引, 陳敏, 廖小飛. 大數據應用的現狀與展望[J]. 計算機研究與發展, 2013, S2: 216-233.
[7] 李大偉, 熊華平, 石廣仁等. 基于全球典型油氣田數據庫的數據挖掘預處理[J]. 大慶石油地質與開發,2016, 35(1):66-70.
[8] 菅志剛, 金旭. 數據挖掘中數據預處理的研究與實現[J]. 計算機應用研究, 2004, 07:117-118+157.
[9] 檀朝東, 項勇, 趙昕銘, 王輝萍, 高麗潔.基于大數據的油氣集輸系統生產能耗時序預測模型[J]. 石油學報, 2016, 37S(2): 158-164.
[10] 廖銳全, 李勇, 張頂學, 等. 基于累加和GM(1,1)的油井措施費用預測模型[J]. Journal of Oil and Gas Technology, 2007(4): 105 - 107.
[11] 王朋珍. 基于模糊理論的油井措施多目標規劃研究[D]. 大慶石油學院,2008.
[12] 李文華, 楊亞仿, 朱曉輝. 灰色關聯分析方法在稠油井措施優選中的應用[J]. 長江大學學報:自然版, 2011, 08(6):74-77.
[13] 王飛飛, 史培玉, 王志亮, 等. 灰色預測改進模型在結蠟規律預測中的應用[J]. 油氣儲運. 2010, 29(8):592-594.
[14] 王文發. 油井措施評價指標與效益分析模型的研究[J]. 計算機與數字工程, 2012, 40(5):63-65.
[15] 王嘉琳, 張強, 劉齊.改進混洗蛙跳算法在油井措施優化中的應用[J].長春理工大學學報(自然科學版). 2014(6): 143-150.
Analysis on the Characteristics of Pumping Well Production and Measures Data
GAO Lijie, TAN Chaodong*, GE Keke, KAN Changxuan
(College of Petroleum Engineering, China University of Petroleum, Beijing 102249, China)
The era of large data in the oil industry has come, and the use of pumping wells of production and measures data is more extensive and important, but the basic knowledge about the production and measures data of pumping wells, such as concepts, sources, and features, are not adequately understood. Based on the analysis of the concept and source of production and measures data, this paper describes its basic characteristics such as massive features, incomplete features, multi-granularity characteristics and multi-factor characteristics.
production data; measures data; data characteristics
10.19551/j.cnki.issn1672-9129.2017.02.11
TP3
A
1672-9129(2017)02-0055-04
2016-12-02;
2017-01-05。
高麗潔(1993-),女,黑龍江省牡丹江市,碩士研究生,主要研究方向:數據挖掘、油井措施推薦;檀朝東(1968-),男,安徽望江,副研究員,博士,石油工程、物聯網教學及科研。
E-mail:305642066@qq.com
引用:高麗潔, 檀朝東, 葛岢岢, 等. 抽油機井生產及措施數據特征分析[J]. 數碼設計, 2017, 6(2): 55-58.
Cite:Gao Lijie, Tan Chaodong, Ge Keke, et al.Analysis on the Characteristics of Pumping Well Production and Measures Data[J]. Peak Data Science, 2017, 6(2): 55-58.