耿黎東
(中國石化石油工程技術研究院,北京102206)
隨著物聯網、云計算的快速興起和智能終端的快速普及,數據已經滲透到各個行業和領域,逐漸成為重要的生產因素。數據特性逐漸向更大、更快和更復雜的方向演變和發展,催生了一個全新的概念——大數據。2011年,J. Mckinsey等人發布了《大數據:創新、競爭和生產力的下一個新領域》,對大數據的關注程度達到歷史新高[1]。
石油工程比以往更快的速度獲取了更大的數據量和更加多樣化的數據,這些數據除了基于數以萬計的傳感器采集得到的數據外,還包含大量的半結構化和非結構化數據。鉆井、測井、錄井資料,生產數據和作業日志都可以快速添加為TB級甚至PB級的信息。油氣勘探開發的對象是不可見的地下巖石和流體,因此石油工程對數據的依賴性更強。與傳統信息技術相比,大數據技術對海量數據的分析和處理更為迅速和高效,可以提高決策的準確性、及時性和全面性,對油氣的增儲上產和降本增效起到重要的推動作用。為此,筆者介紹了大數據的定義和特點,分析了大數據技術在石油工程領域的應用現狀,并提出石油工程大數據技術發展建議,以加速大數據技術在石油工程中的研究和應用。
大數據技術目前并沒有教科書式的明確定義,互聯網數據中心(IDC)將其定義為基于高速的捕獲、發現和分析技術,以經濟的方式從超大規模數據中提取有價值信息的、一種全新的技術和構架。大數據的核心意義不在于掌握龐大的數據量,而在于從海量的結構化、非結構化數據中提取出有效的數據,經過專業化處理獲取有價值的信息。以數據為本質的大數據技術不僅是技術變革,更是理念、模式和應用實踐的創新變革。
隨著油氣勘探開發的深入和石油工程技術的發展,石油公司已經在勘探、地質、測井、鉆井完井和開發等各個環節積累了海量數據,為大數據技術的應用奠定了良好的數據基礎。石油工程大數據除了具有大體量(vo lum e)、多樣性(variety)、時效性(velocity)、準確性(veracity)和低密度價值(value)的5 V特點外[2],還具有獨特的特點。例如,鉆井完井過程產生的數據種類很多,包括鉆前工程數據、工程設計數據、施工記錄數據、工程參數測量數據、測井數據和工程管理數據等;數據形態各異,包括各類靜態結構化表格、非結構化的視頻和圖片以及各類工業數據格式標準;數據體量變化幅度大,傳統測井方法的8項測井數據量約為1Mb/m,而聲波測井、成像測井等新型測井方法中的一項測井參數數據量就可達到1Gb/m以上;數據可管理性差,各類鉆井完井數據生成周期不同、采集方式各異,難以用統一的數據模型容納所有的鉆井完井數據。數據采集、傳輸的瓶頸問題突出,目前油田現場采集設備還無法達到高精度、快速采集的要求,常用的井下數據無線傳輸方式傳輸速率低、可靠性差,有線傳輸方式雖然傳輸速度快,但存在設備開發成本高、制造工藝復雜等缺點。
近年來,國際油價低迷已成為新常態,石油企業利潤大幅降低,如何利用大數據技術降低油氣勘探開發成本和提高勘探開發效率已成為油公司和油服公司發展的新突破點。相比互聯網、航空和電子商務等行業,石油和天然氣行業大數據技術的研究、應用起步較晚,目前國內外公司正在嘗試將大數據技術應用于石油工程中,并取得了一定進展。
2.1.1 國外
為了促進多部門協同工作和生產運營的一體化,國外大型油公司紛紛推出大數據分析平臺。康菲公司經過近20年的發展,形成了IDW(integrated data warehouse)大數據分析平臺(見圖1)。

圖1 康菲公司IDW大數據平臺發展歷史Fig.1 The development history of IDW big data p latform of ConocoPhillips
IDW是一個涉及多學科的集中式大數據存儲中心,可存儲分析包括地球科學、鉆完井、油藏工程、生產、運營、財務等方面的數據(見圖2)[3]。其精髓在于將具有不同功能的數據倉庫整合起來,實現跨功能集成。不同業務部門的數據真正實現一體化存儲、管理和分析,數據的體量、多樣性、傳輸速度和質量均有了大幅提升,顯著提高了獲取有效信息的效率。此外,IDW要求每個業務部門都采用一體化的運營方法來組建業務和信息技術多學科團隊,建立了新的工作方式。IDW主要采用Teradata數據庫技術和PPDM數據模型,以Spotfire為數據分析工具,Informatica為ETL工具。康菲公司也正在嘗試將認知分析和人工智能等新興數據分析方法應用到IDW中。美國Eagle Ford頁巖氣開發過程中,采用IDW大數據平臺進行數據分析后,每臺鉆機平均鉆探量增加了80%,每口井的平均鉆井時間從一個月縮短至12 d。

圖2 IDW集中式數據存儲中心Fig.2 IDW centralized data storage center
科威特國家石油公司構建了基于數據分析和人工智能的地面地下一體化油田智能工作平臺,用于油田中長期產量預測、注水優化及生產參數優化。其工作流程為:1)采用節點分析、虛擬計量等方法,利用數字化工具記錄生產歷史;2)采用蒙特卡洛、線性回歸等方法,利用統計分析工具監測實時生產狀況;3)采用神經網絡、模糊邏輯等人工智能方法進行短期產量預測;4)應用數值模擬進行中長期產量預測。科威特國家石油公司公司應用該系統后油氣產量明顯提高,支撐了該公司至2030年日產油量400×104bbl的戰略目標[4–5]。
國外大型油服公司通過建立大數據平臺,旨在增強多學科互通,實現工程技術一體化。2003年開始,斯倫貝謝公司著手整合勘探開發生產的16個數字化應用程序,將大數據分析、人工智能和物聯網等多個技術領域的優勢集中,在微軟Azure云平臺上開發了DELFI勘探開發認知環境信息平臺(見圖3)[6]。DELFI整合了各類計劃、作業程序和軟件,存儲全部歷史數據資料,為各類專業操作系統和程序提供接口,目的是實現斯倫貝謝公司業務的數字化轉型,為油氣勘探開發生產提供低成本、高效率的專業化生態系統。通過利用大數據分析、機器學習和物聯網等最新的數字化技術,DELFI將地球物理、油藏工程、鉆井完井工程和采油工程等多學科知識交互融合,真正實現了技術一體化。

圖3 斯倫貝謝DELFI大數據平臺發展歷史Fig.3 The development history of Schlumberger’s DELFI big data p latform
貝克休斯公司依托通用電氣的Predix工業互聯網平臺,借助先進的數據采集技術、大數據分析算法和云計算技術,對海量的工程作業和生產運營數據進行統一分析和優化,打破了數據信息之間的壁壘,并通過應用程序將現場情況和決策方案進行可視化展現[7]。哈里伯頓與微軟合作推出DecisionSpace 365云平臺,將地質、鉆井、油藏和生產等數據資料有效存儲起來,實現了不同工作流程數據的快速更新和一體化分析,提高了油藏模擬結果的準確性[8]。
除了大型石油公司、油服公司之外,部分小型技術服務公司也開展了大數據平臺的相關研究。美國AKW Analytics公司是一家成立于2013年、員工不超過10人的小型公司,專注于提供油氣行業大數據分析服務。該公司利用自主知識產權技術將大數據分析、機器學習和優化結合到PALMTM(petroleum analytics learning machine)平臺中[9]。
PALMTM平臺以數據為中心,具有預測和指導功能,可以對來自不同數據源的數據進行實時多元分析,數據源包括地球物理、巖石物理、油藏工程、鉆井、壓裂、生產和管線輸送等,利用大數據和深度學習技術分析歷史產量的特征屬性和重要性的權重,實現了從鉆井完井到油氣生產再到提高采收率全過程準確的預測。
PALMTM平臺包含多種分析工具、算法和模型:有MAPGEORES(油藏模型)、MAPDRILL(鉆井數據集成)、MAPFRAC(水力壓裂)、MAPPROD(產能優化)、MAPGATHER(管線維護)和MAPPORTFOLIO(資本支出優先順序)等分析工具;有邏輯回歸、支持向量機、k-最鄰近、決策樹和神經網絡/深度學習等算法;利用mongo DB處理非結構化數據,采用P ostgreSQL和MySQL處理結構化數據。
2.1.2國內
國內大型石油公司在大數據平臺建設方面也取得了一定進展。中國石油歷經30余年的探索發展,推出了國內油氣行業首個智能云平臺——勘探開發夢想云平臺[10]。基于PaaS云平臺和勘探湖技術,建立了通用的協同工作環境,實現了勘探開發經營、管理、決策的一體化,大幅提高了協同工作效率和決策水平。目前,夢想云平臺的數據湖中包含了超過48萬口井、600個油氣藏和7000個地震工區的鉆井、生產數據。中國石油內部應用夢想云平臺后,在線協同效率提高20百分點以上,研究工作效率提高20%以上,硬件成本節約50%以上。
中國石化正在逐步打造統一的、規范的、覆蓋公司內各油田勘探開發業務的協同平臺——EPBP(Sinopec E&P business cooperation platform)。EPBP的核心是實現崗位業務信息化,由崗位工作人員在線填報本崗位的關鍵業務數據,并由相關責任部門進行數據審核。填報的數據在該系統中統一匯總管理和應用。在數據模型方面,石油工程部分涵蓋了鉆井管理、錄井管理和測井管理3個一級專業目錄,包含119個數據表,基本上能夠滿足石油工程關鍵業務數據管理的要求。在數據錄入和管理方式方面,具有較為嚴謹的數據審核管理流程。但是,由于僅提供了網頁版的數據錄入工具,在少數網絡條件較差的井場,存在著因網絡不穩定造成填寫數據丟失,需要反復錄入的問題。在數據共享與應用方面,該平臺具有便利的數據授權共享機制,且性能良好。
2.2.1 鉆井工程
1)鉆井設計優化。道達爾公司提出一種基于大數據分析的工作流程,基于地質特征的啟發式定義,實現不確定性條件下復雜井況井位設計的優化[11]。該方法首先利用搜索方法生成井眼軌跡,然后篩選和計算每個井眼軌跡的特征,不同的特征采用不同的模型表征,最后將聚類算法應用于井身結構參數特征矩陣,利用機器學習算法得到最優特征參數,并預測新井眼軌跡的最終累計產量。NOV公司建立了包含地質數據、巖石力學數據、鉆井數據及地理數據的鉆頭選型大數據庫,并利用ANN方法對數據進行訓練,形成了基于大數據技術的鉆頭優化選型新方法[12];侯凱等人[13]利用聚類方法得到了測井數據和地層特性間的相似性關系,使用K-means模型評價了相似地層中鉆頭的使用效果,并采用k-最近鄰算法得到最優的鉆頭選型方案。
2)機械鉆速預測。為了確定不同動態鉆井特征參數相互作用的影響程度,提高機械鉆速預測的準確性,德州農工大學提出一種基于大數據和機器學習的鉆速預測方法[14]。該方法首先建立了包括層間厚度、鉆井液密度、鉆壓和轉速等參數的鉆速特征集合,通過繪制不同特征參數隨時間的變化曲線直觀地檢查是否有特定參數控制響應;然后利用主成分分析法對特征數量進行降維,以此來提高模型的預測精度和計算簡便度;最后通過特征分析推導出每個特征屬性的相對權重和貢獻。此外,采用確定系數R2和均方誤差度量不同預測模型的預測精度,發現采用隨機森林模型預測的鉆速與實際鉆速的誤差最小,預測效果最好。左迪一等人[15]利用大數據分析方法分析了塔里木油田克深區塊鉆井的提速技術:利用相關系數法分析了影響機械鉆速的主控因素;采用隨機森林和梯度提升樹方法建立了針對不同類型井特點的機械鉆速預測模型,并通過局部依賴分析獲得最優鉆井參數。中國石油集團長慶鉆井公司將各區塊的地層地質信息進行整合,將神經網絡技術與專家頭腦風暴相結合構建出機械鉆速預測模型,并采用歷史數據進行了有效測試[16]。
3)地層巖性預測。鉆井過程要鉆遇不同巖性的地層,實時了解鉆頭周圍巖石的物理、力學性質,對于提高鉆井效率、控制井眼軌跡具有重要作用。俄克拉荷馬大學以鉆頭與鉆柱性能大數據為基礎,采用機器學習算法建立了隨鉆預測鉆頭周圍巖性的方法[17]:首先建立油田現場的公共大數據集,并分析測井數據的主成分,用不相關成分代替相關變量;再利用k-均值、層次聚類和自組織映射神經網絡等3種聚類方法對巖性變化進行分離,通過觀察3個巖性群的測井數據和巖心特征來確定巖性群的巖石物理意義;最后采用隨機森林、神經網絡和梯度增強等分類技術預測不同巖性群的巖性。該方法在Volve油田現場進行了測試,巖性預測準確率達到了75%。
4)鉆井風險預測。李維校等人[18]采用支持向量機方法,對鉆壓、轉速、鉆速、扭矩、泵壓和排量等參數進行實時監測和分析,建立了考慮鉆井過程狀態的鉆井風險識別模型;BP公司建立了鉆井過程中的套管卡管預測模型,通過分析過去發生的與靜摩擦事件相關的230個屬性特征,以近實時狀態預測可能發生的靜摩擦事件,幫助司鉆提前校正管柱下入方法。CGG公司將大數據分析技術應用于英國大陸架復雜井段鉆井中,采用趨勢分析和相關性分析方法識別鉆井風險,優化鉆井參數[19]。在Terada Aster平臺構建了包含約350口井的鉆井參數、測井資料、地質和井位數據的數據庫,建立了鉆井參數(鉆壓、機械鉆速、扭矩等)與井筒條件之間的聯系。通過單井、地層、地層地理位置以及任何組合形式,可以將影響鉆井質量的鉆井參數顯示出來。通過分析不同鉆井參數關系曲線上的異常點來識別鉆井過程中的異常情況,并提前采取預防措施。沙特阿美公司開發了大數據井涌監測自動化系統[20],該系統采集壓力、流量、懸重、泵速和鉆壓等參數后,將每個參數組標注“有井涌”或“無井涌”(見圖4),并采用決策樹、k-最近鄰和人工神經網絡等5種模型對樣本進行學習,最后針對每個參數組進行井涌預測。結果表明,最理想的模型是決策樹和k-最近鄰,精度達到90%。k-最近鄰比決策樹模型更精確,但計算時間長。

圖4 用于井涌監測的人工神經網絡模型Fig.4 The artificial neural network m odel for kick monitoring
2.2.2 儲層壓裂
低油價背景下,利用大數據分析技術優化水力壓裂參數、設計水力壓裂方案,是獲得最大水力壓裂價值、降本增效的有效手段。斯倫貝謝公司提出利用云進行裂縫和儲層并行模擬,結合大數據分析和人工智能算法建立代理模型,以實現快速、有效的壓裂設計[21]。建立代理模型的過程主要包括數據創建和數據分析2部分(見圖5)。首先建立目標區域的靜態地球數值模型,通過調整儲層滲透率、相對滲透率和裂縫滲透率,使模型的計算結果與歷史產能擬合;然后利用標準抽樣方法對參數空間內的敏感參數(井距、壓裂段數、簇數等)進行隨機抽樣,通過對多個參數排列組合,得到多個參數的影響;最后利用隨機森林、梯度提升、線性回歸和決策樹等預測分析技術尋找輸入數據與輸出數據之間最好的擬合關系,建立代理模型,并利用鉆井完井過程中獲得的新數據對代理模型進行訓練,以提高模型的準確性。

圖5 代理模型建立流程Fig.5 The flow chart of establishing an agent model
2.2.3 油氣開發
1)采收率預測。美國奧斯汀大學與中國石化石油工程技術研究院聯合研究了一種基于大數據挖掘和數學回歸算法的頁巖油氣藏的最終采收率(簡稱EUR)預測新方法[22]。該方法首先利用敏感性測試方法選取與巖性和工程參數相關的主控影響因素,然后利用非線性回歸和多元線性回歸方法評估EUR與工程和生產參數的相關性,再在原有模型的基礎上加入巖性參數因子,最后利用優化后的數據模型測算頁巖油氣藏的最終采收率。A.W ilson建立了基于無因次數和大數據挖掘技術的油田采收率預測方法,并將其應用于墨西哥灣油田[23]。該方法主要包含以下步驟:首先收集包括地質參數、儲量及產量參數、油層物理參數、壓力、體積和溫度等84種油田屬性參數;然后利用無因次數完成油田數據集的聚類和降維;再利用無因次數分析流體流動驅動力的相對重要性;最后利用偏最小二乘回歸法提取潛在的因數,實現數據降維,將油田聚類并計算采收率。
2)產量分配。Devon公司綜合大數據分析方法、地理信息系統和IT技術,研發了適用于北美非常規頁巖油氣區塊的簡易產量分配平臺[24]。該平臺根據復雜的頁巖油氣井生產歷史數據,快速計算和評估各產區中各區域的油氣生產情況,甚至可以精確計算出單井各層射孔段的產量分配。該平臺的地理信息系統自帶的制圖工具可提供產能分配圖,用戶可以直接在地圖上做出選擇并使之數據化。該平臺應用于試驗井Parkins22-20N-13W井的Chester目標產層,5m in內生成以目標井為中心、半徑19.2 km區域油氣累計產量分布圖,評估顯示該井周圍1.6 km區域內已生產約13.8×103m3當量油氣,已產油氣量較高,說明該區域內Chester層的枯竭風險較高,可據此指導布井。
3)生產設備性能優化。殼牌公司利用大數據技術分析了大量的歷史生產數據、自動化監測數據、故障維修日志和測試數據等,建立了電潛泵故障預測模型,與采油專家經驗結合,對預測模型進行實時修正,識別并去除因傳感器等故障導致的偽劣數據,進一步提高了預測精度(超過80%),大大減少了故障停機次數。挪威國家石油公司將大數據分析技術應用于設備維護作業系統,基于實時采集的設備運行數據,利用智能算法計算了設備的最佳維修保養周期,優化了維修保養停機的計劃,達到了設備維修保養周期最大化的目的。此外,基于歷史數據建立了設備的失效模型,并優化了設備檢測策略和方案,利用大數據技術實時監測設備運轉,一旦設備運行達到方案預設的條件,系統將預警并給出維修保養建議,從而避免了設備嚴重故障造成的停機大修事故。
目前,國內外能源公司在油氣勘探、開發業務中嘗試使用大數據分析技術,并取得了良好的實施效果,主要具備以下特征:1)國際大型石油公司正在或基本已建成大數據分析平臺。通過建立大數據分析平臺,將人、過程和技術聯系起來,以實現價值的最大化;2)小場景產生大價值。針對鉆井、壓裂、生產中具體的應用場景,以解決具體業務問題為目標,通過大數據發現各相關因素的變化情況并預測其變化帶來的結果,提高業務預見性,實現業務的自動優化;3)云化趨勢降低技術使用門檻,與互聯網公司跨界聯姻趨勢明顯。各大能源公司均與數字巨頭公司合作構建云上數據平臺,向云化解決方案的演進使石油公司能夠更專注于數據和業務邏輯,不需要維護底層的硬件和網絡;4)引入了智能算法。通過引入機器學習和深度學習等智能算法,進一步提高了大數據分析的準確性和實時性。
利用大數據技術優化石油工程作業流程、實現降本增效目的已成為各大石油公司的廣泛共識。在大數據技術應用日益廣泛和深入的趨勢下,石油行業應借助互聯網、電子商務等行業的大數據應用經驗,明確各領域的應用需求,積極推動大數據技術的推廣應用。具體建議如下:
1)建立統一的石油工程大數據平臺,實現數據互通、信息分享。數據是石油公司智能化轉型的基礎,建立統一的大數據平臺需要油田分公司、油田服務公司和科研機構的共同參與,只有加強石油工程各環節的數據共享,打破數據孤立分散、相互隔絕的局面,通過共享不同專業和部門之間的信息數據,規范數據的采集、傳輸、存儲、轉換、集成和應用,提升數據的一致性和可靠性,才可能實現一體化的數據融合。
2)緊密聯合數字化巨頭,自主創新與合作研發并重。與互聯網、電子商務等行業相比,石油行業在信息通信技術方面的技術積累和人才積累明顯薄弱,通過自主創新獲得大數據技術成功將是一個非常漫長的過程。加強與數字化巨頭公司的合作,探索以石油公司為主體,與阿里巴巴、華為等國內頂尖信息企業、高等院校聯合籌建石油工程大數據技術重點實驗室,提供專項資金支撐石油工程大數據技術的研發。
3)完善大數據管理機制和技術標準。建立針對石油工程的大數據標準體系,推進油田現場數據采集、指標口徑、交換接口、訪問接口、數據質量和數據交換等關鍵標準的制定和實施。推進數據管控制度建設,明確業務職能責任部門、專業分公司石油工程數據管理及共享的義務和權利,形成石油工程大數據治理長效機制。
4)強化基礎技術、前瞻技術研究。針對傳統的大數據優化算法在處理高維石油工程大數據時性能急劇下降的問題,結合石油工程大數據特點,強化機器學習、深度學習等智能算法的基礎研究,開展鉆井井筒數字孿生系統、鉆完井機器人、井場虛擬現實/增強現實和認知計算等前瞻技術的研究,以提高石油工程大數據分析的速度和準確度,為下一代石油工程智能化的發展奠定技術基礎。
5)堅持“以點帶面”和“先易后難”原則,逐步構建石油工程大數據生態系統。研究石油工程大數據技術發展戰略,制定石油工程與大數據技術融合發展的技術路線,先針對容易實現的具體應用場景部署實施相關項目,再集成各單項技術形成石油工程人工智能生態系統。建議近期重點攻關鉆井參數優化、鉆井風險預警、油藏智能導向鉆井、完井參數優化和地質工程一體化等單項技術。
海量數據是石油工程多學科交叉融合一體化的基礎,從海量數據中快速分析、挖掘得到有價值信息的核心就是大數據技術。大數據技術的進步為石油工程的信息化、智能化發展提供了新的機遇,建立統一的、一體化的大數據平臺,結合石油工程專業的特點,借助機器學習、深度學習等人工智能算法,形成石油工程領域大數據生態系統,對于優化工程作業參數、提高作業效率和降低作業成本具有重要意義。
致謝:論文撰寫過程中,孫旭東專家給予了幫助和指導,李丹丹、廖璐璐、陳曾偉等同事幫助完成了資料的收集工作,在此表示感謝!