馬 濤,許增魁,劉景義,王鐵成,王學軍
中國石油東方地球物理公司信息技術中心 (北京 100007)
勘探與生產技術數據管理系統(A1)是中國石油信息技術總體規劃中的重點信息系統,經過近10年的持續建設與運維,建成了中國石油有史以來統一的勘探與生產技術數據管理系統和基于勘探開發一體化數據模型(EPDM)標準的、最大的勘探開發一體化數據庫,管理著物探、鉆井、錄井、測井、試油/試采、樣品實驗、地質油藏、油氣生產等領域的海量數據資產,支持勘探開發一體化項目研究與應用。
EPDM模型標準的形成經歷了由借鑒、擴展、應用到完善與提升等過程。參照國際或企業標準,以物探、地質、鉆井、錄井、測井、分析化驗等石油行業及企業專業技術標準為依據,在匯總上游信息系統建設需求的基礎上,由業務專家按照業務流程逐一梳理、分析每個業務節點的數據來源和數據應用,首先形成業務流程控制下的各領域專業技術數據規范,以此為基礎,進一步分類、聚合、抽象,按照業務實體邏輯,形成數據關聯關系,構建出勘探開發一體化數據模型,滿足信息系統建設過程中數據采集和數據存儲的應用要求。2010年,中國石油發布勘探開發一體化數據模型標準(EPDM)1.0版本,推動了上游信息系統建設與應用。
與規范及標準的發展相配套,A1系統建設項目組在系統建設中高度重視數據質量,始終堅守“數據質量是信息系統生命”的指導原則,通過“參照”、“實踐”、“固化”等方法和過程,在中國石油統建信息系統建設中率先將ISO 9001質量管理體系應用于A1系統建設與運維中,形成了A1系統數據質量管理體系,取得了較好的應用效果。
大型信息系統一般具有用戶多、應用范圍廣、數據規模大、數據增長速度快、數據質量要求高等特點。其中,數據質量是保障信息系統建設效果的核心基礎,甚至決定著信息系統的生命。
數據質量通常包括以下主要要素:①規范性;②完整性;③準確性;④一致性;⑤時效性等。數據的生命周期通常包括:產生,傳輸,加工、分析或處理,應用,存儲與保存,交換,廢棄等環節。在各環節中要保持數據的質量不變或提升,這是對信息系統建設的基本要求。
數據質量在數據的生命周期中會受到來自歷史、標準變化、技術方面、保存條件、業務變化等不同因素的影響。不同歷史時期數據質量要求不同,不同版本標準對數據質量的要求不同,不同時期的技術能力取得的數據質量不同,存儲介質老化等對數據質量的影響,老數據不能滿足業務提升的要求等。數據質量問題可以歸結為以下幾個方面:
1)數據不規范。不同時期獲取的數據在命名、歸類、記錄格式等方面與現行標準存在差異,造成數據不規范。
2)數據不完整。數據、數據項或數據屬性部分缺失,不能完整表達數據或業務含義。
3)數據不準確。數據中存在異常或錯誤。
4)數據不一致。同類數據未遵循統一的規范,相互關聯的數據出現不同的表達。
5)數據不及時。數據從產生到應用的時間過長,造成數據使用價值降低。
上述5個方面的問題是信息系統建設中普遍存在的重點問題。將以A1系統為例,探討大型信息系統中數據質量管理解決方案和方法。
A1系統覆蓋領域多、專業面廣,涉及業務環節多,且其數據中包含著有關地下油氣資源狀況的重要信息,是油氣勘探開發業務的核心資產。因此,研究與A1系統相配套的數據質量管理解決方案和方法具有重要意義。
在A1系統建設中,引入了ISO 9001質量管理體系方法論,通過“參照”、“實踐”、“固化”等方法與過程,結合A1系統數據特點及其數據質量控制的要求,提出了A1系統數據質量控制解決方案和方法,形成了“質量管理體系+組織與制度+規范與技術”三位一體的質量管理與控制工作模式。
A1系統質量管理體系包括:質量控制方針、目標、原則、管理機制、質量控制流程、標準規范、數據質控方法(技術)等。
2.1.1 質量控制方針與目標
A1系統數據質量管理與控制的方針是:質量為本、服務至上、滿足要求、持續改進;總體目標是:確保數據的規范性、完整性、準確性、一致性和及時性。
1)數據規范性要求:數據要符合A1系統現行的技術標準、數據規范。
2)數據完整性要求:數據要完整覆蓋和表達相關的業務范圍、數據類型、數據項、數據屬性等。
3)數據準確性要求:數據表達的物理含義準確,內容、范圍正確,數據關聯正確。
4)數據一致性要求:數據在業務之間、類型之間、數據之間具有一致性,同類數據在命名、格式、坐標系、單位制等方面具有一致性。
5)數據及時性要求:數據在匯交、審核、入庫、服務、應用等方面滿足業務對數據需求的時效性。
A1系統數據質量管理與控制的目標見表1。
2.1.2 質量控制原則
質量控制原則是整個質控體系的基礎,在A1系統數據搜集、整理、質量控制過程中,遵循的基本原則是:尊重原始數據、補齊缺失信息、改正錯誤信息、確保數據可靠。
2.1.3 質量控制管理機制
在A1系統數據質量管理體系建設中,結合數據質量控制流程,建立了質量管理組織機構,制定了數據質量控制相關人員的崗位責任,形成了多級質量檢查、控制與跟蹤機制。
質量管理組織機構分為建設階段和運維階段組織機構,建設階段組織由A1系統實施組、質檢組、專家審核組構成,運維階段由技術支持中心和油田三級運維組構成,形成了體系控制、立體防范、全員負責、重點檢查、全程跟蹤、持續改進的數據質量控制與檢查機制。具體過程包括:操作員自檢、操作員互檢、質管員抽檢、管理員復檢、專家審核以及質量巡檢等,每個過程要做到檢查有目標、修改有依據、過程有記錄、責任可追溯。

表1 A1系統數據質量管理與控制的目標
2.1.4 質量控制流程
根據A1系統數據生命周期的特點和相關質量管理標準和規范,制定了A1系統數據質量控制基本流程。該流程涵蓋了數據的收集/接收、數據規格化或規范化整理、數據質量檢查修正、專家審核與確認、數據加載入庫、數據下載驗證等過程,以及數據操作員自檢與互檢、質量管理員抽檢、數據管理員(或項目經理)復檢、油田業務專家審核、質量檢查組巡檢等數據質量控制環節。在實際工作中,針對A1系統數據來源于不同專業業務的情況,制定了不同專業數據的質量控制流程和流程中的質量控制關鍵點。
2.1.5 標準規范
標準規范涉及A1系統數據質量管理體系實施的技術依據、操作指南和管理辦法,形成了相關的技術標準、操作規范、管理辦法/規范[1]。
2.1.6 數據質量控制技術
在A1系統數據質量管理體系中,將數據質量控制的方法、流程、跟蹤機制等通過數據質控軟件固化下來,通過數據質控軟件支撐數據質控技術的實現,以提高數據質控效率和數據質控水平。在A1系統數據質量管理體系建設中,通過研究數據質量管理方法,結合相關專業數據的特點,研發了能夠滿足A1系統數據質控需要的數據質控軟件[2]。A1系統數據質控軟件的研發,是落實“質量管理體系+組織與制度+規范與技術”三位一體的質量管理與控制工作模式的技術保障。
在A1系統建設與運維階段,盡管組織管理機構及名稱不同,但落實到數據質量管理體系保障方面的制度、崗位設置和崗位職責不變。
建設階段,由項目建設指導委員會、項目經理部、標準化組、數據組、主數據庫組、項目數據庫組等構成;運維階段,由勘探與生產信息系統專家中心、A1系統支持中心、油氣田公司A1系統運維組構成。
數據質量管理體系中明確的相應崗位及質量管理責任包括:
1)數據操作員:負責數據的收集、整理、質量控制、入庫、下載檢查等,按照“誰整理,誰負責”的原則,對所操作的數據質量進行自檢和交叉互檢,保持和提高了數據的完整性、準確性和一致性,填寫各項操作記錄,自檢與互檢率100%。
2)數據質檢員:負責對所有入庫數據的復檢,根據數據操作記錄及數據的關聯關系,完成對入庫數據的完整性、準確性和一致性方面的檢查,填寫質檢記錄,復檢率100%。
3)數據管理員:根據任務總體要求,負責數據工作規劃、任務分解與分配;負責對入庫數據的抽檢,根據質檢記錄、數據操作記錄及數據的關聯關系,完成對入庫數據的完整性、準確性和一致性方面的檢查,填寫抽檢記錄,抽檢率不低于60%。
4)業務專家審查:由客戶(油田)組織各業務方面的專家,組成專家組,負責對數據質量控制過程進行業務指導,對入庫數據的規范性、完整性、一致性進行最終審核,填寫審核記錄,審核率100%。
5)數據質量巡檢:由業務與數據管理方面的專家組成,負責記錄填寫的規范性、業務描述的準確性以及數據質量進行檢查和關聯驗證,填寫巡檢記錄,巡檢率不低于40%;必要時編寫巡檢報告,對巡檢中發現的重大問題,向油田主管領導及部門匯報,并組織整改。
2.3.1 數據質量控制方法研究
數據質量控制是使數據在采集、存儲、傳輸和使用中滿足相關質量要求的工藝過程。在A1系統數據質量控制方法研究中,參照了Informatica提出的數據質量控制六步法:
步驟一:探查數據內容、結構和異常;
步驟二:建立數據質量度量并明確目標;
步驟三:設計和實施數據質量業務規則;
步驟四:將數據質量規則構建到數據集成過程之中;
步驟五:檢查異常并完善規則;
步驟六:對照目標,監測數據質量。
借鑒上述方法,詳細分析了A1系統數據質量管理對象(數據內容),結合相關標準規范和質量金字塔思想,提出A1系統數據質量控制策略與方法。
1)A1系統數據特點。A1系統數據質量管理對象(數據內容)涵蓋了勘探與生產業務的11個專業領域,即:物探、鉆井、錄井、測井、測試、試油試采、樣品實驗、井下作業、地質油藏、油氣生產、綜合研究等。這些領域的數據可以歸結為結構化數據和非結構化數據兩大類型。對非結構化數據,主要根據其自身的特點、技術規范及標準,結合A1系統數據規范,研制相應的質量控制方法和技術。對結構化數據,主要根據EPDM標準,結合各油田的業務特點及需求,制定相應的質量控制策略、方案和規則,滿足個性化需求。A1系統數據分類見表2。

表2 A1系統數據分類
由表2可以看出,物探、測井、研究成果等數據,其常用記錄格式也較多,不盡統一。
2)A1系統數據質量控制策略與方法。參照了Informatica的數據質量控制六步法,結合A1系統數據質量管理體系要求,提出了A1系統數據質量控制策略與方法(圖1)。該方法的主要思想是:基于業務規則和相關技術標準,建立質量與管理規則庫,以規則約束的方式實施A1系統數據入庫前、入庫中和入庫后3階段的質量控制工作,并分別生成質量報告、監測報告、質量公報,以達到數據質量控制的要求。

圖1 A1系統數據質量控制策略與方法示意圖
在A1系統數據質量控制中,應用了A1系統非結構化與結構化數據質控技術以及相應的數據質控軟件(工具)[3]。這些數據質控技術和軟件在A1系統建設中研究、發展并加以完善,成為A1系統的重要組成部分。
2.3.2 非結構化數據質控技術
由于A1系統中的非結構化數據在數據內容、關聯信息、執行標準、文件格式等方面都與其所屬學科或專業領域密切相關,因此,在A1系統建設中,針對不同學科或專業領域的非結構化數據分別研制了相應的數據質控技術。下面,僅以地震、測井、成果文檔數據為例介紹非結構化數據質控技術。
2.3.2.1 地震數據質控技術
地震數據的質量控制過程主要包括:磁帶轉儲或格式轉換、質量控制、關聯匹配、數據校驗等,其質量需遵循GB/T 19001-2008/ISO 9001:2008質量管理體系,符合國際、國內行業相關標準規范和A1系統地震數據入庫標準。
1)地震疊前及原始數據。地震疊前及原始數據對象包括:野外測量成果、電子班報SPS(+)、靜校正數據、地表調查成果、疊前/原始數據體等。
質控的內容包括:測量成果、電子班報、靜校正數據、地表調查結果、EBCDIC頭、二進制頭、FID、單炮數據記錄等。
首先需要對數據進行規范化處理,即進行數據格式轉換,使得入庫數據滿足A1系統數據標準要求(SEG-Y、SEG-D)。數據質控軟件能夠支持SEGY、SEG-D、SEG-A/B/C、GRISYS等格式數據的輸入。地震疊前及原始數據質控流程見圖2,主要過程包括:野外/疊前地震數據收集轉錄、數據入庫前質控、數據加載入庫等。

圖2 地震疊前及原始數據質控流程
2)地震疊后數據。地震疊后數據對象包括:處理后測量成果、處理成果數據體、速度數據、炮道關系數據等。
數據質控內容包括:處理后測量成果、疊加/偏移速度數據、EBCDIC頭、二進制頭、道頭數據、道數據等。
首先需要對數據進行規范化處理,即進行數據格式轉換,使得入庫數據滿足A1系統數據標準要求(SEG-Y)。數據質控軟件能夠支持SEG-Y、CGG、CODE-4、GRISYS等格式數據的輸入。
地震疊后數據質控流程見圖3,主要過程包括:打開SEGY文件、命名一致性質控、EBCDIC記錄質控、采樣數據質控、道頭記錄質控等,包含了90個關鍵質控點。
3)地震輔助數據質控方法。地震輔助數據主要包括:測量數據、電子班報或靜校正、表層調查數據,其質量控制對象包括:二維測量數據、三維網格、SPS(+)班報數據、靜校正數據、表層調查數據。
二維測量數據質控內容包括:解析測量數據或靜校正數據,抽取樁號及對應坐標信息,檢查樁號、CMP號的連續性及對應的X、Y坐標值是否異常,測線圖形位置的瀏覽。
三維網格質控內容包括:對網格邊長、道間距、線間距、工區內角進行質量檢查以及網格圖形瀏覽。SPS(+)班報數據質控內容包括:對單個/批量文件處理,定制頭信息、圖形展式以及編輯數據。
靜校正數據質控內容包括:檢查樁號及對應坐標信息的連續性、對應性。

圖3 地震疊后數據質控流程及關鍵質控點示例
表層調查數據質控內容包括:檢查坐標信息的正確性、連續性及表層速度的值域范圍等。
4)地震數據匹配與校驗。對于地震數據加載,要對關聯數據進行匹配和驗證,基本思路是:對地震數據加載中的各項數據進行匹配檢查和校驗檢查,并滿足以下要求。
原始數據:要求野外測量、SPS、FID、PAR、SEGD/Y數據齊全,信息及對應關系正確。
疊前數據:要求測量成果、FID、PAR、SEG-D/Y數據齊全,信息及對應關系正確。
疊后數據:要求測量成果、炮道關系、SEG-Y處理成果數據、速度數據、處理報告等數據齊全、信息及對應關系正確。
5)地震數據質控軟件。地震數據質控軟件包括:地震數據體轉儲及格式轉換軟件、地震數據體質量控制軟件、地震輔助數據質量控制軟件、地震速度數據質量控制軟件。
地震數據體轉儲及格式轉換軟件(RTSDS)主要支持地震數據轉儲及格式轉換;支持從磁盤、磁帶、數據庫等多種媒體介質讀取不同格式的數據,同時對其解析;支持輸出多種數據格式并存放在磁盤、磁帶以及數據庫中。
地震數據體質量控制軟件(SDQCS)主要支持磁帶轉儲、地震數據查看、地震數據檢查與質量控制、地震剖面查看與檢查等。SDQCS還支持對SEG-Y格式的VSP數據文件的批量自動檢查。
地震輔助數據質量控制軟件(SADS)主要支持2D/3D地震SPS、靜校正、測量成果、炮道關系等輔助數據的格式轉換、質量控制、測線位置圖顯示等質量控制功能。
地震速度數據質量控制軟件(SVFC)主要支持對地震疊加、偏移速度數據文件進行解析、格式轉換、質量控制,輸出STATOIL H2格式。
2.3.2.2 測井數據質控技術
A1系統測井數據質控的數據對象主要是常規測井、地層傾角測井、成像測井等,數據質控主要內容包括測井數據解析、格式轉換、質量控制等過程。
對于國內油田情況,數據解析需覆蓋ASCII、CLS、DLIS、LAS、LIS、WIS、XTF、716 等格式,并對這些格式的變種具有適應性。
測井數據質控點主要包括測井基礎數據和測井曲線。其中,測井基礎數據質控內容需覆蓋井名、坐標(經緯度)、鉆/完井日期、井筒名、井筒類型、總深度、深度參考、補心海拔等。
在測井數據質量控制中,研制了測井數據質量控制軟件(WDQCS),主要功能包括:數據解析、批量轉儲、重采樣處理、井信息抽取、數據瀏覽、數據展示、質量控制、數據輸出等(圖4)。
2.3.2.3 成果文檔質控技術
對于成果文檔,主要質控內容包括:文檔數據的整理、創建索引信息、關聯關系檢查等。在成果文檔質控過程中,研制了成果文檔數據質量控制軟件(SACGS),主要功能包括:對文檔、圖件、物理實體類數據進行信息抽取、編輯、生成符合A1系統要求的COPEX或XML格式的索引,并進行文檔關聯關系檢查。
2.3.3 結構化數據質控技術
1)結構化數據質量控制方法。在A1系統中,結構化數據主要包括符合EPDM標準的鉆井、錄井、測井、試油試采、測試、分析化驗、井下作業、油氣生產、地質油藏等領域的數據。
A1系統結構化數據質控的基本思想是,首先建立結構化數據質量檢查規則,然后應用這些規則對結構化數據進行入庫前、入庫中和入庫后的質量檢查。

圖4 測井數據質量控制軟件功能架構
結構化數據質量檢查規則,要結合油田的具體業務進行定義,檢查內容包括:數據的非空性、唯一性、大于(等于)或小于(等于)預定的值域范圍、正則表達式、單調遞增(減)、差異對比、實體關系等特性或要求。
2)結構化數據質量控制技術。在A1系統結構化數據質控中,研制了結構化數據質量掃描系統(WDBQCS),主要功能是支持對結構化數據的質量檢查、質量掃描、生成質量報告及質量公報等功能。結構化數據質控過程主要包括:配置數據源、定制方案、定制業務規則、數據掃描、數據展示與生成質量報告/質量公報。圖5展示了大港油田的一個質量公報案例。
隨著A1系統建設的持續和A1系統應用的不斷深化,A1系統數據質量管理體系也在應用中得到不斷完善并發揮著越來越大的作用。
A1系統數據質量管理體系的應用覆蓋了A1系統建設與運維階段以及中國石油A1系統部署的14家油氣田公司。

圖5 大港油田質量公報案例
A1系統遵循的標準、規范不斷完善,已經編制、發布和推行了包括EPDM數據模型在內的10類相關技術標準、13類A1系統建設與運維的操作規范(規程)、10項A1系統數據管理辦法[4]。
A1系統數據質量管理體系及質控技術不斷發展與提升,配套的數據質控軟件支持非結構化數據質控和結構化數據質控,在各油氣田均取得良好的應用效果。華北油田遵循A1系統數據質量管理體系[5],推進了數據整理、質控和入庫過程中的數據質量管理工作,2012年,華北油田先后組織了3輪次數據檢查,對數據質控的自檢、互檢、復檢、抽檢、審核、抽檢等過程進行復核檢查,數據抽查率達60%,數據差錯率低于萬分之一,為油田勘探開發科研生產提供了可靠的數據支持。
2006年和2010年,A1系統數據質量管理體系作為中油瑞飛公司質量管理體系建設的試點和升級,分別通過了 ISO 9000:2001 和 ISO 9001:2008 認證,對形成和固化A1系統數據建設 “質量管理體系+組織與制度+規范與技術”三位一體的質量管理與控制模式,全面提升A1系統數據質量,深化A1系統數據應用,起到了良好推動作用。
目前,A1系統管理了油氣田公司近590TB地震勘探成果數據、23萬口測井數據、28萬口井井筒數據,累計為2 100個勘探開發研究項目提供了高效、優質的數據服務,大大縮短了研究人員收集數據的時間,有效提高了研究效率。基于A1系統,大部分油氣田成立了勘探開發數據中心,實現了對勘探開發數據資產的正常化、有序化管理。
[1]劉景義,張暉,趙偉濤,等.中國石油A1A2系統數據質量管理體系建設實踐[J].信息技術與信息化,2011(3):61-66.
[2]馬濤,王學軍,王鐵成,等.A1輔助軟件系統[J].石油科技論壇,2011(1):52-54.
[3]李鐵柱,韓文娜,王鐵成.VSP數據管理質量控制方法探討[J].中國信息界,2012(10):41-43.
[4]陳哲,徐慶,范德軍.大港油田勘探開發信息化數據質控體系建設的實踐[J].中國科技信息,2013(15):80-81.
[5]孫韻.A1系統數據建設與應用技術研究[J].中國信息界,2011(11):56-58.