朱玉高
(延安職業技術學院 石油和化學工程系,陜西 延安 716000)
中海油公司自2004年引入鉆完井數據分析數據庫系統以來,經過10余年發展,已經形成了完善的鉆完井日報及鉆完井工報制度,各鉆臺分別形成了相對完善的鉆完井數據分析數據庫系統且已經實現了鉆完井數據的同構融合工作。但是,鉆完井數據如果要發揮更大的數據價值,則需要實現針對地質報告、材料報告、三電耗能報告、人事管理報告等相關數據的充分異構融合。即通過完善鉆完井數據庫系統與其他管理信息系統數據之間的接口架構,實現對鉆完井數據的深度挖掘。
在鉆完井數據分析領域,最初鉆完井數據分析過程,僅是通過鉆完井日報和鉆完井工報形成更長周期的數據統計,如鉆完井周報、鉆完井月報、鉆完井年報等,且可以自動統計分析不同井臺不同鉆機的鉆完井數據工報統計。近10年內,根據上述數據和深度迭代數據回歸分析神經網絡系統,可以實現對鉆完井數據前推若干周期的曲線估計計算,對未來一定周期內的鉆完井數據進行預報分析。本文研究中,計劃引入鉆完井數據深度分析系統,實現對地質預報、材料及能源消耗、人力資源成本等諸多關聯異構數據的基于深度迭代數據回歸分析神經網絡系統的曲線估計計算分析。
該研究創新點在于使海洋鉆井平臺的鉆完井數據作為核心驅動數據,實現對海量關聯異構數據的曲線估計分析,使鉆完井數據發揮更大作用。
鉆完井數據主要包括以下構成:
(1)施工隊伍編號及相關工作人員,含各責任人信息,包含班組長、鉆完井工程師、材料員、司機等;
(2)井臺中心點坐標信息,包括水平坐標和高程坐標,該信息受RTK系統定位,因為半潛式平臺可能會導致井臺中心點坐標發生微小變化,所以要求實時監測平臺中心點坐標信息;
(3)鉆頭坐標信息,包括水平坐標和高程坐標,該信息受到定向鉆頭定位系統控制;
(4)井筒長度信息和井筒深度信息,該信息受到歷史鉆頭坐標信息控制;
(5)鉆頭溫度、壓力等信息,該信息由鉆頭內物聯網探頭系統獲??;
(6)當班的材料消耗信息,如鉆桿、鉆頭、井筒套管及其他配件;
(7)當班氣象及水文條件信息,如氣溫、風速、浪高、洋流、水溫等。
分析上述內部數據,可發現鉆完井數據與外部數據庫之間存在多種數據關聯,這些數據關聯均可構成異構數據聯合分析的數據接口。如圖1所示。

圖1 鉆完井系統數據接口與數據邊界示意圖Fig.1 Schematic diagram of data interface and data boundary of drilling and completion system
圖1中展示了該系統部分數據外部接口。因為鉆完井工作是鉆井平臺的核心工作,所以,鉆完井系統應是鉆井平臺管理信息系統的鉆完井數據核心驅動數據,通過對該數據與其他相關管理信息系統進行數據聯合,可以提供可供數據深度挖掘使用的核心數據。
鉆完井數據如果要實現與其他相關系統的數據接口,則必須突破獨立系統之間的數據屏障。因為幾乎所有獨立系統均會開發數據保護安全管理子系統,任何外部系統調用本系統數據,均會面臨數據訪問規則限制、數據解密方案限制、數據庫及數據倉庫的用戶密鑰限制、數據結構限制等諸多限制,即便在前三者中均可因為所有相關系統的管理方為同一法人而輕易獲得相應資料,但數據結構限制會成為數據接口實現過程的主要屏障,脫離原系統數據解釋層模塊的支持,外部系統很難有效對其數據進行解釋,從而使讀取數據即便使用全部合法密鑰后,仍無法進行有效解析。所以,API服務器構建的數據邏輯連接成為大部分工業平行系統進行跨系統數據調用的重要手段。其調用方式詳如圖2所示。
圖2中,在數據倉庫任務主機的驅動下,基于數據庫平臺云主機,將數據倉庫中相關數據形成元數據,并將元數據POST到數據應用系統的元數據中,進而讀入到數據應用系統的數據倉庫中。此時,兩側系統中的4臺主機具有明確分工。其中,數據倉庫任務主機負責整合數據倉庫主機集群中的資源并進行數據聯合調動,數據庫平臺云主機運行數據庫平臺軟件,比如MySQL等,用于執行相應的SQL指令,數據解釋模塊云主機運行數據系統分層結構中的解釋層模塊,對數據進行解釋和編譯,API服務器主機負責發出并解析數據請求(Ask)并返回數據反饋(Request)。數據的實際流量在數據倉庫任務主機中經過相應子系統的背板交換機連接到接入路由器中,進而通過IDC系統的背板交換機實現數據的物理層和鏈路層互聯。

圖2 基于API的數據共享數據流示意圖Fig.2 Schematic diagram of data flow of data sharing based on API
不論是鉆完井數據還是其他相關數據,在各自數據庫中均已經形成了標準化數據,這些標準化數據如果進行聯合分析,必須進行去量綱計算,但不同的數據分析需求需要不同的去量綱方式,當前較為常用的數據去量綱方式有minmax算法和Z-Score算法。
minmax算法是將數據等比例投影到[0,1]區間上,加權minmax算法可以將數據等比例投影到任何區間上。其基函數為:

式中:X,Y分別為數據列中第個輸入數據及其對應的輸出數據;min為該列數據的最小值;max為該列數據的最大值;minmax加可以將數據投影區間下限調整到值,乘可以將數據投影區間上限調整到+值。
Z-Score算法是根據數據離開算數平均中值的位移與標準差的比例將數據的變化區間進行等比例投影。其基函數為:

式中:Y,X分別為數據列中第個輸入數據及其對應的輸出數據;為該列數據的均值;為該列數據的標準差;其中:

式中:為該列數據元素X的數量;其他數學符號含義同前文;

式中:數學符號含義同前文;
所以,將式(3)、式(4)代入式(2),可得:

式中:數學符號含義同前文;
上述式(1)描述的minmax算法,主要應用于需要在不同量值區間不同量綱數據之間的趨勢比較算法的前置數據治理,式(5)描述的Z-Score算法主要應用于對數據趨勢分析和數據曲線估計為核心目的的前置數據治理。將該兩種數據治理算法模塊進行提前準備并獨立開發后,可供后續數據分析過程直接調用。
圖1中數據經過多種數據聯合,可以進行更為復雜的數據聯合分析。如鉆完井井筒進度數據與材料消耗數據相結合,可以形成單位井筒長度的材料消耗情況變化趨勢分析;鉆頭深度數據與材料消耗數據相結合,可以形成深度標尺下的單位材料消耗數據分析。所以,統觀研究兩列數據的整合模式,可以得到圖3。

圖3 數據聯合分析模型Fig.3 Data joint analysis model
圖3中,數據治理過程根據實際數據分析需求和數據工程學特征選擇使用公式(1)的minmax算法或者公式(5)的Z-Score算法進行數據治理,經過數據治理的方式,可以通過區間分析法通過加N及乘M的方式進行數據區間調整,或使用對數法進行非線性密集數據關系放大。經過數據治理和投影轉化的數據,形成投影空間的因變量和自變量,從而在投影空間中進行相關的后續分析。
此處數據建立關聯的方式主要2種:
(1)主鍵關聯數據的關聯,在數據列A中,尋求關聯主鍵字段KA,在數據列B中,尋求關聯主鍵字段KB,當KA(i)=KB(j)時,認為A(KA(i))與B(KB(j))存在數據關聯。如圖4所示。

圖4 主鍵關聯數據的關聯模式示意圖Fig.4 Schematic diagram of association mode of primary key associated data
圖4中,線性矩陣KA、KB可能不相等,但在線性矩陣KA、KB中可能存在KA(i)=KB(j),而KA、KB的工程學數據意義一致,此時以KA、KB為紐帶,可以構建出A(KA(i))與B(KB(j))的聯系。此時,KA、KB對應的數據列為自變量,而A、B對應的數據列為因變量。構建聯系后,A、B可互為自變量。
(2)邏輯關聯數據的關聯,如果數據列A與數據列B產生于同一個數據表,那么該數據表的主鍵K數據列就可以將A、B直接關聯。如圖5所示。

圖5 邏輯關聯數據的關聯模式示意圖Fig.5 Schematic diagram of association mode of logical association data
圖5中,數據列A與數據列B構建數據關聯后,可在后續數據處理中拋棄數據列K而直接互為自變量進行處理。在包含鉆完井數據庫系統在內的大部分工業數據庫中,主鍵K一般為時序標志,那么基于主鍵K對數據列A、B進行直接分析,則被稱作時域分析,在時域分析基礎上進行頻域轉化,如小波分析、傅里葉分析等,即被稱作頻域分析,但數據列A與數據列B直接構成數據關聯后,也可在互為自變量的條件下進行基于非時序自變量的等效時域分析并進行等效頻域分析。該理念在上述主鍵關聯分析中同樣有效。
如果將大數據系統分為5個層次,分別為硬件層、數據層、治理層、解釋層、應用層,那么該模型就其數據層和治理層進行了升級。大數據系統的硬件層主要負責提供數據存儲介質和數據庫管理平臺的管理主機系統和內部網絡背板、內部網絡控制系統;數據層為大數據硬件中存儲的數據信息以及數據管理和數據應用產生的數據流;治理層包括數據的去量綱、脫敏、加密解密、接口協議等;解釋層包括數據格式的強制轉化、流媒體的二進制分解和重組等;應用層主要提供相應的應用功能,比如數據曲線估計、時域頻域分析、數據預警、曲線估計等,常規數據分析中經常用到的神經網絡、模糊矩陣等均在應用層相應模塊中。
在對數據層的驗證中,應分析支持相同功能的數據管理目標下的數據硬件占用量,其驗證結果如表1所示。

表1 數據層技術革新效果比較Tab.1 Comparison of technical innovation effect of data layer
表1中,該模型使用后的上述四大IDC資源需求量顯著降低,其原理是充分提升了數據夸庫融合度并充分減少了數據冗余度。其中,CPU指系統中通用中央處理器,GPU指系統中的專用浮點處理器,SSD和HDD指系統的硬盤空間,均采用了SAS硬盤總線且使用RAID備份的冗余硬盤空間未計入該空間需求中。
在對治理層的驗證中,應充分考察可用數據查詢的量,以及在中央數據倉庫可用數據庫規模的支持下可以提供的理論最大查詢數據規模的比值。其驗證結果如表2所示。
表2中,在使用后數據庫規??s小17.56%的前提下,其查詢量提升5.59倍,可用查詢規模提升11.67倍,導致數據查詢放大比從使用前的2.194提升到使用后的31.063。查詢量表明數據庫可以提供的查詢功能,查詢放大比指數據在相關系統內的應用場景豐富程度??梢娛褂迷撃P蛯︺@完井數據的數據層和治理層進行技術革新優化后,極大程度豐富了數據的應用場景,使數據價值得到充分放大。

表2 治理層技術革新效果比較Tab.2 Comparison of the effect of technological innovation at the governance level
鉆完井數據是鉆井平臺的核心數據,通過構建數據融合接口的方式,使海洋鉆井平臺內部管理信息化系統之間實現了更加充分的融合。在本文模型下,對鉆完井大數據的數據層和治理層進行技術革新,但硬件層、解釋層保持不變,此時數據的可挖掘價值大幅度提升,未來可以在應用層開發更加豐富的數據應用,以實現鉆完井數據的充分利用。