楊濤
(中海石油(中國)有限公司 北京 100010)
基于決策樹算法的石油基礎數據挖掘系統應用研究
楊濤
(中海石油(中國)有限公司 北京 100010)
針對石油基礎數據量急劇增長,數據之間不能達成共享,管理不能保持統一等問題,研究并設計了石油基礎數據挖掘系統分析系統。通過構建石油基礎數據數據倉庫模型,用于完成數據清理、數據變換和數據集成等數據預處理操作。應用決策樹算法實現油基礎數據的數據挖掘與分析,并借助數據挖掘插件直觀地向用戶展現了數據挖掘算法的分析結果,輔助業務管理人員對油氣生產做出指導和決策,促進了中國石油勘探與生產分公司生產管理水平的提高。
石油基礎數據;數據挖掘;數據倉庫;決策樹法
石油基礎數據正伴隨石油行業信息化的迅速發展而不斷攀升,加強管理,并科學合理分析這些數據,對于中國石油勘探與生產分公司來說意義重大[1]。目前管理系統查詢數據的主要形式為報表或者表格,缺點在于不能直觀顯示圖表數據,所以,對石油基礎數據挖掘系統的構建勢在必行[2]。
文中基于中國石油經濟研究院提供的基礎數據,該數據服務于中石油勘探與生產分公司,分析角度確定為石油基礎數據分析,對數據倉庫體系結構以及多維數據分析模型進行構建,對數據倉庫的多維分析主題進行合理確定,完成石油基礎數據挖掘系統分析系統的設計與實際驗證,選擇數據挖掘技術歸納總結石油基礎數據,尋找有用信息,直觀顯示分析結果,提升中國石油企業業務管理人員的管理能力與決策能力[3]。
數據挖掘被稱為數據庫的知識發現(Knowledge Discov-ery in Databases),石油基礎數據的數據主要目標為大量石油基礎數據,主要任務是對這些業務數據進行清洗、抽取、轉換以及加載,篩選有利于決策的重要數據[4]。圖1表示該系統結構。

圖1 石油基礎數據挖掘系統的結構
石油基礎數據挖掘屬于人機交互過程,該過程具有完整以及多次反復等特征[5]。數據挖掘基于多個步驟,并且不同步驟會隨著石油數據來源與研究領域的差異而改變,該過程見圖2。

圖2 石油基礎數據挖掘過程示意
數據倉庫屬于分析型處理數據庫,數據來源為數據集合,該數據集合具有多個異構、完整、穩定等特征,并對上述數據集合進行有效集成,根據各自主題的差異重新組合,尋找數據間的聯系與規律,為業務管理人員的決策提供關鍵信息[7]。
2.1 數據倉庫體系結構設計
石油基礎數據數據倉庫的體系結構由3部分組成,分別為:1)數據源;2)數據存儲;3)數據管理。圖3表示具體結構[8]。數據源作為數據倉庫的基礎,其來源包括4方面:①世界石油工業基礎數據庫;②石油基礎數據要覽;③世界油氣資源查詢系統數據庫;④其他外部數據源。

圖3 石油基礎數據數據倉庫體系結構
石油基礎數據倉庫的數據組織方式可以完整清晰地描述分析對象,尋找與分析對象相關企業不同數據間的內在關聯。具有高效率、高準確率的特征,提升管理人員的決策能力[9]。
1)數據倉庫的數據綜合:數據倉庫中的數據組織方法為分級組織,對應級別包括:①早期細節級;②當前細節級;③輕度綜合級;④高度綜合級;⑤元數據。其中第3種和第4種級別的數據適當進行歸納總結,因此,適合這兩種級別數據的模型為星型或者是雪花片模型,從而增加數據訪問速度[10]。數據倉庫的數據組織結構見圖4。

圖4 數據倉庫的數據組織結構
2)數據倉庫元數據模型:元數據(Meta Data)是關于數據的數據。元數據可大幅度提高尋找所需數據速度。石油基礎數據數據倉庫的核心為元數據,其對不同對象進行描述。元數據指明數據倉庫信息的內容與位置,對數據的抽取與轉換規則進行詳細描述,對數據倉庫主題相關的所有信息進行儲存[11]。詳見圖5所示。

圖5 元數據關系示意圖
3)數據倉庫的粒度設計:數據粒度指的是數據倉庫中保存數據的細化或者是綜合程度的級別。數據粒度越小,則數據細化程度越高,數據綜合級別越低,提供細節數據的查詢能力越強,反之亦然。
2.2 數據倉庫ETL設計
對源數據以及目標數據結構進行掃描,在元數據庫中進行相應儲存,對源表以及目標表進行確認之后,建立字段映射,檢驗字段映射能否成功,系統依據抽取規則,對數據進行抽取。確定源字段與轉換函數,對數據進行轉換;最后按照ETL自定義的數據抽取規則、轉換規則,自動生成 ETL信息,將數據加載至目標數據庫中。
1)在數據集中,該方法選擇信息增益作為屬性選擇的標準,確定最有影響力的屬性;2)分解數據集,形成多個子集,確定不同子集最有影響力的屬性,繼續分解,直到每個子集只包含同一類型的樣本為止。由此形成一棵決策樹,詳見圖 6所示。

圖6 決策樹的構成
假設石油基礎數據集S中有s個樣本,類別屬性有m個不同取值,定義m個不同的類Ci,i∈{1,2,3,…m}。設si為類別Ci的樣本個數,該數據集分類所需要的期望信息如下:

其中pi是任意一個樣本屬性類別的Ci的概率,參照si/S進行計算。
設屬性A可取v個不同的值{a1,a2,a3…av},可以用屬性A將S劃分v個子集{s1,s2,s3…sv},其中,Si包含S屬性A中取值aj為1的樣本。若屬性A為測試屬性,設sij為子集Sj中屬于Ci類別的樣本數。則利用屬性A劃分當前集合所需的期望信息計算為:

其中,(s1j,s2j,s3j…smj)/S稱為第j個子集的權值。E(A)越小,即子集劃分結果越優。作為給定子集Sj,期望信息如(1)所示。其中pij=sij/|Sj|為子集中任一個樣本屬于類別Ci的概率。
由此利用屬性A對當前分支節點進行劃分所獲得的信息增益是:

Grain(A)是根據屬性A進行集合劃分所獲得的信息熵的減少量。
挖掘過程如圖7所示。

圖7 決策樹算法的數據挖掘過程
石油基礎數據挖掘分析系統由4個功能模塊構成,分別為:1)能源數據查詢;2)能源數據三維柱狀圖以及餅狀圖顯示;3)能源數據分析;4)數據挖掘。其中,第3功能模塊涵蓋3方面內容:①OLAP分析;②多維透視表分析;③多維透視圖分析。具體詳見圖 8。

圖8 決策樹算法的數據挖掘過程
文章基于石油基礎數據的特征,對石油基礎數據倉庫模型進行構建,對數據挖掘模型進行創建,達到挖掘分析石油基礎數據的目標。所設計的挖掘系統可直觀展示三維或多維報表與數據查詢結果的圖表形式。這對于提高業務管理人員的決策能力,加強中國石油企業的生產管理水平至關重要。
[1]崔立芳.淺析石油數據管理[J].計算機工程應用技術,2011,7(30):7514-7515.
[2]楊凱.數據挖掘技術在中石油 ERP中的應用研究[J].中國管理信息,2010,13(17):57-59.
[3]鄭繼剛,王邊疆.數據挖掘研究的現狀與發展趨勢[J].紅河學院學報,2010,8(2):45-48.[4]譚鋒奇,李洪奇,孟照旭,郭海峰,李雄炎.數據挖掘方法在石油勘探開發中的應用研究[J].石油地球物理勘探,2010,45(1):85-91.
[5]鄭巖.數據倉庫與數據挖掘原理及應用[M].北京:清華大學出版社,2011.
[6]徐玉鵬.數據倉庫、OLAP和數據挖掘在商業智能中的應用研究[D].南京:南京航空航天大學,2010.
[7]HU Hong-tao,ZHANG Jing-na,LI Zhou-li.A distortion correction method of lateral multi-lens video logging image[C]//2012 IEEE InternationalConference on Computer Science and Automation Engineering,2012:141-144.
[8]張俊澤.數據挖掘在石油行業資金管理中的應用[D].天津:天津大學,2008.
[9]商琳,駱斌.一種基于數據倉庫的數據挖掘系統的結構框架[J].計算機應用研究.2000(9):63-65.
[10]王曉蓮,顧娟,王穎,等.大慶油田測井數據庫系統設計[J].油氣田地面工程,2007,26(2):46-47.
[11]汪忠德,王新海,瞿建華,等.數據挖掘技術在石油勘探與開發中的研究及應用[J].石油工業計算機應用,2007,15(1):17-20.
[12]肖基毅,胡蓉,王以群.油網格數據挖掘新技術研究[J].西南石油大學學報,2008,30(3):152-154.
[13]馮宗祥.油氣勘探生產信息平臺建設的目標及方法[J].中國石油勘探,2005,10(3):53-56.
[14]Hirsh H.Data mining research:current status and future opportunities.Statistical Analysis and Data Mining,2008,1(2):104-107.
[15]李立平.基于數據挖掘的勘探隨鉆分析系統[D].上海:上海交通大學,2010.
Oil based data mining system based on decision tree algorithm applied research
YANG Tao
(China National Offshore Oil Corporation,Beijing 100010,China)
For oil based data volume increase sharply,unable to reach a Shared between data,couldn't keep his unified management,research and design of the world's oil and gas resources query analysis system.By building oil based data warehouse model,oil based data warehouse multidimensional analysis method is given.Using decision tree algorithm to realize oil based data mining and analysis of the data,and with the help of data mining plug-in intuitively to show the user the analysis results of data mining algorithm and auxiliary business managers make guidance to the oil and gas production and decision-making,promote the production management level,the branch of China petroleum exploration and production.
oil based data;data mining;data warehouse;decision tree method
TN98
A
1674-6236(2016)18-0016-03
2016-02-25 稿件編號:201602133
國家級重點專項基金課題(2011ZX05026-001-06);北京市科技局課題(TX-78901W2015)
楊 濤(1978—),男,河北徐水人,中級工程師。研究方向:設備設施完整性管理。