文|徐 康
(作者單位:中國石化巴陵石油化工有限公司IT 中心)
企業信息化建設過程中出現了多個獨立的信息系統,不能實現數據的統一錄入和統一管理,無法實現統一的數據分析和數據查詢。企業信息一體化平臺將多個系統兼容到一個平臺中,并在此基礎上對海量數據進行數據挖掘,對企業的計劃和生產提供有力的支持。企業信息一體化數據平臺將多數據源、多種結構、多種時態、多種主題、多尺度的海量數據,科學有效地采集、轉換、存儲、管理和分發,并在此之上進行數據挖掘,以獲取有用的信息用于指導企業的計劃和生產。本文以某石化企業為案例,介紹了企業信息一體化數據平臺的實現技術和方法。
企業信息化建設經過十幾年的發展,采集了大量的工業應用數據,其中包括調度排產計劃、工況數據、生產數據、能耗數據以及生產設備基礎參數等。這些數據涉及不同的系統,并且有一些數據需要手工輸入。平臺需要從各獨立系統中采集數據,各系統在設計時自成體系,彼此之間的業務處理標準、軟件和網絡操作平臺都存在很大差異,因而不能實現數據共享,無法滿足平臺數據收集、模型訓練等業務需要,難以進行多系統、跨平臺的綜合數據分析工作,同時這些存放在異構環境中的不同類型數據和可能處于離線狀態的大量歷史數據也不便于統一查詢。平臺需要根據管理需求分析和業務描述,將多數據源、多種結構、多種時態、多種主題、多尺度的海量數據,科學有效地采集、轉換、存儲、管理和分發,并在此之上進行數據挖掘,以獲取有用的管道工藝信息。因此,平臺建立基于數據管理及利用的綜合性技術,具有既保證密集的數據更新處理性能、又滿足查詢快捷性、支持多維分析的能力。
以ESB 和ODS 為基礎,建設集中集成數據平臺,實現應用集成和數據集成,消除數據孤島、實現數據共享和業務協同,滿足生產管理、綜合分析等數據使用需求。如圖1 所示。

圖1 總體框架圖
1.企業運營數據倉庫(ODS)
企業數據倉庫功能模塊包括數據采集、數據整合、數據服務、數據管控。數據采集實現通過數據接口將源業務系統數據采集到企業數據倉庫緩存區。數據整合實現工廠模型、數據標準化、數據按主題進行清洗轉換整合。數據服務實現對外共享數據,包括數據查詢服務、模型服務和預測預警服務等。數據管控實現元數據管理、系統運行監控等功能。
2.企業服務總線(ESB)
在服務集成方面,將通過企業服務總線,實現對經營管理平臺、生產運營平臺及其他系統的融合和集成,完成數據信息的交換,規避了點對點和基于數據庫的數據交換的模式。
把各專業系統產生的結果數據,從源頭增量抽取至數據緩沖區,并對數據進行標準化清洗、整合等數據加工過程,最終將數據沉淀至企業數據倉庫中,為數據共享、數據分析提供支撐。
1.數據源頭至緩沖數據區流程
企業業務系統產生的不定時、班、日、周、旬、月等業務數據,ODS 需要按照數據產生時間的將業務數據遷移至ODS 緩沖數據區。緩沖數據區采用oracle 進行存儲(包括非結構化數據的結構化屬性信息),采用與數據源一致的數據結構進行同步存儲,并擴展時間戳(數據產生時間、數據更新時間、數據采集時間)、數據操作狀態、數據處理狀態等屬性。
2.緩沖數據區至集成數據區流程
按照集成數據區設計的業務模型,將緩沖區存放的各專業業務數據進行標準化、清洗、加工、整合,并把結果寫入集成數據區。集成數據區采用oracle 進行存儲,按照工廠模型設計物理模型,并擴展時間戳(數據產生時間、數據更新時間、數據采集時間)等屬性。
基于工廠模型,充分利用成熟數據庫技術(MV+ETL),采集業務數據,經過加工、轉換,達到標準存儲,標準共享的效果;采用元數據管理的理念,加強對業務模型、數據加工過程等管理和監控,支持數據的血緣追蹤及影響分析。
數據抽取、轉換和加載(Extraction-Transformation-Loading),是數據倉庫的核心,按照統一的規則集成并提高數據的價值,是負責完成數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟。數據流是按照一定邏輯組成的從源到目標的完整的數據處理過程,數據流的執行過程改變了數據流的內容和形式。對于一個數據處理流程,往往不可能在一個Job 中完成,需要多個Job 的執行,執行順序需要被合理的安排。
Kettle 是個ETL 工具集,可以管理來自不同數據庫的數據,通過提供一個圖形化的用戶環境來描述需求,支持圖形化的GUI 設計界面,可以以工作流的形式流轉,在數據抽取、質量檢測、數據清洗、數據轉換、數據過濾等方面有著比較穩定的表現。
Echarts(Enterprise Charts,商業級數據圖表),用于數據的分析服務。一個純Javascript 的圖表庫,可以流暢地運行在PC 和移動設備上,兼容當前絕大部分瀏覽器(IE6/7/8/9/10/11,chrome,firefox,Safari 等),底 層 依賴輕量級的Canvas 類庫ZRender,提供直觀,生動,可交互,可高度個性化定制的數據可視化圖表。創新的拖拽重計算、數據視圖、值域漫游等特性大大增強了用戶體驗,賦予了用戶對數據進行挖掘、整合的能力。
某石化企業經過多年的信息化建設,取得了顯著的成果,形成了經營管理層、生產管控層和基礎設施層三大平臺化應用,對企業生產核心業務領域建成了多套應用系統,取得了良好的應用成效。隨著企業優化產品結構、轉型升級、降本增效發展需求日益迫切,企業希望數據與業務流的徹底貫通,強化集中集成,挖掘數據價值,進一步提升管理效率和管控力。
為此企業建設了一體化數據平臺,基于ODS 建立了生產、質量、財務等6 大主題庫,實現了ERP、MES、LIMS 等系統的數據集中集成,在數據倉庫內進行了業務整合。通過ESB,實現相關系統間數據交換由“插管式”轉變為“集中式”,確保了數據的一致性和準確性。在數據平臺基礎上,開發專用報表平臺,實現了與生產經營緊密相關的生產、銷售、庫存等綜合類報表的自動生成,廣泛應用于生產調度、經營計劃等業務域,為經營決策提供了有力支撐。
本文首先介紹了企業信息一體化數據平臺建設的意義,然后重點介紹了平臺數據倉庫的實現技術,最后分析了某石化企業一體化數據平臺的實現方式,為其他一體化數據平臺的搭建提供了典型的參考案例。