王國鋒,張 文,武麗君,胡天野,亢宇飛
(北京機械設備研究所,北京 100854)
隨著5G、物聯網、AI等先進信息技術迅猛發展和廣泛應用,數據大爆炸成為當今時代重要特征。黨的十九大四中全會提出數據是一種新型生產要素;2023年3月,國家組建了國家數據局,數據已經正式上升到國家層面成為戰略資源,數據價值體現在我們工作、學習、生活、生產的方方面面。對于企業而言,數據已成為愈發重視的無形資產和生產要素,“雖然數據還沒有被列入企業的資產負債表,但這只是一個時間問題”[1]。如何將企業產生的大量數據進行規范治理、融合和分析應用,挖掘數據價值,成為企業信息化領域持續研究和探索的課題。
航天企業在多年的科研生產和經營管理過程中,積累了大量的數據。前期主要是紙介質數據,在信息化建設過程中,逐步實現了數據電子化,產品數據管理系統PDM、試驗數據管理系統TDM、工藝設計及數據管理CAPP、面向業財一體的ERP、綜合經營管理平臺、協同辦公平臺等信息化系統覆蓋了企業主要業務,產生了大量的數據。這些寶貴的科研生產和經營管理數據是航天企業核心技術和知識產權的體現,也是企業數據資產最為重要的部分。
航天企業作為典型的離散型制造企業,擁有復雜的產品結構,繁多的產品種類和數量,結合產品研制過程及企業經營管理可將其數據分為如下5類。
(1)產品數據。包括產品在設計、工藝、生產、試驗、運行等過程中產生的數據,記錄、傳輸、處理和加工這些數據,使產品全生命周期管理成為可能,也為滿足個性化的產品提供了條件。
(2)運營數據。包括市場營銷、質量控制、外協生產管控、物料采購、庫存、項目任務計劃、綜合業務管理等數據。這些數據可能會驅動創新企業的研發、生產、運營、營銷和管理方式。
(3)設備數據。包括生產線上各種生產設備的工作狀態、運行記錄等數據。設備數據對于支撐掌控制造資源狀態,合理實施排產非常關鍵。
(4)價值鏈數據。包括客戶、供應商、合作伙伴等數據。企業在當前全球化的經濟環境中參與競爭,需要全面地了解技術開發、生產作業、采購銷售、服務、內外部后勤等環節的競爭力要素。深入分析和挖掘價值鏈上各個環節數據和信息,可為企業管理者和參與者觀察價值鏈提供全新視角,有機會將價值鏈上更多的環節轉化為企業戰略優勢。
(5)外部數據。包括經濟運行、行業、市場、競爭對手等數據。為了應對外部環境變化所帶來的風險,企業必須充分掌握外部環境的發展現狀以增強自身的應變能力。
根據數據資源規劃,數據資源可規劃為以下三類:①業務數據:業務系統運行過程中產生的數據,如產品設計數據、工藝設計數據、物料采購數據、質量記錄數據、任務計劃執行數據等。②主數據:主數據不是企業內所有的業務數據,主數據有必要在各個系統間共享的且相對靜止不變的數據。③主題數據:該數據是根據業務范圍進行跨系統、企業全局的匯聚、融合,進而可按照一定的規則進行統計,為決策分析和數據服務提供支撐的數據。
近年來,隨著企業數字化轉型持續深入開展,企業逐步實現各類主數據在各業務領域系統中的規范應用,為系統之間集成貫通及匯聚融合夯實了基礎,構建企業大腦,為企業決策層進行戰略制定、科學決策提供重要數據支撐[2],成為航天企業信息化建設的重點方向。企業大腦以數據分析及應用為牽引、以構建企業級全局數據倉庫為技術路徑、以建設分類主題數據庫為主要內容,逐步推進基于數據倉庫的數據應用,實現數據賦能,體現數據價值。
數據倉庫面向主題構建,可支撐OLAP服務,與傳統的數據庫相比,還具有集成性、非易失性和隨時間不斷變化等特點。相對于傳統支撐OLTP的關系型數據庫,以多維數據模型設計為基礎的數據倉庫從整體架構設計到具體實施整個過程更為復雜,難度也較大。下面結合數據倉庫相關技術,從設計和實施兩方面具體介紹數據倉庫的構建過程。
2.2.1 總體架構設計
數據倉庫會圍繞數據開展一系列復雜處理,考慮目標、數據處理性能和降低復雜性等因素,將數據倉庫總體架構設計為兩區三層。兩區即數據緩沖區和目標數據倉庫區,三層即數據貼源層(ODS層)、全局數據倉庫層和數據集市層。
ODS層處于數據緩沖區,主要是將數據從OLTP系統中以全部或者增量的方式抽取至此,此過程無需經過復雜的數據操作,數據基本和數據源保持一致(主要變化就是異構數據庫存儲格式的處理)。
全局數據倉庫處于目標數據倉庫區,將ODS層的數據抽取后經過轉換、清洗,最后加載到全局數據倉庫,全局數據倉庫會存儲明細數據。
數據集市層處于目標數據倉庫區,主要用于存放大量明細數據分析統計后的結果數據。統計數據與明細數據往往會通過下鉆和上卷的關聯操作,所以數據集市層與全局數據倉庫放在同一數據區,可以保證前端展示的響應速度,提供用戶體驗。
2.2.2 維度設計
在數據倉庫中,維度是可用于觀察、分析統計業務數據的視角,主要分為靜態維度和動態維度。
靜態維度:主要是指時間維度,由于時間(主要包括日期和時間)的不變性確定了時間維度是一個特殊的維度。
動態維度:是區別于時間維度、可變更的維度,稱之為緩慢變更維,如組織機構、項目、供應商、客戶等,這類維度一般是企業的主數據。
2.2.3 數據模型設計
數據倉庫主要采用多維結構的數據視圖的多維數據模型,主要分為星形模型、雪花型模型和事實星座模型三類。其中星形模型具有存取速度快,基于多維存儲,利于上卷、下鉆等優點,所以在數據倉庫中得到了廣泛應用。星形多維模型主要由度量值和維度兩部分組成,度量值一般是業務數據值,如入庫數量、出庫數量、庫存數量等;維度是為這些業務數據值提供上下文關系的,例如,庫存與產品、供方有關,產品和供方就是統計的維度。
2.2.4 數據融合
數據融合在數據倉庫中是指根據業務聯性進行跨系統的業務數據整合的過程,在數據倉庫中主要通過維度的關聯性實現數據融合。在數據倉庫中分別設置存放業務數據的事實表和存放維度的維度表,這樣不僅便于基于維度的統計分析,也便于基于維度進行數據融合。
ETL是數據抽取(Extract)、轉換(Transform)、加載(Load)的縮寫[3]。它是將數據從OLTP系統中轉移到數據倉庫中的一系列操作的集合,貫穿數據貼源層、全局數據倉庫和數據集市的數據處理全過程,是數據倉庫實施過程的主體,關系數據倉庫實施的成敗。數據倉庫一般通過一定頻率將數據從OLTP系統中轉移到數據倉庫中,主要通過ETL過程與定時任務調度相結合的方式實現。
2.3.1 ETL過程
基于ETL平臺設計開發ETL過程,實現抽取、轉換和加載的功能。ETL實施過程需要注意的以下幾個方面。
①合理的數據抽取方案。數據抽取主要針對OLTP系統的數據庫進行非侵入式操作,涉及的數據源類型包括Oracle數據庫、SQLserver和SAP的RFC接口等,應根據數據量、實施難度等因素制定增量和全量抽取的方案。
②維度數據的ETL過程。將OLTP系統中的源數據通過ETL抽取并存儲到數據倉庫中,形成維度數據表,OLTP系統更新時,向數據倉庫的維度表中新插入一條數據,通過添加時間戳來確保在任何時間點都能找到唯一一行維度數據,每行數據由代理鍵來唯一標識。
③業務數據的ETL過程。業務數據在數據倉庫中存放在事實表中。業務數據的ETL過程需要注意將維度數據的代理主鍵添加到屬性字段中,并結合維度進行跨系統業務數據的融合。
④定時任務調度?;贓TL平臺開發任務調度功能,實現ETL任務的維護、管理,能夠查看日志,及時處理異常任務,確保ETL高效易用。
以企業各領域信息系統為數據基礎,建設面向決策層的的企業大腦是數據分析的典型場景。企業大腦的建設是先自頂向下,再自底向上的過程。先自頂向下是業務層面,具體是指面向管理駕駛艙的數據分析需求,明確需要劃分的主題庫,設計相應的數據倉庫。自底向上是實現層面,具體是指根據數據倉庫的設計需求,通過構建數據倉庫,在數據倉庫的基礎上形成主題數據庫,在主題數據的基礎上構建管理駕駛艙,最終實現企業管理的數字賦能。
企業結合自身信息系統建設情況及決策要求,規劃出三大類主題建設需求,分別是財務主題、市場主題和項目主題。財務主題融合預算、合同收付款、應收賬款、庫存等數據,形成兩金、預算執行等主題數據;市場主題融合客戶信息、商機、立項、合同、收款等信息,構建客戶、商機等主題數據;項目主題融合CRM、立項、經營指標、經營計劃、合同收付款、計劃、質量等信息,構建項目盈虧、項目進度、項目質量等主題數據。
基于數據倉庫的可視化應用主要是圍繞財務主題、市場主題和項目主題為不同管理人員構建的管理駕駛艙。從全所、產品線、部門、項目四個維度為所領導、產品線所領導、項目問題、總會計師等不同角色提供相關內容的企業管理駕駛艙,覆蓋客戶與供方、市場情況、營收情況、任務進展、財務指標等內容,取得了較好的應用效果。
通過企業大腦的建設,實現企業科研生產、經營等各業務領域中的關鍵指標數據可視化展視和分析,并為領導層提供輔助決策,提升企業內運營狀況的敏捷反應與綜合決策能力。同時面向不同層級人員,根據業務需求展現相關領域指標情況,強化過程管控力,提升運營管理智能化水平。
數據倉庫作為一項重要技術,在支撐企業數據分析及應用領域有著廣泛的應用。圍繞企業數據分析及應用,對企業級全局數據倉庫進行了總體設計,并結合實際業務進行實踐,取得了較好效果。后續將根據企業對結構化、半結構化和非結構化等多種類型的海量數據管理和應用需求,結合業界數據技術的發展,構建具備數據采集、數據存儲計算、數據分析挖掘和可視化功能為一體的大數據中心,從而提供服務功能更完備、服務領域更廣泛的數據服務及應用。■