郝志偉,郭 超
(山西焦煤集團有限責任公司 大數據中心, 山西 太原 030024)
大型煤炭企業多數存在以下問題:總部業務部門需求不明晰、數據標準不統一、數據質量不規范、數據安全不可控,各業務系統獨立運行、異構不兼容,像一個個煙囪,很難統一和打通,無法實現數據的有效共享、業務的流程聯動和系統的全面協同,導致集團對人財物、產供銷等業務的管控力度不足,使安全生產經營等過程存在風險、隱患和漏洞;子分公司及廠礦單位多存在采掘機運通等專業業務系統多,數據孤島現象嚴重,且業務系統數據填報不準確、信息輸入不及時,甚至不愿上報真實數據等。
為解決上述問題,需要構建各業務系統數據共享和流程互通的共同底座,以打通各業務系統,促進企業大數據的融通共享、協同聯動,提升集團管控能力。數據中臺作為全新的企業管控理念,以服務企業業務運營為目標,匯聚、整合、存儲煤炭企業安全生產經營業務大數據,經加工整理后的有用數據可通過挖掘、分析直接應用于具體業務,幫助優化業務流程,打通業務系統間的“部門墻”,促進業務流程標準化、工作標準信息化、企業信息智能化,為煤炭企業實現減人提效、對業務系統扁平化和人財物產供銷等核心資源的精益化管理奠定數據架構基礎。
國內外多個研究者對數據中臺技術進行了相關研究。蘇萌等[1]總結了數據中臺技術的相關進展,提出數據中臺通用技術架構。艾瑞咨詢[2]從市場規模、適用行業、發展路徑等角度總結整理了2019年數據中臺在中國的發展情況。周綱等[3]介紹了一種應用于電力營銷服務業務的數據中臺設計方法。李炳森等[4]設計了適用于電網企業的數據中臺貼源、共享、分析三層服務架構,并研究了關鍵技術。羅薇[5]提出了一種應用于通訊行業的中臺一體化生產體系,強化了生產協同,提升了用戶體驗。于浩淼等[6]基于數據中臺的一般體系架構,提出中國聯通國際公司中臺建設方案。李廣乾[7]、劉童桐[8]探討了數據中臺的內涵和外延。劉穎慧等[9]分析了不同企業的中臺戰略和架構,提出了通訊運營商的數據中臺建設方法和類型。PTC[10]從體系架構、建設架構、落地思路等方面探討了工業企業建設數據中臺面臨的關鍵問題。譚虎等[11]闡述了阿里云數據中臺的一些建設思路。劉俊良[12]研究了數據中臺架構設計、關鍵技術。陳小勇等[13]論述了數據中臺設計思路、總體方案、關鍵技術等。但上述研究多為通訊、電力等行業的數據中臺建設探究,尚未發現針對大型煤炭企業建設數據中臺方法的相關研究。
針對大型煤炭企業普遍存在的問題,設計了一種數據中臺技術架構,從數據標準體系建設、數據采集處理、數據庫選擇、數據管理、大數據分析應用、新技術應用等6方面研究探討了數據中臺建設中的關鍵技術,為建設適用于大型煤炭企業的數據中臺,推進各業務大數據協同聯動和深度分析應用提供可借鑒的解決思路。
結合大型煤炭企業特點,數據中臺建設可遵循以下流程:采集集團人力、財務、設備、生產等核心業務數據,基于規范統一的數據標準,在保障數據質量的前提下,對數據進行清洗加工等處理,存儲到數據倉庫,形成可以復用的元數據,沉淀共性數據及服務,實現一次錄入數據,在數據控制權限內所有業務系統共享,構建業務共享和流程互通的共同底座;對數據進行建模,利用大數據建模、算法等開展主題分析等大數據挖掘、分析應用,實現利用大數據對企業人員流、資金流、物資流進行在線監控,防控企業風險,研判安全生產經營趨勢,充分支持各層級領導決策的目的。同時,通過提供統一應用展示門戶,對內支撐集團安全生產經營等業務數據應用,對外統一構建與政府監管部門、客戶、供應商等的安全可控數據交換出入口,由集團統一、安全、高效地把控對外交換數據,支持集團多維度的精益化管理,實現全方位、全鏈條、全域賦能全集團管理升級。典型的數據中臺架構見圖1,主要包括數據源、數據采集處理、數據庫、數據管理、大數據分析、應用展示等6部分。
一個典型的數據中臺的數據流見圖2,通過對集團業務系統中數據的抽取、清洗、轉換等工作,存儲進集團數據庫,根據各層級領導對不同主題數據分析的需要,利用相關建模和算法對數據倉庫中的相關數據進行主題分析、展示,支持各層級領導決策,并將分析結果及時應用到集團相關業務部門,保證領導決策的快速高效執行。
數據中臺建設的關鍵技術主要包括數據標準規范體系建設、數據采集處理、數據庫選擇、數據管理、大數據分析應用、新技術應用等6方面。
圍繞大型煤炭企業生產、運輸、銷售全鏈條,人力、財務、設備、生產、供應、銷售、法務、投資、辦公全業務,通過制定數據源輸入標準、主數據企業標準、編制并出臺相關數據標準管理辦法、開展集團相關業務數據清洗等方式,推動集團各業務系統數據標準統一、規范使用,逐步構建包括規范定義、術語、模型架構、元數據命名規范、編碼規范等在內全集團統一的數據標準體系。同時,通過加強對各子分公司的督導管理,規范集團公司數據標準體系的統一應用,為數據存儲、管理、分析應用和展示奠定標準基礎。
建設大型煤炭企業全集團統一的數據采集平臺,根據數據源輸入標準,對人力、財務、設備等各分散、凌亂的業務數據進行采集匯聚,通過ETL等技術,形成清晰有序的有用數據,存儲到數據倉庫中,形成元數據,實現數據一次采集或錄入、所有業務共享共用,滿足企業對煤炭安全生產、經營管理等業務數據管理要求的同時,為集團級的大數據分析提供統一的標準數據保障。
相比于Mpp數據庫,Hadoop擁有更多的計算節點數、更大的數據量,適用于存儲關系型、半關系型、無結構化、語音、圖像、視頻等多種數據類型,因此,Hadoop數據庫適用范圍更廣泛,但當面對需要大規模并行處理的場景時,Mpp更有優勢。大型煤炭企業涉及人力、財務、設備、銷售、投資、辦公等多業務復雜的應用場景,應選擇Mpp和Hadoop混合型數據庫作為存儲媒介,以構建一套既能管理全域業務數據、又能支撐上層應用需求的新型數據庫,為實現快速高效的數據挖掘、分析提供數據存儲支持。
數據庫中數據按照一定的數據標準和質量規則匯集形成元數據和主數據,高質量的元數據和主數據可形成不同的主題數據庫,有效支撐大型煤炭企業進行安全生產、銷售管理、設備資產盤活等不同主題的大數據分析。同時高質量的元數據和主數據可對企業不同業務提供全集團統一的數據共享和服務,從而實現各業務信息互通、數據共享和全面協同,增強企業競爭力、管控力和抗風險能力。
3.4.1 元數據管理
元數據可以讓企業數據資產用清晰直觀的方式進行呈現,對元數據的管理包括元數據基礎管理、元數據質量管理、元數據分析等。其中,元數據基礎管理包括對元數據添加、刪除、修改,元數據間關系建立、維護,元數據自身質量的核查,元數據查詢、統計等;元數據質量管理包括對元數據屬性、關系及安全性和一致性的檢查等;元數據分析主要指通過血緣分析、影響性分析、實體關聯分析、全景分析等,直觀了解元數據來源、流向、被引用次數等重要信息,以實時掌握元數據真實狀況。
3.4.2 主題數據管理
對大型煤炭企業財務、采購、科研等不同主題域數據的管理能有效支撐不同主題的大數據分析,同時,各主題域內部,不同來源的數據可通過統一的標準基礎數據實現相互的關聯,例如,采購主題的供應商信息、合同信息等可通過客戶編碼、合同編碼等,實現互相聯系、互相融合;各主題域之間,來自于同一數據源的同樣數據是互相共享的。采購主題中對供貨、質檢、合同分析的數據管理流程見圖3.

圖3 采購主題中對供貨、質檢、合同分析的數據管理流程圖
3.4.3 數據質量管理
通過建設包括質量規則、核對校驗、監控診斷、質量報告在內的數據質量體系,能有效保障數據的完整性、一致性、合法性、關聯性、唯一性。在大型煤炭企業的實際應用過程中,一個典型的數據質量管理流程如下:利用數據質量規則,對數據進行校驗篩查,判斷出的數據質量問題,反饋給相關業務部門進行確認、調整,以有效提升數據質量。
針對大型煤炭企業存在的痛點、難點問題,可以選擇一個或者多個應用場景,通過數據建模、算法等,開展多業務協同的主題分析,對內支撐領導決策分析和提升各業務精益管理水平,對外賦能客戶、供應商等產業鏈數據,同時支持政府決策和服務社會關切。例如,針對企業各業務存在的信息孤島嚴重,無法實現數據的有效共享、業務的流程聯動和系統的全面協同問題,可開展產洗運銷協同聯動等大數據分析,讓數據為管理賦能:對大型煤炭企業所屬煤礦各類數據進行針對性建模、多維度分析和綜合集成展示,并援引集團外部相關數據研判煤炭價格,預測市場走勢,通過抓產銷、帶中間、堵漏洞,促進集團公司精益化管理水平的提升,輔助集團領導科學決策。
在大型煤炭企業的數據中臺建設中,加強對視覺識別、語音識別和RPA流程機器人等新技術推廣應用,能有效提高數據利用率、降低勞動強度、提升業務服務能力、實現業務技術創新。例如,利用語音識別技術,將原來需要通過PC端手動操作的方式轉化為直接通過語音實現系統控制,并利用語音播報自動直觀展示需查詢、分析的結果;利用視覺識別技術和RPA流程機器人,通過對網頁或PDF等非結構化頁面的采集或OCR識別,智能將所需數據實時、準確、高效自動填入表格,并生成匯總表,有效提升集團業務準確性、合規性和工作效率。
針對大型煤炭企業普遍存在的業務系統龐雜、信息孤島和數據壁壘嚴重,導致集團對子分公司管控能力不足、存在安全生產經營風險等問題,設計了一種數據中臺技術架構,并從數據標準體系建設、數據采集處理、數據庫選擇、數據管理、大數據分析應用、新技術應用等6方面探討了數據中臺建設中的關鍵技術,為建設適用于大型煤炭企業的數據中臺,實現全集團數據的標準化、資產化、價值化、服務化、自主化和開放化提供一種可借鑒的參考。