劉三平 袁珊
(中車電力機車有限公司 湖南省株洲市 412001)
當前大部分制造企業在設計、工藝、采購、物流、制造、售后、辦公等業務領域都已實現了信息化管理,企業內部沉淀數據日益增多,系統之間的交互與協同更加復雜與頻繁。為提高企業內部、外部數據打通和業務流程協同,需建立一個高效的企業集成平臺,為企業管理數據資產并提供數據服務。
一般制造企業系統集成基本都采用過系統間點對點集成(EAI)階段、企業服務總線階段(解決異構系統數據交互語義問題)、主數據管理階段(解決關鍵業務數據的唯一性問題),上述三種技術集成方式都不能實現整個企業的數據貫通和數據共享。
企業要實現產品全生命周期數據貫通,必須通過全量數據匯聚、治理、數據共享業務能力沉淀、數據服務構建以及數據開放,要實現上述功能,企業可通過數據湖技術完成建立企業數據中臺,并以建立的數據中臺構建企業的數據共享服務平臺。
3.2.1 建設原則
(1)統一的數據資源與數據架構。系統設計采用統一的軟硬件大數據基礎架構設計,保障三個統一:統一資源、統一存儲、統一運維;通過統一的架構設計使數據應用更聚焦于業務,提高數據利用率,避免重復的數據基礎設施建設,構建以服務為中心的數據集成架構,提供數據抽取、數據加載、數據清洗、數據集成等服務,以滿足現在及未來的業務要求。
(2)統一數據源的接入與基礎數據層的管理。統一的接入ERP、PLM、SCM、MDM、MES、OA 以及WMS 等系統數據,統一連接、統一配置;為后續業務提供統一的接入數據的基礎層,統一標準,規范過程,保障質量。
(3)面向業務的數據開發與服務能力。面向業務的多租戶的數據開發模式,給應用更大的靈活性與業務之間的隔離性;在基礎設施與統一數據層的基礎上,加速應用開放過程,提供數據服務能力。
3.2.2 設計總體架構
總體架構如圖1 所示。

圖1
3.2.3 數據架構設計和流程設計
數據架構設計如圖2 所示。
基于圖2 所示數據架構數據流向方式為:所有系統 ->數據湖平臺->所有系統。如圖3 所示。

圖2

圖3
基于數據湖的數據共享平臺不僅解決了系統之間協同通信語義的問題,更重要的是通過數據標準、數據的集中化融合以及治理,實現了系統之間協同的通信語境的問題。
3.2.4 數據服務建設
(1)數據集成。基于數據湖的數據共享平臺實現數據貫通,包括數據集成、數據治理、大數據平臺、數據服務平臺等軟件平臺是技術支撐與承載,而真正要實現數據貫通還需要通過對數據標準的梳理、數據的集成、基于數據標準的清洗、數據服務的構建以及服務目錄的開放與管控等一系列的建設服務
(2)數據湖建設。數據湖平臺采集數據包括業務數據、生產線設備數據以及互聯網數據等,數據經過數據落地區和操作加工區,對數據進行全面的清洗、加工、轉換和建模,最終形成組織、人員、財務、物料、產品、設備等數據的整合區,并對數據通過標簽計算、關系計算以及模型構建,形成產品、物料、設備、產線、人員等的關聯模型,形成一個有機銜接的整體,針對前端業務二次細分構建出不同業務方向的主題庫,支撐各種業務分析業務。整個建立過程見圖4,主要包括以下幾步:

圖4
(1)確定數據源。企業數據主要采集三部分數據:第一部分數據是現有管理系統的業務數據;第二部分數據是各生產經營業務系統的數據,包括但不限于ERP、WMS、CRM、MES 等數據;第三部分數據為從供應商、互聯網等外部單位歸集到的相關數據。
(2)數據接入。對于結構化數據,通過大數據平臺的數據抽取和加載工具,從各業務系統抽取數據,數據能夠快速從業務系統中抽取到數據湖中,保存在貼源數據區ODS。數據采集根據源端業務系統數據量大小,可以采取不同的數據抽取策略:一次性全量抽取、按時間戳分批并行抽取、按分區分批次并行抽取、增量抽取。
對于非結構化數據,例如視頻文件和圖像文件,可以保存在數據湖的非結構化數據存儲區。非結構化數據經過加工處理后的結構化數據結果可以抽取到結構化數據區域做后續處理,同時結構化數據區域可以引用非結構化數據。
(3)貼源數據層(ODS)。對需要采集的各項數據,根據業務特點設定特定同步策略,數據接入和抽取保存在大數據平臺的數據落地區。數據落地區的表結構設計建議跟原系統一致,在數據落地區統一落地。數據落地區是大數據平臺上業務數據統一鏡像區域,根據數據特點保留一定時間周期的數據,為后續的數據整合提供數據加工來源。
(4)數據明細層(DWD)。操作加工區服務于大規模計算服務。來自各業務系統的數據,需要進行大規模的數據加工、清洗和處理,才能滿足后續業務的分析需求。利用大數據分布式計算能力,對數據進行大規模的數據清洗、加工和計算,對數據進行標準化整理、統一整合、數據統計、數據匯總、數據排序、數據聚合、數學算法等大規模計算。
(5)數據匯總層(DWS)。業務數據經過數據加工、處理和整合之后,形成一整套完整的、完善的、全面的、有序的數據綜合區。業務數據經過整合之后,根據業務對各類數據訪問的時效性與基于特定主題分析的需求,在數據綜合區中集中構建可支持T+1M(按月)、T+1W(按周)、T+1D(按天)或T+1H(按小時)等不同數據規模的數據倉庫。
(6)數據集市層。對于復雜的面向主題領域的多維度分析,譬如按照工廠、產線、產品、銷售區域(大區、省、地市)、銷售時間(年、季度、月、周、日)等不同維度進行探查式的分析,則可定義數據集市,支撐靈活分析的需求。
(7)數據模型。圍繞物料、產品、工藝、財務科目、人力資源、設備資源等數據,結合企業物料計劃、生產計劃等進行數據的打通與關聯模型建立,對生產經營狀況以及設備運行狀況進行預測分析建模。
(8)數據治理。大數據平臺數據治理主要提供數據管理、元數據管理、數據質量管理等數據管理功能。數據管理主要是用于高效的管理大數據平臺上數據資源,通過數據資源目錄,對大數據平臺多個區域、流程化計算數據、中間結果、多層數據模型都能夠統一管理起來。元數據管理匯聚大數據平臺上的所有數據信息,管理數據的基本信息、數據的流轉、數據的消費、數據的轉換,可以對數據進行清晰的管理,同時可以追溯數據的血緣關系,定位數據變化的影響分析等等,有效的維護大數據平臺的可管理性、可靠性和高質量。
(9)數據任務。大數據平臺上數據量龐大、數據類型多樣、數據業務復雜,數據處理任務也非常多,數據處理環節和流程周期長,需要支持高并發、多周期、支持多種數據處理環節的統一數據任務調度機制,按照策略進行數據任務調度。
基于數據湖共享平臺的企業信息數據是公司設計、生產、客服、維保、質量、運營等數據的大集中,具有全面性、完整性,為了保障數據在與其他系統流通過程的安全、及時,數據共享服務支撐平臺提供以API 接口的方式對外進行數據服務,根據業務應用場景的不同提供不同的服務方式,可以分為共享服務、直接服務和場景服務。每種服務的方式對數據封裝的要求不同,需要底層平臺具備數據開發能力,如算法挖掘、多類型任務開發等,數據開發完成后,需要服務封裝,如服務開發、注冊、管理、統計分析等,具備數據開發及服務封裝全面、有效的支撐各種數據服務
數據共享平臺的建立后,企業將數據作為生產資料轉化為數據生產力。在全球數據化時代,企業只有了解用戶,在數據支撐的條件下不斷創新,打破數據孤島,才能在日益激烈的競爭中長期保持優勢。
(1)洞察客戶的觀念和行為。在以客戶為中心的時代,客戶的觀念和行為正在從根本上改變企業的經營方式以及企業與客戶的互動方式。數據中臺建設的核心目標就是以客戶為中心的持續規模化創新,而數據中臺的出現,將會極大提升數據的應用能力,將海量數據轉化為高質量數據資產,為企業提供更深層的客戶洞察,從而為客戶提供更具個性化和智能化的產品和服務。另外,通過數據化運營提升客戶留存、復購和忠誠度,也得到諸多企業的認可。
(2)為企業管理模式的創新提供數據基礎。只有依托數據和算法,將由海量數據提煉的洞察轉化為行動,才能推動大規模的管理創新。數據中臺在通過算法將洞察直接轉化為行動、實現管理創新方面的能力,令人矚目。同時,在快速構建服務能力、加快管理創新、提升業務適配等方面,數據中臺也將會發揮重要的作用。
(3)打破數據孤島。面對紛繁復雜而又分散割裂的海量數據,數據中臺的突出作用和意義在于能充分利用內外部數據,打破數據孤島的現狀,打造持續增值的數據資產,在此基礎上,能夠降低使用數據服務的門檻,繁榮數據服務的生態,實現數據“越用越多”的價值閉環,牢牢抓住客戶,確保競爭優勢。這些服務跟企業的業務有較強的關聯性,是這個企業獨有的且能復用的,它是企業業務和數據的沉淀,其不僅能降低重復建設、減少煙囪式協作的成本,也是差異化競爭優勢的所在。
數據共享平臺的主要功能是統一標準和口徑后對數據進行存儲和處理,使企業能夠提供更高效的服務。總之,建立數據共享平臺的目標是節約企業成本,實現精細化運營,最終實現數據驅動決策;