呂軍 郭健 羅旭
摘要:進入信息時代,隨著數據產業的蓬勃發展,數字化建設如火如荼。“數字中國”“互聯網+”等國家戰略項目已在資源、可持續發展、環境以及行政辦公等領域取得了良好的效果。數據是資產、資源,但如何把數據資產、數據資源轉化為社會收益和企業利潤,還需要多方探索。當前,機構和企業不再建設從源數據采集到分析應用的煙囪式系統,更傾向于數據集中采集、存儲,并應用分層建設。這種方式一方面有利于應用系統的快速部署,另一方面也保證了數據的集中管理與運營,體現數據的資產、資源屬性。數據中臺的出現彌補了數據開發和應用開發之間由于開發速度不匹配而出現的響應力不足等問題。本文主要對數據中臺的通用體系架構進行了簡單的探討,以供相關人員參考。
關鍵詞:大數據平臺 數據中臺 數據治理 體系架構
Research on General Architecture of Data Center
LV Jun? GUO Jian? LUO Xu
(Sichuan Bangchen Information Technology Co., Ltd., Mianyang City,
Sichuan Province, 621000 China)
Abstract: In the information age, with the vigorous development of data industry, digital construction is in full swing. National strategic projects such as "Digital China" and "internet +" have achieved good results in the fields of resources, sustainable development, environment and administration. Data are assets and resources, but how to transform data assets and data resources into social benefits and corporate profits needs to be explored in many ways. At present, organizations and enterprises no longer build chimney systems from source data collection to analysis and application, but prefer centralized data collection, storage and hierarchical application construction. On the one hand, this method facilitates rapid deployment of application systems. On the other hand, it ensures centralized management and operation of data and reflects the asset and resource attributes of data. The emergence of data center makes up for the lack of response between data development and application development due to the mismatch of development speed. This paper mainly discusses the general architecture of data center for reference.
Key Words: Big data platform; Data center; Data governance; System architecture
大數據蓬勃發展的背景下,各行各業越來越重視大數據給企業帶來的業務革新動力,希望借助數據驅動業務新發展。企業在此背景下積極探索數據管理和數據應用,完成了以“一體化數據中心、一體化數據管理、一體化數據分析”三個一體化為核心的數據中心建設,為各業務部門提供高質量的數據以及豐富的數據分析手段,為各級人員管理決策提供了有效支撐。[1]
但我們也應當看到,目前的數據中心,無論是專題、報表或取數,還是煙囪式數據生產模式或者是項目制建設方式,如果當初模型的擴展性設計的不好,或者時間太緊,或者出于系統穩定的考慮,致使數據模型擴展性較差。久而久之,數據得不到沉淀和持續發展,從而造成模型不能真正成為可重用的組件,無法支撐數據分析的快速響應和創新。
在這種情況下,通常的做法是另起爐灶,構建一套新的模型來滿足當前的需求,這又導致了一個新“煙囪”的產生,長此以往,數據中心將演變為一個個的數據孤島,不再具有對外提供統一數據服務的能力。因此,亟需建立企業的數據中臺,構建中臺的運營體系,真正做到打通數據孤島并且以統一的標準進行建設,以達到技術降本、應用提效、業務賦能的目標。
1、數據中臺概念
數據中臺的概念由互聯網企業阿里巴巴提出,是指通過數據技術對海量的數據進行采集、計算、存儲和加工,并統一標準和口徑。數據中臺完成數據統一后會形成標準數據,然后再對數據進行存儲,進而形成數據資產,為用戶提供高效的優質服務。這些服務跟油田的業務有較強的關聯性,是油田獨有的且能復用的,它是業務和數據的沉淀,可以降低重復建設、減少煙囪式協作的成本。數據中臺對一個企業起著至關重要的作用,可以讓數據在數據平臺和業務系統之間形成了一個良性的閉環。說到數據中臺,不得不提到“前臺”和“后臺”兩個概念。前臺是由各個應用組成的前端系統平臺,與最終用戶直接進行信息交互。例如,企業搭建的電子商務網站、門戶網站等都屬于前臺。后臺是由各個業務管理系統組成的后端平臺。每個后臺業務系統管理了企業的一塊業務,例如用戶管理系統、生產管理系統等。后臺往往并不能很好地支撐前臺快速創新響應用戶的需求,而中臺要解決的才是前臺的創新問題。[2]
2、數據中臺應用價值
數據中臺建設帶來的效益及意義主要體現在全面實現企業級數據的數據標準化、數據價值化和數據服務化。
2.1 數據標準化
數據中臺應解決新的數據結構下企業整體數據標準化問題,改變過去傳統的數據關聯為目標的傳統架構設計理念,構建新的行業數據模型,對用于大數據分析的數據具有良好的模型擴展能力,結合企業數據建設新的數據主題域和標準體系,建設企業全域數據指標體系。
2.2 數據價值化
數據分析平臺首先應建立主題關聯模型,將分散到各系統,各數據域的同一主題數據進行算法分析和關聯,形成基于業務域自然對象的主題模型。并基于該模型設計規劃企業業務指標體系,使業務人員直接通過標簽來進行業務分析和知識挖掘。標簽體系中應融合業務場景需求,通過關聯、預測和挖掘算法模型,實現對業務場景的實際指導,真正體現業務價值。
2.3 數據服務化
數據分析平臺應實現數據智能在線化與服務化。通過數據標準化與價值化建設,需要將主題分析、挖掘結果以服務化接口方式共享出去,實現與應用前臺的高效交互,將分析成果直接應用于業務流程,實現數據驅動運營。另一方面,通過基于數據中臺理念與技術的數據服務化可以有效降低對同一主題對象的應用開發成本,實現上層數據分析應用快速開發,節省時間成本和人力成本,減少重復工作,保證數據分析的準確性和一致性。
3、數據中臺系統定位
數據中臺(Data Central-Platform)可以用來進行數據治理,利用數據中臺實現業務數據的流轉、數據流向的梳理、數據質量的清洗以及數據提供的能力。根據數據治理協會(Data Governance Institute,DGI)的定義,數據治理指的是對數據相關事宜的決策制定與權力控制。數據治理的目標是提高數據的質量(準確性、及時性、完整性、唯一性、一致性、有效性),確保數據的安全性(保密性、完整性及可用性),實現數據資源在各組織機構部門的共享,推進數據資源的整合、服務和共享,從而提升企事業單位信息化水平,充分發揮數據資產作用。技術上,數據中臺是一種大數據架構,用來完成數據治理,進而支撐線上應用系統建設,挖掘數據隱含價值。
本文認為數據中臺是一個物理存在的系統,是企業或機構需要建設的位于數據源與數據應用系統之間的一個中間平臺。數據中臺鏈接數據后臺和數據前后,將無質量的后臺數據匯集在一起,形成大數據,通過數據治理梳理出有效的數據。數據中臺是數據三層結構中的中間層,主要負責數據匯集、數據治理和提供數據能力,為應用服務提供個性化數據服務。這里的數據中臺并非指大數據平臺,而是指通過數據技術對海量的數據進行采集、計算、存儲和加工,并統一標準和口徑。數據中臺完成數據統一后會形成標準數據,然后再對數據進行存儲,進而形成大數據資產層,為用戶提供高效的優質 服務。
數據中臺是眾多數據應用系統中可集中建設與維護的一個共享數據平臺,是數據生產系統中的一環。數據中臺一定具有大數據平臺的功能,但大數據平臺不需要具備數據中臺的功能。數據治理是數據中臺及大數據平臺不可或缺的核心功能,數據中臺需要專門的數據治理子系統。
4、數據中臺通用體系架構
4.1 數據存儲框架
數據中臺的核心是數據,數據通過采集系統獲取,然后數據經過處理框架加工,并接受數據治理框架的管理,同時也要接受數據安全管理框架的管理,最后開放的價值數據將通過數據運營框架對外提供數據服務。數據中臺的數據架構應該獨立規劃,并采用合理的技術架構對不同類型的數據進行存儲。
數據存儲框架中,無論數據采用對象存儲、塊存儲還是數據庫存儲技術,各種中臺數據可按照上圖所示分類管理。對于不同數據的存儲技術本文不再討論。源數據主要由采集框架進行管理,數據治理框架按照數據特征把數據簡單分為結構化和非結構化數據兩大類,而規范化分域數據則是數據治理框架對全量數據的規范化分域整理。寬表數據是數據關聯的結果,利用寬表數據可以對人、事、地、物、組等對象進行完整的數據畫像,同時寬表數據也可以作為上層模型數據的中間層數據。元數據和標簽數據都是對數據的描述,其中元數據用來對數據的客觀屬性進行表示,標簽數據更傾向于管理者對數據的主觀表述及等級劃分,比如質量等級標簽、安全標簽、屬性標簽等。主數據需要在各系統間頻繁更新、交換,且需要獨立的存儲空間進行維護管理。[3]
4.2 數據采集框架
數據中臺的采集框架應對納入數據中臺的各種源數據進行統一采集管理。數據采集框架中應提供多種數據采集方式,如文件傳輸協議(File Transfer Protocol,FTP)采集、數據庫采集、接口應用程序(Application Programming Interface,API)接入采集、流式采集及網絡爬蟲采集。同時采集框架應按照數據采集規范對源數據進行預處理,從而去除明顯不需要的數據及多余數據,并對采集過程進行管理。雖然數據中臺的體系架構沒有統一模板,但各企業數據采集框架基本一致。
4.3 數據處理框架
數據處理是每個數據應用的基本環節之一,經典的數據抽取、轉換和加載(Extract Transform Load,ETL)處理流程在數據采集預處理、數據整合、數據建模等多個地方均要使用。單獨建設數據處理框架有利于數據處理工具組件的集中開發與管理,也有利于數據中臺數據處理任務的協調與調度。數據處理框架專門負責數據處理相關的任務,包括批處理、流處理、人工智能(Artificial Intelligence,AI)分析、數據清洗、數據交換及查詢,此外數據處理的相關工具組件可在處理框架中配置。任務調度模塊在數據處理框架中處于居中指揮的作用,并對運行的數據處理任務進行監控及異常處理等操作。[4]
4.4 數據治理框架
廣義的數據治理不僅包含提升數據價值的內容,如數據管理、數據目錄、數據質量等,也包含數據安全管理及數據共享服務。數據安全管理與數據價值提升是一個矛盾體,如果由一個廠商或開發團隊進行數據安全管理及數據價值提升相關軟件的開發,則開發者的操作難免有所偏向,而且矛盾不容易公開,少了沖突也就少了優質的解決方案。另外,數據共享與數據治理的其他內容也存在相同的問題。數據治理框架包含數據目錄、數據管理、模型管理和數據質量 4 個模塊。數據地圖、數據資產目錄、知識圖譜及數據血緣的主要作用是展示數據的屬性及相互關系,因此都納入數據目錄模塊。數據模型能提高數據中臺對外部應用需求的反應能力,固化的中間模型數據需要專門管理。模型管理包括模型目錄、模型血緣及模型地圖等。數據管理又可以細分為元數據管理、主數據管理、標簽數據管理及源數據管理。數據質量管理模塊按照制定的數據標準及數據稽核規則對數據中臺中的數據進行質 量管理。
4.5 數據安全框架
數據已經成為數據資產,數據安全框架是數據中臺必不可少的組成部分。數據安全疊加在數據中臺其他功能框架之上,數據采集、處理、交換、共享等每個環節均必須實施安全控制策略。安全框架可以分為日志管理、用戶認證、權限管理及加解密等幾個功能模塊。此外,安全全門戶也可以對外提供安全能力封裝,展示數據中臺的安全態勢及安全視圖。[5]
4.6 數據運營框架
數據中臺的核心功能是綜合眾多數據應用的數據處理及數據治理功能,集中建設、集中管理、減少冗余、增加復用。數據中臺的最終目的還是為其他應用或開發者提供數據服務,而對外數據服務功能將直接面向不確定的外部對象。因此單獨建設數據運營,一方面有利于針對外部用戶提供針對性功能;另一方面,數據運營模塊作為用戶與數據中臺核心數據服務之間的中間層,可以有效隔離外部用戶直接控制、接觸核心數據及應用,可保護數據中臺的安全性及內部功能的穩定性。綜合以上因素,數據運營應配置運營門戶、能力開放、數據開放及運營監控等功能。
(1)運營門戶:對數據中臺管理者提供管理門戶,對開發者提供開發者門戶。對內部應用提供內部應用門戶,對外部應用提供外部應用門戶。運營門戶針對不同的用戶提供不同的通道并開放不同的數據中臺能力。
(2)能力開放:把數據中臺的數據處理能力、數據分析能力等經過適當的封裝后對用戶提供服務,可以是微服務,也可以是 API 接口,或者直接提供二次開發能力。[6]
(3)數據開放:通過數據目錄,數據 / 模型展示(可視化、數據視圖等)為其他數據應用系統提供數據服務。
(4)運營監控:對數據中臺的總體運營情況進行監控管理,包括硬件環境、軟件環境,并且確定監控指標,按需求提供運營日報,處理告警 信息。
5、數據中臺架構建設運營策略
數據中臺的建設以“一切數據業務化,一切業務數據化”為終極目標,數據中臺的建立不是一蹴而就的,每個企業都應該基于實際打造獨有的中臺能力,在這個過程中,需要遵循運營思維,主要包括:
第一,企業的組織架構及機制需要順勢而變,比如以前負責數據的部門或團隊往往缺乏話語權,面對業務需求往往是被動的接受的角色,這讓一切數據中臺的想法化為泡影,需要為數據中臺團隊授權。
第二,要改變工作方式,現在很多企業的數據團隊的主要工作內容就是項目管理、需求管理等等,當一個項目完成后又投入到下一個項目,做好一個需求后又開始負責下一個需求,這樣的工作確實非常鍛煉人的組織、協調能力,但這樣能力的提升與工作時間的長短并不是呈線性增長的,雖然增加了項目和需求管理經驗,但并不能在某一個專業領域得到知識和經驗的沉淀,隨著時間的流逝,越來越多的人會失去最初的工作積極性和創造性,事實上,數據分析人員只有深入的研究業務、數據和模型,端到端的去實踐,打造出數據中臺,才是最大的價值創造,才能使得持續創新成為可能。
第三,數據中臺的團隊要從傳統的支撐角色逐步向運營角色轉變,不僅在數據上,在業務上也要努力趕超業務人員,中臺人員要逐步建立起對于業務的話語權,不僅僅是接受需求的角色,更要能提出合理的建議,能為業務帶來新的增長點。
6結語
總而言之,建設數據中臺,實現企業或機構數據資產的高效管理和數據價值最大化,為機構帶來了數據平臺化的運營機制,有望解決應用開發與數據開發速度不匹配的問題。利用數據中臺,可以將機構的核心技術或團隊凝聚在一起,建設機構內強大的數據開發、運營等團隊,提升機構的團隊的硬實力和軟實力。雖然一個良好的架構對一個信息系統的后期擴容及運維有重要作用,但總體架構設計只是數據中臺建設的第一步,每一個功能模塊還有很大的細化空間,如不同類型數據的存儲技術選型、數據安全合規審計技術、數據模型設計等。在具體項目中,數據共享與安全保護的平衡點、新技術的引用等,都需要進一步細化研究。
參考文獻:
[1]劉曉.阿里巴巴:數據技術驅動媒體深度融合轉型[J].國際品牌觀察,2021(24):44-49.
[2]金亦武,張篤展.銀行業數字化中臺建設構想[J].中國市場,2021(24):180-181.
[3]吳建杰.基于數據“中臺”模式的鋼鐵企業信息系統數據整合探索與實踐[J].天津冶金,2021(4):38-40.
[4]李小慶.銀行智能中臺創新研究和實踐[J].金融科技時代,2021,29(8):22-26.
[5]陳志. 搭建中臺? 挖掘數據? 提升監管水平[N]. 東方煙草報,2021-7-22(003).
[6]楊敏, 何海濤, 張永強. 基于數據中臺的校園數據體系設計與建設[J]. 深圳大學學報(理工版), 2020,37(S1).
作者簡介:呂軍(1976.12—)男,漢族,四川綿陽,本科,工程師,軟件工程
通訊作者簡介:郭健(1986.03—)男,漢族,四川綿陽,碩士,中級工程師,軟件工程。1073544789@qq.com