張宏遠
(上海郵電設計咨詢研究院有限公司,上海 200093)
進入信息時代,隨著數據產業的蓬勃發展,數字化建設如火如荼。“數字中國”“互聯網+”等國家戰略項目已在資源、可持續發展、環境以及行政辦公等領域取得了良好的效果。數據是資產、資源,但如何把數據資產、數據資源轉化為社會收益和企業利潤,還需要多方探索。當前,機構和企業不再建設從源數據采集到分析應用的煙囪式系統,更傾向于數據集中采集、存儲,并應用分層建設。這種方式一方面有利于應用系統的快速部署,另一方面也保證了數據的集中管理與運營,體現數據的資產、資源屬性。數據中臺的出現彌補了數據開發和應用開發之間由于開發速度不匹配而出現的響應力不足等問題。
數據中臺是國內學者提出的概念,起始于阿里的“大中臺、小前臺”概念。阿里的中臺是從管理的角度出發,以中臺事業部集中數據搜索,技術及產品,數據共享等多個部門的功能。其他組織或企業建設數據中臺不一定需要成立中臺事業部,但是數據集中治理與提升數據價值轉換效率的思路是一致的。有學者提出了一種基于數據中臺的數據治理系統,認為數據中臺是一種大數據架構,用來完成數據治理[1]。也有學者認為數據中臺并非指大數據平臺,數據中臺完成數據治理后會形成標準數據,再對數據進行存儲,進而形成大數據資產,可以為用戶提供高效的優質服務。
數據中臺的作用已經在生產實踐中得到普遍認可。阿里的線上商城離不開數據中臺,運營商的項目投資建設、銷售品管理及用戶管理離不開數據中臺,家譜管理也用到了數據中臺[2],但迄今為止沒有一個通用的數據中臺體系架構能指導各行業的數據中臺建設。本文從數據中臺建設、管理、維護的角度出發分析數據中臺的核心要素,梳理出一個通用的數據中臺體系架構,提高數據共享能力,減少各子系統的功能耦合度,增加功能復用率,減少軟件功能的重復開發與投資。
數據中臺(Data Central-Platform)[3]可以用來進行數據治理,利用數據中臺實現業務數據的流轉、數據流向的梳理、數據質量的清洗以及數據提供的能力。根據數據治理協會(Data Governance Institute,DGI)的定義,數據治理指的是對數據相關事宜的決策制定與權力控制。數據治理的目標是提高數據的質量(準確性、及時性、完整性、唯一性、一致性、有效性),確保數據的安全性(保密性、完整性及可用性),實現數據資源在各組織機構部門的共享,推進數據資源的整合、服務和共享,從而提升企事業單位信息化水平,充分發揮數據資產作用[4]。技術上,數據中臺是一種大數據架構,用來完成數據治理,進而支撐線上應用系統建設,挖掘數據隱含價值。
本文認為數據中臺是一個物理存在的系統,是企業或機構需要建設的位于數據源與數據應用系統之間的一個中間平臺。數據中臺鏈接數據后臺和數據前后,將無質量的后臺數據匯集在一起,形成大數據,通過數據治理梳理出有效的數據。數據中臺是數據三層結構中的中間層,主要負責數據匯集、數據治理和提供數據能力,為應用服務提供個性化數據服務[1]。這里的數據中臺并非指大數據平臺,而是指通過數據技術對海量的數據進行采集、計算、存儲和加工,并統一標準和口徑。數據中臺完成數據統一后會形成標準數據,然后再對數據進行存儲,進而形成大數據資產層,為用戶提供高效的優質 服務[5]。
數據中臺是眾多數據應用系統中可集中建設與維護的一個共享數據平臺,是數據生產系統中的一環。數據中臺一定具有大數據平臺的功能,但大數據平臺不需要具備數據中臺的功能。數據治理是數據中臺及大數據平臺不可或缺的核心功能,數據中臺需要專門的數據治理子系統[6]。以通信運營商為例,其數據中臺定位如圖1 所示。

圖1 數據中臺的系統定位
不同的企業對數據有不同的需求。企業數據應用不斷更新迭代,企業的中臺系統也需要不斷變化。因而,有些學者認為無法創建統一、規范的數據中臺模板供其他企業借鑒與使用。企業需根據自身業務的需要,構建適合于本企業發展的數據中臺[2]。但是從數字系統的核心任務分析,數據中臺一方面對大量上層數據應用系統公共數據處理的部分功能集中建設,另一方面對數據進行治理,利用算法挖掘數據中的隱藏價值,提升數據質量并開放給其他數據應用系統,因此一個通用的數據中臺至少應滿足數據應用的中間處理與數據治理。從數據處理與數據治理兩個維度出發,本文設計了一個解耦的數據中臺體系架構。該數據中臺體系架構具有一定的柔性,可按照企業應用需求進行組合,或者對單個模塊進行擴充,能滿足大多數企業數據中臺建設的需求。
數據中臺的通用體系架構如圖2 所示。該中臺體系架構以減少功能冗余和提高功能復用為原則,把數據中臺解耦為6 個可以分別獨立建設、演進的功能子系統。數據結構與數據處理子系統是數據中臺體系架構的核心,數據治理是提升數據價值的重要手段。該數據中臺體系架構的通用性表現在以下幾點。

圖2 數據中臺體系架構示例
(1)該數據中臺體系架構綜合考慮了數據中臺的各種要素,參考這個架構進行建設可以有效提升數據資產價值,提供數據及服務的共享。
(2)參考這個數據中臺體系架構,企業可以一次規劃、分步實施。首先建設處理子系統及數據存儲子系統,然后根據業務發展需求,逐步補充數據采集、數據安全及數據治理子系統。
(3)該數據中臺由6 個解耦的子系統組成。企業在立項建設時可以靈活組合,每個子系統單獨招標建設,也可以把多個子系統合并招標建設。
數據中臺通用體系架構包含數據存儲框架、數據采集框架、數據處理框架、數據治理框架、數據安全框架及數據運營框架等6 大部分。
數據中臺的核心是數據,數據通過采集系統獲取,然后數據經過處理框架加工,并接受數據治理框架的管理,同時也要接受數據安全管理框架的管理,最后開放的價值數據將通過數據運營框架對外提供數據服務。數據中臺的數據架構應該獨立規劃,并采用合理的技術架構對不同類型的數據進行存儲。
數據存儲框架中,無論數據采用對象存儲、塊存儲還是數據庫存儲技術,各種中臺數據可按照上圖所示分類管理。對于不同數據的存儲技術本文不再討論。源數據主要由采集框架進行管理,數據治理框架按照數據特征把數據簡單分為結構化和非結構化數據兩大類,而規范化分域數據則是數據治理框架對全量數據的規范化分域整理。寬表數據是數據關聯的結果,利用寬表數據可以對人、事、地、物、組等對象進行完整的數據畫像,同時寬表數據也可以作為上層模型數據的中間層數據。元數據和標簽數據都是對數據的描述,其中元數據用來對數據的客觀屬性進行表示,標簽數據更傾向于管理者對數據的主觀表述及等級劃分,比如質量等級標簽、安全標簽、屬性標簽等。主數據需要在各系統間頻繁更新、交換,且需要獨立的存儲空間進行維護管理。
數據中臺的采集框架應對納入數據中臺的各種源數據進行統一采集管理。數據采集框架中應提供多種數據采集方式,如文件傳輸協議(File Transfer Protocol,FTP)采集、數據庫采集、接口應用程序(Application Programming Interface,API)接入采集、流式采集及網絡爬蟲采集。同時采集框架應按照數據采集規范對源數據進行預處理,從而去除明顯不需要的數據及多余數據,并對采集過程進行管理。雖然數據中臺的體系架構沒有統一模板,但各企業數據采集框架基本一致。
數據處理是每個數據應用的基本環節之一,經典的數據抽取、轉換和加載(Extract Transform Load,ETL)處理流程在數據采集預處理、數據整合、數據建模等多個地方均要使用。單獨建設數據處理框架有利于數據處理工具組件的集中開發與管理,也有利于數據中臺數據處理任務的協調與調度。數據處理框架專門負責數據處理相關的任務,包括批處理、流處理、人工智能(Artificial Intelligence,AI)分析、數據清洗、數據交換及查詢,此外數據處理的相關工具組件可在處理框架中配置。任務調度模塊在數據處理框架中處于居中指揮的作用,并對運行的數據處理任務進行監控及異常處理等操作。
廣義的數據治理不僅包含提升數據價值的內容,如數據管理、數據目錄、數據質量等,也包含數據安全管理及數據共享服務。數據安全管理與數據價值提升是一個矛盾體,如果由一個廠商或開發團隊進行數據安全管理及數據價值提升相關軟件的開發,則開發者的操作難免有所偏向,而且矛盾不容易公開,少了沖突也就少了優質的解決方案。另外,數據共享與數據治理的其他內容也存在相同的問題。因此,本文建議數據中臺的數據治理框架中不包含數據安全與共享的相關內容。
數據治理框架包含數據目錄、數據管理、模型管理和數據質量4 個模塊。數據地圖、數據資產目錄、知識圖譜及數據血緣的主要作用是展示數據的屬性及相互關系,因此都納入數據目錄模塊。數據模型能提高數據中臺對外部應用需求的反應能力,固化的中間模型數據需要專門管理。模型管理包括模型目錄、模型血緣及模型地圖等。數據管理又可以細分為元數據管理、主數據管理、標簽數據管理及源數據管理。數據質量管理模塊按照制定的數據標準及數據稽核規則對數據中臺中的數據進行質 量管理。
數據已經成為數據資產,數據安全框架是數據中臺必不可少的組成部分。數據安全疊加在數據中臺其他功能框架之上,數據采集、處理、交換、共享等每個環節均必須實施安全控制策略。安全框架可以分為日志管理、用戶認證、權限管理及加解密等幾個功能模塊。此外,安全全門戶也可以對外提供安全能力封裝,展示數據中臺的安全態勢及安全視圖。
數據中臺的核心功能是綜合眾多數據應用的數據處理及數據治理功能,集中建設、集中管理、減少冗余、增加復用。數據中臺的最終目的還是為其他應用或開發者提供數據服務,而對外數據服務功能將直接面向不確定的外部對象。因此單獨建設數據運營,一方面有利于針對外部用戶提供針對性功能;另一方面,數據運營模塊作為用戶與數據中臺核心數據服務之間的中間層,可以有效隔離外部用戶直接控制、接觸核心數據及應用,可保護數據中臺的安全性及內部功能的穩定性。綜合以上因素,數據運營應配置運營門戶、能力開放、數據開放及運營監控等功能。
(1)運營門戶:對數據中臺管理者提供管理門戶,對開發者提供開發者門戶。對內部應用提供內部應用門戶,對外部應用提供外部應用門戶。運營門戶針對不同的用戶提供不同的通道并開放不同的數據中臺能力。
(2)能力開放:把數據中臺的數據處理能力、數據分析能力等經過適當的封裝后對用戶提供服務,可以是微服務,也可以是API 接口,或者直接提供二次開發能力。
(3)數據開放:通過數據目錄,數據/模型展示(可視化、數據視圖等)為其他數據應用系統提供數據服務。
(4)運營監控:對數據中臺的總體運營情況進行監控管理,包括硬件環境、軟件環境,并且確定監控指標,按需求提供運營日報,處理告警 信息。
數據中臺是近年來源于國內的技術概念,旨在利用數據技術對海量數據進行采集、存儲、計算、加工、統一表示,形成規范后的數據API,進而提高數據的共享能力[2]。數據中臺包含豐富的功能要求,其中數據治理、數據存儲、數據處理、數據安全等都可以深入研究。在數據治理方面,國內學者[7]采用文獻調研法對數據治理的概念、體系、內容和應用的相關研究進行述評,并指出“框架體系”“模型設計”是未來重點研究領域,而數據中臺是數據治理的前提,因此做好數據治理的前提是建設數據中臺[3]。本文從建設周期、投資與運維管理的角度出發,對數據中臺的建設要素進行分析,設計了一個解耦的數據中臺通用體系架構。
建設數據中臺,實現企業或機構數據資產的高效管理和數據價值最大化,為機構帶來了數據平臺化的運營機制,有望解決應用開發與數據開發速度不匹配的問題。利用數據中臺,可以將機構的核心技術或團隊凝聚在一起,建設機構內強大的數據開發、運營等團隊,提升機構的團隊的硬實力和軟實力[2]。雖然一個良好的架構對一個信息系統的后期擴容及運維有重要作用,但總體架構設計只是數據中臺建設的第一步,每一個功能模塊還有很大的細化空間,如不同類型數據的存儲技術選型、數據安全合規審計技術、數據模型設計等。在具體項目中,數據共享與安全保護的平衡點、新技術的引用等,都需要進一步細化研究。