張 潔,許建宏,肖 偉(中國聯通研究院,北京 100048)
當市場不再處于空白期、快速發展期,而是進入了增長放緩、存量維系階段時,企業之間的競爭力就主要體現在服務質量和運營成本等方面,此時,IT 系統的智能化支撐尤為重要,而這嚴重依賴于企業各方面數據信息的掌握、貫通、應用甚至預測。數據中臺應運而生,很多知名先進企業早已開始了數據中臺的嘗試。本文將從建設數據中臺的意義、數據中臺在IT架構中的定位、數據中臺功能架構及數據中臺建設的關鍵要素等幾方面,論述數據中臺建設思路。
在傳統的煙囪式IT 架構中,各系統從后端到前端相互獨立,緊耦合開發,導致系統臃腫、建設效率低、無法快速響應業務,且存在大量重復建設工作。為解決上述問題,需要整合出一個中間組織,為所有的項目提供一些公共資源。這個中間組織即為“中臺”,其中,匯聚數據資源,統一提供數據及相關服務的就是“數據中臺”。
數據中臺是企業級公共的、可復用的數據及其衍生能力的組合,相比數據倉庫或數據平臺,數據中臺更強調面向業務的賦能,其良性結果是平臺化、生態化企業的構建,以數據為核心、平臺為支撐,來驅動前線業務變革。
構建中臺必然需要建設成本、組織成本、時間成本,并非所有企業都適合建設中臺。創業型公司,以生存為首要目的,需以最快速度打造產品,野蠻生長是其必然選擇;發展到一定規模的企業,產品得到市場認可,公司的目標從“生存”走向“發展得更好”,可以考慮向中臺架構發展;大規模的企業,各類產品、服務、部門、系統錯綜復雜,為了滿足市場競爭要求,即便困難重重,也需調整架構,打破以往的職能模式,向“前中后臺”的平臺式組織過渡,進而向更加靈活的形態發展。其中,數據中臺的價值在于加速從原始數據到價值數據的過程,提高企業的響應力,滿足當前以“提高靈活性和速度”為重的新運營模式的支撐需求。
不少先進企業早已開始進行數據中臺的實踐,并取得了理想效果,為企業創造了價值,提升了競爭實力。
a)Supercell:基于中臺,打造快速業務試錯的核心競爭力。Supercell(芬蘭移動游戲巨頭),以《部落沖突》等全球熱門游戲聞名,經過6年時間將游戲開發過程中公共、通用的游戲開發素材、算法做了很好的沉淀,支撐2~7 個員工組成的開發團隊在此基礎上進行快速創新、試錯,從而用最快時間找到用戶真正喜愛的游戲。這種強大的業務試錯能力是Supercell 的核心競爭力。阿里的中臺戰略也是由此受到啟發。
b)阿里:賦能業務前臺快速構建,促進企業線上線下業務線的擴張。阿里繼共享事業部成功建設業務中臺后,于2014 年成立“公共數據平臺及產品部”,將原來各自為戰的煙囪式業務線支撐模式轉變為數據共享戰略模式。阿里數據中臺的發展經歷了2012年以前的“追隨業務期”,2012—2014 的“頂層設計初探期”,2014—2015 的“頂層設計質變期”,2015 年3 月底,已實現同時服務20 多個BU,與業務中臺一起,賦能了應用前臺的快速構建,促進企業線上線下業務線的擴張,并成功支撐雙十一等大型活動。
c)百度:企業級的組織與架構,快速響應專業線的需求。由全企業統一的“數據工廠”組織團隊,負責公共數據的建設及服務,基于公司級通用數據倉庫,形成了全公司數據統一展示、管理、使用的運營模式,同時進行數據拉通、建模,快速響應公司各專業線的業務需求。
經研究發現,先進企業的數據中臺有以下幾條共同特點。
a)形成過程:中臺戰略并不是一個新型產品或概念,都是在業務發展過程中,逐步演進出來的,都經歷了“部門各自建設—出現問題(重復建維、系統壁壘、數據多份等)—公共沉淀”的過程。
b)團隊組織:數據中臺都是由一個獨立的團隊統一建設,上層應用可由不同的業務支撐團隊搭建。團隊成員首先要熟悉業務,需要技術與業務專家從業務視角建設數據中臺,保證中臺對業務的賦能。
c)建設模式:企業級公共數據在源頭統一,確保大家使用同一份公共數據;公共數據統一加工,以業務需求為導向,遵循同一套標準規范;上層數據應用依賴公共數據可以百花齊放。
d)服務機制:數據中臺所有數據服務必須通過統一的出口提供,并保證服務的一致性、可靠性,供上層應用一點調用。數據中臺建設過程中,盡量不對現有業務服務造成影響。建設完畢后對業務前臺賦能效果有很大提升。
e)高效運營:中臺團隊必須要找到高效的業務運營模式,以主動服務為導向提升自身重要性,才能夠真正轉型成為企業的“共享業務事業部”,而不是某種換湯不換藥的“共享IT支撐部門”。
由于每家企業的業務和組織情況不同,不存在通用的數據中臺標準架構,本文旨在根據數據中臺的使命及必要需求,設計一個基礎的數據中臺參考框架,企業可在此基礎上定制出符合自身條件的數據中臺架構。
如圖1所示,在企業前中后臺的整體架構設計中,數據中臺與業務中臺并列處于中間層,基于計算后臺,面向業務前臺。兩類中臺各司其職,業務中臺面向業務運營,進行共性流程的服務化沉淀,如將支付流程、訂單流程沉淀為支付中心、訂單中心;數據中臺負責數據管理,進行原始數據到數據資產的加工,并進一步將加工結果包裝為可調用的數據服務,為企業的業務及管理進行智慧化賦能。

圖1 數據中臺在企業整體IT架構中的定位
在企業IT 架構設計中,計算后臺、業務中臺、數據中臺與前端應用的分工及關系如下。
a)計算后臺負責基礎設施的統一管理劃配,統籌管理運維前中臺所使用的硬件資源、中間件、數據庫軟件、框架組件等資源。
b)業務中臺與數據中臺各司其責,統一面向前臺提供不同類型的專業服務。
c)隨著業務模式的變更,前臺應用向OLTP&OLAP 的混合形式發展,應用在充分了解中臺能力的情況下,自由組合各中臺的服務能力。
數據中臺的典型構成包括3 個基本層級,從下到上依次為數據湖、數據倉庫及數據超市(見圖2)。

圖2 數據中臺的基本構成
a)企業數據:企業所有IT 系統產生的數據,以服務業務生產為目的,標準化程度差,存儲周期短,包含無業務價值、冗余數據,無法直接提供數據服務。
b)數據湖:從企業基礎數據中,選取具有業務價值的數據,恢復數據完整性、可讀性,保留數據原始結構,形成數據湖。數據湖可長期存儲歷史數據,并且具備統一權限、安全等管理功能,以支持數據科學家類角色進行數據挖掘、探索。
c)數據倉庫:以OLAP數據關聯分析為目的,采用數據倉庫建模方法對分析所需數據進行標準化分層建模,供前臺和業務人員使用。
d)數據超市:基于數據倉庫明細,匯總數據,沉淀常用的數據產品,并封裝為各種形式的數據服務,供前臺應用直接調用、業務人員直接使用,進行高效數據分析等工作。
根據數據中臺的基本構成,將其IT 架構細化設計,整體框架如圖3所示。

圖3 數據中臺IT架構-level0
2.3.1 數據匯聚
為了進行全面的業務分析預測,需要廣泛地匯聚企業內外部系統的數據,以通信運營商為例,數據源可以分為如圖4所示的四大類。

圖4 通信運營商的數據采集范圍
除了廣泛覆蓋企業內IT 系統數據之外,根據企業業務,還需采集相關的非IT 系統數據,如基站信令、互聯網站數據、第三方合作伙伴的用戶數據等,打通整合后,為公司業務發展、決策提供支撐。
完成數據匯聚后還需要做好數據地圖的展示,讓企業人員了解公司的數據資產及分布情況。
由于數據源的種類、存儲類型不同,數據中臺的采集層需要具備滿足多種典型場景的采集技術,如數據庫直連采集、文件采集、爬蟲、實時消息采集、日志采集等。
2.3.2 數據加工
2.3.2.1 數據加工技術
根據主要業務場景,混搭使用多種業界先進數據處理技術,快速、高效、穩定處理各類結構化和非結構化數據。典型的數據處理場景分為以下3類。
a)批量處理:大數據分布式處理技術,以HDFS為基礎,具備常見的Hadoop 生態圈中的常用框架組件,用于處理實時性要求低的大批量數據。
b)流式處理:具備Flink、SparkStreaming、Storm 等典型框架,滿足不同場景的流式數據處理要求,用于處理實時性要求高的數據。
c)機器學習:具備成熟的機器學習框架、算法庫,提供復雜業務模型的訓練環境。
2.3.2.2 數據倉庫構建
“數據智能”(Data Intelligence)中一個必要且基礎的環節,就是數據倉庫的建設,同時,數據倉庫也是公司數據發展到一定規模后必然會提供的一種基礎服務。以主流的數據倉庫建模理論(如Kimball 模型等)為指導,做好數據標準化分層建設。按照企業業務總線,梳理出各類維度、事實,再以常用業務域分類,進行匯總、整合拉通,達到可復用、快速查找的目的。
2.3.3 能力沉淀
在進行一段時間的數據需求服務后,可將加工過程中常用的數據結果及功能沉淀下來,避免重復開發,同時,可以縮短需求響應時間。在大數據服務中,常見的數據能力有以下幾類。
a)數據產品:大部分數據加工結果可通過標簽、指標、業務挖掘模型來沉淀、共享,數據產品需要根據業務發展不斷補充并調優,保持產品的更新及準確性。
b)AI 能力:人工智能已在各行各業逐漸普及,基礎的AI 能力需要以低門檻的形式提供,方便使用,降本增效。
c)工具:常用的數據分析工具可沉淀在數據中臺,用戶直接云化使用,避免各個前臺應用分別部署維護,浪費資源。
2.3.4 開放共享
數據開放共享是數據中臺最重要的目的。做好數據開放,需從清晰展示數據目錄、多樣化開放手段、多角色多場景用戶交互及良好的平臺運營維護方面努力,讓數據使用者“了解”數據、“會用”數據、“敢用”數據。
a)數據目錄:以數據商店的形式,直觀展現大數據平臺加工的數據及能力內容,統一數據服務門戶;設計友好的交互界面,以業務語言解釋說明數據及能力的內容、使用方法和場景;讓用戶“了解”數據及能力。
b)開放方式:以多種技術手段開放數據及能力,包裝成完整的產品及服務,以支持各種不同場景的數據開放。
c)交互場景:面向不同層級的用戶,提供多種場景的數據服務,讓用戶“會用”數據及能力。目前數據服務主要分為自助式服務和主動式服務2 類,前者面向技術人員以租戶和交互式探索形式提供服務,面向非技術人員提供可視化自助分析工具,如拖拉拽配置組合各類數據標簽指標等;后者有專人對口不同業務部門,了解業務后深度服務業務分析,如建模、分析報告等。
d)開放運營:展示產品質量和使用情況,讓用戶“敢用”數據;做好平臺運維,保證使用穩定性、及時性;統計分析使用效果,反向促進能力提升;建立并維護問題反饋渠道,提升使用感知。
2.3.5 數據治理
數據治理目標:保證數據質量,促進數據開放,保持大數據工作可持續發展。
數據治理原則:輕量化、便捷化,以解決實際問題為導向,對數據生產起正向作用。
根據數據中臺常見痛點問題,提出以下幾個必要的數據治理要求。
a)基礎數據規范:制定基礎模型、編碼、指標及標簽的標準規范,并系統化支撐,可編輯可查詢,靈活更新。在各類系統開發建設過程中,所創建的數據如果在標準規范內已有定義,則直接引用標準,如果要創建標準規范以外的新型數據,需要先修訂標準再建設,保持數據規范、可復用、口徑清晰且一致。
b)數據開發規范:制定輕量化開發規范,標準化數據命名、加工腳本等常用關鍵環節;規范各場景開發/測試流程及路徑區域,避免相互影響,節省算力;同時,需通過統一開發平臺,系統化支撐標準落地,對開發過程進行監測、預警,維持有序的開發環境。
c)生命周期規范:制定各類數據的存儲策略,并寫入系統,到期前通知負責人,確認下線;定期清理長時間無訪問量的數據表,降低存儲計算成本。
d)數據監控:平臺元數據定期掃描比對,發現差異及時通知負責人;資源畫像、作業畫像、存儲畫像、計算畫像、用戶操作審計,多方位監控。
e)數據安全:主要分為內部數據安全和外部數據安全,前者涉及事前權限控制,事后操作日志可追溯;后者要保證數據不出門(在內部完成數據加工,輸出數據分析結果),并對關鍵信息加密、脫敏。
數據中臺的建設,除了滿足IT 系統技術條件之外,還有一些非技術性的關鍵要素,如果這些要素不能滿足,將會直接影響數據中臺的使用結果。
目前大型企業內部組織結構復雜,常見情況有本專業數據為部門私有資產,不愿意共享;各專業線人員對其他專業不理解,即使有業務場景,也不能發揮最優價值。這樣就導致數據中臺難成體系、難于推廣、難以發揮實質作用;數據拉通受阻,不能從根本上解決數據壁壘問題。
因此,跨域、互通的中臺建設需要跨域、跨專業的人員,如果人員分散在不同組織中,工作職責各不相關,接觸的領域各不相關,那么,任何跨域系統層級的技術性調整都難以發揮預想的作用。
參考先進企業的中臺團隊模式,由統一、跨部門的專業化團隊負責數據中臺的建設。成立企業級數據中臺團隊,由業務領域的分析人員、技術相關的數據研發工程師、運營相關的服務團隊構成,確保團隊構成的全面性與專業性,同時借此環境重點培養自有專業人才。以業務需求為導向,各域需求方參與中臺建設,相互支持依賴、監督要求。專業人員集中,在統一架構、規范下,逐漸優化公共數據能力。
前臺由各專業線IT 支撐團隊自由建設,但所有數據分析類功能,必須經過數據中臺,即明確是否調用中臺能力或將數據能力沉淀至中臺,中臺團隊權責匹配。
引入市場化、互聯網化的績效評價機制,對數據中臺團隊的建設及服務進行衡量,以使用效果為導向,包括所提供服務的使用頻率、前臺應用滿意度等。
需要建設數據中臺的大型企業,一般都是發展到一定規模后,發現煙囪林立的IT 結構不適合大型的改造、重構建設,影響業務支撐。對于這種情況,建議該企業采用邏輯上統一的中臺架構,以服務業務前端為前提,遵循統一標準,統一服務運營,并支持分布式部署。
a)統一需求入口:由各域業務人員、需求分析人員組成的專業需求團隊對上層應用需求進行分析、梳理、分解、指派。
b)統一服務出口:服務出口的責任方需要負責數據服務的統一封裝、制定并執行服務標準,提供標準、一致的服務。
c)數據研發:各域數據研發團隊組織統一但工作內容不變,橫向引入標準團隊,負責牽頭各類數據研發標準的制定,對現有模型、指標進行梳理,發現問題并牽頭與各域研發人員一起解決問題。
d)架構可擴展性:新業務或新技術(如5G、合作伙伴能力)帶來的新的公共能力模塊,可以按照目前的統一框架擴展分布節點。
發揮數據中臺價值的關鍵在運營。中臺團隊需要在建立系統化、規范化的開放機制基礎上,轉變思路,從被動服務轉變為主動“營銷式”服務,為業務前端創造價值,營造良好的開放生態。
a)明確統一的數據開放機制:數據是全企業的共有數據,讓更多的人用起來,才能充分發揮數據的價值。明確規定什么角色可以用什么數據、開通什么服務,并將規則固化落地到統一開放平臺中,系統化正規化,減少線下靠“刷臉”“打招呼”等人為交互。
b)服務化的中臺運營:以用戶視角主動服務,培養數據中臺使用習慣及模式,提升使用率(見圖5)。

圖5 服務化的中臺運營
由于需求企業的復雜情況(如業務支撐已穩定運行、IT 系統煙囪眾多、部門壁壘等),數據中臺的建設無法從零開始,需要在不影響現有業務支撐的條件下,分階段進行,一般可以分為以下四大階段。
a)一階段:制定標準規范、方法論并細化實施計劃,統一整合基礎數據層。
b)二階段:按照業界標準方法論,梳理企業業務總線,同時從梳理重點業務的底層數據入手,逐步優化構建數據中間層。
c)三階段:通過統一開放平臺優先支持新建的應用,同時對老應用進行改造遷移。
d)持續運維:數據中臺人員深入業務場景,不斷沉淀優化公共數據層。每年可針對公司戰略重點,與業務、前端IT人員合力建設。
隨著市場競爭的加劇,增速放緩,業務復雜的大型企業迫切需要建設信息共享中臺,即數據中臺,以打破部門間的信息壁壘,提升企業的智能化程度。而中臺本質上是改革,是一種戰略選擇,是資源的再分配與流程的再造,需要新的組織、管理模式與之匹配,而不僅僅是系統的建設。除了強大的數據匯聚、處理能力,有效的開放服務機制外,還需要配套的組織團隊、靈活的部署落地、互聯網化服務運營支撐,保證達到應有的效果。