自從人們意識到在生產交易過程中產生的數據具有再應用的價值,與數據再應用的相關概念就層出不窮。基于不同時期的關注焦點,到目前為止大體上經歷了(手工)報表、報表系統、數據倉庫系統、大數據平臺以及最近很熱門的數據中臺等概念階段。這些概念雖不在一個維度上,但是他們代表了對應時期數據應用的最大特征,因此我們用這些概念來標識對應階段,簡單回顧一下數據中臺概念提出之前的數據應用的發展過程。
(1)(手工)報表:或稱靜態報表,就是以報表的形式來對數據進行簡單的統計和展現。可以是手工計算也可以采用一些簡單的報表工具來完成計算,例如EXCEL。這個階段的最大特點是數據的獲取是由人手工從生產交易環境中四處采集獲取的;另外因為是分散的紙質或電子報表,報表中的數據一般不會自動存儲,不方便再應用。這種形式在某些極小型的企業或機構還在使用,其解決的是方便數據統計和展現問題,表和表之間的數據是垂直分隔的。
(2)報表系統:就是通過一個計算機應用程序將常用的報表固化并按周期自動生成。報表系統可以獨立存在,但更多的是作為一個大的系統的一個應用模塊。相比較(手工)報表,報表系統的一個顯著技術特征是引入了數據庫管理系統(DBMS)技術,通過DBMS來管理存儲數據,通過報表工具生成所需的表格和圖形,同時也支持一些即時(ad-hoc)查詢,通常得到的是統計數據,數據大小有限。報表系統解決了周期性報表的自動生成問題,但采用的是和生產系統相同的關系型數據庫,支持的是以產品或業務為核心的企業經營模式。這種架構由于數據是垂直向上的,常出現不同部門的統計口徑完全不同的狀況。同時由于技術的限制,對比較細顆粒度的數據查詢的支持性不是很好。在報表系統的后期出現了分析型系統的概念,用于企業的經營分析,該系統逐漸和生產系統剝離。成為一個獨立的系統架構,如圖1所示。

圖1 報表系統架構示意圖
(3)數據倉庫系統:隨著企業信息化進程的推進,企業的業務系統越來越多,產生的數據也越來越多;同時企業的經營思路也從以產品為中心向以客戶為中心轉移。經營模式的改變要求企業的經營決策建立在客戶的全視圖基礎上,而客戶的數據分散在各個獨立的系統中,按照垂直業務來組織數據報表或分析系統無法支持企業的經營理念的轉變,數據倉庫系統應運而生。簡單地說,所謂數據倉庫就是按照主題匯集的數據集合,數據倉庫解決的核心問題是如何將數據按照主題進行組織并有效地支持各種商業智能應用,我們可以認為從數據倉庫系統開始才真正意義上對數據進行了有組織的規劃和應用:根據數據的應用需求,按照客戶等主題將來自于業務系統的數據進行有機的組成。為了實現這種需求,數據抽取、轉換和加載(ETL)成為數據倉庫系統的關鍵環節和關鍵技術,同時數據倉庫極大地拓展了數據的業務價值和應用范圍,在數據倉庫基礎上的各種商業智能(BI)工具也因此獲得很大的發展。數據倉庫的架構打破了數據垂直向上的煙囪結構,解決了部分統計口徑不同帶來數據不一致的問題。同時數據倉庫系統采用了能更好的插入和查詢大數據量的分析型數據庫管理系統,星型結構的數據模型和多維分析成為數據倉庫的最主要特征,在實際應用過程中,多層多顆粒的數據架構成為一種典型結構,“寬表”成為一個約定成俗的稱呼。在這個階段,元數據管理也被提出,如圖2所示。

圖2 數據倉庫架構圖
(4)(大)數據平臺:互聯網尤其是消費型互聯網的發展帶來數據形式發生了根本變化,數據呈現出3V特性(數量巨大、形式多樣、快速增長),文本、音頻和視頻成為主流,結構化數據只是一種類型而已,數據部門最迫切需要解決的問題是如何處理這些多元化的海量數據。傳統的面向結構化數據的數據庫管理模式已經不適應多形式的數據管理需求,一種適應于大規模數據處理的分布式計算處理技術得到了廣泛應用;同時,與數據倉庫不同的是,數據的獲取和組織不一定嚴格依據分析需求,大數據平臺所起的最主要的作用就是將結構的和非結構的數據納入管理,并進行處理;當業務有需求的時候,再把需要數據單獨提取出來,以數據集的形式提供給應用。大數據平臺出現伊始,數據業界就開始不斷地討論大數據平臺的應用問題,圖3是一個面向電信行業的大數據平臺設計架構示例,我們可以看到,除了根據用戶的需求提供定制化應用外,還希望將數據能力化封裝開放給第三方使用。對于前者,基本還是采用數據倉庫的應用模式,對于后者,開放的思路主要體現在3種模式上,包括數據即服務(DAAS)、平臺即服務(PAAS)和軟件即服務(SAAS),如圖4所示。雖然在機器學習和深度學習的加持下,對大數據平臺的數據需求很旺盛,即DAAS有其市場需求,但是由于數據的敏感性、歸屬的爭議性、應用的倫理性問題都有待解決,在實際應用中,數據的對外服務提供是非常謹慎的;大數據平臺由于自身技術(主要面向海量數據的處理)的原因,在其基礎上提供PAAS服務和SAAS服務的難度比較大,開發成本高,開發周期長,因此大數據平臺逐漸演化成一個數據處理和純數據提供平臺。

圖3 大數據平臺架構

圖4 大數據平臺應用模式
縱觀數據的發展歷程,我們一直在尋找一種有效地應用數據,將數據價值最大化的解決方案。每個企業分別在用不同的方式來盡可能地利用數據產生價值,同時處理數據帶來的各種問題。在本質上,數據解決方案就是如何根據業務需要進行數據治理和數據提供,而每一種方案都會囿于我們所要面對的數據世界的特點、業務發展的要求、技術手段的支持和數據價值的認識。從發展脈絡也可以看到,當數據來源與數據應用的范圍越廣,數據和業務的結合度越高,處理要求就越高,就越需要一個強有力的數據架構的支持。
隨著物聯網和AI技術的發展,我們面對的是一個越來越數字化的世界,無論是商業服務還是工業制造。按照大數法則,隨著數字化進程的不斷推進,當被記錄的數據趨向無限時,數據勾勒出的世界將與現實世界趨同。未來的數據理想是我們將不是和實體世界交互,而是和一個數字世界交互。映射在企業業務中,就是一切都是數據。雖然這種數據理想似乎還有些距離,但是這種數據價值觀已經獲得了高度的認同。因為數據和業務的關系已經悄然發生了改變:數據不再是業務的附屬產物,數據和業務已經逐步融合在一起,甚至成為業務創新的驅動力量。
一直以來,都是先有業務,后有數據,先有應用系統,后有數據系統,數據系統一直遵照著這樣一種流程:把生產系統中產生的數據周期性或者準實時地抽取出來,然后通過處理轉換加載到數據系統中,通過BI工具實現分析和決策支持。生產環境和分析環境是相對隔離的,我們把前者產生的數據叫做操作型數據,把后者叫做分析性數據。但是現在不同了,可能在生產或交易過程中就需要經過大數據處理或者AI處理的數據結果,例如在完成用戶訂單過程中我們需要向用戶智能推薦,需要實時價格策略,在完成支付過程中需要風險管控等等。尤其是物聯網的興起,應用大都建立在數據的基礎上,例如對機器的控制來自于機器的實時狀態。這些變化使得數據開發和數據應用的需求也發生了改變,主要表現在:
(1)跨域數據的共享需求越來越普遍和廣泛。無論是業務型應用還是分析型應用,不再是只需要單一的業務數據,更多的需求建立在跨域的數據基礎上。同時也可以觀察到,不同業務的數據需求的差異可能只是維度或顆粒度的略不同,很多甚至可能是相同的。
(2)數據響應的要求越來越高。這種響應有兩個方面,一是越來越多的應用需要實時數據的支持,一是數據的開發過程需要滿足業務開發的敏捷性要求。隨著業務由流程驅動逐步向數據驅動轉變,例如物聯網應用,數據會越來越多地參與到業務實現中,業務的實時性和不斷的創新變化需要一種新的數據架構以彌補響應力滯后的問題。
(3)在數據驅動型業務中,數據不再是被動地被需要。企業需要不斷地通過數據挖掘業務價值實現業務創新,例如通過數據開發使業務更智能,數據成為像原材料一樣重要的資產,數據開發和應用需要滿足價值探索的能力需求。這對數據團隊的業務理解和數據開發能力提出更高的要求。
為了適應上述的需求,一種新的數據思路逐漸被提了出來:以數據資產化為導向進行數據治理,以共享數據服務的方式實現數據共享,通過構建中間平臺,打通業務和數據環節,減少冗余,增加復用,快速響應用戶需求,實現數據驅動業務創新。
隨著這種數據思路的逐漸深化,數據中臺概念開始萌芽。阿里在《企業IT轉型之道:阿里巴巴中臺戰略思想與架構實踐》提出中臺戰略后,數據中臺的概念輪廓逐漸清晰化。時至近兩年,數據中臺儼然成為最熱門的討論點之一,方案產品蜂擁而出。數據中臺概念從思維層面過渡到技術實現層面。不同的企業由于自身的業務特性和需求的差異,在具體落地上,有著不同的導向和具體定位,其中具有代表性的有如下3種:
(1)以全域數據共享為導向:數據中臺以全域數據建設為中心,技術上覆蓋了從數據采集、計算加工到數據服務、數據應用等數據鏈路上的每一個環節,以此為生態內外的業務、企業、用戶提供全鏈路、全渠道的數據服務。以阿里為例,其生態體系內業務線眾多、數據能力又參差不齊,所以要實現數據驅動業務,讓數據發揮更大價值的最終目標首先必須解決全域數據管理和全面提升數據能力問題。經過幾年的實踐,阿里形成了一個四橫三縱的數據中臺架構,管理和運維最核心的基礎數據,以數據生態組件,構成核心數據能力復用,降本提效;通過技術賦能、數據連接和數據賦能,迅速的提升數據應用的迭代能力。
(2)以快速數據響應為導向:數據中臺的建設以如何簡單快速地使用數據為中心,通過數據技術和計算能力復用以及數據資產和數據服務復用,為業務提供自助化、實時化、統一化、服務化、管理化、可溯化的數據服務。以滴滴為例,滴滴的業務是建立在快速響應海量的數據請求基礎上的,面對這種多場景、全鏈路的業務需求以及多團隊、多目標的協作需求,滴滴構建了以快速數據交付為目標,以精益數據生產、智能數據目錄和敏捷數據治理、敏捷數據創新為支撐的數據中臺,實現業務-運維-數據協同,一鍵埋點,用戶行為軌跡全記錄,數據采集秒級同步,數據鏈路全監控,自動定位關鍵節點等能力,并以交互式查詢接口、數據地圖、數據圖譜、數據API等方式提供標準化數據服務和實時數據集成服務。
(3)以業務價值創新為導向:數據中臺以實現數據驅動的業務創新為目標。其建設以便于數據的業務價值挖掘和呈現為中心。數據中臺定位為數據資產化管理和數據價值轉化的承載平臺,通過聚合和治理跨域數據,將數據抽象封裝成服務,提供給前臺以業務價值。例如ThoughtWorks提出的精益創新數據體系,將數據中臺定位為數據服務加工廠,并定義了數據中臺的五大核心能力:數據資產的規劃和治理、數據資產的采集、獲取和存儲、數據資產的共享和協作、數據業務價值的探索和分析、數據服務的構建和治理、數據服務的度量和運營,通過這些能力保證數據質量和一致性,加速從數據到價值的服務產生過程,打造高響應力且更加智慧的業務。
表面上看,似乎數據中臺有著不同的表述,但其最終的目標是一致的,就是實現數據驅動的業務創新,從數據維度出發會發現雖然有側重點,但是核心環節具有共性,這種共性來自于數據發展的普遍特性以及數據部門面對的共性問題:治理、共享和服務。
如上所述,數據中臺在具體實施時,不同業務特點的企業會有不同的業務訴求重點和實施路徑,因此在技術維度上,每個企業不可能有完全相同的數據中臺實施架構,數據中臺不適合用某種特定特征或某項數據技術來做概念界定。但如果從數據維度出發,可以把數據中臺看作是一種數據解決方案,這種解決方案能夠適應物聯網和AI時代下的數據發展特性,解決企業數據共享和數據治理問題,滿足多元業務下不同應用場景數據重用效率和數據創新業務需求,是企業在數據思維指引下實現數據業務價值的數據體系,包括數據域、資產域和服務域三大協作集合,如圖5所示。

圖5 數據中臺參考架構
其中
(1)數據域:實現數據全量化組織的協作集合,即將企業全量數據從物聯設備、業務系統、第3方服務平臺、其他開發平臺等采集、匯聚、實時或周期加載接入,按照業務價值要求和服務轉化要求進行按需計算、主題化處理和高效存放。數據的類型包括結構化的,也包括文本、圖像、視頻、音頻等非結構化的。根據數據的來源和用處,可能會采用傳統數據倉庫、分布式文件系統、分布式關系數據庫、分布式NOSQL、時序數據庫等數據存儲和管理模式。計算的模式包括批量離線計算、內存計算、在線流式計算、ML/DL訓練等。
(2)資產域:實現數據資產化治理的協作集合。一個數據如果沒有任何的說明,是不具有業務價值內涵的,同時一個企業的數據要能夠實現共享并充分發揮價值,很重要的一個前提條件就是這個企業的數據必須是統一的并對整個企業開放。因此,不僅需要定義數據的大小、類型、顆粒、周期,每一種數據的來源、經過的處理過程、使用規則、用途、和其他數據的關聯性等,還需要將數據和業務價值對應起來,從業務層面出發制定數據標準,形成業務驅動的數據圖譜和行業協作的知識沉淀。除此之外,還應包括支持多種數據實體的統一搜索、基于數據價值或熱度的綜合排序等能力便于快速定位所需數據。數據的資產化治理的內容涵蓋很廣,涉及和數據的使用相關的業務、數據和服務的全面管理,是數據體系中最困難和最耗時同時最關鍵的部分,其直接決定了數據價值轉換的能力。越來越多的技術手段和工具應用于數據的資產治理,包括AI。圖中列舉了當前最主要的幾個協作模塊,例如類目、標簽、模型,標準、質量、安全以及全生命周期管理等
(3)服務域:實現數據服務化交付的協作集合,包括數據服務的開發和交付。通過API的方式提供數據服務,而不是直接把數據庫給前臺、讓前臺自行使用是數據中臺有別于數據倉庫等數據架構的一個主要特性。其強調的是機器與機器的接口,例如將數據計算分析出來的結果,不僅僅以報表等可視化形式讓人看,而更多的是以API形式將數據服務直接地嵌入到交易系統里面,變成業務功能或能力,例如價格策略、推薦引擎、風險管控、機器控制、智能識別等。這種將數據以服務的形式交付不僅保護了數據的隱私,維護了數據的安全,而且回避了數據的敏感性、歸屬的爭議性、應用的倫理性等問題帶來的對數據的限制性使用。除了數據,資產治理能力也是服務的一種重要內容,數據服務的開發能力直接影響數據價值的轉化,在AI技術的加持下,在業務智能和業務創新需求的推動下,數據智能服務的開發將越來越主流。
我們知道,數據實施一直強調整體規劃、分步實施的原則, 這是由數據的全局價值性和實施復雜性決定的,這個原則對于數據中臺的建設同樣適用:面向業務全景制定數據中臺的整體規劃,包括數據、資產和服務以及對應的技術選型,梳理探索數據創新業務場景,從具體的業務場景出發,從可實現性高的小場景落地入手,逐步完成業務和數據的沉淀。
雖然不同的企業應采用適合于自己的實施模式,但是基于數據中臺和業務的強關聯共性,如驅動業務價值創新、提供更高的業務響應力等,在數據中臺具體落地過程中,數據團隊不可避免地會遇到兩個共性問題:數據模型設計、數據資產治理和業務優化的協同問題和團隊的業務能力和工程能力的協同問題。這些問題因其會帶來組織架構的調整,進而影響企業的全局,已經引起了高度重視,在此做一簡單探討。
隨著新的業務場景、新的數據需求進入數據中臺,必然會對依據前一個業務場景構建的數據模型和資產模型提出修正。同時隨著數據的不斷規范,也會帶來原有業務本身的優化調整,從而影響模型的穩定性。因此,需要根據全景規劃對包括數據、資產和服務的各種模型和規則進行統一維護更新,否則會導致其他新的類似數據模型產生,形成新的數據孤島。為此,一個具備全局業務視角的整體設計和維護團隊顯得非常重要。
另外,數據中臺出現以前,數據是為分析服務的,業務人員和數據人員的工作界限相對清晰的和獨立;而數據中臺是為業務價值服務的,是用更高效、更協同的方式實現數據到業務的價值轉換,提供數據實時響應能力。因此對傳統的數據人員的業務能力和對傳統業務人員的工程能力提出了更高的要求的同時,更需要兩種能力協同工作。
這些都對企業的組織架構及機制提出了順勢而變的需求。2019年,在數據中臺的牽引下,一場組織變革的風暴席卷了阿里、騰訊、百度、京東等國內互聯網公司,在未來的轉型計劃中,都把數據中臺作為企業組織架構調整的核心方向。但是否所有的企業都要如此照搬呢?筆者認為需要進一步探討。
隨著技術和業務的發展,數據在企業中的價值越來越高,對業務的服務也逐漸從被動的、碎片的、間接的向主動的、共享的、直接的演變,不同階段的數據架構的演變過程正是適應了這種變化的需求。因此數據中臺并不是一個特殊的概念,也不是一個終極解決方案,只是數據在演變過程中的一個階段,未來當有新的數據形式出現,新的技術手段引入,新的數據架構也將會同步產生。和之前的數據架構相比,數據中臺借助于中臺概念,通過更多的技術手段驅動數據資產化和數據共享,通過數據提供方式的革新構建了一個更強有力的數據基礎。但其演變同樣具有延續性,從報表系統到數據倉庫到大數據平臺到數據中臺,前一階段的核心元素在下一階段的架構中并沒有消失,而是成為一個更優化的組件以適應新增加的組件,適應新的業務要求。這種延續性來自于貫穿始終的數據思維,即數據是企業的資產,是創新業務價值的源泉,是差異化競爭優勢所在。