魏顯偉
(中移鐵通有限公司山東分公司,山東 濟南 250011)
當前大數據技術迅猛發展,截至2020年大數據產業規模已經超過8 000億元,且始終保持快速增長的趨勢。在技術發展需求逐漸增加的情況下,誕生了數據中臺技術,該技術以“共享”與“復用”為核心,包括數據采集、集成與治理3個方面,與前后臺中的人力資源、財務以及內審等部門相對應,數據中臺技術在業務系統中的應用可極大地提高系統的應用效率,為企業建設與發展提供更多助力。
在數據時代下,各類數據信息爆炸式增長,數據的高效管理與應用成為處理數據的關鍵,以往數據建設方式逐漸滯后于現實需求,大數據需要得到更專業、更智能的處理。在該背景下,數據中臺應運而生,其屬于數據界面架構,依靠新技術從界面中復制數據,經過計算與加工后,為上層數據提供統一接口,使前臺數據分析與應用更加便捷、高效。該技術包括許多內容,例如數據資產、模型、治理、服務與全域數據中心等,以系統化、體系化建設的方式滿足當前企業發展的技術需求。在數據開發期間,核心模型變化較為緩慢,數據維護量較大,與業務創新速度間產生偏差。對此,可通過中臺技術彌補開發與應用間的矛盾,避免或減少出現響應力低等問題。
在中臺技術選型方面,根據數據流朝上進行技術選型,采用開源技術創建數據平臺,具體如下:抽取層采用sqoop進行離線抽取,一些非結構化日志可利用flume接入;文件系統可采用hdfs、kafka等,在流式數據總線中普遍應用文件系統;離線計算多采用spark與hive,個別采用tez;實時計算以storm與spark為主,當前較為流行的是Flink。以數據中臺核心為場景,與客戶業務、企業結構以及信息化發展間存在緊密關聯,業務架構較為復雜煩瑣,初始階段應做好頂層設計,結合業務預期編制整體規劃,對數據創新場景進行梳理,根據整體規劃探索相應的業務場景,由小到大地推導出全景架構。在現實應用中還應結合實際情況,立足于高價值的小場景,以此為中心尋找全景圖中的相應數據,由此迅速驗證價值,防止產生數據孤島的現象,再將多個小數據聯系起來,使中臺能力逐漸加強,業務價值也隨之提升[1]。
要創建高效、便捷的中臺架構,就離不開開源技術框架的支持,需要在各層次內選取最佳成熟組件。
2.1.1 數據接入層
數據接入層包括實時采集、數據復制、數據遷移與FTP等內容,采取大面積采集模式、實時采集socket Rocket、日志采集Flume以及復制SymmetricDS等。
2.1.2 數據模型層
數據模型層主要負責計算,利用Map Reduce進行離線計算,用Spark進行流式計算,用Hbse創建列式數據庫和時序數據庫等。在建模的過程中,可利用“M+”平臺、RapidMiner平臺進行挖掘;還可在特定場景內利用視頻、圖片等組件識別simon等信息。
2.1.3 數據服務層
數據服務層的管理內容應結合實際情況來確定,通過Spring Cloud發布相應數據,路由器選用Nginx,利用APM監測使用性能。
2.1.4 應用層
應用層包括圖形報表、預警監控以及大屏展示3個內容,分別采用Tableau、Bosun與SLCD等技術來實現[2]。
通常情況下,中臺技術可以在Hadoop的支持下實現,其中數據建模與服務為重點任務。敏捷數據平臺可簡稱為“M+”,可采用數據挖掘工具提高應用速度、降低成本投入。該平臺的創建應符合行業規定,將數據當作業務過程,為每個業務目標創建相應的挖掘目標,明確建模項目周期,在充分掌握業務流程與目標的基礎上,加大數據挖掘的強度,然后做好數據準備工作,合并待挖掘的數據,選出樣本,創建相應的模型,最后進行模型評估,依靠挖掘結果提高業務處理效率。該平臺利用J2EE架構,在SOA思想的支持下創建模型,其功能包括以下2個內容:1) 數據準備套件。可幫助用戶在短期內完成準備工作,采用異常值檢測、缺失值處理等統計方式,結合復雜數據處理訴求,快捷、高效地完成表級處理,還可無縫集成Java、SQL以及Python等腳本。2) 模型創建套件。該套件具有聚類、回歸、關聯以及推薦等算法。業務模型中帶有分析、貼近業務等算法,使用者還可結合自身需要存儲模板,也可分享給更多用戶使用。3) 模型評估。對模型種類沒有過多限制,可提供業內關鍵指標,例如召回率、均方差以及ROC曲線等,將指標對比信息直觀地展現出來,為使用者快速計算提供便利。
在Spring Cloud平臺的基礎上,可為中臺應用提供重要接口,主要作用為發布服務任務、管理路由與目錄等,為滿足當前企業的現實需求,還增設了服務監控與開發等功能,使平臺功能變得更加豐富。在平臺架構創建方面的主要內容如下。
2.3.1 服務開發
該功能可以輔助“M+”模型封裝,例如業務模型、作業流程以及接口定義等。同時還具有發布功能,這也是該平臺的特色所在,通過二次封裝進行服務發布,在服務端創建中心站,由客戶端來具體實施。該平臺可提供不同類型的發布方式,例如源數據、結果集等。
2.3.2 服務目錄
該組件可在Eureka的基礎上為用戶提供注冊、目錄管理等服務,用戶可通過中心站獲取所需要的服務,也可結合自身的需求訂閱相應業務。值得強調的是,只有在獲得訪問權、審批通過的基礎上才可為用戶提供服務。同時,對接口與批量服務應采取相應的管理方式。
2.3.3 服務路由與監控
該層的作用在于過載保護,確保服務始終可用,并與Kafka隊列、Eureka負載均衡以及Redis緩存機制結合起來,發揮輔助工具的作用,對接口指標、使用頻度、批量任務以及服務狀態等進行監控[3]。
以某省移動公司為例,該企業制定的中臺方案符合國家與行業的規定,與信息化建設趨勢相符,能夠妥善解決現存問題,打破技術瓶頸,充分發揮數據的價值。在建設理念方面,企業應堅持“四維度”原則:1) 打破內部不同部門間的壁壘,突破外部行業壁壘,依靠數據共享實現共贏目標。2) 資產化。對數據進行采集和治理后,使其變成可用、通用資產。3) 智能化。依靠數據自動挖掘、借助AI算法等,提高數據服務的智能化水平。4) 根據業務類型的不同將其劃分為多個專題,為領導層決策提供更加真實、可靠的依據。
該公司的中臺架構可分為4 個層次,例如接入層、模型層、治理層與服務層等,見表1。

表1 中臺系統架構
在業務中臺設計方面,可吸收借鑒先進的操作經驗,通過創建共享服務體系提升服務能力,從而更加靈活地應對前端變化,滿足企業的發展訴求。綜合分析服務場景與業務區域,對財務服務力進行細分,從而共享服務體系。在微服務架構的基礎上,利用數據庫技術分散多類業務壓力,創建分布式處理平臺,可為系統內不同中間件指標提供監控服務,使管理者能夠隨時掌握系統狀態。在中臺模式下,業務系統前端與從業者對接,在共享服務下不斷提高創新力。在為不同系統提供同一種服務的過程中,系統將設置多個中心,涉及監控、決策、用戶與資金等方面。
3.2.1 監控中心
將在信息系統中開展的全部業務納入監控范圍內,使“事后監控”朝著“事前、事中”等環節拓展,對系統質量進行監控,還可創建標準化流程,使績效評價體系更加完善,同時根據相應流程定期開展績效考核工作。
3.2.2 決策中心
在應用功能中,企業嚴格遵循靈活應用、更新優化的原則,創建模型主題庫、內容搜索等模塊;后臺處理可在對全體業務進行整合清洗后,形成統一化數據。在報表分析、模擬預測等方面,可利用不同業務數據完成建模、探究等任務,提前模擬可能發生的問題,并制定妥善的解決措施。
3.2.3 用戶中心
在企業賬號基礎上創建的統一化管理庫支持單點認證,允許多個業務系統同時應用。創建統一化的客戶中心,對用戶賬號、權限信息等進行集中化管理,將多個部分的信息整合起來,在統一渠道中進行集成管理。
3.2.4 資金中心
該內容主要集成各項業務與資金,其中資金監控以流量和存量分析為主,重點探究融資、財務與票據等指標。資金管理包括批復、上報以及融資臺賬等內容;賬戶管理以賬戶數量監控、回款管理以及資金運作為主;安全備付管理以測算、分析與下達為主。
根據現有數據執行運算屬于中臺管理的重要內容之一,主要包括2項內容:1) 數據合并。可從數據源中采集需要在Max Compute存儲空間進行計算的數據。公共數據源是自行安裝在ECS中的數據庫,將源數據導入線數據,再將二者同步、合并。2) 數據計算。在數據分析時,通過創建數據處理流程來增加處理節點,并在節點上編寫Max Compute SQL語句,再開展后續流程。上述語句與SQL較為相近,可在完成基礎運算后,輔助自定義函數處理更為復雜的語句,由此實現自身的功能。
在大數據的背景下,企業對中臺創建給予高度重視,并在數據湖的基礎上進行底座建設,包括數據開發、數據治理、全域數據模型以及運維中心等內容,設計理念如圖1所示。

圖1 某省移動公司中臺設計理念
對AI平臺來說,可利用Fusion Mind強化學習效率,提升AI的開發效率。在內置規則模板中評估數據質量,創造數據地圖,清晰、高效地對基本業務進行管理。在集成平臺中完成計算,通過Oracle進行采集,為使用者提供超過20種數據源。開發平臺還可以提供全流程開發工具,明確資源使用權限,提高數據服務能力,提升開發效率。在全模型范圍內提供大量加工數據支持,用戶可以根據自身需求進行選取。除此之外,中臺還具備自助分析、數據API采集等作用,可為企業發展提供第三方支持工具。數據中臺包括數據開發、挖掘、計算、脫敏、整合以及AI建模等內容;分析模型由傳統挖掘建模與人工智能共同完成;數據萃取包括數據集市、輕度匯總2個方面;數據管理包括資源圖譜、檢索以及數據流程管理等內容,業務架構如圖2所示。

圖2 內部業務架構
在應用新資金管控系統時,可以創建財務系統的中臺架構,以滿足前臺數據分析需求為目標,實現數據統一。為滿足不同財務管控的需求,還要打破以往的技術壁壘,結合使用者的真實訴求,設計和搭建中臺,定制個性化產品,實現快速部署的目標。在數據采集平臺中,可根據業務原始數據抽取并創建分布式架構,使系統內多點負載更加穩定且完善。在采集數據信息后,還可利用接口傳輸到分析層中,打破信息壁壘,使數據更加全面多元。在數據分析層內,還可利用機器學習相關算法,智能化地抽取數據,過濾無效信息,并減少對重復數據的使用,將相同類型的數據合并起來。利用分布集群與加工后的數據,對不同類型的資源進行劃分,再利用AI算法進行標記,形成多樣化數據包。在該基礎上,提升數據匹配率和數據檢索效率,使財務系統更加滿足業務需求,便于業務的個性化開展與管理。
綜上所述,當前企業市場競爭日益激烈,數據中臺作為數據整合的“指揮棒”,涉及組織、系統與數據等多個層面,可以充分發揮數據的價值理念。為實現業務系統數據共享、業務支撐的預期目標,對中臺戰略進行細致分析,在“M+”與SpringCloud平臺的基礎上制定解決方案,尋找最佳方式分析建模,使數據中臺的作用與價值得到充分發揮,為企業發展提供強有力的技術支持。