劉曉天 顧大明

關鍵詞:數據治理;數據中臺;數據服務;數據標準化;高職院校
0 引言
隨著人工智能、大數據、云計算、物聯網等現代信息技術的快速發展與廣泛應用,我國高校信息化建設進入新階段。2018年4月,教育部發布了《教育信息化2.0行動計劃》,強調促進智慧校園建設全面普及,全面推進各級各類學校的智慧校園建設與應用。2021年3月,教育部發布《關于加強新時代教育管理信息化工作的通知》,明確要求加強教育數據規范管理、促進教育數據共享和強化教育數據質量保障。2023年6月,教育部教育管理信息中心下發《關于印發<全國教育智慧大腦院校中臺(高職/中職)數據標準及接口規范(試行)><全國職業院校大數據中心建設指南>的通知》,為高職院校數據中心建設指明方向,對高職數據治理和數據服務提出更高要求。
高校作為數據產生、擁有和使用的主體,數據積累量和內部復雜度不斷提升,數據整合困擾普遍存在。為此,本文開展了面向高職院校的數據治理應用研究,從數據治理角度對智慧校園建設進行統籌和設計,提出了契合高職質量和規模需求的、基于數據中臺的數據治理體系架構,以某高職院校正在實施的數據治理項目實踐為例,充分論證所提框架的正確性和有效性,實踐證明:所提框架,能夠有效解決數據的準確性、一致性和標準性等問題,有效促進高職院校的智慧校園建設。
1 高職院校數據治理困境
當前,高職院校數據中心建設和數據治理實施正逐漸成為數字智慧化轉型的基礎和關鍵,但由于傳統信息化建設“重應用、輕數據、缺標準”等歷史遺留問題和技術、經費、人員等因素限制,部分高職院校存在建設短板,如缺乏清晰的數據治理整體頂層梳理、缺乏數據呈現可視化模型等,數據治理的整體建設愿景實現得并不理想。
1.1 數據治理現狀分析
順應教育信息化2.0背景下的智慧校園建設的新要求和新變化,高職信息化建設總體呈現碎片化、服務化、移動化、可視化等顯著特點,即應用的碎片化,流程重構和數據互通的服務化,終端設備的移動化,數據分析和呈現的可視化。長久以來,高職信息化建設解決了大量的業務需求,但隨著系統規模增大、業務功能增加和數據持續堆積,逐漸出現一些問題:數據缺乏統一規范,沒有形成統一數據標準,存在數據重復錄入、不一致等問題,導致數據無法發揮應有價值;數據孤島依然存在,無法實現數據實時或高頻共享,仍存在雙向互通不全面、信息不對稱等問題,集成和共享覆蓋面不足,導致數據流通和共享率不高;業務系統建設缺乏頂層設計;數據價值體現不足,數據融合分析和智能化服務能力不足,統計分析的維度、廣度、精準度和可視度等有待加強,導致領導對校情數據掌控有限,數據的使用和查詢訴求難以有效滿足。
數據的整合、管理與使用成了目前制約高職院校智慧校園一體化建設的一個重要因素。因歷史原因,分散分期建設的業務系統內沉積了太多紛繁雜亂的數據,數據標準不統一,難以關聯、挖掘、統計和分析,無法形成整體視圖,數據共享難度大,數據價值無法充分開發,重要決策得不到綜合數據支撐,智慧校園整體建設效果大打折扣。因此,數據治理作為高職院校從“數字校園”邁向“智慧校園”的重要樞紐工程,是信息化建設當務之急。
1.2 數據治理主要難點
高職院校的數據治理在向深度治理推進的過程中,在數據采集、數據維度、數據標準、數據質量等方面存在著“數據不可知、數據不可取、數據不可控”等問題,難以支撐準確的大數據分析與應用。
主要難點[1]有:1) 數據中心黑盒運行,難以管理。數據中心黑盒運行,好處是使用者無需理解底層技術,即可實現實際應用的數據流轉,壞處是一旦數據流轉出了問題,要想準確定位排障,難度非常大。同時,數據中心的數據管理技術要求高、數據接口標準不一、數據標準缺乏全局統一、輸出不準確、共享集成門檻高等職能,缺乏統一的全域解決方案。2) 數據維度缺失,難堪大任。業務系統功能缺失、重疊,數據重復、缺失、不完整,數據采集只有主數據和結果數據等,使治理后的大數據應用畫像不完整、不準確,數據價值得不到充分利用。3) 數據標準不統一,難以共享。不同業務系統中對相同對象的不同建模、相同數據的不同描述,使數據的一致性不高,數據共享時更是似是而非,摸不著頭腦。4) 數據質量缺乏保障,難以采信。部分數據缺失、錯誤、不完整,數據結構不全面,難以支撐數據統計、數據上報、數字畫像等復雜應用場景的數據需求,數據的更新不及時、共享度不夠、完整度不高等問題,使為跨部門信息化管理和領導輔助決策提供可信數據支撐的難度提升。為解決這些問題,高職院校需要重點思考基于數據中臺的數據治理策略和方法,為信息化賦能。
為進一步加快高職院校業務系統的數據共享應用,盤活數據資產,支撐領導科學決策,構建全業務域、全數據域、全時間域和全質量管控域的全域數據中臺,以此為基礎,開展覆蓋數據全生命周期的數據治理,以應用為抓手,以業務為驅動,推進大數據應用,增強師生的信息獲得感,非常必要。
2 數據治理架構
數據中臺是規范數據標準、提升數據質量、整合現有資源,以此達到系統間數據無縫對接的一整套綜合管理平臺[2]。數據中臺是實現高職院校數字化轉型的關鍵基礎平臺,通過整合、分析和挖掘各類數據,為學校提供高效、可靠的數據支持和解決方案,助力教學質量提高、資源配置優化、科研創新提升等。
數據中臺兼有數據集成、數據模型、元數據管理、數據標準、數據質量管理、數據開放、數據監控等功能,對數據實施從采集到開放的全生命周期的開發和管理。數據中臺最終要實現的目標:以“數據資產化、數據標準化、數據共享化”為導向開展數據治理,基于一體化數據開發平臺,打通數據生命周期的各個環節,減少冗余,增加復用,以API接口服務方式實現數據共享與監控,快速響應用戶和業務系統的數據需求,以數據驅動業務和管理的創新。以數據中臺為基礎,構建全域數據中心,打通現有業務系統,杜絕“數據孤島”,全面實施數據治理、數據資產化運營和深度數據挖掘,最終實現學校全域數據的共享開放,為智慧校園建設提供強有力的數據支撐基座。
根據教育部教育管理信息中心下發的數據中心建設指南要求,結合高職院校基本校情,以“存管服用”為建設原則,基于數據全生命周期管理理念,基于“獲取-處理-使用-服務-反饋-評估”的過程監管和“發現-監督-控制-溝通-整合-協同”的服務模式,以數據標準為起點,服務應用為終點,數據閉環治理為保障,構建數據治理和服務治理相結合的基于數據中臺的數據治理體系框架[3-4],如圖1所示。
體系框架主要由“后臺的數據實體空間”“中臺的數據能力空間”和“前臺的數據應用空間”三個模塊組成。數據實體空間主要實現利用批流一體集成工具將業務數據、離線數據、機器數據等全量抽取“進湖入倉”的功能。數據湖倉由貼源層、標準層和應用層等組成。貼源層主要實現數據“1:1”抽取進入數據湖,標準層主要實現按照數據標準要求進行初步數據治理,并將初步治理的數據拉進數據倉庫,實現數據標準化,應用層主要實現對數據資產進行深度治理,并根據需要推送到相關主題庫。數據能力空間主要實現數據管理、標準管理、數據編目、集成管理、數據監控、主題管理等與數據相關的從入庫到開放的全生命周期的所有管理功能。數據應用空間主要實現業務服務中心(業務中臺)和數據服務中心的所有功能,兩個中心的所有應用和功能都基于治理后的數據實施,能夠有效提升業務執行效率和輔助決策準確性。另外,數據應用空間的數據糾錯、補錄和回填的數據反饋功能則是數據治理體系中必不可少的重要能力。
3 數據治理方案
本文以某高職院校全量數據中心和數據治理平臺建設實踐為例,充分論證上述框架的正確性和有效性。案例基于對學校全域全量數據的梳理、采集、清洗和標準化,建立了一個數據標準規范、來源權威、高度融合、質量可靠的數據中臺,在數據中臺中實現數據的全面采集、規范建模、質量提升、安全存儲、可控共享和充分應用,使數據的“存管服用”(存:實時批流湖倉;管:數據中臺;服:業務服務中心;用:可視化運營中心)達到高標準、高質量和高效率。
3.1 數據準備
高職院校傳統信息化建設“重業務,輕數據”,各業務系統數據不規范,標準不統一,即便相同數據的表述也可能千差萬別。究其原因,是因為數據方面缺乏整體規劃設計,所以,要想高職數據治理得到高質量推進,數據頂層設計和數據管理規范制定等相關工作必須先行。數據治理應作為學校“一把手”工程,由學校“一把手”領導主抓,由學校信息化職能部門牽頭,教務、學工、人事、財務、后勤、辦公室等業務部門協同,共同推進學校層面數據標準管理、數據質量保障、數據安全責任等規章制度體系的完善,共同推進所有業務系統的統一數據標準、統一開放接口、統一數據共享等事項的落地,共同推進數據產生、治理、運用、共享、傳遞和消亡的全生命周期的系統性管理。
3.2 數據治理
數據治理過程主要包括數據采集與識別、數據清洗與治理、數據應用與開放等環節,覆蓋數據“采集- 應用-消亡”的全生命周期。具體來說[5],首先,利用批流一體統一集成工具(API、ETL、DB源等)全量采集學校所有業務系統的全量結構化和非結構化數據(圖片、文件、音頻、視頻等),1:1進入數據湖貼源層;其次,通過對數據實施清洗、轉換、去重、糾錯、補漏等操作,對數據質量進行檢測,根據數據標準(國標、行標、校標等)對數據進行質量規劃綁定,按照標準數據模型和代碼對數據進行統一建模,形成數據資產,并按照“8大域”(公共服務域、行政管理域、教工數據域、學生數據域、科研數據域、教學數據域、財務數據域、資產數據域)的要求,分類將數據納入數據倉庫標準層;第三,根據數據應用與開放的實際需求,將數據歸結到學生預警、師生數字檔案、領導駕駛艙、數據門戶等不同的主題庫和診改、智慧大腦、高基報表等不同的指標庫,以應對后續數據開放的實際需求;最后,根據業務服務中心(業務中臺)和數據服務中心的數據需求,以API 接口的方式統一開放治理后的高質量數據,并開啟實時數據監控,保障數據流轉的時效性和數據應用的準確性,數據應用過程中,還需保持數據“治理-反饋”循環通道的暢通,持續迭代優化數據,提升數據質量。
3.3 數據反饋
數據的糾錯和補錄,作用在數據治理和應用的全過程。數據應用和呈現時,一旦發現數據有錯,可立即通過數據門戶中的反饋模塊,提交反饋意見,管理員收到后,對該數據產出的全鏈條開展排查,根據排查結果,對源頭數據進行處置或調整更新查詢條件,并再次推送,數據使用者對處置結果進行確認,至此,完成了一個完整的“治理-反饋”循環,如還不準確,則繼續推動循環。數據補錄是在數據需求無法得到滿足,需要提供新數據或某些字段缺少值等情況時,采用的一種數據補齊方式,可以到智能表單單獨填報,也可以到業務系統中進行源頭數據補齊。對數據的常態化糾錯與補錄,持續優化數據,是數據治理體系中必不可少的重要環節,充分保障數據治理的良性迭代和數據質量的不斷提高。
4 結論
數據中臺建設和數據治理體系構建,是高職院校數字化轉型的基礎,是智慧校園信息化建設的核心,開展基于數據中臺的數據治理體系構建與應用研究非常必要。高職院校在實施數據治理過程中面臨很多挑戰,如數據來源的多樣性、數據質量的保障、標準制定與執行等。本文探討了高職院校如何運用數據中臺來實施數據治理,并通過詳細的分析和研究,為數據治理領域的高校實踐提供了有益見解。通過實踐研究,不僅理解了數據治理的重要性,還揭示了數據中臺技術在實現全量、全維度、全生命周期數據管理方面的潛力。數據治理關鍵步驟的高效實施,如摸清家底、全量采集、標準制定、標準落地、積累與量化成果、知識庫建設以及制度形成與保障等,能夠確保數據管理的有效性和可持續性。數據治理不僅是一項技術性工作,更是一項戰略性工作。高職院校在數據治理方面的成功實踐不僅可以提高數據質量,還可以為學校的決策制定和教育質量提升提供有力支持。