徐正 杜婉君 侯靜嫻 孫子強 梅天樂
1.山東科技大學馬克思主義學院;2.山東科技大學藝術學院;3.山東科技大學校團委;4.山東科技大學數學與系統科學學院
隨著互聯網、物聯網、大數據等教育信息化技術的飛速發展,高校智慧校園建設已成為高水平大學建設的重要保障。高校教育數據是智慧校園建設的基本要素和重要資源,被稱為是智慧校園的“血液”。高校教育數據治理,消除數據孤島和提升數據質量成為當前智慧校園建設的必要支撐條件,也是高校信息化建設中的一項重要工程。本文以某高校為例,在技術支撐和服務管理兩個方面提出教育信息化環境下的數據治理方案,通過對現有教育數據進行檢測和治理,建立數據標準,完成數據的匯聚、檢測、治理等過程,實現了高校數據信息與校園其他業務的融合共享,推動了高校治理體系和治理能力現代化,為高校全面推進“雙一流”建設和內涵式發展提供有益參考。
隨著教育信息化建設的快速推進,我國高校信息化建設已由“數字校園”向“智慧校園”邁進[1]。但在高校教育數據治理方面還處于“摸著石頭過河”的實踐探索階段[2],存在數據治理制度不完善、業務部門數據治理意識不強、數據孤島等問題[3]。基于此,本文從某高校智慧校園工程建設的大數據治理現實情況出發,探討高校數據治理的方案路徑。
高校數據治理路徑包括:數據檢測、數據治理和數據審計等方面。數據檢測主要是通過預先定義的一系列的數據檢測規則[4],包括對數據的有效性、完整性、精確性、準確性、唯一性的原則進行數據的檢測,將有效、完整、準確的數據提交到主數據庫[5],并且將有問題、不符合規范的數據拒之門外,定期形成數據檢測報告,送給數據繁榮權威部門進行責令整改,確保進入主數據庫的數據是規范的[6]。數據治理主要是通過用戶在發現、使用數據過程中檢測主數據庫數據的準確性問題[7],將不準確的數據通過一定的流程和手段進行更新或報告給數據來源部門。數據審計主要是對主數據庫更新的所有數據進行審計[8],包括什么系統、什么時間對什么信息項進行了數據更新,更新前與更新后的內容是什么[9],確保對主數據的更新都有據可查。
高校數據治理路徑建設思路包括以下幾個方面:
(1)建設完善的數據質量檢查規則和應用體系。數據自身質量巡檢是指學校眾多業務系統在不同時期、不同廠商的各種客觀前提下建立的,其數據結構存在很大的異構性[10]。在這種情況下,原始數據的正確性、一致性、完整性和可靠性無法得到保障,導致依賴這些數據的分析平臺的決策數據不正確,甚至導致錯誤的決策。數據質量管理支持任意兩張數據庫表之間做數據一致性檢測,兩張數據庫表可以在同一數據源也可以在不同的數據源,可以比對兩張表之間記錄個數、記錄內容,任務結束生成一致性報告。記錄內容不同的數據需要展示源和目標的原始數據報表。
(2)支持自定義核查規則。系統內置通用核查規則外,系統支持自定義設置,自定義設置支持傳入表名、列名等外部參數,可以實現通用規則在多個任務中復用的要求。
(3)便捷的任務配置。規整配置是讓數據規整人員通過簡單圖形化的操作完成數據清洗轉換、抽取的操作,規整任務支持多種定時調度設置。數據規整人員通過圖形化方式來進行規整配置,配置過程中包含數據源、數據驗證、數據轉換等節點的配置。
(4)支持多種數據規整規則。數據的規整是要遵循一定的業務規則的,面對業務的原始數據開發人員是不知道如何進行清洗、轉換的,因此需要系統提供抽取轉換的規則。系統根據業務需要初始化常用的清洗轉換規則以及自定義的規則,系統中的規則是由系統初始化得出,不提供增刪改操作,但是可以根據業務需要進行自定義的規則制定。這次的轉換規則如下:格式轉換規則、內容轉換規則、字典轉換規則和自定義規整規則。
(5)實現數據全生命周期管理。通過主數據的定義將要素信息維度進行掌握,通過維度的掌握和數據庫CRUD 的方式,對主數據信息變更情況進行全生命周期的記錄,并同時記錄下數據信息變更的時間,實現一個主數據對象的數據變更記錄,并通過變更記錄的實現,可還原主數據生態變化情況。利用對象數據庫的存儲結構,將變化作為節點的分支存在主數據庫中。通過此類的變化可輕松的實現數據的全生命周期展現,改變要素數據的末態數據問題。可通過時間軸的方式,輕松的還原數據變化過程和詳細變化情況。
規則分類管理,可針對質量的檢查規則進行規則分類定義,以便于在質量規則定義時進行引用和對規則進行分類。常規規則配置,系統內置一系列質量檢查規則,主要包括身份證號、姓名、手機號等常見字段的格式檢查、邏輯規則檢查、字典項檢查等規則。自定義規則配置,可根據制定的數據標準和業務規范,對姓名、身份證、車牌號、日期、電話、郵箱、單位信息等信息項制定數據質量檢查規則,并配置好相應的核查標準,以便與常規規則互相補充,完成數據質量巡檢工作。
數據質量監控,可監測從各個業務單位匯集的原始數據,通過自動/手動方式發現原始庫中存在的數據質量問題。系統提供唯一檢查、非空檢查、外鍵檢查、代碼檢查、長度檢查、值域檢查、一致性檢查、自定義檢查等自動監測方式。系統主要提供兩個功能:實體重復記錄監測:列出所有表,對其中的重復記錄進行比對去重;參照關系監測:參照數據字典,提供標參數、列參數、庫參數等監測。
數據增量監控,可針對單表的業務數據在規定時間內數據變化的監控。通過建立監控任務,系統自動對其進行監控,并在監控后產生數據增量監控報告。
數據質量監控報告,可以查看數據巡檢任務的運行結果情況,比如被巡檢數據源符合數據規則的數量,總的問題數據的數量、記錄時間等,根據問題數量找到原始數據核對,保證數據的準確性。
數據一致性監控報告,可針對數據一致性監測出的結果進行顯示,解決由政務共享數據中心與原始數據源數據是否一致的信息報告,保證數據的一致性。一致性包括內容一致和條件一致兩類。
數據增量監控報告,可針對數據增量的結果進行顯示,實時、動態的掌握數據定時抽取的情況,以保持數據的及時性和同步性。
字典轉換規則,針對表述含義一致但表現、存儲形式不一樣的代碼進行規范統一映射到標準編碼上,字典轉換規則即將非標準的字典數據進行標準化轉換。根據定義的字典表標準,完成與標準字典映射。數據規整時需要根據字典轉換規則對非標準的數據字典表進行標準化轉換。
常規規整規則,可針對單個字段提供的數據規整規則,包括格式轉換、內容轉換等標準化處理規則,同時可以根據業務情況,進行自定義相關的規整規則,對數據進行加工、清洗的處理。
規整任務,可讓數據規整人員通過簡單圖形化的操作完成數據清洗轉換、抽取的操作。規整任務支持多種定時調度設置。
數據規整人員通過圖形化方式來進行規整配置,配置過程中包含數據源、數據驗證、數據轉換等節點的配置。各節點的功能描述如下:數據源:數據來源庫(表輸入)或數據目的庫(表輸出),配置的信息項包含數據庫的用戶名、使用到的表名,目標表與源表字段、選擇更新模式(全量、增量)、更新字段、更新條件字段等。
數據地圖,“數據地圖”面對校領導和業務部門,以動態化、形象化的方式實時展示各部門數據生產、共享、調用與預警情況,方便工作人員介入校園數據交換過程。形成項目建設成果的可視化呈現,從而進一步激發各部門數據共享熱情,推動數據質量提升。
運行環境監控,重點監控總控服務所在設備(本地監控),以及交換服務所在的設備(交換機)的基本信息與實時動態。
基于數據交換中心數據下發,繼承原有的數據交換平臺,在原有系統中對主數據庫的數據做T+1 的數據下發,并可對原有的共享至中間庫的服務模式升級到共享至業務庫的服務模式。
基于訂閱模式的數據下發,數據服務平臺應該支持訂閱發布模式,數據服務平臺能夠根據各個應用系統訂閱的內容對變更數據進行實時的推送。
基于API 的數據訪問,主數據庫按照標準開放數據服務接口,各應用系統可以通過這些接口主動獲取數據。由于在數據共享過程中會涉及到數據的安全,針對這個考慮將制定相應的審批流程,在數據共享過程中對數據進行授權、加密處理。
教育信息化時代,“數據治理”在高校智慧校園信息化建設中具有重要意義,同時也是是高校“雙一流”建設和發展的重要支撐,其高效數據治理的詳細流程圖如圖1 所示。本文從當前某高校數據治理面臨問題出發,在管理和技術等方面提出了一些路徑方案。未來,數據治理將大幅促進高等院校“教育和信息化”的深度融合,不斷提升挖掘教育數據的潛力,對提升高校的綜合實力,促進高校內涵式發展具有積極的推動作用。

圖1 高校數據治理流程示意圖Fig.1 Schematic diagram of university data governance process